1. Trang chủ
  2. » Luận Văn - Báo Cáo

khai phá dữ liệu dự đoán hành vi khách hàng ứng dụng trên nên tảng tiktok

16 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Để mọi người hiểu sâu hơn và có cái nhìn bao quát về côngnhóm 4 chúng em quyết định lựa chọn đề tài “Khai phá dữ liệu dự đoán hànhhàng-ứng dụng trên nền tảng TikTok” làm nghiên cứu.2.Tín

Trang 1

.24A4011582:Mai Thu Hằng3

.24A4010215:Bùi Thị Khánh Linh4

Trang 2

Hà Nội – 05/2022

Trang 3

MỞ ĐẦU1 Lý do chọn đề tài

Tiktok đã trở nên quá đỗi quen thuộc với mọi người ở đủ mọi độ tuổi,giới trẻ hiện nay Ứng dụng này được ra mắt vào tháng 9 năm 2016 và trong bakhi ra mắt, có thể nói rằng nó đã trở nên phố biến Hiện TikTok có 800 triệutích cực trên toàn thế giới (Theo Datareportal, 2020), và đứng thứ 9 về các trang mhội, dẫn trước các trang được biết đến Đây quả là một con số đáng mơ ước,chóng mặt Điều đó đã khiến các nền tảng nào cũng muốn đạt được Nhưng bạnlí do gì khiến Tiktok tiếp cận người dùng trên thế giới dễ dàng như vậy?

Đó chính là do khả năng Khai phá dữ liệu dự đoán hành vi khách hàng mà nềntảng này đưa vào sử dụng Đó là tài sản trí tuệ quan trọng nhất của kênh soccũng là cái khiến cho một app non trẻ mới mà đã sở hữu hơn 800 triệu ngườicực hàng tháng Để mọi người hiểu sâu hơn và có cái nhìn bao quát về côngnhóm 4 chúng em quyết định lựa chọn đề tài “Khai phá dữ liệu dự đoán hànhhàng-ứng dụng trên nền tảng TikTok” làm nghiên cứu.

2.Tính cấp thiết của đề tài

Công nghệ khai phá dữ liệu dự đoán hành vi khách hàng hiện đang là côđược quan tâm phát triển và ứng dụng bậc nhất hiện nay, được ứng dụng trong nvực như: nhận dạng khuôn mặt, xử lý giọng nói, kỹ thuật ước tính đám đông …thống an ninh, bảo mật, hay hệ thống pháp luật, chính phủ.

Đặc trưng của công nghệ này là năng lực “tự học” của máy tính, do đó cphán đoán, phân tích trước các dữ liệu mới mà không cần sự hỗ trợ của con nthời có khả năng xử lý dữ liệu với số lượng rất lớn và tốc độ cao.

Với sự đổi mới và đầu tư công nghệ TikTok đã dần xâm chiếm và trở thmạng xã hội có lượt tài về và lượt truy cập đứng đầu thế giới vươt qua cả FGoogle Và sau khi ứng dụng trí tuệ nhân tạo, chúng ta đã tìm ra những lợi íchđem lại; nhưng cùng sự phát triển đột phá đó mà nền tảng này đã và đang làtranh cãi gay gắt.

Hiểu được thực trạng đáng báo động này, nhóm nghiên cứu chúng em, sauđược hướng dẫn với kiến thức chuyên môn sâu rộng của giảng viên Nguyễn Thanđã chọn đề tài “Khai phá dữ liệu dự đoán hành vi khách hàng-ứng dụng trênTikTok ” làm nghiên cứu Dưới đây là bài phân tích, giải thích khái niệm, cáchđộng của công nghệ này, và một vài đề xuất khuyến nghị của nhóm em.

3.Phương pháp nghiên cứu

Các phương pháp nhóm 4 đưa vào sử dụng là:Phương pháp tổng hợp

Trang 4

Phương pháp phân tíchPhương pháp logic và lịch sử

Trang 5

CHƯƠNG 1: GIỚI THIỆU VỀ CÔNG NGHỆ KHAI PHÁ DỮ LIỆU 1.1 Khái niệm về khai phá dữ liệu

*Giới thiệu khai phá dữ liệu

Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối ở thập kỉ

kỉ XX Nó bao hàm một loạt các kĩ thuật nhằm phát hiện ra những thông tin cóẩn trong các dữ liệu lớn Về bản chất khai phá dữ liệu liên quan đến việc phânliệu và sử dụng các kỹ thuật để tìm ra các mẫu hình có tính chính quy trongNăm 1989, Fayyad, Piatetsky-Shapiro và Smyth đã dugf khái niệm phát hiện tri thứccơ sở dữ liệu để chỉ toàn bộ quá trình phát hiện các tri thức có ích từ các tậTrong đó khai phá dữ liệu là một bước đặc biệt quan trọng trong toàn bộ quádụng và giải thuật đặc biệt để chiết suất ra các mẫu từ dữ liệu Lịch sử phát trphá dữ liệu:1960: xuất hiện cơ sở dữ liệu theo mô hình mạng và mô hình phânthiết lập nền tảng lý thuyết cho cơ sở dữ liệu quan hệ và các hệ quản trị cơ sởhệ1980: hoàn thiện lý thuyết về cơ sở dữ liệu quan hệ và các hệ quản trị cơ sởhệ1990-2000: phát triển khai phá dữ liệu và kho dữ liệu, cơ sở dữ liệu đa phương

*Tại sao phải khai phá cơ sở dữ liệu

Khoảng hơn một thập kỷ trở lại đây, lượng thông tin được lưu trữ trên cácđiện tử (đĩa cứng, CN ROM, băng từ) không ngừng tăng lên Sự tích lũy dữ liệuvới một tốc độ bùng nổ Người ta ước đoán rằng lượng thông tin trên toàn cầu tăsau khoảng 2 năm và theo số lượng cũng như kích cỡ của các cơ sở dữ liệu Cđặt ra là liệu chúng ta có thể khai thác được gì từ những “núi”dữ liệu tưởng chừđi” ấy không? Data Mining ra đời như một hướng giải quyết hữu hiệu cho câu hra ở trên Khá nhiều định nghĩa về Data Mining và sẽ được đề cập ở phần sacó thể tạm hiểu rằng Data Mining như là một công nghệ tri thức giúp khai ththông tin hữu ích từ những kho dữ liệu được tích trữ trong suốt quá trình hoạtmột công ty, tổ chức nào đó.

*Định nghĩa khai phá dữ liệu

Khai phá dữ liệu là quá trình khai phá, trích xuất, khai thác và sử dụngliệu có giá trị tiềm ẩn từ bên trong lượng lớn dữ liệu được lưu trữ trong các ckho dữ liệu, trung tâm dữ liệu lớn hơn là Big Data dựa trên kỹ thuật như mạnthuyết tập thô, tập mờ, biểu diễn tri thức.Khai phá dữ liệu là một công đoạn tđộng”làm sạch” dữ liệu giúp cho dữ liệu được truyền dẫn một cách nhanh nhất.

1.2 Quá trình khai phá dữ liệu

Quá trình khai phá dữ liệu là một quá trình phức tạp bao gồm kho dữ liệsâu cũng như các công nghệ tính toán Hơn nữa, Data Mining không chỉ giới h

Trang 6

việc trích xuất dữ liệu mà còn được sử dụng để chuyển đổi, làm sạch, tích hợpphân tích mẫu.

Các bước quan trọng khi khai phá dữ liệu:

Bước 1: Làm sạch dữ liệu- trong bước này, dữ liệu được làm sạch sao cho k

tạp âm hay bất thường trong dữ liệu

Bước 2: Tích hợp dữ liệu- trong quá trình tích hợp dữ liệu nhiều nguồn dữ

kết hợp lại thành một

Bước 3: Lựa chọn dữ liệu- trong bước này dữ liệu sẽ được trích xuất từ c

Bước 4: chuyển đổi dữ liệu- trong bước này dữ liệu sẽ được chuyển đổi đ

hiện phân tích tóm tắt cũng như các hoạt động tổng hợp

Bước 5: Khai phá dữ liệu- trong bước này chúng tôi sẽ trích xuất dữ liệu hữ

nhóm dữ liệu hiện hiện có

Bước 6: Đánh giá mẫu- chúng tôi phân tích một số mẫu có trong dữ liệuBước 7: Trình bày thông tin- trong bước cuối cùng, thông tin sẽ được thể hiệ

dạng cây, bảng, biểu đồ và ma trận.Các phương pháp chính trong khai phá dữ liệu

Trang 7

1.3.1 Phương pháp luật kết hợp

Một trong những chủ đề phổ biến của KPDL là khai phá luật kết hợp Mụckhai phá luật kết hợp là xác minh mối quan hệ, sự kết hợp giữa các mục dữtrong một CSDL lớn.Lĩnh vực khai phá luật kết hợp cho đến nay đã được nghiênphát triển theo nhiều hướng khác nhau Các hướng chính mở rộng là:Luật kết hphân: Là hướng nghiên cứu đầu tiên của luật kết hợp Theo dạng luật kết hợp nitems chỉ được quan tâm là có hay không có xuất hiện trong cơ sở dữ liệu giaotoán tiêu biểu nhất của khai phá dạng luật này là thuật toán Apriori.Luật kết hợptính số và thuộc tính hạng mục: Các CSDL thực tế thường có các thuộc tính đanhị phân, số mục) Vì vậy, để khai phá luật kết hợp trong các CSDL này cáccứu đề xuất một số phương pháp rời rạc hóa nhằm chuyển CSDL cần khai phá vềphân để có thể áp dụng các thuật toán đã có Luật kết hợp với thuộc tính đưtrong CSDL thường không có vai trò như nhau.Ngoài một số phương pháp chínhKPDL đã trình bày ở trên, còn có những biến thể của khai phá pháp luật kết hợhợp tiếp cận theo hướng tập thô: tìm kiếm luật kết hợp dựa trên lý thuyết tậphợp nhiều mức: với cách tiếp cận này sẽ tìm kiếm thêm những luật có dạng: muaPC thì mua hệ điều hành Windows, mua phần mềm văn phòng Microsoft Office, Luhợp mở: với những khó khăn gặp phải khi rời rạc hóa các thuộc tính số, cáccứu đề xuất kết hợp mở khắc phục hạn chế đó và chuyển luật kết hợp về mộtgũi hơn.Khai phá luật kết hợp song song: Nhu cầu song song hóa và xử lý phânthiết vì kích thước dữ liệu ngày càng lớn nên đòi hỏi tốc độ xử lý phải được đả

1.3.2 Phương pháp cây quyết định

Mô tả tri thức dạng đơn giản nhằm phân các đối tượng dữ liệu thành mộnhất định Các nút của cây được gán nhãn là tên các mục dữ liệu, các cạnh đưgiá trị có thể của các mục dữ liệu, các lá mô tả các lớp khác nhau Các đốiphân lớp theo các đường đi trên cây, qua các cạnh tương ứng với các giá trị cliệu tới lá.Phương pháp cây quyết định là một cấu trúc giống như lưu đồ , trongbên trong đại diện cho một “thử nghiệm” trên một thuộc tínhPhân loại:2 loạiCây hước lượng các hàm có giá trị là số thực thay vì được sử dụng các nhiệm vụ pdụ: ước tính giá một ngôi nhà hoặc khoảng thời gian một bệnh nhân nằm viện).Cloại: Nếu Y là 1 biến phân loại như: giới tính (nam hay nữ), kết quả của m(thắng hay thua)Phương pháp cây quyết định giúp con người dễ hiểu, ta có thểhình cây quyết định sau khi được giải thích ngắn gọn.Việc chuẩn bị dữ liệu choquyết định là cơ bản hoặc không cần thiết Các kỹ thuật khác thường đòi hỏi chuliệu, cần tạo các biến phụ và loại bỏ các giá trị rỗng.Cây quyết định có thể xửcó giá trị bằng số và dữ liệu có giá trị là tên thể loại Các kỹ thuật khác thườ

Trang 8

phân tích các bộ dữ liệu chỉ gồm một loại biến Chẳng hạn, các luật quan hệdùng cho các biến tên, trong khi mạng nơron chỉ có thể dùng cho các biến có gsố.Cây quyết định là một mô hình hộp trắng Mạng nơron là một ví dụ về môđen, do lời giải thích cho kết quả quá phức tạp để có thể hiểu được Có thể thmô hình bằng cách kiểm tra thống kê Điều này làm cho ta có thể tin tưởng vào

1.3.3 Phương pháp K-MeanCó nhiều phương pháp được sử dụng trong phâncụm, phương pháp K-mean được coi là các kỹ thuật cơ bản của phân cụm Với phươngpháp này sẽ chia tập N đối tượng thành K cụm sao cho các đối tượng trong cùng mộtcụm thì giống nhau, các đối tượng khác cụm thì khác nhau.K-Means là thuật toán rấtquan trọng và được sử dụng phổ biến trong kỹ thuật phân cụm Tư tưởng chính củathuật toán K-Means là tìm cách phân nhóm các đối tượng đã cho vào K cụm ( K là sốcác cụm đã được xác định trước, K nguyên dương) sao cho tổng bình phương khoảngcách giữa các đối tượng đến tâm nhóm là nhỏ nhất.Thuật toán K có nghĩa là thuật toáncủa một trong những kỹ thuật phân cụm đơn giản nhất và nó thường được sử dụngtrong hình ảnh y khoa, sinh tắc học và các lĩnh vực liên quan Ưu điểm của K có nghĩalà phân cụm, nói về dữ liệu của bạn thay vì bạn phải hướng dẫn thuật toán về dữ liệulúc bắt đầu ( sử dụng dạng được giám sát của thuật toán)

1 Chọn ngẫu nhiên K tâm (centroid) cho K cụm(cluster) Mỗi cụm đượcdiện bằng các tâm của cụm.2 Tính khoảng cách giữa các đối tượng đến K tâm.các đối tượng gần nhất.4 Xác định lại tâm mới cho các nhóm5 Thực hiện lại bđến khi không có sự thay đổi nhóm nào của các đốitượng.http://bis.net.vn/forums/t/374.aspx (2)

Trang 9

1.3.4 Các phương pháp dựa trên mẫuPhương pháp này sử dụng khai phá chuỗitheo thời gian Vét về mặt kỹ thuật thì tương tự khai phá dữ liệu bằng luật kết hợpnhưng có thêm tính thứ tự và tính thời gian Một luật mô tả mẫu tuần tự có dạng tiêubiểu X->Y phản ánh sự xuất hiện của biến cố X sẽ xuất hiện kế tiếp biến cố Y.

Tổng quan về khai phá dữ liệu và phương pháp khai phá luật kết hợp trongliệu (tapchicongthuong.vn)

Kết luận:KPDL là một trong những kỹ thuật quan trọng, mang tính thời sự đ

nền CNTT thế giới hiện nay Sự bùng nổ thông tin cùng với sự phát triển vàngày càng rộng rãi của CNTT trong mọi lĩnh lực đã khiến nhu cầu xử lý nhữnliệu khổng lồ để kết xuất ra những thông tin, tri thức hữu ích cho người sử dụntự động, nhanh chóng và chính xác, trở thành nhân tố quan trọng hàng đầu chocông của các tổ chức và cá nhân KPDL đang được áp dụng một cách rộng rãilĩnh vực kinh doanh và đời sống Trong thực tế, có rất nhiều tổ chức và côngthế giới đã áp dụng kỹ thuật KPDL vào các hoạt động sản xuất - kinh doanh cthu được những lợi ích to lớn.

1.4 Các ứng dụng điển hình của khai phá dữ liệu Thêm ví dụ cụ thể

Sau đây là một số lĩnh vực mà Data mining đang được ứng dụng rộng rãi1 Lĩnh vực tài chính

lĩnh vực tài chính ở đây là các ngân hàng, họ sử dụng nó để dự đoán hkhách hàng để tung ra các dịch vụ và sản phẩm thích hợp.

Trang 10

Ngoài ra, ứng dụng của Data Mining trong lĩnh vực tài chính còn giúp khmối tương quan ẩn giữa các chỉ số tài chính khác nhau để phát hiện ra các hoạtngờ có rủi ro tiềm ẩn cao.

Nó còn giúp hỗ trợ xác định các hành động gian lận hoặc không gian lậnthu thập dữ liệu lịch sử và sau đó biến đổi nó thành thông tin hợp lệ và hữu íc

Ví dụ: Ngân hàng kĩ thương Việt Nam áp dụng khai phá dữ liệu nhằm nânthông xếp hạng tín dụng để phân loại khách hàng tốt hơn, phản ánh chân thựctrạng tín dụng của khách hàng.

2 Lĩnh vực viễn thông

Trong lĩnh vực này, ứng dụng của data mining giúp ngành viễn thông đạt đưthế cạnh tranh và giảm chi phí khách hàng bằng cách hiểu các đặc điểm nhân khdự đoán hành vi của khách hàng.

Ngoài ra, nó không những giúp tăng lòng trung thành của khách hàng và clợi nhuận.

Ví dụ: British Telecom đã phát hiện những nhóm người thường xuyên gọi chobằng mobile và thu lại được hàng triệu USD

3 Lĩnh vực thương mại điện tử

Nhiều công ty thương mại điện tử đang áp dụng ứng dụng của Data Mininghàng qua nhiều nước thông qua các trang web của họ.

Ví dụ: Một trong những công ty nổi tiếng nhất ứng dụng điều này là Amazodụng các kỹ thuật khai phá dữ liệu để lái “những người đã xem sản phẩm đósản phẩm được giới thiệu này”.

4 Lĩnh vực đời sống

Ví dụ: Nhiều siêu thị cung cấp thẻ khách hàng thân thiết để áp dụng giảmnhững nhiều không có thẻ thành viên Thẻ này giúp siêu thị theo dõi những aigì, mua số lượng như nào và mức giá ra sao Sau khi phân tích dữ liệu này, sicứ vào nó để tung ra các mã giảm giá phù hợp cho khách hành của mình.

5 Marketing and sales

Về cơ bản, khai phá dữ liệu cho phép các doanh nghiệp hiểu các điều ẩndữ liệu giao dịch mua bán của khách hàng Từ đó, doanh nghiệp có thể lên kếkhởi động các chiến dịch marketing mới.

Ứng dụng của Data Mining giúp doanh nghiệp phân tích nhu cầu thị trườngvề sản phẩm thường được mua cùng nhau Thông tin này giúp doanh nghiệp quảngphẩm có lợi nhuận cao nhất và tối đa hóa lợi nhuận Ngoài ra, nó còn khuyến khàng mua các sản phẩm liên quan.

Trang 11

Ví dụ: IBM Surf-Aid áp dụng KPDL phân tích các lần đăng nhập Web vtrang có liên quan đến thị trường để phát hiện sở thích khách hàng, phục vụ việchiệu quả của việc tiếp thị qua Web (Web marketing) và cải thiện hoạt độngWebsite

6 Lĩnh vực giáo dục

Gần đây có một lĩnh vực mới nổi, nó được gọi là khai phá dữ liệu giáo dNó khám phá kiến thức từ dữ liệu bắt nguồn từ môi trường giáo dục Mục tiêuđược xác định là dự đoán hành vi học tập của học sinh trong tương lai.

Tuy nhiên, ứng dụng của Data Mining trong lĩnh vực giáo dục vẫn chưa tđược phát huy mạnh mẽ trong thời điểm hiện tại Cõ lẽ bởi vì sự mới mẻ củaở Việt Nam, cũng như những chi phí nhất định cho việc áp dụng kỹ thuật này vàgiáo dục.

Ví dụ: Một số trường học sử dụng khai thác dữ liệu để đưa ra quyết địnhvà cũng như để dự đoán kết quả của học sinh Với kết quả đó, nhà trường cóvào những gì cần dạy và cách dạy từ đó cải tiến các phương pháp dạy học hiệu

7 Lĩnh vực kỹ thuật sản xuất

Chúng ta thường sử dụng các công cụ Data Mining để khám phá các mẫu (trong quy trình sản xuất phức tạp Ngoài ra, nó còn được dùng để dự đoán thờitriển sản phẩm, chi phí.

Ví dụ: Các công ty phần mềm lớn trên thế giới cũng rất quan tâm và chúviệc nghiên cứu và phát triển kĩ thuật khai phá dữ liệu: Oracle tích hợp các cônphá dữ liệu vào bộ Oracle9i, IBM đã đi tiên phong trong việc phát triển các ứngphá dữ liệu với các ứng dụng như Intelligence Miner

https://123docz.net//document/3361395-ung-dung-cac-ki-thuat-khai-pha-du-lieu-https://insight.isb.edu.vn/ung-dung-cua-data-mining-trong-cac-linh-vuc/KHAI PHÁ DỮ LIỆU TRÊN NỀN TẢNG TIKTOK

2.1 Giới thiệu về TikTok (hằng)

2.1.1 TikTok là gì?

TikTok được biết đến là một nền tảng video âm nhạc và mạng xã hội, trêndùng đăng các video nhạc chỉ dài từ 15 giây nhưng thu hút được rất nhiều ngĐây là nền tảng video âm nhạc và mạng xã hội đến từ Trung Quốc, với phiên

Ngày đăng: 24/06/2024, 18:02

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w