Để mọi người hiểu sâu hơn và có cái nhìn bao quát về côngnhóm 4 chúng em quyết định lựa chọn đề tài “Khai phá dữ liệu dự đoán hànhhàng-ứng dụng trên nền tảng TikTok” làm nghiên cứu.2.Tín
Trang 1HỌC VIỆN NGÂN HÀNG KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ
BÀI TẬP LỚN MÔN: NĂNG LỰC SỐ ỨNG DỤNG
ĐỀ TÀI:
KHAI PHÁ DỮ LIỆU DỰ ĐOÁN HÀNH VI KHÁCH HÀNG - ỨNG DỤNG TRÊN NÊN TẢNG TIKTOK
Giảng viên hướng dẫn : Nguyễn Thanh Thụy
Danh sách sinh viên :
1
.
24A4012748 : Nguyễn Thị Hồng Ngọc
2
24A4011582 : Mai Thu Hằng
3
24A4010215 : Bùi Thị Khánh Linh
4
.
24A4012315 : Hoàng Diệu Linh
5
.
24A4012746 : Ngô Thị Hồng Ngọc
Trang 2Hà Nội – 05/2022
Trang 3MỞ ĐẦU
1 Lý do chọn đề tài
Tiktok đã trở nên quá đỗi quen thuộc với mọi người ở đủ mọi độ tuổi, giới trẻ hiện nay Ứng dụng này được ra mắt vào tháng 9 năm 2016 và trong ba khi ra mắt, có thể nói rằng nó đã trở nên phố biến Hiện TikTok có 800 triệu tích cực trên toàn thế giới (Theo Datareportal, 2020), và đứng thứ 9 về các trang m hội, dẫn trước các trang được biết đến Đây quả là một con số đáng mơ ước, chóng mặt Điều đó đã khiến các nền tảng nào cũng muốn đạt được Nhưng bạn
lí do gì khiến Tiktok tiếp cận người dùng trên thế giới dễ dàng như vậy?
Đó chính là do khả năng Khai phá dữ liệu dự đoán hành vi khách hàng mà nền tảng này đưa vào sử dụng Đó là tài sản trí tuệ quan trọng nhất của kênh soc cũng là cái khiến cho một app non trẻ mới mà đã sở hữu hơn 800 triệu người cực hàng tháng Để mọi người hiểu sâu hơn và có cái nhìn bao quát về công nhóm 4 chúng em quyết định lựa chọn đề tài “Khai phá dữ liệu dự đoán hành hàng-ứng dụng trên nền tảng TikTok” làm nghiên cứu
2 Tính cấp thiết của đề tài
Công nghệ khai phá dữ liệu dự đoán hành vi khách hàng hiện đang là cô được quan tâm phát triển và ứng dụng bậc nhất hiện nay, được ứng dụng trong n vực như: nhận dạng khuôn mặt, xử lý giọng nói, kỹ thuật ước tính đám đông … thống an ninh, bảo mật, hay hệ thống pháp luật, chính phủ
Đặc trưng của công nghệ này là năng lực “tự học” của máy tính, do đó c phán đoán, phân tích trước các dữ liệu mới mà không cần sự hỗ trợ của con n thời có khả năng xử lý dữ liệu với số lượng rất lớn và tốc độ cao
Với sự đổi mới và đầu tư công nghệ TikTok đã dần xâm chiếm và trở th mạng xã hội có lượt tài về và lượt truy cập đứng đầu thế giới vươt qua cả F Google Và sau khi ứng dụng trí tuệ nhân tạo, chúng ta đã tìm ra những lợi ích đem lại; nhưng cùng sự phát triển đột phá đó mà nền tảng này đã và đang là tranh cãi gay gắt
Hiểu được thực trạng đáng báo động này, nhóm nghiên cứu chúng em, sau được hướng dẫn với kiến thức chuyên môn sâu rộng của giảng viên Nguyễn Than
đã chọn đề tài “Khai phá dữ liệu dự đoán hành vi khách hàng-ứng dụng trên TikTok ” làm nghiên cứu Dưới đây là bài phân tích, giải thích khái niệm, cách động của công nghệ này, và một vài đề xuất khuyến nghị của nhóm em
3 Phương pháp nghiên cứu
Các phương pháp nhóm 4 đưa vào sử dụng là:
Phương pháp tổng hợp
Trang 4Phương pháp phân tích
Phương pháp logic và lịch sử
4 Mục đích nghiên cứu
Góp phần làm sáng tỏ bản chất, quy luật phát sinh, phát triển vấn đề, các
và ví dụ minh họa phù hợp xu thế biến đổi của công nghệ AI trên Tiktok Đánh giá, đưa ra khuyến nghị để người dùng có cái nhìn phù hợp về nền
5 Ý nghĩa thực tiễn
Bài tập góp phần cung cấp thêm một số thông tin để hỗ trợ các cá nhân, t nhà nghiên cứu, các bạn học sinh, sinh viên trong quá trình thực hiện nhiệm vụ hoặc cung cấp cho người dùng tiktok cái nhìn bao quát hơn về nền tảng họ đã, đ
sử dụng
Trang 5CHƯƠNG 1: GIỚI THIỆU VỀ CÔNG NGHỆ KHAI PHÁ DỮ LIỆU
1.1 Khái niệm về khai phá dữ liệu
*Giới thiệu khai phá dữ liệu
Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối ở thập kỉ
kỉ XX Nó bao hàm một loạt các kĩ thuật nhằm phát hiện ra những thông tin có
ẩn trong các dữ liệu lớn Về bản chất khai phá dữ liệu liên quan đến việc phân liệu và sử dụng các kỹ thuật để tìm ra các mẫu hình có tính chính quy trong Năm 1989, Fayyad, Piatetsky-Shapiro và Smyth đã dugf khái niệm phát hiện tri thức
cơ sở dữ liệu để chỉ toàn bộ quá trình phát hiện các tri thức có ích từ các tậ Trong đó khai phá dữ liệu là một bước đặc biệt quan trọng trong toàn bộ quá dụng và giải thuật đặc biệt để chiết suất ra các mẫu từ dữ liệu Lịch sử phát tr phá dữ liệu:1960: xuất hiện cơ sở dữ liệu theo mô hình mạng và mô hình phân thiết lập nền tảng lý thuyết cho cơ sở dữ liệu quan hệ và các hệ quản trị cơ sở hệ1980: hoàn thiện lý thuyết về cơ sở dữ liệu quan hệ và các hệ quản trị cơ sở hệ1990-2000: phát triển khai phá dữ liệu và kho dữ liệu, cơ sở dữ liệu đa phương
*Tại sao phải khai phá cơ sở dữ liệu
Khoảng hơn một thập kỷ trở lại đây, lượng thông tin được lưu trữ trên các điện tử (đĩa cứng, CN ROM, băng từ) không ngừng tăng lên Sự tích lũy dữ liệu với một tốc độ bùng nổ Người ta ước đoán rằng lượng thông tin trên toàn cầu tă sau khoảng 2 năm và theo số lượng cũng như kích cỡ của các cơ sở dữ liệu C đặt ra là liệu chúng ta có thể khai thác được gì từ những “núi”dữ liệu tưởng chừ đi” ấy không? Data Mining ra đời như một hướng giải quyết hữu hiệu cho câu h
ra ở trên Khá nhiều định nghĩa về Data Mining và sẽ được đề cập ở phần sa
có thể tạm hiểu rằng Data Mining như là một công nghệ tri thức giúp khai th thông tin hữu ích từ những kho dữ liệu được tích trữ trong suốt quá trình hoạt một công ty, tổ chức nào đó
*Định nghĩa khai phá dữ liệu
Khai phá dữ liệu là quá trình khai phá, trích xuất, khai thác và sử dụng liệu có giá trị tiềm ẩn từ bên trong lượng lớn dữ liệu được lưu trữ trong các c kho dữ liệu, trung tâm dữ liệu lớn hơn là Big Data dựa trên kỹ thuật như mạn thuyết tập thô, tập mờ, biểu diễn tri thức.Khai phá dữ liệu là một công đoạn t động”làm sạch” dữ liệu giúp cho dữ liệu được truyền dẫn một cách nhanh nhất
1.2 Quá trình khai phá dữ liệu
Quá trình khai phá dữ liệu là một quá trình phức tạp bao gồm kho dữ liệ sâu cũng như các công nghệ tính toán Hơn nữa, Data Mining không chỉ giới h
Trang 6việc trích xuất dữ liệu mà còn được sử dụng để chuyển đổi, làm sạch, tích hợp phân tích mẫu
Các bước quan trọng khi khai phá dữ liệu:
Bước 1: Làm sạch dữ liệu- trong bước này, dữ liệu được làm sạch sao cho k
tạp âm hay bất thường trong dữ liệu
Bước 2: Tích hợp dữ liệu- trong quá trình tích hợp dữ liệu nhiều nguồn dữ
kết hợp lại thành một
Bước 3: Lựa chọn dữ liệu- trong bước này dữ liệu sẽ được trích xuất từ c
liệu
Bước 4: chuyển đổi dữ liệu- trong bước này dữ liệu sẽ được chuyển đổi đ
hiện phân tích tóm tắt cũng như các hoạt động tổng hợp
Bước 5: Khai phá dữ liệu- trong bước này chúng tôi sẽ trích xuất dữ liệu hữ
nhóm dữ liệu hiện hiện có
Bước 6: Đánh giá mẫu- chúng tôi phân tích một số mẫu có trong dữ liệu Bước 7: Trình bày thông tin- trong bước cuối cùng, thông tin sẽ được thể hiệ
dạng cây, bảng, biểu đồ và ma trận.Các phương pháp chính trong khai phá dữ liệu
Trang 71.3.1 Phương pháp luật kết hợp
Một trong những chủ đề phổ biến của KPDL là khai phá luật kết hợp Mục khai phá luật kết hợp là xác minh mối quan hệ, sự kết hợp giữa các mục dữ trong một CSDL lớn.Lĩnh vực khai phá luật kết hợp cho đến nay đã được nghiên phát triển theo nhiều hướng khác nhau Các hướng chính mở rộng là:Luật kết h phân: Là hướng nghiên cứu đầu tiên của luật kết hợp Theo dạng luật kết hợp n items chỉ được quan tâm là có hay không có xuất hiện trong cơ sở dữ liệu giao toán tiêu biểu nhất của khai phá dạng luật này là thuật toán Apriori.Luật kết hợp tính số và thuộc tính hạng mục: Các CSDL thực tế thường có các thuộc tính đa nhị phân, số mục) Vì vậy, để khai phá luật kết hợp trong các CSDL này các cứu đề xuất một số phương pháp rời rạc hóa nhằm chuyển CSDL cần khai phá về phân để có thể áp dụng các thuật toán đã có Luật kết hợp với thuộc tính đư trong CSDL thường không có vai trò như nhau.Ngoài một số phương pháp chính KPDL đã trình bày ở trên, còn có những biến thể của khai phá pháp luật kết hợ hợp tiếp cận theo hướng tập thô: tìm kiếm luật kết hợp dựa trên lý thuyết tập hợp nhiều mức: với cách tiếp cận này sẽ tìm kiếm thêm những luật có dạng: mua
PC thì mua hệ điều hành Windows, mua phần mềm văn phòng Microsoft Office, Lu hợp mở: với những khó khăn gặp phải khi rời rạc hóa các thuộc tính số, các cứu đề xuất kết hợp mở khắc phục hạn chế đó và chuyển luật kết hợp về một gũi hơn.Khai phá luật kết hợp song song: Nhu cầu song song hóa và xử lý phân thiết vì kích thước dữ liệu ngày càng lớn nên đòi hỏi tốc độ xử lý phải được đả 1.3.2 Phương pháp cây quyết định
Mô tả tri thức dạng đơn giản nhằm phân các đối tượng dữ liệu thành mộ nhất định Các nút của cây được gán nhãn là tên các mục dữ liệu, các cạnh đư giá trị có thể của các mục dữ liệu, các lá mô tả các lớp khác nhau Các đối phân lớp theo các đường đi trên cây, qua các cạnh tương ứng với các giá trị c liệu tới lá.Phương pháp cây quyết định là một cấu trúc giống như lưu đồ , trong bên trong đại diện cho một “thử nghiệm” trên một thuộc tínhPhân loại:2 loạiCây h ước lượng các hàm có giá trị là số thực thay vì được sử dụng các nhiệm vụ p dụ: ước tính giá một ngôi nhà hoặc khoảng thời gian một bệnh nhân nằm viện).C loại: Nếu Y là 1 biến phân loại như: giới tính (nam hay nữ), kết quả của m (thắng hay thua)Phương pháp cây quyết định giúp con người dễ hiểu, ta có thể hình cây quyết định sau khi được giải thích ngắn gọn.Việc chuẩn bị dữ liệu cho quyết định là cơ bản hoặc không cần thiết Các kỹ thuật khác thường đòi hỏi chu liệu, cần tạo các biến phụ và loại bỏ các giá trị rỗng.Cây quyết định có thể xử
có giá trị bằng số và dữ liệu có giá trị là tên thể loại Các kỹ thuật khác thườ
Trang 8phân tích các bộ dữ liệu chỉ gồm một loại biến Chẳng hạn, các luật quan hệ dùng cho các biến tên, trong khi mạng nơron chỉ có thể dùng cho các biến có g số.Cây quyết định là một mô hình hộp trắng Mạng nơron là một ví dụ về mô đen, do lời giải thích cho kết quả quá phức tạp để có thể hiểu được Có thể th
mô hình bằng cách kiểm tra thống kê Điều này làm cho ta có thể tin tưởng vào
1.3.3 Phương pháp K-MeanCó nhiều phương pháp được sử dụng trong phân
cụm, phương pháp K-mean được coi là các kỹ thuật cơ bản của phân cụm Với phương
pháp này sẽ chia tập N đối tượng thành K cụm sao cho các đối tượng trong cùng một
cụm thì giống nhau, các đối tượng khác cụm thì khác nhau.K-Means là thuật toán rất
quan trọng và được sử dụng phổ biến trong kỹ thuật phân cụm Tư tưởng chính của
thuật toán K-Means là tìm cách phân nhóm các đối tượng đã cho vào K cụm ( K là số
các cụm đã được xác định trước, K nguyên dương) sao cho tổng bình phương khoảng
cách giữa các đối tượng đến tâm nhóm là nhỏ nhất.Thuật toán K có nghĩa là thuật toán
của một trong những kỹ thuật phân cụm đơn giản nhất và nó thường được sử dụng
trong hình ảnh y khoa, sinh tắc học và các lĩnh vực liên quan Ưu điểm của K có nghĩa
là phân cụm, nói về dữ liệu của bạn thay vì bạn phải hướng dẫn thuật toán về dữ liệu
lúc bắt đầu ( sử dụng dạng được giám sát của thuật toán)
1 Chọn ngẫu nhiên K tâm (centroid) cho K cụm(cluster) Mỗi cụm được diện bằng các tâm của cụm.2 Tính khoảng cách giữa các đối tượng đến K tâm các đối tượng gần nhất.4 Xác định lại tâm mới cho các nhóm5 Thực hiện lại b đến khi không có sự thay đổi nhóm nào của các đối
tượng.http://bis.net.vn/forums/t/374.aspx (2)
Trang 91.3.4 Các phương pháp dựa trên mẫuPhương pháp này sử dụng khai phá chuỗi
theo thời gian Vét về mặt kỹ thuật thì tương tự khai phá dữ liệu bằng luật kết hợp
nhưng có thêm tính thứ tự và tính thời gian Một luật mô tả mẫu tuần tự có dạng tiêu
biểu X->Y phản ánh sự xuất hiện của biến cố X sẽ xuất hiện kế tiếp biến cố Y.
Tổng quan về khai phá dữ liệu và phương pháp khai phá luật kết hợp trong liệu (tapchicongthuong.vn)
Kết luận:KPDL là một trong những kỹ thuật quan trọng, mang tính thời sự đ
nền CNTT thế giới hiện nay Sự bùng nổ thông tin cùng với sự phát triển và ngày càng rộng rãi của CNTT trong mọi lĩnh lực đã khiến nhu cầu xử lý nhữn liệu khổng lồ để kết xuất ra những thông tin, tri thức hữu ích cho người sử dụn
tự động, nhanh chóng và chính xác, trở thành nhân tố quan trọng hàng đầu cho công của các tổ chức và cá nhân KPDL đang được áp dụng một cách rộng rãi lĩnh vực kinh doanh và đời sống Trong thực tế, có rất nhiều tổ chức và công thế giới đã áp dụng kỹ thuật KPDL vào các hoạt động sản xuất - kinh doanh c thu được những lợi ích to lớn
1.4 Các ứng dụng điển hình của khai phá dữ liệu Thêm ví dụ cụ thể
Sau đây là một số lĩnh vực mà Data mining đang được ứng dụng rộng rãi
1 Lĩnh vực tài chính
lĩnh vực tài chính ở đây là các ngân hàng, họ sử dụng nó để dự đoán h khách hàng để tung ra các dịch vụ và sản phẩm thích hợp
Trang 10Ngoài ra, ứng dụng của Data Mining trong lĩnh vực tài chính còn giúp kh mối tương quan ẩn giữa các chỉ số tài chính khác nhau để phát hiện ra các hoạt ngờ có rủi ro tiềm ẩn cao
Nó còn giúp hỗ trợ xác định các hành động gian lận hoặc không gian lận thu thập dữ liệu lịch sử và sau đó biến đổi nó thành thông tin hợp lệ và hữu íc
Ví dụ: Ngân hàng kĩ thương Việt Nam áp dụng khai phá dữ liệu nhằm nân thông xếp hạng tín dụng để phân loại khách hàng tốt hơn, phản ánh chân thực trạng tín dụng của khách hàng
2 Lĩnh vực viễn thông
Trong lĩnh vực này, ứng dụng của data mining giúp ngành viễn thông đạt đư thế cạnh tranh và giảm chi phí khách hàng bằng cách hiểu các đặc điểm nhân kh
dự đoán hành vi của khách hàng
Ngoài ra, nó không những giúp tăng lòng trung thành của khách hàng và c lợi nhuận
Ví dụ: British Telecom đã phát hiện những nhóm người thường xuyên gọi cho bằng mobile và thu lại được hàng triệu USD
3 Lĩnh vực thương mại điện tử
Nhiều công ty thương mại điện tử đang áp dụng ứng dụng của Data Mining hàng qua nhiều nước thông qua các trang web của họ
Ví dụ: Một trong những công ty nổi tiếng nhất ứng dụng điều này là Amazo dụng các kỹ thuật khai phá dữ liệu để lái “những người đã xem sản phẩm đó sản phẩm được giới thiệu này”
4 Lĩnh vực đời sống
Ví dụ: Nhiều siêu thị cung cấp thẻ khách hàng thân thiết để áp dụng giảm những nhiều không có thẻ thành viên Thẻ này giúp siêu thị theo dõi những ai
gì, mua số lượng như nào và mức giá ra sao Sau khi phân tích dữ liệu này, si
cứ vào nó để tung ra các mã giảm giá phù hợp cho khách hành của mình
5 Marketing and sales
Về cơ bản, khai phá dữ liệu cho phép các doanh nghiệp hiểu các điều ẩn
dữ liệu giao dịch mua bán của khách hàng Từ đó, doanh nghiệp có thể lên kế khởi động các chiến dịch marketing mới
Ứng dụng của Data Mining giúp doanh nghiệp phân tích nhu cầu thị trường
về sản phẩm thường được mua cùng nhau Thông tin này giúp doanh nghiệp quảng phẩm có lợi nhuận cao nhất và tối đa hóa lợi nhuận Ngoài ra, nó còn khuyến k hàng mua các sản phẩm liên quan
Trang 11Ví dụ: IBM Surf-Aid áp dụng KPDL phân tích các lần đăng nhập Web v trang có liên quan đến thị trường để phát hiện sở thích khách hàng, phục vụ việc hiệu quả của việc tiếp thị qua Web (Web marketing) và cải thiện hoạt động Website
6 Lĩnh vực giáo dục
Gần đây có một lĩnh vực mới nổi, nó được gọi là khai phá dữ liệu giáo d
Nó khám phá kiến thức từ dữ liệu bắt nguồn từ môi trường giáo dục Mục tiêu được xác định là dự đoán hành vi học tập của học sinh trong tương lai
Tuy nhiên, ứng dụng của Data Mining trong lĩnh vực giáo dục vẫn chưa t được phát huy mạnh mẽ trong thời điểm hiện tại Cõ lẽ bởi vì sự mới mẻ của
ở Việt Nam, cũng như những chi phí nhất định cho việc áp dụng kỹ thuật này và giáo dục
Ví dụ: Một số trường học sử dụng khai thác dữ liệu để đưa ra quyết định
và cũng như để dự đoán kết quả của học sinh Với kết quả đó, nhà trường có vào những gì cần dạy và cách dạy từ đó cải tiến các phương pháp dạy học hiệu
7 Lĩnh vực kỹ thuật sản xuất
Chúng ta thường sử dụng các công cụ Data Mining để khám phá các mẫu ( trong quy trình sản xuất phức tạp Ngoài ra, nó còn được dùng để dự đoán thời triển sản phẩm, chi phí
Ví dụ: Các công ty phần mềm lớn trên thế giới cũng rất quan tâm và chú việc nghiên cứu và phát triển kĩ thuật khai phá dữ liệu: Oracle tích hợp các côn phá dữ liệu vào bộ Oracle9i, IBM đã đi tiên phong trong việc phát triển các ứng phá dữ liệu với các ứng dụng như Intelligence Miner
https://123docz.net//document/3361395-ung-dung-cac-ki-thuat-khai-pha-du-lieu-vao-linh-vuc-vien-thong.htm
https://insight.isb.edu.vn/ung-dung-cua-data-mining-trong-cac-linh-vuc/
KHAI PHÁ DỮ LIỆU TRÊN NỀN TẢNG TIKTOK
2.1 Giới thiệu về TikTok (hằng)
2.1.1 TikTok là gì?
TikTok được biết đến là một nền tảng video âm nhạc và mạng xã hội, trên dùng đăng các video nhạc chỉ dài từ 15 giây nhưng thu hút được rất nhiều ng Đây là nền tảng video âm nhạc và mạng xã hội đến từ Trung Quốc, với phiên