Hình 34: Các bước thực hiện xử lý dữ liệu thu thập được
Bộ dữ liệu em thu thập được như mô tả tại phần 3.1 và 3.2, dữ liệu bao gồm
141923 nút (người dùng) được thu thập từ 1714 bài viết được trong khoảng thời
gian từ ngày 11/04/2021 đến 15/05/2021.
Thu thập và trích rút dữ liệu Dữ liệu thu thập bao gồm:
• Source : Tên tài khoản bình luận
• Reply_to : Tên, đường dẫn đến tài khoản trả lời bình luận của tài khoản bình luận trên bài viết gốc (nếu có)
• Date : Ngày bình luận • Text : Nội dung bình luận
• Source_url : Đường dẫn đến trang cá nhân của tài khoản bình luận trên bài viết gốc
• Url : ID của bài viết gốc.
• Page_id : đường dẫn đến trang cá nhân của người sở hữu bài viết gốc.
Hình 35: Nội dung dữ liệu thô thu thập được
Mô tả dữ liệu thu thập:
Thời gian thu thập 11/04/2021-15/05/2021
Số lượng page/person thu thập
141923
Số lượng bài viết 1715
Số lượng bình luận 37282
6
Số lượng page_id 187
Bảng 3: Mô tả dữ liệu thu thập từ Facebook
Do quá trình thu thập dữ liệu có xảy ra vấn đề trùng lặp nên các tập dữ liệu thu thập được cần phải qua giai đoạn xử lý và làm sạch để phù hợp với việc tổ chức cấu trúc dữ liệu cho bài toán.
Hình 36: Dữ liệu một bản ghi trên bài viết gốc
Hình 37: Dữ liệu một bản ghi trả lời một bình luận trên bài viết gốc
Mô hình hóa sang đồ thị đồng nhất
Dữ liệu mạng xã hội được sử dụng trong đồ án này là Facebook bao gồm các thực thể (Người, Trang, Bài Viết, Bình Luận). Đồ án tập trung vào việc phân tích các bình luận trên các bài viết bằng cách cung cấp dữ liệu trên mạng xã hội về các nút trạng thái như trong biểu đồ đồng nhất.
Ý tưởng ở đây là về mặt định tính thường là các bài viết của những cá nhân (người) hoặc các trang - Page đại diện cho một người sẽ cùng một chủ đề (giải trí, âm nhạc…) trong một khoảng thời gian nhất định.
Input: Person (P), Page (Pg), Comment(C), Status(S) Output: G(N, E)
N =
For Pi in set (P, Pg) do: Add Pi in N
Where Pi write a status Sj: If Pk comment status Sj:
Add Pk in N
Create a connection Cik from Pk to Pi Else
Pm reply to a comment Cjk of Pk in Status j:
Create a connection Cmk and Cmi End for Return G, N
Dữ liệu sau khi xử lý thành đồ thị:
Thời gian thu thập 11/04/2021-15/05/2021
Số nút người sau khi xử lý 141923
Số lượng liên kết 148839
Bảng 4: Dữ liệu sau khi mô hình hóa sang đồ thị đồng nhất
Hình 38: Đồ thị đồng nhất sau khi xử lý
Thực nghiệm sử dụng các thuật toán
Các bước thực nghiệm:
Bước 1: Thu thập dữ liệu theo tuần
Bước 2: Xử lý đưa dữ liệu về đồ thị đồng nhất
Bước 3: Thực nghiệm và so sánh các phương pháp xếp hạng nút ảnh hưởng trong đồ thị
Dữ liệu sau đây được tính toán theo 1 tuần từ 11/04/2021-17/04/2021.
4.2.3.1. Degree Centrality
• Thời gian tính toán : 0.08 giây • 10 người có độ đo cao nhất :
[4600,1,20358,38917,90255,58807 ,112485,66689,106272,19347]
Hình 39: Đồ thị theo độ đo trung tâm dựa theo bậc với dữ liệu thực Xếp hạng Tên 4600 Jack 97 1 Sơn Tùng MTP 20358 Trấn Thành 38917 Ngọc Trinh 90255 Mỹ Tâm 58807 Quang Hải 28350 BinZ
Bảng 5: Xếp 7 người có hạng cao nhất theo dữ liệu thực từ ngày 11/04/2021 đến 17/01/2021
Thời gian từ ngày 11/4/2021 - 17/4/2021, độ ảnh hưởng của Jack 97 là nhiều nhất là do Jack 97 bắt đầu thông báo ra bài hát mới “laylalay”. Do đó thu hút được lượng tương tác nhiều. Tương tự, đối với Sơn Tùng MTP, anh cũng chuẩn bị phát hành bài hát mới là “Muộn rồi mà sao còn”.
4.2.3.2. Betweenness Centrality •
Thời gian tính toán : 20537.272 giây
• 10 người có độ đo cao nhất :
[1,4600,38917,20358,58807,90255,28350,19347,106272,66689]
Hình 40: Đồ thị theo độ đo trung tâm dựa theo trung gian với dữ liệu thực
4.2.3.3. Closeness Centrality
• Thời gian tính toán : 152.003 giây • 10 người có độ đo cao nhất :
[1,4600,8566,15491,7451,5045,16926,16782,13274,16457]
Hình 41: Đồ thị theo độ đo trung tâm dựa theo sự lân cận với dữ liệu thực
4.2.3.4. PageRank
• Thời gian tính toán : 2.7706 giây • 10 người có độ đo cao nhất :
[4600,1,20358,38917,90255,58807,112485,28350,28350,66689]
Hình 42: Đồ thị theo độ đo trung tâm dựa theo PageRank với dữ liệu thực
Phân tích kết quả độ ảnh hưởng của 45374 người dùng từ bộ dữ liệu nói trên cho ra bởi thuật toán PageRank, độ ảnh hưởng cao nhất là người dùng được đánh số 1 (����1 = 0.1393), kết quả này cao gấp nhiều lần so với các người dùng có thứ hạng đại trà. Và tổng của tất cả độ ảnh hưởng bằng 1 ( �����= 1).
4.2.3.5. Quantum PageRank
• Thời gian tính toán : 20003.56 giây • 10 người có độ đo cao nhất :
[4600,1,20358,38917,90255,58807,112485,28350,28350,66689]
Hình 43: Đồ thị theo độ đo trung tâm dựa theo Quantum PageRank với dữ liệu thực
Kết quả tính độ tương quan được biểu diễn trong bảng dưới đây:
# Phương pháp Độ tương quan với thuật toán PageRank
1 Degree Centrality 0.9999965
2 Closeness Centrality 0.0209417
3 Betweenness Centrality 0.9374025
Bảng 6: Độ tương quan giữa thuật toán PageRank và các thuật toán degree, betweenness và closeness theo dữ liệu thực
Bảng so sánh các phương pháp : Tuần Phương pháp 1 2 3 4 5 Num of Node time Tuần 1 Degree Centrality 4600 1 20358 38917 90255 45374 0.029 Betweenness Degree 1 4600 38917 20358 90255 45374 22382 PageRank 4600 1 20358 38917 90255 45374 10.86 Quantum PageRank 4600 1 20358 38917 90255 45374 21358 Tuần 2 Degree Centrality 4600 1 20346 90255 20358 50017 0.06 Betweenness Degree 1 4600 20346 20358 90255 50017 22346 PageRank 4600 1 20358 38917 90255 50017 11.35 Quantum PageRank 4600 1 20346 90255 20358 50017 21035 Tuần 3 Degree Centrality 1 4600 23806 60135 20358 14112 0.009 Betweenness Degree 1 4600 23806 20358 60135 14112 1087 PageRank 1 4600 23806 60135 20358 14112 3.5 Quantum PageRank 1 4600 23806 60135 20358 14112 1065 Tuần 4 Degree Centrality 4600 1 90255 60135 19347 26098 0.025 Betweenness Degree 1 4600 90255 60135 19347 26098 5418.13 PageRank 4600 1 90255 60135 19347 26098 6.44 Quantum PageRank 4600 1 90255 60135 19347 26098 5218.35 Tuần Phương pháp 1 2 3 4 5 Num of Node time 56
Tuần 5 Degree Centrality 20358 90255 20346 1 86644 29530 0.021 Betweenness Degree 20358 90255 20346 1 86644 29530 6783.68 PageRank 20358 90255 20346 1 86644 29530 6.64 Quantum PageRank 20358 90255 20346 1 86644 29530 6088.52
Bảng 7: Bảng kết quả xếp hạng theo từng tuần với dữ liệu thực
Nhận xét: Ta nhận thấy 4 tuần đầu tiên Jack 97 (số 4600) và Sơn Tùng MTP (số 1) luôn xếp đầu, nhưng đến tuần thứ 5 thì hạng bị tụt xuống (Sơn Tùng MTP vị trí thứ 5 và Jack 97 vị trí số 23 ) do đây là thời điểm sau sự kiện ra bài hát mới nên các bài giới thiệu và cập nhật trạng thái giảm đi. Thay vào đó là Trấn Thành phát hành phim điện ảnh “Bố già”, và Mỹ Tâm (số 90255) mở liveshow “Tri Âm”. Số thứ tự 20346 (Thủy Tiên) và 23806 (Hồ Ngọc Hà) là những tài khoản có lượng tương tác cao vì họ có những bài viết quảng cáo cho các nhãn hàng như: MOI cosmetics , 82XPlacenta , Guccimulticolor ,…
CHƯƠNG 5.KẾT LUẬN 5.1 Tổng hợp kết quả đạt được trong đồ án
Việc phân tích xếp loại nút trong đồ thị để tìm ra nhóm các phần tử quan trọng trong mạng bằng việc tạo ra đồ thị đồng nhất dựa trên sự tương tác, có thể hỗ trợ các doanh nghiệp hay các tổ chức tìm và phát hiện ra các nhân tố đặc biệt quan trọng trong mạng xã hội là cơ sở để tìm ra những người có tầm ảnh hưởng theo thời gian thay đổi thể hiện tính động và thay đổi của mạng xã hội.
Kết quả thu được từ các thuật toán xếp hạng nút bao gồm thuật toán về độ trung tâm dựa trên trung gian, trung tâm bậc và trung tâm giữa, thuật toán PageRank, QuantumPageRank và HITS. Cho thấy thuật toán PageRank thu được mức độ tương quan khá cao so với các thuật toán về độ trung tâm dựa trên trung tâm bậc và trung tâm trung gian đồng thời có lợi thế về tốc độ tính toán do đó được dùng để đánh giá ảnh hưởng của người dùng trong sự tác động của toàn bộ cấu trúc mạng, giá trị có ý nghĩa phản ảnh tốt sự ảnh hưởng của mỗi người trong mạng.
Mặc dù hạn chế về chính sách bảo mật và riêng tư của mạng xã hội, hạn chế về kích thước mạng khai phá và có phần hạn chế về thời gian chạy hệ thống khá lâu với số lượng nút tăng lên, tuy nhiên các kết quả cũng tính
toán ra tiềm năng của việc ứng dụng lý thuyết đồ thị, xếp hạng nút trong đó có thuật toán PageRank thể hiện sự vượt trội.
5.2 Công việc hướng tới tương lai
Đồ án tập trung tìm hiểu và nghiên cứu giải thuật xếp hạng phần tử trong đồ thị áp dụng khai phá dữ liệu mạng xã hội đối với lĩnh vực giải trí. Do thời gian có hạn nên chưa giải quyết triệt để đối với hệ thống phức tạp khi số lượng nút mở rộng. Trong tương lai cần xây dựng giải thuật hướng xử lý song song để cải thiện tính toán và lựa chọn tài nguyên xử lý.
Đối với người ảnh hưởng, ảnh hưởng của họ có thể tác động tích cực và tiêu cực đối với người dùng mạng xã hội do đó trong tương lai em sẽ phát triển đồ án thêm phân tích ngữ nghĩa để phản ánh được tầm ảnh hưởng theo hướng tích cực hay tiêu cực của những người nổi tiếng.
TÀI LIỆU THAM KHẢO
[1] "http://digimarkvn.com/bao-cao-viet-nam-digital-2021-do-we-are-social- vahootsuite-thong-ke/," [Online]. [2] "https://en.wikipedia.org/wiki/The_Social_Network," [Online]. [3] "https://bit.ly/3tUACxs," [Online]. [4] "https://jiayi.blog/2020/12/31/community-detection/," [Online]. [5] "https://academic.oup.com/bioinformatics/article/34/13/i457/5045770," [Online]. [6] "https://www.flickr.com/photos/caseorganic/4935757995," [Online]. [7] "https://en.wikipedia.org/wiki/Centrality," [Online].
[8] L. C. Freeman, Centrality in social networks conceptual clarification , vol. Social networks 1.3, p. 215–239, 1979. [9] "https://en.wikipedia.org/wiki/Floyd%E2%80%93Warshall_algorithm," [Online]. [10] "https://en.wikipedia.org/wiki/Johnson%27s_algorithm," [Online]. [11] "http://snap.stanford.edu/class/cs224w-readings/brandes01centrality.pdf," [Online]. [12] "https://en.wikipedia.org/wiki/Eigenvector_centrality," [Online]. [13] "http://infolab.stanford.edu/~backrub/google.html," [Online].
[14] M. N. a. A. E. Hodler, "Graph Algorithms: Practical Examples in Apache Spark and Neo4j".
[15] B. J. Gram-Hansen, An Insight Into: Quantum Random Walks. [16] G. Paparo, Quantum Google Algorithm.
[17] J. M. Kleinberg, Authoritative Sources in a Hyperlinked Environment. [18] "https://doc.scrapy.org/en/0.10.3/topics/architecture.html," [Online]. [19] "https://docs.scrapy.org/en/latest/_images/scrapy_architecture_02.png,"
[Online].
[20] P. W. M. Trochim, "Research Methods Knowledge Base," Research Methods Knowledge Base, 1999.
[21] "https://gs.statcounter.com/social-media-stats/all/viet-nam," [Online].