Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 69 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
69
Dung lượng
3,47 MB
Nội dung
lOMoARcPSD|9234052 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN ✰ �-� -✰ - BUILDING A SOCIAL NETWORK USING LINK PREDICTION TO SUGGEST FRIENDS IN SOCIAL NETWORKS ĐỒ ÁN MÔN MẠNG XÃ HỘI (IS353.M21.HTCL) Giảng viên hướng dẫn: ThS Thái Bảo Trân Nhóm sinh viên thực hiện: Huỳnh Văn Pháp – 19521987 Hoàng Nhật Trung – 19522421 Phan Thành Bảo Trọng – 19522411 Nguyễn Thùy Linh – 19521758 Thành phố Hồ Chí Minh, 05/2022 lOMoARcPSD|9234052 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN ✰ �-� -✰ - BUILDING A SOCIAL NETWORK USING LINK PREDICTION TO SUGGEST FRIENDS IN SOCIAL NETWORKS ĐỒ ÁN MÔN MẠNG XÃ HỘI (IS353.M21.HTCL) Giảng viên hướng dẫn: ThS Thái Bảo Trân Nhóm sinh viên thực hiện: Huỳnh Văn Pháp – 19521987 Hoàng Nhật Trung – 19522421 Phan Thành Bảo Trọng – 19522411 Nguyễn Thùy Linh – 19521758 Thành phố Hồ Chí Minh 05/2022 lOMoARcPSD|9234052 MỤC LỤC CHƯƠNG I TỔNG QUAN VỀ ĐỀ TÀI 10 1.1 Lí chọn đề tài .10 1.2 Mô tả liệu 10 1.2.1 Nguồn liệu 10 1.2.2 Mô tả liệu 10 CHƯƠNG II 2.2 CƠ SỞ LÝ THUYẾT 12 Lí thuyết Nodes Edges 12 2.2.1 Thế Nodes Edges 12 2.2.2 Edges Direction 12 2.2.3 Edge Weight 12 2.3 Lý thuyết độ đo mạng xã hội 13 2.3.1 Độ đo Degree Centrality 13 2.3.2 Độ đo Betweenness Centrality 13 2.3.3 Độ đo Closeness Centrality 14 2.3.4 Độ đo Clustering Coefficient 14 2.4 Lý thuyết thuật toán dùng mạng xã hội 14 2.3.1 Cộng đồng 14 2.3.2 Một số thuật toán khám phá cộng đồng 15 2.3.2.1 Thuật toán Page Rank 15 2.3.2.2 Thuật toán Girvan Newman 15 CHƯƠNG III 3.1 THUẬT TOÁN DỰ ĐOÁN LIÊN KẾT TRÊN MẠNG XÃ HỘI 17 Các thuật toán dự đoán liên kết truyền thống .17 3.2.1 Local Similarity Index .17 3.1.1.1 Common Neighbors 17 3.1.1.2 Preferential Attachment 17 3.1.1.3 Adamic-Adar 18 3.1.1.4 Resource Allocation 18 3.2.2 Overall Similarity Index 18 3.1.2.1 Katz 18 3.1.2.2 Random Walk with Restart (RWR) 19 3.2 Các thuật toán dự đoán liên kết dựa khả điều khiển nút 20 3.2.3 Thuật toán CNGF 21 3.2.4 Thuật toán KatzGF 22 3.3 Các thuật toán dự đoán liên kết dựa nút nhiều thuộc tính 23 lOMoARcPSD|9234052 CHƯƠNG IV TIỀN XỬ LÝ DỮ LIỆU VÀ TRỰC QUAN HÓA DỮ LIỆU LÊN ĐỒ THỊ 25 4.1 Tiền xử lí liệu 25 4.2 Tạo mạng liên kết .25 4.3 Trực quan hóa mạng liên kết 26 CHƯƠNG V PHÂN TÍCH, TRỰC QUAN HĨA CÁC ĐỘ ĐO TRONG MẠNG XÃ HỘI 27 5.1 Độ đo Degree Centrality 27 5.2 Độ đo Betweenness Centrality 36 5.3 Độ đo Closeness Centrality 39 5.4 Độ đo Clustering Coeficient 42 CHƯƠNG VI PHÂN TÍCH, TRỰC QUAN HĨA CÁC THUẬT TOÁN SỬ DỤNG TRONG MẠNG XÃ HỘI 45 6.1 Thuật toán Page Rank .45 6.2 Thuật toán Girvan NewMan 48 6.2.1 Phân tích, trực quan hóa biểu Python liên kết theo Girvan NewMan 48 6.2.2 Nhận xét 49 CHƯƠNG VII PHÂN TÍCH, XÁC MINH CÁC THUẬT TỐN DỰ ĐỐN LIÊN KẾT 50 7.1 Thuật toán Common Neighbors .50 7.2 Thuật toán Preferential Attachment .51 7.3 Thuật toán Jaccard Coefficient .52 7.4 Thuật toán Resource Allocation 53 7.5 Thuật toán Adamic/Adar 54 7.6 Thuật toán Katz .55 CHƯƠNG VIII PHÂN TÍCH VÀ THIẾT KẾ ỨNG DỤNG 56 8.1 Usecase Diagram 56 8.2 Activity Diagram 58 8.2.1 Activity – Độ đo .58 8.2.2 Activity – Phân tích 59 8.2.3 Activity – Dự đoán 61 8.2.4 Activity – Trực quan .61 8.2.5 Activity – Import .62 8.3 Sequence Diagram 63 8.3.1 Sequence – Độ đo 63 8.3.2 Sequence – Phân tích 64 8.3.3 Sequence – Dự đoán 66 8.3.4 Sequence – Trực quan .67 8.3.5 Sequence – Import 68 lOMoARcPSD|9234052 PHỤ LỤC 69 A Tài liệu tham khảo 69 B Phân công thành viên 70 DANH MỤC HÌNH ẢN lOMoARcPSD|9234052 Hình 1: Dữ liệu dataset Hình 2: Minh họa Nodes Egdes 10 Hình 3: Hai đồ thị mạng xã hội có độ nút 18 Hình 4: Đồ thị trích xuất chứa nút dự đoán nút lân cận chung 19 Hình 5: Tiền xử lí liệu 23 Hình 6: Cài đặt đồ thi có hướng cho mạng 23 Hình 7: Lưu trữ thống kê cho node 23 Hình 8: Tính tổng số node cạnh 23 Hình 9: Trực quan hóa mạng liên kết 24 Hình 10: Trực quan hóa mạng liên kết theo độ đo Degree Centrality .26 Hình 11: Top 10 nodes có Degree Centrality cao 27 Hình 12: Tần số xác xuất xuất Degree Centrality 28 Hình 13: Trực quan hóa mạng liên kết theo độ đo In-Degree Centrality 29 Hình 14: Top 10 nodes có In-Degree Centrality cao 30 Hình 15: Tần số xác xuất xuất In-Degree Centrality .31 Hình 16: Trực quan hóa mạng liên kết theo độ đo Out-Degree Centrlity 32 Hình 17: Top 10 nodes có Out-Degree Centrality cao .33 Hình 18: Tần số xác xuất xuất Out-Degree Centrality 34 Hình 19: Trực quan hóa mạng liên kết theo độ đo Betweeness Centrlity 35 Hình 20: Top 10 nodes có Betweeness Centrality cao .36 Hình 21: Tần số xác xuất xuất Betweenness Centrality 36 Hình 22: Trực quan hóa mạng liên kết theo độ đo Closeness Centrlity .38 Hình 23: Top 10 nodes có độ Closeness Centrality cao .39 Hình 24: Tần số xác xuất xuất Closeness Centrality .39 Hình 25: Trực quan hóa mạng liên kết theo độ đo Clustering Coefficient 41 Hình 26: Top 10 nodes có độ Clustering Coeficient cao 42 Hình 27: Tần số xác xuất xuất Clustering Coeficient 42 Hình 28: Phân tích, trực quan hóa biểu đồ liệu Python PageRank .44 Hình 29: Top 10 nodes có độ Page Rank cao 45 Hình 30: Tần số xác xuất xuất Page Rank 45 Hình 31: Phân tích, trực quan hóa biểu Python liên kết theo Girvan NewMan 47 Hình 32: Usecase Diagram 49 Hình 33: Activity Diagram - Độ đo 50 Hình 34: Activity Diagram - Phân tích 52 Hình 35: Activity Diagram - Dự đoán .53 Hình 36: Activity Diagram - Trực quan .53 Hình 37: Activity Diagram - Import 54 Hình 38: Sequence Diagram - Độ đo 55 Hình 39: Sequence Diagram - Phân tích 57 lOMoARcPSD|9234052 Hình 40: Sequence Diagram - Dự đốn .58 Hình 41: Sequence Diagram - Trực quan 59 Hình 42: Sequence Diagram - Import .60 DANH MỤC BẢNG Bảng 1: Thông tin chi tiết dataset 10 lOMoARcPSD|9234052 LỜI CẢM ƠN Em xin chân thành cảm ơn trường Đại học Công nghệ Thông tin Khoa Hệ Thống Thông Tin tạo điều kiện cho em hoàn thành tốt đồ án mơn học Mạng xã hội Trong q trình học tập mơn giúp cho nhóm chúng em có nhiều kinh nghiệm quý báu Đặc biệt, nhóm chúng em xin gửi lời biết ơn sâu sắc đến cô Thái Bảo Trân – Giảng viên hướng dẫn môn Mạng xã hội (IS353.M21.HTCL) dành thời gian quý báo trực tiếp hướng dẫn tận tình, đóng góp ý kiến giúp nhóm hồn thành tốt báo cáo mơn học Thơng qua q trình thực đồ án, chúng em phần củng cố, tích lũy kiến thức Mạng xã hội Bên cạnh biết sử dụng thêm số công cụ để phân tích, có ích cho chúng em sau Bên cạnh đó, chúng em cịn rút nhiều kinh nghiệm cơng việc làm nhóm Hi vọng thứ áp dụng phát triển tương lai Trong thời gian thực đề tài, thời gian kiến thức có hạn nên khơng tránh khỏi nhiều sai sót Vì vậy, nhóm mong nhận góp ý bổ sung từ để đề tài hồn thiện Một lần nữa, chúng em xin chân thành cảm ơn Nhóm sinh viên thực lOMoARcPSD|9234052 NHẬN XÉT CỦA GIẢNG VIÊN ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ……………………………………………………… lOMoARcPSD|9234052 CHƯƠNG I TỔNG QUAN VỀ ĐỀ TÀI I.1 Lí chọn đề tài Hiện với phát triển nhanh chóng, mạng xã hội trực tuyến phần sống người Rất nhiều hệ thống xã hội học, sinh học thông tin sử dụng mạng để mơ tả, nút đại diện cho cá nhân cạnh đại diện cho mối quan hệ cá nhân tương tác cá nhân Dự đoán liên kết khơng sử dụng lĩnh vực mạng xã hội mà cịn áp dụng lĩnh vực khác Như tin sinh học, dự đốn liên kết sử dụng để khám phá tương tác protein, lĩnh vực thương mại điện tử, dự đoán liên kết sử dụng để tạo hệ thống khuyến nghị lĩnh vực bảo mật, dự đốn liên kết giúp tìm băng đảng tội phạm khủng bố ẩn Dự đoán liên kết có liên quan chặt chẽ đến nhiều lĩnh vực Internet tràn ngập trang mạng xã hội Một khía cạnh quan trọng mạng xã hội việc sử dụng hệ thống giới thiệu bạn bè I.2 Mô tả liệu I.2.1 Nguồn liệu Link Dataset: https://snap.stanford.edu/data/ego-Facebook.html I.2.2 Mô tả liệu Dataset gồm 4039 nodes, 88234 cạnh với cột liệu Mỗi hàng đại diện cho người dùng có mối quan hệ bạn bè với người dùng khác lOMoARcPSD|9234052 Hình 32: Usecase Diagram Downloaded by Heo Út (quangutbin@gmail.com) lOMoARcPSD|9234052 VIII.2 Activity Diagram 8.2.1 Activity – Độ đo Hình 33: Activity Diagram - Độ đo Downloaded by Heo Út (quangutbin@gmail.com) lOMoARcPSD|9234052 8.2.2 Activity – Phân tích Downloaded by Heo Út (quangutbin@gmail.com) lOMoARcPSD|9234052 Hình 34: Activity Diagram - Phân tích Downloaded by Heo Út (quangutbin@gmail.com) lOMoARcPSD|9234052 8.2.3 Activity – Dự đoán Hình 35: Activity Diagram - Dự đốn 8.2.4 Activity – Trực quan Hình 36: Activity Diagram - Trực quan Downloaded by Heo Út (quangutbin@gmail.com) lOMoARcPSD|9234052 8.2.5 Activity – Import Hình 37: Activity Diagram - Import Downloaded by Heo Út (quangutbin@gmail.com) lOMoARcPSD|9234052 VIII.3 Sequence Diagram 8.3.1 Sequence – Độ đo Hình 38: Sequence Diagram - Độ đo Downloaded by Heo Út (quangutbin@gmail.com) lOMoARcPSD|9234052 8.3.2 Sequence – Phân tích Downloaded by Heo Út (quangutbin@gmail.com) lOMoARcPSD|9234052 Hình 39: Sequence Diagram - Phân tích Downloaded by Heo Út (quangutbin@gmail.com) lOMoARcPSD|9234052 8.3.3 Sequence – Dự đốn Hình 40: Sequence Diagram - Dự đốn Downloaded by Heo Út (quangutbin@gmail.com) lOMoARcPSD|9234052 8.3.4 Sequence – Trực quan Hình 41: Sequence Diagram - Trực quan Downloaded by Heo Út (quangutbin@gmail.com) lOMoARcPSD|9234052 8.3.5 Sequence – Import Hình 42: Sequence Diagram - Import Downloaded by Heo Út (quangutbin@gmail.com) lOMoARcPSD|9234052 PHỤ LỤC A Tài liệu tham khảo [1] "Page Rank Algorithm and Implementation," [Online] Available: https://www.geeksforgeeks.org/page-rank-algorithm-implementation/ [2] "Girvan–Newman algorithm," [Online] Available: https://en.wikipedia.org/wiki/Girvan %E2%80%93Newman_algorithm [3] "PageRank," [Online] Available: https://vi.wikipedia.org/wiki/PageRank [4] "Betweenness centrality," [Online] Available: https://en.wikipedia.org/wiki/Betweenness_centrality [5] M Telatnik, "How To Get Started with Social Network Analysis," 27 05 2020 [Online] Available: https://towardsdatascience.com/how-to-get-started-with-social-networkanalysis-6d527685d374 [6] "Is it possible to find closeness centrality using Gephi?," [Online] Available: https://stackoverflow.com/questions/28727120/is-it-possible-to-find-closenesscentrality-using-gephi [7] D Liyan , L Yongli , Y Han , L Huang and R Mao , "The Algorithm of Link Prediction on Social Network," 17 09 2013 [Online] Available: https://www.hindawi.com/journals/mpe/2013/125123/ B Phân cơng thành viên Huỳnh Văn Hồng Nhật Phan Thành Downloaded by Heo Út (quangutbin@gmail.com) Nguyễn Thuỳ lOMoARcPSD|9234052 Pháp Tìm hiểu X Trung Bảo Trọng Đề tài/sản phẩm X X Linh X thuật toán, đề xuất giải pháp Tìm kiếm X X X X X X X X X X X X X X liệu thử nghiệm Mơ thuật tốn liệu thử nghiệm Google Colap Lên danh sách X chức cần có cho ứng dụng Phân tích thiết kế hệ thống Lâp trình X module xử lí Hoàn thiện X ứng dụng python Kiểm tra, thử X nghiệm ứng dụng liệu mạng xã hội nhỏ Báo cáo Chương I Chương II Chương III Chương IV Chương V X X X X X X Downloaded by Heo Út (quangutbin@gmail.com) X lOMoARcPSD|9234052 Chương VI Chương VII Chương VIII X X X X X Thuyết trình Slide Thuyết trình X X X Downloaded by Heo Út (quangutbin@gmail.com) X ...lOMoARcPSD|9234052 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN ✰ �-� -✰ - BUILDING A SOCIAL NETWORK USING LINK PREDICTION TO SUGGEST. .. Downloaded by Heo Út (quangutbin@gmail.com) lOMoARcPSD|9234052 + Top 10 nodes có In- Degree Centrality cao nhất: Hình 14: Top 10 nodes có In- Degree Centrality cao Downloaded by Heo Út (quangutbin@gmail.com)... dataset Nguồn trích dẫn : J McAuley and J Leskovec Learning to Discover Social Circles in Ego Networks NIPS, 2012 Downloaded by Heo Út (quangutbin@gmail.com) lOMoARcPSD|9234052 CHƯƠNG II CƠ SỞ