ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA LÊ ANH NGỌC PHÂN NHÓM NGƯỜI DÙNG DỰA VÀO HÀNH VI TƯƠNG TÁC TRONG MẠNG XÃ HỘI Chuyên ngành Khoa học máy tính Mã số 8480101 LUẬN VĂN THẠC SĨ KỸ THUẬT Người hướng[.]
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA LÊ ANH NGỌC PHÂN NHÓM NGƯỜI DÙNG DỰA VÀO HÀNH VI TƯƠNG TÁC TRONG MẠNG XÃ HỘI Chuyên ngành: Khoa học máy tính Mã số: 8480101 LUẬN VĂN THẠC SĨ KỸ THUẬT Người hướng dẫn khoa học: PGS TS HUỲNH CÔNG PHÁP Đà Nẵng - Năm 2018 LỜI CAM ĐOAN MỤC LỤC TRANG BÌA LỜI CAM ĐOAN MỤC LỤC TRANG TĨM TẮT LUẬN VĂN DANH MỤC CÁC HÌNH MỞ ĐẦU 1 Đặt vấn đề Lý chọn đề tài Mục tiêu đề tài Đối tượng phạm vi nghiên cứu Phương pháp luận phương pháp nghiên cứu CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VÀ MỘT SỐ THUẬT TỐN PHÂN NHĨM 1.1 Các mạng xã hội cấu trúc đồ thị 1.1.1 Giới thiệu khái quát mạng xã hội 1.1.2 Mối liên hệ mạng xã hội cấu trúc đồ thị 1.2 Một số loại mạng xã hội 1.3 Các tính chất mạng xã hội 1.3.1 Phân phối bậc 1.3.2 Cấu trúc nhóm 1.3.3 Độ đo trung gian 1.3.4 Phổ đồ thị 1.4 Phân nhóm mạng xã hội 10 1.4.1 Bài toán phân nhóm 10 1.4.2 Ví dụ mạng xã hội phân nhóm 12 1.5 Các phương pháp phân cụm truyền thống 14 1.5.1 Phân cụm phân hoạch 14 1.5.2 Phân cụm phân cấp 15 1.5.3 Phân vùng đồ thị 16 1.6 Các giải thuật di truyền 17 1.6.1 Giải thuật di truyền truyền thống 17 1.6.2 Giải thuật di truyền phân nhóm Falkenauer 18 1.6.3 Giải thuật di truyền phân nhóm Tasgin 18 1.7 Giải thuật Girvan-Newman 19 1.7.1 Giới thiệu độ đo modularity 19 1.7.2 Thuật tốn phân chia nhóm Girvan-Newman 20 1.8 Giải thuật CONGA 23 1.9 Giải thuật CNM (Clauset-Newman-Moore) 26 1.10 Kết luận chương 29 CHƯƠNG 2: THUẬT TOÁN CẢI TIẾN INC (INCRE-COMM-EXTRACTION) 30 2.1 Giới thiệu 30 2.2 Mơ hình hóa liệu 31 2.3 Thuật toán cải tiến INC 33 2.3.1 Nội dung thuật toán 33 2.3.2 Độ phức tạp thuật toán 35 2.3.3 Độ đo chất lượng phân nhóm thuật tốn 36 2.4 Kết luận chương 36 CHƯƠNG CÀI ĐẶT CHƯƠNG TRÌNH, THỰC NGHIỆM VÀ ĐÁNH GIÁ 38 3.1 Xây dựng liệu 38 3.1.1 Thu thập tập liệu từ mạng xã hội với Facebook API 38 3.1.2 Tiền xử lý liệu xây dựng cấu trúc mạng xã hội 41 3.2 Các chức chương trình 42 3.2.1 Tự động thu thập xây dựng liệu 42 3.2.2 Phân nhóm với thuật toán INC CNM 43 3.2.3 Biểu diễn trực quan kết phân nhóm với thuật tốn INC 44 3.3 Các kết thực nghiệm đánh giá 45 3.3.1 Thời gian thực thi thuật toán 45 3.3.2 Số lượng nhóm tìm 46 3.3.3 Chất lượng phân chia nhóm 47 3.3.4 Đánh giá trực quan biểu đồ kết 48 3.4 Kết luận chương 51 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 53 TÀI LIỆU THAM KHẢO 55 U ẾT Đ NH GIAO Đ TÀI LUẬN VĂN THẠC S (BẢN SAO BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC PHẢN BIỆN TRANG TÓM TẮT LUẬN VĂN PHÂN NHÓM NGƯỜI DÙNG DỰA VÀO HÀNH VI TƯƠNG TÁC TRONG MẠNG XÃ HỘI Học viên: Lê Anh Ngọc - Chuyên ngành: Khoa học máy tính Mã số: 8480101 Khóa: K34 - Trường Đại học Bách khoa - Đại học Đà Nẵng TÓM TẮT Hiện mạng xã hội sử dụng rộng rãi giới nói chung Việt Nam nói riêng Vì nhiều lĩnh vực đời sống xã hội khoa học máy tính, sinh học, kinh tế, trị… việc phát nhóm người dùng mạng xã hội có vai trị quan trọng Nhằm mục đích phát phân nhóm người dùng mạng xã hội có nhiều thuật tốn phát triển, tiêu biểu có thuật tốn: thuật tốn di truyền, thuật toán Kernighan-Lin, họ thuật toán Girvan-Newman, thuật toán tham lam Newman, thuật toán Clauset-Newman-Moore (CNM) Trong số thuật tốn đó, thuật tốn CNM đánh giá tốt nhất, phù hợp với mơ hình thực tế với độ phức tạp cỡ O(mdlogn d độ sâu liệu “dendrogram” mô tả cấu trúc nhóm mạng, m số đỉnh n số cạnh Nhưng thuật toán CNM cho thời gian chạy nhanh độ đo chất lượng phân chia phù hợp với mơ hình thực tế nhiên cịn hạn chế cho kết nhiều nhóm có cấu trúc lớn đồng thời việc cực đại hoá giá trị modularity chưa thể khẳng định đồ thị có cấu trúc nhóm trừ nhóm tìm clique Để khắc phục hạn chế tận dụng lợi thời gian thực thi thuật tốn CNM thuật tốn INC phát triển dựa vào nó, để đưa cấu trúc nhóm có kích thước nhỏ thể mối quan hệ mật thiết đối tượng nhóm Để phù hợp với thực tế luận văn tác giả xây dựng mạng xã hội dựa vào hành vi tương tác người dùng so với mơ hình xây dựng mạng xã hội dựa mối quan hệ xã hội lượng theo dõi đề tài nghiên cứu trước Từ tập liệu tự thu thập 1500 tài khoản Facebook, luận văn xây dựng đồ thị mạng xã hội gồm 1500 đỉnh, 101.537 cạnh 2.400.534 người dùng bình luận Kết thực nghiệm cho thấy INC cho thời gian chạy chậm CNM không đáng kể (0.24 giây INC so với 0.18 giây CNM , số lượng nhóm lớn nhiều (321 nhóm INC so với nhóm CNM chất lượng phân chia nhóm vượt trội (độ đo chất lượng 2480,0 INC so với 1212,408 CNM Kết thực nghiệm cho thấy tính khả quan cao INC áp dụng để phân nhóm người dùng mạng xã hội ABSTRACT GROUPING USERS BASED ON INTERACTIVE BEHAVIOR IN SOCIAL NETWORKS Social networking is now widely used in the world in general and in Vietnam in particular So in many areas of social life such as computer science, biology, economics, politics the discovery of user groups in social networking has an important role For the purpose of identifying and grouping users in social networks, many algorithms have been developed, including algorithms: genetic algorithm, Kernighan-Lin algorithm, Girvan-Newman algorithm, greedy algorithms Newman, algorithmic Clauset-Newman-Moore (CNM) Among these algorithms, the CNM algorithm is best suited for real-world models with a size O (mdlogn) complex where d is the depth of the "dendrogram" data describing the structure of the network group, m is the number of vertices and n is the number of edges But although the CNM algorithm for fast-paced and split-quality metrics is well suited to real-world models, it is still limited by the fact that many large structured groups and maximal the modularity value can not be asserted as a clustered graph unless the found groups are clique In order to overcome the limitations and take advantage of the real-time performance advantage of the CNM algorithm, the INC algorithm was developed based on it, to produce smaller-sized group structures that express the bile relationship It is more important than the objects in the same group To be more realistic in this thesis, the author has built a social network based on user interaction behavior versus social networking models based on social relationships or track amounts Like previous research topics From the self-collected dataset of 1500 Facebook accounts, the thesis builds a social network graph of 1500 peaks, 101.537 edges and 2,400,534 user comments The empirical results show that INC is much slower than CNM (0.24 seconds of INC versus 0.18 seconds of CNM), while the number of groups is much larger (321 groups of INCs compared to 92 groups of CNMs) ) and the quality of grouping is superior (quality is 2480,094 of INC versus 1212,408 of CNM) The empirical results show that INC is highly applicable when used to group users in social networks DANH MỤC CÁC HÌNH Hình 1.1: Mơ hình thành viên mạng xã hội Facebook Twitter Hình 1.2: Ví dụ mạng xã hội thu nhỏ có nhóm Hình 1.3: Ví dụ độ đo trung gian Hình 1.4: Mơ hình câu lạc karate Zachary .12 Hình 1.5: Mơ hình biểu diễn mạng lưới cộng tác nhà khoa học SFI 13 Hình 1.6: Mạng Lusseau biểu diễn loài cá heo Doubtful Sound, New Zealand 14 Hình 1.7: Cây phân cấp (dendrogram cho mơ hình câu lạc karate Zachary 15 Hình 1.8: Phân cụm phân cấp với mạng xã hội nhỏ 16 Hình 1.9: Ví dụ phát nhóm sử dụng thuật tốn Girvan - Newman .21 Hình 1.10: Ví dụ phép phân chia đỉnh đồ thị 24 Hình 1.11: Ví dụ trường hợp khơng phân tách đỉnh v đồ thị .24 Hình 1.12: Phép phân chia tối ưu trường hợp hình 1.10 25 Hình 2.1: Ví dụ nội dung hành vi tương tác người dùng 32 Hình 3.1: Một phần tập liệu tài khoản Facebook .38 Hình 3.2: Giao diện sau tạo ứng dụng Facebook API thành công 39 Hình 3.3: Sử dụng Graph API Explorer thu thập bình luận Facebook 39 Hình 3.4: Thu thập liệu với Facebook SDK .40 Hình 3.5: Một phần tập liệu lưu trữ SQL Server 2017 40 Hình 3.6: Một phần danh sách ID số lượng người dùng bình luận lưu trữ CSDL 41 Hình 3.7: Một phần liệu đồ thị mạng xã hội 42 Hình 3.8: Giao diện tự động thu thập liệu 43 Hình : Kết chạy chương trình phân nhóm với INC CNM .44 Hình 3.10: Một phần biểu đồ dendrogram kết phân nhóm với INC 45 Hình 3.11: Đồ thị so sánh thời gian thực thi INC CNM 46 Hình 3.12: Đồ thị so sánh số lượng nhóm theo INC CNM 46 Hình 3.13: Đồ thị tương quan số lượng nhóm với giá trị s 47 Hình 3.14: Đồ thị so sánh chất lượng phân nhóm theo INC CNM 47 Hình 3.15: Đồ thị tương quan chất lượng nhóm với giá trị s 48 Hình 3.16: Kết phân chia nhóm lớn thành nhóm (bất động sản, chứng khốn, tơ, mơ tơ ) .49 Hình 3.17: Kết phân chia nhóm lớn thành nhóm (thời trang, nội thất… 50 Hình 3.18: Kết phân nhóm lớn thành nhóm (Phật giáo) 50 Hình 3.19: Kết phân nhóm lớn thành nhóm (mỹ phẩm, thẩm mỹ, bệnh viện… 51 MỞ ĐẦU Đặt vấn đề Mạng xã hội cấu trúc xã hội cấu tạo từ đối tượng người, tổ chức, quốc gia…được gọi nút từ mối quan hệ người thân, bạn bè, đồng nghiệp… trao đổi tài chính, giao dịch…được gọi cung, nút liên kết với nhiều cung Mối liên kết nút dùng để biểu diễn mối liên hệ nút, liên kết liên kết vơ hướng mối quan hệ hai nút mối quan hệ qua lại, ví dụ nút A đồng nghiệp với nút B nút B đồng nghiệp với nút A…các liên kết liên kết có hướng, ví dụ nút A thích nút B nút B khơng thích nút A…đồng thời liên kết cịn đánh trọng số để biểu diễn độ mạnh yếu liên kết hai nút Có hai cách để biểu diễn mạng xã hội mà nhà phân tích mạng xã hội sử dụng đồ thị ma trận kề, lý thuyết đồ thị thường sử dụng để tính tốn phân tích liên kết mạng Để biểu diễn mạng xã hội lý thuyết đồ thị nút đỉnh, liên kết nút cạnh cạnh đồ thị vơ hướng có hướng hay đánh trọng số phụ thuộc vào nhu cầu biểu diễn Khi biểu diễn đồ thị mạng xã hội ta thấy số nhóm đỉnh có liên kết chặt chẽ với tạo thành cụm cụm nối với vài cạnh khác, tính chất gọi phân nhóm Đây tính chất quan trọng mạng xã hội nhiều nghiên cứu mục tiêu hướng đến việc phát nhóm Lý chọn đề tài Hiện giới có nhiều trang mạng xã hội khác tiêu biểu có Facebook, Twitter, outube, Instagram…hay Việt Nam có Zalo, Zing Me thu hút hàng triệu người dùng Trên trang mạng xã hội người dùng giao lưu, kết bạn, bày tỏ cảm xúc sử dụng với mục đích kinh doanh, giải trí, tuyên truyền…Nếu phân nhóm người dùng quan tâm đến vấn đề mạng xã hội có ý nghĩa to lớn giúp cho việc truyền tải thông tin, tiếp thị bán hàng hoạt động khác…đến đối tượng Đã có nhiều thuật tốn phát triển phục vụ mục đích phát phân nhóm mạng xã hội Tiêu biểu có giải thuật di truyền, thuật tốn Kernighan- Lin, họ thuật toán Girvan-Newman, thuật toán tham lam Newman, thuật tốn Clauset-Newman-Moore (CNM) Về thuật toán di truyền, Kernighan-Lin [1], họ thuật toán Girvan-Newman [5, 9, 10, 11, 12] có điểm hạn chế áp dụng cho số mạng mà khơng mang tính tổng qt, hay Girvan-Newman áp dụng cho nhiều mạng lại gặp vấn đề với thời gian thực thi thuật toán (độ phức tạp O(m2n mạng với m số đỉnh n số cạnh, độ phức tạp O(n3 trường hợp đồ thị thưa - dạng mơ hình mạng hay gặp giới thực Vì hạn chế mà thuật toán thường chạy với số đỉnh cỡ vài ngàn đỉnh Xuất phát từ thực tế đó, Newman [13] độc lập phát triển thuật toán tối ưu tham lam với việc đưa vào độ đo chất lượng phân chia nhóm, gọi modularity, cách cài đặt để thực thi thuật toán Newman có độ phức tạp cỡ O((m+n n với đồ thị O(n2 với đồ thị thưa Thuật toán CNM [4] thuật toán tốt nay, dựa ý tưởng thuật toán tối ưu tham lam Newman đề xuất trên, nhiên cách thức cài đặt CNM lại khác so với Newman việc đưa vào số cấu trúc liệu đặc biệt, giúp cho việc tìm kiếm tối ưu nhanh thuật toán chạy với độ phức tạp cỡ O(mdlogn d độ sâu cấu trúc liệu "dendrogram" mô tả cấu trúc nhóm mạng, m số đỉnh n số cạnh Trên thực tế đa số mạng có cấu trúc thưa, tức m~n d~logn, dẫn đến thuật tốn CNM chạy nhanh (tuyến tính với độ phức tạp O(nlog2n) Mặc dù thuật toán CNM cho thời gian chạy nhanh độ đo chất lượng phân chia nhóm phù hợp với mơ hình thực tế, nhiên kết cho nhiều nhóm có cấu trúc lớn, đồng thời việc cực đại hóa giá trị modularity chưa thể giúp ta khẳng định đồ thị có cấu trúc nhóm trừ nhóm tìm clique (tồn cạnh nối hai đỉnh đồ thị Trên thực tế, có nhiều cơng việc địi hỏi phải phân chia nhóm mức độ chi tiết Ví dụ: với lượng lớn người dùng nhóm giải trí, cần phân chia thành nhóm như: đam mê ca nhạc, thể thao, phim ảnh, du lịch, mua sắm Ngoài ra, cách tiếp cận tác giả trước xây dựng mơ hình mạng xã hội thường dựa mối quan hệ xã hội (mơ hình tĩnh người dùng mạng bạn bè, gia đình, đồng nghiệp mà khơng để ý đến việc người dùng có mối quan tâm đến chủ đề, lĩnh vực hay khơng (cụ thể với Facebook thể việc vào comment hay like, share, post - mơ hình động , chất lượng phân nhóm mạng khơng cao Xuất phát từ hạn chế trên, luận văn nghiên cứu "Phân nhóm người dùng dựa vào hành vi tương tác mạng xã hội" Luận văn nghiên cứu thuật toán cải tiến dựa thuật toán CNM cách thức xây dựng cấu trúc mạng xã hội dựa hành vi tương tác người dùng (mô hình mạng động với đồ thị vơ hướng có trọng số , nhằm nâng cao chất lượng phân nhóm người dùng mạng xã hội thực tế Facebook, Twitter Mục tiêu đề tài Xây dựng cấu trúc mạng xã hội dựa hành vi tương tác người dùng Xây dựng thuật toán phát nhóm người dùng nhỏ bên mạng xã hội với độ tin cậy cao Thời gian thực thi thuật toán nhanh, tiết kiệm nhớ nhằm phù hợp với cấu trúc mạng xã hội lớn thực tế (hàng triệu đỉnh, cạnh) Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu liệu mạng xã hội: người dùng mạng xã hội, trao đổi nội dung thơng tin, bình luận, chia sẻ, mạng xã hội Phạm vi nghiên cứu Nắm bắt sử dụng Facebook API lấy thơng tin người dùng, chia sẻ, bình luận, like mạng xã hội Facebook Nắm bắt lý thuyết đồ thị vận dụng vào việc biểu diễn mạng xã hội Nắm bắt tiêu chí để phát cấu trúc nhóm Nắm bắt số thuật tốn phát nhóm nhằm cải tiến, nâng cao chất lượng phân nhóm, tối ưu thời gian thực thi dung lượng nhớ Phương pháp luận phương pháp nghiên cứu Từ lý thuyết công bố từ báo, tài liệu công trình nghiên cứu liên quan kết hợp để phát triển xây dựng ứng dụng với mục đích thử nghiệm đánh giá hiệu mơ hình đề xuất Cấu trúc luận văn bố cục bao gồm phần mở đầu, kết luận 03 chương, cụ thể sau: 15 Phương án không tối ưu phụ thuộc vào lựa chọn khởi tạo ban đầu số lượng nhóm vị trí trọng tâm 1.5.2 Phân cụm phân cấp Phân cụm phân cấp số phương pháp phân nhóm phổ biến cho mạng xã hội Cho đồ thị với N đỉnh ma trận tương đương A nó, phương pháp phân cụm phân cấp gồm bước sau: Gán cho đỉnh N đỉnh nằm nhóm khác nhau, tức có N nhóm Tìm hai nhóm gần trộn chúng lại thành nhóm Tính tốn lại độ tương tự cụm cụm cũ Lặp lại bước thứ hai thứ ba tất đỉnh đặt vào nhóm Một lát cắt ngang phân cấp kết biểu diễn dạng biểu đồ dendrogram cho ta kết phân cụm cuối Hình 1.7: Cây phân cấp (dendrogram cho mơ hình câu lạc karate Zachary [9] Đối với đồ thị mạng xã hội, phân cụm phân cấp đồ thị mạng xã hội bắt đầu việc kết hợp hai nút có cạnh nối chúng với Sau hồn thành bước này, cạnh khơng kết nối hai nút cụm lựa chọn ngẫu nhiên để kết hợp cụm mà nút cạnh thuộc cụm khác Việc lựa chọn ngẫu nhiên tất khoảng cách biểu diễn cạnh (không có trọng số cạnh Điểm bất lợi phương pháp phân cụm phân cấp cho đồ thị hình 1.8 sau vài bước bắt buộc phải kết nối hai điểm B D, chúng hoàn tồn nằm nhóm khác 16 Hình 1.8: Phân cụm phân cấp với mạng xã hội nhỏ [9] Có số cách để làm giảm xác suất lỗi lựa chọn trên, việc thực thi phân cụm phân cấp nhiều lần lấy kết tốt lần thực thi Tuy nhiên, đồ thị mạng xã hội lớn việc địi hỏi tốn nhiều thời gian nhớ, khơng thực hiệu Để giải vấn đề này, cách tiếp cận đề xuất Girvan Newman Thay cho việc cố gắng cấu trúc độ đo để thể cạnh trung tâm số nhóm, hai tác giả lại quan tâm đến cạnh trọng tâm nhất, liên quan đến thuộc tính độ đo trung gian cạnh đỉnh trình bày Nghiên cứu Clauset et al dạng phân cụm phân cấp, tác giả cố gắng tối ưu giá trị modularity (độ đo đề xuất Girvan Newman Thuật toán chạy với thời gian O(mdlogn cho mạng với n đỉnh m cạnh, d độ sâu biểu đồ dendrogram 1.5.3 Phân vùng đồ thị Trong khoa học máy tính, phân vùng đồ thị việc chia mạng thành nhóm có kích thước tương đương, số lượng cạnh nhóm cực tiểu Phương pháp phân vùng đồ thị phổ biến dựa việc lặp lặp phép phân chia đồ thị thành hai nhóm phân biệt Phương pháp có bất lợi muốn phân chia thành nhiều hai nhóm cần phải lặp lại phép phân chia cho đồ thị chúng khơng phải lúc cho kết thỏa mãn Ngoài ra, việc xác định xem dừng trình phân chia quan trọng Thời gian để thực phương pháp O(n3) Thuật toán Kernighan-Lin [1] phương pháp tiếp cận theo hình thức phân vùng đồ thị Đây thuật toán tham lam thuật tốn cố gắng cực đại hóa hàm lợi ích Hàm lợi ích tính tổng cạnh bên nhóm trừ tổng cạnh bên ngồi nhóm Các bước thuật tốn sau: 17 Bắt đầu với việc khởi tạo phân vùng đồ thị thành hai nhóm khác Kích thước nhóm phải định nghĩa trước Các đỉnh định vào nhóm cách ngẫu nhiên Xét tất cặp đỉnh đỉnh thuộc nhóm khác tính tốn giá trị thay đổi hàm lợi ích trường hợp đổi vị trí hai đỉnh Việc đổi chỗ làm cực đại hàm lợi ích lựa chọn ta thực đổi chỗ hai đỉnh lặp lại bước 2, tất đỉnh bên nhóm đổi chỗ lần Duyệt lại phép đổi chỗ để xác định thời điểm cho giá trị phép phân vùng đồ thị cần tìm lớn Điểm bất lợi thuật tốn Kernighan-Lin phải chọn kích thước nhóm pha khởi tạo Kết phụ thuộc cao vào kích thước khởi tạo cấu hình bất tiện tập liệu thực tế Ngoài ra, việc phân chia đồ thị lặp lặp lại theo bước phải dừng bước để nhận phép phân vùng tốt Về sau, thuật toán Kernighan-Lin mở rộng chưa xác định số lượng kích thước nhóm nút đơn chuyển tới nhóm khác thời điểm, nhiên gặp phải thiếu sót thường thực thi lâu kết phân nhóm không tốt 1.6 Các giải thuật di truyền 1.6.1 Giải thuật di truyền truyền thống Giải thuật di truyền dạng thuật toán tối ưu sử dụng khoa học di truyền chọn lọc tự nhiên Trong giới thực, cá thể lai ghép gen chúng để trì liệu gen sinh hệ Đôi khi, hệ chứa gen bị đột biến Nếu nhiễm sắc thể lai ghép đột biến hệ tạo liệu gen thích nghi tốt với mơi trường hệ sống sót gen khơng thích nghi tốt bị loại bỏ Trong giải thuật di truyền, thay cho việc phải thử kết hợp tồn phương án khơng gian tìm kiếm, mẫu tốt tạo từ phương án tốt mẫu khứ Thuật toán di truyền trải qua bước khởi tạo phương án ban đầu, sau trải qua phép tốn đột biến, lai ghép chọn lọc Một hàm thích nghi đưa để chấm điểm cho phương án mức độ thích nghi chúng với mơi trường Sau pha đánh giá với hàm thích nghi này, cá thể có giá trị thích nghi cao lại để sinh hệ 18 Các bước giải thuật di truyền sau: Khởi tạo, tạo số lượng nhiễm sắc thể định ban đầu Bước gọi khởi tạo quần thể Như vậy, kích thước quần thể cố định Mỗi nhiễm sắc thể đánh giá thơng qua hàm thích nghi Thuật toán di truyền sinh nhiễm sắc thể tốt Thay nhiễm sắc cho nhiễm sắc thể xấu (do kích thước quần thể cố định Đây gọi bước chọn lọc Các nhiễm sắc thể tạo qua phép toán lai ghép Nếu cho trước giá trị xác suất số nhiễm sắc thể sinh bị đột biến theo phép toán đột biến Mỗi nhiễm sắc thể sinh đánh giá hàm thích nghi Nếu giá trị thích nghi đạt u cầu dừng thuật tốn, khơng quay lại bước 1.6.2 Giải thuật di truyền phân nhóm Falkenauer Có nhiều kỹ thuật đặc biệt tập trung vào tốn phân nhóm phân cụm sử dụng giải thuật di truyền Giải thuật di truyền phân nhóm tiến hóa giải thuật di truyền truyền thống, chúng tập trung vào mục cá thể đơn việc đưa chúng vào nhóm nhóm Ý tưởng đề xuất Emanuel Falkenauer [10] để phát triển giải pháp cho toán phức tạp phân cụm phân vùng mà tập mục cần phân chia vào nhóm theo cách tối ưu việc tạo đặc tả nhóm tập mục dạng gen Các ví dụ cho loại tốn dạng là: tốn xếp thùng, tốn cân luồng, phân cụm dựa độ đo khoảng cách mà giải thuật di truyền cổ điển khơng đáp ứng u cầu tốn 1.6.3 Giải thuật di truyền phân nhóm Tasgin Các giải thuật di truyền phù hợp với nhiều tốn tối ưu Phân nhóm mạng số dạng tốn u cầu tìm cấu trúc nhóm tốt mạng cách cực đại hóa giá trị modularity mạng Trong cơng trình Mursel Tasgin Haluk Bingol [11], tác giả nghiên cứu giải thuật di truyền để phân nhóm Trong cơng trình này, phương trình đo giá trị modularity (chất lượng phân cụm mạng đề xuất Newman sử dụng làm hàm thích nghi, tức là: 19 ∑ Ở pha khởi tạo, tất ID nhóm thành viên quần thể khởi tạo số ngẫu nhiên, giới hạn số lượng nút quân thể (n Trên lý thuyết, trường hợp xấu nhất, nút nằm nhóm riêng biệt có n nhóm mạng Trong pha khởi tạo biến định nghĩa trước xác suất ngẫu nhiên Các đỉnh ngẫu nhiên lựa chọn dựa xác suất ngẫu nhiên đó, đỉnh hàng xóm với đỉnh định ID nhóm Trong pha lai ghép, gen trao đổi ID nhóm nút nhóm với nút nhiễm sắc thể đích Trong pha đột biến, nút đặt vào nhóm ngẫu nhiên mạng Nó thực theo cách sau: nút ngẫu nhiên lựa chọn số cụm sinh cách điều chỉnh số nhị phân biểu diễn nhị phân Việc thử nghiệm thuật tốn cho kết xác cao liệu nhỏ câu lạc karate Zachary đội bóng đá trung học Mỹ 1.7 Giải thuật Girvan-Newman 1.7.1 Giới thiệu độ đo modularity Có nhiều thuật tốn để chia mạng thành nhóm Hầu hết thuật toán hoạt động tốt liệu nhân tạo liệu thực tế mà nhóm biết trước Tuy nhiên, có câu hỏi đặt để đánh giá chất lượng cấu trúc nhóm tìm thấy thuật tốn làm việc liệu thực tế mà chưa biết trước nhóm Một khái niệm mà biết nhóm tốt cạnh bên nhóm dày đặc Một nút kết nối tới nhiều nút khác nhóm kết nối tới nút khác nhóm Một độ đo định nghĩa Girvan Newman [2, 3] độ đo modul hóa sử dụng cho việc đánh giá chất lượng nhóm Đặt Avw phần tử ma trận kề biểu diễn mạng: Avw = { (1.1) giả sử đỉnh chia vào nhóm với đỉnh v thuộc nhóm cv Theo đó, số phép phân chia cạnh vào nhóm, tức kết nối đỉnh nằm nhóm là: ∑ ∑ ∑ 20 với hàm lại m= ∑ nhận giá trị sau: = i=j =0 trường hợp số cạnh đồ thị Bậc kv đỉnh v đỉnh nghĩa số cạnh gắn với v: kv = ∑ (1.3) Nếu kết nối đỉnh tạo ngẫu nhiên xác suất tồn cạnh kết nối hai đỉnh v w liên quan đến bậc đỉnh là: kvkw/2m Khi giá trị modularity tính sau: ∑[ ] Một giá trị cao tức thể phép phân hoạch nhóm tốt Do nhiệm vụ tốn tìm giá trị cao Tuy nhiên, với khơng gian tìm kiếm vơ lớn (độ phức tạp NP-khó khiến cho việc tìm phương án tối ưu khơng khả thi 1.7.2 Thuật tốn phân chia nhóm Girvan-Newman Như đề cập trên, tốn phát nhóm tập trung vào việc từ đồ thị mạng xã hội, tìm cụm, nhóm có mối liên hệ chặt chẽ với ua trực quan dễ dàng tìm nhóm có độ tập trung cao, khơng phải nhóm hình thành mối liên hệ chặt chẽ dễ thấy, số nhóm hình thành ẩn Điều quan trọng phải tìm phân phối cạnh nút, từ đưa nhóm tồn mạng xã hội [2] Thay việc tìm kiếm nút mạng đồ thị có độ gắn kết cao với nhau, phương pháp phát nhóm thuật tốn phân chia đưa cách giải hữu hiệu Để tránh khuyết điểm phương pháp phân nhóm phân cấp, thay cố gắng để xây dựng biện pháp tìm cạnh trung tâm nhóm, tìm cạnh trung tâm nhất, cạnh gọi tên cạnh nhóm Thuật tốn dựa quan niệm cho nhóm gắn kết với đường nhóm đến nhóm khác qua cạnh nối nhóm với tần suất cao Mục đích thuật tốn tìm cạnh nối Thay việc xây dựng nhóm cách thêm vào cạnh mạnh mẽ nhất, xây dựng cách loạn bỏ cạnh nối từ đồ thị ban đầu Khi đó, nhóm mạng bị ngắt kết nối với nhau, ta xác định cách phân 21 vùng đồ thị thành phần nhỏ riêng rẽ Để làm việc này, điều quan trọng thuật tốn việc tính tốn nào, sử dụng tính chất để phát cạnh nối này, từ loại bỏ chúng khỏi đồ thị Thuật toán lần đề xuất Freeman Theo Freeman, cạnh coi cạnh có số lượng đường ngắn cặp đỉnh khác chạy qua Cạnh nối có ảnh hưởng lớn đến dịng chảy thông tin nút khác, đặc biệt trường hợp thông tin lưu truyền mạng chủ yếu theo đường ngắn Thuật tốn điển hình thuật toán chia thuật toán GirvanNewman [2, 3] Để tìm cạnh mạng nối hai đỉnh thuộc hai nhóm khác nhau, khái quát cạnh có độ trung gian cao, xác định độ đo trung gian cách tính số đường ngắn cặp đỉnh mà có qua Với đồ thị m cạnh n đỉnh thời gian tính tốn cho giai đoạn O(mn Với đồ thị có trọng số, độ đo trung gian cạnh có trọng số đơn giản tính độ đo trung gian cạnh khơng có trọng số chia cho trọng số cạnh Nếu mạng lưới bao gồm nhóm chúng liên kết nối yếu nhóm cạnh, tất đường ngắn nhóm khác phải dọc theo số cạnh thuộc nhóm cạnh Vì vậy, cạnh kết nối nhóm cạnh có độ đo trung gian cao Bằng cách loại bỏ cạnh, thuật toán Girvan-Newman tách thành nhóm riêng biệt Thuật tốn thực theo bước sau: Tính độ đo trung gian cho tất cạnh mạng Hủy bỏ cạnh có độ trung gian cao Tính lại độ trung gian cho tất cạnh bị ảnh hưởng theo cạnh loại bỏ Lặp lại từ bước không cịn cạnh trung gian Hình 1.9: Ví dụ phát nhóm sử dụng thuật tốn Girvan - Newman[7] 22 Thuật tốn Girvan-Newman đơn giản dễ hiểu Tồn thuật tốn biểu diễn dendrogram, ta hiểu thuật tốn từ gốc đến Các nhánh biểu diễn cho phép loại bỏ cạnh để chia đồ thị thành cộng đồng riêng rẽ Thuật toán Girvan-Newman đưa lại kết tương đối tốt nhiều trường hợp, gặp phải số nhược điểm: Thuật toán Girvan-Newman sử dụng phương pháp loại trừ đến khơng có cạnh vượt qua ngưỡng độ trung gian cao nhất, nên số lượng nhóm hồn tồn khơng kiểm sốt trước Bên cạnh đó, thuật tốn sử dụng nhiều phép phân vùng, khó xác định phép phân vùng mang lại hiệu tốt Do lượt thực hiện, thuật tốn tính lại độ trung gian cạnh liên quan sau xóa cạnh có độ trung gian lớn nên độ phức tạp thời gian cao Giả sử với đồ thị n đỉnh, số cạnh phải xóa khỏi đồ thị m cạnh ta cần lượng thời gian tính tốn O(mn cho lần lặp Tổng thời gian chạy thuật toán O(m2n Trong trường hợp xấu nhất, đỉnh chia thành nhóm riêng rẽ độ phức tạp thời gian thuật tốn lên đến O(n3) Trên thực tế, đơn vị nút mạng thuộc vào nhiều nhóm khác Ví dụ với cá nhân A, đóng góp vai trị nút mạng xã hội thuộc vào nhiều nhóm: Bạn lớp, đồng nghiệp công ty, anh em họ hàng gia đình… Nhưng với cách phân chia Girvan-Newman khơng giải tượng chồng chéo nhóm Dựa ưu điểm nhược điểm Girvan-Newman, nhà khoa học tìm cách để cải tiến thuật toán cho tốt Các hướng tiếp cận chủ yếu khắc phục khuyết điểm Girvan-Newman: tìm phép phân vùng tốt nhất, tìm cách giảm thời gian tính tốn giải tượng chồng chéo nhóm Năm 2006, Prinney Westhead [12] đề xuất thuật tốn cải tiến nhược điểm khơng phát chồng chéo nhóm, hay nói cách khác đỉnh thuộc nhiều nhóm khác Girvan-Newman Trong phương pháp mình, hai tác giả sử dụng độ đo trung gian không cho cạnh mà xem xét độ đo trung gian đỉnh đồ thị Tuy nhiên, chuẩn hóa theo cách khác cạnh đỉnh nên tác giả nhận định độ trung gian cạnh độ trung gian đỉnh so sánh với cách thông thường Prinney Westhead khẳng định hai đỉnh cạnh mà nối liền cụm phải có độ trung gian tương đương nhau, đường ngắn 23 qua cạnh qua đỉnh phải qua đỉnh Từ đó, tác giả tính tốn cạnh có độ đo trung gian lớn loại bỏ khỏi đồ thị tỉ số độ đo trung gian đỉnh nằm khoảng 1/α α với 8.0 = α Nếu không, đỉnh với độ trung gian lớn cạnh kề tạm thời bị loại bỏ khỏi đồ thị Khi đồ thị tách từ đồ thị ban đầu sau phép loại bỏ đỉnh cạnh, đỉnh cạnh bị loại bỏ đưa vào phần vừa tách Như vậy, nhóm tách chứa đỉnh giống nhau, từ xử lý vấn đề chồng chéo nhóm Với cách tiếp cận tương tự, năm 2007 Gregory đề xuất thuật toán CONGA (Cluster Overlap Newman-Girvan Algorithm) [13] Các đỉnh chia nhỏ thành phần, phần gán vào cụm độ trung gian vượt độ trung gian cạnh lớn Có thể coi phép phân chia đỉnh thành nhiều sao, số cạnh liền với đưa vào sao, số cạnh lại phân chia khác Gregory đề xuất độ đo để xác định phép phân chia tối ưu nhất, gọi độ trung gian phân chia đỉnh, số đường ngắn mà chạy hai phần đỉnh sau phân chia Phương pháp có độ phức tạp tối đa O(n3 thuật toán GirvanNewman 1.8 Giải thuật CONGA Thuật toán CONGA Gregory cải tiến từ thuật tốn Girvan-Newman nhằm mục đích giải vấn đề chồng chéo nhóm [13] Dựa ý tưởng thuật toán Girvan-Newman, tác giả đề xuất thêm ý tưởng phép chia đỉnh thành nhiều phần khác nhau, để phần đỉnh chia xuất nhóm Phép chia đỉnh phù hợp với ý tưởng thuật toán Girvan-Newman lẽ, việc loại bỏ cạnh, việc phân chia đỉnh làm cho nhóm lớn chia thành nhóm Tác giả đề độ đo mới, độ trung gian phép phân chia, độ đo cho phép ta xác định cần phân chia đỉnh, thay loại bỏ cạnh, đỉnh cần phân chia phân chia Giả sử đỉnh v đồ thị chia làm phần, v1 v2 Khi đó, coi v1 v2 cạnh tính tốn độ trung gian cho cạnh này, độ đo trung gian tính lớn đỉnh v phân chia thành phần v1 v2 Giả sử với u đỉnh kề với v1 w đỉnh kề với v2, ta có đường qua u, v, w theo thứ tự thành đường đi qua u, v1, v2, w Từ ta tính số đường ngắn mà qua cạnh v v2 Có tổng cộng 2d(v -1 cách phân chia v làm đơi, d(v bậc v 24 đồ thị Phép phân đôi dẫn đến độ trung gian lớn phép phân chia lựa chọn Từ đó, ta tính tốn độ trung gian phép phân chia cho tất đỉnh Với đỉnh có độ trung gian phép phân chia lớn giá trị lớn độ đo trung gian cạnh, ta thực chia đỉnh làm đôi, sử dụng phép phân chia tối ưu Hình số 1.10 thể ví dụ đồ thị với nhóm chồng chéo (a,b,c (a,d,e với độ trung gian cạnh ký hiệu cạnh Ta thấy độ trung gian phép phân chia đỉnh a 8, lớn tất độ trung gian cạnh, thế, đỉnh a phân chia thành phần hình 1.10b Hình 1.10c 1.10d miêu tả số phép phân chia khác, nhiên không đem lại hiệu tối ưu phép phân chia hình 1.10b Hình 1.10: Ví dụ phép phân chia đỉnh đồ thị [13] Nhóm tác giả khẳng định phương pháp khơng phân đỉnh thành hai đỉnh mà trong hai đỉnh có đỉnh kề Chính vậy, đỉnh có bậc nhỏ đồ thị không bị chia nhỏ tổng quát lại có 2d(v)-1–d(v)-1 cách phân chia đỉnh thành hai phần đồ thị Hình 1.11: Ví dụ trường hợp khơng phân tách đỉnh v đồ thị[13] Định nghĩa độ trung gian đỉnh v đồ thị tổng số đường ngắn cặp đỉnh đồ thị mà qua v Ta dễ tính độ trung gian đỉnh CB(v từ độ đo trung gian cạnh CB(e): 25 ∑ Trong Γ(v tập cạnh có v đỉnh cuối n số đỉnh đồ thị chứa v Ta thấy từ định nghĩa, độ trung gian đỉnh lớn độ trung gian phép phân chia đỉnh Vì tác giả sử dụng độ trung gian đỉnh cận độ trung gian phép phân chia, độ trung gian đỉnh mà nhỏ giá trị lớn độ trung gian cạnh, đỉnh coi khơng phân chia Để tính tốn độ trung gian phép phân chia đỉnh v, ta sử dụng độ đo khác độ trung gian theo cặp v theo (u,w Giả sử, w đỉnh kề v, độ trung gian theo cặp v theo (u,w số đường ngắn cặp đỉnh đồ thị mà qua (u,v (v,w Người ta biểu diễn độ đo trung gian theo cặp đỉnh v bậc k k-clique, đỉnh gán nhãn hàng xóm v cạnh (u,w gán số độ đo trung gian theo cặp v theo (u,w Từ ta tìm phép phân chia tốt đỉnh v theo cách sau: − Chọn cạnh (u,w có giá trị nhỏ − Nhập u w vào thành đỉnh uw − Với đỉnh x clique ta thay cạnh (u,x điểm b1 cạnh (w,x điểm b2 cạnh (uw,x điểm b1+b2 − Lặp bước thứ tổng cộng k-2 lần Sau k-2 phép lặp, đỉnh lại phép phân chia tối ưu cho đỉnh v với độ trung gian phép phân chia điểm số cạnh tạo đỉnh Sau k-2 phép lặp, đỉnh lại phép phân chia tối ưu cho đỉnh v với độ trung gian phép phân chia điểm số cạnh tạo đỉnh Ta có hình 1.12 miêu tả cho trình tìm phép phân chia tối ưu trường hợp xét hình 1.10, phép phân chia tối ưu (abc (ade : Hình 1.12: Phép phân chia tối ưu trường hợp hình 1.10[13] 26 Các độ trung gian theo cặp đỉnh tính tốn hồn tồn theo định nghĩa Như vậy, tổng quát lại, thuật tốn CONGA chia làm bước sau: − Tính độ trung gian tất cạnh đồ thị − Tính độ trung gian đỉnh đồ thị, dựa vào độ trung gian cạnh cơng thức − Tìm danh sách đỉnh mà độ trung gian đỉnh lớn giá trị lớn độ trung gian cạnh − Nếu danh sách bước không rỗng, tính độ trung gian theo cặp đỉnh danh sách, sau xác định phép phân chia tối ưu cho đỉnh − Thực việc loại bỏ cạnh, phân chia đỉnh để chia đồ thị thành thành phần − Tính lại độ trung gian cạnh tất thành phần vừa chia − Lặp lại bước đến khơng cịn cạnh 1.9 Giải thuật CNM (Clauset-Newman-Moore) Thuật toán CNM đề xuất Clauset, Newman Moore [4] phương pháp phân cụm phân cấp tích tụ Thuật tốn sử dụng độ đo mơ đun hóa đề xuất bở Girvan Newman giới thiệu mục 1.7 để làm độ đo cho việc tối ưu hóa cấu trúc nhóm Một giá trị cao thể phép phân hoạch nhóm tốt cho mạng tại, nhiệm vụ CNM tìm giá trị cao tập ứng cử Việc tìm giá trị cực đại tồn cục tập phương án khó hay nói cách khác tốn nhiều thời gian (không khả thi với thời gian thực , CNM, tác giả đề xuất kỹ thuật tối ưu hóa xấp xỉ hay cịn gọi phương pháp tối ưu tham lam Tương tự thuật toán Girvan-Newman, CNM bắt đầu với việc phân hoạch đỉnh vào nhóm đơn lẻ, sau lặp lại việc kết hợp hai nhóm với cho phép hợp làm tăng lên giá trị lớn Với mạng có n đỉnh sau n-1 phép kết hợp phân hoạch toàn đỉnh vào nhóm đơn thuật tốn kết thúc Tồn tiến trình tạo thành kết đỉnh mạng gốc nút 27 bên tương ứng với phép kết hợp Cây biểu diễn dạng cấu trúc "dendrogram" thể việc phân hoạch phân cấp mạng thành nhóm tất mức khác Cách thực thi trực tiếp ý tưởng mà Girvan-Newman áp dụng lưu ma trận kề đồ thị mảng số nguyên lặp lại việc trộn cặp hàng - cột tương ứng với việc trộn nhóm với Đối với trường hợp đồ thị thưa, cách thực gây lãng phí nhớ thời gian thực thi phần tử có giá trị ma trận này, mà với đồ thị thưa số phần tử nhiều Bởi vậy, CNM đề xuất thuật tốn nhằm tăng tốc độ cơng việc cách loại bỏ phép tốn khơng cần thiết Trước tiên, CNM định nghĩa đại lượng sau: ∑ số phép phân hoạch để kết hợp đỉnh nhóm i đỉnh nhóm j ∑ phép phân hoạch cạnh gắn đỉnh nhóm i Tiếp đến, ký hiệu ∑ ta (1.7) ∑[ ∑[ ]∑ ∑ ∑ ∑ ∑ ] Tải FULL (72 trang): https://bit.ly/3RUhVqk Dự phịng: fb.com/TaiHo123doc.net Cơng việc thuật tốn CNM liên quan đến việc tìm thay đổi giá trị tạo hợp cặp nhóm chọn giá trị lớn số chúng Ta đặt thay đổi hợp hai nhóm i j Trên thực tế, việc tìm cặp i, j cho lớn tốn nhiều thời gian Vì CNM thay việc lưu trữ ma trận kề mạng tính tốn giá trị ma trận giá trị , thay việc lưu trữ cập nhật Do việc kết hợp hai nhóm mà khơng có cạnh nối chúng không làm tăng nên CNM lưu với cặp i, j mà việc hợp chúng có hay nhiều cạnh nối Do ma trận có độ hỗ trợ 28 ma trận kề, thưa ma trận kề gốc biểu diễn chúng với cấu trúc liệu hữu hiệu Tiếp nữa, CNM xây dựng cấu trúc liệu hữu hiệu khác để lưu trữ giá trị lớn bước Hai cải tiến giúp cho việc tiết kiệm nhớ thời gian thực thi CNM CNM tổ chức 03 cấu trúc liệu sau: Một ma trận thưa chưa cho cặp nhóm i, j với tối thiểu cạnh nối chúng CNM lưu trữ hàng ma trận vừa giống nhị phân cân (các phần tử tìm kiếm hay chèn với độ phức tạp O(logn cấu trúc max-heap (phần tử lớn tìm thời gian số trận Một cấu trúc max-heap H lưu trữ phần tử lớn hàng ma với nhãn i, j tương ứng với cặp nhóm hợp Một mảng vector thông thường cho việc lưu trữ phần tử Như nói trên, CNM bắt đầu với việc đỉnh nằm nhóm đơn lẻ, với trường hợp eij = 1/2m i j kết nối =0 trường hợp lại = ki/2m Do đó, CNM khởi tạo ma trận sau: { Tải FULL (72 trang): https://bit.ly/3RUhVqk Dự phòng: fb.com/TaiHo123doc.net Các bước thuật tốn: Tính tốn giá trị khởi tạo tương ứng với công thức (8), (9) tạo cấu trúc max-heap với phần tử lớn cho hàng ma trận Chọn giá trị lớn cấu trúc max-heap H, hợp hai nhóm i, j tương ứng, cập nhật ma trận lên lượng , heap H ai, đồng thời tăng giá trị modularity Lặp lại bước lại nhóm Cấu trúc liệu mà CNM xây dựng giúp việc cập nhật giá trị bước nhanh chóng Nếu hợp hai nhóm i, j đánh lại nhãn j cho hai nhóm 29 này, CNM cần cập nhật hàng cột thứ j, đồng thời xóa bỏ hàng cột thứ i Luật cập nhật sau: Nếu nhóm k kết nối với nhóm i j thì: Nếu k kết nối với i mà khơng kết nối với j thì: Nếu k kết nối với j mà khơng nối với i thì: Với điều chỉnh trên, thuật tốn CNM có độ phức tạp thời gian O(mdlogn với mạng n đỉnh, m cạnh d độ sâu dendrogam, tức CNM có hiệu cao Trong báo giới thiệu CNM, tác giả thực thi thuật toán với mạng gồm 400.000 đỉnh triệu cạnh với thời gian thực thi nhanh 1.10 Kết luận chương Trong chương tơi trình bày kiến thức tổng quan mạng xã hội, loại mạng tính chất mạng xã hội, cấu trúc nhóm mạng xã hội, ý nghĩa việc phân nhóm mạng xã hội số ví dụ mạng xã hội tiêu biểu thực tế Và trình bày số thuật toán sử dụng phổ biến cho tốn phân nhóm mạng xã hội, từ thuật toán phân cụm truyền thống phân cụm phân hoạch, phân cụm phân cấp, phân vùng đồ thị, giải thuật di truyền theo cách tiếp cận truyền thống, giải thuật di truyền cải tiến theo tiếp cận Falkanuer, Tasgin Tiếp đến thuật toán họ Girvan-Newman GirvanNewman gốc, thuật toán CONGA, thuật toán CNM Trong thuật tốn CNM tỏ vượt trội hiệu nên sẽ lựa chọn cho việc phát triển thuật toán đề xuất chương luận văn 7740322 ... lượng phân nhóm người dùng mạng xã hội thực tế Facebook, Twitter Mục tiêu đề tài Xây dựng cấu trúc mạng xã hội dựa hành vi tương tác người dùng Xây dựng thuật toán phát nhóm người dùng nhỏ bên mạng. .. thể vi? ??c vào comment hay like, share, post - mơ hình động , chất lượng phân nhóm mạng khơng cao Xuất phát từ hạn chế trên, luận văn nghiên cứu "Phân nhóm người dùng dựa vào hành vi tương tác mạng. .. luận chương Trong chương tơi trình bày kiến thức tổng quan mạng xã hội, loại mạng tính chất mạng xã hội, cấu trúc nhóm mạng xã hội, ý nghĩa vi? ??c phân nhóm mạng xã hội số ví dụ mạng xã hội tiêu