Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 72 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
72
Dung lượng
7,88 MB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA LÊ ANH NGỌC PHÂN NHÓM NGƯỜI DÙNG DỰA VÀO HÀNH VI TƯƠNG TÁC TRONG MẠNG XÃ HỘI Chuyên ngành: Khoa học máy tính Mã số: 8480101 LUẬN VĂN THẠC SĨ KỸ THUẬT Người hướng dẫn khoa học: PGS TS HUỲNH CÔNG PHÁP Đà Nẵng - Năm 2018 LỜI CAM ĐOAN MỤC LỤC TRANG BÌA LỜI CAM ĐOAN MỤC LỤC TRANG TĨM TẮT LUẬN VĂN DANH MỤC CÁC HÌNH MỞ ĐẦU 1 Đặt vấn đề Lý chọn đề tài Mục tiêu đề tài Đối tượng phạm vi nghiên cứu Phương pháp luận phương pháp nghiên cứu CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VÀ MỘT SỐ THUẬT TỐN PHÂN NHĨM 1.1 Các mạng xã hội cấu trúc đồ thị 1.1.1 Giới thiệu khái quát mạng xã hội 1.1.2 Mối liên hệ mạng xã hội cấu trúc đồ thị 1.2 Một số loại mạng xã hội 1.3 Các tính chất mạng xã hội 1.3.1 Phân phối bậc 1.3.2 Cấu trúc nhóm 1.3.3 Độ đo trung gian 1.3.4 Phổ đồ thị 1.4 Phân nhóm mạng xã hội 10 1.4.1 Bài tốn phân nhóm 10 1.4.2 Ví dụ mạng xã hội phân nhóm 12 1.5 Các phương pháp phân cụm truyền thống 14 1.5.1 Phân cụm phân hoạch 14 1.5.2 Phân cụm phân cấp 15 1.5.3 Phân vùng đồ thị 16 1.6 Các giải thuật di truyền 17 1.6.1 Giải thuật di truyền truyền thống 17 1.6.2 Giải thuật di truyền phân nhóm Falkenauer 18 1.6.3 Giải thuật di truyền phân nhóm Tasgin 18 1.7 Giải thuật Girvan-Newman 19 1.7.1 Giới thiệu độ đo modularity 19 1.7.2 Thuật tốn phân chia nhóm Girvan-Newman 20 1.8 Giải thuật CONGA 23 1.9 Giải thuật CNM (Clauset-Newman-Moore) 26 1.10 Kết luận chương 29 CHƯƠNG 2: THUẬT TOÁN CẢI TIẾN INC (INCRE-COMM-EXTRACTION) 30 2.1 Giới thiệu 30 2.2 Mơ hình hóa liệu 31 2.3 Thuật toán cải tiến INC 33 2.3.1 Nội dung thuật toán 33 2.3.2 Độ phức tạp thuật toán 35 2.3.3 Độ đo chất lượng phân nhóm thuật tốn 36 2.4 Kết luận chương 36 CHƯƠNG CÀI ĐẶT CHƯƠNG TRÌNH, THỰC NGHIỆM VÀ ĐÁNH GIÁ 38 3.1 Xây dựng liệu 38 3.1.1 Thu thập tập liệu từ mạng xã hội với Facebook API 38 3.1.2 Tiền xử lý liệu xây dựng cấu trúc mạng xã hội 41 3.2 Các chức chương trình 42 3.2.1 Tự động thu thập xây dựng liệu 42 3.2.2 Phân nhóm với thuật toán INC CNM 43 3.2.3 Biểu diễn trực quan kết phân nhóm với thuật tốn INC 44 3.3 Các kết thực nghiệm đánh giá 45 3.3.1 Thời gian thực thi thuật toán 45 3.3.2 Số lượng nhóm tìm 46 3.3.3 Chất lượng phân chia nhóm 47 3.3.4 Đánh giá trực quan biểu đồ kết 48 3.4 Kết luận chương 51 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 53 TÀI LIỆU THAM KHẢO 55 U ẾT Đ NH GIAO Đ TÀI LUẬN VĂN THẠC S (BẢN SAO BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC PHẢN BIỆN TRANG TÓM TẮT LUẬN VĂN PHÂN NHÓM NGƯỜI DÙNG DỰA VÀO HÀNH VI TƯƠNG TÁC TRONG MẠNG XÃ HỘI Học viên: Lê Anh Ngọc - Chuyên ngành: Khoa học máy tính Mã số: 8480101 Khóa: K34 - Trường Đại học Bách khoa - Đại học Đà Nẵng TÓM TẮT Hiện mạng xã hội sử dụng rộng rãi giới nói chung Việt Nam nói riêng Vì nhiều lĩnh vực đời sống xã hội khoa học máy tính, sinh học, kinh tế, trị… việc phát nhóm người dùng mạng xã hội có vai trị quan trọng Nhằm mục đích phát phân nhóm người dùng mạng xã hội có nhiều thuật tốn phát triển, tiêu biểu có thuật tốn: thuật tốn di truyền, thuật toán Kernighan-Lin, họ thuật toán Girvan-Newman, thuật toán tham lam Newman, thuật toán Clauset-Newman-Moore (CNM) Trong số thuật tốn đó, thuật tốn CNM đánh giá tốt nhất, phù hợp với mơ hình thực tế với độ phức tạp cỡ O(mdlogn d độ sâu liệu “dendrogram” mô tả cấu trúc nhóm mạng, m số đỉnh n số cạnh Nhưng thuật toán CNM cho thời gian chạy nhanh độ đo chất lượng phân chia phù hợp với mơ hình thực tế nhiên cịn hạn chế cho kết nhiều nhóm có cấu trúc lớn đồng thời việc cực đại hoá giá trị modularity chưa thể khẳng định đồ thị có cấu trúc nhóm trừ nhóm tìm clique Để khắc phục hạn chế tận dụng lợi thời gian thực thi thuật tốn CNM thuật tốn INC phát triển dựa vào nó, để đưa cấu trúc nhóm có kích thước nhỏ thể mối quan hệ mật thiết đối tượng nhóm Để phù hợp với thực tế luận văn tác giả xây dựng mạng xã hội dựa vào hành vi tương tác người dùng so với mơ hình xây dựng mạng xã hội dựa mối quan hệ xã hội lượng theo dõi đề tài nghiên cứu trước Từ tập liệu tự thu thập 1500 tài khoản Facebook, luận văn xây dựng đồ thị mạng xã hội gồm 1500 đỉnh, 101.537 cạnh 2.400.534 người dùng bình luận Kết thực nghiệm cho thấy INC cho thời gian chạy chậm CNM không đáng kể (0.24 giây INC so với 0.18 giây CNM , số lượng nhóm lớn nhiều (321 nhóm INC so với nhóm CNM chất lượng phân chia nhóm vượt trội (độ đo chất lượng 2480,0 INC so với 1212,408 CNM Kết thực nghiệm cho thấy tính khả quan cao INC áp dụng để phân nhóm người dùng mạng xã hội ABSTRACT GROUPING USERS BASED ON INTERACTIVE BEHAVIOR IN SOCIAL NETWORKS Social networking is now widely used in the world in general and in Vietnam in particular So in many areas of social life such as computer science, biology, economics, politics the discovery of user groups in social networking has an important role For the purpose of identifying and grouping users in social networks, many algorithms have been developed, including algorithms: genetic algorithm, Kernighan-Lin algorithm, Girvan-Newman algorithm, greedy algorithms Newman, algorithmic Clauset-Newman-Moore (CNM) Among these algorithms, the CNM algorithm is best suited for real-world models with a size O (mdlogn) complex where d is the depth of the "dendrogram" data describing the structure of the network group, m is the number of vertices and n is the number of edges But although the CNM algorithm for fast-paced and split-quality metrics is well suited to real-world models, it is still limited by the fact that many large structured groups and maximal the modularity value can not be asserted as a clustered graph unless the found groups are clique In order to overcome the limitations and take advantage of the real-time performance advantage of the CNM algorithm, the INC algorithm was developed based on it, to produce smaller-sized group structures that express the bile relationship It is more important than the objects in the same group To be more realistic in this thesis, the author has built a social network based on user interaction behavior versus social networking models based on social relationships or track amounts Like previous research topics From the self-collected dataset of 1500 Facebook accounts, the thesis builds a social network graph of 1500 peaks, 101.537 edges and 2,400,534 user comments The empirical results show that INC is much slower than CNM (0.24 seconds of INC versus 0.18 seconds of CNM), while the number of groups is much larger (321 groups of INCs compared to 92 groups of CNMs) ) and the quality of grouping is superior (quality is 2480,094 of INC versus 1212,408 of CNM) The empirical results show that INC is highly applicable when used to group users in social networks DANH MỤC CÁC HÌNH Hình 1.1: Mơ hình thành viên mạng xã hội Facebook Twitter Hình 1.2: Ví dụ mạng xã hội thu nhỏ có nhóm Hình 1.3: Ví dụ độ đo trung gian Hình 1.4: Mơ hình câu lạc karate Zachary .12 Hình 1.5: Mơ hình biểu diễn mạng lưới cộng tác nhà khoa học SFI 13 Hình 1.6: Mạng Lusseau biểu diễn loài cá heo Doubtful Sound, New Zealand 14 Hình 1.7: Cây phân cấp (dendrogram cho mơ hình câu lạc karate Zachary 15 Hình 1.8: Phân cụm phân cấp với mạng xã hội nhỏ 16 Hình 1.9: Ví dụ phát nhóm sử dụng thuật tốn Girvan - Newman .21 Hình 1.10: Ví dụ phép phân chia đỉnh đồ thị 24 Hình 1.11: Ví dụ trường hợp khơng phân tách đỉnh v đồ thị .24 Hình 1.12: Phép phân chia tối ưu trường hợp hình 1.10 25 Hình 2.1: Ví dụ nội dung hành vi tương tác người dùng 32 Hình 3.1: Một phần tập liệu tài khoản Facebook .38 Hình 3.2: Giao diện sau tạo ứng dụng Facebook API thành công 39 Hình 3.3: Sử dụng Graph API Explorer thu thập bình luận Facebook 39 Hình 3.4: Thu thập liệu với Facebook SDK .40 Hình 3.5: Một phần tập liệu lưu trữ SQL Server 2017 40 Hình 3.6: Một phần danh sách ID số lượng người dùng bình luận lưu trữ CSDL 41 Hình 3.7: Một phần liệu đồ thị mạng xã hội 42 Hình 3.8: Giao diện tự động thu thập liệu 43 Hình : Kết chạy chương trình phân nhóm với INC CNM .44 Hình 3.10: Một phần biểu đồ dendrogram kết phân nhóm với INC 45 Hình 3.11: Đồ thị so sánh thời gian thực thi INC CNM 46 Hình 3.12: Đồ thị so sánh số lượng nhóm theo INC CNM 46 Hình 3.13: Đồ thị tương quan số lượng nhóm với giá trị s 47 Hình 3.14: Đồ thị so sánh chất lượng phân nhóm theo INC CNM 47 Hình 3.15: Đồ thị tương quan chất lượng nhóm với giá trị s 48 Hình 3.16: Kết phân chia nhóm lớn thành nhóm (bất động sản, chứng khốn, tơ, mơ tô ) .49 Hình 3.17: Kết phân chia nhóm lớn thành nhóm (thời trang, nội thất… 50 Hình 3.18: Kết phân nhóm lớn thành nhóm (Phật giáo) 50 Hình 3.19: Kết phân nhóm lớn thành nhóm (mỹ phẩm, thẩm mỹ, bệnh viện… 51 MỞ ĐẦU Đặt vấn đề Mạng xã hội cấu trúc xã hội cấu tạo từ đối tượng người, tổ chức, quốc gia…được gọi nút từ mối quan hệ người thân, bạn bè, đồng nghiệp… trao đổi tài chính, giao dịch…được gọi cung, nút liên kết với nhiều cung Mối liên kết nút dùng để biểu diễn mối liên hệ nút, liên kết liên kết vơ hướng mối quan hệ hai nút mối quan hệ qua lại, ví dụ nút A đồng nghiệp với nút B nút B đồng nghiệp với nút A…các liên kết liên kết có hướng, ví dụ nút A thích nút B nút B khơng thích nút A…đồng thời liên kết cịn đánh trọng số để biểu diễn độ mạnh yếu liên kết hai nút Có hai cách để biểu diễn mạng xã hội mà nhà phân tích mạng xã hội sử dụng đồ thị ma trận kề, lý thuyết đồ thị thường sử dụng để tính tốn phân tích liên kết mạng Để biểu diễn mạng xã hội lý thuyết đồ thị nút đỉnh, liên kết nút cạnh cạnh đồ thị vơ hướng có hướng hay đánh trọng số phụ thuộc vào nhu cầu biểu diễn Khi biểu diễn đồ thị mạng xã hội ta thấy số nhóm đỉnh có liên kết chặt chẽ với tạo thành cụm cụm nối với vài cạnh khác, tính chất gọi phân nhóm Đây tính chất quan trọng mạng xã hội nhiều nghiên cứu mục tiêu hướng đến việc phát nhóm Lý chọn đề tài Hiện giới có nhiều trang mạng xã hội khác tiêu biểu có Facebook, Twitter, outube, Instagram…hay Việt Nam có Zalo, Zing Me thu hút hàng triệu người dùng Trên trang mạng xã hội người dùng giao lưu, kết bạn, bày tỏ cảm xúc sử dụng với mục đích kinh doanh, giải trí, tuyên truyền…Nếu phân nhóm người dùng quan tâm đến vấn đề mạng xã hội có ý nghĩa to lớn giúp cho việc truyền tải thông tin, tiếp thị bán hàng hoạt động khác…đến đối tượng Đã có nhiều thuật tốn phát triển phục vụ mục đích phát phân nhóm mạng xã hội Tiêu biểu có giải thuật di truyền, thuật toán Kernighan- Lin, họ thuật toán Girvan-Newman, thuật toán tham lam Newman, thuật toán Clauset-Newman-Moore (CNM) Về thuật tốn di truyền, Kernighan-Lin [1], họ thuật tốn Girvan-Newman [5, 9, 10, 11, 12] có điểm hạn chế áp dụng cho số mạng mà khơng mang tính tổng qt, hay Girvan-Newman áp dụng cho nhiều mạng lại gặp vấn đề với thời gian thực thi thuật toán (độ phức tạp O(m2n mạng với m số đỉnh n số cạnh, độ phức tạp O(n3 trường hợp đồ thị thưa - dạng mơ hình mạng hay gặp giới thực Vì hạn chế mà thuật toán thường chạy với số đỉnh cỡ vài ngàn đỉnh Xuất phát từ thực tế đó, Newman [13] độc lập phát triển thuật toán tối ưu tham lam với việc đưa vào độ đo chất lượng phân chia nhóm, gọi modularity, cách cài đặt để thực thi thuật toán Newman có độ phức tạp cỡ O((m+n n với đồ thị O(n2 với đồ thị thưa Thuật toán CNM [4] thuật toán tốt nay, dựa ý tưởng thuật toán tối ưu tham lam Newman đề xuất trên, nhiên cách thức cài đặt CNM lại khác so với Newman việc đưa vào số cấu trúc liệu đặc biệt, giúp cho việc tìm kiếm tối ưu nhanh thuật toán chạy với độ phức tạp cỡ O(mdlogn d độ sâu cấu trúc liệu "dendrogram" mô tả cấu trúc nhóm mạng, m số đỉnh n số cạnh Trên thực tế đa số mạng có cấu trúc thưa, tức m~n d~logn, dẫn đến thuật toán CNM chạy nhanh (tuyến tính với độ phức tạp O(nlog2n) Mặc dù thuật toán CNM cho thời gian chạy nhanh độ đo chất lượng phân chia nhóm phù hợp với mơ hình thực tế, nhiên kết cho nhiều nhóm có cấu trúc lớn, đồng thời việc cực đại hóa giá trị modularity chưa thể giúp ta khẳng định đồ thị có cấu trúc nhóm trừ nhóm tìm clique (tồn cạnh nối hai đỉnh đồ thị Trên thực tế, có nhiều cơng việc địi hỏi phải phân chia nhóm mức độ chi tiết Ví dụ: với lượng lớn người dùng nhóm giải trí, cần phân chia thành nhóm như: đam mê ca nhạc, thể thao, phim ảnh, du lịch, mua sắm Ngoài ra, cách tiếp cận tác giả trước xây dựng mơ hình mạng xã hội thường dựa mối quan hệ xã hội (mơ hình tĩnh người dùng mạng bạn bè, gia đình, đồng nghiệp mà không để ý đến việc người dùng có mối quan tâm đến chủ đề, lĩnh vực hay khơng (cụ thể với Facebook thể việc vào comment hay like, share, post - mơ hình động , chất lượng phân nhóm mạng khơng cao Xuất phát từ hạn chế trên, luận văn nghiên cứu "Phân nhóm người dùng dựa vào hành vi tương tác mạng xã hội" Luận văn nghiên cứu thuật toán cải tiến dựa thuật toán CNM cách thức xây dựng cấu trúc mạng xã hội dựa hành vi tương tác người dùng (mơ hình mạng động với đồ thị vơ hướng có trọng số , nhằm nâng cao chất lượng phân nhóm người dùng mạng xã hội thực tế Facebook, Twitter Mục tiêu đề tài Xây dựng cấu trúc mạng xã hội dựa hành vi tương tác người dùng Xây dựng thuật toán phát nhóm người dùng nhỏ bên mạng xã hội với độ tin cậy cao Thời gian thực thi thuật toán nhanh, tiết kiệm nhớ nhằm phù hợp với cấu trúc mạng xã hội lớn thực tế (hàng triệu đỉnh, cạnh) Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu liệu mạng xã hội: người dùng mạng xã hội, trao đổi nội dung thơng tin, bình luận, chia sẻ, mạng xã hội Phạm vi nghiên cứu Nắm bắt sử dụng Facebook API lấy thơng tin người dùng, chia sẻ, bình luận, like mạng xã hội Facebook Nắm bắt lý thuyết đồ thị vận dụng vào việc biểu diễn mạng xã hội Nắm bắt tiêu chí để phát cấu trúc nhóm Nắm bắt số thuật tốn phát nhóm nhằm cải tiến, nâng cao chất lượng phân nhóm, tối ưu thời gian thực thi dung lượng nhớ Phương pháp luận phương pháp nghiên cứu Từ lý thuyết công bố từ báo, tài liệu cơng trình nghiên cứu liên quan kết hợp để phát triển xây dựng ứng dụng với mục đích thử nghiệm đánh giá hiệu mơ hình đề xuất Cấu trúc luận văn bố cục bao gồm phần mở đầu, kết luận 03 chương, cụ thể sau: 51 Hình 3.19: Kết phân nhóm lớn thành nhóm (mỹ phẩm, thẩm mỹ, bệnh viện… * Đánh giá chung: Mặc dù thời gian thực thi thuật toán INC chậm so với thuật tốn CNM (khơng đáng kể bù lại thuật tốn INC tìm thấy số lượng nhóm nhiều nhiều chất lượng nhóm tốt thuật tốn CNM xét độ đo modun hố mật độ Ngồi giá trị s tăng dần số nhóm chất lượng nhóm giảm dần Kết trực quan cho thấy việc phân nhóm thuật tốn INC xác 3.4 Kết luận chương Trong chương 3, tơi trình bày chi tiết bước tiến hành thực nghiệm, đánh giá kết thuật toán INC cải tiến so với thuật tốn CNM, gồm có: 52 bước xây dựng liệu để tiến hành thực nghiệm với Facebook API, cài đặt thuật toán INC CNM với đồ thị mạng xã hội vô hướng có trọng số cạnh, vẽ biểu đồ trực quan kết phân chia nhóm Các kết thực nghiệm phân tích kỹ lưỡng chương ua phân tích kết số liệu trực quan cho thấy thuật tốn INC có thời gian thực thi nhanh, tìm nhiều nhóm CNM chất lượng phân chia nhóm tốt so với CNM INC áp dụng cho mơ hình tìm kiếm nhóm mạng xã hội thực tế dựa mối quan tâm người dùng với mối liên hệ cao 53 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Mạng xã hội toán phân nhóm mạng xã hội vấn đề nhiều nhà nghiên cứu quan tâm thời đại Các tốn phân nhóm ứng dụng rộng rãi nhiều lĩnh vực đời sống kinh tế, trị, xã hội, khoa học cơng nghệ, Trong khuôn khổ luận văn, nghiên cứu trình bày kiến thức tổng quan mạng xã hội, tốn phân nhóm mạng xã hội thuật tốn phổ biến phân nhóm, ưu nhược điểm thuật toán Trên sở thuật tốn nghiên cứu, tơi đề xuất thuật tốn với tên gọi INC phát triển dựa thuật tốn CNM với tư tưởng đệ quy để tìm thêm nhiều nhóm có ý nghĩa nhóm lớn CNM tạo với chất lượng nhóm hẳn so với CNM Đồ thị mạng xã hội xây dựng dựa hành vi tương tác người dùng, tức có tính động cao, khơng nghiên cứu trước tiến hành mạng tĩnh với quan hệ bạn bè, theo dõi Mạng xã hội xây dựng INC đồ thị vơ hướng có trọng số Trọng số cạnh thể độ mạnh mối quan tâm người dùng hai đỉnh đồ thị Trong khuôn khổ luận văn, mạng xã hội nghiên cứu Facebook - mạng xã hội sử dụng phổ biến Việt Nam giới Các đỉnh mạng xã hội tường Facebook (có thể đại diện cho cá nhân, nhóm, tổ chức, cơng ty, tập đồn hoạt động lĩnh vực khác Việc dị tìm nhóm có ý nghĩa lớn thực tiễn, toán tiếp thị sản phẩm tới thành viên nhóm quan tâm tới sản phẩm ua đánh giá kết thực nghiệm, nhận thấy tính khả quan cao thuật tốn INC với việc dị tìm nhiều nhóm với chất lượng tốt thời gian thực nhanh Phân tích trực quan kết cho thấy việc chia nhóm phù hợp với thực tế Hướng phát triển đề tài Mặc dù cố gắng với thời gian thực luận văn không nhiều, khối lượng kiến thức cần nghiên cứu nhiều nên luận văn tồn hạn chế cần khắc phục thời gian tới, cụ thể như: - Thu thập liệu phong phú hơn: thu thập nhiều mạng xã hội khác Facebook, Twitter kích thước mạng lớn hơn, lượng bình luận thu 54 thập vài năm để tăng độ xác (trong luận văn tơi thu thập bình luận từ năm 2018 trở - Đánh giá thuật toán với nhiều thuật tốn khác ngồi CNM, nghiên cứu cải tiến để tăng tốc độ chất lượng phân nhóm thuật toán - Nghiên cứu thêm độ đo chất lượng cách đánh trọng số hợp lý cho mạng xã hội để làm tăng chất lượng dò tìm nhóm 55 TÀI LIỆU THAM KHẢO [1] S L B W Kernighan, An efficient heuristic procedure for partitioning graphs, 1970 [2] M E J N Girvan M, Community structure in social and biological networks, 2002 [3] M N M GIRVAN, Finding and evaluating community structure in networks, 2004 [4] N M M C Clauset A, Finding community structure in very large networks, 2004 [5] M E J Newman, Fast algorithm for detecting community structure in networks, 2004 [6] J K David Easley, Networks, Crowds, Markets:: Reasoning About a Highly Connected World, 2010 [7] S Fortunato, Community detection in graphs, 2010 [8] R Diestel, Graph Theory, Springer, 2006 [9] R R S K Guha S, A robust clustering algorithm for categorical attributes, 2000 [10] Koray, Community Detection In Social Networks, 2014 [11] M Bingol H Tasgin, „Community detection in complex networks using genetic algorithms,” PNAS, 2006 [12] W D Pinney J, Betweenness-based decomposition methods for social and biological networks, 2007 [13] Steve Gregory, „An Algorithm to Find Overlapping Community Structure in Networks,” PKDD, 2007 [14] M Bostock, „http://mbostock.github.com/d3/,” 2015 [Online] [15] K Madduri, SNAP: Small-world network analysis and partitioning,” Kamesh Madduri, 2008 [Online] Available: http://snap- graph.sourceforge.net [16] Guha S, Rastogi R, Shim K (2000) Rock: a robust clustering algorithm for categorical attributes Inf Syst 25(5): 345–366 [17] Leydesdorff L (2008) On the normalization and visualization of author cocitation data: Salton’s cosine versus the jaccard index [18] M Zuckerberg, http://developers.facebook.com/,” facebook, 2010 [Online] [19] N X D C Zhang S, Maximizing modularity density for exploring modular organization of protein interaction networks, 2009 ... lượng phân nhóm người dùng mạng xã hội thực tế Facebook, Twitter Mục tiêu đề tài Xây dựng cấu trúc mạng xã hội dựa hành vi tương tác người dùng Xây dựng thuật toán phát nhóm người dùng nhỏ bên mạng. .. luận chương Trong chương tơi trình bày kiến thức tổng quan mạng xã hội, loại mạng tính chất mạng xã hội, cấu trúc nhóm mạng xã hội, ý nghĩa vi? ??c phân nhóm mạng xã hội số ví dụ mạng xã hội tiêu biểu... thập mạng xã hội Facebook 2.2 Mô hình hóa liệu Theo thuật tốn INC tơi thu thập tập liệu từ mạng xã hội Facebook để xây dựng mạng xã hội dựa vào hành vi tương tác người dùng Trong mạng xã hội Facebook