Nghiên Cứu Mô Hình Phân Cụm Có Thứ Bậc Các Đồ Thị Dữ Liệu

87 58 0
Nghiên Cứu Mô Hình Phân Cụm Có Thứ Bậc Các Đồ Thị Dữ Liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT & TT THÁI NGUN NGUYỄN THẾ ĐẠT NGHIÊN CỨU MƠ HÌNH PHÂN CỤM CÓ THỨ BẬC CÁC ĐỒ THỊ DỮ LIỆU LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH Thái Nguyên – 2017 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT & TT THÁI NGUN NGUYỄN THẾ ĐẠT NGHIÊN CỨU MƠ HÌNH PHÂN CỤM CÓ THỨ BẬC CÁC ĐỒ THỊ DỮ LIỆU Chuyên ngành: Khoa học máy tính Mã số: 60 48 0101 LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐOÀN VĂN BAN Thái Nguyên – 2017 i LỜI CAM ĐOAN Tên là: Nguyễn Thế Đạt Sinh ngày: 09/01/1979 Học viên lớp cao học CK14 - Trường Đại học Công nghệ thông tin Truyền thông - Đại học Thái Nguyên Hiện công tác tại: Trường THCS Hạp Lĩnh – TP Bắc Ninh – Bắc Ninh Xin cam đoan: Đề tài “Nghiên cứu mơ hình phân cụm có thứ bậc đồ thị liệu” Thầy giáo PGS.TS Đoàn Văn Ban hướng dẫn cơng trình nghiên cứu riêng tơi Tất tài liệu tham khảo có nguồn gốc, xuất xứ rõ ràng Tác giả xin cam đoan tất nội dung luận văn nội dung đề cương yêu cầu thầy giáo hướng dẫn Nếu sai tơi hồn tồn chịu trách nhiệm trước hội đồng khoa học trước pháp luật Thái Nguyên, ngày 15 tháng năm 2017 Tác giả luận văn Nguyễn Thế Đạt ii LỜI CẢM ƠN Sau thời gian nghiên cứu làm việc nghiêm túc, động viên, giúp đỡ hướng dẫn tận tình Thầy giáo hướng dẫn PGS.TS Đoàn Văn Ban, luận văn với đề tài “Nghiên cứu mơ hình phân cụm có thứ bậc đồ thị liệu”đã hồn thành Tơi xin bày tỏ lòng biết ơn sâu sắc đến: Thầy giáo hướng dẫn PGS.TS Đồn Văn Ban tận tình dẫn, giúp đỡ tơi hồn thành luận văn Khoa sau Đại học Trường Đại học công nghệ thông tin truyền thông giúp đỡ trình học tập thực luận văn Tơi xin chân thành cảm ơn bạn bè, đồng nghiệp gia đình động viên, khích lệ, tạo điều kiện giúp đỡ tơi suốt q trình học tập, thực hoàn thành luận văn Thái Nguyên, ngày 15 tháng năm 2017 Tác giả luận văn Nguyễn Thế Đạt iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC BẢNG v DANH MỤC CÁC TỪ VIẾT TẮT vi DANH MỤC CÁC HÌNH VẼ .vii MỞ ĐẦU CHƯƠNG 1: PHÂN CỤM DỮ LIỆU VÀ PHÂN CỤM ĐỒ THỊ DỮ LIỆU 1.1 Phân cụm liệu 1.1.1 Khái niệm mục tiêu phân cụm liệu 1.1.2 Một số khái niệm cần thiết tiếp cận phân cụm liệu .7 1.1.3 Một số kỹ thuật phân cụm liệu 10 1.1.4 Các ứng dụng phân cụm liệu 16 1.2 Phân cụm đồ thị liệu 17 1.2.1 Mơ hình đồ thị liệu 17 1.2.2 Các loại độ đo 18 1.2.3 Một số kỹ thuật phân cụm đồ thị liệu 23 1.3 Kết luận chương 28 CHƯƠNG 2: PHÂN CỤM CÓ THỨ BẬC CÁC ĐỒ THỊ DỮ LIỆU 29 2.1 Thuật toán CHAMELEON 29 2.2 Thuật toán CURE .31 2.3 Thuật toán Girvan-Newman 34 2.3.1 Giới thiệu độ đo modularity 34 2.3.2 Độ đo trung gian .35 2.3.3 Thuật toán phân cụm Girvan-Newman 36 2.4 Thuật toán CNM (Clauset-Newman-Moore) 39 2.5 Thuật toán Rosvall-Bergstrom 42 iv 2.6 Thuật toán INC (Incre-Comm-Extraction) 47 2.6.1 Nội dung thuật toán 47 2.6.2 Độ phức tạp thuật toán .49 2.6.3 Độ đo chất lượng phân cụm thuật toán 50 2.7 Kết luận chương 51 CHƯƠNG 3: ỨNG DỤNG THUẬT TỐN PHÂN CỤM CĨ THỨ BẬC TRONG PHÂN CỤM ĐỒ THỊ DỮ LIỆU CÁC MẠNG Xà HỘI 52 3.1 Bài toán phân cụm mạng xã hội .52 3.2 Xây dựng chương trình ứng dụng phân cụm đồ thị mạng xã hội 53 3.2.1 Giai đoạn 1: Thu thập liệu 53 3.2.2 Giai đoạn 2: Xử lý liệu 54 3.2.3 Giai đoạn 3: Xây dựng ứng dụng phân cụm có thứ bậc đồ thị mạng xã hội 55 3.3 Các kết thực nghiệm đánh giá 56 3.3.1 Thời gian thực thi thuật toán 57 3.3.2 Số cụm phân chia 58 3.3.3 Chất lượng phân cụm .58 3.4 Phân cụm đồ thị mạng xã hội dựa mối quan tâm người dùng 58 3.4.1 Giới thiệu 58 3.4.2 Mơ hình hóa liệu 60 3.4.3 Xây dựng liệu 62 3.4.4 Xây dựng ứng dụng 66 3.4.5 Thực nghiệm đánh giá INC 69 3.5 Kết luận chương 74 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 75 TÀI LIỆU THAM KHẢO 76 v DANH MỤC BẢNG Bảng 3.1: Kết thực thi thuật toán…………………………………………57 Bảng 3.2: Kết thực thi thuật toán INC CNM…………………………….69 vi DANH MỤC CÁC TỪ VIẾT TẮT Từ cụm từ CNM Từ tiếng Anh Clauset-Newman-Moore Phân cụm có thứ bậc tích tụ Cơ sở liệu CSDL CURE Từ tiếng Việt Clustering Using Representatives GN Girvan-Newman INC Incre-Comm-Extraction MCL Markov Clustering RB Rosvall-Bergstrom Phân cụm liệu sử dụng điểm đại diện Phân cụm phân chia Phân cụm theo mơ hình Markov vii DANH MỤC CÁC HÌNH VẼ Hình 1.1: Ví dụ phân cụm liệu Hình 1.2: Ví dụ phân cụm ngơi nhà dựa khoảng cách Hình 1.3: Ví dụ phân cụm ngơi nhà dựa kích cỡ Hình 1.4: Các chiến lược phân cụm có thứ bậc .11 Hình 1.5: Ví dụ phân cụm dựa theo mật độ 12 Hình 1.6: Cấu trúc phân cụm dựa lưới 13 Hình 1.7: Ví dụ phân cụm dựa mơ hình .14 Hình 1.8: Các cách mà cụm đưa 16 Hình 1.9: (a) Tối ưu đường kính cực tiểu tổng cực tiểu tạo cụm B A lại tốt thực tế (b) Tối ưu K-means tạo cụm B A lại tốt .20 Hình 1.10: Minh họa mơ hình đồ thị cho bước ngẫu nhiên …………………….25 Hình 2.1: Phân cụm Chameleon .31 Hình 2.2: Sự di chuyển trung tâm cụm .32 Hình 2.3: Sự sáp nhập cụm 32 Hình 2.4: Cụm liệu khai phá thuật tốn CURE 33 Hình 2.5: Ví dụ phát cụm sử dụng thuật tốn Girvan - Newman 38 Hình 2.6: Khung làm việc sở để phân cụm đồ thị trình truyền thơng…42 Hình 2.7: Ví dụ mã Huffman .43 Hình 2.8: Phân hoạch vào lượng tối ưu modul 45 Hình 3.1: Các bước thực chương trình .53 Hình 3.2: Ví dụ tập liệu Dolphins.gml 54 Hình 3.3: Tập liệu Dolphins.txt 54 Hình 3.4: Nạp file liệu đầu vào 55 Hình 3.5: Kết chạy thuật toán phân cụm CNM cho liệu dolphins.txt 56 Hình 3.6: Kết chạy thuật tốn Girvan-Newman cho liệu dolphins.txt 56 Hình 3.7: Biểu đồ so sánh thời gian thực thi thuật toán 57 Hình 3.8: Biểu đồ so sánh số lượng cụm 58 viii Hình 3.9: Biểu đồ so sánh chất lượng phân cụm .58 Hình 3.10: Đăng tin bình luận Facebook 60 Hình 3.11: Một phần danh sách tài khoản Facebook 62 Hình 3.12: Giao diện đăng ký ứng dụng Facebook API 63 Hình 3.13: Thu thập liệu thủ công với Graph API Explorer 63 Hình 3.14: Thu thập liệu tự động với Facebook API 64 Hình 3.15: Một phần liệu thu thập cập nhật SQL Server 64 Hình 3.16: Một phần liệu danh sách số lượng ID người dùng bình luận tường Facebook tương ứng .65 Hình 3.17: Một phần liệu mạng xã hội dựa mối quan tâm người dùng 66 Hình 3.18: Giao diện tự động thu thập liệu 67 Hình 3.19: Kết chạy chương trình phân cụm với INC CNM 68 Hình 3.20: Một phần biểu đồ dendrogram kết phân cụm với INC 68 Hình 3.21: Đồ thị so sánh thời gian thực thi INC CNM 69 Hình 3.22: Đồ thị so sánh số lượng cụm theo INC CNM 70 Hình 3.23: Đồ thị tương quan số lượng cụm với giá trị s 70 Hình 3.24: Đồ thị so sánh chất lượng phân cụm theo INC CNM 70 Hình 3.25: Đồ thị tương quan chất lượng cụm với giá trị s 71 Hình 3.2.6: Kết phân chia cụm lớn thành cụm (bất động sản, chứng khốn, tô, xe máy ) 72 Hình 3.27: Kết phân chia cụm lớn yêu thích đồ nội thất, lưu niệm, thời trang thành cụm (giày dép, đồng hồ,hoa tươi, quà lưu niệm, ngân hàng ) 72 Hình 3.28: Kết phân cộng động quan tâm tới Phật giáo 73 Hình 3.29: Kết phân cộng động quan tâm tới mỹ phẩm, thẩm mỹ, bệnh viện thẩm mỹ phân chia theo INC 73 63 Hình 3.12: Giao diện đăng ký ứng dụng Facebook API Lúc này, ta sử dụng ngơn ngữ lập trình, cụ thể ta sử dụng Visual Studio 2012 (C#) để xây dựng ứng dụng sử dụng Facebook API để thu thập liệu thông qua công cụ Graph API Explorer Một ví dụ thu thập thơng tin bình luận người dùng tường Facebook dùng Graph API Explorer thủ cơng sau: Hình 3.13: Thu thập liệu thủ công với Graph API Explorer 64 Để thu thập tự động, ta sử dụng thư viện Facebook.dll với tham số AppId, Access token ứng dụng đăng ký Riêng giá trị Access token phải truy cập vào ứng dụng để lấy lại mã giá trị có giới hạn phiên làm việc Dữ liệu thu thập theo năm, theo số bình luận tối đa trang liệu trả Vì thời gian thu thập liệu lâu số lượng bình luận trang lớn nên ta thu thập liệu theo khoảng khác với nhiều ứng dụng thực thi thời điểm Trong khuôn khổ luận văn thu thập liệu bình luận tính từ năm 2016 trở Bộ liệu thu thập lưu trữ SQL Server 2008 với dung lượng lên tới 4.5 GB Hình 3.14: Thu thập liệu tự động với Facebook API Hình 3.15: Một phần liệu thu thập cập nhật SQL Server 65 Như hình 3.14, 3.15, liệu trả định dạng Json, tiến hành đọc định dạng tách danh sách ID đếm số lượng người dùng đơn bình luận tường Facebook tương ứng Hình 3.16: Một phần liệu danh sách số lượng ID người dùng bình luận tường Facebook tương ứng 3.4.3.2 Tiền xử lý liệu, xây dựng cấu trúc mạng xã hội dựa mối quan tâm người dùng Với liệu thu thập được, có số tường Facebook khơng thu thập liệu tài khoản thiết lập quyền không cho phép thu thập tự động thông qua Facebook API Ta tiến hành loại bỏ ghi số ghi có người tham gia bình luận (dưới 100 người) để liệu có ý nghĩa Sau ta tiến hành xây dựng liệu đồ thị mạng xã hội thu thập theo mơ hình giới thiệu 3.4.2, tiến hành xuất file FacebookGraphWeight.txt để làm đầu vào cho thuật tốn INC phân cụm Định dạng file FacebookGraphWeight.text gồm có dòng cạnh đồ thị với thơng số: đỉnh đầu, đỉnh cuối, số người bình luận chung, số người bình luận tường facebook đỉnh đầu, số người bình luận tường facebook đỉnh cuối 66 Dựa giá trị này, chương trình tính trọng số cạnh đồ thị theo công thức 3.4.2 Sau tiền xử lý liệu, liệu thu thập gồm 1500 đỉnh (FacebookID), 109445 cạnh 2.604.079 người dùng Facebook đơn tham gia bình luận tường Hình 3.17: Một phần liệu mạng xã hội dựa mối quan tâm người dùng 3.4.4 Xây dựng ứng dụng Dựa nghiên cứu chương trước, ta tiến hành cài đặt ứng dụng để đánh giá kết đạt liệu thực nghiệm Các chức ứng dụng demo sau: 3.4.4.1 Tự động thu thập xây dựng liệu Được phát triển ngôn ngữ C#.NET với Visual Studio 2012 hệ quản trị CSDL Microsoft SQL Server 2008, kết hợp với thư viện hỗ trợ lập trình Facbook API Người dùng nhập vào chuỗi Access Token ứng dụng theo phiên làm việc Facebook, nhập vào tham số thời gian thu thập tính từ năm nào, số bình luận tối đa thu trang (nếu liệu lớn Facebook phân trang kết trả về), thu thập cho ID facebook nằm khoảng (áp dụng cho việc chạy nhiều tiến trình đồng thời - chạy ứng dụng thu thập thời gian) Bấm nút "Thu thập comments" để tự động thu thập bình luận ghi vào sở liệu: 67 Hình 3.18: Giao diện tự động thu thập liệu Sau thu thập xong bình luận, bấm nút "Tách Facebook ID" để tách riêng ID người dùng bình luận tương ứng với tường Facebook lựa chọn Sau tách xong, bấm nút "Xây dựng mạng cụm" để tạo file liệu đầu vào cho việc phân cụm 3.4.4.2 Phân cụm đồ thị mạng xã hội với CNM INC Ứng dụng kế thừa từ thư viện mã nguồn mở SNAP [23] viết Visual C++ Console phục vụ cho mục đích nghiên cứu thuật tốn phân cụm Trong thư viện có cài đặt thuật tốn CNM áp dụng cho đồ thị vô hướng trọng số Tiến hành phát triển CNM cho đồ thị vơ hướng có trọng số theo u cầu thuật tốn INC trình bày 2.6 Sau tiến hành cài đặt thuật toán INC dựa thuật toán CNM với tham số đầu vào đồ thị mạng xã hội thu thập số s (cận kích thước cụm) có Kết xuất số lượng cụm, thời gian thực thuật toán độ đo chất lượng phân cụm với thuật toán INC CNM để tiện theo dõi, so sánh kết 68 Hình 3.19: Kết chạy chương trình phân cụm với INC CNM Ngoài việc xuất kết chung hình, chương trình cịn xuất file kết chi tiết (danh sách cụm thành viên cụm) định dạng file Json phục vụ cho việc biểu diễn trực quan biểu đồ dendrogram phân chia cụm 3.4.4.3 Biểu diễn trực quan kết phân cụm với CNM cải tiến Để biểu diễn trực quan kết phân cụm, em xây dựng ứng dụng ASP.NET với C# để vẽ biểu đồ dendrogram file kết định dạng Json, sử dụng phần mềm mã nguồn mở D3 [27] Để việc biểu diễn xác, định dạng file Json nghiên cứu kỹ lưỡng xuất tương ứng vòng lặp đệ quy thuật tốn INC Hình 3.20: Một phần biểu đồ dendrogram kết phân cụm với INC 69 3.4.5 Thực nghiệm đánh giá INC Để đánh giá kết thuật toán INC, tác giả tiến hành thực nghiệm liệu thu thập 3.4.3 Cấu hình máy tính sử dụng để tiến hành thực nghiệm sau: - Hệ điều hành: Windows 8.1 64bit - Processor: Intel(R) Celeron(R) CPU G1840 @2.80GHz - RAM: 8GB Kết thực thi thuật toán INC CNM cho bảng 3.2 đây: Facebook Dataset (1500) Số cụm s Bộ liệu Chất lượng phân cụm (Modularity) INC CNM INC CNM 321 92 284 2651.66 10 224 2730.1 15 188 2785.667 20 168 2754.92 30 140 2713.86 40 137 2721.756 50 135 2719.86 2480.094 1212.408 Thời gian thực thi (giây) INC CNM 8.25 7.35 Bảng 3.2: Kết thực thi thuật toán INC CNM 3.4.5.1 Thời gian thực thi thuật toán Với liệu đầu vào thu thập được: đồ thị 1500 đỉnh 109445 cạnh, thuật toán INC cho thời gian chạy 6.60(s), CNM 5.99(s) Như thấy tốc độ INC không chênh lệch nhiều so với CNM Thời gian (giây) 10 8.25 7.35 INC CNM Facebook Dataset (1500) Bộ liệu (số đỉnh mạng xã hội) Hình 3.21: Đồ thị so sánh thời gian thực thi INC CNM 70 3.4.5.2 Số lượng cụm tìm Kết thực nghiệm tên liệu thu thập cho thấy số lượng cụm tìm thuật tốn INC 321 cụm, vượt trội so với thuật toán CNM (92 cụm) Số cộng đồng 400 321 300 200 92 100 INC CNM Facebook Dataset (1500) Bộ liệu (số đỉnh mạng xã hội) Hình 3.22: Đồ thị so sánh số lượng cụm theo INC CNM Khi người dùng đưa vào tham số s (cận kích thước cụm), số lượng Số cộng đồng cụm thu tỷ lệ nghịch với giá trị s 400 321 284 224 188 200 168 140 137 135 INC 0 10 15 20 30 40 50 Giá trị tham số s Hình 3.23: Đồ thị tương quan số lượng cụm với giá trị s 3.4.5.3 Chất lượng phân chia cụm Kết thực nghiệm tên liệu thu thập cho thấy chất lượng phân Giá trị modun hóa (mật độ) cụm thuật toán INC 2480,094, vượt trội so với thuật toán CNM (1212,408) 3000 2500 2480.094196 2000 1500 INC 1212.407817 1000 CNM 500 Facebook Dataset (1500) Bộ liệu (số đỉnh mạng xã hội) Hình 3.24: Đồ thị so sánh chất lượng phân cụm theo INC CNM 71 Khi người dùng đưa vào tham số s (cận kích thước cụm), chất lượng cụm thay đổi Chất lượng cụm biến thiên tăng dần đạt giá trị cao s=15 (D = 2785.667), sau giảm dần s tăng lên Khi s tăng giá trị D tiến tới giá trị phân chia cụm CNM 1212.408 Độ đo mô đun dày đặc 2850 2785.667 2800 2754.92 2730.1 2750 2700 2713.86 2721.756 2719.86 2651.66 2650 INC 2600 2550 2500 2480.094196 2450 2400 2350 2300 10 15 20 30 40 50 Giá trị tham số s Hình 3.25: Đồ thị tương quan chất lượng cụm với giá trị s 3.4.5.4 Đánh giá trực quan biểu đồ kết Căn biểu đồ dendrogram biểu diễn kết phân cụm mạng xã hội với liệu thu thập cho thấy chất lượng phân chia cụm tốt Các nút bên biểu diễn cụm mức khác nhau, nút tường Facebook Các cụm mức cuối kết phân chia theo INC, mức thứ hai kết phân chia theo thuật tốn CNM Hình 3.26 ví dụ phân chia cụm lớn từ CNM (cụm quan tâm tới tơ, xe máy, bất động sản, chứng khốn) thành cụm với thuật toán INC Đối với cụm quan tâm tới tơ, thuật tốn cịn chia nhỏ thành cụm quan tâm tới dòng xe khác (Lamborghini, Renault, Lexus, Kia, Honda, Toyota ) phân khúc khác (xe bình dân, xe sang ) 72 + Hình 3.26: Kết phân chia cụm lớn thành cụm (bất động sản, chứng khốn, tơ, xe máy ) Hình 3.27 ví dụ phân chia cụm lớn từ CNM (yêu thích đồ nội thất, lưu niệm, thời trang, ngân hàng) thành cụm với thuật toán INC Đối với cụm quan tâm tới thời trang, thuật tốn cịn chia nhỏ thành cụm quan tâm tới loại khác giày dép, đồng hồ, mũ, quần áo, Hình 3.27: Kết phân chia cụm lớn yêu thích đồ nội thất, lưu niệm, thời trang thành cụm (giày dép, đồng hồ,hoa tươi, quà lưu niệm, ngân hàng ) 73 Hình 3.28: Kết phân cộng động quan tâm tới Phật giáo Hình 3.29: Kết phân cộng động quan tâm tới mỹ phẩm, thẩm mỹ, bệnh viện thẩm mỹ phân chia theo INC * Đánh giá chung:  Thuật toán INC cho thời gian thực thi nhanh, không lâu so với CNM  Thuật tốn cho số lượng cụm tìm thấy nhiều nhiều so với thuật toán CNM  Khi giá trị s tăng dần số cụm tìm giảm dần chất lượng cụm giảm dần 74  Chất lượng phân chia cụm INC tốt nhiều so với CNM xét độ đo mơ đun hóa mật độ  Phân tích trực quan kết cho thấy việc phân chia cụm INC xác 3.5 Kết luận chương Trong chương 3, em giới thiệu kiến thức liên quan đến mạng xã hội toán phân cụm đồ thị liệu mạng xã hội Để áp dụng thuật toán phân cụm phân cấp nghiên cứu để phân cụm liệu đồ thị mạng xã hội, em tiến hành thu thập 05 liệu mạng xã hội cài đặt, thực nghiệm 03 thuật toán nghiên cứu 05 liệu tiến hành đánh giá kết đạt Qua kết thực nghiệm cho thấy, thuật toán Clauset-Newman-Moore thuật toán cho kết tốt phân cụm đồ thị liệu mạng xã hội, thời gian thực thi thuật tốn, số lượng cụm tìm chất lượng phân cụm Do thuật toán CNM cho số cụm ít, nhiều cụm có kích thước lớn Trên thực tế, với toán phân cụm đồ thị mạng xã hội cần phân cụm thành cụm có kích thước nhỏ nhằm phản ánh rõ nét tính chất phần tử cụm (cụ thể mối quan tâm người dùng mạng xã hội tới lĩnh vực, chủ đề cụ thể) nên thuật toán INC cải tiến từ thuật toán CNM xây dựng để đáp ứng mục tiêu đó, qua hỗ trợ hoạt động truyền thông, quảng cáo, marketing online hướng tới cụm đối tượng người dùng cụ thể 75 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Mạng xã hội toán phân cụm người dùng mạng xã hội vấn đề nhiều nhà nghiên cứu quan tâm thời đại Các toán phát cộng đồng dựa thuật toán phân cụm ứng dụng rộng rãi nhiều lĩnh vực đời sống kinh tế, trị, xã hội, khoa học cơng nghệ, Những kết luận văn:  Trình bày kiến thức tổng quan đồ thị liệu, phương pháp phân cụm đồ thị liệu, tập trung vào phương pháp phân cụm phân cấp đồ thị liệu Trên sở thuật toán nghiên cứu  Cài đặt thuật toán thử nghiệm 05 liệu mạng xã hội thực tế (các liệu chuẩn sử dụng đánh giá thuật toán phân cụm đồ thị mạng xã hội)  Kết thực nghiệm cho thấy thuật toán CNM (Clauset-Newman-Moore) thuật toán tốt cho phân cụm để phát cộng đồng mạng xã hội với tốc độ tính tốn nhanh nhất, chất lượng phân cụm tốt tương đương với thuật tốn Girvan-Newman theo tiêu chí đánh giá độ đo Modularity  Chất lượng phân chia cụm INC tốt nhiều so với CNM xét độ đo mơ đun hóa mật độ  Phân tích trực quan kết cho thấy việc phân chia cụm INC xác Hướng phát triển đề tài Mặc dù cố gắng với thời gian thực luận văn không nhiều, khối lượng kiến thức cần nghiên cứu nhiều nên luận văn tồn hạn chế cần khắc phục thời gian tới, cụ thể như: - Việc đánh giá kết cần tiến hành nhiều liệu hơn, kích thước liệu lớn - Cài đặt đánh giá kết nhiều thuật toán để thấy đầy đủ điểm mạnh, yếu thuật toán - Hiển thị kết phân cụm trực quan hơn, làm việc với loại liệu đầu vào khác file gml 76 TÀI LIỆU THAM KHẢO Tiếng Việt Hà Quang Thụy, Phan Xn Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009) Giáo trình khai phá liệu, NXBGD Lê Minh Tiến (2006), “Tổng quan phương pháp phân tích mạng xã hội nghiên cứu xã hội” Tạp chí khoa học xã hội Số Nguyễn Hồng Tú Anh (2009), Giáo trình "Khai thác liệu ứng dụng", Đại học Khoa học Tự nhiên TP HCM Tiếng Anh B W Kernighan and S Lin, An efficient heuristic procedure for partitioning graphs Bell System Technical Journal 49, 291-307 (1970) Clauset A, Newman MEJ, Moore C (2004), Finding community structure in very large networks Phys Rev E 70(6):066,111 Doan Nhat Quang (2013), New models for hierarchical and topological clustering, Ph D Thesis PARIS 13 UNIVERSITY - SORBONNE PARIS CITÉ Girvan M, Newman MEJ (2002), Community structure in social and biological networks PNAS 99(12):7821–7826 Girvan, M & Newman, M.E.J (2004) Finding and evaluating community structure in networks Physical review E, Statistical, nonlinear, and soft matter physics, 69 Hanene Azzag, Gilles Venturini, Antoine Oliver et Christiane Guinot (2007), A hierarchical ant based clustering algorithm and its use in three real-world applications, European Journal of Operational Research, vol 179, no 3, June 2007 10 H Azzag, N Monmarch´e, M Slimane, G Venturini, C Guinot (2012), AntTree: a New Model for Clustering with Artificial Ants 11 Istvan Jonyer, Diane J Cook, Lawrence B Holder (2002), Graph-Based Hierarchical Conceptual Clustering, Journal of Machine Learning Research 12 M Girvan, M E J Newman (2002), Community structure in social and biological networks, Proc Natl Acad Sci., 99(12), 7821 13 M E J Newman (2004), Fast algorithm for detecting community structure in networks Phys Rev E 69, 066133 77 14 Martin Rosvall, Carl T Bergstrom (2007), "Maps of random walks on complex networks reveal community structure", Department of Biology, University of Washington, Seattle 15 Newman, M.E.J (2006) Modularity and community structure in networks Proceedings of the National Academy of Sciences, 103, 8577-8582 16 Newman, M.E.J (2004) Detecting community structure in networks The European Physical Journal B - Condensed Matter and Complex Systems, 38, 321-330 17 Network data sets (truy cập ngày 10/2/2017) http://www-personal.umich.edu/~mejn/netdata/ 18 P Eades and Q.W Feng (1996), Multilevel visualization of clustered graphs, In Proceedings of the Symposium on Graph Drawing, GD ’96, pages 101–112, Berkeley, California, USA, September 1996 19 Pinney J,Westhead D (2007), Betweenness-based decomposition methods for social and biological networks Interdiscipl StatBioinf pp 87–90 20 Reinhard Diestel (2005), Graph Theory, Springer-Verlag Heidelberg, NY, 2005 21 Santo Fortunato (2010), Community detection in graphs 22 Social Networks Datasets (truy cập ngày 10/2/2017) https://snap.stanford.edu/data/#socnets 23 Teuvo Kohonen (2001), Self-Organizing Maps, Third Edition, Springer, Heidelberg 24 Zhang S, Ning X, Ding C (2009), Maximizing modularity density for exploring modular organization of protein interaction networks In: Third international symposium on optimization and systems biology, pp361–370 25 Zheng Chen (2009), Graph-based Clustering and its Application in Coreference Resolution, The Graduate Center, The City University of New York 26 http://mbostock.github.com/d3/ 27 http://snap-graph.sourceforge.net 28 http://developers.facebook.com/ 29 http://julianhopkins.net 30 https://link.springer.com/article/10.1007/s13278-014-0170-z 31 http://www-personal.umich.edu/~mejn/netdata/ ... nghiên cứu sâu phân cụm đồ thị liệu: khái niệm đồ thị liệu, độ đo phân cụm liệu nói chung đồ thị liệu nói riêng, kỹ thuật phân cụm đồ thị Chương II: Phân cụm có thứ bậc đồ thị liệu Nghiên cứu, ... kỹ thuật phân cụm có thứ bậc liệu đồ thị 29 CHƯƠNG 2: PHÂN CỤM CÓ THỨ BẬC CÁC ĐỒ THỊ DỮ LIỆU Trong phân cụm có thứ bậc, đồ thị tổ chức thành mức, từ mức cao (mức tổng quát) đồ thị chi tiết dần... cho việc phân cụm mạng xã hội Đối tượng phạm vi nghiên cứu ▪ Đối tượng nghiên cứu:  Tập đồ thị liệu  Các cụm đồ thị  Các mạng xã hội ▪ Phạm vi nghiên cứu  Phân cụm có thứ bậc đồ thị liệu 

Ngày đăng: 09/09/2020, 23:02

Tài liệu cùng người dùng

Tài liệu liên quan