Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 87 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
87
Dung lượng
3,83 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT & TT THÁI NGUYÊN NGUYỄN THẾ ĐẠT NGHIÊNCỨUMÔHÌNHPHÂNCỤMCÓTHỨBẬCCÁCĐỒTHỊDỮLIỆU LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH Thái Nguyên – 2017 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT & TT THÁI NGUYÊN NGUYỄN THẾ ĐẠT NGHIÊNCỨUMÔHÌNHPHÂNCỤMCÓTHỨBẬCCÁCĐỒTHỊDỮLIỆU Chuyên ngành: Khoa học máy tính Mã số: 60 48 0101 LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐOÀN VĂN BAN Thái Nguyên – 2017 i LỜI CAM ĐOAN Tên là: Nguyễn Thế Đạt Sinh ngày: 09/01/1979 Học viên lớp cao học CK14 - Trường Đại học Công nghệ thông tin Truyền thông - Đại học Thái Nguyên Hiện công tác tại: Trường THCS Hạp Lĩnh – TP Bắc Ninh – Bắc Ninh Xin cam đoan: Đề tài “Nghiên cứumôhìnhphâncụmcóthứbậcđồthị liệu” Thầy giáo PGS.TS Đoàn Văn Ban hướng dẫn công trình nghiêncứu riêng Tất tài liệu tham khảo có nguồn gốc, xuất xứ rõ ràng Tác giả xin cam đoan tất nội dung luận văn nội dung đề cương yêu cầu thầy giáo hướng dẫn Nếu sai hoàn toàn chịu trách nhiệm trước hội đồng khoa học trước pháp luật Thái Nguyên, ngày 15 tháng năm 2017 Tác giả luận văn Nguyễn Thế Đạt ii LỜI CẢM ƠN Sau thời gian nghiêncứu làm việc nghiêm túc, động viên, giúp đỡ hướng dẫn tận tình Thầy giáo hướng dẫn PGS.TS Đoàn Văn Ban, luận văn với đề tài “Nghiên cứumôhìnhphâncụmcóthứbậcđồthị liệu”đã hoàn thành Tôi xin bày tỏ lòng biết ơn sâu sắc đến: Thầy giáo hướng dẫn PGS.TS Đoàn Văn Ban tận tình dẫn, giúp đỡ hoàn thành luận văn Khoa sau Đại học Trường Đại học công nghệ thông tin truyền thông giúp đỡ trình học tập thực luận văn Tôi xin chân thành cảm ơn bạn bè, đồng nghiệp gia đình động viên, khích lệ, tạo điều kiện giúp đỡ suốt trình học tập, thực hoàn thành luận văn Thái Nguyên, ngày 15 tháng năm 2017 Tác giả luận văn Nguyễn Thế Đạt iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC BẢNG v DANH MỤC CÁC TỪ VIẾT TẮT vi DANH MỤC CÁCHÌNH VẼ .vii MỞ ĐẦU CHƯƠNG 1: PHÂNCỤMDỮLIỆU VÀ PHÂNCỤMĐỒTHỊDỮLIỆU 1.1 Phâncụmliệu 1.1.1 Khái niệm mục tiêu phâncụmliệu 1.1.2 Một số khái niệm cần thiết tiếp cận phâncụmliệu .7 1.1.3 Một số kỹ thuật phâncụmliệu 10 1.1.4 Các ứng dụng phâncụmliệu 16 1.2 Phâncụmđồthịliệu 17 1.2.1 Môhìnhđồthịliệu 17 1.2.2 Các loại độđo 18 1.2.3 Một số kỹ thuật phâncụmđồthịliệu 23 1.3 Kết luận chương 28 CHƯƠNG 2: PHÂNCỤMCÓTHỨBẬCCÁCĐỒTHỊDỮLIỆU 29 2.1 Thuật toán CHAMELEON 29 2.2 Thuật toán CURE .31 2.3 Thuật toán Girvan-Newman 34 2.3.1 Giới thiệu độđo modularity 34 2.3.2 Độđo trung gian .35 2.3.3 Thuật toán phâncụm Girvan-Newman 36 2.4 Thuật toán CNM (Clauset-Newman-Moore) 39 2.5 Thuật toán Rosvall-Bergstrom 42 iv 2.6 Thuật toán INC (Incre-Comm-Extraction) 47 2.6.1 Nội dung thuật toán 47 2.6.2 Độ phức tạp thuật toán .49 2.6.3 Độđo chất lượng phâncụm thuật toán 50 2.7 Kết luận chương 51 CHƯƠNG 3: ỨNG DỤNG THUẬT TOÁN PHÂNCỤMCÓTHỨBẬC TRONG PHÂNCỤMĐỒTHỊDỮLIỆUCÁC MẠNG Xà HỘI 52 3.1 Bài toán phâncụm mạng xã hội .52 3.2 Xây dựng chương trình ứng dụng phâncụmđồthị mạng xã hội 53 3.2.1 Giai đoạn 1: Thu thập liệu 53 3.2.2 Giai đoạn 2: Xử lý liệu 54 3.2.3 Giai đoạn 3: Xây dựng ứng dụng phâncụmcóthứbậcđồthị mạng xã hội 55 3.3 Các kết thực nghiệm đánh giá 56 3.3.1 Thời gian thực thi thuật toán 57 3.3.2 Số cụmphân chia 58 3.3.3 Chất lượng phâncụm .58 3.4 Phâncụmđồthị mạng xã hội dựa mối quan tâm người dùng 58 3.4.1 Giới thiệu 58 3.4.2 Môhình hóa liệu 60 3.4.3 Xây dựng liệu 62 3.4.4 Xây dựng ứng dụng 66 3.4.5 Thực nghiệm đánh giá INC 69 3.5 Kết luận chương 74 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 75 TÀI LIỆU THAM KHẢO 76 v DANH MỤC BẢNG Bảng 3.1: Kết thực thi thuật toán…………………………………………57 Bảng 3.2: Kết thực thi thuật toán INC CNM…………………………….69 vi DANH MỤC CÁC TỪ VIẾT TẮT Từ cụm từ CNM Từ tiếng Anh Clauset-Newman-Moore Phâncụmcóthứbậc tích tụ Cơ sở liệu CSDL CURE Từ tiếng Việt Clustering Using Representatives GN Girvan-Newman INC Incre-Comm-Extraction MCL Markov Clustering RB Rosvall-Bergstrom Phâncụmliệu sử dụng điểm đại diện Phâncụmphân chia Phâncụm theo môhình Markov vii DANH MỤC CÁCHÌNH VẼ Hình 1.1: Ví dụphâncụmliệuHình 1.2: Ví dụphâncụm nhà dựa khoảng cách Hình 1.3: Ví dụphâncụm nhà dựa kích cỡHình 1.4: Các chiến lược phâncụmcóthứbậc .11 Hình 1.5: Ví dụphâncụm dựa theo mật độ 12 Hình 1.6: Cấu trúc phâncụm dựa lưới 13 Hình 1.7: Ví dụphâncụm dựa môhình .14 Hình 1.8: Các cách mà cụm đưa 16 Hình 1.9: (a) Tối ưu đường kính cực tiểu tổng cực tiểu tạo cụm B A lại tốt thực tế (b) Tối ưu K-means tạo cụm B A lại tốt .20 Hình 1.10: Minh họa môhìnhđồthị cho bước ngẫu nhiên …………………….25 Hình 2.1: Phâncụm Chameleon .31 Hình 2.2: Sự di chuyển trung tâm cụm .32 Hình 2.3: Sự sáp nhập cụm 32 Hình 2.4: Cụmliệu khai phá thuật toán CURE 33 Hình 2.5: Ví dụ phát cụm sử dụng thuật toán Girvan - Newman 38 Hình 2.6: Khung làm việc sở để phâncụmđồthị trình truyền thông…42 Hình 2.7: Ví dụ mã Huffman .43 Hình 2.8: Phân hoạch vào lượng tối ưu modul 45 Hình 3.1: Các bước thực chương trình .53 Hình 3.2: Ví dụ tập liệu Dolphins.gml 54 Hình 3.3: Tập liệu Dolphins.txt 54 Hình 3.4: Nạp file liệu đầu vào 55 Hình 3.5: Kết chạy thuật toán phâncụm CNM cho liệu dolphins.txt 56 Hình 3.6: Kết chạy thuật toán Girvan-Newman cho liệu dolphins.txt 56 Hình 3.7: Biểu đồ so sánh thời gian thực thi thuật toán 57 Hình 3.8: Biểu đồ so sánh số lượng cụm 58 viii Hình 3.9: Biểu đồ so sánh chất lượng phâncụm .58 Hình 3.10: Đăng tin bình luận Facebook 60 Hình 3.11: Một phần danh sách tài khoản Facebook 62 Hình 3.12: Giao diện đăng ký ứng dụng Facebook API 63 Hình 3.13: Thu thập liệuthủ công với Graph API Explorer 63 Hình 3.14: Thu thập liệu tự động với Facebook API 64 Hình 3.15: Một phầnliệuthu thập cập nhật SQL Server 64 Hình 3.16: Một phầnliệu danh sách số lượng ID người dùng bình luận tường Facebook tương ứng .65 Hình 3.17: Một phầnliệu mạng xã hội dựa mối quan tâm người dùng 66 Hình 3.18: Giao diện tự động thu thập liệu 67 Hình 3.19: Kết chạy chương trình phâncụm với INC CNM 68 Hình 3.20: Một phần biểu đồ dendrogram kết phâncụm với INC 68 Hình 3.21: Đồthị so sánh thời gian thực thi INC CNM 69 Hình 3.22: Đồthị so sánh số lượng cụm theo INC CNM 70 Hình 3.23: Đồthị tương quan số lượng cụm với giá trị s 70 Hình 3.24: Đồthị so sánh chất lượng phâncụm theo INC CNM 70 Hình 3.25: Đồthị tương quan chất lượng cụm với giá trị s 71 Hình 3.2.6: Kết phân chia cụm lớn thành cụm (bất động sản, chứng khoán, ô tô, xe máy ) 72 Hình 3.27: Kết phân chia cụm lớn yêu thích đồ nội thất, lưu niệm, thời trang thành cụm (giày dép, đồng hồ,hoa tươi, quà lưu niệm, ngân hàng ) 72 Hình 3.28: Kết phân cộng động quan tâm tới Phật giáo 73 Hình 3.29: Kết phân cộng động quan tâm tới mỹ phẩm, thẩm mỹ, bệnh viện thẩm mỹ phân chia theo INC 73 63 Hình 3.12: Giao diện đăng ký ứng dụng Facebook API Lúc này, ta sử dụng ngôn ngữ lập trình, cụ thể ta sử dụng Visual Studio 2012 (C#) để xây dựng ứng dụng sử dụng Facebook API để thu thập liệu thông qua công cụ Graph API Explorer Một ví dụthu thập thông tin bình luận người dùng tường Facebook dùng Graph API Explorer thủ công sau: Hình 3.13: Thu thập liệuthủ công với Graph API Explorer 64 Để thu thập tự động, ta sử dụng thư viện Facebook.dll với tham số AppId, Access token ứng dụng đăng ký Riêng giá trị Access token phải truy cập vào ứng dụng để lấy lại mã giá trị có giới hạn phiên làm việc Dữliệuthu thập theo năm, theo số bình luận tối đa trang liệu trả Vì thời gian thu thập liệu lâu số lượng bình luận trang lớn nên ta thu thập liệu theo khoảng khác với nhiều ứng dụng thực thi thời điểm Trong khuôn khổ luận văn thu thập liệu bình luận tính từ năm 2016 trở Bộ liệuthu thập lưu trữ SQL Server 2008 với dung lượng lên tới 4.5 GB Hình 3.14: Thu thập liệu tự động với Facebook API Hình 3.15: Một phầnliệuthu thập cập nhật SQL Server 65 Như hình 3.14, 3.15, liệu trả định dạng Json, tiến hành đọc định dạng tách danh sách ID đếm số lượng người dùng đơn bình luận tường Facebook tương ứng Hình 3.16: Một phầnliệu danh sách số lượng ID người dùng bình luận tường Facebook tương ứng 3.4.3.2 Tiền xử lý liệu, xây dựng cấu trúc mạng xã hội dựa mối quan tâm người dùng Với liệuthu thập được, có số tường Facebook không thu thập liệu tài khoản thiết lập quyền không cho phép thu thập tự động thông qua Facebook API Ta tiến hành loại bỏ ghi số ghi có người tham gia bình luận (dưới 100 người) để liệucó ý nghĩa Sau ta tiến hành xây dựng liệuđồthị mạng xã hội thu thập theo môhình giới thiệu 3.4.2, tiến hành xuất file FacebookGraphWeight.txt để làm đầu vào cho thuật toán INC phâncụm Định dạng file FacebookGraphWeight.text gồm có dòng cạnh đồthị với thông số: đỉnh đầu, đỉnh cuối, số người bình luận chung, số người bình luận tường facebook đỉnh đầu, số người bình luận tường facebook đỉnh cuối 66 Dựa giá trị này, chương trình tính trọng số cạnh đồthị theo công thức 3.4.2 Sau tiền xử lý liệu, liệuthu thập gồm 1500 đỉnh (FacebookID), 109445 cạnh 2.604.079 người dùng Facebook đơn tham gia bình luận tường Hình 3.17: Một phầnliệu mạng xã hội dựa mối quan tâm người dùng 3.4.4 Xây dựng ứng dụng Dựa nghiêncứu chương trước, ta tiến hành cài đặt ứng dụng để đánh giá kết đạt liệu thực nghiệm Các chức ứng dụng demo sau: 3.4.4.1 Tự động thu thập xây dựng liệu Được phát triển ngôn ngữ C#.NET với Visual Studio 2012 hệ quản trị CSDL Microsoft SQL Server 2008, kết hợp với thư viện hỗ trợ lập trình Facbook API Người dùng nhập vào chuỗi Access Token ứng dụng theo phiên làm việc Facebook, nhập vào tham số thời gian thu thập tính từ năm nào, số bình luận tối đa thu trang (nếu liệu lớn Facebook phân trang kết trả về), thu thập cho ID facebook nằm khoảng (áp dụng cho việc chạy nhiều tiến trình đồng thời - chạy ứng dụng thu thập thời gian) Bấm nút "Thu thập comments" để tự động thu thập bình luận ghi vào sở liệu: 67 Hình 3.18: Giao diện tự động thu thập liệu Sau thu thập xong bình luận, bấm nút "Tách Facebook ID" để tách riêng ID người dùng bình luận tương ứng với tường Facebook lựa chọn Sau tách xong, bấm nút "Xây dựng mạng cụm" để tạo file liệu đầu vào cho việc phâncụm 3.4.4.2 Phâncụmđồthị mạng xã hội với CNM INC Ứng dụng kế thừa từ thư viện mã nguồn mở SNAP [23] viết Visual C++ Console phục vụ cho mục đích nghiêncứu thuật toán phâncụm Trong thư viện có cài đặt thuật toán CNM áp dụng cho đồthị vô hướng trọng số Tiến hành phát triển CNM cho đồthị vô hướng có trọng số theo yêu cầu thuật toán INC trình bày 2.6 Sau tiến hành cài đặt thuật toán INC dựa thuật toán CNM với tham số đầu vào đồthị mạng xã hội thu thập số s (cận kích thước cụm) có Kết xuất số lượng cụm, thời gian thực thuật toán độđo chất lượng phâncụm với thuật toán INC CNM để tiện theo dõi, so sánh kết 68 Hình 3.19: Kết chạy chương trình phâncụm với INC CNM Ngoài việc xuất kết chung hình, chương trình xuất file kết chi tiết (danh sách cụm thành viên cụm) định dạng file Json phục vụ cho việc biểu diễn trực quan biểu đồ dendrogram phân chia cụm 3.4.4.3 Biểu diễn trực quan kết phâncụm với CNM cải tiến Để biểu diễn trực quan kết phân cụm, em xây dựng ứng dụng ASP.NET với C# để vẽ biểu đồ dendrogram file kết định dạng Json, sử dụng phần mềm mã nguồn mở D3 [27] Để việc biểu diễn xác, định dạng file Json nghiêncứu kỹ lưỡng xuất tương ứng vòng lặp đệ quy thuật toán INC Hình 3.20: Một phần biểu đồ dendrogram kết phâncụm với INC 69 3.4.5 Thực nghiệm đánh giá INC Để đánh giá kết thuật toán INC, tác giả tiến hành thực nghiệm liệuthu thập 3.4.3 Cấu hình máy tính sử dụng để tiến hành thực nghiệm sau: - Hệ điều hành: Windows 8.1 64bit - Processor: Intel(R) Celeron(R) CPU G1840 @2.80GHz - RAM: 8GB Kết thực thi thuật toán INC CNM cho bảng 3.2 đây: Facebook Dataset (1500) Số cụm s Bộ liệu Chất lượng phâncụm (Modularity) INC CNM INC CNM 321 92 284 2651.66 10 224 2730.1 15 188 2785.667 20 168 2754.92 30 140 2713.86 40 137 2721.756 50 135 2719.86 2480.094 1212.408 Thời gian thực thi (giây) INC CNM 8.25 7.35 Bảng 3.2: Kết thực thi thuật toán INC CNM 3.4.5.1 Thời gian thực thi thuật toán Với liệu đầu vào thu thập được: đồthị 1500 đỉnh 109445 cạnh, thuật toán INC cho thời gian chạy 6.60(s), CNM 5.99(s) Như thấy tốc độ INC không chênh lệch nhiều so với CNM Thời gian (giây) 10 8.25 7.35 INC CNM Facebook Dataset (1500) Bộ liệu (số đỉnh mạng xã hội) Hình 3.21: Đồthị so sánh thời gian thực thi INC CNM 70 3.4.5.2 Số lượng cụm tìm Kết thực nghiệm tên liệuthu thập cho thấy số lượng cụm tìm thuật toán INC 321 cụm, vượt trội so với thuật toán CNM (92 cụm) Số cộng đồng 400 321 300 200 92 100 INC CNM Facebook Dataset (1500) Bộ liệu (số đỉnh mạng xã hội) Hình 3.22: Đồthị so sánh số lượng cụm theo INC CNM Khi người dùng đưa vào tham số s (cận kích thước cụm), số lượng Số cộng đồng cụmthu tỷ lệ nghịch với giá trị s 400 321 284 224 188 200 168 140 137 135 INC 0 10 15 20 30 40 50 Giá trị tham số s Hình 3.23: Đồthị tương quan số lượng cụm với giá trị s 3.4.5.3 Chất lượng phân chia cụm Kết thực nghiệm tên liệuthu thập cho thấy chất lượng phân Giá trị modun hóa (mật độ) cụm thuật toán INC 2480,094, vượt trội so với thuật toán CNM (1212,408) 3000 2500 2480.094196 2000 1500 INC 1212.407817 1000 CNM 500 Facebook Dataset (1500) Bộ liệu (số đỉnh mạng xã hội) Hình 3.24: Đồthị so sánh chất lượng phâncụm theo INC CNM 71 Khi người dùng đưa vào tham số s (cận kích thước cụm), chất lượng cụm thay đổi Chất lượng cụm biến thiên tăng dần đạt giá trị cao s=15 (D = 2785.667), sau giảm dần s tăng lên Khi s tăng giá trị D tiến tới giá trị phân chia cụm CNM 1212.408 Độđomô đun dày đặc 2850 2785.667 2800 2754.92 2730.1 2750 2700 2713.86 2721.756 2719.86 2651.66 2650 INC 2600 2550 2500 2480.094196 2450 2400 2350 2300 10 15 20 30 40 50 Giá trị tham số s Hình 3.25: Đồthị tương quan chất lượng cụm với giá trị s 3.4.5.4 Đánh giá trực quan biểu đồ kết Căn biểu đồ dendrogram biểu diễn kết phâncụm mạng xã hội với liệuthu thập cho thấy chất lượng phân chia cụm tốt Các nút bên biểu diễn cụm mức khác nhau, nút tường Facebook Cáccụm mức cuối kết phân chia theo INC, mức thứ hai kết phân chia theo thuật toán CNM Hình 3.26 ví dụphân chia cụm lớn từ CNM (cụm quan tâm tới ô tô, xe máy, bất động sản, chứng khoán) thành cụm với thuật toán INC Đối với cụm quan tâm tới ô tô, thuật toán chia nhỏ thành cụm quan tâm tới dòng xe khác (Lamborghini, Renault, Lexus, Kia, Honda, Toyota ) phân khúc khác (xe bình dân, xe sang ) 72 + Hình 3.26: Kết phân chia cụm lớn thành cụm (bất động sản, chứng khoán, ô tô, xe máy ) Hình 3.27 ví dụphân chia cụm lớn từ CNM (yêu thích đồ nội thất, lưu niệm, thời trang, ngân hàng) thành cụm với thuật toán INC Đối với cụm quan tâm tới thời trang, thuật toán chia nhỏ thành cụm quan tâm tới loại khác giày dép, đồng hồ, mũ, quần áo, Hình 3.27: Kết phân chia cụm lớn yêu thích đồ nội thất, lưu niệm, thời trang thành cụm (giày dép, đồng hồ,hoa tươi, quà lưu niệm, ngân hàng ) 73 Hình 3.28: Kết phân cộng động quan tâm tới Phật giáo Hình 3.29: Kết phân cộng động quan tâm tới mỹ phẩm, thẩm mỹ, bệnh viện thẩm mỹ phân chia theo INC * Đánh giá chung: Thuật toán INC cho thời gian thực thi nhanh, không lâu so với CNM Thuật toán cho số lượng cụm tìm thấy nhiều nhiều so với thuật toán CNM Khi giá trị s tăng dần số cụm tìm giảm dần chất lượng cụm giảm dần 74 Chất lượng phân chia cụm INC tốt nhiều so với CNM xét độđomô đun hóa mật độ Phân tích trực quan kết cho thấy việc phân chia cụm INC xác 3.5 Kết luận chương Trong chương 3, em giới thiệu kiến thức liên quan đến mạng xã hội toán phâncụmđồthịliệu mạng xã hội Để áp dụng thuật toán phâncụmphân cấp nghiêncứu để phâncụmliệuđồthị mạng xã hội, em tiến hành thu thập 05 liệu mạng xã hội cài đặt, thực nghiệm 03 thuật toán nghiêncứu 05 liệu tiến hành đánh giá kết đạt Qua kết thực nghiệm cho thấy, thuật toán Clauset-Newman-Moore thuật toán cho kết tốt phâncụmđồthịliệu mạng xã hội, thời gian thực thi thuật toán, số lượng cụm tìm chất lượng phâncụmDo thuật toán CNM cho số cụm ít, nhiều cụmcó kích thước lớn Trên thực tế, với toán phâncụmđồthị mạng xã hội cần phâncụm thành cụmcó kích thước nhỏ nhằm phản ánh rõ nét tính chất phần tử cụm (cụ thể mối quan tâm người dùng mạng xã hội tới lĩnh vực, chủ đề cụ thể) nên thuật toán INC cải tiến từ thuật toán CNM xây dựng để đáp ứng mục tiêu đó, qua hỗ trợ hoạt động truyền thông, quảng cáo, marketing online hướng tới cụm đối tượng người dùng cụ thể 75 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Mạng xã hội toán phâncụm người dùng mạng xã hội vấn đề nhiều nhà nghiêncứu quan tâm thời đại Các toán phát cộng đồng dựa thuật toán phâncụm ứng dụng rộng rãi nhiều lĩnh vực đời sống kinh tế, trị, xã hội, khoa học công nghệ, Những kết luận văn: Trình bày kiến thức tổng quan đồthị liệu, phương pháp phâncụmđồthị liệu, tập trung vào phương pháp phâncụmphân cấp đồthịliệu Trên sở thuật toán nghiêncứu Cài đặt thuật toán thử nghiệm 05 liệu mạng xã hội thực tế (các liệu chuẩn sử dụng đánh giá thuật toán phâncụmđồthị mạng xã hội) Kết thực nghiệm cho thấy thuật toán CNM (Clauset-Newman-Moore) thuật toán tốt cho phâncụm để phát cộng đồng mạng xã hội với tốc độ tính toán nhanh nhất, chất lượng phâncụm tốt tương đương với thuật toán Girvan-Newman theo tiêu chí đánh giá độđo Modularity Chất lượng phân chia cụm INC tốt nhiều so với CNM xét độđomô đun hóa mật độ Phân tích trực quan kết cho thấy việc phân chia cụm INC xác Hướng phát triển đề tài Mặc dùcố gắng với thời gian thực luận văn không nhiều, khối lượng kiến thức cần nghiêncứu nhiều nên luận văn tồn hạn chế cần khắc phục thời gian tới, cụ thể như: - Việc đánh giá kết cần tiến hành nhiều liệu hơn, kích thước liệu lớn - Cài đặt đánh giá kết nhiều thuật toán để thấy đầy đủ điểm mạnh, yếu thuật toán - Hiển thị kết phâncụm trực quan hơn, làm việc với loại liệu đầu vào khác file gml 76 TÀI LIỆU THAM KHẢO Tiếng Việt Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009) Giáo trình khai phá liệu, NXBGD Lê Minh Tiến (2006), “Tổng quan phương pháp phân tích mạng xã hội nghiêncứu xã hội” Tạp chí khoa học xã hội Số Nguyễn Hoàng Tú Anh (2009), Giáo trình "Khai thác liệu ứng dụng", Đại học Khoa học Tự nhiên TP HCM Tiếng Anh B W Kernighan and S Lin, An efficient heuristic procedure for partitioning graphs Bell System Technical Journal 49, 291-307 (1970) Clauset A, Newman MEJ, Moore C (2004), Finding community structure in very large networks Phys Rev E 70(6):066,111 Doan Nhat Quang (2013), New models for hierarchical and topological clustering, Ph D Thesis PARIS 13 UNIVERSITY - SORBONNE PARIS CITÉ Girvan M, Newman MEJ (2002), Community structure in social and biological networks PNAS 99(12):7821–7826 Girvan, M & Newman, M.E.J (2004) Finding and evaluating community structure in networks Physical review E, Statistical, nonlinear, and soft matter physics, 69 Hanene Azzag, Gilles Venturini, Antoine Oliver et Christiane Guinot (2007), A hierarchical ant based clustering algorithm and its use in three real-world applications, European Journal of Operational Research, vol 179, no 3, June 2007 10 H Azzag, N Monmarch´e, M Slimane, G Venturini, C Guinot (2012), AntTree: a New Model for Clustering with Artificial Ants 11 Istvan Jonyer, Diane J Cook, Lawrence B Holder (2002), Graph-Based Hierarchical Conceptual Clustering, Journal of Machine Learning Research 12 M Girvan, M E J Newman (2002), Community structure in social and biological networks, Proc Natl Acad Sci., 99(12), 7821 13 M E J Newman (2004), Fast algorithm for detecting community structure in networks Phys Rev E 69, 066133 77 14 Martin Rosvall, Carl T Bergstrom (2007), "Maps of random walks on complex networks reveal community structure", Department of Biology, University of Washington, Seattle 15 Newman, M.E.J (2006) Modularity and community structure in networks Proceedings of the National Academy of Sciences, 103, 8577-8582 16 Newman, M.E.J (2004) Detecting community structure in networks The European Physical Journal B - Condensed Matter and Complex Systems, 38, 321-330 17 Network data sets (truy cập ngày 10/2/2017) http://www-personal.umich.edu/~mejn/netdata/ 18 P Eades and Q.W Feng (1996), Multilevel visualization of clustered graphs, In Proceedings of the Symposium on Graph Drawing, GD ’96, pages 101–112, Berkeley, California, USA, September 1996 19 Pinney J,Westhead D (2007), Betweenness-based decomposition methods for social and biological networks Interdiscipl StatBioinf pp 87–90 20 Reinhard Diestel (2005), Graph Theory, Springer-Verlag Heidelberg, NY, 2005 21 Santo Fortunato (2010), Community detection in graphs 22 Social Networks Datasets (truy cập ngày 10/2/2017) https://snap.stanford.edu/data/#socnets 23 Teuvo Kohonen (2001), Self-Organizing Maps, Third Edition, Springer, Heidelberg 24 Zhang S, Ning X, Ding C (2009), Maximizing modularity density for exploring modular organization of protein interaction networks In: Third international symposium on optimization and systems biology, pp361–370 25 Zheng Chen (2009), Graph-based Clustering and its Application in Coreference Resolution, The Graduate Center, The City University of New York 26 http://mbostock.github.com/d3/ 27 http://snap-graph.sourceforge.net 28 http://developers.facebook.com/ 29 http://julianhopkins.net 30 https://link.springer.com/article/10.1007/s13278-014-0170-z 31 http://www-personal.umich.edu/~mejn/netdata/ ... nghiên cứu sâu phân cụm đồ thị liệu: khái niệm đồ thị liệu, độ đo phân cụm liệu nói chung đồ thị liệu nói riêng, kỹ thuật phân cụm đồ thị Chương II: Phân cụm có thứ bậc đồ thị liệu Nghiên cứu, ... cho việc phân cụm mạng xã hội Đối tượng phạm vi nghiên cứu ▪ Đối tượng nghiên cứu: Tập đồ thị liệu Các cụm đồ thị Các mạng xã hội ▪ Phạm vi nghiên cứu Phân cụm có thứ bậc đồ thị liệu ... vậy, chọn đề tài "Nghiên cứu mô hình phân cụm có thứ bậc đồ thị liệu" với mục đích tìm hiểu sâu phương pháp phân cụm có thứ bậc áp dụng cho đồ thị liệu, mà cụ thể luận văn đồ thị liệu mạng xã hội