1. Trang chủ
  2. » Luận Văn - Báo Cáo

(Luận văn) nghiên cứu mô hình phân cụm có thứ bậc các đồ thị dữ liệu

87 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT & TT THÁI NGUYÊN lu NGUYỄN THẾ ĐẠT an n va tn to ie gh NGHIÊN CỨU MƠ HÌNH p PHÂN CỤM CÓ THỨ BẬC CÁC ĐỒ THỊ DỮ LIỆU d oa nl w nf va an lu lm ul LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH z at nh oi z m co l gm @ an Lu Thái Nguyên – 2017 n va ac th si ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT & TT THÁI NGUYÊN NGUYỄN THẾ ĐẠT lu an va n NGHIÊN CỨU MƠ HÌNH PHÂN CỤM CĨ THỨ BẬC to p ie gh tn CÁC ĐỒ THỊ DỮ LIỆU w Chuyên ngành: Khoa học máy tính d oa nl Mã số: 60 48 0101 nf va an lu z at nh oi lm ul LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐỒN VĂN BAN z m co l gm @ Thái Nguyên – 2017 an Lu n va ac th si i LỜI CAM ĐOAN Tên là: Nguyễn Thế Đạt Sinh ngày: 09/01/1979 Học viên lớp cao học CK14 - Trường Đại học Công nghệ thông tin Truyền thông - Đại học Thái Nguyên Hiện công tác tại: Trường THCS Hạp Lĩnh – TP Bắc Ninh – Bắc Ninh Xin cam đoan: Đề tài “Nghiên cứu mơ hình phân cụm có thứ bậc đồ thị liệu” Thầy giáo PGS.TS Đồn Văn Ban hướng dẫn cơng trình nghiên cứu riêng Tất tài liệu tham khảo có nguồn gốc, xuất xứ rõ ràng lu an Tác giả xin cam đoan tất nội dung luận văn nội dung n va đề cương yêu cầu thầy giáo hướng dẫn Nếu sai tơi hồn tồn chịu trách gh tn to nhiệm trước hội đồng khoa học trước pháp luật p ie Thái Nguyên, ngày 15 tháng năm 2017 d oa nl w Tác giả luận văn nf va an lu Nguyễn Thế Đạt z at nh oi lm ul z m co l gm @ an Lu n va ac th si ii LỜI CẢM ƠN Sau thời gian nghiên cứu làm việc nghiêm túc, động viên, giúp đỡ hướng dẫn tận tình Thầy giáo hướng dẫn PGS.TS Đồn Văn Ban, luận văn với đề tài “Nghiên cứu mô hình phân cụm có thứ bậc đồ thị liệu”đã hồn thành Tơi xin bày tỏ lịng biết ơn sâu sắc đến: Thầy giáo hướng dẫn PGS.TS Đoàn Văn Ban tận tình dẫn, giúp đỡ tơi hồn thành luận văn lu Khoa sau Đại học Trường Đại học công nghệ thông tin truyền thông an Tôi xin chân thành cảm ơn bạn bè, đồng nghiệp gia đình động viên, n va giúp đỡ tơi q trình học tập thực luận văn gh tn to khích lệ, tạo điều kiện giúp đỡ tơi suốt q trình học tập, thực hoàn ie thành luận văn p Thái Nguyên, ngày 15 tháng năm 2017 d oa nl w Tác giả luận văn an lu ll u nf va Nguyễn Thế Đạt oi m z at nh z m co l gm @ an Lu n va ac th si iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC BẢNG v DANH MỤC CÁC TỪ VIẾT TẮT vi DANH MỤC CÁC HÌNH VẼ .vii MỞ ĐẦU lu CHƯƠNG 1: PHÂN CỤM DỮ LIỆU VÀ PHÂN CỤM ĐỒ THỊ DỮ LIỆU an va 1.1 Phân cụm liệu n 1.1.1 Khái niệm mục tiêu phân cụm liệu gh tn to 1.1.2 Một số khái niệm cần thiết tiếp cận phân cụm liệu .7 ie 1.1.3 Một số kỹ thuật phân cụm liệu 10 p 1.1.4 Các ứng dụng phân cụm liệu 16 nl w 1.2 Phân cụm đồ thị liệu 17 d oa 1.2.1 Mơ hình đồ thị liệu 17 an lu 1.2.2 Các loại độ đo 18 1.2.3 Một số kỹ thuật phân cụm đồ thị liệu 23 va u nf 1.3 Kết luận chương 28 ll CHƯƠNG 2: PHÂN CỤM CÓ THỨ BẬC CÁC ĐỒ THỊ DỮ LIỆU 29 m oi 2.1 Thuật toán CHAMELEON 29 z at nh 2.2 Thuật toán CURE .31 2.3 Thuật toán Girvan-Newman 34 z gm @ 2.3.1 Giới thiệu độ đo modularity 34 2.3.2 Độ đo trung gian .35 l m co 2.3.3 Thuật toán phân cụm Girvan-Newman 36 2.4 Thuật toán CNM (Clauset-Newman-Moore) 39 an Lu 2.5 Thuật toán Rosvall-Bergstrom 42 n va ac th si iv 2.6 Thuật toán INC (Incre-Comm-Extraction) 47 2.6.1 Nội dung thuật toán 47 2.6.2 Độ phức tạp thuật toán .49 2.6.3 Độ đo chất lượng phân cụm thuật toán 50 2.7 Kết luận chương 51 CHƯƠNG 3: ỨNG DỤNG THUẬT TỐN PHÂN CỤM CĨ THỨ BẬC TRONG PHÂN CỤM ĐỒ THỊ DỮ LIỆU CÁC MẠNG Xà HỘI 52 3.1 Bài toán phân cụm mạng xã hội .52 3.2 Xây dựng chương trình ứng dụng phân cụm đồ thị mạng xã hội 53 lu 3.2.1 Giai đoạn 1: Thu thập liệu 53 an n va 3.2.2 Giai đoạn 2: Xử lý liệu 54 3.3 Các kết thực nghiệm đánh giá 56 ie gh tn to 3.2.3 Giai đoạn 3: Xây dựng ứng dụng phân cụm có thứ bậc đồ thị mạng xã hội 55 p 3.3.1 Thời gian thực thi thuật toán 57 w 3.3.2 Số cụm phân chia 58 oa nl 3.3.3 Chất lượng phân cụm .58 d 3.4 Phân cụm đồ thị mạng xã hội dựa mối quan tâm người dùng 58 lu va an 3.4.1 Giới thiệu 58 u nf 3.4.2 Mơ hình hóa liệu 60 ll 3.4.3 Xây dựng liệu 62 m oi 3.4.4 Xây dựng ứng dụng 66 z at nh 3.4.5 Thực nghiệm đánh giá INC 69 3.5 Kết luận chương 74 z KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 75 @ m co l gm TÀI LIỆU THAM KHẢO 76 an Lu n va ac th si v DANH MỤC BẢNG Bảng 3.1: Kết thực thi thuật toán…………………………………………57 Bảng 3.2: Kết thực thi thuật toán INC CNM…………………………….69 lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si vi DANH MỤC CÁC TỪ VIẾT TẮT Từ Từ tiếng Anh cụm từ CNM Từ tiếng Việt Clauset-Newman-Moore Phân cụm có thứ bậc tích tụ Cơ sở liệu CSDL Clustering Using CURE Phân cụm liệu sử dụng điểm đại diện Representatives Phân cụm phân chia lu an Girvan-Newman INC Incre-Comm-Extraction MCL Markov Clustering RB Rosvall-Bergstrom n va GN Phân cụm theo mơ hình Markov p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si vii DANH MỤC CÁC HÌNH VẼ Hình 1.1: Ví dụ phân cụm liệu Hình 1.2: Ví dụ phân cụm ngơi nhà dựa khoảng cách Hình 1.3: Ví dụ phân cụm ngơi nhà dựa kích cỡ Hình 1.4: Các chiến lược phân cụm có thứ bậc .11 Hình 1.5: Ví dụ phân cụm dựa theo mật độ 12 Hình 1.6: Cấu trúc phân cụm dựa lưới 13 Hình 1.7: Ví dụ phân cụm dựa mơ hình .14 lu an Hình 1.8: Các cách mà cụm đưa 16 n va Hình 1.9: (a) Tối ưu đường kính cực tiểu tổng cực tiểu tạo cụm B A tn to lại tốt thực tế (b) Tối ưu K-means tạo cụm B A lại tốt .20 Hình 1.10: Minh họa mơ hình đồ thị cho bước ngẫu nhiên …………………….25 gh p ie Hình 2.1: Phân cụm Chameleon .31 Hình 2.2: Sự di chuyển trung tâm cụm .32 nl w Hình 2.3: Sự sáp nhập cụm 32 d oa Hình 2.4: Cụm liệu khai phá thuật toán CURE 33 an lu Hình 2.5: Ví dụ phát cụm sử dụng thuật toán Girvan - Newman 38 va Hình 2.6: Khung làm việc sở để phân cụm đồ thị q trình truyền thơng…42 u nf Hình 2.7: Ví dụ mã Huffman .43 ll Hình 2.8: Phân hoạch vào lượng tối ưu modul 45 oi m Hình 3.1: Các bước thực chương trình .53 z at nh Hình 3.2: Ví dụ tập liệu Dolphins.gml 54 z Hình 3.3: Tập liệu Dolphins.txt 54 gm @ Hình 3.4: Nạp file liệu đầu vào 55 l Hình 3.5: Kết chạy thuật toán phân cụm CNM cho liệu dolphins.txt 56 m co Hình 3.6: Kết chạy thuật tốn Girvan-Newman cho liệu dolphins.txt 56 Hình 3.7: Biểu đồ so sánh thời gian thực thi thuật toán 57 an Lu Hình 3.8: Biểu đồ so sánh số lượng cụm 58 n va ac th si viii Hình 3.9: Biểu đồ so sánh chất lượng phân cụm .58 Hình 3.10: Đăng tin bình luận Facebook 60 Hình 3.11: Một phần danh sách tài khoản Facebook 62 Hình 3.12: Giao diện đăng ký ứng dụng Facebook API 63 Hình 3.13: Thu thập liệu thủ công với Graph API Explorer 63 Hình 3.14: Thu thập liệu tự động với Facebook API 64 Hình 3.15: Một phần liệu thu thập cập nhật SQL Server 64 Hình 3.16: Một phần liệu danh sách số lượng ID người dùng bình luận tường Facebook tương ứng .65 lu Hình 3.17: Một phần liệu mạng xã hội dựa mối quan tâm người dùng 66 an n va Hình 3.18: Giao diện tự động thu thập liệu 67 Hình 3.20: Một phần biểu đồ dendrogram kết phân cụm với INC 68 gh tn to Hình 3.19: Kết chạy chương trình phân cụm với INC CNM 68 ie Hình 3.21: Đồ thị so sánh thời gian thực thi INC CNM 69 p Hình 3.22: Đồ thị so sánh số lượng cụm theo INC CNM 70 nl w Hình 3.23: Đồ thị tương quan số lượng cụm với giá trị s 70 d oa Hình 3.24: Đồ thị so sánh chất lượng phân cụm theo INC CNM 70 an lu Hình 3.25: Đồ thị tương quan chất lượng cụm với giá trị s 71 va Hình 3.2.6: Kết phân chia cụm lớn thành cụm (bất động sản, chứng u nf khốn, tơ, xe máy ) 72 ll Hình 3.27: Kết phân chia cụm lớn yêu thích đồ nội thất, lưu niệm, thời trang m oi thành cụm (giày dép, đồng hồ,hoa tươi, quà lưu niệm, ngân hàng ) 72 z at nh Hình 3.28: Kết phân cộng động quan tâm tới Phật giáo 73 Hình 3.29: Kết phân cộng động quan tâm tới mỹ phẩm, thẩm mỹ, bệnh viện thẩm z m co l gm @ mỹ phân chia theo INC 73 an Lu n va ac th si 63 lu an n va tn to Hình 3.12: Giao diện đăng ký ứng dụng Facebook API gh Lúc này, ta sử dụng ngơn ngữ lập trình, cụ thể ta sử dụng p ie Visual Studio 2012 (C#) để xây dựng ứng dụng sử dụng Facebook API để thu thập w liệu thông qua công cụ Graph API Explorer oa nl Một ví dụ thu thập thơng tin bình luận người dùng tường d Facebook dùng Graph API Explorer thủ công sau: ll u nf va an lu oi m z at nh z m co l gm @ an Lu Hình 3.13: Thu thập liệu thủ công với Graph API Explorer n va ac th si 64 Để thu thập tự động, ta sử dụng thư viện Facebook.dll với tham số AppId, Access token ứng dụng đăng ký Riêng giá trị Access token phải truy cập vào ứng dụng để lấy lại mã giá trị có giới hạn phiên làm việc Dữ liệu thu thập theo năm, theo số bình luận tối đa trang liệu trả Vì thời gian thu thập liệu lâu số lượng bình luận trang lớn nên ta thu thập liệu theo khoảng khác với nhiều ứng dụng thực thi thời điểm Trong khuôn khổ luận văn thu thập liệu bình luận tính từ năm 2016 trở Bộ liệu thu thập lưu trữ SQL Server 2008 với dung lượng lên tới 4.5 GB lu an n va p ie gh tn to d oa nl w va an lu ll u nf Hình 3.14: Thu thập liệu tự động với Facebook API oi m z at nh z m co l gm @ an Lu Hình 3.15: Một phần liệu thu thập cập nhật SQL Server n va ac th si 65 Như hình 3.14, 3.15, liệu trả định dạng Json, tiến hành đọc định dạng tách danh sách ID đếm số lượng người dùng đơn bình luận tường Facebook tương ứng lu an n va ie gh tn to p Hình 3.16: Một phần liệu danh sách số lượng ID người dùng bình luận nl w tường Facebook tương ứng oa 3.4.3.2 Tiền xử lý liệu, xây dựng cấu trúc mạng xã hội dựa mối quan d tâm người dùng lu va an Với liệu thu thập được, có số tường Facebook khơng thu thập u nf liệu tài khoản thiết lập quyền không cho phép thu thập tự động thông ll qua Facebook API Ta tiến hành loại bỏ ghi số ghi có người m oi tham gia bình luận (dưới 100 người) để liệu có ý nghĩa z at nh Sau ta tiến hành xây dựng liệu đồ thị mạng xã hội thu thập theo mơ hình giới thiệu 3.4.2, tiến hành xuất file FacebookGraphWeight.txt để z @ làm đầu vào cho thuật toán INC phân cụm l gm Định dạng file FacebookGraphWeight.text gồm có dịng cạnh đồ thị với thông số: đỉnh đầu, đỉnh cuối, số người bình luận chung, số người bình m co luận tường facebook đỉnh đầu, số người bình luận tường facebook đỉnh cuối an Lu n va ac th si 66 Dựa giá trị này, chương trình tính trọng số cạnh đồ thị theo công thức 3.4.2 Sau tiền xử lý liệu, liệu thu thập gồm 1500 đỉnh (FacebookID), 109445 cạnh 2.604.079 người dùng Facebook đơn tham gia bình luận tường lu an n va p ie gh tn to w Hình 3.17: Một phần liệu mạng xã hội dựa mối quan tâm người dùng oa nl 3.4.4 Xây dựng ứng dụng d Dựa nghiên cứu chương trước, ta tiến hành cài đặt ứng dụng an lu để đánh giá kết đạt liệu thực nghiệm Các chức u nf va ứng dụng demo sau: 3.4.4.1 Tự động thu thập xây dựng liệu ll oi m Được phát triển ngôn ngữ C#.NET với Visual Studio 2012 hệ quản API z at nh trị CSDL Microsoft SQL Server 2008, kết hợp với thư viện hỗ trợ lập trình Facbook z Người dùng nhập vào chuỗi Access Token ứng dụng theo phiên làm việc @ gm Facebook, nhập vào tham số thời gian thu thập tính từ năm nào, số bình luận l tối đa thu trang (nếu liệu lớn Facebook phân trang kết trả m co về), thu thập cho ID facebook nằm khoảng (áp dụng cho việc chạy an Lu nhiều tiến trình đồng thời - chạy ứng dụng thu thập thời gian) Bấm nút "Thu thập comments" để tự động thu thập bình luận ghi vào sở liệu: n va ac th si 67 lu an n va Hình 3.18: Giao diện tự động thu thập liệu riêng ID người dùng bình luận tương ứng với tường Facebook gh tn to Sau thu thập xong bình luận, bấm nút "Tách Facebook ID" để tách p ie lựa chọn Sau tách xong, bấm nút "Xây dựng mạng cụm" để tạo file liệu đầu vào cho việc phân cụm nl w 3.4.4.2 Phân cụm đồ thị mạng xã hội với CNM INC d oa Ứng dụng kế thừa từ thư viện mã nguồn mở SNAP [23] viết an lu Visual C++ Console phục vụ cho mục đích nghiên cứu thuật toán phân cụm va Trong thư viện có cài đặt thuật tốn CNM áp dụng cho đồ thị vô u nf hướng khơng có trọng số Tiến hành phát triển CNM cho đồ thị vơ hướng có trọng số ll theo u cầu thuật tốn INC trình bày 2.6 m oi Sau tiến hành cài đặt thuật tốn INC dựa thuật toán CNM với tham số z at nh đầu vào đồ thị mạng xã hội thu thập số s (cận kích thước z cụm) có Kết xuất số lượng cụm, thời gian thực thuật toán độ m co l kết gm @ đo chất lượng phân cụm với thuật toán INC CNM để tiện theo dõi, so sánh an Lu n va ac th si 68 Hình 3.19: Kết chạy chương trình phân cụm với INC CNM lu an Ngoài việc xuất kết chung hình, chương trình cịn xuất file n va kết chi tiết (danh sách cụm thành viên cụm) định dạng file 3.4.4.3 Biểu diễn trực quan kết phân cụm với CNM cải tiến Để biểu diễn trực quan kết phân cụm, em xây dựng ứng dụng ASP.NET p ie gh tn to Json phục vụ cho việc biểu diễn trực quan biểu đồ dendrogram phân chia cụm với C# để vẽ biểu đồ dendrogram file kết định dạng Json, sử dụng phần nl w mềm mã nguồn mở D3 [27] Để việc biểu diễn xác, định dạng file Json ll u nf va an lu thuật toán INC d oa nghiên cứu kỹ lưỡng xuất tương ứng vòng lặp đệ quy oi m z at nh z m co l gm @ an Lu Hình 3.20: Một phần biểu đồ dendrogram kết phân cụm với INC n va ac th si 69 3.4.5 Thực nghiệm đánh giá INC Để đánh giá kết thuật toán INC, tác giả tiến hành thực nghiệm liệu thu thập 3.4.3 Cấu hình máy tính sử dụng để tiến hành thực nghiệm sau: - Hệ điều hành: Windows 8.1 64bit - Processor: Intel(R) Celeron(R) CPU G1840 @2.80GHz - RAM: 8GB Kết thực thi thuật toán INC CNM cho bảng 3.2 đây: lu INC CNM 321 92 284 2651.66 10 224 2730.1 15 188 2785.667 20 168 2754.92 30 140 2713.86 40 137 2721.756 50 135 2719.86 an n va p ie gh tn to Facebook Dataset (1500) Chất lượng phân cụm (Modularity) INC CNM Số cụm s Bộ liệu 2480.094 Thời gian thực thi (giây) 1212.408 INC CNM 8.25 7.35 nl w d oa Bảng 3.2: Kết thực thi thuật toán INC CNM an lu 3.4.5.1 Thời gian thực thi thuật toán va Với liệu đầu vào thu thập được: đồ thị 1500 đỉnh 109445 cạnh, thuật u nf toán INC cho thời gian chạy 6.60(s), CNM 5.99(s) Như thấy tốc độ ll INC không chênh lệch nhiều so với CNM Bộ liệu (số đỉnh mạng xã hội) m co Facebook Dataset (1500) l CNM gm INC @ 7.35 z Thời gian (giây) 8.25 z at nh oi m 10 an Lu Hình 3.21: Đồ thị so sánh thời gian thực thi INC CNM n va ac th si 70 3.4.5.2 Số lượng cụm tìm Kết thực nghiệm tên liệu thu thập cho thấy số lượng cụm tìm thuật toán INC 321 cụm, vượt trội so với thuật toán CNM (92 cụm) Số cộng đồng 400 321 300 200 92 100 INC CNM Facebook Dataset (1500) Bộ liệu (số đỉnh mạng xã hội) lu Hình 3.22: Đồ thị so sánh số lượng cụm theo INC CNM an va Khi người dùng đưa vào tham số s (cận kích thước cụm), số lượng 284 224 188 200 168 140 137 135 INC 0 nl w Số cộng đồng p ie gh tn to 321 400 10 15 20 30 40 50 d oa Giá trị tham số s an lu Hình 3.23: Đồ thị tương quan số lượng cụm với giá trị s u nf va 3.4.5.3 Chất lượng phân chia cụm Kết thực nghiệm tên liệu thu thập cho thấy chất lượng phân ll 2500 2000 Facebook Dataset (1500) m co l gm 500 CNM @ 1000 INC 1212.407817 z 1500 2480.094196 z at nh 3000 oi m cụm thuật toán INC 2480,094, vượt trội so với thuật tốn CNM (1212,408) Giá trị modun hóa (mật độ) n cụm thu tỷ lệ nghịch với giá trị s Bộ liệu (số đỉnh mạng xã hội) an Lu Hình 3.24: Đồ thị so sánh chất lượng phân cụm theo INC CNM n va ac th si 71 Khi người dùng đưa vào tham số s (cận kích thước cụm), chất lượng cụm thay đổi Chất lượng cụm biến thiên tăng dần đạt giá trị cao s=15 (D = 2785.667), sau giảm dần s tăng lên Khi s tăng giá trị D tiến tới giá trị phân chia cụm CNM 1212.408 2850 2785.667 lu Độ đo mô đun dày đặc 2800 2754.92 2730.1 2750 2700 2713.86 2721.756 2719.86 2651.66 2650 INC 2600 2550 2500 2480.094196 an 2450 n va 2400 2350 to tn 2300 10 15 20 30 40 50 gh p ie Giá trị tham số s Hình 3.25: Đồ thị tương quan chất lượng cụm với giá trị s nl w 3.4.5.4 Đánh giá trực quan biểu đồ kết d oa Căn biểu đồ dendrogram biểu diễn kết phân cụm mạng an lu xã hội với liệu thu thập cho thấy chất lượng phân chia cụm tốt Các va nút bên biểu diễn cụm mức khác nhau, nút tường u nf Facebook Các cụm mức cuối kết phân chia theo INC, mức thứ hai ll kết phân chia theo thuật toán CNM m oi Hình 3.26 ví dụ phân chia cụm lớn từ CNM (cụm quan tâm z at nh tới ô tô, xe máy, bất động sản, chứng khoán) thành cụm với thuật toán INC Đối với cụm quan tâm tới ô tô, thuật tốn cịn chia nhỏ thành cụm quan z phân khúc khác (xe bình dân, xe sang ) m co l gm @ tâm tới dòng xe khác (Lamborghini, Renault, Lexus, Kia, Honda, Toyota ) an Lu n va ac th si 72 lu an va + n Hình 3.26: Kết phân chia cụm lớn thành cụm (bất động sản, chứng gh tn to khốn, tơ, xe máy ) ie Hình 3.27 ví dụ phân chia cụm lớn từ CNM (yêu thích đồ nội thất, p lưu niệm, thời trang, ngân hàng) thành cụm với thuật toán INC Đối với cụm nl w quan tâm tới thời trang, thuật tốn cịn chia nhỏ thành cụm quan tâm d oa tới loại khác giày dép, đồng hồ, mũ, quần áo, ll u nf va an lu oi m z at nh z m co l gm @ an Lu Hình 3.27: Kết phân chia cụm lớn yêu thích đồ nội thất, lưu niệm, thời trang thành cụm (giày dép, đồng hồ,hoa tươi, quà lưu niệm, ngân hàng ) n va ac th si 73 lu an n va Hình 3.28: Kết phân cộng động quan tâm tới Phật giáo p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh Hình 3.29: Kết phân cộng động quan tâm tới mỹ phẩm, thẩm mỹ, bệnh viện z thẩm mỹ phân chia theo INC gm @ * Đánh giá chung: l  Thuật toán INC cho thời gian thực thi nhanh, không lâu so với CNM m co  Thuật toán cho số lượng cụm tìm thấy nhiều nhiều so với thuật tốn CNM dần an Lu  Khi giá trị s tăng dần số cụm tìm giảm dần chất lượng cụm giảm n va ac th si 74  Chất lượng phân chia cụm INC tốt nhiều so với CNM xét độ đo mô đun hóa mật độ  Phân tích trực quan kết cho thấy việc phân chia cụm INC xác 3.5 Kết luận chương Trong chương 3, em giới thiệu kiến thức liên quan đến mạng xã hội toán phân cụm đồ thị liệu mạng xã hội Để áp dụng thuật toán phân cụm phân cấp nghiên cứu để phân cụm liệu đồ thị mạng xã hội, em tiến hành thu thập 05 liệu mạng xã hội cài đặt, thực nghiệm 03 thuật toán nghiên cứu 05 liệu tiến hành đánh giá kết đạt Qua kết thực lu an nghiệm cho thấy, thuật toán Clauset-Newman-Moore thuật toán cho kết n va tốt phân cụm đồ thị liệu mạng xã hội, thời gian thực thi thuật toán, Do thuật toán CNM cho số cụm ít, nhiều cụm có kích thước lớn Trên gh tn to số lượng cụm tìm chất lượng phân cụm p ie thực tế, với toán phân cụm đồ thị mạng xã hội cần phân cụm thành cụm có kích thước nhỏ nhằm phản ánh rõ nét tính chất phần tử cụm (cụ thể nl w mối quan tâm người dùng mạng xã hội tới lĩnh vực, chủ đề cụ thể) d oa nên thuật toán INC cải tiến từ thuật toán CNM xây dựng để đáp ứng mục tiêu an lu đó, qua hỗ trợ hoạt động truyền thông, quảng cáo, marketing online hướng ll u nf va tới cụm đối tượng người dùng cụ thể oi m z at nh z m co l gm @ an Lu n va ac th si 75 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Mạng xã hội toán phân cụm người dùng mạng xã hội vấn đề nhiều nhà nghiên cứu quan tâm thời đại Các toán phát cộng đồng dựa thuật toán phân cụm ứng dụng rộng rãi nhiều lĩnh vực đời sống kinh tế, trị, xã hội, khoa học cơng nghệ, Những kết luận văn:  Trình bày kiến thức tổng quan đồ thị liệu, phương pháp phân cụm đồ thị liệu, tập trung vào phương pháp phân cụm phân cấp đồ thị lu liệu Trên sở thuật toán nghiên cứu an  Cài đặt thuật toán thử nghiệm 05 liệu mạng xã hội thực tế (các va n liệu chuẩn sử dụng đánh giá thuật toán phân cụm đồ thị mạng xã tn to hội) gh  Kết thực nghiệm cho thấy thuật toán CNM (Clauset-Newman-Moore) thuật p ie toán tốt cho phân cụm để phát cộng đồng mạng xã hội với tốc độ tính tốn nhanh nhất, chất lượng phân cụm tốt tương đương nl w với thuật tốn Girvan-Newman theo tiêu chí đánh giá độ đo Modularity d oa  Chất lượng phân chia cụm INC tốt nhiều so với CNM xét độ đo mơ an lu đun hóa mật độ va  Phân tích trực quan kết cho thấy việc phân chia cụm INC xác u nf Hướng phát triển đề tài ll Mặc dù cố gắng với thời gian thực luận văn không nhiều, m oi khối lượng kiến thức cần nghiên cứu nhiều nên luận văn tồn hạn z at nh chế cần khắc phục thời gian tới, cụ thể như: - Việc đánh giá kết cần tiến hành nhiều liệu hơn, kích thước z @ liệu lớn điểm mạnh, yếu thuật toán l gm - Cài đặt đánh giá kết nhiều thuật toán để thấy đầy đủ an Lu đầu vào khác file gml m co - Hiển thị kết phân cụm trực quan hơn, làm việc với loại liệu n va ac th si 76 TÀI LIỆU THAM KHẢO Tiếng Việt Hà Quang Thụy, Phan Xn Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009) Giáo trình khai phá liệu, NXBGD Lê Minh Tiến (2006), “Tổng quan phương pháp phân tích mạng xã hội nghiên cứu xã hội” Tạp chí khoa học xã hội Số Nguyễn Hồng Tú Anh (2009), Giáo trình "Khai thác liệu ứng dụng", Đại học Khoa học Tự nhiên TP HCM Tiếng Anh lu B W Kernighan and S Lin, An efficient heuristic procedure for partitioning an graphs Bell System Technical Journal 49, 291-307 (1970) va n Clauset A, Newman MEJ, Moore C (2004), Finding community structure in very tn to large networks Phys Rev E 70(6):066,111 gh Doan Nhat Quang (2013), New models for hierarchical and topological clustering, p ie Ph D Thesis PARIS 13 UNIVERSITY - SORBONNE PARIS CITÉ w Girvan M, Newman MEJ (2002), Community structure in social and oa nl biological networks PNAS 99(12):7821–7826 Girvan, M & Newman, M.E.J (2004) Finding and evaluating community d va physics, 69 an lu structure in networks Physical review E, Statistical, nonlinear, and soft matter u nf Hanene Azzag, Gilles Venturini, Antoine Oliver et Christiane Guinot (2007), A ll hierarchical ant based clustering algorithm and its use in three real-world applications, m oi European Journal of Operational Research, vol 179, no 3, June 2007 z at nh 10 H Azzag, N Monmarch´e, M Slimane, G Venturini, C Guinot (2012), AntTree: a New Model for Clustering with Artificial Ants z @ 11 Istvan Jonyer, Diane J Cook, Lawrence B Holder (2002), Graph-Based gm Hierarchical Conceptual Clustering, Journal of Machine Learning Research biological networks, Proc Natl Acad Sci., 99(12), 7821 m co l 12 M Girvan, M E J Newman (2002), Community structure in social and networks Phys Rev E 69, 066133 an Lu 13 M E J Newman (2004), Fast algorithm for detecting community structure in n va ac th si 77 14 Martin Rosvall, Carl T Bergstrom (2007), "Maps of random walks on complex networks reveal community structure", Department of Biology, University of Washington, Seattle 15 Newman, M.E.J (2006) Modularity and community structure in networks Proceedings of the National Academy of Sciences, 103, 8577-8582 16 Newman, M.E.J (2004) Detecting community structure in networks The European Physical Journal B - Condensed Matter and Complex Systems, 38, 321-330 17 Network data sets (truy cập ngày 10/2/2017) http://www-personal.umich.edu/~mejn/netdata/ lu 18 P Eades and Q.W Feng (1996), Multilevel visualization of clustered graphs, In an Proceedings of the Symposium on Graph Drawing, GD ’96, pages 101–112, va n Berkeley, California, USA, September 1996 tn to 19 Pinney J,Westhead D (2007), Betweenness-based decomposition methods for gh social and biological networks Interdiscipl StatBioinf pp 87–90 p ie 20 Reinhard Diestel (2005), Graph Theory, Springer-Verlag Heidelberg, NY, 2005 21 Santo Fortunato (2010), Community detection in graphs oa nl w 22 Social Networks Datasets (truy cập ngày 10/2/2017) https://snap.stanford.edu/data/#socnets d va Heidelberg an lu 23 Teuvo Kohonen (2001), Self-Organizing Maps, Third Edition, Springer, u nf 24 Zhang S, Ning X, Ding C (2009), Maximizing modularity density for exploring ll modular organization of protein interaction networks In: Third international m oi symposium on optimization and systems biology, pp361–370 z at nh 25 Zheng Chen (2009), Graph-based Clustering and its Application in Coreference Resolution, The Graduate Center, The City University of New York m co 29 http://julianhopkins.net l gm 28 http://developers.facebook.com/ @ 27 http://snap-graph.sourceforge.net z 26 http://mbostock.github.com/d3/ 31 http://www-personal.umich.edu/~mejn/netdata/ an Lu 30 https://link.springer.com/article/10.1007/s13278-014-0170-z n va ac th si

Ngày đăng: 21/07/2023, 09:11

Xem thêm:

w