Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
1,49 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐH CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG NGUYỄN THẾ ĐẠT NGHIÊN CỨU MƠ HÌNH PHÂN CỤM CÓ THỨ BẬC CÁC ĐỒ THỊ DỮ LIỆU Chun ngành: Khoa học máy tính Mã số: 60.48.01.01 TĨM TẮT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUN - 2017 Cơng trình hồn thành tại: TRƯỜNG ĐH CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ĐẠI HỌC THÁI NGUYÊN Người hướng dẫn khoa học: PGS TS ĐOÀN VĂN BAN Phản biện 1: TS Lê Quang Minh Phản biện 2: TS Vũ Mạnh Xuận Luận văn bảo vệ trước Hội đồng chấm luận văn họp tại: TRƯỜNG ĐH CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ĐẠI HỌC THÁI NGUYÊN Ngày 10 tháng năm 2017 Có thể tìm hiểu luận văn tại: - Trung tâm Học liệu Đại học Thái Nguyên - Thư viện Trường Đại học Công nghệ thông tin Truyền thông MỞ ĐẦU 1.1 Lý chọn đề tài Sự phát triển vượt bậc công nghệ thông tin làm cho lượng thông tin lưu trữ thiết bị nhớ không ngừng tăng lên Những đồ thị lớn mạng (networks) mơ hình tốn học tự nhiên cho đối tượng tương tác với mối quan hệ người mạng xã hội, cấu trúc phân tử mạng sinh học, mạng biểu diễn gene, Trong thực tế, cỡ mạng lớn mà khả phân tích, khai thác tính chất chúng lại hạn chế Hiện nay, mạng xã hội ngày phát triển phổ biến Việc phân cụm người dùng mạng có ý nghĩa to lớn thực tế như: giúp cho việc truyền tải thông tin, tiếp thị bán hàng hoạt động kinh doanh, nhắm đến lượng đông đảo đối tượng quan tâm (thuộc cộng đồng) cách dễ dàng hơn, [12] Có nhiều thuật toán phân cụm khác đề xuất để phân cụm đồ thị liệu nói chung đồ thị mạng xã hội nói riêng, thuật tốn phân cụm phân cấp (có thứ bậc) tỏ hiệu với lớp tốn Chính vậy, tơi chọn đề tài "Nghiên cứu mơ hình phân cụm có thứ bậc đồ thị liệu" 1.2 Mục tiêu đề tài Tìm hiểu sâu thuật toán phân cụm phân cấp đồ thị liệu Cài đặt thuật toán phân cụm phân cấp nghiên cứu, tiến hành thực nghiệm liệu chuẩn (các mạng xã hội) nhằm đánh giá kết thuật toán, qua lựa chọn thuật tốn phù hợp cho việc phân cụm mạng xã hội 1.3 Đối tượng phạm vi nghiên cứu ▪ Đối tượng nghiên cứu: Tập đồ thị liệu, cụm đồ thị, mạng xã hội ▪ Phạm vi nghiên cứu Phân cụm có thứ bậc đồ thị liệu Nghiên cứu số kỹ thuật phân cụm phân cấp (có thứ bậc) khai phá đồ thị liệu nói chung đồ thị mạng xã hội nói riêng 1.4 Phương pháp luận phương pháp nghiên cứu Kết hợp lý thuyết thu nhận từ nhiều nguồn báo, tài liệu, cơng trình nghiên cứu liên quan đến phân cụm có thứ bậc đồ thị liệu kỹ thuật phân cụm đồ thị liệu, tiến hành xây dựng ứng dụng thử nghiệm đánh giá hiệu thuật toán, làm bật kết nghiên cứu luận văn 1.5 Ý nghĩa khoa học đề tài Phân cụm có thứ bậc đồ thị liệu nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên tiềm ẩn quan trọng tập đồ thị liệu lớn để từ cung cấp thơng tin, tri thức cho việc định Ngoài ra, phân cụm có thứ bậc đồ thị liệu sử dụng bước tiền xử lí cho thuật toán khai phá liệu đồ thị khác phân loại mơ tả đặc điểm, có tác dụng việc phát cụm, mẫu theo yêu cầu Luận văn gồm có phần mở đầu, kết luận 03 chương, cụ thể sau: Chương I Phân cụm liệu phân cụm đồ thị liệu Chương II: Phân cụm có thứ bậc đồ thị liệu Chương III Ứng dụng thuật toán phân cụm phân cấp phân cụm liệu đồ thị mạng xã hội CHƯƠNG I PHÂN CỤM DỮ LIỆU VÀ PHÂN CỤM ĐỒ THỊ DỮ LIỆU 1.1 Phân cụm liệu 1.1.1 Khái niệm mục tiêu phân cụm liệu Khái niệm phân cụm liệu Bản chất phân cụm liệu trình nhóm tập đối tượng tương tự tập liệu vào cụm cho đối tượng thuộc cụm tương đồng đối tượng thuộc cụm khác không tương đồng Mục tiêu phân cụm liệu Để xác định nhóm nội bên liệu khơng có nhãn, theo tiêu chuẩn, phù hợp với nhu cầu người sử dụng 1.1.2 Một số khái niệm cần thiết tiếp cận phân cụm liệu ➢ Phân loại kiểu liệu Phân loại kiểu liệu dựa kích thước miền Phân loại kiểu liệu dựa hệ đo Độ đo tương tự phi tương tự Khơng gian metric Thuộc tính khoảng cách Thuộc tính có thứ tự Thuộc tính tỉ lệ 1.1.3 Những kỹ thuật tiếp cận phân cụm liệu Phương pháp phân cụm phân hoạch Phương pháp phân cụm dựa mật độ Phương pháp phân cụm dựa lưới Phương pháp phân cụm dựa mơ hình Phương pháp phân cụm liệu có liên kết 1.1.4 Các ứng dụng phân cụm liệu Phân cụm liệu ứng dụng nhiều lĩnh vực như: Thương mại, Sinh học Thư viện Bảo hiểm Quy hoạch đô thị Nghiên cứu địa chấn WWW 1.2 Phân cụm đồ thị liệu Phân cụm đồ thị phân chia đồ thị lớn thành đồ thị Mỗi đồ thị cụm Các đối tượng cụm đỉnh biểu diễn cho phần tử liệu tương đồng tính chất trọng số cạnh biểu diễn cho độ tương tự (khoảng cách) cặp liệu 1.2.1 Mơ hình đồ thị liệu Một số phương pháp mơ hình đồ thị liệu phổ biến (Istvan Jonyer, 2001): - Đồ thị láng giềng ( -neighborhood graph): - Đồ thị δ láng giềng (δ- neighborhood graph) - Đồ thị k láng giềng gần (k-nearest neighbor graph) - Đồ thị liên thông mạnh 1.2.2 Các loại độ đo Độ đo cho phân cụm liệu tổng quát - Đường kính cực tiểu (Minimum diameter - Charikar et al., 1997) - K-Mean (K-median - Charikar et al., 1999) - Tổng cực tiểu (Minimum Sum – Indyk 1999) Độ đo cho phân cụm đồ thị - Mật độ cụm (intra-cluster density): - Mật độ cụm (inter-cluster density) - Lát cắt tỷ lệ (ratio cut- Hagan and Kahng, 1992) - Lát cắt chuẩn (Normalized cut- Shi and Malik 2000) - Độ đo tiêu chuẩn hai chiều (Bicriteria- Kannan et al, 2000) - Độ đo đơn thể Một số kỹ thuật phân cụm đồ thị liệu - Thuật toán phân cụm quang phổ - Thuật toán phân cụm Markov - Thuật toán pha tạp khác 1.3 Kết luận chương 1: Chương trình bày tổng quan kỹ thuật phân cụm liệu nói chung, ứng dụng phân cụm liệu Qua làm tiền đề để nghiên cứu sâu phân cụm đồ thị liệu: khái niệm liệu đồ thị, độ đo phân cụm liệu nói chung liệu đồ thị nói riêng, kỹ thuật phân cụm liệu đồ thị Với kiến thức nghiên cứu phân cụm liệu đồ thị tổng quát, chương tập trung trình bày kỹ kỹ thuật phân cụm có thứ bậc (phân cấp) liệu đồ thị CHƯƠNG 2: PHÂN CỤM CÓ THỨ BẬC CÁC ĐỒ THỊ DỮ LIỆU 2.1 Thuật toán CHAMELEON CHAMELEON phát triển Karypis, Han Kumar (1999) (Matteucci) Thuật tốn khảo sát mơ hình hố động phân cụm phân cấp Khi xử lý phân cụm, cụm hoà nhập liên kết nối độ chặt (độ gần) hai cụm liên kết cao với liên kết nối độ chặt nội đối tượng nằm phạm vi cụm 2.2 Thuật toán CURE CURE (Clustering Using Representatives – Phân cụm liệu sử dụng điểm đại diện) thuật toán sử dụng chiến lược lên (Bottom-Up) kĩ thuật phân cụm phân cấp Thuật toán định nghĩa số cố định điểm đại diện nằm rải rác toàn không gian liệu chọn để mô tả cụm hình thành Các điểm tạo trước hết lựa chọn đối tượng nằm rải rác cụm sau “co lại” di chuyển chúng trung tâm cụm nhân tố co cụm Quá trình lặp lại q trình đo tỷ lệ gia tăng cụm Tại bước thuật tốn, hai cụm có cặp điểm đại diện gần (mỗi điểm cặp thuộc cụm khác nhau) hịa nhập Như vậy, có nhiều điểm đại diện cụm cho phép CURE khám phá cụm có hình dạng khơng phải hình cầu Việc co lại cụm có tác dụng làm giảm tác động phần tử ngoại lai 2.3 Thuật toán Girvan-Newman Giới thiệu độ đo modularity Một khái niệm mà biết cụm tốt cạnh bên cụm dày đặc Một nút kết nối tới nhiều nút khác cụm kết nối tới nút khác cụm Một độ đo định nghĩa Girvan Newman [9, 13, 16] độ đo đơn thể Q sử dụng cho việc đánh giá chất lượng cụm Giá trị modularity Q tính sau: (2.15) Một giá trị Q cao tức thể phép phân hoạch cụm tốt Do nhiệm vụ tốn tìm giá trị Q cao Độ đo trung gian Độ đo trung gian đỉnh tính tổng số đường ngắn ngang qua đỉnh xét chia cho tổng số đường ngắn tồn mạng Nói cách khác độ đo trung gian độ đo dùng để xác định vị trí tác nhân mạng mà có khả kết nối đến cặp tác nhân hay nhóm tác nhân khác • Cơng thức tính: - Cho đồ thị G = (V, E) có n đỉnh - Cơng thức tính Độ đo trung gian đỉnh v : (3.3) Trong đó: : Tổng số đường ngắn từ đỉnh s đến t có qua đỉnh v (s ≠ v ≠ t) : Tổng số đường ngắn từ đỉnh s đến t (s ≠ v ≠ t) Thuật toán phân cụm Girvan-Newman Girvan Newman [12] đề xuất thuật toán phân cụm phân chia bao gồm việc lặp để xóa bỏ cạnh từ đồ thị sử dụng độ đo trung trung gian Điểm mấu chốt khác thuật tốn việc tính tốn lại độ đo trung gian cho tất cạnh lại sau loại bỏ cạnh Bước lặp dừng lại độ đo chất lượng phân cụm "đơn thể" đạt giá trị tối ưu Thuật tốn mơ tả sau: Input: Đồ thị G = (V, E) với ma trận kề Output: Kết phân cụm đồ thị G Bước Tính tốn điểm số độ đo trung gian cho tất cạnh đồ thị Bước Tìm cạnh với điểm số cao loại bỏ khỏi đồ thị Nếu hai nhiều cạnh có điểm số cao nhất, lựa chọn ngẫu nhiên cạnh loại bỏ chúng Bước Tính tốn lại điểm số trung gian tất cạnh lại Bước Trả thành phần liên thông cụm đồ thị G, tính tốn giá trị độ đo đơn thể chất lượng phân cụm Q(𝒞) Lặp lại từ bước Q(𝒞) đạt giá trị tối ưu Trong trường hợp xấu nhất, thuật tốn có độ phức tạp O(nm2) đồ thị có m cạnh n đỉnh O(n3) với đồ thị thưa 10 Lặp lại bước lại cụm Với điều chỉnh trên, thuật toán CNM có độ phức tạp thời gian O(mdlogn) với mạng n đỉnh, m cạnh d độ sâu dendrogam, tức CNM có hiệu cao 2.5 Thuật toán Rosvall-Bergstrom Về tư tưởng thuật tốn sử dụng tiếp cận lý thuyết thơng tin: coi đồ thị liệu đầu vào (mạng X) thơng tin cần chuyển Mơ hình truyền tin hình X đưa qua mã hóa phân vào m modul (phân vào m cụm) - hay cịn gọi nén thơng tin, để tín hiệu Y dạng nén, tiện lợi việc truyền tin, giảm thiểu thời gian Sau giải mã ước lượng giá trị Z ước lượng cho đầu vào X (khôi phục lại X từ Y nhận được) Nhiệm vụ việc mã hóa làm cho Y có kích thước (độ dài mơ tả) nhỏ mà bảo đảm việc giải mã tìm X tốt (đúng nhất) Các bước thuật toán sau: Bước 1: Với mạng đầu vào X biểu diễn ma trận kề, có l liên kết, ta lựa chọn miêu tả: 11 Bước 2: Tính tốn thơng tin cần thiết để miêu tả X theo Y: Bước 3: Tính chiều dài mơ tả X: L(Y) + L(X|Y) = Bước 4: Lặp lại từ bước đến L(Y) + L(X|Y) giảm thêm (L(Y) + L(X|Y) cực tiểu) Kết quả: ta thu số cụm số modul m, xác định nút thuộc vào cụm thông qua véc tơ định modul a, chất lượng phân cụm chiều dài tối thiểu từ mã biểu diễn X 2.6 Thuật toán INC Thuật toán cải tiến đề xuất để phân chia cụm lớn thành nhiều cụm với quan tâm giống Thuật toán xét đồ thị chứa đỉnh nằm cụm lớn không xét mối quan hệ với cụm lớn khác, công việc xét bước phân cụm với CNM Do thuật toán làm gia tăng việc trích xuất nhiều cụm có ý nghĩa vịng lặp ➢ Nội dung thuật tốn Đầu vào: Đồ thị G =(V, E), tham số s: cận kích thước cộng đồng kết Đầu ra: Tập cụm C = {c1, c2, , ck}, với |C| = k: số cộng đồng tìm ci, i =1 k cụm tìm function INC (Gr, s) // Thủ tục đệ quy thuật toán C' CNM(G); // Phân cụm với thuật toán CNM If |C'| = then 12 Đặt c1 cụm C'; C return; // Thoát khỏi thủ tục đệ quy c' C c1; // Thêm cụm c1 vào tập kết ; for each cụm ci C' if |ci| = then c' c' ci; // đưa ci vào cụm chứa cụm đơn 10 else if |ci| ≤ s then 11 C 12 else 13 14 C ci; // Thêm cụm ci vào tập kết G(V(ci), E(ci)); // Xây dựng đồ thị từ ci Gi INC(Gi, s); // Gọi đệ quy thuật toán 15 if |c'| ≠ then C C c'; ➢ Độ phức tạp thuật toán Độ phức tạp thuật toán INC O(n2log2n) trường hợp đồ thị thưa Tổng quát, độ phức tạp INC T(n) = O(mndlogn) ➢ Độ đo chất lượng phân cụm thuật toán Với đồ thị Gi(Vi, Ei), đặt li lo số cạnh bên bên Gi Cạnh bên cạnh có hai đỉnh nằm đồ thị Gi Cạnh bên cạnh có đỉnh nằm đỉnh nằm ngồi Gi Giả sử ni = |Vi|, bậc trung bình bên đồ thị Gi 2li/ni bậc trung bình bên ngồi Gi lo/ni Khi đó, độ đo mơ đun hóa 13 mật độ D phép phân chia đồ thị G thành tập cụm C = {c1, c2, , ck} tính tổng bậc trung bình bên trừ bậc trung bình bên ngồi: (3.6) 2.7 Kết luận chương Trong chương trình bày số thuật toán phân cụm phân cấp sử dụng phổ biến cho toán phân cụm đồ thị liệu, bao gồm thuật toán Chameleon, CURE, SoT, Girvan-Newman, CNM Rosvall-Bergstrom Mỗi thuật toán có ưu nhược điểm riêng đánh giá chi tiết Những đánh giá sơ sở để ta lựa chọn số thuật toán để tiến hành cài đặt thực nghiệm chương luận văn liệu chuẩn, qua lần đánh giá lại cách xác thuật tốn khả ứng dụng thuật toán việc giải toán thực tế 14 CHƯƠNG 3: ỨNG DỤNG THUẬT TOÁN PHÂN CỤM PHÂN CẤP TRONG PHÂN CỤM DỮ LIỆU ĐỒ THỊ CÁC MẠNG XÃ HỘI 3.1 Bài toán phân cụm mạng xã hội Bài toán: Phân cụm nút liệu đồ thị mạng xã hội đưa danh sách nút mạng thuộc cụm Input: Đồ thị mạng xã hội G = (V, E) gồm tập V có đỉnh: v1, v2, , tập E cạnh liên kết E = {(vi, vj)} Output: Tập cụm C = {C1, C2, ,Cm} tập hợp đỉnh thuộc cụm đó: Ci = {vi1, vi2, , vik} với i =1, 2, ,m Mục tiêu toán từ mạng xã hội cho trước, phát cấu trúc cụm nằm tìm hiểu mối liên hệ bên cụm cụm với nhau, mối liên hệ có ảnh hưởng đến cấu trúc toàn mạng xã hội 3.2 Xây dựng chương trình ứng dụng phân cụm đồ thị mạng xã hội Hệ thống thiết kế gồm giai đoạn: Thu thập rút trích liệu Xử lý liệu Phân cụm đồ thị ➢ Giai đoạn 1: Thu thập rút trích liệu Để tiến hành thực nghiệm, em thu thập 05 liệu public [16], [21], [31] Zachary's karate club Dolphin social network 15 Word adjacencies Neural network Coauthorships in network science Tất file có định dạng *.gml ➢ Giai đoạn 2: Xử lý liệu Các tập liệu thu thập cần phải qua giai đoạn xử lý làm để phù hợp với việc tổ chức cấu trúc liệu cho toán Tập liệu ban đầu có dạng *.gml, sử dụng phần mềm để chuyển tập liệu sang file văn txt Phải làm cách loại bỏ bớt cột dư thừa thu file txt Định dạng file liệu: danh sách cạnh đồ thị, gồm ký hiệu đỉnh tạo nên cạnh ➢ Giai đoạn 3: Xây dựng ứng dụng phân cụm đồ thị mạng xã hội Dựa nghiên cứu chương trước, học viên tiến hành cài đặt ứng dụng để đánh giá kết đạt liệu thực nghiệm với ba thuật toán nghiên cứu Girvan-Newman, CNM (Clauset-Newman-Moore) Rosvall-Bergstrom Các chức ứng dụng demo sau: Cho phép người dùng nạp vào file đầu vào File đầu vào có định dạng danh sách cạnh đồ thị cần phâm cụm Phân cụm phân cấp đồ thị liệu đầu vào theo thuật toán lựa chọn (kết cho số cộng đồng, độ đo chất lượng phân cụm Modularity, thời gian thực thi thuật toán chi tiết danh sách đỉnh thuộc cộng đồng nào) 16 3.3 Các kết thực nghiệm đánh giá Để đánh giá kết thuật toán nghiên cứu, em tiến hành thực nghiệm 05 liệu giới thiệu 3.2.1 Cấu hình máy tính sử dụng để tiến hành thực nghiệm sau: - Hệ điều hành: Windows 8.1 64bit - Processor: Intel(R) Celeron(R) CPU G1840 @2.80GHz - RAM: 8GB - Ngơn ngữ lập trình sử dụng để thực nghiệm: Visual C++ Chất lượng phân cụm (Modularity) Số cụm STT Bộ liệu CNM GN RB CN M Thời gian thực thi (giây) GN RB CNM GN RB Karate 0.374 0.392 21.85 0.02 0.5 0.13 Dolphins 12 0.512 0.517 39.3 0.01 2.66 0.55 69 37 0.295 0.073 175.513 0.11 43.25 1.37 33 43 0.372 0.28 204.570 0.3 2409 102 276 277 402 0.96 0.956 699.82 0.2 4742 83 Word adjacencies Neural network Coauthorship s in network science Bảng 3.1: Kết thực thi thuật toán Trong đó: CNM: thuật tốn Clauset - Newman - Moore; GN: thuật toán Girvan-Newman; GN: thuật toán Rosvall-Bergstrom 17 i gian c i (giây) 3.3.1 Thời gian thực thi thuật toán 5000 4500 4000 3500 3000 2500 2000 1500 1000 500 Clauset Newma nMoore GirvanNewma n i u Hình 3.12: Biểu đồ so sánh thời gian thực thi thuật toán c thi i gian (giây) 3.3.2 Số cụm phân chia 450 400 350 300 250 200 150 100 50 ClausetNewmanMoore GirvanNewman RosvallBergstrom i u Hình 3.13: Biểu đồ so sánh số lượng cụm 18 3.3.3 Chất lượng phân cụm Do độ đo chất lượng phân cụm thuật tốn Rosvall-Bergstrom chiều dài trung bình mã miêu tả, khác với độ đo chất lượng modularity hai thuật tốn CNM Girvan-Newman nên hình bên em so sánh hai thuật toán sau c thi i gian (giây) 1,2 0,8 0,6 0,4 0,2 ClausetNewman -Moore GirvanNewman i u Hình 3.14: Biểu đồ so sánh chất lượng phân cụm 3.4 Phân cụm đồ thị mạng xã hội dựa mối quan tâm người dùng 3.4.1 Giới thiệu Theo nội dung nghiên cứu chương 2, có nhiều thuật tốn sử dụng cho việc phân cụm mạng xã hội, tiêu biểu có thuật tốn CNM Tuy nhiên, việc cực đại hóa giá trị mơ đun hóa Q chưa hẳn phản ánh việc mạng có cấu trúc cụm Trên thực tế, điều cụm clique (giữa đỉnh cụm phải có cạnh nối) Để nhận giá trị Q cực đại, thuật toán kết thúc thường sinh nhiều cụm với kích thước lớn số cụm nhỏ Bởi vậy, luận văn đề xuất cách tiếp cận lặp để trích xuất cụm cần quan tâm Trong cách tiếp cận này, thuật toán bắt đầu với toàn 19 mạng lớn cho số cụm vịng lặp Sau đó, ta loại bỏ cụm khỏi mạng thực thuật toán đệ quy cho cụm lớn Thuật tốn thực khơng thể chia nhỏ cụm kích thước cụm thỏa mãn kích thước cận mong muốn người dùng Kỹ thuật tác giả áp dụng cho liệu thực tế thu thập mạng xã hội Facebook 3.4.2 Mơ hình hóa liệu Để xây dựng mạng xã hội dựa mối quan tâm người dùng, ta thực sau: - Từ liệu thu thập liên quan đến bình luận người dùng, tiến hành tách người dùng phân biệt đơn cách trích rút theo tên ID facebook người dùng - Xác định người dùng chung hai tường Facebook người có tham gia bình luận hai tường Facebook - Biểu diễn liệu dạng ma trận vuông đối xứng M, kích thước với số lượng tường Facebook cần xét 3.4.3 Xây dựng liệu Thu thập liệu mạng xã hội với Facebook API Tiền xử lý liệu, xây dựng cấu trúc mạng xã hội dựa mối quan tâm người dùng 3.4.4 Xây dựng ứng dụng Các chức ứng dụng demo sau: ➢ Tự động thu thập xây dựng liệu ➢ Phân cụm đồ thị mạng xã hội với INC CNM 20 Kết xuất số lượng cụm, thời gian thực thuật toán độ đo chất lượng phân cụm với thuật toán INC CNM để tiện theo dõi, so sánh kết Hình 3.25: Kết chạy chương trình phân cụm với INC CNM ➢ Biểu diễn trực quan kết phân cụm với INC 3.4.5 Thực nghiệm đánh giá CNM cải tiến Để đánh giá kết thuật toán INC, tác giả tiến hành thực nghiệm liệu thu thập 3.4.3 Cấu hình máy tính sử dụng để tiến hành thực nghiệm sau: - Hệ điều hành: Windows 8.1 64bit - Processor: Intel(R) Celeron(R) CPU G1840 @2.80GHz - RAM: 8GB 21 Bộ liệu Faceb ook Dataset (1500) Chất lượng phân cụm (Modularity) Số cụm s Thời gian thực thi (giây) INC CN M INC CNM INC CNM 321 92 2480.094 1212.408 8.25 7.35 284 2651.66 10 224 2730.1 15 188 2785.667 20 168 2754.92 30 140 2713.86 40 137 2721.756 50 135 2719.86 Bảng 3.2: Kết thực thi thuật toán INC CNM ➢ Thời gian thực thi thuật toán Với liệu đầu vào thu thập được: đồ thị 1500 đỉnh 109445 cạnh, thuật toán INC cho thời gian chạy 6.48(s), CNM 5.89(s) Như thấy tốc độ INC không chênh lệch nhiều so với CNM ➢ Số lượng cụm tìm Kết thực nghiệm tên liệu thu thập cho thấy số lượng cụm tìm thuật toán INC 321 cụm, vượt trội so với thuật toán CNM (92 cụm) Khi người dùng đưa vào tham số s (cận kích thước cụm), số lượng cụm thu tỷ lệ nghịch với giá trị s 22 ➢ Chất lượng phân chia cụm Kết thực nghiệm tên liệu thu thập cho thấy chất lượng phân cụm thuật toán INC 2480,094, vượt trội so với thuật toán CNM (1212,408) Khi người dùng đưa vào tham số s (cận kích thước cụm), chất lượng cụm thay đổi Chất lượng cụm biến thiên tăng dần đạt giá trị cao s=15 (D = 2785.667), sau giảm dần s tăng lên Khi s tăng thì giá trị D tiến tới giá trị phân chia cụm CNM 1212.408 ➢ Đánh giá trực quan biểu đồ kết * Đánh giá chung: Thuật toán INC cho thời gian thực thi nhanh, không lâu so với CNM Thuật toán cho số lượng cụm tìm thấy nhiều nhiều so với thuật toán CNM Khi giá trị s tăng dần số cụm tìm giảm dần chất lượng cụm giảm dần Chất lượng phân chia cụm INC tốt nhiều so với CNM xét độ đo mơ đun hóa mật độ Phân tích trực quan kết cho thấy việc phân chia cụm INC xác 3.5 Kết luận chương Trong chương 3, giới thiệu kiến thức liên quan đến mạng xã hội toán phân cụm liệu đồ thị mạng xã hội Ta tiến hành thu thập 05 liệu mạng xã hội cài đặt, thực nghiệm 03 thuật toán nghiên cứu 05 liệu tiến hành đánh giá kết đạt 23 Qua kết thực nghiệm cho thấy, thuật toán Clauset-NewmanMoore thuật toán cho kết tốt phân cụm liệu đồ thị mạng xã hội, thời gian thực thi thuật toán, số lượng cụm tìm chất lượng phân cụm Do thuật toán CNM cho số cụm ít, nhiều cụm có kích thước lớn Trên thực tế, với toán phân cụm đồ thị mạng xã hội cần phân cụm thành cụm có kích thước nhỏ nhằm phản ánh rõ nét tính chất phần tử cụm (cụ thể mối quan tâm người dùng mạng xã hội tới lĩnh vực, chủ đề cụ thể) nên thuật toán INC cải tiến từ thuật toán CNM xây dựng để đáp ứng mục tiêu đó, qua hỗ trợ hoạt động truyền thơng, quảng cáo, marketing online hướng tới cụm đối tượng người dùng cụ thể 24 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Mạng xã hội toán phân cụm người dùng mạng xã hội vấn đề nhiều nhà nghiên cứu quan tâm thời đại Các toán phát cộng đồng dựa thuật toán phân cụm ứng dụng rộng rãi nhiều lĩnh vực đời sống kinh tế, trị, xã hội, khoa học cơng nghệ, ❖ Những kết luận văn: Trình bày tổng quan đồ thị liệu, phương pháp phân cụm đồ thị liệu, tập trung vào phương pháp phân cụm phân cấp đồ thị liệu Trên sở thuật toán nghiên cứu Cài đặt thuật toán thử nghiệm liệu mạng xã hội ❖ Kết thực nghiệm: Thuật toán CNM thuật tốn tốt cho phân cụm với tốc độ tính tốn nhanh, chất lượng phân cụm tốt Chất lượng phân chia cụm INC tốt nhiều so với CNM xét độ đo mơ đun hóa mật độ Phân tích trực quan kết cho thấy việc phân chia cụm INC xác Hướng phát triển đề tài Tồn hạn chế cần khắc phục thời gian tới, cụ thể như: Việc đánh giá kết cần tiến hành nhiều liệu hơn, kích thước liệu lớn Cài đặt đánh giá kết nhiều thuật toán để thấy đầy đủ điểm mạnh, yếu thuật toán Hiển thị kết phân cụm trực quan hơn, làm việc với loại liệu đầu vào khác file gml Thái Nguyên ngày 10 tháng năm 2017 Người thực Nguyễn Thế Đạt ... Tập đồ thị liệu, cụm đồ thị, mạng xã hội ▪ Phạm vi nghiên cứu Phân cụm có thứ bậc đồ thị liệu Nghiên cứu số kỹ thuật phân cụm phân cấp (có thứ bậc) khai phá đồ thị liệu nói chung đồ thị mạng... phân cụm liệu Qua làm tiền đề để nghiên cứu sâu phân cụm đồ thị liệu: khái niệm liệu đồ thị, độ đo phân cụm liệu nói chung liệu đồ thị nói riêng, kỹ thuật phân cụm liệu đồ thị Với kiến thức nghiên. .. phân cụm liệu đồ thị mạng xã hội CHƯƠNG I PHÂN CỤM DỮ LIỆU VÀ PHÂN CỤM ĐỒ THỊ DỮ LIỆU 1.1 Phân cụm liệu 1.1.1 Khái niệm mục tiêu phân cụm liệu Khái niệm phân cụm liệu Bản chất phân cụm liệu q trình