Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
1,49 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐH CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN THẾ ĐẠT NGHIÊNCỨUMÔHÌNHPHÂNCỤMCÓTHỨBẬCCÁCĐỒTHỊDỮLIỆU Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 TÓM TẮT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN - 2017 Công trình hoàn thành tại: TRƯỜNG ĐH CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ĐẠI HỌC THÁI NGUYÊN Người hướng dẫn khoa học: PGS TS ĐOÀN VĂN BAN Phản biện 1: TS Lê Quang Minh Phản biện 2: TS Vũ Mạnh Xuận Luận văn bảo vệ trước Hội đồng chấm luận văn họp tại: TRƯỜNG ĐH CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ĐẠI HỌC THÁI NGUYÊN Ngày 10 tháng năm 2017 Có thể tìm hiểu luận văn tại: - Trung tâm Học liệu Đại học Thái Nguyên - Thư viện Trường Đại học Công nghệ thông tin Truyền thông MỞ ĐẦU 1.1 Lý chọn đề tài Sự phát triển vượt bậc công nghệ thông tin làm cho lượng thông tin lưu trữ thiết bị nhớ không ngừng tăng lên Những đồthị lớn mạng (networks) môhình toán học tự nhiên cho đối tượng tương tác với mối quan hệ người mạng xã hội, cấu trúc phân tử mạng sinh học, mạng biểu diễn gene, Trong thực tế, cỡ mạng lớn mà khả phân tích, khai thác tính chất chúng lại hạn chế Hiện nay, mạng xã hội ngày phát triển phổ biến Việc phâncụm người dùng mạng có ý nghĩa to lớn thực tế như: giúp cho việc truyền tải thông tin, tiếp thị bán hàng hoạt động kinh doanh, nhắm đến lượng đông đảo đối tượng quan tâm (thuộc cộng đồng) cách dễ dàng hơn, [12] Có nhiều thuật toán phâncụm khác đề xuất để phâncụmđồthịliệu nói chung đồthị mạng xã hội nói riêng, thuật toán phâncụmphân cấp (có thứ bậc) tỏ hiệu với lớp toán Chính vậy, chọn đề tài "Nghiên cứumôhìnhphâncụmcóthứbậcđồthị liệu" 1.2 Mục tiêu đề tài Tìm hiểu sâu thuật toán phâncụmphân cấp đồthịliệu Cài đặt thuật toán phâncụmphân cấp nghiên cứu, tiến hành thực nghiệm liệu chuẩn (các mạng xã hội) nhằm đánh giá kết thuật toán, qua lựa chọn thuật toán phù hợp cho việc phâncụm mạng xã hội 1.3 Đối tượng phạm vi nghiêncứu ▪ Đối tượng nghiên cứu: Tập đồthị liệu, cụmđồ thị, mạng xã hội ▪ Phạm vi nghiêncứu Phâncụmcóthứbậcđồthịliệu Nghiêncứu số kỹ thuật phâncụmphân cấp (có thứ bậc) khai phá đồthịliệu nói chung đồthị mạng xã hội nói riêng 1.4 Phương pháp luận phương pháp nghiêncứu Kết hợp lý thuyết thu nhận từ nhiều nguồn báo, tài liệu, công trình nghiêncứu liên quan đến phâncụmcóthứbậcđồthịliệu kỹ thuật phâncụmđồthị liệu, tiến hành xây dựng ứng dụng thử nghiệm đánh giá hiệu thuật toán, làm bật kết nghiêncứu luận văn 1.5 Ý nghĩa khoa học đề tài Phâncụmcóthứbậcđồthịliệu nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên tiềm ẩn quan trọng tập đồthịliệu lớn để từ cung cấp thông tin, tri thức cho việc định Ngoài ra, phâncụmcóthứbậcđồthịliệu sử dụng bước tiền xử lí cho thuật toán khai phá liệuđồthị khác phân loại mô tả đặc điểm, có tác dụng việc phát cụm, mẫu theo yêu cầu Luận văn gồm cóphầnmở đầu, kết luận 03 chương, cụ thể sau: Chương I Phâncụmliệuphâncụmđồthịliệu Chương II: Phâncụmcóthứbậcđồthịliệu Chương III Ứng dụng thuật toán phâncụmphân cấp phâncụmliệuđồthị mạng xã hội CHƯƠNG I PHÂNCỤMDỮLIỆU VÀ PHÂNCỤMĐỒTHỊDỮLIỆU 1.1 Phâncụmliệu 1.1.1 Khái niệm mục tiêu phâncụmliệu Khái niệm phâncụmliệu Bản chất phâncụmliệu trình nhóm tập đối tượng tương tự tập liệu vào cụm cho đối tượng thuộc cụm tương đồng đối tượng thuộc cụm khác không tương đồng Mục tiêu phâncụmliệu Để xác định nhóm nội bên liệu nhãn, theo tiêu chuẩn, phù hợp với nhu cầu người sử dụng 1.1.2 Một số khái niệm cần thiết tiếp cận phâncụmliệu ➢ Phân loại kiểu liệu Phân loại kiểu liệu dựa kích thước miền Phân loại kiểu liệu dựa hệ đoĐộđo tương tự phi tương tự Không gian metric Thuộc tính khoảng cách Thuộc tính cóthứ tự Thuộc tính tỉ lệ 1.1.3 Những kỹ thuật tiếp cận phâncụmliệu Phương pháp phâncụmphân hoạch Phương pháp phâncụm dựa mật độ Phương pháp phâncụm dựa lưới Phương pháp phâncụm dựa môhình Phương pháp phâncụmliệucó liên kết 1.1.4 Các ứng dụng phâncụmliệuPhâncụmliệu ứng dụng nhiều lĩnh vực như: Thương mại, Sinh học Thư viện Bảo hiểm Quy hoạch đôthị Nghiêncứu địa chấn WWW 1.2 PhâncụmđồthịliệuPhâncụmđồthịphân chia đồthị lớn thành đồthị Mỗi đồthịcụmCác đối tượng cụm đỉnh biểu diễn cho phần tử liệu tương đồng tính chất trọng số cạnh biểu diễn cho độ tương tự (khoảng cách) cặp liệu 1.2.1 Môhìnhđồthịliệu Một số phương pháp môhìnhđồthịliệu phổ biến (Istvan Jonyer, 2001): - Đồthị láng giềng ( -neighborhood graph): - Đồthị δ láng giềng (δ- neighborhood graph) - Đồthị k láng giềng gần (k-nearest neighbor graph) - Đồthị liên thông mạnh 1.2.2 Các loại độđoĐộđo cho phâncụmliệu tổng quát - Đường kính cực tiểu (Minimum diameter - Charikar et al., 1997) - K-Mean (K-median - Charikar et al., 1999) - Tổng cực tiểu (Minimum Sum – Indyk 1999) Độđo cho phâncụmđồthị - Mật độcụm (intra-cluster density): - Mật độcụm (inter-cluster density) - Lát cắt tỷ lệ (ratio cut- Hagan and Kahng, 1992) - Lát cắt chuẩn (Normalized cut- Shi and Malik 2000) - Độđo tiêu chuẩn hai chiều (Bicriteria- Kannan et al, 2000) - Độđo đơn thể Một số kỹ thuật phâncụmđồthịliệu - Thuật toán phâncụm quang phổ - Thuật toán phâncụm Markov - Thuật toán pha tạp khác 1.3 Kết luận chương 1: Chương trình bày tổng quan kỹ thuật phâncụmliệu nói chung, ứng dụng phâncụmliệu Qua làm tiền đề để nghiêncứu sâu phâncụmđồthị liệu: khái niệm liệuđồ thị, độđophâncụmliệu nói chung liệuđồthị nói riêng, kỹ thuật phâncụmliệuđồthị Với kiến thức nghiêncứuphâncụmliệuđồthị tổng quát, chương tập trung trình bày kỹ kỹ thuật phâncụmcóthứbậc (phân cấp) liệuđồthị CHƯƠNG 2: PHÂNCỤMCÓTHỨBẬCCÁCĐỒTHỊDỮLIỆU 2.1 Thuật toán CHAMELEON CHAMELEON phát triển Karypis, Han Kumar (1999) (Matteucci) Thuật toán khảo sát mô hình hoá động phâncụmphân cấp Khi xử lý phân cụm, cụm hoà nhập liên kết nối độ chặt (độ gần) hai cụm liên kết cao với liên kết nối độ chặt nội đối tượng nằm phạm vi cụm 2.2 Thuật toán CURE CURE (Clustering Using Representatives – Phâncụmliệu sử dụng điểm đại diện) thuật toán sử dụng chiến lược lên (Bottom-Up) kĩ thuật phâncụmphân cấp Thuật toán định nghĩa số cố định điểm đại diện nằm rải rác toàn không gian liệu chọn để mô tả cụm hình thành Các điểm tạo trước hết lựa chọn đối tượng nằm rải rác cụm sau “co lại” di chuyển chúng trung tâm cụm nhân tố cocụm Quá trình lặp lại trình đo tỷ lệ gia tăng cụm Tại bước thuật toán, hai cụmcó cặp điểm đại diện gần (mỗi điểm cặp thuộc cụm khác nhau) hòa nhập Như vậy, có nhiều điểm đại diện cụm cho phép CURE khám phá cụmcóhình dạng hình cầu Việc co lại cụmcó tác dụng làm giảm tác động phần tử ngoại lai 2.3 Thuật toán Girvan-Newman Giới thiệu độđo modularity Một khái niệm mà biết cụm tốt cạnh bên cụm dày đặc Một nút kết nối tới nhiều nút khác cụm kết nối tới nút khác cụm Một độđo định nghĩa Girvan Newman [9, 13, 16] độđo đơn thể Q sử dụng cho việc đánh giá chất lượng cụm Giá trị modularity Q tính sau: (2.15) Một giá trị Q cao tức thể phép phân hoạch cụm tốt Do nhiệm vụ toán tìm giá trị Q cao Độđo trung gian Độđo trung gian đỉnh tính tổng số đường ngắn ngang qua đỉnh xét chia cho tổng số đường ngắn toàn mạng Nói cách khác độđo trung gian độđo dùng để xác định vị trí tác nhân mạng mà có khả kết nối đến cặp tác nhân hay nhóm tác nhân khác • Công thức tính: - Cho đồthị G = (V, E) có n đỉnh - Công thức tính Độđo trung gian đỉnh v : (3.3) Trong đó: : Tổng số đường ngắn từ đỉnh s đến t có qua đỉnh v (s ≠ v ≠ t) : Tổng số đường ngắn từ đỉnh s đến t (s ≠ v ≠ t) Thuật toán phâncụm Girvan-Newman Girvan Newman [12] đề xuất thuật toán phâncụmphân chia bao gồm việc lặp để xóa bỏ cạnh từ đồthị sử dụng độđo trung trung gian Điểm mấu chốt khác thuật toán việc tính toán lại độđo trung gian cho tất cạnh lại sau loại bỏ cạnh Bước lặp dừng lại độđo chất lượng phâncụm "đơn thể" đạt giá trị tối ưu Thuật toán mô tả sau: Input: Đồthị G = (V, E) với ma trận kề Output: Kết phâncụmđồthị G Bước Tính toán điểm số độđo trung gian cho tất cạnh đồthị Bước Tìm cạnh với điểm số cao loại bỏ khỏi đồthị Nếu hai nhiều cạnh có điểm số cao nhất, lựa chọn ngẫu nhiên cạnh loại bỏ chúng Bước Tính toán lại điểm số trung gian tất cạnh lại Bước Trả thành phần liên thông cụmđồthị G, tính toán giá trị độđo đơn thể chất lượng phâncụm Q(𝒞) Lặp lại từ bước Q(𝒞) đạt giá trị tối ưu Trong trường hợp xấu nhất, thuật toán cóđộ phức tạp O(nm2) đồthịcó m cạnh n đỉnh O(n3) với đồthị thưa 10 Lặp lại bước lại cụm Với điều chỉnh trên, thuật toán CNM cóđộ phức tạp thời gian O(mdlogn) với mạng n đỉnh, m cạnh d độ sâu dendrogam, tức CNM có hiệu cao 2.5 Thuật toán Rosvall-Bergstrom Về tư tưởng thuật toán sử dụng tiếp cận lý thuyết thông tin: coi đồthịliệu đầu vào (mạng X) thông tin cần chuyển Môhình truyền tin hình X đưa qua mã hóa phân vào m modul (phân vào m cụm) - hay gọi nén thông tin, để tín hiệu Y dạng nén, tiện lợi việc truyền tin, giảm thiểu thời gian Sau giải mã ước lượng giá trị Z ước lượng cho đầu vào X (khôi phục lại X từ Y nhận được) Nhiệm vụ việc mã hóa làm cho Y có kích thước (độ dài mô tả) nhỏ mà bảo đảm việc giải mã tìm X tốt (đúng nhất) Các bước thuật toán sau: Bước 1: Với mạng đầu vào X biểu diễn ma trận kề, có l liên kết, ta lựa chọn miêu tả: 11 Bước 2: Tính toán thông tin cần thiết để miêu tả X theo Y: Bước 3: Tính chiều dài mô tả X: L(Y) + L(X|Y) = Bước 4: Lặp lại từ bước đến L(Y) + L(X|Y) giảm thêm (L(Y) + L(X|Y) cực tiểu) Kết quả: ta thu số cụm số modul m, xác định nút thuộc vào cụm thông qua véc tơ định modul a, chất lượng phâncụm chiều dài tối thiểu từ mã biểu diễn X 2.6 Thuật toán INC Thuật toán cải tiến đề xuất để phân chia cụm lớn thành nhiều cụm với quan tâm giống Thuật toán xét đồthị chứa đỉnh nằm cụm lớn không xét mối quan hệ với cụm lớn khác, công việc xét bước phâncụm với CNM Do thuật toán làm gia tăng việc trích xuất nhiều cụmcó ý nghĩa vòng lặp ➢ Nội dung thuật toán Đầu vào: Đồthị G =(V, E), tham số s: cận kích thước cộng đồng kết Đầu ra: Tập cụm C = {c1, c2, , ck}, với |C| = k: số cộng đồng tìm ci, i =1 k cụm tìm function INC (Gr, s) // Thủ tục đệ quy thuật toán C' CNM(G); // Phâncụm với thuật toán CNM If |C'| = then 12 Đặt c1 cụm C'; C return; // Thoát khỏi thủ tục đệ quy c' C c1; // Thêm cụm c1 vào tập kết ; for each cụm ci C' if |ci| = then c' c' ci; // đưa ci vào cụm chứa cụm đơn 10 else if |ci| ≤ s then 11 C 12 else 13 14 C ci; // Thêm cụm ci vào tập kết G(V(ci), E(ci)); // Xây dựng đồthị từ ci Gi INC(Gi, s); // Gọi đệ quy thuật toán 15 if |c'| ≠ then C C c'; ➢ Độ phức tạp thuật toán Độ phức tạp thuật toán INC O(n2log2n) trường hợp đồthị thưa Tổng quát, độ phức tạp INC T(n) = O(mndlogn) ➢ Độđo chất lượng phâncụm thuật toán Với đồthị Gi(Vi, Ei), đặt li lo số cạnh bên bên Gi Cạnh bên cạnh có hai đỉnh nằm đồthị Gi Cạnh bên cạnh có đỉnh nằm đỉnh nằm Gi Giả sử ni = |Vi|, bậc trung bình bên đồthị Gi 2li/ni bậc trung bình bên Gi lo/ni Khi đó, độđomô đun hóa 13 mật độ D phép phân chia đồthị G thành tập cụm C = {c1, c2, , ck} tính tổng bậc trung bình bên trừ bậc trung bình bên ngoài: (3.6) 2.7 Kết luận chương Trong chương trình bày số thuật toán phâncụmphân cấp sử dụng phổ biến cho toán phâncụmđồthị liệu, bao gồm thuật toán Chameleon, CURE, SoT, Girvan-Newman, CNM Rosvall-Bergstrom Mỗi thuật toán có ưu nhược điểm riêng đánh giá chi tiết Những đánh giá sơ sở để ta lựa chọn số thuật toán để tiến hành cài đặt thực nghiệm chương luận văn liệu chuẩn, qua lần đánh giá lại cách xác thuật toán khả ứng dụng thuật toán việc giải toán thực tế 14 CHƯƠNG 3: ỨNG DỤNG THUẬT TOÁN PHÂNCỤMPHÂN CẤP TRONG PHÂNCỤMDỮLIỆUĐỒTHỊCÁC MẠNG XÃ HỘI 3.1 Bài toán phâncụm mạng xã hội Bài toán: Phâncụm nút liệuđồthị mạng xã hội đưa danh sách nút mạng thuộc cụm Input: Đồthị mạng xã hội G = (V, E) gồm tập V có đỉnh: v1, v2, , tập E cạnh liên kết E = {(vi, vj)} Output: Tập cụm C = {C1, C2, ,Cm} tập hợp đỉnh thuộc cụm đó: Ci = {vi1, vi2, , vik} với i =1, 2, ,m Mục tiêu toán từ mạng xã hội cho trước, phát cấu trúc cụm nằm tìm hiểu mối liên hệ bên cụmcụm với nhau, mối liên hệ có ảnh hưởng đến cấu trúc toàn mạng xã hội 3.2 Xây dựng chương trình ứng dụng phâncụmđồthị mạng xã hội Hệ thống thiết kế gồm giai đoạn: Thu thập rút trích liệu Xử lý liệuPhâncụmđồthị ➢ Giai đoạn 1: Thu thập rút trích liệu Để tiến hành thực nghiệm, em thu thập 05 liệu public [16], [21], [31] Zachary's karate club Dolphin social network 15 Word adjacencies Neural network Coauthorships in network science Tất file có định dạng *.gml ➢ Giai đoạn 2: Xử lý liệuCác tập liệuthu thập cần phải qua giai đoạn xử lý làm để phù hợp với việc tổ chức cấu trúc liệu cho toán Tập liệu ban đầu có dạng *.gml, sử dụng phần mềm để chuyển tập liệu sang file văn txt Phải làm cách loại bỏ bớt cột dư thừa thu file txt Định dạng file liệu: danh sách cạnh đồ thị, gồm ký hiệu đỉnh tạo nên cạnh ➢ Giai đoạn 3: Xây dựng ứng dụng phâncụmđồthị mạng xã hội Dựa nghiêncứu chương trước, học viên tiến hành cài đặt ứng dụng để đánh giá kết đạt liệu thực nghiệm với ba thuật toán nghiêncứu Girvan-Newman, CNM (Clauset-Newman-Moore) Rosvall-Bergstrom Các chức ứng dụng demo sau: Cho phép người dùng nạp vào file đầu vào File đầu vào có định dạng danh sách cạnh đồthị cần phâm cụm Phâncụmphân cấp đồthịliệu đầu vào theo thuật toán lựa chọn (kết cho số cộng đồng, độđo chất lượng phâncụm Modularity, thời gian thực thi thuật toán chi tiết danh sách đỉnh thuộc cộng đồng nào) 16 3.3 Các kết thực nghiệm đánh giá Để đánh giá kết thuật toán nghiên cứu, em tiến hành thực nghiệm 05 liệu giới thiệu 3.2.1 Cấu hình máy tính sử dụng để tiến hành thực nghiệm sau: - Hệ điều hành: Windows 8.1 64bit - Processor: Intel(R) Celeron(R) CPU G1840 @2.80GHz - RAM: 8GB - Ngôn ngữ lập trình sử dụng để thực nghiệm: Visual C++ Chất lượng phâncụm (Modularity) Số cụm STT Bộ liệu CNM GN RB CN M Thời gian thực thi (giây) GN RB CNM GN RB Karate 0.374 0.392 21.85 0.02 0.5 0.13 Dolphins 12 0.512 0.517 39.3 0.01 2.66 0.55 69 37 0.295 0.073 175.513 0.11 43.25 1.37 33 43 0.372 0.28 204.570 0.3 2409 102 276 277 402 0.96 0.956 699.82 0.2 4742 83 Word adjacencies Neural network Coauthorship s in network science Bảng 3.1: Kết thực thi thuật toán Trong đó: CNM: thuật toán Clauset - Newman - Moore; GN: thuật toán Girvan-Newman; GN: thuật toán Rosvall-Bergstrom 17 i gian c i (giây) 3.3.1 Thời gian thực thi thuật toán 5000 4500 4000 3500 3000 2500 2000 1500 1000 500 Clauset Newma nMoore GirvanNewma n i u Hình 3.12: Biểu đồ so sánh thời gian thực thi thuật toán c thi i gian (giây) 3.3.2 Số cụmphân chia 450 400 350 300 250 200 150 100 50 ClausetNewmanMoore GirvanNewman RosvallBergstrom i u Hình 3.13: Biểu đồ so sánh số lượng cụm 18 3.3.3 Chất lượng phâncụmDođộđo chất lượng phâncụm thuật toán Rosvall-Bergstrom chiều dài trung bình mã miêu tả, khác với độđo chất lượng modularity hai thuật toán CNM Girvan-Newman nên hình bên em so sánh hai thuật toán sau c thi i gian (giây) 1,2 0,8 0,6 0,4 0,2 ClausetNewman -Moore GirvanNewman i u Hình 3.14: Biểu đồ so sánh chất lượng phâncụm 3.4 Phâncụmđồthị mạng xã hội dựa mối quan tâm người dùng 3.4.1 Giới thiệu Theo nội dung nghiêncứu chương 2, có nhiều thuật toán sử dụng cho việc phâncụm mạng xã hội, tiêu biểu có thuật toán CNM Tuy nhiên, việc cực đại hóa giá trị mô đun hóa Q chưa hẳn phản ánh việc mạng có cấu trúc cụm Trên thực tế, điều cụm clique (giữa đỉnh cụm phải có cạnh nối) Để nhận giá trị Q cực đại, thuật toán kết thúc thường sinh nhiều cụm với kích thước lớn số cụm nhỏ Bởi vậy, luận văn đề xuất cách tiếp cận lặp để trích xuất cụm cần quan tâm Trong cách tiếp cận này, thuật toán bắt đầu với toàn 19 mạng lớn cho số cụm vòng lặp Sau đó, ta loại bỏ cụm khỏi mạng thực thuật toán đệ quy cho cụm lớn Thuật toán thực chia nhỏ cụm kích thước cụm thỏa mãn kích thước cận mong muốn người dùng Kỹ thuật tác giả áp dụng cho liệu thực tế thu thập mạng xã hội Facebook 3.4.2 Môhình hóa liệu Để xây dựng mạng xã hội dựa mối quan tâm người dùng, ta thực sau: - Từ liệuthu thập liên quan đến bình luận người dùng, tiến hành tách người dùng phân biệt đơn cách trích rút theo tên ID facebook người dùng - Xác định người dùng chung hai tường Facebook người có tham gia bình luận hai tường Facebook - Biểu diễn liệu dạng ma trận vuông đối xứng M, kích thước với số lượng tường Facebook cần xét 3.4.3 Xây dựng liệu Thu thập liệu mạng xã hội với Facebook API Tiền xử lý liệu, xây dựng cấu trúc mạng xã hội dựa mối quan tâm người dùng 3.4.4 Xây dựng ứng dụng Các chức ứng dụng demo sau: ➢ Tự động thu thập xây dựng liệu ➢ Phâncụmđồthị mạng xã hội với INC CNM 20 Kết xuất số lượng cụm, thời gian thực thuật toán độđo chất lượng phâncụm với thuật toán INC CNM để tiện theo dõi, so sánh kết Hình 3.25: Kết chạy chương trình phâncụm với INC CNM ➢ Biểu diễn trực quan kết phâncụm với INC 3.4.5 Thực nghiệm đánh giá CNM cải tiến Để đánh giá kết thuật toán INC, tác giả tiến hành thực nghiệm liệuthu thập 3.4.3 Cấu hình máy tính sử dụng để tiến hành thực nghiệm sau: - Hệ điều hành: Windows 8.1 64bit - Processor: Intel(R) Celeron(R) CPU G1840 @2.80GHz - RAM: 8GB 21 Bộ liệu Faceb ook Dataset (1500) Chất lượng phâncụm (Modularity) Số cụm s Thời gian thực thi (giây) INC CN M INC CNM INC CNM 321 92 2480.094 1212.408 8.25 7.35 284 2651.66 10 224 2730.1 15 188 2785.667 20 168 2754.92 30 140 2713.86 40 137 2721.756 50 135 2719.86 Bảng 3.2: Kết thực thi thuật toán INC CNM ➢ Thời gian thực thi thuật toán Với liệu đầu vào thu thập được: đồthị 1500 đỉnh 109445 cạnh, thuật toán INC cho thời gian chạy 6.48(s), CNM 5.89(s) Như thấy tốc độ INC không chênh lệch nhiều so với CNM ➢ Số lượng cụm tìm Kết thực nghiệm tên liệuthu thập cho thấy số lượng cụm tìm thuật toán INC 321 cụm, vượt trội so với thuật toán CNM (92 cụm) Khi người dùng đưa vào tham số s (cận kích thước cụm), số lượng cụmthu tỷ lệ nghịch với giá trị s 22 ➢ Chất lượng phân chia cụm Kết thực nghiệm tên liệuthu thập cho thấy chất lượng phâncụm thuật toán INC 2480,094, vượt trội so với thuật toán CNM (1212,408) Khi người dùng đưa vào tham số s (cận kích thước cụm), chất lượng cụm thay đổi Chất lượng cụm biến thiên tăng dần đạt giá trị cao s=15 (D = 2785.667), sau giảm dần s tăng lên Khi s tăng thì giá trị D tiến tới giá trị phân chia cụm CNM 1212.408 ➢ Đánh giá trực quan biểu đồ kết * Đánh giá chung: Thuật toán INC cho thời gian thực thi nhanh, không lâu so với CNM Thuật toán cho số lượng cụm tìm thấy nhiều nhiều so với thuật toán CNM Khi giá trị s tăng dần số cụm tìm giảm dần chất lượng cụm giảm dần Chất lượng phân chia cụm INC tốt nhiều so với CNM xét độđomô đun hóa mật độ Phân tích trực quan kết cho thấy việc phân chia cụm INC xác 3.5 Kết luận chương Trong chương 3, giới thiệu kiến thức liên quan đến mạng xã hội toán phâncụmliệuđồthị mạng xã hội Ta tiến hành thu thập 05 liệu mạng xã hội cài đặt, thực nghiệm 03 thuật toán nghiêncứu 05 liệu tiến hành đánh giá kết đạt 23 Qua kết thực nghiệm cho thấy, thuật toán Clauset-NewmanMoore thuật toán cho kết tốt phâncụmliệuđồthị mạng xã hội, thời gian thực thi thuật toán, số lượng cụm tìm chất lượng phâncụmDo thuật toán CNM cho số cụm ít, nhiều cụmcó kích thước lớn Trên thực tế, với toán phâncụmđồthị mạng xã hội cần phâncụm thành cụmcó kích thước nhỏ nhằm phản ánh rõ nét tính chất phần tử cụm (cụ thể mối quan tâm người dùng mạng xã hội tới lĩnh vực, chủ đề cụ thể) nên thuật toán INC cải tiến từ thuật toán CNM xây dựng để đáp ứng mục tiêu đó, qua hỗ trợ hoạt động truyền thông, quảng cáo, marketing online hướng tới cụm đối tượng người dùng cụ thể 24 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Mạng xã hội toán phâncụm người dùng mạng xã hội vấn đề nhiều nhà nghiêncứu quan tâm thời đại Các toán phát cộng đồng dựa thuật toán phâncụm ứng dụng rộng rãi nhiều lĩnh vực đời sống kinh tế, trị, xã hội, khoa học công nghệ, ❖ Những kết luận văn: Trình bày tổng quan đồthị liệu, phương pháp phâncụmđồthị liệu, tập trung vào phương pháp phâncụmphân cấp đồthịliệu Trên sở thuật toán nghiêncứu Cài đặt thuật toán thử nghiệm liệu mạng xã hội ❖ Kết thực nghiệm: Thuật toán CNM thuật toán tốt cho phâncụm với tốc độ tính toán nhanh, chất lượng phâncụm tốt Chất lượng phân chia cụm INC tốt nhiều so với CNM xét độđomô đun hóa mật độ Phân tích trực quan kết cho thấy việc phân chia cụm INC xác Hướng phát triển đề tài Tồn hạn chế cần khắc phục thời gian tới, cụ thể như: Việc đánh giá kết cần tiến hành nhiều liệu hơn, kích thước liệu lớn Cài đặt đánh giá kết nhiều thuật toán để thấy đầy đủ điểm mạnh, yếu thuật toán Hiển thị kết phâncụm trực quan hơn, làm việc với loại liệu đầu vào khác file gml Thái Nguyên ngày 10 tháng năm 2017 Người thực Nguyễn Thế Đạt ... Tập đồ thị liệu, cụm đồ thị, mạng xã hội ▪ Phạm vi nghiên cứu Phân cụm có thứ bậc đồ thị liệu Nghiên cứu số kỹ thuật phân cụm phân cấp (có thứ bậc) khai phá đồ thị liệu nói chung đồ thị mạng... phân cụm liệu Qua làm tiền đề để nghiên cứu sâu phân cụm đồ thị liệu: khái niệm liệu đồ thị, độ đo phân cụm liệu nói chung liệu đồ thị nói riêng, kỹ thuật phân cụm liệu đồ thị Với kiến thức nghiên. .. phân cụm liệu đồ thị mạng xã hội CHƯƠNG I PHÂN CỤM DỮ LIỆU VÀ PHÂN CỤM ĐỒ THỊ DỮ LIỆU 1.1 Phân cụm liệu 1.1.1 Khái niệm mục tiêu phân cụm liệu Khái niệm phân cụm liệu Bản chất phân cụm liệu trình