nghiên cứu các thuật toán rút gọn đồ thị và ứng dụng để phát hiện cộng đồng trên mạng xã hội TT

27 9 0
nghiên cứu các thuật toán rút gọn đồ thị và ứng dụng để phát hiện cộng đồng trên mạng xã hội TT

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG NGUYỄN XN DŨNG NGHIÊN CỨU CÁC THUẬT TOÁN RÚT GỌN ĐỒ THỊ VÀ ỨNG DỤNG ĐỂ PHÁT HIỆN CỘNG ĐỒNG TRÊN MẠNG XÃ HỘI Chuyên ngành: Hệ thống thơng tin Mã số: 9.48.01.04 TĨM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Hà Nội - 2021 CÔNG TRÌNH ĐƯỢC HỒN THÀNH TẠI: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG TẬP THỂ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Đồn Văn Ban TS Đỗ Thị Bích Ngọc Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ trước Hội đồng chấm luận cấp Học viện Họp tại: Học viện Công nghệ Bưu Viễn thơng Vào hồi ngày tháng năm 2021 Có thể tìm hiểu luận án tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng - Thư viện viện Quốc gia Việt Nam MỞ ĐẦU Tính cấp thiết luận án Trong vài thập kỷ gần đây, mạng xã hội trở nên phổ biến thu hút ý nhà khoa học thuộc ngành khác nhau, xã hội học, dịch tễ học, kinh tế, khoa học máy tính, viễn thông nhiều ngành khác Mạng xã hội phát triển mạnh mẽ khắp nơi, quốc gia trở thành phương tiện quan trọng, thiếu sống để kết nối quan hệ người xã hội Hiện Facebook, Twitter, Youtube, WhatsApp, Instagram, Google+, Linkedin, … mạng xã hội phổ biến nhiều người sử dụng Phân tích mạng xã hội tập hợp phương pháp thu thập xử lý liệu, khái niệm, lý thuyết nhằm mơ tả phân tích mối quan hệ thực thể mạng, qui luật hình thành biến đổi mối quan hệ đó, làm sáng tỏ ảnh hưởng tương quan mối quan hệ xã hội (hay cấu trúc mạng) hành vi thực thể tham gia Ví dụ: Phân tích thống kê mạng xã hội, phát cộng đồng mạng xã hội, dự đoán liên kết, phân tích vai trị phân loại tác nhân mạng xã hội, … Trong lĩnh vực phân tích mạng xã hội, việc phân tích phát cộng đồng mạng xã hội mang nhiều ý nghĩa quan trọng có nhiều ứng dụng lĩnh vực xã hội khác xã hội học, sinh học, khoa học máy tính, kinh tế, trị, … Cộng đồng mạng xã hội nhóm thực thể mạng xã hội có tính chất tương tự nhau, liên kết chặt chẽ với đóng vai trò định Cộng đồng mạng xã hội cấu trúc xã hội xác định dựa mối quan hệ, có mối quan tâm chung như: sở thích, lĩnh vực mà thành viên cộng đồng quan tâm, tham gia hay mục tiêu, dự án chung, vị trí địa lý, nghề nghiệp Việc phát phân tích cộng đồng mạng xã hội cung cấp cho thơng tin q giá để hiểu biết hình dung cấu trúc mạng Phát cộng đồng mạng xã hội nhiệm vụ quan trọng hàng đầu phân tích mạng xã hội Để giải vấn đề này, nhiều thuật toán phát cộng đồng mạng xã hội đề xuất Tuy nhiên, thuật toán phần lớn chưa đạt hiệu việc phát cộng đồng mạng xã hội quy mô lớn Phát cộng đồng mạng xã hội gọi phân cụm đồ thị, kỹ thuật phân tích mạng quan trọng sử dụng để phát mối quan hệ thành viên mạng xã hội Liên quan đến việc xác định số lượng cộng đồng mạng xã hội số lượng thành viên cộng đồng, với nhiều tương tác thành viên cộng đồng nhiều thành viên cộng đồng với phần cịn lại mạng Với phát triển mạnh mẽ công nghệ thông tin, việc sử dụng mạng xã hội xã hội phát triển theo cấp số nhân Một hệ thay đổi sâu sắc cách người dùng tương tác với Cộng đồng đặc tính quan trọng mạng xã hội, cộng đồng thường đại diện cho nhóm người dùng tổ chức cụ thể với thuộc tính, sở thích tương tự mối quan hệ gần Đồ thị mạng xã hội thường phức tạp, có số đỉnh số cạnh lớn, nên công việc phát cộng đồng đòi hỏi nhiều thời gian thách thức lớn Tuy nhiên, nghiên cứu nêu hầu hết tập trung giải toán phát cộng đồng trực tiếp đồ thị mà cơng trình nghiên cứu tính đến việc giảm thiểu không gian đỉnh cạnh đồ thị bảo tồn tính chất đồ thị ban đầu nhằm mục đích giảm thiểu thời gian phân tích, phát cộng đồng mạng xã hội Mặt khác, đồ thị mạng xã hội thường có nhiều đỉnh tương đương với theo số độ đo xác định đặc trưng cho mạng xã hội như: độ đo trung tâm trung gian, theo nguyên lý lan truyền nhãn, Những đỉnh tương đương có độ đo trung tâm trung gian, hay có chung nhãn theo nguyên lý lan truyền nhãn tạo thành lớp đỉnh tương đương kết hợp chúng với thành đỉnh đại diện giúp cho giảm thiểu đáng kể số đỉnh số cạnh đồ thị mạng xã hội Qua phân tích đánh giá thuật toán phát cộng đồng mạng xã hội, nghiên cứu sinh lựa chọn nghiên cứu lớp đỉnh tương đương dựa vào độ đo trung tâm trung gian nguyên lý lan truyền nhãn để rút gọn đồ thị mạng xã hội từ cải tiến thuật tốn phát cộng đồng mạng xã hội hiệu đồ thị rút gọn nhằm giải hiệu toán phát cộng đồng mạng xã hội có cấu trúc tự kích thước lớn Mục tiêu luận án Mục tiêu luận án là: • Nghiên cứu phát triển thực nghiệm thuật toán rút gọn đồ thị dựa vào lớp tương đương đỉnh đồ thị theo độ đo trung tâm trung gian phương pháp rút gọn đồ thị theo nguyên lý lan truyền nhãn • Phát triển thuật tốn phát nhanh cộng đồng mạng xã hội sử dụng độ đo trung tâm trung gian thuật toán phát nhanh cộng đồng mạng xã hội dựa tính chất lớp đỉnh tương đương theo nguyên lý lan truyền nhãn Đối tượng nghiên cứu luận án • Mạng xã hội cộng đồng mạng xã hội • Các thuật tốn rút gọn đồ thị • Các lớp đỉnh tương đương theo độ đo trung tâm trung gian nguyên lý lan truyền nhãn đồ thị mạng xã hội • Các thuật toán phát cộng đồng mạng xã hội Phạm vi nghiên cứu luận án • Các thuật tốn phát cộng đồng mạng xã hội: Girvan - Newman, Label Propagation Algorithm • Các lớp đỉnh tương đương theo độ đo trung tâm trung gian đồ thị mạng xã hội • Các lớp đỉnh tương đương theo nguyên lý lan truyền nhãn đồ thị mạng xã hội • Các thuật toán rút gọn đồ thị dựa vào lớp đỉnh tương đương theo độ đo trung tâm trung gian theo nguyên lý lan truyền nhãn Phương pháp nghiên cứu luận án Phương pháp nghiên cứu luận án nghiên cứu lý thuyết nghiên cứu thực nghiệm Các đóng góp luận án • Đề xuất thuật tốn REG (Reduce Equivalence Graph) rút gọn đồ thị dựa vào lớp tương đương đỉnh theo độ đo trung tâm trung gian Thực thực nghiệm đánh giá tính hiệu thời gian thực thuật toán đề xuất so với thuật tốn gốc điển hình sử dụng độ đo trung tâm trung gian • Đề xuất thuật tốn FBC (Fast algorithm for Betweenness Centrality) cải tiến thời gian tính độ đo trung tâm trung gian đề xuất thuật toán CDAB (Community Detection Algorithm based on Betweenness centrality) cải tiến thời gian phát cộng đồng đồ thị mạng xã hội rút gọn dựa vào độ đo trung tâm trung gian Thực thực nghiệm đánh giá tính hiệu thời gian thực thuật toán đề xuất CDAB so với thuật toán gốc điển hình Girvan-Newman (GN) sử dụng độ đo trung tâm trung gian • Đề xuất thuật tốn LREN (Label based Reduce Equivalence Nodes) rút gọn đồ thị dựa vào lớp đỉnh tương đương theo nguyên lý lan truyền nhãn phát triển thuật toán LPAA (Label Propagation Algorithm on Abridged graph) cải tiến thời gian phát cộng đồng dựa vào nguyên lý lan truyền nhãn Thực thực nghiệm đánh giá tính hiệu thời gian thực thuật toán LPAA so với thuật tốn gốc điển hình (Label Propagation Algorithm) LPA Bố cục luận án Luận án tổ chức thành chương, đó: Chương Tổng quan rút gọn đồ thị phát cộng đồng mạng xã hội Chương Thuật toán rút gọn đồ thị mạng xã hội dựa vào độ đo trung tâm trung gian nguyên lý lan truyền nhãn Chương Áp dụng thuật toán rút gọn đồ thị để phát cộng đồng mạng xã hội CHƯƠNG TỔNG QUAN RÚT GỌN ĐỒ THỊ VÀ PHÁT HIỆN CỘNG ĐỒNG TRÊN MẠNG XÃ HỘI Chương giới thiệu tổng quan mạng xã hội, cộng đồng mạng xã hội, thuật toán phát cộng đồng mạng xã hội phương pháp rút gọn đồ thị cho nhiều ứng dụng khác Trong nội dung chương thực phân tích, đánh giá rõ mặt hạn chế, tồn phương pháp từ xác định hướng phát triển thuật toán rút gọn đồ thị ứng dụng để phát cộng đồng mạng xã hội Cuối chương trình bày số độ đo phổ biến sử dụng để đánh giá hiệu thuật toán rút gọn đồ thị thuật toán phát cộng đồng mạng xã hội 1.1 Mạng xã hội Mạng xã hội cấu trúc xã hội tạo từ thực thể, tác nhân tổ chức liên kết, kết nối nhiều quan hệ với [8], [42], [102] Theo Fortunato cộng [31] mạng xã hội tập hợp thực thể kết nối với tập hợp mối quan hệ, liên kết, quan hệ bạn bè, gia đình, cộng hay trao đổi thơng tin, … 1.2 Một số hệ đo quan trọng đồ thị mạng xã hội Định nghĩa 1.1 Đồ thị mạng xã hội đồ thị G = (V, E), V tập đỉnh (nút) E tập cạnh (cung) Tập V biểu diễn cho thành viên (tác nhân) mạng xã hội, tập E thể mối quan hệ xã hội thành viên với Định nghĩa 1.3 Hệ số trung tâm trực tiếp CD tác nhân (đỉnh) v đồ thị G, tính theo bậc nó, nghĩa là: CD(v) = deg(v) (1.2) Trong đó, deg(v) số bậc đỉnh v Định nghĩa 1.4 Độ đo trung tâm theo bậc vào/ ra: Giả sử A ∈ {0, 1}n×n ma trận liền kề đồ thị định hướng Kin, Kout ∈ Rn vectors bậc vào, tương ứng Khi Kout = ATI (Tổng cột A); (1.4) in K = AI (Tổng hàng A) (1.5) Định nghĩa 1.5 Hệ số trung tâm lân cận CCl (gọi tắt độ lân cận, độ gần nhau) đỉnh v định nghĩa sau: CCl(v) = ∑%∈&\$ 𝜎$% /(𝑛 − 1)) (1.6) Trong đó, 𝜎$% số đường ngắn v đến t Độ gần xem độ dài mà luồng thơng tin trải qua từ đỉnh cho trước tới đỉnh khác mạng Định nghĩa 1.6 Độ gần CCl(v) đỉnh v định nghĩa tỷ lệ nghịch với tổng khoảng cách trắc địa tới tất đỉnh V: CCl(v) = 1 / ∑%∈&\$ 𝜎$% (1.7) Cho đồ thị G = (V, E) có n đỉnh, độ đo trung tâm trung gian CB(v) đỉnh v xác định sau: - Với cặp đỉnh (s, t), tính tất đường ngắn nối chúng - σst; - Với cặp đỉnh (s, t), tính phân số đường ngắn σst(v) có qua v số đường ngắn từ s tới t σst(v)/σst; - Tính tổng phân số tất cặp đỉnh (s, t) Ta ký hiệu σst số đường ngắn từ s tới t, σst(v) số đường ngắn từ s tới t có qua v Định nghĩa 1.7 Độ đo trung tâm trung gian kí hiệu CB(v) đỉnh v xác định sau: CB(v) = ∑/1%1$ 𝜎/% (𝑣) /𝜎/% (1.8) 1.3 Bài toán phát cộng đồng mạng xã hội Phát cộng đồng mạng xã hội lĩnh vực nghiên cứu quan trọng bật hàng đầu phân tích mạng xã hội Phát cộng đồng mạng xã hội có tầm quan trọng lớn xã hội học, sinh học khoa học máy tính, Phát cộng đồng mạng xã hội gặp thách thức lớn đặc biệt phức tạp tính tốn bị chi phối hai yếu tố Yếu tố phải kể đến kích thước mạng xã hội lớn mạng xã hội Facebook đạt đến hàng tỷ người dùng Vì cần có giải pháp thích hợp để giảm kích thước đồ thị mạng xã hội ban đầu theo cách thức quản lý kiểm sốt Nhờ mà chi phí tính tốn giảm, thời gian tính tốn giảm khơng làm giảm chất lượng giải pháp hay cấu trúc mạng xã hội ban đầu Yếu tố thứ hai liên quan đến chất mạng xã hội động, cấu trúc mạng biến đổi, phát triển không ngừng theo thời gian Chính thách thức thu hút số lượng lớn nhà khoa học quan tâm nghiên cứu liên tục năm qua 1.3.1 Cộng đồng mạng xã hội Trong lý thuyết đồ thị, định nghĩa cộng đồng cách hình thức sau: Định nghĩa 1.8 Cho trước đồ thị G = (V, E), với V tập đỉnh, E tập cạnh Các cộng đồng tập đồ thị G, C = {G1, G2, …, Gk}, với Gi = (Vi, Ei), i = 1, 2, …, k cho: (i) "i ≠ j = 1, 2, …, k, Vi ∩ Vj = f, cộng đồng rời (ii) ⋃6478 𝑉4 = 𝑉 ⋃6478 𝐸4 Í 𝐸, cộng đồng đồ thị G (iii) Các đỉnh cộng đồng có liên kết (cạnh nối) với nhiều số liên kết với đỉnh cộng đồng khác, nghĩa là: |Ei| > |Ei,j|, với Ei,j = {(u, v) Î E - (Ei È Ei), u Î Vi, v Î Vj i ≠ j = 1, 2, …, k } Một số ứng dụng tốn phát cộng đồng mạng xã hội [3], [4], [25] là: - Phát cộng đồng sử dụng tư vấn thông tin xác định cộng đồng có số quan tâm, sở thích tương tự - Cộng đồng giúp hiểu cấu trúc mạng xã hội, làm rõ thuộc tính chức mạng xã hội - Phát cộng đồng để hiểu hành vi mạng xã hội quy mơ lớn làm rõ q trình chia sẻ thơng tin truyền bá thông tin - Các phương pháp phát cộng đồng có lợi lớn việc định tuyến nhận thức xã hội ngăn chặn thông tin độc hại mạng xã hội - Mạng xã hội loài người thể cộng đồng mạnh mẽ Một mạng lưới có cộng đồng mạnh bao gồm cộng đồng, cộng đồng có nhiều kết nối kết nối cộng đồng - Trong hệ sinh học hệ chăm sóc sức khỏe, có nhiều thuật tốn phát cộng đồng phát triển cho mạng xã hội mở rộng thành công cho mạng sinh học 1.3.2 Các thuật toán phát cộng đồng mạng xã hội Mục tiêu toán phát cộng đồng mạng xã hội từ mạng xã hội cho trước, phát cộng đồng nằm tìm hiểu mối liên hệ bên cộng đồng cộng đồng với nhau, mối liên hệ có ảnh hưởng đến tồn mạng xã hội Bài tốn: Phát cộng đồng mạng xã hội Đầu vào: Đồ thị mạng xã hội G = (V, E) gồm tập V có đỉnh: v1, v2,…, tập E cạnh E = {(vi,vj)} Đầu ra: Tập cộng đồng mạng xã hội C Trong nhiều thập kỷ qua, số giải pháp phát cộng đồng mạng xã hội nghiên cứu nhiều thường xuyên [3], [12], [17], [21], [22], [24], [37], [39] [44], [45], [49], [52], [59], [66], [67], [69], [70], [72], [77], [80], [104], [109], [116], [117] Về bản, thuật tốn chia thành nhóm thuật tốn 1.3.2.1 Nhóm thuật tốn phát cộng đồng truyền thống Nhóm thuật tốn phát cộng đồng truyền thống bao gồm thuật toán: Phân cụm đồ thị, phân cụm phân cấp, phân cụm phân hoạch, phân cụm theo phổ thuật toán phân chia Những vấn đề tồn sử dụng thuật toán phát cộng đồng truyền thống: - Một lượng thông tin bị q trình phân cụm dẫn đến chất lượng thuật tốn phát cộng đồng có độ xác thường khơng cao - Nhóm phương pháp tập trung vào liên kết, kết nối cấu trúc đồ thị mạng xã hội mà không xem xét, ý đến tương tác người sử dụng mạng xã hội ảnh hưởng người dùng toàn mạng xã hội 1.3.2.2 Nhóm thuật tốn phát cộng đồng dựa tối ưu hoá độ đo đơn thể Độ đo đơn thể Q (Modularity Q) [14], [76], [77] sử dụng để đánh giá chất lượng thuật toán phát cộng đồng, độ đo đơn thể Q có giá trị lớn thể độ xác thuật toán cao, chất lượng việc phát cộng đồng đánh giá tốt Nhóm thuật tốn gồm: thuật tốn tìm kiếm tham lam, mơ luyện kim, tối ưu hoá mở rộng thuật toán tiến hố 1.3.2.3 Nhóm thuật tốn phát cộng đồng dựa vào độ đo trung tâm trung gian Dựa ý tưởng phương pháp phát cộng đồng dựa vào độ đo trung tâm trung gian, nghiên cứu sinh nhận thấy đồ thị mạng xã hội có nhiều đỉnh tương đương với theo cấu trúc có độ đo trung tâm trung gian, chúng tạo thành lớp tương đương kết hợp chúng lại với thành đỉnh đại diện cho lớp đỉnh Do giảm thiểu đáng kể số đỉnh cạnh đồ thị mạng xã hội ban đầu, giảm thiểu chi phí tính tốn mà lại không ảnh hưởng đến cấu trúc đồ thị mạng xã hội ban đầu Vì chương luận án nghiên cứu sinh đề xuất thuật toán rút gọn đồ thị mạng xã hội dựa vào độ đo trung tâm trung gian nhằm cải tiến thời gian tính tốn độ đo trung tâm trung gian áp dụng để phát nhanh hiệu cộng đồng mạng xã hội 1.3.2.4 Nhóm thuật tốn phát cộng đồng dựa lan truyền nhãn Trên đồ thị mạng xã hội có nhiều đỉnh có nhãn giống với nhãn (trong cấu trúc cộng đồng) số đỉnh lân cận, nhãn chúng cập nhật lại theo đỉnh suốt q trình lan truyền nhãn Những đỉnh tương đương với theo cấu trúc, có nhãn bước lan truyền nhãn, tạo thành lớp tương đương vậy, kết hợp chúng với thành đỉnh đại diện cho lớp đỉnh nhằm giảm thiểu đáng kể số đỉnh số cạnh đồ thị mạng xã hội ban đầu mà không ảnh hưởng đến cấu trúc đồ thị mạng xã hội ban đầu Vì vậy, chương luận án đề xuất phát triển thuật toán rút gọn đồ thị mạng xã hội dựa vào nguyên lý lan truyền nhãn áp dụng để phát triển thuật toán phát nhanh hiệu cộng đồng mạng xã hội 1.4 Bài toán rút gọn đồ thị Bài toán rút gọn đồ thị nhằm giảm thiểu khơng gian, thời gian tính tốn đồ thị lớn, phức tạp hướng nghiên cứu quan trọng nhiều người nghiên cứu ứng dụng nhiều lĩnh vực khác hệ thống quản lý luồng công việc, xử lý ảnh, mạng ngữ nghĩa, xử lý ngôn ngữ tự nhiên, phát mẫu, phân tích mạng xã hội [7], [58], [61], [90], [100], [103] 1.4.1 Sự cần thiết phải rút gọn đồ thị mạng xã hội Rút gọn đồ thị mạng xã hội toán quan trọng lĩnh vực phân tích liệu Mục tiêu tốn rút gọn đồ thị mạng xã hội giảm thiểu chi phí, thời gian tính tốn mà khơng làm giảm chất lượng giải pháp sửa đổi cấu trúc đồ thị mạng xã hội ban đầu Rút gọn đồ thị giải pháp hữu hiệu để tăng tốc thuật toán thực thi đồ thị đồng thời giảm kích thước liệu Do tính chất mạng xã hội có cấu trúc tự kích thước lớn không ngừng phát triển theo thời gian, thuật tốn phát cộng đồng nhiều thời gian chưa thực hiệu Một cách tiếp cận để khắc phục nhược điểm phương pháp rút gọn đồ thị mạng xã hội để giảm thiểu thời gian tính tốn Tuy nhiên, việc rút gọn đồ thị mạng xã hội bảo tồn tính chất cộng đồng thách thức lớn tùy thuộc vào cách tiếp cận phương pháp phát cộng đồng mạng xã hội 1.4.2 Các thuật toán rút gọn đồ thị 1.4.2.1 Thuật toán rút gọn đồ thị hệ thống quản lý luồng công việc 1.4.2.2 Thuật tốn rút gọn đồ thị thị giác máy tính 1.4.2.3 Thuật toán rút gọn đồ thị mạng ngữ nghĩa 1.4.2.4 Thuật toán rút gọn đồ thị phát mẫu Các cách tiếp cận rút gọn đồ thị phần lớn phụ thuộc vào đặc tính lĩnh vực ứng dụng Hầu hết khơng có phương pháp rút gọn đồ thị nêu bảo toàn cấu trúc thông tin cộng đồng mạng xã hội Luận án đề xuất hai phương pháp rút gọn đồ thị mạng xã hội (chương 2) áp dụng phát triển hai thuật toán nhanh, hiệu phát cộng đồng đồ thị rút gọn mà bảo tồn tính chất cộng đồng mạng xã hội ban đầu (chương 3) 1.5 Độ đo đánh giá thuật toán phát cộng đồng mạng xã hội Mục tiêu rút gọn đồ thị mạng xã hội áp dụng để cải tiến thuật toán phát cộng đồng mạng xã hội Vì vậy, cần đánh giá tính hiệu thuật tốn phát cộng đồng thông qua độ đo [71] 1.5.1 Độ đo đơn thể mô đun Q Độ đo đơn thể mô đun Q đề xuất Girvan - Newman [22], [78] sử dụng để đo lường mức độ phân chia cộng đồng toàn mạng 1.5.2 Độ đo F-measure Độ đo F-measure độ đo dựa độ tương tự cặp [41], [112], [114] Độ đo sử dụng từ lâu công việc phân cụm liệu, xử lý ngôn ngữ tự nhiên, truy xuất thông tin học máy 1.5.3 Độ đo NMI dựa lý thuyết thông tin Các độ đo dựa lý thuyết thông tin đưa cách tiếp cận khác để kiểm chứng chất lượng cộng đồng với phân vùng tham chiếu định Độ đo dựa lý thuyết thông tin thường sử dụng độ đo thông tin tương hỗ chuẩn NMI (Normal Mutual Information) [96] Luận án sử dụng độ đo: Độ đo đơn thể mô đun Q, đo đo F-measure độ đo NMI để đánh giá tính hiệu thuật tốn phát cộng đồng mạng xã hội khơng độ đo đánh giá phổ biến, thông dụng, hữu hiệu sử dụng thường xuyên để đánh giá hiệu quả, chất lượng phát cộng đồng mạng xã hội [64], [88], [112], [113], [114] 1.6 Độ đo đánh giá thuật toán rút gọn đồ thị Luận án thực tính tỷ lệ rút gọn đồ thị Compression (VN) thuật toán đề xuất, từ việc phân tích hiệu suất rút gọn đồ thị cho thấy hiệu thuật toán rút gọn đồ thị mạng xã hội đề xuất 1.7 Kết luận chương Chương trình bày số khái niệm sở phân tích mạng xã hội phương pháp phát cộng đồng mạng xã hội Phân tích mạng xã hội tập hợp phương pháp phân tích khái niệm, sử dụng lý thuyết đồ thị để mơ tả phân tích mối quan hệ tác nhân (thực thể) mạng, xác nhận qui luật hình thành biến chuyển mối quan hệ đó, làm sáng tỏ ảnh hưởng mối quan hệ xã hội (hay cấu trúc mạng) hành vi tác nhân Để xác định vai trò mối quan hệ tác nhân người ta sử dụng độ đo trung tâm, độ đo trung tâm trung gian đỉnh, cạnh đồ thị mạng xã hội Bài toán phát cộng đồng mạng xã hội nội dung phân tích mạng xã hội nhiều quan tâm, nghiên cứu nhà khoa học nước giới Chương giới thiệu nhóm thuật tốn phát cộng đồng mạng xã hội: thuật toán phân cụm truyền thống, thuật tốn dựa vào đơn thể hóa, thuật tốn dựa vào độ đo trung tâm trung gian thuật tốn lan truyền nhãn Do tính chất mạng xã hội có cấu trúc tự kích thước lớn khơng ngừng phát triển theo thời gian, tốn phân tích mạng xã hội, phát cộng đồng nhiều thời gian không thực hiệu Một cách tiếp cận để khắc phục nhược điểm phương pháp rút gọn đồ thị để giảm thiểu thời gian tính tốn cần thiết Chương phân tích phương pháp rút gọn đồ thị ứng dụng nhiều lĩnh vực khác Tuy nhiên, phương pháp rút gọn đồ thị truyền thống khơng bảo tồn thông tin cấu trúc cộng đồng đồ thị mạng xã hội gốc, nên áp dụng cho toán phát cộng đồng Các chương sau đề xuất phương pháp rút gọn đồ thị mạng xã hội dựa vào độ đo trung tâm trung gian nguyên lý lan truyền nhãn, áp dụng để phát triển thuật toán nhanh phát cộng đồng mạng xã hội CHƯƠNG THUẬT TOÁN RÚT GỌN ĐỒ THỊ MẠNG XÃ HỘI DỰA VÀO ĐỘ ĐO TRUNG TÂM TRUNG GIAN VÀ NGUYÊN LÝ LAN TRUYỀN NHÃN 2.1 Giới thiệu Hầu hết phương pháp phát cộng đồng mạng xã hội tập trung vào việc nghiên cứu mối liên kết thực thể để xác định cộng đồng Mạng xã hội phong phú, đa dạng, có thành phần tham gia lớn phát triển, mở rộng theo thời gian Vì thuật tốn phát cộng đồng đồ thị mạng xã hội nhiều thời gian tính tốn hiệu Một hướng nghiên cứu để giảm độ phức tạp tính tốn hướng rút gọn đồ thị Nhược điểm chung hầu hết phương pháp rút gọn đồ thị truyền thống khơng bảo tồn thuộc tính cấu trúc đồ thị ban đầu, khơng bảo tồn chất lượng cộng đồng thường có yêu cầu thơng tin dự đốn ban đầu Trong chương này, luận án tập trung nghiên cứu tính chất đỉnh tương đương dựa vào độ đo trung tâm trung gian nguyên lý lan truyền nhãn từ đề xuất thuật tốn kết hợp lớp đỉnh tương đương theo độ đo trung tâm trung gian nguyên lý lan truyền nhãn để rút gọn đồ thị bảo toàn chất lượng cộng đồng áp dụng rút gọn đồ thị để phát triển thuật toán phát cộng đồng đồ thị mạng xã hội dựa vào độ đo trung tâm trung gian nguyên lý lan truyền nhãn Các kết chương cơng bố cơng trình [CT1], [CT3], [CT4] Dựa ý tưởng phương pháp phát cộng đồng dựa vào độ đo trung tâm trung gian, nghiên cứu sinh nhận thấy đồ thị mạng xã hội có nhiều đỉnh tương đương với theo cấu trúc có độ đo trung tâm trung gian, chúng tạo thành lớp tương đương kết hợp chúng lại với thành đỉnh đại diện cho lớp đỉnh Do giảm thiểu đáng kể số đỉnh cạnh đồ thị mạng xã hội ban đầu, giảm thiểu chi phí tính tốn mà lại khơng ảnh hưởng đến cấu trúc đồ thị mạng xã hội ban đầu 2.2 Các tính chất độ đo trung tâm trung gian đồ thị mạng xã hội Độ đo trung tâm trung gian giới thiệu Chương 1, phần nghiên cứu số tính chất tương đương theo độ đo trung tâm trung gian đỉnh đồ thị Từ đó, thuật tốn kết hợp lớp đỉnh tương đương theo độ đo trung tâm trung gian đồ thị để thực rút gọn đồ thị mạng xã hội đề xuất Giả thiết mạng xã hội biểu diễn đồ thị đơn liên thơng G = (V, E), V tập đỉnh, E tập cạnh Ký hiệu σst số đường ngắn từ s tới t, σst(v) số đường ngắn từ s tới t có qua v Khi độ đo trung tâm trung gian đỉnh v, ký hiệu CB(v) [84] tính sau: CB(v) = ∑/1%1$ 𝜎/% (𝑣) /𝜎/% (2.1) Độ đo trung tâm trung gian cạnh e, ký hiệu CB(e) [84], định nghĩa sau: CB(e) = ∑/1% 𝜎/% (𝑒) /𝜎/% (2.2) Với hai đỉnh s, t Ỵ V, cạnh e Ỵ E dst(e) số đường ngắn từ đỉnh s tới đỉnh t qua cạnh e Độ đo trung tâm trung gian đỉnh v tính thơng qua cơng thức tính độ đo trung tâm trung gian cạnh e 𝐶< (𝑣) = = ∑?∈@(A) 𝐶< (e) − (𝑛 − 1) (2.3) Trong đó, Γ(v) tập cạnh kề với v n số đỉnh thành phần chứa v Trên đồ thị mạng xã hội có nhiều đỉnh tương đương với theo cấu trúc dựa vào độ đo trung tâm trung gian, chúng tạo thành lớp tương đương kết hợp chúng với thành đỉnh đại diện cho lớp có độ đo trung tâm trung gian, nhằm giảm thiểu đáng kể số đỉnh cạnh đồ thị 2.2.1 Các lớp đỉnh treo tương đương Mục giới thiệu số tính chất, hệ đỉnh treo tương đương làm sở để thực thuật toán kết hợp lớp đỉnh treo tương đương, có độ đo trung tâm trung gian thành đỉnh đại diện nhằm giảm thiểu khơng gian tính tốn đồ thị mạng xã hội Các tính chất sau khẳng định độ đo trung tâm trung gian đỉnh đồ thị rút gọn độ đo trung tâm trung gian đỉnh đồ thị ban đầu Định nghĩa 2.1 Đỉnh v ∈ V đồ thị G = (V, E) đỉnh treo (leaf vertex) [84] bậc v 1, kí hiệu deg(v) = Tính chất 2.1 Nếu v đỉnh treo đồ thị G e = (v, w) ∈ E thì: (i) CB(v) = (2.4) (ii) CB(e) = (|V| - 1) (2.5) Định nghĩa 2.2 Cho trước đồ thị vô hướng liên thông G = (V, E) với u, w Ỵ V hai đỉnh treo, u tương đương bậc với w, ký hiệu u »1 w chúng liền kề với v (N(u) = N(w) = {v}), N(u) tập đỉnh lân cận u [83] Nhiệm vụ tính độ đo trung tâm trung gian đỉnh đồ thị, nên việc kết hợp đỉnh tương đương với (về độ đo trung tâm trung gian) thành đỉnh đại diện cho lớp có số phần tử lớn 2, làm giảm đáng kể đỉnh cần tính độ đo trung tâm trung gian Sau kết hợp tất đỉnh tương đương lớp Ci, | Ci | ³ 2, i = k, thành đỉnh đại diện C’i (cũng đỉnh treo), ta nhận đồ thị G1 = (V1, E1), đó: dst(u) = dst(v), với s ≠ v, u ≠ t Ỵ V (2.20) Tính chất 2.11 Nếu u, v hai đỉnh đồng (u »3 v) đồ thị G, thì: dst(e1) = dst(e2), với s ≠ v, u ≠ t Ỵ V, với wỴN(u) = N(v), e1= (u, w), e2 = (v, w) (2.21) Tính chất 2.12 Giả sử G3 đồ thị rút gọn đồ thị G sau kết hợp đỉnh đồng lớp Di thành đỉnh đại diện D’i, i = 1…l Ta có tính chất sau: (i) δD'it(v) = |Di| * δut, N(D’i), i =1 l, u = v, t Ï {u, D’1, D’2, …, D’l} (2.22) (ii) δD'it (v) = |Di| * δut(v), N(D’i), i =1 l, u ≠ v, t Ï {u, D’1, D’2, …, D’l} (2.23) (iii) δsD'i (v) = |Di|*δsw, wỴ N(D’i), i = l, w = v, s Ï {v, D’1, D’2, …, D’l} (2.24) (iv) δsD'i (v) = |Di|*δsw(v), wỴ N(D’i), i =1 l, v ≠ w, s Ï {w, D’1, D’2, …, D’l} (2.25) (v) δD'iD'j(v)=|Di|*|Dj|*δuw(v), N(D’i), wỴN(D’j), i, j =1 l, vÏ{u,w,D’i,D’j} (2.26) 2.3 Thuật toán rút gọn đồ thị dựa vào độ đo trung tâm trung gian Dựa tính chất đỉnh tương đương theo độ đo trung tâm trung gian trình bày Mục 2.1, Mục trình bày đề xuất thuật toán REG (Reduce Equivalance Graph) thực kết hợp đỉnh tương đương theo độ đo trung tâm trung gian đồ thị thành đỉnh đại diện Công việc rút gọn đồ thị khác với rút gọn đồ thị thông thường chỗ rút gọn lớp đỉnh tương đương theo độ đo trung tâm trung gian khơng làm thay đổi tính chất đồ thị ban đầu bảo toàn giá trị độ đo trung tâm trung gian Như thuật toán REG thực kết hợp lớp đỉnh tương đương theo độ đo trung tâm trung gian đồ thị, giảm thiểu số đỉnh số cạnh đồ thị mạng xã hội Qua làm tăng hiệu quả, rút gọn thời gian tính tốn thuật tốn tính độ đo trung tâm trung gian đồ thị Đồng thời giúp tăng hiệu nhóm thuật tốn phân tích, phát cấu trúc cộng đồng đồ thị mạng xã hội sử dụng độ đo trung tâm trung gian Thuật toán REG (Reduce Equivalance Graph) Input: Đồ thị mạng xã hội G = (V, E) Output: Đồ thị mạng xã hội G2 = (𝑉= , 𝐸=) đồ thị thu sau thực thuật toán rút gọn lớp đỉnh treo đỉnh sườn tương đương độ đo trung tâm trung gian đồ thị mạng xã hội Bước Tìm tất đỉnh treo đỉnh sườn đồ thị Bước Tìm lớp tương đương đỉnh treo đỉnh sườn đồ thị Bước Kết hợp lớp tương đương đỉnh treo thành đỉnh treo đại diện kết hợp lớp đỉnh sườn thành đỉnh sườn đại diện (Dựa vào (*) (**)) Độ phức tạp thuật toán REG Thuật toán REG (G) thực qua ba bước Bước Có độ phức tạp tính tốn O(n * (𝑑8 + 𝑑=)), với n = |V| 𝑑8 độ phức tạp tính tốn thủ tục Neighbor (G, u) 𝑑= độ phức tạp tính tốn thủ tục Clique (G, N) Bước Duyệt cặp (đỉnh, tập đỉnh lân cận) lấy từ S để tìm lớp tương đương có độ phức tạp tính tốn O(n * k), với k bậc đỉnh đồ thị Bước Rút gọn h lớp tương đương nên có độ phức tạp tính tốn O(h * k), thông thường h

Ngày đăng: 10/08/2021, 17:19

Tài liệu cùng người dùng

Tài liệu liên quan