MỘT SỐ PHƯƠNG PHÁP HIỆU QUẢ PHÁT HIỆN VÀ NGĂN CHẶN LAN TRUYỀN THÔNG TIN SAI LỆCH TRÊN MẠNG XÃ HỘI TÓM TẮT LUẬN ÁN TIẾN SĨ

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ - PHẠM VĂN DŨNG MỘT SỐ PHƯƠNG PHÁP HIỆU QUẢ PHÁT HIỆN VÀ NGĂN CHẶN LAN TRUYỀN THÔNG TIN SAI LỆCH TRÊN MẠNG XÃ HỘI Chuyên ngành: Hệ thống thông tin Mã sỗ: 48 01 04 TÓM TẮT LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH Hà Nội – Năm 2022 Cơng trình hồn thành tại: Học viện Khoa học Công nghệ Viện Hàn lâm Khoa học Công nghệ Việt Nam Người hướng dẫn khoa học: PGS.TS Nguyễn Việt Anh Phản biện 1: ………………….… Phản biện 2:…………………… Phản biện 3: …………………… Luận án bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Học viện, họp Học viện Khoa học Công nghệ - Viện Hàn lâm Khoa học Công nghệ Việt Nam vào hồi … …’, ngày … tháng … năm 2022 Có thể tìm hiểu luận án tại: - Thư viện Học viện Khoa học Công nghệ - Thư viện Quốc gia Việt Nam MỞ ĐẦU Tính cấp thiết luận án - Về mặt thực tiễn: Với số lượng người dùng lớn, mạng xã hội (Social Network – SN) mang lại nhiều lợi ích thiết thực với người dùng, nhiên cho phép lan truyền nhanh chóng tin giả mạo, tin đồn, tin trái chiều, vv gọi chung Thông tin sai lệch (Misinformation -MI) gây xáo trộn trị, ảnh hưởng kinh tế gây hoang mang dư luận Vì cần nghiên cứu để đưa giải pháp hiệu nhằm ngăn chặn đến mức thấp MI lan truyền SN - Về mặt khoa học: Phát ngăn chặn lan truyền thơng tin sai lệch tốn thuộc nhóm tốn Lan truyền thơng tin (Spead Information - SI) Để nghiên cứu toán này, cần kết hợp nhiều phương pháp, kỹ thuật từ nhiều lĩnh vực khác nhau, như: khai phá liệu, máy học, học sâu, tính tốn đồ thị, tối ưu, vv Bên cạnh đó, SN thường có kích thước lớn liên tục biến động cần phải có phương pháp vừa mạnh mẽ (robust) vừa phải hiệu mặt thời gian nhớ Mặc dù có nhiều nghiên cứu, tốn nhiều thách thức cần nghiên cứu giải Mục tiêu nghiên cứu luận án a Nghiên cứu đề xuất số giải pháp hiệu giải toán Phát nguồn phát tán thông tin sai lệch mạng xã hội với ngân sách tối thiểu b Nghiên cứu đề xuất mơ giải pháp giải tốn Ngăn chặn lan truyền thông tin sai lệch nhiều chủ đề mạng xã hội có ràng buộc ngân sách Các nội dung nghiên cứu luận án Chương 1: Tổng quan toán phát ngăn chặn lan truyền thông tin sai lệch mạng xã hội Trong chương này, luận án giới thiệu lịch sử hình thành, thành phần bản, số đặc trưng lợi ích tác hại SN; Giới thiệu mô hình số tốn SI phổ biến; Một số khái niệm lý thuyết đồ thị, tối ưu tổ hợp, phân lớp toán số phương pháp giải toán tối ưu tổ hợp NP-khó Chương 2: Phát nguồn phát tán thơng tin sai lệch mạng xã hội với ngân sách tối thiểu Trong chương này, luận án đề xuất toán MBD (Minimum Budget for Misinformation Detection) Mục tiêu đặt tìm tập người dùng 𝐴 nhỏ để đặt máy giám sát, cho xác suất phát nguồn phát tán MI đạt ngưỡng 𝛾 cho trước với xác suất cao Để giải tốn này, mơ hình: luận án nghiên cứu bái tốn MBD mơ hình IC đưa số kết lý thuyết độ khó tốn mơ hình Về giải pháp, luận án chứng minh tính hàm mục tiêu có tính chất submodular, dựa tính chất đề xuất thuật tốn tham lam (GA) cho tỷ lệ xấp xỉ (1 + ln(𝛾/𝜖)), với tham số đầu vào 𝜖 ∈ (0, 1) đề xuất 02 thuật toán khác bao gồm thuật toán phát dựa tập mẫu phát (SMD) thuật toán phát dựa tập mẫu phát quan trọng (ISMD) cho toán Về thực nghiệm, thực 05 liệu SN thực có quy mơ từ hàng nghìn đến hàng trăm nghìn nút, kết cho thấy thuật tốn đề xuất vượt trội số thuật toán khác tiêu chí: Hiệu suất thuật tốn, thời gian thực hiện, sử dụng số lượng mẫu sử dụng nhớ Chương 3: Ngăn chặn lan truyền thông tin sai lệch nhiều chủ đề mạng xã hội có ràng buộc ngân sách Trong chương này, luận án đề xuất toán MBMT (Misinformation Blocking with Multiple Topics) Mục tiêu đặt cho toán tìm tập người dùng 𝐴 để loại bỏ khỏi mạng cho ngăn chặn hiệu lan truyền MI thuộc nhiều chủ đề (lĩnh vực) khác SN Để giải tốn này, mơ hình, luận án đề xuất 01 biến thể mô hình LT gọi mơ hình Ngưỡng tuyến tính nhiều chủ đề (MTLT) đưa số kết lý thuyết độ khó tốn mơ hình này; Về giải pháp, luận án chứng minh tính hàm đo độ giảm ảnh hưởng (hàm mục tiêu) loại bỏ tập 𝐴 có tính chất submodular, dựa tính chất đề xuất 01 thuật tốn xấp xỉ gọi thuật toán Tham lam cải tiến (IGA) đạt tỷ lệ xấp xỉ (1 − 1/√𝑒) để xuất 01 thuật toán heuristic gọi thuật toán Tham lam mở rộng (GEA) sử dụng cấu trúc để cập nhật nhanh hàm mục tiêu Về thực nghiệm, thực 03 liệu SN thực có quy mơ từ hàng nghìn đến hàng chục nghìn người dùng, kết cho thấy thuật toán đề xuất vượt trội thuật toán khác hiệu suất khả mở rộng CHƯƠNG I TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN VÀ NGĂN CHẶN LAN TRUYỀN THÔNG TIN SAI LỆCH TRÊN MẠNG XÃ HỘI 1.1 Giới thiệu mạng xã hội Khái niệm “mạng xã hội” lần đầu đề cập sử dụng Barnes từ năm 1954 Từ đến nay, có hàng trăm nghìn SN xây dựng, với hàng tỷ người dùng khắp giới Mỗi mạng có cấu trúc mục đích riêng, chúng có 04 thành phần bản, là: Người dùng, liên kết người dùng, thông tin lan truyền mạng tương tác người dùng với Ngoài ra, SN cịn có 04 đặc trưng chung, là: Đặc trưng giới nhỏ, đặc trưng tập nhân, đặc trưng cấu trúc cộng đồng đặc trưng phân bố lũy thừa Với số lượng người dùng lớn, SN mang lại nhiều lợi ích thiết thực người, như: tạo lập mối quan hệ, kinh doanh trực tuyến, quảng bá sản phẩm, Bên cạnh đó, cho phép lan truyền nhanh chóng thơng tin sai lệch, gây thiệt hại đáng kể đời sống người Để SN ngày hữu ích với cộng đồng, cần tìm giải pháp hiệu để phát huy lợi ích hạn chế tác hại SN mang lại 1.2 Mơ hình hóa lan truyền thơng tin mạng xã hội Mơ hình hóa SI SN đóng vai trò quan trọng việc giải tốn SI Giúp nhà nghiên cứu có nhìn tổng quan ngắn gọn SN Để từ đưa giải pháp hiệu giải tốn mơ hình bước áp dụng vào thực tiễn Có 02 dạng mơ hình sử dụng phổ biến, lan truyền rời rạc lan truyền liên tục Trong đó, mơ hình lan truyền rời rạc sử dụng rộng rãi nghiên cứu Điển hình mơ hình Ngưỡng tuyến tính LT (Linear Threshold) Bậc độc lập IC (Independent Cascade), xem mơ hình lan truyền rời rạc (2003) mơ hình sử dụng luận án 1.2.1 Mơ hình Ngưỡng tuyến tính (LT) Một SN biểu diễn đồ thị 𝐺(𝑉, 𝐸), cạnh có trọng số 𝑤(𝑢, 𝑣) ∈ [0,1] thỏa mãn điều kiện ∑𝑢∈𝑁𝑖𝑛 (𝑣) 𝑤(𝑢, 𝑣) ≤ 𝑁𝑖𝑛 (𝑢), 𝑁𝑜𝑢𝑡 (𝑢) tập nút vào tập nút 𝑢 Mỗi nút có trạng thái kích hoạt khơng kích hoạt có ngưỡng kích hoạt 𝛾𝑣 ∈ [0,1] Gọi 𝑆 tập nguồn, tập phát tán thông tin, 𝑆 𝑡 tập nút bị kích hoạt 𝑆 thời điểm 𝑡 Khi 𝑡 = 0, nút tập 𝑆 có trạng thái kích hoạt; Khi 𝑡 ≥ 1, nút 𝑣 bị kích hoạt nếu: ∑𝑢∈𝑆 𝑡−1 ∩𝑁𝑖𝑛 (𝑣) 𝑤(𝑢, 𝑣) ≥ 𝛾𝑣 Quá trình lan truyền kết thúc sau bước khơng có nút kích hoạt thêm 1.2.2 Mơ hình Bậc độc lập (IC) Khác với mơ hình LT, mơ hình IC, cạnh gán xác suất ảnh hưởng 𝑝(𝑢, 𝑣) ∈ [0, 1] Gọi 𝑆 𝑡 tập nút bị kích hoạt 𝑆 thời điểm 𝑡 Khi 𝑡 = 0, nút tập nguồn 𝑆 có trạng thái kích hoạt Tại thời điểm 𝑡 ≥ 1, nút 𝑢 ∈ 𝑆 có hội kích hoạt đến nút 𝑣 ∈ 𝑁𝑜𝑢𝑡 (𝑢) với xác suất thành cơng 𝑝(𝑢, 𝑣) Q trình lan truyền kết thúc hai bước khơng có nút bị kích hoạt thêm Gọi 𝒟(𝐺, 𝑆) la hàm ảnh hưởng mơ hình LT, IC, giá trị kỳ vọng số nút bị kích hoạt kết thúc lan truyền Tính hàm 𝒟(𝐺, 𝑆) D Kemp chứng minh #P-khó, để giải vấn đề họ đề xuất mơ hình cạnh trực tuyến LE (Live Edge) chứng minh tương đương với LT IC, cụ thể sau: - Mơ hình LE tương đương mơ hình LT: Là đồ thị 𝑔 sinh ngẫu nhiên sau: Mỗi nút 𝑣 ∈ 𝑉, chọn nhiều cạnh đến (𝑢, 𝑣), 𝑢 ∈ 𝑁𝑖𝑛 (𝑣) với xác suất chọn cạnh 𝑝(𝑣, 𝑔, 𝐺) = 𝑤(𝑢, 𝑣) (𝑢, 𝑣) chọn 𝑝(𝑣, 𝑔, 𝐺) = (1 − ∑𝑢∈𝑁𝑖𝑛 (𝑣) 𝑤(𝑢, 𝑣)) (𝑢, 𝑣) không chọn Xác suất chọn đồ thị 𝑔~𝐺 là: Pr(𝑔~𝐺) = ∏𝑣∈𝑉 𝑝(𝑣, 𝑔, 𝐺) Gọi tập nút bị kích hoạt thời điểm 𝑡 là: 𝑄𝑡 (𝑔, 𝑆) = {𝑢|𝑑𝑔 (𝑆, 𝑢) ≤ 𝑡}, 𝑑𝑔 (𝑆, 𝑢) khoảng cách từ tập nguồn 𝑆 đến 𝑢 đồ thị 𝑔, 𝑡 ≤ 𝑛 − nên 𝑄(𝑔, 𝑆) = 𝑄𝑛−1 (𝑔, 𝑆) Hàm ảnh hưởng xác định là: 𝒟(𝐺, 𝑆) = ∑𝑔~𝐺 Pr(𝑔~𝐺)|𝑄(𝑔, 𝑆)| - Mơ hình LE tương đương mơ hình IC: Là đồ thị trực tuyến 𝑔 xây dựng ngẫu nhiên theo bước sau: Mỗi cạnh 𝑒 = (𝑢, 𝑣) ∈ 𝐸, ta chọn cạnh 𝑒 vào đồ thị 𝑔 với xác suất thành công 𝑝(𝑒) xác suất không chọn 𝑒 (1 − 𝑝(𝑒)) Gọi 𝐸(𝑔) tập cạnh chọn, xác suất chọn đồ thị trực tuyến 𝑔~𝐺 là: Pr(𝑔~𝐺) = ∏𝑒∈𝐸𝑔,𝑒′∈𝐸\𝐸𝑔 𝑝(𝑒) (1 − p(e′ )) Hàm ảnh hưởng xác định là: 𝒟(𝐺, 𝑆) = ∑𝑔~𝐺 Pr(𝑔~𝐺)|𝑄(𝑔, 𝑆)| 1.3 Phát ngăn chặn lan truyền thông tin sai lệch SN 1.3.1 Thông tin sai lệch (Misinformation – MI) Định nghĩa 1.3: (MI) Thông tin sai lệch SN đăng có chứa nội dung không thật không cho phép cá nhân tổ chức sử hữu thông tin đó, thơng tin thuộc nhiều chủ đề đời sống xã hội Trong đó, Bài đăng dịng trạng thái, viết, video, hình ảnh, âm thanh, vv người dùng đăng lên SN; Chủ đề thông tin hiểu lĩnh vực như: Kinh tế, Chính trị, Thể thao, vv 1.3.2 Phát nguồn phát tán thông tin sai lệch Đây toán xuất phát từ nhu cầu thực tiễn, giả sử biết trước tập người dùng 𝑆 bị nghi ngờ phát tán MI, mục tiêu tốn tìm giải pháp để phát nhiều nút tập 𝑆 nguồn phát tán MI Để làm việc này, chiến lược phổ biến tìm tập 𝐴 để đặt máy giám sát cho phát nhiều số người dùng tập 𝑆 nguồn MI Máy giám sát hiểu chương trình theo dõi phát người dùng phát tán MI Đây tốn NP- khó mơ hình IC LT, tính tốn hàm mục tiêu #P-khó Tuy nhiều nhà khoa học quan tâm nghiên cứu, tốn cịn nhiều vấn đề chưa giải Trong đó, đảm bảo xác suất phát đạt xấp xỉ thách thức cần nghiên cứu giải 1.3.3 Ngăn chặn lan truyền thông tin sai lệch Ngăn chặn lan truyền MI toán xuất phát từ yêu cầu cần có giải pháp để ngăn chặn hiệu ảnh hưởng MI lan truyền SN Giả sử biết trước tập người dùng phát tán MI Bài tốn đặt tìm phải pháp để ngăn chặn đến mức thấp lan truyền MI SN Để làm việc có 02 chiến lược phổ biến, là: - Vơ hiệu hóa người dùng tập liên kết: Là loại bỏ tập người dùng tập liên kết tiêm vắc xin (theo ngôn ngữ dịch tễ) vào tập nút tập cạnh để miễn nhiễm với MI Tuy có nhiều khái niệm khác nhau, chiến lược hiểu rằng: Trên SN có tập người dùng bị lập, MI lan truyền đến trước tập người dùng dừng lại, lan truyền tiếp đến người dùng khác Tập người dùng xem hàng rào chắn, ngăn chặn lan truyền MI - Tẩy nhiễm thông tin: Chọn tập người dùng để phát tán thông tin “tốt” để chống lại ảnh hưởng MI, phương pháp gọi ảnh hưởng cạnh tranh Nghĩa lúc mạng có hai luồng thông tin trái ngược nhau, thông tin “tốt” MI cạnh tranh để lan truyền tiếp bị chặn lại Theo phương pháp này, xác suất ảnh hưởng thông tin “tốt” thường ưu tiên nghiên cứu Như vậy, toán quy vấn đề tối ưu chọn tập người dùng 𝐴 để loại bỏ để phát tán thông tin “tốt” Đây tốn tối ưu tổ hợp NP-khó tính tốn hàm mục tiêu #P-khó có 01 nút nguồn MI tập 𝐴 có nút Đã có nhiều cơng trình cơng bố, nhiên vấn đề ngăn chặn lúc MI thuộc nhiều chủ đề khác thách thức chưa giải 1.4 Một số khái niệm sử dụng luận án Như trình bày trên, tốn phát ngăn chặn lan truyền MI thường cho dạng tối ưu tổ hợp NP-khó Vì vậy, luận án nêu lên số khái niệm có liên quan, sau: Định nghĩa 1.2: (Bài toán tối ưu tổ hợp) Mỗi toán TƯTH ứng với ba (𝑆, 𝑓, Ω), 𝑆 tập hữu hạn trạng thái (lời giải tiềm hay phương án), 𝑓 hàm mục tiêu xác định 𝑆, Ω tập ràng buộc Mục tiêu toàn tìm cực đại cực tiểu hàm số 𝑓 tập 𝑆: 𝑚𝑎𝑥(𝑚𝑖𝑛): 𝑓(𝑠): 𝑠 ∈ 𝑆 Mỗi phương án 𝑠 ∈ 𝑆 thỏa mãn ràng buộc Ω gọi phương án (hay lời giải) chấp nhận Mỗi tốn TƯTH tập hữu hạn gồm 𝑛 thành phần 𝐶 = {𝑐1 , , 𝑐𝑛 } cho phương án 𝑠 𝑆 biễu diễn nhờ liên kết thành phần Việc giải tốn TƯTH có kích thước nhỏ dụng thuật toán vét cạn Tuy nhiên, toán SN thường có kích thước lớn, phương pháp phổ biến là: Xấp xỉ, Monte Carlo, Heuristic Chi tiết phương pháp sau: 11 Theo đó, tạo đồ thị mẫu 𝑔 từ đồ thị ban đầu 𝐺, ký hiệu 𝑔 ∼ 𝐺 Với xác suất tạo 𝑔 ∼ 𝐺 là: Pr(𝑔~𝐺) = ∏ 𝑝(𝑒) (1 − 𝑝(𝑒′)) 𝑒∈𝐸(𝑔),𝑒∈𝐸\𝐸(𝑔) Trong 𝐸(𝑔) tập cạnh trực tuyến đồ thị mẫu 𝑔 ∼ 𝐺 Số lượng đồ thị mẫu tạo tối đa 2|𝐸| 2.1.2 Xác định hàm mục tiêu định nghĩa MBD Nếu đặt máy giám sát nút 𝑣, phát MI từ nút kết nối với Xác suất để máy giám sát đặt tập 𝐴 phát 𝑢 nguồn MI là: 𝔻(𝐴, 𝑢) = ∑ Pr(𝑔~𝐺) 𝑅(𝐴, 𝑔, 𝑢) 𝑔~𝐺 1, 𝑛ế𝑢 𝑑𝑔 (𝑢, 𝐴) < +∞ , 0, 𝑛ế𝑢 𝑛𝑔ượ𝑐 𝑙ạ𝑖 𝑑𝑔 (𝑢, 𝐴) = 𝑚𝑖𝑛𝑣∈𝐴 𝑑(𝑢, 𝑣) Gọi 𝜌(𝑢) xác suất phát nút 𝑢 nguồn MI, nên chức phát máy giám sát đặt tập 𝐴, hay gọi hàm mục tiêu toán là: Trong đó, 𝑅(𝐴, 𝑔, 𝑢) = { 𝔻(𝐴) = ∑ 𝜌(𝑢) ∑ Pr(𝑔~𝐺) 𝑅(𝐴, 𝑔, 𝑢) 𝑢∈𝑆 𝑔~𝐺 Trên mơ hình IC, tốn MBD định nghĩa sau: Định nghĩa 2.1: (MBD) Một SN cho đồ thị 𝐺(𝑉, 𝐸) theo mơ hình IC Tập 𝑆 ⊆ 𝑉 tập nút bị nghi ngờ nguồn MI (gọi tập nguồn) nút 𝑢 ∈ 𝑆 có xác suất 𝜌(𝑢) ∈ [0,1] nguồn MI Cho ngưỡng phát MI 𝛾 > Tìm tập nút 𝐴 ⊆ 𝑉 nhỏ để đặt máy giám sát cho hàm phát 𝔻(𝐴) ≥ 𝛾? 2.1.3 Độ khó tốn Khi tất nút có xác suất nguồn MI hàm phát tập 𝐴 tương đương hàm ảnh hưởng lan truyền tập 𝐴 đồ thị ngược lại Tính tốn hàm ảnh hưởng lan truyền chứng 12 minh # P-khó, suy tính tốn hàm phát 𝔻( ) # P-khó Bên cạnh đó, gọi tập 𝐴∗ phương án tối ưu toán MBD thời gian đa thức, luận án rằng, tìm tập 𝐴 có kích thước |𝐴| ≤ |𝐴∗ |(1 − 𝜖) 𝑙𝑛 𝑛 MBD thuộc lớp toán 𝑁𝑃 ∈ 𝐷𝑇𝐼𝑀𝐸 (𝑛𝑂(log log 𝑛) ) 2.2 Đề xuất thuật toán Luận án đề xuất ba thuật toán bao gồm: Greedy; SMD (Sampling-based for Misinformation Detection) ISDM (Important Sampling-based for Misinformation Detection) 2.3.1 Thuật toán GA Thuật toán GA thuật toán sử dụng chiến lược tham lam để xây dựng tập 𝐴 cách thêm nút 𝑣 có mức độ tăng lớn việc giảm hiệu suất phát (min(𝔻(A ∪ {u}), γ) − 𝔻(A)) Quá trình tiếp tục hết ngân sách 𝐵 Thuật toán 2.1: GA - Thuật toán tham lam Input: 𝐺 = (𝑉, 𝐸), tập nguồn 𝑆 ⊆ 𝑉, ngưỡng 𝛾, tham số đầu vào 𝛾 > 0, 𝜖 ∈ (0,1); Output: Tập nút 𝐴 để đặt giám sát; 𝐴 ← ∅; While (𝔻(𝐴) < 𝛾 − 𝜖) 𝑣 ← 𝑎𝑟𝑔𝑚𝑎𝑥𝑢∈𝑉\𝑆 𝛿(𝐴, 𝑢); 𝐴 ← 𝐴 ∪ {𝑣}; Return 𝐴 GA cho tỷ lệ xấp xỉ (1 + 𝑙𝑛 (𝛾/𝜖) với sai số 𝜖 ∈ (0,1) Tuy nhiên áp dụng trực tiếp mạng mà sử dụng mô MC để ước tính giá trị hàm phát 2.3.2 Thuật tốn SMD 13 Ý tưởng thuật tốn tìm tập 𝐴 nhỏ để đặt giám sát, giám sát dựa tập mẫu phát DS (Detection Sampling) để đưa xác suất phát nút nguồn MI, đảm bảo 𝔻(𝐴) ≥ 𝛾 Định nghĩa 2.3: (DS) Một SN cho đồ thị 𝐺(𝑉, 𝐸), theo mơ hình IC, đặt 𝜌(𝑆) = ∑𝑢∈𝑆 𝜌(𝑢) Một mẫu phát ngẫu nhiên 𝑅𝑗 tạo từ 𝐺 theo bước sau: (1) Chọn nút nguồn 𝑢 ∈ 𝑉 với xác suất (𝜌(𝑢))/(𝜌(𝑆)); (2) Tạo đồ thị mẫu 𝑔~𝐺 trả 𝑅𝑗 tập nút 𝑢 đến nút khác Hàm phát xác định là: 𝔻(𝐴) = 𝜌(𝑆) 𝔼[𝑋𝑗 (𝐴)], 𝔼[𝑋𝑗 (𝐴)] kỳ vọng số nút tập A Hàm 𝔻(𝐴) chứng minh đơn điệu submodular Thuật toán 2.3: SMD - Phát thông tin sai lệch dựa tập mẫu phát Input: 𝐺 = (𝑉, 𝐸), 𝑆 ⊆ 𝑉, γ > 0, tham số ϵ, δ ∈ (0, 1) Output: tập nút A để đặt giám sát; 𝐴 ← ∅; 𝑁 ← (2+ 𝜖)𝜌(𝑆) 𝜖 (𝛾−𝜖𝛾) 𝑛 ln(𝛿 ); Tạo tập ℛ chứa 𝑁 mẫu phát DS; While 𝑇𝑟𝑢𝑒 𝑢 ← 𝑎𝑟𝑔𝑚𝑎𝑥𝑣∈𝑉\𝐴 𝛿̂ (𝐴, 𝑣); 𝐴 ← 𝐴 ∪ {𝑢}; ̂ (𝐴) ≥ (𝛾 − 𝜖𝑦) − 𝜖) then if (𝔻 return 𝐴; else 10 𝑖 ← |𝐴| + 1; (2+ 𝜖)𝜌(𝑆) ln((𝑛𝑖) /𝛿); 11 𝑁𝑖 ← 12 13 if (𝑁 < 𝑁𝑖 ) then Tạo thêm (𝑁𝑖 − 𝑁) tập DS cho vào ℛ; 𝜖 (𝛾−𝜖𝛾) 14 14 𝑁 ← 𝑁𝑖 ; 15 𝐴 ← ∅; 16 end; 17 end; 18 end; 19 Return 𝐴 Định lý 2.2 chứng minh, đặt ∝= 𝜖/(𝛾 − 𝛾𝜖), 𝛾 > 0, 𝜖 ∈ (0, 𝛾) thuật toán SMD trả giải pháp 𝐴 thỏa mãn 02 điều kiện: 𝛿 a, Pr[|A|] ≤ + |𝐴∗ | ln (𝛼)] ≥ − 𝑛 ; b, Pr (𝔻(A) ≥ γ 1−2𝜖 ) 1+𝜖 𝛿 ≥ − 𝛿 − 𝑛; 2.3.3 Thuật toán ISMD Thuật toán 5: ISMD - Phát thông tin sai lệch dựa mẫu phát quan trọng Input: 𝐺 = (𝑉, 𝐸), 𝑆 ⊆ 𝑉, 𝛾, tham số 𝜖, 𝛿 ∈ (0,1); Output: Tập nút 𝐴 để đặt giám sát phát nguồn MI; 𝑁 ← 𝑞(2+ 𝜖)𝜌(𝑆) 𝜖 (𝛾−𝜖𝛾) 𝑛 ln(𝛿 ); Tạo tập ℛ chứa 𝑁 mẫu quan trọng IDS; 𝐴 ← ∅; While True ̂ (𝐴 ∪ 𝑣) − 𝔻 ̂ (𝐴); 𝑢 ← 𝑎𝑟𝑔𝑚𝑎𝑥𝑢∈𝑉\𝐴 (𝔻 𝐴 ← 𝐴 ∪ {𝑢}; ̂ (𝐴) ≥ 𝛾 − 𝜖𝛾 − 𝜖 then If 𝔻 return 𝐴; else 10 end 11 𝑖 ← |𝐴| + 1; 𝑞(2+ 𝜖)𝜌(𝑆) 12 𝑁← 13 If 𝑁 < 𝑁𝑖 then 𝜖 (𝛾−𝜖𝛾) ln(𝑛𝑖) /𝛿; 15 14 Tạo thêm 𝑁𝑖 − 𝑁 IDS đưa vào tập ℛ; 15 𝑁 ← 𝑁𝑖 ; 16 𝐴 ← 0; 17 endif; 18 endwhile; 19 Return 𝐴 Thuật toán ISMD phiên cải tiến SMD ISMD sử dụng mẫu phát quan trọng IDS (Important Detection Sampling) Ta thấy rằng, trình tạo tập DS ngẫu nhiên, có số tập DS chứa nút, tập đóng góp khơng đáng kể việc tính tốn hàm phát Do đó, ta xem xét tập DS có chứa nhiều nút, gọi mẫu phát quan trọng (IDS) 2.4 Thực nghiệm đánh giá kết 2.4.1 Thực nghiệm - Dữ liệu thực nghiệm: Thực nghiệm thực 05 liệu SN thực Thuật toán đề xuất so sánh với Random, Degree, PageRank, OPIM Đánh giá kết dựa tiêu chí sau: Hiệu suất thuật toán, thời gian chạy, số lượng mẫu sử dụng nhớ Bảng 4.1: Dữ liệu thực nghiệm Dữ liệu Epinions Amazon DBLP Số nút 75K 262K 655K Số cạnh 508K 1.2M 2.0M Bậc lớn 3079 425 588 Bậc trung bình 6.71 9.4 6.1 Bảng 2.2: Giá trị Ψ ϵ mạng Bộ liệu Email-Eu-Core Wiki-Vote CA-HepPh ρ(S) 249.33 1784.78 3009.29 Ψ 1.0 0.2 0.2 ϵ 0.01 0.01 0.01 16 CA-AstroPh Email-Eu-All 4726.66 171271 04 0.1 0.1 0.1 2.4.2 Đánh giá kết - So sánh hiệu suất thuật toán: Hiệu suất xác định kích thước tập 𝐴 |𝐴| nhỏ thuật toán lớn Với giá trị 𝛹, SMD ISMD tốt OPIM tới 3.9 lần, tốt GA 2.3 lần tốt nhiều lần so với Degree Pagerank Hình 2.1 So sánh kích thước tập nút đặt giám sát - So sánh thời gian chạy thuật toán: SMD, ISMD nhanh OPIM tới 1.5 lần So với Greedy, SMD nhanh 10.2 lần ISMD nhanh 12.4 lần Đối với mạng lớn Email-Eu All, CA-AstroPh, Greedy chạy thời gian giới hạn So sánh riêng SMD ISMD trung bình ISMD nhanh SMD 1.4 lần 17 Hình 2.2 So sánh thời gian chạy thuật toán - So sánh sử dụng nhớ số lượng mẫu: GA, Deegre, Pagerank sử dụng nhớ khơng thay đổi ISMD sử dụng nhớ thấp SMD OPIM Tuy nhiên, khoảng cách SMD ISMD không đáng kể Số lượng mẫu ISMD sử dụng nhỏ tới 5.14 so với SMD nhỏ 8.6 lần so OPIM Hình 2.3 So sánh số lượng mẫu sử dụng CHƯƠNG NGĂN CHẶN LAN TRUYỀN THÔNG TIN SAI LỆCH NHIỀU CHỦ ĐỀ TRÊN MẠNG XÃ HỘI CÓ RÀNG BUỘC VỀ NGÂN SÁCH 18 Từ kết chương 2, cho biết nút phát tán MI Bài tốn đặt tìm giải pháp để ngăn chặn lan truyền MI từ nút biết trước Đã có nhiều nghiên cứu đề xuất, nhiên, vấn đề ngăn chặn thông tin nhiều chủ đề thách thức chưa giải Trong chương này, luận án đề xuất toán Ngăn chặn thông tin sai lệch nhiều chủ đề SN có ràng buộc ngân sách - MBMT Luận án đề xuất mơ hình cho tốn nhiều chủ đề thơng tin, chứng minh độ khó đề xuất 02 thuật toán hiệu cho toán, bao gồm IGA GEA Thực nghiệm thực 03 liệu SN thực 3.1 Phát biểu tốn MBMT 3.1.1 Mơ hình hóa tốn Để mơ hình hóa tốn lan truyền nhiều chủ đề, luận án đề xuất mơ hình Ngưỡng tuyến tính nhiều chủ đề MTLT (Multiple Topics Linear Threshold), biến thể mơ hình LT, chi tiết thể sau: Một SN thỏa mãn mơ hình LT Có 𝑞 chủ đề thông tin, tập 𝑞 nguồn 𝑆 = ⋃𝑖=1 𝑞 𝑆𝑖 , 𝑆𝑖 tập nút nguồn MI chủ đề 𝑖 Mỗi nút 𝑣 nhận nhiều trạng thái tập: 𝑄 = {𝑖𝑛𝑎𝑐𝑡𝑖𝑣𝑒, 𝑎𝑐𝑡𝑖𝑣𝑒_1, 𝑎𝑐𝑡𝑖𝑣𝑒_2, , 𝑎𝑐𝑡𝑖𝑣𝑒_𝑞} Mỗi nút 𝑣 có 𝑞 vecter ngưỡng kích hoạt 𝛾𝑣 = (𝛾𝑣1 , 𝛾𝑣2 , … , 𝛾𝑣 ) vecter ảnh 𝑝 hưởng 𝜃𝑣 = (𝜃𝑣1 , 𝜃𝑣2 , … , 𝜃𝑣 ) đó, 𝛾𝑣𝑖 , 𝜃𝑣𝑖 ngưỡng kích hoạt trọng số ảnh hưởng theo chủ đề Thông tin lan truyền theo bước thời gian rời rạc 𝑡 ∈ 𝑍+ Gọi 𝑆𝑖𝑡 tập nút bị kích hoạt 𝑆𝑖 thời điểm 𝑡 Với 𝑡 = 0, ∀𝑣 ∈ 𝑆𝑖 có trạng thái 𝑎𝑐𝑡𝑖𝑣𝑒_𝑖 Với 𝑡 ≥ 1, nút 𝑣 bị kích hoạt 𝑆𝑖 thỏa mãn: ∑𝑢∈𝑁𝑜𝑢𝑡 (𝑣)∩𝑆𝑡−1 (𝐺,𝑆𝑖) 𝑤(𝑢, 𝑣) 𝜃𝑢𝑖 ≥ 𝛾𝑣𝑖 ; Quá trình lan truyền kết 𝑖 thúc sau bước khơng có nút kích hoạt thêm ... thuật toán đề xuất vượt trội thuật toán khác hiệu suất khả mở rộng CHƯƠNG I TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN VÀ NGĂN CHẶN LAN TRUYỀN THÔNG TIN SAI LỆCH TRÊN MẠNG XÃ HỘI 1.1 Giới thiệu mạng xã hội. .. đề mạng xã hội có ràng buộc ngân sách 2 Các nội dung nghiên cứu luận án Chương 1: Tổng quan toán phát ngăn chặn lan truyền thông tin sai lệch mạng xã hội Trong chương này, luận án giới thiệu... xuất số giải pháp hiệu giải toán Phát nguồn phát tán thông tin sai lệch mạng xã hội với ngân sách tối thiểu b Nghiên cứu đề xuất mơ giải pháp giải tốn Ngăn chặn lan truyền thơng tin sai lệch nhiều

Định dạng
Số trang	27
Dung lượng	1,17 MB