Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 29 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
29
Dung lượng
0,95 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Văn Cảnh MẠNG Xà HỘI VÀ BÀI TOÁN TỐI ƯU TỔ HỢP TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Hà Nội – 2019 Cơng trình hồn thành tại: Trường Đại học Cơng nghệ, Đại học Quốc gia Hà Nội Người hướng dẫn khoa học: GS TS Thái Trà My PGS TS Hoàng Xuân Huấn Phản biện: Phản biện: Phản biện: Luận án bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp vào hồi giờ ngày tháng năm Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam - Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà Nội MỤC LỤC MỞ ĐẦU Chương Tổng quan toán lan truyền thông tin mạng xã hội 1.1 Các mơ hình phát tán thơng tin mạng xã hội 1.1.1 Mơ hình Ngưỡng tuyến tính (LT) 1.1.2 Mơ hình Bậc độc lập (IC) 1.1.3 Mơ hình cạnh trực tuyến (live-edge) 1.2 Một số tốn lan truyền thơng tin MXH 1.2.1 Tối đa ảnh hưởng (IM) 1.2.2 Ngăn chặn ảnh hưởng (IB) 1.2.3 Phát thông tin (ID) Chương Bài toán tối ưu tổ hợp số phương pháp giải toán tối ưu tổ hợp 2.1 Bài toán TƯTH 2.2 Phân loại lớp toán TƯTH 2.3 Một số phương pháp giải toán TƯTH 2.3.1 Thuật toán xấp xỉ 2.3.2 Thuật toán heuristic cấu trúc Chương Ngăn chặn thông tin sai lệch với ràng buộc ngân sách thời gian 3.1 Đặt vấn đề phát biểu toán 3.1.1 Đặt vấn đề 3.1.2 Phát biểu toán 3.2 Độ phức tạp toán 3.3 Các thuật toán cho MMR 3.3.1 Thuật toán xấp xỉ 3.3.2 Thuật toán Heuristic 3.3.3 Thực nghiệm kết 3.3.3.1 Kết thực nghiệm 3.3.4 Ngăn chặn thông tin sai lệch mơ hình ngưỡng tuyến tính xác định 3.3.4.1 Định nghĩa toán độ phức tạp 3.3.4.2 Các thuật toán đề xuất cho MMRD 3.3.4.3 Kết thực nghiệm với MMRD Chương Ngăn chặn thơng tin sai lệch có chủ đích 4.1 Phát biểu toán độ phức tạp toán 4.2 Các thuật tốn đề xuất cho TMB mơ hình LT 4.2.1 Thuật toán tham lam 4.2.2 Thuật toán STMB-LT 4.2.3 Thực nghiệm kết i 3 3 4 4 5 5 5 6 6 7 9 10 10 10 10 11 11 11 11 11 12 4.3 Thuật toán cho TMB mơ hình IC 4.3.1 Thực nghiệm kết Chương Tối đa ảnh hưởng cạnh tranh với ràng buộc thời gian ngân sách 5.1 Phát biểu toán 5.1.1 Mơ hình ảnh hưởng cạnh tranh 5.1.1.1 Bài toán BCIM 5.2 Thuật toán xấp xỉ cho toán BCIM 5.2.1 Thuật toán PBA cho toán cực đại hàm xấp xỉ 5.2.2 Thuật toán xấp xỉ Sandwich cho BCIM 5.3 Thực nghiệm kết 5.3.1 Kết thực nghiệm 5.4 Bài toán tối đa ảnh hưởng cạnh tranh mơ hình cạnh tranh ngưỡng tuyến tính xác định 5.4.1 Mơ hình định nghĩa toán 5.4.2 Các thuật toán cho CIM mơ hình DCLT 5.4.3 Thực nghiệm Chương Phát triển thuật toán xấp xỉ cho tốn Phát thơng tin sai lệch 6.1 Đặt vấn đề phát biểu toán 6.1.1 Phát biểu toán 6.1.2 Mô hình hàm mục tiêu 6.2 Thuật toán đề xuất cho toán GMD 6.2.1 Tính chất ước lượng hàm mục tiêu 6.2.2 Thuật toán SBMD 6.3 Thực nghiệm kết KẾT LUẬN ii 12 13 14 14 14 16 16 16 17 18 18 18 18 19 19 20 20 20 20 21 21 21 23 24 MỞ ĐẦU Các tốn lan truyền thơng tin (information diffusion problem) Mạng xã hội (MXH) quan tâm nghiên cứu thời gian gần xuất phát từ thực tiễn cần có giải pháp hiệu việc quản lý thông tin MXH, bao gồm nhiệm vụ: phát tán thông tin cần thiết, theo dõi, giám sát, ngăn chặn thông tin xấu cách hiệu Việc giải tốn góp phần nâng cao phục vụ, độ tin cậy MXH cộng đồng người dùng Các toán xây dựng dạng tối ưu tổ hợp phân loại thành 03 nhóm tốn quan trọng là: Tối đa hóa ảnh hưởng (Influence Maximization - IM) Bài toán yêu cầu chọn tập hợp nhỏ người dùng (ngân sách giới hạn) để bắt đầu lan truyền thông tin cho số người bị ảnh hưởng thông tin mạng xã hội đạt cực đại Ngăn chặn thông tin (Influence Blocking - IB) Mục tiêu tốn tìm tập người dùng để loại bỏ, cách ly, bắt đầu lan truyền thông tin tốt cho ảnh hưởng thông tin xấu (hoặc thông tin đối lập) đạt giá trị cực tiểu Phát giám sát thông tin (Information Detection - ID): Mục tiêu toán đưa giải pháp nhằm giám sát thông tin MXH cách hiệu Tuy vậy, việc giải áp dụng ba nhóm tốn thực tiễn gặp số thách thức là: Lớp toán thường thuộc lớp toán tối ưu tổ hợp NP-Khó, NP-đầy đủ Thêm vào đó, mơ hình lan truyền thơng tin đề xuất cho lớp tốn lan truyền thơng tin thường mơ hình xác suất nên việc tính tốn hàm mục tiêu thường #P-Khó Do vậy, cần thuật tốn hiệu để tìm lời giải tốt thời gian cho phép Với mở rộng quy mô MXH (hàng triệu, tỷ người dùng), cần có thuật tốn cách tiếp cận hiệu cho toán để nâng cao tính thực tiễn chúng Để nâng cao tính ứng dụng tốn, cần nghiên cứu biến thể phù hợp với thực tế đối theo khía cạnh khác như: thời gian, khoảng cách, chi phí, lợi ích, tính cạnh tranh vv Để nghiên cứu tìm cách giải thách thức đặt ra, tác giả cộng chọn chủ đề nghiên cứu “Mạng xã hội toán tối ưu tổ hợp” với mục tiêu sau: Nghiên cứu tốn IM, IB, ID mơ hình lan truyền thơng tin Qua đề xuất nghiên cứu toán biến thể hai toán có tính ứng dụng thực tiễn Đề xuất thuật toán hiệu để giải tốn trên, đặc biệt trọng tới việc nâng cao chất lượng lời giải áp dụng với mạng cỡ lớn hàng trăm nghìn hàng triệu, tỷ cạnh đỉnh Trong thời gian nghiên cứu, tác giả luận án có đóng góp sau Nghiên cứu tốn Hạn chế tối đa thơng tin sai lệch (Maximizing Misinformation Restriction-MMR) có xem xét ngân sách thời gian hạn chế số mơ hình lan truyền thơng tin Tác giả độ phức tạp toán đề xuất thuật toán hiệu cho toán bao gồm thuật toán xấp xỉ thuật toán heuristic Luận án mở rộng kết MMR mơ hình ngưỡng tuyến tính xác định CLT Trong kịch khác, để hạn chế phát tán thông tin sai lệch đảm bảo số người bị ảnh hưởng thông tin sai lệch lớn ngưỡng xác đinh, tác giả nghiên cứu toán Hạn chế thơng tin sai lệch có chủ đích (Targeted Misinformation Blocking-TMB) Ngồi việc độ khó tốn mơ hình lan truyền thơng tin phổ biến, tác giả đề xuất thuật toán hiệu tốn hai mơ hình phổ biến Đề xuất nghiên cứu toán Tối đa ảnh hưởng cạnh tranh tổng quát (Budgeted Competitive Influence Maximization - BCIM) biến thể IM với mục tiêu tối đa hóa ảnh hưởng trường hợp có cạnh tranh số mơ hình lan truyền thông tin cạnh tranh với ngân sách thời gian hạn chế Luận án đề xuất thuật toán xấp xỉ hiệu cho tốn BCIM Ngồi ra, luận án mở rộng nghiên cứu toán BCIM mơ hình Ngưỡng tuyến tính cạnh tranh xác định (TCLT) Phát triển thuật toán hiệu xấp xỉ hiệu cho tốn Phát thơng tin sai lệch tổng quát (GMD) Luận án đề xuất SBMD (Sampling-based for Billion Scale Misinformation Detection) có tỷ lệ xấp xỉ 1−1/e− với xác xuất 1−δ với , δ ∈ (0, 1) Ngoài phần mở đầu kết luận, bố cục luận án chia thành 06 chương sau: Chương trình bày kiến thức chế lan truyền thơng tin MXH tình hình nghiên cứu toán IM, IB, ID Chương trình bày kiến thức tốn tối ưu tổ hợp Chương trình bày kết nghiên cứu toán MMR Chương trình bày kết nghiên cứu tốn TMB Chương trình bày kết nghiên cứu tốn BCIM Chương trình bày kết nghiên cứu thuật tốn SBMD có tỷ lệ xấp xỉ 1−1/e− với xác xuất − δ với , δ ∈ (0, 1) cho toán GMD CHƯƠNG TỔNG QUAN VỀ CÁC BÀI TOÁN LAN TRUYỀN THÔNG TIN TRÊN MẠNG Xà HỘI Sự phát tán, lan truyền thông tin Mạng xã hội (MXH) nhà khoa học biểu diễn lại dạng mơ hình phát tán thơng tin Các tốn lan truyền thơng tin xây dựng dạng toán tối ưu tổ hợp (TƯTH) mơ hình 1.1 Các mơ hình phát tán thông tin mạng xã hội Sự phát tán, khuếch tán trình mà đổi truyền đạt qua kênh định theo thời gian thành viên hệ thống xã hội Có ba yếu tố quan trọng q trình là: thành viên hệ thống xã hội, tương tác lẫn kênh truyền thông Sự phát tán thông tin MXH nhà khoa học nghiên cứu mơ hình lại dạng mơ hình phát tán thơng tin Theo đó, MXH mô tả lại theo thành V tập hợp đỉnh đồ thị biểu diễn tập hợp tất người dùng MXH với số đỉnh |V | = n E tập hợp cạnh đồ thị, biểu diễn liên kết người dùng MXH Ngoài đồ thị G = (V, E), ta dùng ký hiệu Nout (u) Nin (u) tương ứng tập hợp đỉnh hàng xóm vào đỉnh u, dout (u) din (u) tương ứng với bậc vào đỉnh u Trong luận án này, để tiện lợi cách gọi tên ta coi MXH đồ thị 1.1.1 Mơ hình Ngưỡng tuyến tính (LT) Mơ hình trường hợp mơ hình phát tán thơng tin rời rạc Trong mơ hình này, cạnh e = (u, v) ∈ E có trọng số w(u, v) số thực dương biểu diễn cho tần số tương tác, trao đổi hai người dùng Các trọng số thỏa mãn: u∈Nin (v) w(u, v) ≤ Q trình lan truyền thơng tin theo bước rời rạc t = 0, 1, 2, Mỗi đỉnh u có ngưỡng kích hoạt θu chọn ngẫu nhiên khoảng [0, 1] Quá trình phát tán thông tin diễn sau: Tại bước t = 0, tất đỉnh thuộc S bị kích hoạt, tức S0 = S Tại bước t ≥ 1, tất đỉnh u trạng thái khơng kích hoạt bị kích hoạt tổng trọng số cạnh đến với đỉnh đầu kích hoạt bước trước lớn ngưỡng kích hoạt θu , tức là: v∈Nin (u)∩St−1 w(v, u) ≥ θu Khi đỉnh trạng thái kích hoạt, giữ ngun trạng thái Q trình lan truyền kết thúc hai bước khơng có thêm đỉnh bị kích hoạt 1.1.2 Mơ hình Bậc độc lập (IC) Trong mơ hình IC, cạnh (u, v) ∈ E gán xác suất ảnh hưởng (influence probability) p(u, v) ∈ [0, 1] biểu diễn mức độ ảnh hưởng đỉnh u với đỉnh v Trong mô hình đỉnh u bị kích hoạt bước t ≥ có hội để kích hoạt đỉnh hàng xóm chưa kích hoạt bước t + Quá trình lan truyền kết thúc hai bước khơng có thêm đỉnh bị kích hoạt 1.1.3 Mơ hình cạnh trực tuyến (live-edge) Để thuận tiện việc tính tốn hàm mục tiêu thiết kế thuật toán tốn lan truyền thơng tin Mơ hình sinh đồ thị mẫu g từ đồ thị ban đầu Tuy nhiên việc sinh đồ thị mẫu ứng với mơ hình khác Với mơ hình LT Gọi Pr[g ∼ G] xác suất sinh đồ thị mẫu g từ G Ảnh hưởng tập hạt giống S hai mơ hình Pr[g ∼ G]R(g, S) σ(S) = (1.1) g∼G Trong R(g, S) tập đỉnh tới từ S đồ thị g 1.2 Một số toán lan truyền thông tin MXH Trong phần này, luận án trình bày tốn IM, IB ID 1.2.1 Tối đa ảnh hưởng (IM) Bài toán tối đa hóa ảnh hưởng (Influence Maximization-IM) có ý nghĩa lớn hoạt động tiếp thị (marketing) hoạt động kinh doanh MXH Bài toán phát biểu cụ thể sau: Cho MXH G = (V, E) mơ hình phát tán thơng tin M Cho trước số nguyên dương k > (ngân sách), tìm tập hạt giống S ⊆ V, |S| = k cho ảnh hưởng S lớn ? Đây tốn thuộc lớp NP-Khó việc tính tốn hàm ảnh hưởng #P-Khó Về thuật tốn có hai hướng tiếp cận là: thuật tốn xấp xỉ đảm bảo lời giải mặt lý thuyết thuật toán gần dựa theo: đường đi, độ đo mạng, cấu trúc cộng đồng Các toán biến thể IM quan tâm nghiên bao gồm: chi phí lợi ích, chủ đề, khoảng cách, thời gian, địa điểm 1.2.2 Ngăn chặn ảnh hưởng (IB) Ngược lại với IM, tốn IB nhằm mục đích hạn chế phát tán, lan truyền thông tin nguồn tin cho trước Mục tiêu toán nhằm hạn chế phát tán yếu tố xấu MXH, bao gồm: tin xấu, thông tin sai lệch, phát tán virus, tư tưởng cực đoan, vv Các phương pháp hạn chế ảnh hưởng nguồn phát tán cho trước đề xuất bao gồm (1) Loại bỏ tập đỉnh cạnh tiêm vắc-xin (theo ngôn ngữ dịch tễ học) vào tập đỉnh cạnh để miễn nhiễm với ảnh hưởng.(2) Tẩy nhiễm thông tin: chọn tập đỉnh để bắt đầu phát tán ảnh hưởng tích cực để chống lại ảnh hưởng thông tin tiêu cực 1.2.3 Phát thơng tin (ID) Bài tốn nghiên cứu sau hai toán IM IB nhiên vai trị vơ quan trọng việc phân tích, quản lý kịp thời thơng tin xấu MXH Ứng dụng to lớn toán phát thông tin sai lệch, tin giả mạo, tin đồn MXH Mục tiêu tốn tìm tập đỉnh để đặt giám sát cho khả phát thông tin sai lệch lớn CHƯƠNG BÀI TOÁN TỐI ƯU TỔ HỢP VÀ MỘT SỐ PHƯƠNG PHÁP GIẢI CÁC BÀI TỐN TỐI ƯU TỔ HỢP 2.1 Bài tốn TƯTH Mỗi toán TƯTH ứng với ba (S, f, Ω), S tập hữu hạn trạng thái (lời giải tiềm hay phương án), f hàm mục tiêu xác định S , Ω tập ràng buộc Mục tiêu tồn tìm cực đại cực tiểu hàm số f tập S 2.2 Phân loại lớp toán TƯTH Định nghĩa 2.1 Lớp toán P, NP định nghĩa sau P (Polynomial-time): lớp toán giải thuật toán đơn định thời gian đa thức NP (Non-Deterministic Polynomial-time): lớp tất toán giải thuật tốn khơng đơn định thời gian đa thức Định nghĩa 2.2 Lớp toán #P lớp toán xác định hàm f (x) với số đường từ cấu hình ban đầu tới cấu hình chấp nhận máy Turing khơng đơn định thời gian đa thức theo kích cỡ đầu vào x 2.3 Một số phương pháp giải toán TƯTH 2.3.1 Thuật toán xấp xỉ Định nghĩa 2.3 Ta nói thuật tốn xấp xỉ A cho lời giải s ⊆ S có tỷ lệ xấp xỉ (approximation ratio) thuật tốn ρ > thực thời gian đa thức theo kích f (s) ≥ ρ Trong trường hợp cần tìm cỡ thể đầu vào toán thỏa mãn OPT f (s) hàm f cực tiểu (tìm giá trị nhỏ nhất), tỷ lệ tối ưu định nghĩa là: OPT ≤ρ Trong trường hợp tốn tìm cực đại ρ < 1, cịn tốn tìm cực tiểu ρ > Thuật toán tham lam (Greedy Algorithm) thuật tốn phổ biến có tính ứng dụng cao tính đơn giản độ phức tạp thời gian thấp Nếu hàm tham lam thuật tốn tham lam có tính chất submodular việc phân tích tỉ lệ xấp xỉ trở nên đơn giản nhiều Ngoài để ước lượng kỳ vọng biến ngẫu nhiên X không gian mẫu Ω lớn, người ta thường dùng phương pháp để đưa giá trị ước lượng đủ tốt Định nghĩa 2.4 ((δ, )-xấp xỉ) Cho biến ngẫu nhiên X khơng gian mẫu Ω, µ kỳ vọng X Ta nói µˆ (δ, )-xấp xỉ thỏa mãn: Pr[(1 − )ˆ µ ≤ µ ≤ (1 + )ˆ µ] ≥ − δ (2.1) 2.3.2 Thuật toán heuristic cấu trúc Một phương pháp ưa chuộng việc giải toán NP-Khó thuật tốn heuristic Những thuật tốn cho kết gần thời gian chấp nhận CHƯƠNG NGĂN CHẶN THÔNG TIN SAI LỆCH VỚI RÀNG BUỘC VỀ NGÂN SÁCH VÀ THỜI GIAN 3.1 Đặt vấn đề phát biểu toán 3.1.1 Đặt vấn đề Dù nghiên cứu trước giải vấn đề ngặn chặn ảnh hưởng nguồn tin cho trước nhiều trường hợp mơ hình khác Tuy nhiên, số thách thức đặt mà nghiên cứu trước bỏ qua là: Chưa xem xét yếu tố thời gian trình lan truyền Việc ngăn chặn phát tán nguồn tin sớm hậu quả, thiệt hại nhỏ Chưa xem xét chi phí ngăn chặn thơng tin sai lệch Để đảm bảo tính tự ngơn luận cho MXH, loại bỏ nhiều nút việc loại bỏ miễn nhiễm thông tin với đỉnh khác khác nhau, công việc đỉnh cần có chi phí khác Chưa thực việc ngăn chặn mơ hình LT Để giải thách thức trên, luận án đề xuất nghiên cứu toán Ngăn chặn tối đa thông tin sai lệch với ràng buộc ngân sách thời gian (MMR) sau: 3.1.2 Phát biểu toán Trước hết để xử lý ràng buộc thời gian hạn chế (Time contraint Linear Threshold - TLT), chúng tơi đề xuất mơ hình phát tán thơng tin có ràng buộc thời gian dựa việc mở rộng mơ hình truyền thống LT tổng qt Mơ hình ngưỡng tuyến tín ràng buộc thời gian (TLT) Mơ hình xét lan truyền nguồn thơng tin sai lệch có hạn chế thời bước lan truyền Ta tạm thời đồng thời gian lan truyền với bước lan truyền với giả thuyết thời gian lan truyền thông tin từ người dùng tới người dùng khác Cho MXH G = (V, E), mơ hình TLT giống với mơ hình LT nhiên khác số bước lan truyền giới hạn trước số nguyên dương d Cụ thể sau: Q trình lan truyền thơng tin theo bước thời gian rời rạc, với thời gian t = 0, 1, 2, , d Ảnh hưởng S thời gian t là: Pr[g ∼ G]Rd (g, S) σd (S) = (3.1) g∼G Gọi ảnh hưởng S sau loại bỏ A sau thời gian d σt (S, A), ta có Pr[g ∼ G]Rd (g, S) σd (S, A) = g∼G[V \A]) (3.2) CHƯƠNG NGĂN CHẶN THÔNG TIN SAI LỆCH CĨ CHỦ ĐÍCH Một vấn đề phát sinh thực tế mà nghiên cứu trước bỏ qua ta phải loại bỏ đỉnh cạnh (ngân sách) để ngăn chặn đáng kể phát tán TTSL diện rộng? Ví dụ: Cần loại bỏ tài khoản liên kết MXH để số người dùng không bị ảnh hưởng nguồn TTSL 5,000 Điều có ý nghĩa lớn để bảo vệ tin cậy MXH tỷ lệ số đỉnh bị ảnh hưởng TTSL lớn tính xác thơng tin tính đáng tin cậy MXH giảm Thúc đẩy yêu cầu này, nghiên cứu sinh cộng nghiên cứu toán Ngăn chặn TTSL với mục tiêu cho trước (Targeted Misinformation Blocking-TMB) nhằm mục đích tìm tập đỉnh S có số đỉnh nhỏ để loại bỏ khỏi MXH cho ảnh hưởng nguồn thông tin cho trước giảm lượng lớn ngưỡng γ cho trước 4.1 Phát biểu toán độ phức tạp toán Định nghĩa 4.1 (Bài tốn ngăn chặn TTSL có chủ đích-TMB]) • Input: MXH G = (V, E) mơ hình phát tán thông tin M, ngưỡng γ ∈ (0, |V |) • Output: Tìm tập đỉnh A ⊆ V \ S cho h(A) ≥ γ Định lý 4.1 Bài tốn TMB thuộc lớp #P-Khó mơ hình LT trường hợp S đỉnh Định lý 4.2 TMB thuộc lớp NP-Khó mơ hình IC trường hợp G đồ thị khơng có chu trình 4.2 Các thuật tốn đề xuất cho TMB mơ hình LT Trên mơ hình này, hàm mục tiêu chứng minh có tính chất đơn điệu tăng submodular 4.2.1 Thuật toán tham lam Dựa kết định lý việc chứng minh hàm h() đơn điệu tăng submodular, luận án đề xuất thuật tốn tham lam có tỷ lệ xấp xỉ + ln γ 4.2.2 Thuật toán STMB-LT Áp dụng ý tưởng thuật toán tham lam, phương pháp mô Monte Carlo nhu việc cập nhật nhanh giá trị hàm mục tiêu sau vòng lặp, luận án đề xuất thuật tốn có tính thực tiễn khả tìm kiếm lời giải liệu lớn có tên STMB-LT (Scalable Targeted Misinformation Blocking) Thuật tốn STMB-LT có độ phức tạp O(η(m + qn)) 11 Algorithm 3: Thuật toán STMB-LT Input: Graph G = (V, E, w), S = {s1 , s2 , , sq }, γ > Output: set of nodes A A ← ∅; (G , I) ← Merge(G, S) Remove all node, I can’t reach in G η Generate η sample graphs and set η trees L = {TI , TI , , TI } For each TI ∈ L, calculate h(u, TI ) for all u ∈ TI (by using DFS algorithm) for u ∈ V u.δ(u) ← η1 TI ∈L h(u, TI ); u.cur ← Insert element u into Q with u.δ(u) as the key end hmax ← 0; iteration ← 10 while hmax < γ − 11 12 13 14 15 umax ← dequence Q if umax cur = iteration then A ← A ∪ {umax } ; iteration ← iteration + foreach TI ∈ Lc If umax ∈ TI , remove node umax and update h(v, TI ), ∀v ∈ TI 16 end 17 hmax ← hmax + umax δ(umax ) 18 else η 19 umax δ(umax ) ← 20 umax cur = iteration; re-insert umax into Q 21 22 23 TI ∈L h(I, TI ) − TI ∈L h(I, TI \ umax ) end end return A; 4.2.3 Thực nghiệm kết Luận án tiến hành thực nghiệm để so sánh thuật toán đề xuất cho TMB với thuật toán sở Các kết thuật toán STMB-LT cho kết tốt thuật toán, tập đỉnh cần loại bỏ có số lượng ngưỡng γ Hai phiên STMB-LT STMB-LT500 STMB-LT1000 gần cho kết tương tự STMB-LT500 chạy nhanh Greedy đến 203.9 lần STMB-LT1000 chạy nhanh Greedy đến 96.1 lần 4.3 Thuật toán cho TMB mơ hình IC Đặc tính mơ hình IC khác với LT hàm mục tiêu có tính chất khác so với mơ hình LT Cụ thể, hàm mục tiêu mơ hình khơng có tính chất submodular supermodular Do vậy, áp dụng trực tiếp thuật toán tham lam để đạt tỷ 12 |A| |A| 600 400 200 20 40 60 Gamma 80 100 35000 30000 25000 20000 15000 10000 5000 2000 STMB-LT500 STMB-LT1000 Degree PageRank 1500 |A| 800 NetHEPT Brightkite STMB-LT500 STMB-LT1000 Greedy Degree PageRank 3500 STMB-LT500 STMB-LT1000 Greedy Degree PageRank 3000 2500 100 200 300 Gamma 400 500 1500 1000 500 100 Stanford STMB-LT500 Degree PageRank 2000 1000 |A| OregonAS 1000 500 200 300 400 Gamma 500 200 400 600 Gamma 800 1000 Hình 4.1: So sánh chất lượng lời giải thuật toán cho TMB mơ hình LT lệ xấp xỉ Trong mục này, luận án đề xuất thuật toán cho toán TMB mơ hình IC bao gồm: (1) Xây dựng hệ quy hoạch tuyến tính cung cấp cách tiếp cận lý thuyết cho việc tìm lời giải tối ưu tốn Nó áp dụng cơng cụ cho thuật tốn tìm lời giải khác (2) Thuật toán Heuristics STMB-IC Thuật toán dựa việc thay đổi STMB-LT có cải tiến thay đổi để phù hợp với IC 4.3.1 Thực nghiệm kết NetHEPT (IC-WC) DAVA STMB-IC1000 STMB-IC500 Degree 1500 2500 1000 2000 750 1500 |A| |A| 1250 3000 500 1000 250 500 100 200 300 400 Gamma 500 100 Stanford (IC-WC) DAVA STMB-IC500 Degree |A| 1750 200 300 400 Gamma 500 600 400 350 300 250 200 150 100 50 Stanford (IC-UP[0.1]) DAVA STMB-IC500 Degree 400 600 800 1000 1200 1400 1600 1800 Gamma Hình 4.2: So sánh chất lượng lời giải thuật tốn mơ hình IC STMB-IC500 cho kết tương tự với STMB-IC1000 tất trường hợp Nói chung, STMB-IC cho kết tốt thuật toán Trong tất trường hợp, STMB-IC trả tập đỉnh A với số đỉnh nhỏ DAVA Degree Thuật tốn DAVA hoạt động khơng tốt tập liệu Brightkite Stanford mơ hình IC-UP[0.1] Thuật toán STMB-IC500 cho thời gian chạy nhanh tất thuật tốn Trung bình, STMB-IC500 chạy nhanh gấp hai lần so với STMB-IC1000 nhanh gấp 15.7 lần so với DAVA 13 CHƯƠNG TỐI ĐA ẢNH HƯỞNG CẠNH TRANH VỚI RÀNG BUỘC VỀ THỜI GIAN VÀ NGÂN SÁCH Bài toán Tối đa ảnh hưởng cạnh tranh (CIM) quan tâm nghiên cứu thời gian gần tính ứng dụng hoạt động lan truyền tiếp thị sản phẩm MXH Các nghiên tập trung nghiên cứu toán CIM với nhiều mục tiêu khác Tuy nhiên có số hạn chế sau: - Các nghiên cứu thường bỏ qua ràng buộc vê thời gian ngân sách (chi phí khác để bắt đầu q trình lan truyền) việc giải toán - Các thuật toán đề xuất cho trường hợp khả mở rộng hạn chế, chưa áp dụng với mạng cỡ lớn hàng trăm nghìn triệu đỉnh - Việc giải cạnh tranh mơ hình chưa phù hợp với thực trạng cạnh tranh MXH thực Trong chương này, luận án nghiên cứu toán Tối đa ảnh hưởng cạnh tranh với ràng buộc thời gian ngân sách (BCIM) Đây tốn tổng qt CIM có xét đến chi phí chọn người dùng vào tập hạt giống thời gian lan truyền giới hạn Thêm vào đó, việc nghiên cứu BCIM, luận án đề xuất luật TP-PP phản ánh cạnh tranh công lan truyền ảnh hưởng 5.1 Phát biểu toán 5.1.1 Mơ hình ảnh hưởng cạnh tranh Để giải tốn BCIM, trước hết luận án đề xuất mơ hình Ngưỡng tuyến tính cạnh tranh buộc thời gian TCLT việc mở rộng mơ hình CLT có thêm yếu tố bước thời gian Ngoài ra, luận án đề xuất luật tie-breaking để phản ảnh thực tế cạnh tranh tiếp thị sản phẩm MXH Mơ hình hoạt động giống với CLT, thời gian lan truyền đơn giản hóa thành bước lan truyền (mỗi bước lan truyền ứng với đơn vị thời gian) Với bước lan truyền giới hạn τ ≥ 1, trình lan truyền xảy theo bước rời rạc t = 0, 1, , τ sau: - Ở bước t = 0, A0 = SA , B0 = SB - Ở bước t ≥ 1, gán At = At−1 , Bt = Bt−1 Mỗi đỉnh v ∈ / At−1 ∪ Bt−1 chuyển sang trạng thái A-active thỏa mãn: wA (u, v) ≥ θA (v) u∈N− (v)∩At−1 wB (u, v) < θB (v) (5.1) wA (u, v) < θA (v) (5.2) u∈N− (v)∩Bt−1 Đỉnh v chuyển sang B -active wB (u, v) ≥ θB (v) u∈N− (v)∩Bt−1 u∈N− (v)∩At−1 14 - Nếu bước t, đỉnh v có trọng số thỏa mãn tổng ảnh hưởng lớn ngưỡng tương ứng, luận án đề xuất luật tie-breaking với trọng số tỷ lệ (weight proportional probability tie-breaking rule (TB-WPP)) để xác định trạng thái đỉnh v sau: v bị kích hoạt A với xác suất u∈N− (v)∩At−1 pA (v|At−1 , Bt−1 ) = u∈N− (v)∩At−1 wA (u, v) + wA (u, v) u∈N− (v)∩Bt−1 wB (u, v) (5.3) v bị kích hoạt B với xác suất: u∈N− (v)∩Bt−1 pB (v|At−1 , Bt−1 ) = u∈N− (v)∩At−1 wA (u, v) + wB (u, v) u∈N− (v)∩Bt−1 wB (u, v) (5.4) - Khi đỉnh bị kích hoạt (A-active B -active) giữ nguyên trạng thái bước Quá trình lan truyền dừng lại khơng cịn đỉnh kích hoạt thêm Luật TB-WPP ta xem xét tổng trọng số hàng xóm việc đưa xác xuất kích hoạt Luận án xây dựng mơ hình Cạnh tranh cạnh trực tuyến (Competitve live-edge - CLE) tương đương với mơ hình TCLT Những lợi ích tính chất là: - Có thể sử dụng mơ hình CLE cho việc ước lượng giá trị hàm mục tiêu - Nhờ ước lượng hàm mục tiêu, mơ hình CLE làm sở cho thuật toán đề xuất luận án cho toán BCIM Định lý 5.1 Với tập hạt giống SA SB cho trước, phân bố tạp đỉnh A-active B -active bước t = 1, , τ hai mơ hình TCLT CLE Định nghĩa I(SA ) kỳ vọng tâp đỉnh có trạng thái A-active sau τ bước, với SB cho trước Dựa vào Định lý 5.1, ta có: Pr[g ∼ G]γgv (S) I(SA ) = (5.5) v∈V \SB g∈XG γgv (SA ) biến ngẫu nhiên định nghĩa sau: γgv (SA ) = 1, Nếu v A-active mơ hình CLE với đồ thị g 0, Trường hợp ngược lại (5.6) Bổ đề 5.1 (Ước lượng hàm mục tiêu) Cho trước tập hạt giống SB , với tập hạt giống SA ⊂ V \ SB , ta có I(SA ) = n0 · E[γ(SA )] , γ(SA ) giá trị kỳ vọng γgv (A) tất đỉnh nguồn chọn ngẫu nhiên đồ thị mẫu sinh ngẫu nhiên từ G 15 Upper bound PBA Any algorithm for maximizing ojective function Input Choose the best solution between algorithms Output PBA Lower bound Hình 5.1: Thành phần thuật tốn SPBA 5.1.1.1 Bài tốn BCIM Định nghĩa 5.1 (Bài tốn BCIM) • Input: MXH G = (V, E) mơ hình TCLT, tập hạt giống SB ⊆ V , ngân sách giới hạn L > thời gian ràng buộc τ > • Output: Tìm tập hạt giống SA ⊆ V \ SB với tổng chi phí đại hàm ảnh hưởng I(SA ) u∈A c(u) ≤ L để cực Định lý 5.2 BCIM tốn NP-Khó việc tính hàm mục tiêu I(·) #P-Khó Định lý 5.3 Hàm mục tiêu I(·) submodular supermodular mơ hình TCLT 5.2 Thuật tốn xấp xỉ cho tốn BCIM Mơ tả khái qt Thuật tốn SPBA chia thành bước sau: - Tác giả thiết kế hàm xấp xỉ L(·) xấp xỉ U(·) hàm mục tiêu Các hàm có tính chất submodular Luận án đề xuất thuật tốn xấp xỉ dựa phương pháp bỏ phiếu (Polling-based Algorithm- PBA) cho tốn tìm cực đại √ hàm xấp xỉ Thuật tốn PBA có tỷ lệ xấp xỉ (1 − 1/ e − ) với xác suất − δ , δ, ∈ (0, 1) tham số cho trước - Tác giả áp dụng phương pháp SA thành phần: lời giải thuật tốn PBA cho tốn tìm cực đại hàm L U lời giải thuật toán cho tốn BCIM Thuật tốn trả lời giải có kết tốt Cấu trúc phương pháp SA mơ tả Hình 5.1 5.2.1 Thuật toán PBA cho toán cực đại hàm xấp xỉ PBA sinh tập R1 gồm Λ tập Rj Thành phần PBA vịng lặp (số vòng lặp tối đa tmax ) (dòng 3-11) Trong vịng lặp, thuật tốn tìm tập lời giải ứng viên tập Rt SA Bằng việt sử dụng thuật tốn Tham lam Greedy (dịng 6) Thuật tốn cho tỷ lệ xấp xỉ (1 − √1e ) Ở bước sau, SA kiểm tra chất lượng lời giả qua CheckQS Thuật toán sinh tập Rc bao gồm tập Rt trước thêm |Rt | mẫu Rj sau tính tốn 16 Algorithm 4: Thuật toán PBA Input: Graph G = (V, E, wA , wB ), budget L > 0, and , δ ∈ (0, 1) Output: A-seed set SA N nN δ OPT Λ = kmax , t ← 1, Nmax ← N ( , ) k u , tmax = log2 max Λ max max Generate Λ URR sets and add them into R1 repeat < S, CovRt (S) >← Greedy(Rt , L) if CheckQS(Rt , CovRt (SA ), δ, ) = T rue or |Rt | ≥ Nmax then return S else 10 11 t ← t + , Rt ← CheckQS(Rt , CovRt (SA ), δ, ) end until |Rt | ≥ Nmax ; return SA ; giá trị CovRc (SA ) = Rj ∈Rc min{|SA ∩ Rj |, 1}, CovRc (SA ) cho biết số tập Rj Rc phủ SA Giá trị sử dụng để tính tham số , tính hàm xấp xỉ lời giải tối ưu xấp xỉ giá trị I(SA ) fl (S, Rc , ) xấp xỉ giá trị lời tối ưu fu (OPTu , Rt , ) Nếu lời giải SA thỏa mãn điều kiện: fl (SA ,Rc , ) ≥ − √1e − , thuật toán trả lời giải SA Nếu không, CheckQS trả fu (OPTu ,Rt , ) tập Rc để làm tập mẫu bước sau (bước t + 1) (dịng 16), sau PBA chuyển tiếp sang vòng lặp dừng lại đến số tập Rt ≥ Nmax Định lý 5.4 Với ≤ , δ ≤ 1, Thuật toán PBA trả lời giải SA thỏa mãn √ Pr[U(SA ) ≥ (1 − 1/ e − )U(Su∗ )] ≥ − δ (5.7) 5.2.2 Thuật toán xấp xỉ Sandwich cho BCIM Luận án đề xuất thuật toán SPBA dựa việc áp dụng phương pháp xấp xỉ Sandwich Chi tiết thuật tốn mơ tả Thuật tốn Algorithm 5: Thuật toán SPBA Input: Graph G = (V, E), budget L > 0, and , δ, , δ ∈ (0, 1) Output: seed A SU ← PBA(L, G, L, , δ) SL ← PBA(U, G, L, , δ) S ← a solution for maximizing I by any algorithm S ← arg maxS∈{SU ,SL ,S } ˆ I(S) return S ; 17 Định lý 5.5 Goi SA∗ lời giải tối ưu BCIM, Ssa lời giải thuật toán SPBA, α = max I(SU ) L(SL∗ ) , U(SU ) I(S ∗ ) (1 − ) (1 + ) 1− √ − e (5.8) ta có Pr[I(Ssa ) ≥ α · OPT] ≥ − 2δ 5.3 Thực nghiệm kết Luận án so sánh thuật toán SPBA với thuật toán khác nhiều liệu khác để đánh giá hiệu SPBA Các thuật toán so sánh bao gồm: BCT: thuật toán cho tốn Tối đa ảnh hưởng với chi phí giới hạn Lý luận án sử dụng BCT để so sánh BCIM biến thể IM xét chi phí khác Các thuật tốn sở: Degree Random 5.3.1 Kết thực nghiệm Luận án tiến hành đánh giá thuật toán theo hai trường hợp: chi phí tổng qt (mỗi đỉnh có chi phí khác nhau) chi phí đồng (các đỉnh có chi phí giống nhau) Thuật tốn SPBA ln cho kết tốt Cụ thể SPBA tốt từ 10% đến 30% so EMAIL-Eu 10000 5000 20 40 60 Budget(L) 80 100 120000 100000 80000 60000 40000 20000 DBLP Wiki Ramdom Degree SPBA BCT 20 40 Influence spread Influence spread 15000 Influence spread Ramdom Degree SPBA BCT 20000 60 Budget(L) 80 100 250000 200000 150000 100000 50000 Ramdom Degree SPBA BCT 20 40 60 Budget(L) 80 100 Hình 5.2: So sánh thuật tốn trường hợp chi phí tổng quát với BCT SPBA tốt tới 7.7 lần so với Degree SPBA cho thời gian chạy lâu Tuy nhiên, SPBA cho thấy thời gian chạy tương đối nhanh với liệu Đặc biệt, với mạng Wiki (với 1.79 triệu đỉnh 28.5 triệu cạnh) SPBA hồn thành 90 giây 5.4 Bài toán tối đa ảnh hưởng cạnh tranh mơ hình cạnh tranh ngưỡng tuyến tính xác định Trong mục này, luận án mở rộng kết nghiên cứu cho tốn CIM mơ hình Cạnh tranh ngưỡng tuyến tính xác đinh DCLT Trên mơ hình này, hàm ảnh hưởng cạnh tranh tính tốn thời gian O(n2 ) 5.4.1 Mơ hình định nghĩa tốn Trong mơ hình này, cạnh (u, v) có hai trọng số wA (u, v) wB (u, v) biểu diễn ảnh hưởng A B cạnh (u, v) Sự khác mô hình CLT với mơ hình DCLT là: đỉnh v có hai ngưỡng kích hoạt θA (v) θB (v) cho trước, (ii) bước lan truyền giới hạn (steps) d Quá trình lan truyền diễn theo bước rời rạc t = 1, , d sau: Tại bước t = 0, A0 = A, B0 = B Tại bước t ≥ 1, đỉnh v bị 18 kích hoạt A thõa mãn điều kiện sau: wA (u, v) ≥ θA (v) u∈Nin (v) wB (u, v) < θB (v) (5.9) wB (u, v) + αA (5.10) wB (u, v) ≥ θB (v) (5.11) wA (u, v) + αB (5.12) u∈Nin (v) wA (u, v) ≥ u∈Nin (v) u∈Nin (v) Tương tự, đỉnh v bị kích hoạt bở B nếu: wA (u, v) < θA (v) u∈Nin (v) u∈Nin (v) wB (u, v) ≥ u∈Nin (v) u∈Nin (v) Trong αA , αB gọi hệ số kiềm chế A với B B với A Định nghĩa 5.2 (Tối đa ảnh hưởng cạnh tranh -CIM DCLT) • Input: Cho MXH G = (V, E) mơ hình ảnh hưởng cạnh tranh DCLT Có hai đối thủ cạnh tranh A B thực chiến lược lan truyền cạnh tranh mơ hình DCLT với bước thời gian giới hạn d Cho trước ngân sách k • Output: Tìm tập hạt giống A SA với SA ∈ V \ SB , |SA | ≤ k cho số người dùng bị ảnh hưởng SA lớn Định lý 5.6 CIM toán NP-Khó khơng thể xấp xỉ thời gian đa thức với tỷ lệ n1− mơ hình DCLT 5.4.2 Các thuật tốn cho CIM mơ hình DCLT Trong phần này, tác giả đề xuất hai thuật toán cho toán CIM bao gồm Thuật toán tham lam (Greedy) Thuật toán tham lam nâng cao (Greedy + +) Vì hàm mục tiêu khơng có tính chất submodular nên hai thuật tốn khơng cho tỷ lệ xấp xỉ Tại bước chọn đỉnh u có hàm đo lợi ích δ(SA , u) = σA (SA + {u}) − σA (SA ) đến lựa chọn k đỉnh Độ phức tạp thuật toán O(kn(m + n)) Thuật toán Greedy + + phiên cải tiến thuật toán tham lam sử dụng kỹ thuật “lazy evaluation" Kỹ thuật khơng xem xét đỉnh có lợi ích thấp vòng lặp sau 5.4.3 Thực nghiệm Luận án tiến hành thực nghiệm Greedy, Greedy + + với hai thuật toan sở bao gồm thuật toán Random thuật Degree Greedy cho kết tốt không áp dụng với mạng cỡ vừa lớn Thuật toán Greedy + + cho kết xấp xỉ với Greedy có thời gian chạy nhanh từ 17.5 đến 103 lần Các thuật toán sở cho kết không tốt, Greedy + + Greedy cho kết Degree tới 1.65 lần 19 CHƯƠNG PHÁT TRIỂN THUẬT TOÁN XẤP XỈ CHO BÀI TOÁN PHÁT HIỆN THÔNG TIN SAI LỆCH 6.1 Đặt vấn đề phát biểu tốn Bài tốn phát thơng tin sai lệch MD quan tâm nghiên cứu gần Định nghĩa 6.1 (Phát thông tin sai lệch -MD) • Input: Cho MXH G = (V, E) mơ hình phát tán thơng tin M, ngân sách k , (k nguyên dương), đỉnh v ∈ V có xác xuất nguồn TTSL γ(u) • Output: Tìm tập đỉnh A, |A| = k để đặt giám sát cho khả phát TTSL lớn nhất? 6.1.1 Phát biểu toán Luận án nghiên cứu tốn phát thơng tin sai lệch tổng quát GMD, hàm mục tiêu phát biểu toán nêu chi tiết mục sau: 6.1.2 Mô hình hàm mục tiêu Để xây dựng tốn GMD với việc xem xét thời gian trễ lan truyền thông tin sai lệch, tác giả sử dụng mô hình Independent Cascade Edge Delay (ICED) biến thể mơ hình IC, cạnh e = (u, v) ∈ E có xác suất truyền tin p(e) ≥ độ trễ lan truyền thông tin t(e) ≥ Q trình phát tán thơng tin sai lệch diễn sau: đỉnh u bị kích hoạt thơng tin sai lệch sau thời gian t(u, v) có hội để kích hoạt v với xác suất thành cơng p(u, v) Thông tin từ đỉnh u tới v lan truyền thơng qua đường có tổng thời gian ngắn u đến v g gọi tg (u, v) Gọi A tập đỉnh giám sát, thời gian thơng tin từ u lan truyền đến A tg (u, A) = tg (u, v) v∈A (6.1) Trên đồ thị g , ta định nghĩa biến D(A, g, u) khả phát thông tin sai lệch từ u A sau: D(g, A, u) = , tg (u, A) ≤ t , tg (u, A) > t (6.2) Khả phát thông tin sai lệch lượng hóa thơng qua hàm phát sau: D(A) = Pr[g ∼ G]D(g, A, u) γ(u) u∈V g∼G Định nghĩa 6.2 (Phát thông tin sai lệch tổng quát-GMD) 20 (6.3) • Input: Cho MXH G = (V, E) mơ hình phát tán thơng tin ICED Cho tập C ⊆ V đỉnh đặt giám sát phát TTSL, số ngun dương k (ngân sách) • Output: Tìm tập tìm tập A ⊆ C, |A| = k cho D(A) đạt cực đại? Bài toán GMD trường hợp tổng quát toán MD Kế thừa tính chất MD, suy tính tốn hàm mục tiêu D() #P-Khó GMD tốn thuộc lớp NP-Khó, khơng thể xấp xỉ với tỷ lệ − 1/e + , > 6.2 Thuật toán đề xuất cho tốn GMD 6.2.1 Tính chất ước lượng hàm mục tiêu Luận án rằng, việc ước lượng hàm mục tiêu thực qua việc sinh tập phát ngẫu nhiên Random Detection (RD) (gọi tập mẫu) định nghĩa sau: Định nghĩa 6.3 (RD set) Cho đồ thị G = (V, E) mơ hình ICED, tập RD Rj sinh từ G theo bước sau Chọn đỉnh nguồn u ∈ V với xác suất γ(u) Γ , Γ = v∈V γ(v) Sinh đồ thị mẫu g từ G, thêm đỉnh v thõa mãn tg (u, v) ≤ t vào Rj trả tập Rj Với tập A ⊆ C , ta định nghĩa biến ngẫu nhiên Xj (A) sau: Xj (A) = 1, If Rj ∩ A = ∅ 0, Trong trường hợp ngược lại (6.4) Bổ đề 6.1 Với A ⊆ V , ta có: D(A) = Γ · E[Xj (A)] Bổ đề 6.2 Hàm D(A) đơn điệu tăng submodular ˆ (A) ước lượng D tập R chưa tập RD Dựa Bổ đề 6.1, ta có Gọi D ˆ (A) = Γ · CovR (A) = D |R| |R| |R| Xj (A) (6.5) i=j Dựa kết áp dụng thuật tốn dựa theo mơ hình RIS bao gồm IMM D-SSA OPIM 6.2.2 Thuật toán SBMD Thuật tốn SBMD bao gồm thành phần chính: 1) Luận án đề xuất việc sinh tập RD quan trọng việc ước lượng hàm phát hiện; 2) Sử dụng lý thuyết Martingle để giảm bớt số mẫu việc ước lượng hàm mục tiêu Với đỉnh nguồn u, gọi Ωu tập tập RD có đỉnh nguồn u, ta chia Ωu thành thành phần sau: 21 - Tập phát tầm thường (Trivial Random Detection): gồm đỉnh u, gọi Ω0u - Ảnh hưởng ngẫu nhiên không tầm thường (Non-trivial Random Detection -NRD): ký hiệu Ωnu = Ωu \ Ω0u Bổ đề 6.3 Với tập A ⊆ V , ta có: D(A) = Φ · E[Zj (A)] + (1 − ϕ(v))γ(v) = Γ · E[Yj (A)] (6.6) v∈A Dựa Bổ đề 6.3, ta có ước lược D(A) R ˆ (A) = Φ · D CovR (A) + |R| γ(u)(1 − ϕ(u)) (6.7) u∈A Thuật toán SBMD mô tả chi tiết Algorithm 6: Thuật toán SBMD Input: Graph G = (V, E), budget k > 0, a query (q, t), and , δ ∈ (0, 1) Output: seed A δ OPT Nmax ← N ( , ) · estOPT , N1 = Nmax · kmax /n, t ← 1, Nmax Λ tmax ← Generate N1 NRD sets and add them into Rt , Rc ← ∅; repeat Add Rc into Rt , Rc ← ∅ , < S, Cov(Rt , A) >← Greedy(Rt , k) Generate |Rt | NRD sets and add it into Rc Calculate fl (A, Rc , δ1 ) and calculate fu (OPT, Rt , δ1 ) l (A,Rc ,δ1 ) ≥ − 1/e − or |Rt | ≥ Nmax then if fuf(OPT,R t ,δ1 ) return A end until |Rt | ≥ Nmax ; return A; 10 11 12 log2 , δ1 ← δ 3tmax ˆ (A) ước Bổ đề 6.4 (Hàm chặn dưới) Với δ ∈ (0, 1), Tập tập NRD R, D lượng D(A) R tính (6.7) Đặt c = ln( 1δ ), a = β − α, ta có ˆ (A) acΓ ˆ Γ ac ac D ˆ fl (A, R, δ) = D(A) − , D(A) − − cp + − cp + 2T pc 3T T 3 Γ ta có Pr[D(A) ≥ fl (A, R, δ)] ≥ − δ 22 Bổ đề 6.5 (Hàm chặn trên) Với δ ∈ (0, 1), tập R, AG lời giải thuật toán tham lam ˆ (AG ) ước lượng D(A) R tính (6.3), với liệu đầu vào (R, k), D đặt ˆ ˆ D(AG ) Γ D(AG ) fu (OPT, R, δ) = + −cp + c2 p2 + 2T cp (6.8) − 1/e (1 − 1/e)Γ T ˆ (AG )] ≥ − δ ta có Pr[OPT ≤ D Định lý 6.1 Với , δ ∈ (0, 1) tham số đầu vào, thuật toán SBMD cho lời giải A thỏa mãn Pr[D(A) ≥ (1 − 1/e − )OPT] ≥ − δ 6.3 Thực nghiệm kết Luận án tiến hành chạy thực nghiệm so sánh kết thuật toán SBMD với thuật toán khác bao gồm thuật toán bao gồm D-SSA OPIM Như phần trước, tính chất tương đồng IM GMD, nên thuật tốn áp dụng cho GMD Các thuật toán cho tỷ lệ xấp xỉ − 1/e − Ngoài luận án cịn so sánh với thuật tốn sở Degree Thuật toán SBMD cho kết tốt so với thuật tốn cịn lại Với hàm mục tiêu, SBMD cho kết tốt hẳn so với thuật tốn khác có tỷ lệ xấp xỉ Về thời gian, SBMD tỏ hẳn thuật tốn cịn lại POCKEC 6000 4000 2000 20 40 60 Budget(k) Degree DSSA SBMD OPIM 80 100 120000 100000 80000 60000 40000 20000 TWITTER 0.8 Degree DSSA SBMD OPIM Influence spread 8000 Influence spread Influence spread 10000 1.0 1e7 LIVEJOURNAL Degree DSSA SBMD OPIM 0.6 0.4 0.2 20 40 60 Budget(k) 80 20 100 40 60 Budget(k) 80 100 POKEC Degree DSSA SBMD OPIM 20 40 60 Budget(k) 80 100 15.0 12.5 10.0 7.5 5.0 2.5 0.0 TWITTER LIVEJOURNAL Degree DSSA SBMD OPIM 20 40 60 Budget(k) 80 100 Degree DSSA SBMD OPIM 150 Running time(s) Running time(s) Running time(s) Hình 6.1: So sánh hàm mục tiêu đối thuật toán 100 50 20 Hình 6.2: So sánh thời gian thuật toán 23 40 60 Budget(k) 80 100 KẾT LUẬN Luận án nghiên cứu số toán lan truyền thông tin quan tâm nghiên cứu năm gần đây, bao gồm: Bài tốn ngăn chặn thơng tin sai lệch với ràng buộc ngân sách thời gian (MMR), Bài tốn ngăn chặn thơng tin sai lệch với mục tiêu cho trước (TMB), Bài toán Tối đa ảnh hưởng cạnh tranh với ràng buộc thời gian ngân sách (BCIM) Bài toán phát thơng tin sai lệch tổng qt (GMD) Các đóng góp Luận án bao gồm: Nghiên cứu tính chất, độ phức tạp tốn MMR mơ hình LT, mơ hình DTLT Phát triển thuật tốn hiệu cho toán MMR bao gồm thuật toán xấp xỉ, thuật toán heuristic Nghiên cứu tính chất, độ phức tạp tốn TMB hai mơ hình IC LT Phát triển thuật tốn hiệu cho tốn TBM hai mơ hình Nghiên cứu toán BCIM toán tổng quát CIM Đề xuất thuật toán xấp xỉ cho tốn BCIM mơ hình TCLT Mở rộng kết nghiên cứu CIM mơ hình DTLT Đề xuất thuật tốn SBMD có tỷ lệ xấp xỉ − 1/e − với xác suất − δ , , δ ∈ (0, 1) cho toán GMD Các thực nghiệm liệu thực hiệu trội thuật toán đề xuất với thuật toán Trong tương lai, Luận án tiếp tục mở rộng nghên cứu tốn nhóm tốn lan truyền thơng tin tiếp tục phát triển thuật tốn hiệu mở rộng cho mạng hàng tỷ đỉnh để bắt kịp xu hướng mở rộng liên tục MXH Các vấn đề mở rộng nghiên cứu bao gồm Cải tiến thuật toán đề xuất cho toán MMR, TBM cho mạng cỡ lớn Nghiên cứu tốn xác định nguồn phát thơng tin ban đầu Nghiên cứu phát triển thuật toán hiệu cho toán IM theo cách tiếp cận thuật toán xấp xỉ giảm thiểu số mẫu cần dùng Nghiên cứu tốn biến thể có tính ứng dụng tốn IM, IB ID 24 DANH MỤC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN Canh V Pham, Quat V Phu, Huan X Hoang, Jun Pei, My T Thai Minimum budget for Misinformation Blocking in Online Social Networks Journal of Combinatorial Optimization (2019) (SCI-E) Canh V Pham, Hieu V Duong, Huan X Hoang, and My T Thai Competitive Influence Maximization within time and budget constraints in Online Social Networks: An algorithmic approach Applied Sciences (2019), 9(11) (SCI-E) Canh V Pham, Van Nam Nguyen, Xuan Tuan Le and Xuan Huan Hoang Competitive Influence maximization on Online Social Networks: A deterministic modeling approach In: Proceeding of IEEE RIVF International Conference on Computing and Comunication Technologies 2019 (RIVF 2019), Danang, Vietnam, March 2019 (SCOPUS) Canh V Pham, Hieu V Duong, Bui Q Bao and My T Thai Budgeted Competitive Influence Maximization on Online Social Networks In: Proceeding of 7th Conference on Computational Data and Social Networks (CSoNet 2018), pp 13-24, Shanghai, China, December 2018 (SCOPUS) Canh V Pham, My T Thai, Hieu V Duong, Bao Q Bui, Huan X Hoang Maximizing misinformation restriction within time and budget constraints Journal of Combinatorial Optimization (2018), 35 (4), 1202-1240 (SCI-E) Canh V Pham, Quat V Phu, Huan X Hoang Targeted Misinformation Blocking on Online Social Networks In: proceeding of 10 th Asian Conference on Intelligent Information and Database Systems (ACIIDS 2018), pp 107-116, Quang Binh, Vietnam, March 2018 (SCOPUS) Canh V Pham, Hoang M Dinh, Hoa D Nguyen, Huyen T Dang, Huan X Hoang Limiting the Spread of Epidemics within Time Constraint on Online Social Networks In: proceeding of the Eighth International Symposium on Information and Communication Technology (SoICT 2017), pp 262-269, Nha Trang, Vietnam, December 2017 (SCOPUS) 25 ... CHƯƠNG BÀI TOÁN TỐI ƯU TỔ HỢP VÀ MỘT SỐ PHƯƠNG PHÁP GIẢI CÁC BÀI TOÁN TỐI ƯU TỔ HỢP 2.1 Bài toán TƯTH Mỗi toán TƯTH ứng với ba (S, f, Ω), S tập hữu hạn trạng thái (lời giải tiềm hay phương án) ,... giải toán tối ưu tổ hợp 2.1 Bài toán TƯTH 2.2 Phân loại lớp toán TƯTH 2.3 Một số phương pháp giải toán TƯTH 2.3.1 Thuật toán. .. 1) cho toán GMD CHƯƠNG TỔNG QUAN VỀ CÁC BÀI TỐN LAN TRUYỀN THƠNG TIN TRÊN MẠNG Xà HỘI Sự phát tán, lan truyền thông tin Mạng xã hội (MXH) nhà khoa học biểu diễn lại dạng mơ hình phát tán thơng