Thuật toán Tham lam cải tiến IGA (Impove Greedy Algorithm)

Một phần của tài liệu Luận văn Thạc sĩ Nghiên cứu phương pháp ngăn chặn phát tán thông tin sai lệch đa chủ đề trên mạng xã hội (Trang 43 - 48)

3. Cấu trúc luận văn

2.3 Thuật toán Tham lam cải tiến IGA (Impove Greedy Algorithm)

Đầu tiên, cần chỉ ra rằng hàm mục tiêu 𝜎(𝐺, 𝑆, 𝐴) là đơn điệu và có tính chất submodular. Dựa trên các tính chất này và bằng cách áp dụng kết quả nghiên cứu về thuật toán tham lam [13] để đưa ra thuật toán tham lam cải tiến (IGA – Impove Greedy Algorithm) cho tỷ lệ xấp xỉ (1 − 1/√𝑒).

Từ đồ thị ban đầu đã cho 𝐺 = (𝑉, 𝐸, 𝑤) theo mô hình MT-LT, xây dựng 𝑞 đồ thị: 𝐺1, 𝐺2, … , 𝐺𝑞, 𝐺𝑖 = (𝑉𝑖, 𝐸𝑖, 𝑤𝑖), với 𝑤𝑖(𝑢, 𝑣) = 𝑤(𝑢, 𝑣). 𝑝𝑢𝑖. Ta thấy tổng số lượt các đỉnh bị kích hoạt trên đồ thị G theo mô hình MT-LT với 𝑆 bằng tổng số các đỉnh bị kích hoạt trên 𝐺𝑖 theo mô hình LT với 𝑆𝑖, với mọi 𝑖 = 1, 2, … , 𝑞. Kết quả được chứng minh trong bổ đề sau:

Bổ đề 1: Đặt 𝐷𝐿𝑇(𝐺𝑖, 𝑆𝑖) là tập các đỉnh bị kích hoạt bởi nguồn 𝑆𝑖 trên đồ thị 𝐺𝑖 theo mô hình LT, chúng ta có 𝐷𝑖(𝐺, 𝑆) = 𝐷𝐿𝑇(𝐺𝑖, 𝑆𝑖). Khi đó số lượt các đỉnh bị kích hoạt bởi tất cả các chủđề𝐷(𝐺, 𝑆) có thể được tính như sau:

𝐷(𝐺, 𝑆) = ∑ 𝐷𝑖(𝐺, 𝑆) = 𝑞 𝑖=1 ∑ 𝐷𝐿𝑇(𝐺𝑖, 𝑆𝑖) 𝑞 𝑖=1 (3) Chứng minh: Do 𝑝𝑢𝑖 ≤ 1, mỗi đỉnh 𝑢 ∈ 𝐺𝑖, ta có:

34

∑ 𝑤𝑖(𝑢, 𝑣) . 𝑝𝑢𝑖 ≤ ∑ 𝑤𝑖(𝑢, 𝑣) ≤ 1

𝑢∈𝑁𝑖𝑛(𝑣) 𝑢∈𝑁𝑖𝑛(𝑣)

Điều kiện này thõa mãn mô hình LT. Đặt hàm 𝐷𝐿𝑇(𝐺𝑖, 𝑆𝑖)là hàm ảnh hưởng của 𝑆𝑖 lên đồ thị 𝐺𝑖 theo mô hình LT, ta thu được:

𝐷𝑖(𝐺, 𝑆) = 𝐷𝐿𝑇(𝐺𝑖, 𝑆𝑖) .

Bổ đề 2: Đối với đồ thị 𝐺𝑖, hàm 𝐷𝐿𝑇(𝐺𝑖 ⊙ 𝐴, 𝑆𝑖) là đơn điệu và supermodular, tức là: 𝐷𝐿𝑇(𝐺𝑖 ⊙ (𝐴 ∪ {𝑣}) , 𝑆𝑖) − 𝐷𝐿𝑇(𝐺𝑖 ⊙ 𝐴, 𝑆𝑖) ≤ 𝐷𝐿𝑇(𝐺𝑖 ⊙ (𝑇 ∪ {𝑣}) , 𝑆𝑖) − 𝐷𝐿𝑇(𝐺𝑖 ⊙ 𝑇, 𝑆𝑖) Với mọi 𝐴 ⊆ 𝑇 ⊂ 𝑉, 𝑣 ∈ 𝑇\𝐴. Chứng minh: Lấy 𝐸(𝐴) là tập hợp các cạnh có ít nhất một đỉnh trong tập đỉnh A, chúng ta có: 𝐷𝐿𝑇(𝐺𝑖 ⊙ 𝐴, 𝑆𝑖) = 𝐷𝐿𝑇(𝐺𝑖 ⊙ 𝐸(𝐴), 𝑆𝑖). Ta thấy rằng 𝐷(𝐺 ⊙ 𝐸(𝐴), 𝑆) − 𝐷(𝐺 ⊙ 𝐸(𝑇), 𝑆) ≥ 0 với 𝐴 ⊆ 𝑇. Vì vậy 𝐷𝐿𝑇(𝐺𝑖 ⊙ 𝐴, 𝑆𝑖)là một hàm đơn điệu tăng.

Ta có: 𝐸𝑇,𝑣 = 𝐸(𝑇 ∪ {𝑣})\𝐸(𝑇) , 𝐸𝐴,𝑣 = 𝐸(𝐴 ∪ {𝑣})\𝐸(𝐴). 𝐸𝑇,𝑣 là tập các cạnh kết nối với 𝑣 nhưng không nối với bất kỳ đỉnh nào trong tập 𝑇. 𝐸𝐴,𝑣 là tập hợp các cạnh kết nối với 𝑣 nhưng không kết nối với bất kỳ đỉnh nào trong tập 𝐴. Ta có 𝐸𝑇,𝑣 ⊆ 𝐸𝐴,𝑣 với 𝐴 ⊆ 𝑇. Ta dễ dàng nhận thấy 𝐸(𝐴) ∪ 𝐸𝑇,𝑣 ⊆ 𝐸(𝐴 + {𝑣}).Cho trước 2 tập cạnh 𝑋, 𝑌 với 𝑋 ⊆ 𝑌 ⊂ 𝐸, đỉnh 𝑒 ∈ 𝑌\𝑋. Theo định lý 6 trong [20], ta có: 𝐷𝐿𝑇(𝐺𝑖 ⊙ 𝐸(𝑋 ∪ {𝑒}), 𝑆𝑖) − 𝐷𝐿𝑇(𝐺𝑖 ⊙ 𝐸(𝑋), 𝑆𝑖) ≤ 𝐷𝐿𝑇(𝐺𝑖 ⊙ 𝐸(𝑇 ∪ {𝑒}), 𝑆𝑖) − 𝐷𝐿𝑇(𝐺𝑖 ⊙ 𝐸(𝑇), 𝑆𝑖) Áp dụng bất đẳng thức trên, ta có: 𝐷𝐿𝑇(𝐺𝑖 ⊙ 𝐴, 𝑆𝑖) − 𝐷𝐿𝑇(𝐺𝑖 ⊙ (𝐴 ∪ {𝑣}), 𝑆𝑖)

35

= 𝐷𝐿𝑇(𝐺𝑖 ⊙ 𝐸(𝐴), 𝑆𝑖) − 𝐷𝐿𝑇(𝐺𝑖 ⊙ 𝐸(𝐴 ∪ {𝑣}), 𝑆𝑖)

≥ 𝐷𝐿𝑇(𝐺𝑖 ⊙ 𝐸(𝐴), 𝑆𝑖) − 𝐷𝐿𝑇(𝐺𝑖 ⊙ (𝐸(𝐴) ∪ 𝐸𝑇,𝑣), 𝑆𝑖) ≥ 𝐷𝐿𝑇(𝐺𝑖 ⊙ 𝐸(𝑇), 𝑆𝑖) − 𝐷𝐿𝑇(𝐺𝑖 ⊙ (𝐸(𝑇) ∪ 𝐸𝑇,𝑣), 𝑆𝑖) = 𝐷𝐿𝑇(𝐺𝑖 ⊙ 𝑇, 𝑆𝑖) − 𝐷𝐿𝑇(𝐺𝑖 ⊙ (𝑇 ∪ {𝑣}), 𝑆𝑖)

Điều phải chứng minh

Định lý 3:

- Hàm 𝜎(. ) là hàm đơn điệu và submodular trên mô hình MT-LT. Chứng minh: Từ định nghĩa 𝜎(G, S, A) và công thức 𝜎(G, S, A) = 𝒟(𝐺, 𝑆) − 𝒟(G ⊙ A, S) ta có: 𝜎(G, S, A) = 𝒟(𝐺, 𝑆)−𝒟(G ⊙ A, S) = ∑ 𝐷𝑖(𝐺𝑖, 𝑆𝑖) 𝑞 𝑖=1 − ∑ 𝐷𝑖(𝐺𝑖 ⊙ 𝐴, 𝑆𝑖) 𝑞 𝑖=1 = ∑(𝐷𝑖(𝐺, 𝑆𝑖) 𝑞 𝑖=1 − 𝐷𝑖(𝐺𝑖 ⊙ 𝐴, 𝑆𝑖)) = ∑ 𝜎𝑖(𝐺𝑖, 𝑆𝑖, 𝐴) 𝑞 𝑖=1 Trong đó: 𝜎𝑖(𝐺, 𝑆𝑖, 𝐴) = 𝐷𝑖(𝐺, 𝑆𝑖) − 𝐷𝑖(𝐺 ⊙ 𝐴, 𝑆𝑖). Theo bổ đề 2, 𝐷𝑖(𝐺 ⊙ 𝐴, 𝑆𝑖) là hàm supermodular và 𝐷𝑖(𝐺, 𝑆𝑖) là hàm đơn điệu và submodular. Vì vậy,𝜎𝑖(𝐺, 𝑆𝑖, 𝐴)là hàm đơn điệu và submodular. Do đó,

𝜎(G, S, A) là tập hợp của các hàm đơn điệu và submodular, vì vậy nó cũng

là một hàm đơn điệu và submodular.

Dựa trên kết quả của định lý 3 và sử dụng chiến lược tham lam được đề xuất trong công bố [32], ta có một thuật toán tham lam sáng tạo khác được gọi là IGA cho tỷ lệ xấp xỉ (1 − 1/√𝑒) (Thuật toán 1). Thuật toán

36

được chia làm hai giai đoạn như sau: Giai đoạn 1, Sử dụng chiến lược tham lam để tìm tập các đỉnh để chặn 𝐴. Trong mỗi bước, ta chọn đỉnh 𝑣 với 𝛿(𝑣) là tỷ lệ giữa độ tăng của hàm mục tiêu 𝜎(. ) với chi phí để xóa đỉnh 𝑣 là lớn nhất. 𝛿(𝑣)được tính như sau:

𝛿(𝑣) = (𝜎(𝐺, 𝑆, 𝐴 ∪ {𝑣}) − 𝜎(𝐺, 𝑆, 𝐴)𝑐(𝑣) (4)

Quá trình kết thúc khi chi phí chặn các đỉnh vượt mức chi phí cho phép 𝐵hoặc đã xét hết các đỉnh. Trong giai đoạn 2, xét 𝑣𝑚𝑎𝑥 là đỉnh có 𝜎(𝐺, 𝑆, 𝑣𝑚𝑎𝑥)lớn nhất với chi phí cho việc chặn 𝑣𝑚𝑎𝑥 nhỏ hơn 𝐵. Sau đó kết quả cuối cùng của 𝐴 được so sánh với 𝑣𝑚𝑎𝑥 để có được câu trả lời tốt nhất.

Algorithm 1: Thuật toán tham lam cải tiến (IGA) Input: 𝐺(𝐸, 𝑉, 𝑤) , source set 𝑆, budget 𝐵 > 0 Output: Set of node 𝐴

1. 𝐴1← ∅; U V; 2. 𝑣𝑚𝑎𝑥 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑣∈𝑉,𝑐(𝑣)≤𝐵𝜎(𝐺, 𝑆, 𝑣); 3. repeat 4. 𝑢 ← 𝑎𝑟𝑔𝑚𝑎𝑥𝑣∈𝑉\𝐴𝛿(𝑣); 5. if 𝒄(𝑨𝟏) + 𝒄(𝒖) ≤ 𝑩 then 6. 𝐴 ← 𝑨𝟏∪ {𝑢} ; 7. end 8. until 𝑼 = ∅; 9. If 𝜎(𝐺, 𝑆, 𝑨𝟏) ≥ 𝜎(𝐺, 𝑆, 𝑣𝑚𝑎𝑥) then 𝐴 ← 𝑨𝟏 else 𝐴 ← 𝑣𝑚𝑎𝑥;

37

10. return 𝐴.

Dễ thấy rằng, trong trường hợp xấu nhất, thuật toán IGA thực hiện tối đa 𝑘2 vòng lặp để tính lại hàm 𝜎(G, S, A), với 𝑘 là số lượt các đỉnh bị kích hoạt trên 𝑞 chủ đề. Tuy nhiên, để tính giá trị hàm 𝜎(G, S, A) ta cần tính toán được số lượt các đỉnh bị kích hoạt bởi thông tin sai lệch trên tất cả các chủ đề. Việc tính toán số lượt kích hoạt chính xác là vấn đề #P-Khó. Vì vậy, thuật toán tham lam không thể áp dụng trực tiếp cho mạng xã hội thực, ngay cả khi mạng nhỏ. Để giải quyết vấn đề này, ta sử dụng phương pháp mô phỏng Monte – Carlo (MC) để ước tính hàm mục tiêu (thuật toán 2). Với mỗi tập 𝑆𝑖, 𝑖 = 1,2, . . . , 𝑞, tiến hành mô phỏng MC quá trình lan truyền thông tin ngẫu nhiên 𝑇 lần. Mỗi lần, ta tính số lượt bị kích hoạt theo chủ đề i, sau đó lấy tổng trung bình trên T lần mô phỏng. Cuối cùng lấy số lượt kích hoạt trung bình trên q chủ đề. Số lượng mô phỏng 𝑇 càng lớn thì ước lượng chính xác càng cao.

Algorithm 2: Thuật toán ước lượng giá trị của hàm 𝐷𝑖(𝐺𝑖, 𝑆𝑖) Input: 𝐺𝑖(𝑉𝑖, 𝐸𝑖, 𝑤𝑖), source set 𝑆

Output: 𝐷𝑖(𝐺𝑖, 𝑆𝑖)

1. 𝑐𝑜𝑢𝑛𝑡 ← 0;

2. for𝑖 = 1 𝑡𝑜 𝑇 do

3. Simulating the misinformation propagation process from the

source 𝑆𝑖 on graph 𝐺𝑖;

4. 𝑁𝑖 ← the number of nodes activated after the propagation has

finished;

5. 𝑐𝑜𝑢𝑛𝑡 ← 𝑐𝑜𝑢𝑛𝑡 + 𝑁𝑖;

6. end

38

Tuy nhiên, việc tính toán tính toán hàm 𝜎(G, S, A) là #P- Khó, nên rất khó xác định được số lần mô phỏng. Trong trường hợp này, ta thực hiện T lần mô phỏng MC, thuật toán IGA sẽ có độ phức tạp theo thời gian là 𝑂(𝑇𝑅𝑛2). Trong đó 𝑅 là độ phức tạp thời gian của mô phỏng MC. Độ phức tạp này không cho phép áp dụng cho mạng có kích thước nhỏ. Đó là lý do để sử dụng thuật toán thực tế hơn được gọi là thuật toán tham lam mở rộng GEA chạy hiệu quả hơn.

Một phần của tài liệu Luận văn Thạc sĩ Nghiên cứu phương pháp ngăn chặn phát tán thông tin sai lệch đa chủ đề trên mạng xã hội (Trang 43 - 48)

Tải bản đầy đủ (PDF)

(69 trang)