Mô hình Ngưỡng tuyến tính đa chủ đề (Multiple Topics Linear Threshold

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp ngăn chặn phát tán thông tin sai lệch đa chủ đề trên mạng xã hội (Trang 30 - 34)

3. Cấu trúc luận văn

1.4 Mô hình Ngưỡng tuyến tính đa chủ đề (Multiple Topics Linear Threshold

– MT-LT)

Mô hình LT đã được sử dụng trong rãi trong các công bố quốc tế về các bài toán trong lan truyền thông tin trên MXH [14, 20]. Tuy nhiên, mô hình LT không thể áp dụng trực tiếp để giải quyết bài toán lan truyền thông tin đa chủ đề. Với mô hình LT, một kịch bản thực tế hơn được nghiên cứu là giả định rằng có nhiều chủ đề hiện có đang được lan truyền. Các chủ đề có thể có các đặc điểm khác nhau, chẳng hạn như nội dung và sự lan truyền của chúng. Khi có nhiều chủ đề, ta cần xác định lại kết quả của mô hình khi hai hoặc nhiều thông tin chủ đề tiếp cận một người dùng cùng một lúc. Mô hình LT không thể được áp dụng trực tiếp để giải quyết vấn đề lan truyền thông tin đa chủ đề vì khó nắm bắt được các mối tương quan phức tạp giữa các chủ đề.

Các nghiên cứu trước đó đã làm việc trên một kịch bản trong đó có nhiều hơn một chủ đề đang được phân tán. Khi nhiều chủ đề tồn tại, vấn đề tối đa hóa ảnh hưởng có thể khó nắm bắt vì chúng thậm chí không đơn điệu [21]. Khi một đỉnh có thể áp dụng nhiều lớp, nó thể hiện rằng hàm ảnh hưởng tổng thể đếm các đỉnh đã kích hoạt không còn là mô-đun nhỏ nữa. Vì vậy, cần giải quyết vấn đề

này bằng cách phát triển một mô hình chặn lan truyền thông tin sai lệch mới với nhiều chủ đề và xác định hàm ảnh hưởng tổng thể tính số lượt được kích hoạt thay vì các đỉnh được kích hoạt.

Trên cơ sở mô hình LT [3], mô hình lan truyền thông tin MT-LT (Multiple

Topics Linear Threshold) được xây dựng bằng việc cập nhật các thông số cần

thiết để phù hợp với bài toán lan truyền thông tin đa chủ đề.

Trong mô hình MT-LT, một MXH được biểu diễn bằng đồ thị 𝐺(𝑉, 𝐸, 𝑤) trong đó tập đỉnh 𝑉, tập cạnh 𝐸, |𝑉| = 𝑛, |𝐸| = 𝑚; 𝑁𝑖𝑛(𝑣), 𝑁𝑜𝑢𝑡(𝑣) lần lượt là tập đỉnh vào và tập đỉnh ra của đỉnh 𝑣; mỗi cạnh xác định (𝑢, 𝑣) ∈ 𝐸 được gán một trọng số 𝑤(𝑢, 𝑣) ∈ [0,1] biểu diễn độ ảnh hưởng của đỉnh 𝑢 đến đỉnh 𝑣, Nếu (𝑢, 𝑣) ∉ 𝐸 thì 𝑤(𝑢, 𝑣) = 0, được phân bố sao cho tổng trọng số các đỉnh 𝑢 đến đỉnh 𝑣 thỏa mãn điều kiện:

∑ 𝑤(𝑢, 𝑣)

𝑢∈𝑁𝑖𝑛(𝑣)

≤ 1

Giả sử có 𝑞 chủ đề thông tin sai lệch (VD: Chính trị, Văn hóa, Thể thao,…) và tập các đỉnh phát tán thông tin sai lệch 𝑆 = {𝑆1, 𝑆2, … , 𝑆𝑞}, mỗi tập 𝑆𝑖 chứa các đỉnh phát tán thông tin chủ đề 𝑖 (gọi tắt là đỉnh nguồn), trên thực tế thì người quản trị MXH luôn biết được đâu là nguồn phát tán thông tin sai lệch. Ta có tập các đỉnh nguồn phát tán thông tin sai lệch trên 𝑞 chủ đề là: 𝑆 = ⋃𝑞𝑖=1𝑆𝑖.

Mỗi đỉnh 𝑣 ∈ 𝑉 có thể không bị kích hoạt hoặc bị kích hoạt một hoặc nhiều lần bởi nhiều chủ đề. Nghĩa là đỉnh 𝑣 có một hoặc nhiều trạng thái trong tập hợp 𝑞 + 1 trạng thái sau: Q= {inactive, active_1, active_2,..., active_q} cho biết hành vi và hoạt động của 𝑣. Nếu đỉnh 𝑣 có trạng thái inactive là 𝑣 không bị kích hoạt bởi bất kỳ chủ đề thông tin nào; Nếu đỉnh 𝑣 có trạng thái active_i thì nó đã bị kích hoạt bởi chủ đề 𝑖. Nếu đỉnh 𝑣 có trạng thái {active_1, active_2,..., active_k} với 1 ≤ 𝑘 ≤ 𝑞 thì nó đã bị kích hoạt bởi 𝑘 chủ đề.

Trong thực tế, trọng số tác động giữa các đỉnh phụ thuộc vào các chủ đề. Ví dụ: chủ đề lan truyền về bệnh dịch có thể có tác động lớn hơn chủ đề về trò chơi, thể thao đối với người dùng. Do đó, một đỉnh 𝑣 được gán với một vectơ

ngưỡng kích hoạt 𝛾𝑣 = (𝛾𝑣1, 𝛾𝑣2, … , 𝛾𝑣𝑞), trong đó 𝛾𝑣𝑖 ∈ [0,1]. 𝛾𝑣𝑖 đại diện cho ngưỡng kích hoạt của đỉnh 𝑣 trên chủ đề 𝑖. Hơn nữa, một đỉnh 𝑣 cũng được gán với một vectơ 𝑃𝑣 = (𝑝𝑣1, 𝑝𝑣2, … , 𝑝𝑣𝑞), trong đó 𝑝𝑣𝑖 ∈ [0,1] đại diện cho độ ảnh hưởng của người dùng 𝑣 với đỉnh lân cận theo chủ đề 𝑖.

Quá trình lan truyền thông tin theo mô hình MT-LT diễn ra trên các bước rời rạc 𝑡 = 1, 2, … , 𝑑, với 𝑑 ∈ 𝑍. Ta coi khoảng thời gian được phép như nhau cho mỗi bước lan truyền thông tin. Đó là bởi vì tất cả các đỉnh lân cận của một đỉnh có thể không ảnh hưởng đến nó đồng thời, nhưng chỉ trong một khoảng thời gian nhất định. Thực tế cho thấy, mọi thông tin tác động của đỉnh lân cận không phải là cùng lúc, mà nằm trong một giới hạn thời gian nào đó. Lấy 𝐷𝑖𝑡(𝐺, 𝑆) là tập hợp các đỉnh được kích hoạt bởi 𝑆𝑖 tại thời điểm 𝑡 trong đồ thị 𝐺.

- Tại thời điểm 𝑡 = 0, tất cả các đỉnh trong tập 𝑆𝑖 đều có trạng thái active -i

Hình 1.4.1. Mô tả quá trình lan truyền thông tin trên mô hình MT- LT với t = 0

- Tại thời điểm 𝑡 ≥ 1, tất cả các đỉnh chịu ảnh hưởng bởi tập 𝑆𝑖 trong bước thời gian 𝑡 − 1 vẫn giữ nguyên trạng thái kích hoạt. Một đỉnh 𝑣 đang không chịu ảnh hưởng bởi 𝑆𝑖 sẽ bị kích hoạt active-i nếu thỏa mãn:

∑ 𝑤(𝑢, 𝑣). 𝑝𝑢𝑖

𝑢∈𝑁𝑖𝑛(𝑣)∩𝐷𝑖𝑡−1(𝐺,𝑆)

Hình 1.4.2. Mô tả quá trình lan truyền thông tin trên mô hình MT- LT với t = 1

Quá trình lan truyền kết thúc khi sau mỗi bước không còn một đỉnh nào được kích hoạt thêm.

Hình 1.4.3. Mô tả quá trình lan truyền thông tin trên mô hình MT- LT với t = 2

Khi 𝑝𝑖𝑢 = 1, 𝑖 = 1, … , 𝑞, với mọi 𝑢 ∈ 𝑉. Mô hình MT-LT trở thành mô hình LT. Gọi 𝐷𝑖(𝐺, 𝑆) là tổng số đỉnh được kích hoạt theo chủ đề 𝑖 sau khi quá trình lan truyền kết thúc. 𝐷𝑖(𝐺, 𝑆) được tính bằng tổng của 𝐷𝑖𝑡(𝐺, 𝑆) qua tất cả các

bước. Tổng số lượt các đỉnh bị kích hoạt theo tất cả các chủ đề sau quá trình lan truyền kết thúc, được ký hiệu là 𝐷(𝐺, 𝑆), ta có:

𝒟(𝐺, 𝑆) = ∑ 𝒟𝑖(𝐺, 𝑆) 𝑞

𝑖=1

(1)

Trong cài đặt này, một đỉnh có thể được kích hoạt nhiều lần theo nhiều chủ đề chứ không chỉ một lần như trong các nghiên cứu trước. Bằng cách thiết lập này, ta có thể chứng minh các thuộc tính đơn điệu và mô đun của hàm ảnh hưởng tổng thể. Các thuộc tính này rất quan trọng vì chúng có thể giúp đưa ra các thuật toán xấp xỉ hiệu quả.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp ngăn chặn phát tán thông tin sai lệch đa chủ đề trên mạng xã hội (Trang 30 - 34)

Tải bản đầy đủ (PDF)

(69 trang)