3. Cấu trúc luận văn
1.3 Mô hình ngưỡng tuyến tính (Linear Threshold – LT)
Bản chất của lan truyền thông tin sai lệch cũng chính là lan truyền thông tin. Các mô hình lan truyền thông tin được sử dụng rộng rãi có thể sử dụng để mô hình hóa quá trình lan truyền thông tin nói chung và thông tin sai lệch nói riêng.
Để có thể đưa ra giải pháp hiệu quả trong việc ngăn chặn sự lan truyền của thông tin sai lệch, trước tiên chúng ta phải hiểu được cơ chế thông tin sai lệch lan truyền trên MXH.
Thông tin được phát tán trên các MXH từ người dùng này đến người dùng khác thông qua nhiều hoạt động đăng bài, chia sẻ, bình luận. Kempe và các cộng sự [3] là người đầu tiên đưa ra các mô hình phát tán thông tin, trong đó đã đưa ra hai mô hình phát tán thông tin cơ bản là Mô hình tầng độc lập (Independent Cascade – IC) và Mô hình ngưỡng tuyến tính (Linear Threshold – LT).
Đối với mô hình Ngưỡng tuyến tính LT, một MXH được biểu diễn bằng đồ thị 𝐺(𝑉, 𝐸, 𝑤) trong đó có tập đỉnh 𝑉, tập cạnh 𝐸, |𝑉| = 𝑛, |𝐸| = 𝑚; 𝑁𝑖𝑛(𝑣), 𝑁𝑜𝑢𝑡(𝑣) lần lượt là tập đỉnh vào và tập đỉnh ra của đỉnh 𝑣.
Trong mô hình này, mỗi cạnh được xác định (𝑢, 𝑣) ∈ 𝐸 được gán một trọng số 𝑤(𝑢, 𝑣) ∈ [0,1] biểu diễn độ ảnh hưởng của đỉnh 𝑢 đến đỉnh 𝑣, nếu 𝑤(𝑢, 𝑣) ∉ 𝐸 thì 𝑤(𝑢, 𝑣) = 0, trọng số được phân bố sao cho tổng tất trọng số các đỉnh 𝑢 đến đỉnh 𝑣 thỏa mãn điều kiện:
∑ 𝑤(𝑢, 𝑣)
𝑢∈𝑁𝑖𝑛(𝑣)
≤ 1
Giả sử 𝑆0 ⊆ 𝑉, là tập được cho là phát tán thông tin sai lệch (còn gọi là tập hạt giống) Trong mô hình LT, mỗi đỉnh được xác định có 2 trạng thái: kích hoạt
Mỗi đỉnh 𝑣 ∈ 𝑉 có ngưỡng kích hoạt 𝛾𝑣 ∈ [0,1], nếu 𝛾𝑣 lớn thì cần nhiều đỉnh lân cận để có thể kích hoạt 𝑣, nếu 𝛾𝑣 bé thì đỉnh 𝑣 dễ bị kích hoạt bởi các đỉnh lân cận. Do có rất nhiều yếu tố ảnh hưởng dẫn đến việc thiếu thông tin để xác định ngưỡng kích hoạt của người dùng (đỉnh), nên 𝛾𝑣 được xác định ngẫu nhiên, độc lập và phân bố đều trên đoạn [0,1]. Trong thực tế, các giá trị ngưỡng có thể được học thông qua các kỹ thuật khai thác dữ liệu dựa trên các hành động của người dùng trong quá khứ. Do đó, các giá trị ngưỡng kích hoạt có thể được xem như một đầu vào cho mô hình thay vì giả định là một hàm ngưỡng ngẫu nhiên. Lấy 𝐷𝑡(𝐺, 𝑆) là một tập các đỉnh được kích hoạt bởi S tại thời điểm t trong đồ thị 𝐺(𝑉, 𝐸, 𝑤).
Mô hình LT hoạt động theo các bước thời gian rời rạc như sau:
- Tại thời điểm 𝑡 = 0, tập đỉnh ở trạng thái kích hoạt chính là tập nguồn phát tán thông tin ban đầu 𝑆0 (tập hạt giống).
Hình 1.3.1. Mô tả quá trình lan truyền thông tin trên mô hình với t = 0
- Tại thời điểm 𝑡 ≥ 1, Tất cả các đỉnh được kích hoạt bởi 𝑆 trong bước thời gian 𝑡 − 1 vẫn đang hoạt động. Mỗi đỉnh 𝑣 ở trạng thái không kích hoạt bởi
𝑆 sẽ bị kích hoạt nếu tổng ảnh hưởng của các đỉnh lân cận kích hoạt tới nó vượt ngưỡng 𝛾𝑣, nghĩa là:
∑ 𝑤(𝑢, 𝑣) ≥ 𝛾𝑣
𝑢∈𝑁𝑖𝑛(𝑣)∩𝐷𝑡−1(𝐺,𝑆)
Hình 1.3.2. Mô tả quá trình lan truyền thông tin trên mô hình LT với t = 1
Nếu một đỉnh được kích hoạt nó sẽ giữ trạng thái kích hoạt trong những bước tiếp theo. Quá trình lan truyền sẽ kết thúc khi không có đỉnh nào được kích hoạt ở những bước tiếp theo.
Hình 1.3.3. Mô tả quá trình lan truyền thông tin trên mô hình LT với t = 2