Phát biểu bài toán

Một phần của tài liệu Luận văn tốt nghiệp giảm thiểu tối đa thiệt hại do thông tin sai lệch gây ra trên mạng xã hội trực tuyến (Trang 41 - 46)

2 THÔNG TIN SAI LỆCH VÀ CÁC MƠ HÌNH LAN TRUYỀN

3.1 Phát biểu bài toán

Tác giả nghiên cứu vấn đề ngăn chặn sự lan truyền của thơng tin sai lệch xét trên mơ hình lan truyền thơng tin LT. Như đã đề cập trong chương trước, mơ hình LT mơ tả việc một cá nhân thay đổi hành vi của mình khi chịu sự tác động độc lập của nhiều cá nhân khác trên MXH. Chẳng hạn, với một thông tin sai lệch mới đăng tải trên một trang MXH, ban đầu một người bất kỳ chưa thực sự tin tưởng vào thơng tin sai lệch đó. Tuy nhiên, khi thấy nhiều bạn bè, người thân của họ đều chấp nhận và đăng tải, chia sẻ lại những thơng tin đó trên trang cá nhân của mình, điều này có thể sẽ khiến họ thay đổi quan điểm, tin theo và tiếp tục chia sẻ thông tin sai lệch nhận được cho những người khác. Cứ như vậy, thông tin sai lệch lan truyền rộng rãi trên MXH.

Trong một số trường hợp, ta có thể biết trước nguồn phát tán thơng tin sai lệch trên MXH. Ví dụ, bằng các biện pháp nghiệp vụ điều tra, có thể xác định được chính xác các tài khoản Facebook của những đối tượng cơ hội chính trị là nguồn phát tán những thông tin sai lệch; hoặc các bài viết khơng chính xác, "thổi phồng", phóng đại đặc tính của một sản phẩm khả năng cao đến từ những người tiếp thị cho sản phẩm đó. Một số nghiên cứu về xác định vị trí nguồn phát thơng tin có thể kể đến như nghiên cứu của Prakash, 2012, [5]; Shah và Zaman, 2011, [8]; Zhu và Ying, 2014, [11]; Luo, 2013, [12]. Trong luận văn, tác giả xem xét bài toán trong trường hợp đã biết trước nguồn lan truyền thông tin sai lệch ban đầu.

trong MXH phát triển theo từng bước thời gian rời rạc t = 0,1,2, ... Mỗi đỉnh u∈V có thể ở một trong hai trạng thái kích hoạt (active) hoặc khơng kích hoạt

(inactive) với thơng tin sai lệch. Tại mỗi bước t, đỉnh u ở trạng thái kích hoạt

nếuulà đỉnh nguồn phát thông tin sai lệchS (đỉnh khởi tạo quá trình lan truyền thơng tin sai lệch) hoặc u nhận được thơng tin sai lệch từ các đỉnh hàng xóm ở trạng thái kích hoạt và chấp nhận thơng tin này để tiếp tục chia sẻ, lan truyền những thơng tin đó đến những đỉnh khác trong các bước tiếp theo, ngược lại, u ở trạng thái khơng kích hoạt.

Trong luận văn, tác giả quan tâm tới vấn đề ngăn chặn thông tin sai lệch lan truyền trongd bước thời gian (deadlined), vì nếu khơng ngăn chặn sớm số người dùng bị kích hoạt sẽ tăng lên rất nhanh do tốc độ lan truyền nhanh chóng của thơng tin sai lệch. Mặt khác, trong nhiều trường hợp đặt ra vấn đề phải ngăn chặn sự lan truyền của thông tin sai lệch trước một khoảng thời gian xác định. Ví dụ, trước kỳ các sự kiện chính trị trọng đại của một quốc gia, các tổ chức, cá nhân thù địch thường xuyên đăng tải những quan điểm sai trái, thù địch trên mạng xã hội với mục đích phá hoại sự thành cơng các sự kiện đó. Do vậy, cần phải ngăn chặn sớm những thơng tin đó lan truyền trên mạng góp phần đảm bảo sự thành cơng của các sự kiện chính trị quan trọng. Vì những lý do nêu trên, tác giả đặt ràng buộc cho bài tốn của mình là ngăn chặn thơng tin sai lệch lan truyền trong khoảng thời gian giới hạn là d bước lan truyền, d∈Z+.

Toàn bộ các hoạt động của người dùng trên MXH trực tuyến như đăng bài, bình luận, chia sẻ vv.. đều được thu thập (Capture) và phân tích, từ đó thơng tin sai lệch có thể được phát hiện một cách tự động. Các kỹ thuật này được đề cập trong các cơng trình nghiên cứu của Qazvinian, 2011, [9] và Kwon, 2013, [10]. Sau khi thông tin sai lệch được phát hiện, các bộ lọc nội dung sẽ giúp ngăn chặn hay vô hiệu hóa việc người dùng lan truyền những thơng tin đó đến bạn bè của họ. Tác giả đề cập đến các kỹ thuật này như là việc tạo miễn dịch (Immunize) hay đặt giám sát (Monitor) cho các đỉnh trong đồ thị MXH (về sau, tác giả sử dụng thuật ngữ tạo miễn dịch để chỉ chung phương pháp này). Trong ngữ cảnh khác, kỹ thuậttạo miễn dịch cịn có thể hiểu là việc thuyết phục một người dùng nào đó trên MXH khơng chấp nhận và lan truyền những thông tin sai lệch đến những người dùng khác. Như vậy, việc tạo miễn dịch cho một đỉnh tương đương với việc loại bỏ đỉnh này và những cạnh kề với nó khỏi đồ thị ban đầu.

bỏ ra để tạo miễn dịch đối với những người dùng đó cũng khác nhau. Với tính quy mơ lớn của các MXH trực tuyến, sẽ là quá đắt để tạo miễn dịch cho toàn bộ người dùng trên mạng. Giải pháp thiệt thực hơn đó là chọn ra một số người dùng để tạo miễn dịch sao cho có thể hạn chế tối đa số đỉnh bị kích hoạt bởi thơng tin sai lệch. Như vậy, cần tìm một chiến lược tối ưu nhằm chọn ra những đỉnh để tạo miễn dịch với thông tin sai lệch.

Mơ hình hóa bài tốn

Mỗi mạng xã hội được biểu diễn bởi một đồ thị có hướng G= (V, E), trong đó

V là tập đỉnh và E ⊆V ×V là tập cạnh, |V|=n,|E|=m. Mỗi đỉnh trong tập V tương ứng với một người dùng trong mạng xã hội, mỗi cạnh có hướng e= (u, v) trong tập E biểu diễn mối quan hệ giữa người dùng u và người dùng v tương ứng.

Trong bài toán này, tác giả giả thuyết đã xác định được nguồn phát thông tin sai lệch ban đầu là tập các đỉnh S ⊂V, S ={s1, s2, ..., sp} và ta không can thiệp trực tiếp được vào tập nguồn S nhưng có thể tạo miễn dịch (hay bố trí các máy giám sát) ở các đỉnh khác để hạn chế sự lan truyền thông tin. Phương pháp đặt giám sát cũng đã được Zhang [1] đề xuất sử dụng để ngăn chặn thông tin sai lệch truyền từ nguồn cho trước tới một đỉnh cần bảo vệ.

Mỗi đỉnh u∈V có một chi phíc(u)≥0để tạo miễn dịch với thơng tin sai lệch, đồng thời đỉnh ukhi bị thơng tin sai lệch kích hoạt, tức là người dùng tương ứng tin vào thông tin này sẽ gây ra thiệt hại được lượng hóa bởi đại lượng r(u)≥0. Vì khó ước lượng thiệt hại cho mỗi đỉnh nên trong bài toán này ta xem thiệt hại của mỗi đỉnh kích hoạt gây ra như nhau. Khơng mất tính tổng qt ta giả thiết r(u) = 1 với mọi đỉnh u là đỉnh kích hoạt. Như vậy, với trường hợp r(u) = 1, tổng thiệt hại do thơng tin sai lệch gây ra chính bằng tổng số đỉnh ở trạng thái kích hoạt sau khi q trình lan truyền thơng tin kết thúc. Tuy nhiên, về sau ta vẫn dùng thuật ngữ thiệt hại để chỉ chung hai đại lượng này.

Như trình bày trong Chương 2, Chen [60, 61] đã chỉ ra mơ hình LT là tương đương với mơ hình đồ thị mẫu. Bây giờ, ta sẽ sử dụng mơ hình đồ thị mẫu để phân tích bài tốn đặt ra.

là xác suất lựa chọn (xác suất sinh) đồ thị mẫu GL = (V, EGL) từ tập G, ta có: P r(GL) = Y v∈V p(v) (3.1) Trong đó p(v) =     

w(u, v) nếu ∃u: (u, v)∈EGL

1−P

u∈Nin(v)w(u, v) ngược lại

Ký hiệu σ(S) là kỳ vọng số đỉnh kích hoạt gây ra bởi nguồn thông tin sai lệch S khi kết thúc quá trình lan truyền và R(GL, S) là tập hợp các đỉnh có thể đi đến từ tập S trong đồ thị GL, khi đó σ(S) được xác định bởi cơng thức sau:

σ(S) = X

GL∈G

P r(GL)|R(GL, S)| (3.2)

Ký hiệu D(S) là kỳ vọng thiệt hại tích hợp từ các đỉnh kích hoạt trong q trình lan truyền gây bởi tập nguồn thơng tin sai lệch S, như vậy D(S) tỉ lệ với σ(S). Do mỗi đỉnh u∈V khi bị kích hoạt gây ra thiệt hạir(u) = 1, cho nên D(S) trùng với kỳ vọng số đỉnh kích hoạt σ(S), tức là:

D(S) =σ(S) = X

GL∈G

P r(GL)|R(GL, S)| (3.3)

Ký hiệu Rd(GL, S) là tập hợp các đỉnh có thể đi đến từS trong đồ thị GL sau d bước lan truyền hay d bước thời gian. Gọi dGL(S, v) là khoảng cách ngắn nhất trong số tất cả các đường đi từ tập S đến đỉnh v trong đồ thị GL (nếu không tồn tại đường đi từ S đến v thì dGL(S, v) = ∞, nếu v ∈S thì dGL(S, v) = 0). Đại lượng dGL(S, v) cũng được gọi là khoảng cách từ tập S đến đỉnh v trong đồ thị GL. Khi đó ta có:

Rd(GL, S) = {v ∈V |dGL(S, v)≤d} (3.4) Khi đó từ Cơng thức 3.3 ta xác định được thiệt hại DS

d do nguồn thông tin sai lệch S gây ra sau d bước lan truyền như sau:

DdS = X

GL∈G

P r(GL)|Rd(GL, S)| (3.5)

Ta sẽ xét bài tốn tìm tập đỉnh I để tạo miễn dịch sao cho chi phí tạo miễn dịch khơng vượt q ngân sáchB cho trước và có thiệt hại saud bước lan truyền thơng tin sai lệch nhỏ nhất.

Gọi G(I)là đồ thị con của G sau khi loại bỏ tập đỉnhI và tập các cạnh kề với I. Khi đó, thiệt hại gây bởi nguồn thơng tin sai lệch S trên đồ thị G sau khi tạo

miễn dịch cho tập đỉnh I chính bằng thiệt hại gây bởi nguồn thông tin sai lệch S trên đồ thị G(I).

Ta dùng ký hiệu G(I) là tập hợp tất cả các đồ thị mẫu sinh ra từ đồ thị G(I) và DS

d(I)là hàm thiệt hại gây bởi nguồnS saudbước lan truyền khi đã tạo miễn dịch cho tập đỉnh I. Khi đó từ Cơng thức 3.5 ta có:

DdS(I) = X

GL∈G(I)

P r(GL)|Rd(GL, S)| (3.6)

Với q trình lan truyền thơng tin sai lệch theo mơ hình LT, bài tốn Cực tiểu hóa thiệt hai do thơng tin sai lệch gây ra (Minimize Damage of Misinformation-

MDM) trên MXH trực tuyến được phát biểu như sau:

Định nghĩa 3.1 (Bài tốn Cực tiểu hóa thiệt hại-MDM) Cho đồ thị G= (V, E) biểu diễn một MXH cùng với mơ hình lan truyền LT. S ⊂V là tập nguồn thông tin sai lệch. Mỗi đỉnh u ∈V có một chi phí c(u) ≥0 để tạo miễn dịch với thông tin sai lệch và thiệt hại r(u) = 1 khi bị thông tin sai lệch kích hoạt. Với nguồn ngân sách giới hạn B > 0 và số bước lan truyền thông tin d ∈ Z+ cho trước, mục tiêu của bài tốn là tìm tập đỉnh cần tạo miễn dịch I ⊂V\S với tổng

chi phí khơng vượt q B, P

u∈Ic(u)≤B, nhằm cực tiểu hóa hàm DdS(I).

Bài tốn MDMđược viết gọn như sau: Tìm tập I ⊂V\S làm cực tiểu hóa hàm DS

d(I) với điều kiện P

u∈Ic(u)≤B.

Điểm khác nhau giữa nghiên cứu của tác giả với nghiên cứu của H. Zhang, 2016, [1] đó là:

- H. Zhang xét bài tốn trong trường hợp mỗi đỉnh u∈V có chi phíđặt giám sát như nhau. Trong bài tốn MDM, tác giả mở rộng hơn với chi phíc(u)≥0 khác nhau cho mỗi đỉnh.

- H. Zhang nghiên cứu bài tốn ngăn chặn thơng tin sai lệch đến với 1 đỉnh hoặc một nhóm đỉnh cần bảo vệ. Trong bài toán MDM xét với tất cả các đỉnh trong tồn mạng cần bảo vệ, đồng thời có yếu tố ràng buộc về thời gian d.

- H. Zhang nghiên cứu bài tốn trên mơ hình lan truyền thơng tin IC, cịn trong bài toán MDM, tác giả xét trên mơ hình lan truyền thơng tin LT.

Một phần của tài liệu Luận văn tốt nghiệp giảm thiểu tối đa thiệt hại do thông tin sai lệch gây ra trên mạng xã hội trực tuyến (Trang 41 - 46)

Tải bản đầy đủ (PDF)

(69 trang)