Một số hướng nghiên cứu liên quan đến bài toán hạn chế lan

Một phần của tài liệu Luận văn tốt nghiệp giảm thiểu tối đa thiệt hại do thông tin sai lệch gây ra trên mạng xã hội trực tuyến (Trang 36 - 41)

2 THÔNG TIN SAI LỆCH VÀ CÁC MƠ HÌNH LAN TRUYỀN

2.3 Một số hướng nghiên cứu liên quan đến bài toán hạn chế lan

lan truyền thông tin sai lệch trên mạng xã hội trực tuyến Tối ưu hóa ảnh hưởng các đối tượng trên MXH là bài toán được nghiên cứu lần đầu tiên bởi Domingos và Richardson, 2001 [62]. Đây là bài tốn có ý nghĩa và mang tính thời sự, nhận được sự quan tâm lớn của nhiều nhà nghiên cứu trong những năm gần đây. Trong nghiên cứu của mình, Domingos và Richardson đã thiết kế các chiến lược tiếp thị lan truyền (Viral Marketing) và phân tích q trình lan truyền thơng tin sử dụng phương pháp khai phá dữ liệu. Sau đó, Kempe, 2003 [47] là người đầu tiên xây dựng vấn đề tối ưu hóa ảnh hưởng trên MXH theo cách tối ưu hóa rời rạc, bài toán được phát biểu như sau:

Định nghĩa 2.1 (Tối ưu hóa ảnh hưởng) Cho đồ thị G = (V, E) biểu diễn một MXH, trong đó tập V biểu diễn các cá nhân trong MXH, tập E biểu diễn mối quan hệ giữa các cá nhân. Với ngân sách k cho trước, tìm tập hạt giống

S0 ⊆ V với |S0| =k, sao cho hàm lan truyền ảnh hưởng của tập S0, σ(S0), dưới

mơ hình lan truyền thơng tin ngẫu nhiên cho trước, đạt giá trị cực đại. Tức là, cần tính S∗ ⊆V sao cho1:

S∗= argmax

S0⊆V,|S0|=k

σ(S0) (2.4)

Trong Định nghĩa 2.1, thuật ngữ lan truyền ảnh hưởng ở đây có thể hiểu là sự lây lan cảm xúc, quan điểm, hành vi từ người này sang người khác, từ nhóm người này sang nhóm người khác trước một vấn đề, một sự kiện hay một hiện tượng nào đó. Hàm lan truyền ảnh hưởng trả về kết quả là số người bị ảnh hưởng trong một MXH.

Một ví dụ điển hình của bài tốn tối ưu hóa lan truyền ảnh hưởng là vấn đề tiếp thị sản phẩm. Chẳng hạn, một công ty muốn giới thiệu cho cộng đồng một sản phẩm do cơng ty tạo ra đó là một ứng dụng trực tuyến. Tuy nhiên, cơng ty đó lại có ngân sách hạn chế (ngân sách ở đây được hiểu là chi phí bỏ ra), vì vậy chỉ có thể lựa chọn một số lượng nhỏ người sử dụng ban đầu để trải nghiệm sản phẩm đó (bằng cách tặng q hoặc các khoản thanh tốn). Cơng ty muốn rằng những người sử dụng ban đầu sẽ thích ứng dụng đó và bắt đầu ảnh hưởng đến bạn bè của họ để cùng sử dụng nó, và bạn bè của họ cũng sẽ như vậy. Bài toán đặt ra là với nguồn ngân sách cho trước, xác định được ai là người sẽ trải nghiệm ứng dụng để giúp lan truyền đến nhiều người dùng nhất cùng sử dụng sản phẩm.

Trong bài báo đã công bố [47], Kempe và các cộng sự tập trung nghiên cứu vấn đề tối ưu hóa ảnh hưởng trên hai mơ hình lan truyền thơng tin: Mơ hình IC và mơ hình LT. Trong bài tốn tối ưu hóa ảnh hưởng, có hai nhiệm vụ tính tốn cần thực hiện: Đầu tiên, là việc xác định tập hạt giống nhằm cực đại hóa giá trị hàm lan truyền ảnh hưởng như trong Định nghĩa 2.1. Thứ hai, là việc tính giá trị hàm lan truyền ảnh hưởng σ(S0), với S0 là tập hạt giống. Cả hai nhiệm vụ tính

tốn này đều đã được chứng minh là hai vấn đề #P-khó dưới cả hai mơ hình IC và LT [60, 61]. Dựa trên tính chất của hàm mục tiêu σ(S0) (tính đơn điệu và tính submodular), Kempe đã đề xuất thuật tốn tham lam cho lời giải có tỉ lệ tối ưu (1−1/e)≈63%. Tuy nhiên, thuật tốn này địi hỏi phải tính lại hàm lan

truyền ảnh hưởng σ(S0) nhiều lần, mà việc tính σ(S0) lại là vấn đề #P-khó. Để giải quyết vấn đề này, Wei Chen, 2014, [60] đã sử dụng phương pháp mơ phỏng Monte Carlo q trình lan truyền thơng tin, từ đó ước lượng giá trị hàm lan truyền ảnh hưởngσ(S0). Với mỗi tập hạt giốngS0, ta có thể mơ phỏng q trình lan truyền thơng tin ngẫu nhiên R lần. Mỗi lần ta tính số đỉnh ở trạng thái kích hoạt khi q trình lan truyền thơng tin kết thúc, sau đó tính tổng trung bình trên R lần mơ phỏng. Khi số lần mơ phỏng R càng lớn thì ước lượng hàm σ(S0) có độ chính xác càng cao.

Một nhược điểm của thuật toán tham lam (sử dụng phương pháp mơ phỏng Monte Carlo) đó là khơng hiệu quả về mặt thời gian thực thi đối với những đồ thị có số đỉnh lớn. Để giải quyết vấn đề này, một loạt những nghiên cứu đã được tiến hành nhằm tìm ra thuật tốn hiệu quả cho vấn đề tối ưu hóa ảnh hưởng, chẳng hạn như thuật toán CELF được đề xuất bởi Leskovec, 2007, [63], CELF++ được đề xuất bởi Goyal, 2011, [64], tiếp sau đó là SPM, SP1M, SIMPATH, BCT, SSA/D-SSA.

Bên cạnh vấn đề lan truyền thông tin, lan truyền ảnh hưởng cũng có nhiều nghiên cứu tập trung giải quyết bài tốn hạn chế thông tin sai lệch lan truyền trên các MXH trực tuyến.

Một số nghiên cứu tập trung vào việc nhận dạng thông tin sai lệch và tin đồn (Rumor) dựa trên đặc trưng ngôn ngữ, cấu trúc, thời gian như nghiên cứu của Qazvinian, 2011, [6] và Kwwon, 2013, [7].

Một số khác, nghiên cứu vấn đề xác định tập đỉnh là nguồn phát thông tin sai lệch ban đầu. Chẳng hạn, Dung T. Nguyen và các cộng sự, 2012, [65] đã nghiên cứu bài toán xác định k nguồn phát tán thông tin sai lệch khả nghi nhất từ tập người dùng bị kích hoạt bởi thơng tin sai lệch cho trước và chứng minh bài tốn thuộc lớp NP-khó xét trên mơ hình lan truyền IC, đồng thời tác giả đã đề xuất hai thuật toán dựa trên cách tiếp cận xếp hạng (Ranking) và cách tiếp cận xấp xỉ đạt tỉ lệ tối ưu (1−1/e−).

Bên cạnh đó, một số tác giả đề xuất giải pháp hạn chế sự lan truyền thông tin sai lệch trên mạng xã hội bằng cách chọn ra một số đỉnh ban đầu để tiêm thơng tin tốt, từ đó lan truyền những thơng tin này trên cùng mạng nhằm thuyết phục

những người dùng khác tin theo, trong đó sử dụng các mơ hình lan truyền thông tin khác nhau [2–4].

Trong [2], Budak và các cộng sự, 2011, đã đưa ra mơ hình tầng độc lập đa chiến dịch (Multi-Campaign Independent Cascade Model), gồm chiến dịch phổ biến thông tin sai lệch và chiến dịch phổ biến thông tin tốt cùng cạnh tranh với nhau. Budak giả sử rằng nếu cả thông tin sai lệch và thông tin tốt cùng kích hoạt một đỉnh thì đỉnh đó sẽ được ưu tiên kích hoạt bởi thơng tin tốt. Bài tốn

đặt ra là với ngân sách giới hạn k cho trước, cần tìm tập đỉnh kích thước k để

tiêm thơng tintốt, từ đó lan truyền thơng tin này trên MXH nhằm cực tiểu hóa

số đỉnh bị kích hoạt bởi thơng tin sai lệch. Budak đã chứng minh bài tốn thuộc

lớp NP-khó và đề xuất thuật tốn tham lam đạt tỉ lệ tối ưu 1−1/e dựa trên thuộc tính submodular của hàm mục tiêu.

Trong [3], H. Zhang và các cộng sự, 2015, đã nghiên cứu bài tốn hạn chế sự lan truyền thơng tin sai lệch dưới mơ hình kích hoạt cạnh tranh (Competitive Activation Model). Trong đó, mỗi đỉnh v ∈V có thể phơi bày cả thông tin tốt và thông tin sai lệch, đồng thời v có hai ngưỡng kích hoạt thơng tin tốt A và thông tinsai lệch B tương ứng làθvA vàθvB. GọiI0A vàI0B tương ứng là tập đỉnh kích hoạt thơng tin tốt và thông tin sai lệch ban đầu. Tại thời điểm t, đỉnh v bị kích hoạt bởi thơng tin tốt nếu P

u∈IA

t−1wAuv ≥ θAv hoặc bị kích hoạt bởi thơng tin sai lệch

nếuP

u∈IB

t−1wuvB ≥θvB. Nếu cả hai ngưỡng đều thỏa mãn,v được coi là bị kích hoạt bởi thơng tin tốt nếu PvA ≥ PvB và ngược lại, trong đó Pvi = (P

u∈Nin

a (v)wuvi )/θvi, với i∈ {A, B}. Sau khi đỉnh v bị kích hoạt, nó sẽ giữ ngun trạng thái cho đến khi q trình lan truyền thơng tin kết thúc. Bài tốn đặt ra là với tập các đỉnh phát thông tinsai lệch I0B ban đầu và sốkA cho trước, hãy xác định tập các đỉnh nguồn phát thông tin tốt I0A, với |I0A|= kA sao cho cực tiểu hóa số đỉnh bị kích hoạt bởi thơng tin sai lệch và cực đại hóa số đỉnh bị kích hoạt bởi thơng tin tốt.

H. Zhang đã chứng minh đây là bài toán thuộc lớp NP-đầy đủ đồng thời đề xuất thuật toán hiệu quả dựa trên việc xác định những đỉnh quan trọng đóng vai trị là đỉnh nguồn phát thông tin tốt.

Trong [4], N. P. Nguyen và các cộng sự, 2013, đã nghiên cứu bài tốn hạn chế thơng tin sai lệch dưới hai mơ hình IC và mơ hình LT, đồng thời đề xuất thuật tốn xác định một tập nhỏ nhất các đỉnh có ảnh hưởng lớn nhất, từ đó lan truyền những thơng tin tốt nhằm hạn chế ảnh hưởng của thông tin sai lệch. Điểm khác

biệt trong nghiên cứu của N. P. Nguyen so với nghiên cứu của Budak [3] đó là: Budak đã giới hạn kích thước của tập các đỉnh được lựa chọn để phổ biến thông tin tốt bởi ngân sách k cho trước, đồng thời Budak đã giả sử thơng tin tốt có sự

ưu tiên kích hoạt hơn so với thơng tin sai lệch khi cùng với tới một đỉnh. Ngoài ra, trong nghiên cứu của N. P. Nguyen cịn mở rộng hơn đó là xét cả hai trường hợp, tập các đỉnh phát thông tin sai lệch ban đầu có thể biết trước hoặc chưa biết trước.

Liên quan gần nhất đến vấn đề nghiên cứu trong luận văn của tác giả đó là cơng trình nghiên cứu của H. Zhang và các cộng sự, 2016, [1]. Trong nghiên cứu của mình, H. Zhang đề xuất hai bài tốn:

- Bài tốn phát hiện thơng tin sai lệch (Misinformation Detection): Giả sử

không biết trước nguồn phát thông tin sai lệch (xác suất các đỉnh trở thành nguồn phát thông tin sai lệch là như nhau), yêu cầu xác định k vị trí đặt

giám sát (Monitor) trên MXH sao cho cực đại hóa xác suất phát hiện thơng tin sai lệch. H. Zhang đã chứng minh bài toán này tương đương với bài tốn cực đại hóa ảnh hưởng theo Định nghĩa 2.1 trong đồ thị đảo ngược (đảo chiều mỗi cạnh).

- Bài toán đặt giám sát (τ-Monitor Placement): Giả sử biết trước nguồn phát

thông tin sai lệch là tập các đỉnh S, r là đỉnh ta cần bảo vệ. Yêu cầu, tìm ra tập đỉnh có kích thước nhỏ nhất để đặt giám sát (sử dụng bộ lọc nội dung nhằm phát hiện thông tin sai lệch ở người dùng (đỉnh) được cài đặt và ngăn chặn sự chia sẻ, lan truyền thông tin sai lệch từ đỉnh này đến những đỉnh láng giềng. Việc đặt giám sát ở một đỉnh tương đương với việc loại bỏ đỉnh này và các cạnh kề với nó khỏi đồ thị ban đầu) sao cho xác suất thơng tin sai lệch kích hoạt thành cơng đỉnh r nhỏ hơn ngưỡng τ cho trước (0 ≤ τ ≤ 1). H. Zhang đã chứng minh bài tốn này thuộc lớp #P-khó trên mơ hình IC và đề xuất thuật toán tham lam dựa trên định nghĩa cut−set2. Sau đó mở rộng bài tốn này cho một nhóm đỉnh cần bảo vệ.

Chương 3

GIẢI PHÁP GIẢM THIỂU TỐI ĐA THIỆT HẠI DO THÔNG TIN SAI LỆCH GÂY RA TRÊN MẠNG XÃ HỘI

TRỰC TUYẾN

Chương này tập trung vào việc xây dựng bài tốn Cực tiểu hóa thiệt hại do thơng tin sai lệch gây ra - MDM, chứng minh bài tốn thuộc lớp bài tốn NP-khó,

đồng thời đề xuất hai thuật tốn tham lam nhằm giải quyết bài toán.

Một phần của tài liệu Luận văn tốt nghiệp giảm thiểu tối đa thiệt hại do thông tin sai lệch gây ra trên mạng xã hội trực tuyến (Trang 36 - 41)

Tải bản đầy đủ (PDF)

(69 trang)