NHIỆM VỤ VÀ NỘI DUNG: Đề xuất và hiện thực một phương pháp ngăn chặn lan truyền thông tin xấu trên một mạng xã hội, đồng thời so sánh với một phương pháp khác để làm rõ ưu thế của phương
Động cơ và bài toán
Mạng xã hội xuất hiện lần đầu tiên năm 1995 với sự ra đời của trang
Năm 1997, Classmate và SixDegrees mở đường cho sự phát triển của mạng xã hội thời kỳ đầu Friendster nổi lên như một hiện tượng tại Hoa Kỳ vào năm 2002 với lượng lớn người dùng Năm 2004, MySpace ra mắt với các tính năng hấp dẫn như chia sẻ phim ảnh, thu hút hàng nghìn thành viên tham gia mỗi ngày Tuy nhiên, cột mốc đánh dấu sự bùng nổ của mạng xã hội phải kể đến sự xuất hiện của Facebook vào năm 2006 với nền tảng lập trình mới.
"Facebook Platform" cho phép thành viên tạo ra những công cụ (apps) mới cho cá nhân mình cũng như các thành viên khác Kể từ đó, lượng người tham gia vào mạng xã hội tăng dần với tốc độ chóng mặt Năm 2012, chỉ tính riêng Facebook đã đạt hơn 1 tỷ người dùng.[11]
Việc mạng xã hội phát triển rộng rãi đem lại nhiều lợi ích to lớn Người dùng liên kết với nhau chặt chẽ hơn, thông tin đƣợc chia sẻ và lan rộng nhanh với tốc độ chóng mặt Chỉ với vài thao tác đơn giản, bạn có thể biết đƣợc những thông tin mới nhất về một vấn đề mà mình quan tâm Tuy nhiên, chính việc lan truyền thông tin với tốc độ rất nhanh và rộng đó cũng đem đến những hiệu ứng tiêu cực nặng nề Ở đây cụ thể là việc thông tin nhạy cảm hoặc thông tin sai lêch gây ảnh hưởng xấu đến người dùng hoặc tổ chức bị rò rỉ trên mạng xã hội và được lan truyền đến những người dùng khác Những thông tin này có thể xuất phát từ những nguồn như bản thân người dùng ( khi người dùng đó chưa ý thức được tác động tiêu cực của thông tin hay do tài khoản người dùng đó bị kẻ gian xâm nhập ), hoặc do một người khác hoặc 1 tổ chức khác chia sẻ nhằm gây tác động xấu đến nạn nhân
2 Chính vì vậy, đi cùng với sự phát triển mạnh mẽ của mạng xã hội, thì người dùng càng cần phải được bảo vệ chặt chẽ khi tham gia vào lĩnh vực này Bên cạnh việc cung cấp các cơ chế bảo mật và thiết lập chế độ bảo mật cho thông tin của người dùng mà rất nhiều mạng xã hội đang áp dụng hiện nay, giới nghiên cứu hiện tập trung vào việc tìm ra các giải pháp nhằm ngăn chặn sự lan truyền của những thông xấu nhằm mục đích giảm thiểu tối đa những tác động tiêu cực mà thông tin đó gây ra cho người dùng Đó cũng chính là nội dung mà đề tài này hướng đến
Bài toán cần giải quyết
Vấn đề đƣợc đặt ra có thể hình dung nhƣ sau :
Giả sử một mạng xã hội ( lấy ví dụ là Facebook) tiếp xúc với một thông tin xấu ( bất lợi ) với một cá nhân , để giải quyết , cá nhân đó phải gửi thông tin đính chính đến các cá nhân khác
Việc gửi tất cả thành viên là bất khả thi vì một cá nhân chỉ có thể tiếp cận với 1 số lượng người nhất định Điều đó dẫn đến nhu cầu chọn ra những người hiệu quả nhất
Từ đó ta phát biểu thành bài toán cần giải quyết :
Để chống lại thông tin xấu trên mạng xã hội biểu diễn bằng đồ thị G = (V, E) gồm V đỉnh và E cạnh, chúng ta cần tìm một tập hợp đỉnh để lan truyền thông tin đúng sau d bước nhảy với tỉ lệ ít nhất là 𝜏, hoặc tỉ lệ tốt nhất có thể Tỉ lệ lan truyền 𝜏 biểu thị mức độ thông tin đúng sẽ tiếp cận người dùng trong mạng xã hội, trong khi d bước nhảy đại diện cho số lần lan truyền thông tin Bằng cách chọn tập hợp đỉnh phù hợp, chúng ta có thể tối đa hóa khả năng lan truyền thông tin đúng và chống lại sự lan truyền thông tin xấu một cách hiệu quả.
3 đƣợc khử thì không nhiễm thông tin xấu trở lại nữa ) Việc cần giải quyết ở đây là tối thiểu hóa tập hợp điểm phải chọn hay nói cách khác là tìm những điểm thỏa mãn hiệu suất lan truyền cao nhất
Ví dụ :Cho một mạng lưới người dùng có cấu trúc như hình sau :
Hình 1.1 : Mạng lưới người dùng đơn giản
Giả sử tất cả người dùng trong mạng đều tiếp xúc với một thông tin xấu
Ta muốn đính chính thông tin này bằng cách chia sẻ với một số người trong mạng nhằm đạt được một tỉ lệ người tiếp xúc với thông tin mà ta chia sẻ Giả sử ta chỉ được chọn 2 người với một lần gửi thông tin duy nhất nhằm đảm bảo thông tin đó đến với ít nhất 50% số người trong mạng
4 Một phương pháp chọn người thỏa mãn điều kiện trên được biểu diễn ở hình sau:
Hình 1.2 : Một trường hợp chọn người dùng thỏa mãn điều kiện Ở hình trên ta thấy 2 đỉnh được chọn sẽ có ảnh hưởng nhiều nhất đến các đỉnh còn lại Việc chọn 2 đỉnh đó để truyền đạt thông tin sẽ đạt hiệu quả cao nhất đồng thời thỏa các yêu cầu bài toán
Mục tiêu và giới hạn của đề tài
Mục tiêu
Đề tài này hướng đến mục tiêu nghiên cứu các giải thuật, mô hình hiện có để xây dựng một giải thuật tối ưu, đồng thời triển khai một hệ thống thử nghiệm nhằm kiểm chứng khả năng ngăn chặn sự lan truyền thông tin trên mạng xã hội cụ thể.
Giới hạn
Do việc thu thập một lượng lớn thông tin về người dùng trên một mạng xã hội cụ thể là tương đối phức tạp nên trong đề tài này chúng tôi thu thập một lượng vừa phải thông tin người dùng kèm theo tạo một lượng dữ liệu giả mô phỏng người dùng để tiến hành xây dựng hệ thống Mạng xã hội đƣợc chọn để thu thập thông tin ở đây là Facebook Quy mô của tập dữ liệu vào khoảng vài nghìn người dùng.
Phương pháp tiến hành
Hệ thống tính toán dựa trên dữ liệu về người dùng trên một mạng xã hội thực Để thuận lợi, chúng tôi thực hiện tạo một số lƣợng dữ liệu ảo để hiện thực giải thuật đồng thời với thu thập dữ liệu về người dùng thực để xây dựng thành tập dữ liệu Sau khi xây dựng đƣợc tập dữ liệu chúng tôi tiến hành tạo một cơ sở dữ liệu
(database) bằng ngôn ngữ MySql, database này là dữ liệu đầu vào cho hệ thống ngăn chặn lan truyền thông tin xấu trên mạng xã hội Hệ thống này đƣợc viết bằng ngôn ngữ PHP Các kết quả đầu ra sẽ đƣợc hiển thị trên các trình duyệt web.
Cấu trúc của luận văn
Trong phần này chúng tôi giới thiệu tổng quát về đề tài cũng nhƣ mục tiêu, giới hạn và cách tiến hành Phần còn lại của luận văn sẽ đƣợc tổ chức nhƣ sau:
Phần 2 khảo sát các công trình đã đăng tải có liên quan, sau đó giới thiệu phương pháp và hướng tiếp cận của đề tài
Tại phần 3, để hiện thực hóa hệ thống ngăn chặn lan truyền thông tin, chúng tôi sẽ phân tích và diễn giải cụ thể các kỹ thuật được lựa chọn.
6 Phần 4 trình bày chi tiết về ý tưởng xây dựng hệ thống ngăn chặn thông tin xấu trên mạng xã hội
Phần 5 trình bày về cách hiện thực hệ thống, kết quả chạy thí nghiệm và đƣa ra một số đánh giá về độ chính xác và tốc độ của hệ thống
Phần 6 đưa ra kết luận và đề xuất một số hướng phát triển tiếp theo trong tương lai của đề tài
Nghiên cứu liên quan
Giảm bậc Heuristic (Degree Discount Heuristic)
Giải thuật chính là Degree Discount IC
1: initialize S = ỉ 2: for each vertex v do 3: compute its degree d v
7: for I = 1 to k do 8: select u = argmax v {dd v | v €V\S}
10: for each neighbor v of u and v € V \S do 11: t v = t v + 1
14: endfor 15: output S Ý tưởng chính của giải thuật này là việc xem xét đỉnh kề của một đỉnh hạt giống trở thành một đỉnh hạt giống mới dựa trên bậc của nó đồng thời giảm bậc của một đỉnh ứng với những đỉnh kề với nó xuất hiện trong tập đỉnh đƣợc chọn[3,4,18,19]
So sánh Độ phức tạp của các giải thuật :
Giải thuật Độ phức tạp
Bảng 2.2: Bảng độ phức tạp của các giải thuật trong phần 2.1
Ngoài các giải thuật trên, người ta còn đề xuất một số giải thuật phức tạp hơn nhƣ Mixed Greedy IC, CELF Greedy Bằng một số thực nghiệm, các nhà nghiên cứu so sánh tốc độ lan truyền của các giải thuật nói trên và biểu thị chúng trong đồ thị nhƣ sau [4] :
12 Hình 2.2: So sánh tốc độ lan truyền ảnh hưởng giữa các giải thuật tham lam.
Giải thuật PageRank
PageRank là chỉ số đánh giá chất lượng và độ tin cậy của trang web do Google đưa ra PageRank dựa trên số lượng và chất lượng liên kết trỏ đến trang web Không chỉ phụ thuộc vào số lượng liên kết, PageRank còn quan trọng ở độ tin cậy của các trang web nguồn.
PR(A) là PageRank của trang A
L(B) là số liên kết từ trang A trỏ đến các trang khác
d là damping factor Để tránh việc một trang web vừa khởi tạo có giá trị không hợp lý, nên Larry Page và Sergey Brin sau nhiều lần tính toán xác
13 suất người dùng tìm đế 1 trang web 1 cách vô tình hoặc click vào link từ trang web khác, đã đề xuất giá trị d = 0.85
Công thức trên hoạt động theo nguyên tắc lặp, giá trị PR(A) sẽ tiến gần đến một giá trị cụ thể sau mỗi lần lặp
Để công thức hoạt động thì ta cần phải cho giá trị PageRank của từng trang ứng với một giá trị khởi điểm Thông thường người ta chọn giá trị này là 1 hoặc 1/n, với n là số trang trong sơ đồ Đồng thời ta phải xác định thời điểm dừng của vòng lặp o Ví dụ: ta có các trang A, B, C với các liên kết nhƣ hình sau
Hình 2.2: Ví dụ về các trang liên kết
Giải thuật dừng tại lần lặp 31
Ta thấy vòng lặp xuất hiện nên giải thuật lặp rất nhiều lần và chỉ dừng khi sai số là rất nhỏ
Ta thấy bản chất của các đối tƣợng trong nghiên cứu về PageRank giống với cấu trúc của Mô hình mạng xã hội Vì thế việc áp dụng giải thuật này vào việc chọn các đỉnh lan truyền cũng là một giải pháp được nhiều người nghĩ đến[3]
Bản chất của giải thuật này là tính toán trọng số ảnh hưởng của các đỉnh trong đồ thị Sau đó chọn những đỉnh có trọng số cao nhất theo một số điều kiện cho trước Một giải thuật minh họa là Top-K [8,9]
1 : input G = ( V, ặ T,W ) , λ, [α 1 ,… Α n ], K 2 : output : S : set of Top-K authoritative nodes
3 : S = ỉ 4: compute p = [p 1 ,…p n ]’ in O(|ặ |) time 5: for each node I do
7: IsBound i = True 8: while|S| < K do 9: Find node d with the biggest U d in U 10: if IsBoundd == True then
𝑃𝑑𝑑 𝑃𝑗𝑑 for all js in O(|ặ|) time ;
Tuy nhiên việc tính toán PageRank khá phức tạp và tốn kém thời gian nên việc áp dụng toàn bộ giải thuật PageRank vẫn chƣa phải là giải pháp khả thi nhất
Một số nghiên cứu về ngƣỡng (threshold) và cây (tree)
Trong một số nghiên cứu mở rộng, các nhà nghiên cứu đƣa ra thêm một số định nghĩa mới
Khái niệm tập hợp mục tiêu lựa chọn ( Target set selection ): Một tập hợp con của các đỉnh chọc lựa từ đầu đảm bảo rằng tất cả các đỉnh trong đồ thị cuối cùng sẽ đƣợc kích hoạt Dễ nhận thấy tập hợp tổng quát nhất chính là tập hợp tất cả các đỉnh của đồ thị Để giảm thiểu số đỉnh phải lựa chọn, các nhà nghiên cứu tìm ra một số mô hình đáp ứng đƣợc nhu cầu trên
Ngƣỡng (Threshold): là một giá trị qui định khi nào một đỉnh đƣợc xem là đã kích họa ( hoặc lây nhiễm)
Các mô hình sau đƣợc đề nghị để giải quyết vấn đề a) Majority Thresholds Đặc điểm : Ngưỡng của một đỉnh là một giá trị tương ứng nửa số đỉnh kề với nó Một đỉnh trong đồ thị sẽ đƣợc kích hoạt (hoặc lây nhiễm) nếu một ít nhất một nửa số đỉnh kề của nó đƣợc kích hoạt ( hoặc lây nhiễm ) [15] b) Small Thresholds Đặc điểm: ngưỡng là một hằng số có giá trị nhỏ cho trước, áp dụng với toàn bộ đỉnh
Khi các ngƣỡng có giá trị k nhỏ, các nhà nghiên cứu chứng minh rằng bài toán tìm Target Set Selection là một bài toán NP-hard khi k ≥3 [10,14] Khi k 1, mỗi lần chọn đỉnh ta chỉ việc chọn 1 đỉnh có liên kết bất kì với điểm đã chọn trước đó Khi k = 2, các nhà nghiên cứu đã tìm được lời giải nhưng khá phức tạp [5] c) Unanimous Thresholds Đặc điểm: Ngƣỡng của một đỉnh chính là bậc của đỉnh đó
Mô hình này thường được sử dụng trong nghiên cứu an ninh mạng Ví dụ, trong một mạng chống virus lý tưởng, khi virus máy tính đang lây lan, một đỉnh có thể xem là bị lây nhiễm nếu tất cả các đỉnh kề với đỉnh đó bị lây nhiễm
Khi đồ thị cơ bản có dạng cây , các nhà nghiên cứu tìm ra một giải thuật để giải bài toán tìm Target Set Selection trong thời gian đa thức với một giải thuật đƣợc xem là tối ƣu nhƣ sau :
Let t’(v) = t(v), for v €V Let x(v) = 0, for each leaf v €V
While there is x(v) not defined yet for any vertex u where all x(.)'s of its children have been defined let w be u's parent if t’(u) ≥ 2 let x(u) = 1 let t’(w) t’(w) – 1 else let x(u) = 0 if t’(u) ≤0 let t’(w) t’(w) – 1 Output the target set { v €V | x(v) = 1}
2.1.5 Các mô hình thường dùng trong nghiên cứu đồ thị a) Mô hình Cascade Đặc điểm mô hình Cascade [1,14]: Bắt đầu với một tập đỉnh hoạt động A0 , và quá trình mở trong từng bước rời rạc theo một quy luật ngẫu nhiên sau : Khi đỉnh v được kích hoạt ở bước t , cho phép duy nhất một lần kích hoạt một đỉnh kề chƣa hoạt động w của nó Xác suất kích hoạt thành công là p vw
Nếu v kích hoạt thành công, w sẽ trở thành đỉnh hoạt động ở bước t + 1 Tuy nhiên dù đỉnh v kích hoạt w thành công hay không thì nó cũng không thể kích hoạt w ở bước tiếp theo nữa Quá trình chạy cho đến khi không kích hoạt nhiều hơn nữa b) Mô hình Linear Threshold Đặc điểm mô hình Linear Threshold [12,14] : Chọn ngƣỡng ngẫu nhiên , và một tập đỉnh A0 ban đầu hoạt động (với tất cả các nút khác không hoạt động), quá trình khuếch tán xảy ra ở các bước một cách rời rạc: ở bước t, tất cả các nút
17 đã được hoạt động trong bước t-1 vẫn hoạt động, kích hoạt bất kỳ nút v mà tổng trọng số của các đỉnh kề hoạt động của có giá trị tối thiểu là θ v
Mỗi đỉnh v có một ngƣỡng θ v ~ U(0,1) Đỉnh v ảnh hưởng bởi mỗi đỉnh kề w phụ thuộc vào weight b vw thỏa
Hay nói cách khác, đỉnh v bị lây nhiểm khi các đỉnh kề với v bị lây nhiễm theo một tỉ lệ cho trước Đỉnh v đƣợc kích hoạt khi ít nhất θ v đỉnh kề với nó đƣợc kích hoạt.
Nhận xét
Các nghiên cứu trên đều nhằm mục đích nghiên cứu về các mối liên hệ giữa các đỉnh trong một đồ thị, nghiên cứu tính toán mức độ ảnh hưởng của các đỉnh, cạnh của đồ thị cũng như là các thực thể trong một mạng lưới nhất định
Các kết quả đạt đƣợc đều có mục đích cung cấp nền tảng cho những nghiên cứu về tính lan truyền trên mạng xã hội, trong đó ngăn chặn lan truyền thông tin xấu là một trường hợp cụ thể Tuy nhiên do độ phức tạp khá cao cũng như điều kiện hiện thực không phù hợp nên những nghiên cứu này chƣa đƣợc áp dụng cụ thể trong đề tài này Vì thế đề tài sẽ tập trung vào việc nghiên cứu một số giải thuật có độ phức tạp thấp hơn, đồng thời có khả năng hiện thực cao hơn Các giải thuật đó sẽ đƣợc nói rõ hơn trong phần tiếp theo của luận văn
Định nghĩa về thực thể bị thương tổn
Ta xem một mạng xã hội là một đồ thị G gồm V đỉnh và E cạnh :
Mỗi thực thể là một đỉnh trong đồ thị Khi đó một thực thể đƣợc xem là tổn thương nếu thông tin xấu của thực thể đó được truyền đến các đỉnh khác trong đồ thị với tỉ lệ ít nhất là 𝜏 ( với 0