Tổng quan về tin giả
Giới thiệu
Sự ra đời của internet là một phát minh quan trọng, các nền tảng truyền thông xã hội (như Facebook và Twitter) ra đời và phát triển mạnh mẽ chưa từng có đã tạo điều kiện cho con người trên khắp thế giới có thể giao tiếp với nhau. Với thế mạnh chi phí rẻ, tốc độ nhanh chóng, sử dụng một cách dễ dàng, các nền tảng truyền thông mạng xã hội đã thu hút rất đông đảo người dùng Họ có thể truy cập, tìm kiếm hay đăng tải thông tin mà không cần có sự kiểm soát nào.
Cùng với sự phát triển mạnh mẽ của các nền tảng truyền thông xã hội, nhiều tài khoản tạo và lan truyền các tin giả với mục đích trục lợi hoặc chống lại các cá nhân, tổ chức khác Tin giả được coi là mối đe dọa rất lớn đối với cộng đồng
[1] Các cuộc tranh luận gần đây về dịch Covid-19 hoặc các cuộc tranh luận điễn ra trong suốt các thập kỉ qua hoặc các vấn đề như thảm kịch thế giới, di cư liên quan đến chiến tranh, hiện tượng nóng lên toàn cầu, làm dấy lên các cuộc thảo luận sôi nổi trong xã hội, báo chí và các nền tảng trực tuyến Ảnh
5 hưởng của tin giả thể hiện rõ nhất trong cuộc bầu cử tổng thống Hoa Kỳ năm
2016 [2], nơi 20 câu chuyện bầu cử giả được thảo luận thường xuyên hàng đầu đã tạo ra 8.711.000 lượt chia sẻ, phản ứng và bình luận trên Facebook, nhiều hơn 7.367.000 cho 20 câu chuyện bầu cử được thảo luận nhiều nhất do 19 trang web tin tức lớn đăng tải [3] So với tin thật, tin giả trên Twitter thường được nhiều người dùng retweet hơn và lan truyền nhanh hơn rất nhiều, đặc biệt là các tin chính trị Đại dịch COVID-19 và việc thiếu thông tin về nguyên nhân, cách phòng ngừa hoặc chữa trị, đặc biệt là trong những tháng đầu tiên của đại dịch, đã thúc đẩy sự lan truyền của nhiều tin đồn và trò lừa bịp một cách có tổ chức nhằm truyền bá thông tin sai lệch [4] Các nền kinh tế của chúng ta cũng không tránh khỏi sự lan truyền của tin giả, với tin giả có liên quan đến những biến động của thị trường chứng khoán và các giao dịch lớn Ví dụ, tin giả tuyên bố rằng Barack Obama, Tổng thống thứ 44 của Hoa Kỳ, đã bị thương trong một vụ nổ đã xóa sạch 130 tỷ đô la giá trị cổ phiếu [5].
Những sự kiện và tổn thất này đã thúc đẩy nghiên cứu tin tức giả mạo và khơi mào cuộc thảo luận xung quanh tin tức giả mạo, thể hiện qua việc sử dụng các thuật ngữ như “hậu sự thật” – được Từ điển Oxford chọn là từ ngữ quốc tế của năm vào năm 2016 [6]; “tin tức giả” trở thành Từ của Năm trong Từ điển Collins năm 2017 [7].
Sự gia tăng hoạt động của tin tức trực tuyến có thể bị nhiều đối tượng xấu lợi dụng xuất bản và lan truyền tin giả nhằm trục lợi cho bản thân Vì những lợi nhuận mà tin giả đem lại mà càng ngày có nhiều cá nhận bị thu hút tham gia vào các hoạt động phát tán, lan truyền tin tức giả Không chỉ thế, khi các đảng phái và các ông trùm kinh doanh đứng đằng sau việc tạo ra tin tức giả, tìm kiếm quyền lực và lợi ích hấp dẫn của nó, thì sẽ có khả năng lớn làm cho tin tức giả trở nên thuyết phục hơn và không thể phân biệt được đâu là thật đối với công chúng Các yếu tố xã hội và tâm lý đóng một vai trò quan trọng trong việc tin tức giả tạo được lòng tin của công chúng và tạo điều kiện thuận lợi hơn nữa cho việc lan truyền tin tức giả Ví dụ một nghiên cứu của Rubin chỉ ra rằng con người có khả năng phát hiện sự lừa dối trong khoảng 55-58
Khả năng đưa ra quyết định của chúng ta chủ yếu dựa vào loại thông tin mà chúng ta sử dụng; thế giới quan của chúng ta được định hình dựa trên thông tin mà chúng ta thu thập được Ngày càng có nhiều bằng chứng cho thấy người dùng đã phản ứng một cách vô lý trước những tin tức mà sau đó được chứng minh là tin giả Một trường hợp gần đây là sự lây lan của virus Covid19, khắp internet lan truyền những tin tức giả về nguồn gốc, bản chất, hành vi của virus và phương pháp điều trị Điều này trở nên tồi tệ hơn khi ngày càng có nhiều người đọc về các nội dung giả mạo trên mạng và tin vào điều đó.
Sự phổ biến của tin tức giả trên mạng xã hội và những tác động tiêu cực nghiêm trọng của nó đã trở thành mối quan tâm hàng đầu của công chúng Để giảm thiểu những tác động tiêu cực do tin tức giả gây ra, điều cốt yếu là phải ngăn chặn tin tức giả mạo trước khi nó đến được với nhiều đối tượng Một trong những bước quan trọng để đạt được mục tiêu này là phát hiện sớm tin tức giả mạo, tức là phát hiện tin tức giả ngay sau khi nó bắt đầu lan truyền.
Việc phân định giữa tin đúng và tin giả là một trong những nhiệm vụ khó khăn đối với con người Phát hiện tin giả thủ công không phù hợp với lượng lớn thông tin mới được tạo ra, đặc biệt là trên phương tiện truyền thông xã hội. Hiện nay có một số trang web phát hiện tin giả theo cách thủ công, như các trang web xác minh tính xác thực “politiFact” và “Snopes” [9] [10], kiểm tra dữ liệu dựa vào các chuyên gia để điều tra và đánh giá các bài báo giả mạo do độc giả trực tuyến báo cáo Kết quả đánh giá sau đó được công bố rộng rãi như một tài liệu tham khảo để kiểm tra thực tế Sau cuộc bầu cử năm 2016, các “ông lớn” như Google và Facebook cũng đã thực hiện các bước để chống lại tin tức giả mạo [5].
Mặc dù việc kiểm tra thực tế bằng thủ công trên các trang web có thể giúp người dùng xác định tin tức giả nhưng chỉ có thể áp dụng vào một số lĩnh vực cụ thể và cần chuyên môn của con người Để phát hiện sớm tin giả là khó thực hiện Vào thời điểm một tin bài bị các trang web hoặc công cụ xác minh và công bố là giả mạo, thì nó thường đã tiếp cận được nhiều đối tượng và gây hại cho xã hội Hơn nữa, lương thông tin xã hội bùng nổ hàng ngày trên mạng truyền thông là quá lớn, việc xác minh thủ công gần như cho kết quả không đáng kể.Trong bối cảnh như vậy, các phương pháp phát hiện tự động là cấp thiết (lý do
Hình 1.1: Tổng quan về các công cụ khác nhau chống lại tin tức giả thứ nhất).
Các nền tảng truyền thông xã hội tuân theo cấu trúc đồ thị trong biểu diễn của chúng [11] Mạng nơ ron đồ thị là một kỹ thuật mới mẻ tập trung vào việc sử dụng các thuật toán học sâu trên cấu trúc đồ thị Trước khi được áp dụng trong các hệ thống phát hiện tin giả, các mạng GNN đã được áp dụng thành công trong nhiều nhiệm vụ liên quan đến học máy truyền thống và xử lý ngôn ngữ tự nhiên như phát hiện đối tượng, phân tích tâm trạng, và dịch máy Sự phát triển nhanh chóng của các phương pháp dựa trên GNN cho các hệ thống phát hiện tin giả trên mạng xã hội có thể được quy cho sự phát triển nhanh chóng của các mạng xã hội về số lượng người dùng, lượng tin tức đăng và tương tác người dùng Do đó, mạng xã hội tự nhiên trở thành các cấu trúc đồ thị phức tạp Nếu chúng được áp dụng độc lập, điều này gây khó khăn cho các thuật toán phát hiện tin giả dựa trên học máy truyền thống và học sâu đã từng tồn tại Những lý do chính dẫn đến hiện tượng này là sự phụ thuộc của kích thước đồ thị vào số lượng đỉnh và số lượng hàng xóm của các đỉnh khác nhau Ngoài ra, các thuật toán phát hiện tin giả dựa trên bằng học máy truyền thống truyền thống (SVM, k-NN, ) có giả định chính các mục tin là độc lập Giả định này không thể áp dụng cho dữ liệu đồ thị vì các đỉnh có thể kết nối với nhau thông qua các loại mối quan hệ khác nhau, như trích dẫn, tương tác và liên kết bạn bè.
Do vậy, các phương pháp phát hiện tin giả bằng học máy truyền thống truyền thống chưa khai thác được cấu trúc (dữ liệu) đồ thị của thông tin, làm giảm hiệu quả trong phát hiện tin giả (lý do thứ hai).
Do vậy rất cần có phương pháp tự động phát hiện tin giả bằng ứng dụng học biểu diễn đồ thị.
Định nghĩa tin giả
Trước khi có công nghệ số hóa và internet, tin giả thường được lan truyền qua báo chí, sách, và các phương tiện truyền thông khác Các bài viết sai lệch, tin tức thiếu chính xác, và thông tin có hại đã tồn tại từ thời kỳ đầu của báo chí Trong những năm gần đây, tin tức giả đã tiếp cận được nhiều đối tượng hơn với sự trợ giúp của phương tiện truyền thông xã hội và gây ra tác hại xã hội nghiêm trọng hơn Có rất nhiều nghiên cứu về tin tức giả mạo, tuy nhiên đến thời điểm hiện tại thì vẫn chưa có định nghĩa thống nhất về thuật ngữ này.
Có thể hiểu tin tức là siêu thông tin và có thể bao gồm những đặc điểm sau:
• Nguồn: Nhà xuất bản tin tức, chẳng hạn như tác giả, trang web và mạng xã hội.
• Tiêu đề: Mô tả chủ đề chính của tin bằng một đoạn văn ngắn nhằm thu hút sự chú ý của độc giả.
• Nội dung chính: Mô tả chi tiết về tin tức, bao gồm các điểm nổi bật và đặc điểm của nhà xuất bản.
• Hình ảnh/Video: Một phần nội dung cung cấp hình ảnh minh họa trực quan để đơn giản hóa nội dung tin tức.
• Liên kết: Liên kết đến các nguồn tin tức khác.
Tuy nhiên, hiện nay tin tức là gì đã trở nên khó xác định hơn Đặc biệt,trong bối cảnh số hóa hiện nay, việc định nghĩa truyền thống về tin tức bị thách thức Không cần là nhà báo, những người dùng thông thường cũng có thể tiếp cận với số lượng đông đảo khán giả Điều này dẫn đến việc khó kiểm chứng thông tin là thật hay giả.
Các nghiên cứu hiện nay thường nghiên cứu về tin giả thông qua các khái niệm, thuật ngữ như [3]: tin lừa đảo (deceptive news), tin sai sự thật (false news), tin châm biếm (satire news), thông tin sai lệch (disinformation), tin đồn (rumor). Định nghĩa 1 (Định nghĩa rộng về tin giả) [3]: tin tức bao gồm rộng rãi các bài báo, tuyên bố, bài phát biểu, bài đăng, trong số các loại thông tin khác liên quan đến các nhân vật và tổ chức của công chúng Nó có thể được tạo ra bởi các nhà báo và những người không phải là nhà báo Định nghĩa về tin tức như vậy làm dẫn đến một số lo ngại về mặt xã hội khi khó xác định tin tức, tin giả. Một định nghĩa hẹp hơn về tin giả, đáp ứng các yêu cầu chung về tin giả như sau: Định nghĩa 2 (Định nghĩa hẹp về tin giả) [3]: tin tức giả mạo là tin tức sai lệch có chủ ý được xuất bản bởi một đơn vị phát hành tin tức Tin tức lừa đảo có hại hơn và khó phân biệt hơn so với tin tức sai sự thật một cách vô ý Định nghĩa này nhấn mạnh cả tính xác thực và ý định của tin tức; nó cũng đảm bảo thông tin được đăng là tin tức bằng cách điều tra xem nhà xuất bản của nó có phải là một hãng tin hay không Thông thường các hãng tin xuất bản tin tức dưới dạng các bài báo với các thành phần cố định: tiêu đề, (các) tác giả, phần nội dung, (các) hình ảnh và/hoặc (các) video bao tuyên bố về các nhân vật của công chúng và tổ chức.
Cả hai định nghĩa đều yêu cầu tính xác thực của tin tức giả là không thực tế. Độ giả của tin tức nên được suy ra bằng cách so sánh với các sự kiện khách quan chứ không phải với các quan điểm (sở thích) cá nhân Do đó, việc coi tin giả là những bài báo không phù hợp với lợi ích hoặc quan điểm của cá nhân/nhóm là không phù hợp Sự giả dối như vậy có thể được gán cho toàn bộ hoặc một phần nội dung tin tức, hoặc thậm chí cho tin tức đúng sự thật khi các sự kiện tiếp theo đã làm cho sự thật ban đầu trở nên lỗi thời.
Mặc dù tồn tại nhiều định nghĩa khác nhau, nhưng hầu hết các tin giả đều có những đặc điểm chung sau:
• Hiệu ứng phản hồi: môi trường tập trung vào ý kiến của những người dùng có cùng khuynh hướng chính trị hoặc niềm tin về một chủ đề Những ý kiến này được củng cố bởi các tương tác lặp đi lặp lại với những người dùng khác có xu hướng và thái độ tương tự Tần suất kinh nghiệm hình thành khi mọi người thường xuyên nghe tin tức, dẫn đến sự chấp nhận thông tin một cách tự nhiên, ngay cả khi đó là tin giả.
• Có ý định lừa dối: các tin lừa dối được đưa ra bởi lý do chính trị/tư tưởng. Tuy nhiên, tin cũng có thể xuất hiện và lan truyền để mua vui, giải trí, hoặc “để kích động”.
• Tài khoản độc hại: Hiện nay, tin tức trên mạng xã hội đến từ cả tài khoản thật và tài khoản ảo Mặc dù tin giả được tạo ra và lan truyền chủ yếu bởi các tài khoản ảo, một số tài khoản thật vẫn lan truyền tin giả Các tài khoản được tạo chủ yếu để phát tán tin giả được gọi là tài khoản độc hại. Tài khoản độc hại này cũng có thể tự động đăng tin tức và tương tác với những người dùng mạng xã hội khác.
• Tính xác thực: Đặc điểm này nhằm xác định xem tin tức có đúng sự thật hay không Các tuyên bố thực tế có thể được chứng minh là đúng hoặc sai. Nói cách khác, tin này có lúc sai, có lúc đúng hoặc sai hoàn toàn.
Căn cứ vào đặc điểm của tin giả, có thể đưa ra một định nghĩa về tin giả như sau: "Tin giả" là tin có chứa các tuyên bố không đúng sự thật với các tài khoản độc hại có thể gây ra hiệu ứng phản hồi, với mục đích đánh lừa công chúng.
Hình 1.2: Đám mây từ thể hiện ý nghĩa khác nhau của tin giả
Các phương pháp phát hiện tin giả
Dựa trên tri thức
Tri thức đóng vai trò quan trọng trong việc xác định tính chân thực của tin tức Tri thức bao gồm những thông tin, sự hiểu biết và kinh nghiệm mà một người hoặc một hệ thống đã tích lũy được Tri thức có thể được học từ các nguồn như sách vở, báo chí, tạp chí, nghiên cứu khoa học và cả kinh nghiệm cá nhân Tri thức dựa trên chuyên gia đuợc tập hợp bởi một nhóm người có trình độ chuyên môn và độ tin cậy cao Cách làm này có ưu điểm là độ chính xác cao nhưng tốn chi phí và không phù hợp với lượng lớn thông tin cần xác minh Tri thức dựa trên cộng đồng là dựa vào lượng lớn người dùng mạng xã hội cung cấp. Cách làm này ít tốn kém và thu được lượng lớn thông tin, tuy nhiên khó quản lí và độ chính xác thấp.
Hiện có nhiều trang web cho phép xác thực thông tin dựa trên tri thức chuyên gia như trang Politifact cung cấp thẻ điểm Politifact thống kê tính xác thực của các công bố liên quan đến một chủ đề.
Phương pháp phát hiện tin giả dựa trên tri thức gồm các bước sau:
Hình 1.4: Ví dụ xác minh thông tin dựa trên tri thức
Thứ nhất, xây dựng tri thức: Để phát hiện tin giả, cần xây dựng một cơ sở dữ liệu tri thức phong phú và đa dạng Tri thức này bao gồm các thông tin và sự kiện đã được xác minh và được công nhận là đúng đắn Các nguồn dữ liệu có thể bao gồm các nghiên cứu khoa học, báo cáo của tổ chức uy tín, và cơ sở dữ liệu tin tức chính thống.
Thứ hai, phân tích nội dung: Phương pháp này sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) và trí tuệ nhân tạo (AI) để phân tích nội dung của tin tức Các thuật toán NLP và AI được áp dụng để phân tích cú pháp, ngữ nghĩa và ngữ cảnh của các bài viết, bài báo, bài đăng trên mạng xã hội và các nguồn tin khác Các phương pháp như phân loại văn bản, phân tích tâm lý, phân tích đồ thị và phát hiện sự mâu thuẫn được sử dụng để xác định tính chân thực của tin tức.
Thứ ba, kiểm tra sự phù hợp với tri thức: Các thông tin được kiểm tra sự phù hợp với tri thức đã xây dựng Các thuật toán so sánh nội dung của tin tức với cơ sở dữ liệu tri thức để xác định tính chân thực của tin tức Nếu tin tức không phù hợp hoặc mâu thuẫn với tri thức đã biết, có thể đánh dấu nó là tin giả hoặc cần thêm sự xác minh.
Thứ tư, xác minh nguồn tin: Phương pháp này tập trung vào việc xác minh nguồn tin của tin tức Các thuật toán sẽ phân tích độ tin cậy và uy tín của nguồn tin, dựa trên lịch sử và đánh giá từ người dùng hoặc các tổ chức chuyên gia Nếu nguồn tin được coi là không đáng tin cậy hoặc có tiềm năng là tin giả, tin tức sẽ được đánh dấu và cần được xem xét thêm.
Thứ năm, theo dõi và phản ứng nhanh: Phương pháp này đòi hỏi việc theo dõi liên tục các nguồn tin và sự lan truyền của tin giả Các thuật toán sẽ phân tích và phát hiện sự lan truyền tin giả, từ đó đưa ra các biện pháp phản ứng nhanh để ngăn chặn sự lan rộng của tin giả. Ưu điểm: Phương pháp "Phát hiện tin giả dựa trên tri thức" tận dụng tri thức đã xây dựng để đánh giá tính chân thực của tin tức Sử dụng các công nghệ hiện đại như NLP và AI để phân tích nội dung và kiểm tra tính chân thực của tin tức Có khả năng theo dõi và phản ứng nhanh để ngăn chặn sự lan rộng của tin giả và giảm thiểu tác động tiêu cực của tin giả đối với xã hội.
Hạn chế: Phương pháp này đòi hỏi một cơ sở dữ liệu tri thức phong phú và đáng tin cậy để so sánh và xác định tính chân thực của tin tức Việc xây dựng và duy trì cơ sở dữ liệu này có thể tốn kém và phức tạp Đối với các tin tức mới và chưa được xác minh, phương pháp này có thể gặp khó khăn trong việc đưa ra kết luận chính xác vì thiếu thông tin đầy đủ Tin giả có thể sử dụng các chiến lược phức tạp để lừa đảo hệ thống phát hiện tin giả dựa trên tri thức, chẳng hạn như sử dụng các nguồn tin giả được tạo ra một cách chuyên nghiệp hoặc thay đổi thông tin nhỏ để tránh bị phát hiện.
Dựa trên văn phong
Văn phong là cách mà một bài viết, bài báo hoặc tin tức được viết Nó bao gồm các yếu tố như ngôn từ, cấu trúc, cách diễn đạt ý kiến và cảm xúc Mỗi tác giả hoặc nguồn tin có một văn phong riêng, tạo nên cái nhìn độc đáo về cách diễn đạt và phong cách viết.
Tin giả thường có những đặc điểm văn phong riêng mà có thể được sử dụng để phát hiện Các đặc điểm này có thể bao gồm việc sử dụng ngôn từ cảm xúc mạnh, lời lẽ quá phóng đại hoặc mâu thuẫn, cú pháp không chính xác hoặc sự thiếu logic trong lập luận Phương pháp phát hiện tin giả dựa trên văn phong gồm các bước:
Thứ nhất, xây dựng mô hình ngôn ngữ: Để phát hiện tin giả dựa trên văn phong, cần xây dựng một mô hình ngôn ngữ có khả năng nhận diện các đặc điểm văn phong của tin tức Mô hình này có thể được huấn luyện bằng các phương pháp học máy truyền thống, sử dụng dữ liệu tin tức đã được xác minh tính chính xác.
Thứ hai, phân tích văn phong: Sau khi có mô hình ngôn ngữ, phương pháp này sử dụng các thuật toán xử lý ngôn ngữ tự nhiên và học máy truyền thống để phân tích văn phong của các bài viết Các đặc điểm văn phong được phân tích có thể bao gồm: ngôn từ, cấu trúc, phản ứng Phân tích ngôn từ, từ vựng, cấu trúc câu và ngữ pháp để xác định sự chính xác và mức độ chuyên nghiệp của văn bản Tin giả thường có xu hướng sử dụng ngôn từ cảm xúc, quá phóng đại hoặc lời lẽ quá mức Phân tích cấu trúc và lưu đồ của bài viết để xác định tính logic và sự mâu thuẫn trong lập luận Tin giả thường có cấu trúc lỏng lẻo hoặc thiếu sự logic trong việc diễn đạt ý kiến hoặc đưa ra luận điểm Phân tích các yếu tố cảm xúc và phản ứng trong văn bản để xác định tính chân thực Tin giả thường sử dụng cách diễn đạt cảm xúc mạnh như lôi kéo, phê phán hoặc kích động để tạo ra ảnh hưởng lên người đọc.
Thứ ba, xác định tính chân thực: Dựa trên phân tích văn phong, phương pháp này sử dụng mô hình ngôn ngữ để xác định tính chân thực của tin tức. Nếu tin tức có các đặc điểm văn phong tương tự với tin giả hoặc không tuân thủ các quy tắc văn phong chính thống, có thể đánh dấu tin tức đó là tin giả hoặc cần được xem xét thêm. Ưu điểm: Phương pháp phát hiện tin giả dựa trên văn phong tận dụng các đặc điểm văn phong độc đáo của tin tức để phát hiện tin giả Sử dụng các công nghệ xử lý ngôn ngữ tự nhiên và học máy truyền thống để phân tích văn phong một cách tự động và hiệu quả Có thể áp dụng cho các nguồn tin tức mới và chưa được xác minh.
Hạn chế: Phương pháp này đòi hỏi xây dựng một mô hình ngôn ngữ đủ phong phú và đại diện cho các đặc điểm văn phong của tin tức Việc xây dựng mô hình này đòi hỏi tập dữ liệu lớn và đa dạng để huấn luyện Tin giả có thể thay đổi văn phong của mình để tránh bị phát hiện Họ có thể sử dụng các kỹ thuật biến đổi ngôn ngữ, sửa đổi cấu trúc câu hoặc điều chỉnh lưu đồ để làm cho tin tức trông chân thực hơn Đánh giá văn phong là một quá trình phức tạp và có thể gặp khó khăn trong việc đưa ra kết luận chính xác Một số tin tức có thể có đặc điểm văn phong giống với tin giả mà không phải là tin giả thực sự.
Dựa trên sự lan truyền
Mạng xã hội cung cấp một nền tảng cho việc chia sẻ thông tin và kết nối với người khác Tin tức có thể được chia sẻ rộng rãi trên mạng xã hội thông qua việc like, share, retweet và bình luận Quá trình này tạo ra một sự lan truyền nhanh chóng và tiếp cận rộng rãi cho các tin tức Sự lan truyền nhanh chóng của tin tức trên mạng xã hội đã tạo ra một môi trường mà tin giả có thể lan rộng và gây hại cho độ tin cậy của thông tin Để đối phó với vấn đề này, phương pháp phát hiện tin giả dựa trên sự lan truyền của tin tức đã được phát triển Phương pháp này tập trung vào việc phân tích quá trình lan truyền và mối quan hệ giữa các nguồn tin để xác định và ngăn chặn sự lan truyền của tin giả trên mạng xã hội.
Hình 1.5: Minh họa sự lan truyền tin tức
Giải thích: Trong hình 2b), các bài báo a1, , a4 được xuất bản bởi các nhà xuất bản p1, p2, p3; u1, , u6 là những người dùng chia sẻ các bài báo đó, và người dùng này có thể liên kết với người dùng khác có cùng chung sở thích với nhau.
Phương pháp này gồm các bước:
Thứ nhất, phân tích sự lan truyền: Phương pháp này tập trung vào quá trình lan truyền của tin tức trên mạng xã hội để phát hiện tin giả bằng cách xác định các nguồn tin, mối quan hệ giữa người dùng và quá trình lan truyền tin tức trên mạng xã hội, theo dõi các bài viết, bình luận và chia sẻ trên mạng xã hội để xác định quá trình lan truyền của tin tức từ nguồn gốc đến các người dùng khác Các yếu tố quan trọng để phân tích bao gồm: số lượng chia sẻ, mô hình lan truyền, người dùng quan trọng Phân tích số lượng lượt chia sẻ của tin tức để đánh giá mức độ phổ biến và sự lan truyền của nó Tin giả có thể lan truyền rất nhanh và rộng rãi do sự quan tâm và chia sẻ của người dùng Xây dựng mô hình lan truyền để theo dõi sự phát triển và tiến trình lan truyền của tin tức. Phân tích quá trình lan truyền này có thể giúp xác định nguồn gốc và độ tin cậy của tin tức Xác định những người dùng quan trọng trong quá trình lan truyền, bao gồm những người có ảnh hưởng cao và sự tương tác tích cực trên mạng xã hội Tin giả có thể được lan truyền bởi các tài khoản giả mạo hoặc những người có mục đích, lợi ích riêng.
Thứ hai, phân tích nội dung: Ngoài phân tích sự lan truyền, phương pháp này cũng phân tích nội dung của tin tức trên mạng xã hội để xác định tính xác thực Các yếu tố cần được xem xét bao gồm: độ tin cậy của nguồn tin, độ tin cậy của nguồn tin Độ tin cậy của nguồn tin là xác định độ tin cậy của nguồn tin trong quá trình lan truyền Nguồn tin không đáng tin cậy hoặc có lịch sử lan truyền tin giả sẽ tạo ra sự nghi ngờ về tính xác thực của tin tức Đánh giá các nguồn tin dựa trên các yếu tố như uy tín, đáng tin cậy và lịch sử tin tức của nguồn Xem xét mối quan hệ giữa các nguồn tin là phân tích sự tương tác và mối quan hệ giữa các nguồn tin để xác định mức độ ảnh hưởng và sự lan truyền của tin tức Phân tích nội dung tinlà sử dụng các phương pháp xử lý ngôn ngữ tự nhiên và học máy truyền thống để phân tích nội dung của tin tức, bao gồm từ vựng, cú pháp, logic lập luận và mâu thuẫn Tin giả thường có những đặc điểm văn phong và nội dung không chính xác hoặc mâu thuẫn.
Thứ ba, phân tích sự lan truyền và tương tác của người dùng Phân tích quá trình lan truyền của tin tức như số lần chia sẻ, bình luận, tương tác của người dùng để xác định mức độ phổ biến và tiếp cận của tin tức Phân tích mẫu tương tác là xem xét các mẫu tương tác của người dùng với tin tức giả để tìm ra các dấu hiệu tiêu cực như bình luận hoặc phản hồi không phù hợp.
Thứ tư, sử dụng học máy truyền thống và trí tuệ nhân tạo Xây dựng mô hình phân loại sử dụng các thuật toán học máy truyền thống và trí tuệ nhân tạo để phân loại tin tức thành hai nhóm: tin thật và tin giả Sau đó huấn luyện mô hình bằng cách sử dụng dữ liệu huấn luyện đã được gán nhãn để huấn luyện mô hình phân loại tin giả Các đặc trưng như tính logic lập luận, từ vựng không phù hợp và mâu thuẫn trong tin tức có thể được sử dụng để xác định tính xác thực của tin. Ưu điểm: Phương pháp phát hiện tin giả dựa trên sự lan truyền của tin tức trên mạng xã hội tận dụng các đặc điểm độc đáo của mạng xã hội và quá trình lan truyền thông tin Xác định sự lan truyền của tin tức giúp đánh giá tính phổ biến và ảnh hưởng của tin giả trong cộng đồng mạng Phân tích nội dung tin tức giúp xác định tính xác thực và độ tin cậy của tin tức dựa trên các yếu tố như nguồn tin và nội dung Phương pháp này có thể được áp dụng cho nhiều mạng xã hội khác nhau và đối tượng người dùng đa dạng.
Hạn chế: Phương pháp này đòi hỏi có sự cung cấp đầy đủ dữ liệu về sự lan truyền của tin tức trên mạng xã hội Tuy nhiên, không phải lúc nào cũng có đủ dữ liệu để phân tích, đặc biệt là đối với các tin tức mới và nhanh chóng lan truyền Tin giả có thể sử dụng các chiến lược như tạo tài khoản giả mạo hoặc sử dụng các mạng xã hội không rõ nguồn gốc để tránh bị phát hiện thông qua phương pháp này Phân tích nội dung có thể gặp khó khăn trong việc đánh giá tính xác thực vì tin giả có thể điều chỉnh nội dung và văn phong của mình để trông chân thực hơn.
Dựa trên độ tin cậy
Độ tin cậy của tin tức đề cập đến mức độ tin tưởng và xác thực của nội dung thông tin Nó liên quan đến nguồn tin, quá trình thu thập thông tin, kiểm chứng và chất lượng của nội dung Một tin tức có độ tin cậy cao được coi là có khả năng chính xác và xác thực cao Các yếu tố đánh giá độ tin cậy là nguồn tin, chất lượng thông tin, kiểm chứng thông tin Xác định nguồn tin và đánh giá độ uy tín, đáng tin cậy của nguồn Các nguồn tin có uy tín, đáng tin cậy thường cung cấp thông tin chính xác và được xem là tin tức đáng tin cậy hơn Chất lượng tin là đánh giá tính logic, mâu thuẫn, và sự phù hợp của nội dung với các nguồn tin khác Tin giả thường chứa các thông tin không chính xác, mâu thuẫn với các nguồn tin khác, hoặc thiếu tính logic lập luận Kiểm chứng thông tin là xác minh thông tin bằng cách tìm kiếm các nguồn tin khác nhau và so sánh các nguồn thông tin để xác định tính chính xác của tin tức Tin giả thường không có sự xác thực từ các nguồn tin độc lập khác Phương pháp phát hiện tin giả dựa trên độ tin cậy của tin tức gồm các bước:
Thứ nhất, xây dựng hệ thống đánh giá độ tin cậy bằng các kỹ thuật phân tích nguồn tin, nội dung tin, kết hợp phân tích nguồn tin và phân tích nội dung để đánh giá độ tin cậy toàn diện của tin tức Nếu cả nguồn tin và nội dung đều không đáng tin cậy hoặc không hợp lý, có thể kết luận rằng tin tức đó là tin giả.
Thứ hai, sử dụng công nghệ thông tin và trí tuệ nhân tạo Các thuật toán và mô hình máy học có thể được sử dụng để phát hiện các đặc điểm đáng ngờ trong tin tức và đưa ra đánh giá về tính xác thực. Ưu điểm: Phương pháp phát hiện tin giả dựa trên độ tin cậy của tin tức tập trung vào đánh giá tính xác thực của tin tức từ nguồn tin và nội dung Sử dụng công nghệ thông tin và trí tuệ nhân tạo giúp tăng cường khả năng phân tích và đánh giá độ tin cậy của tin tức một cách tự động và nhanh chóng Phương pháp này có thể áp dụng cho nhiều nguồn tin và định dạng tin tức khác nhau, từ bài viết trên mạng xã hội đến các trang tin tức trực tuyến và email.
Hạn chế: Một số tin giả có thể điều chỉnh nội dung và văn phong của mình để trông chân thực hơn và tránh bị phát hiện bởi phương pháp phân tích nội dung và đánh giá độ tin cậy Cần có dữ liệu đầy đủ và chất lượng để huấn luyện và xây dựng mô hình phân loại tin giả Việc thu thập và xử lý dữ liệu có thể là một thách thức đối với các hệ thống phát hiện tin giả dựa trên độ tin cậy.Phương pháp này cần được cải thiện liên tục để đối phó với sự phát triển của các kỹ thuật và chiến lược mới của tin giả.
Các nghiên cứu liên quan
Phát hiện tin tức giả là một lĩnh vực nghiên cứu rất được quan tâm và nghiên cứu bởi các nhà nghiên cứu.
Golbeck (2018) dùng phương pháp phân loại dựa trên từ để xác định các sắc thái ngôn ngữ giữa các bài báo giả mạo [12] Levi (2019) đã đề xuất một phương pháp học máy truyền thống sử dụng biểu diễn ngữ nghĩa để xác định tin tức giả mạo [13] Họ tuyên bố rằng ngôn ngữ châm biếm dường như tinh vi hơn các bài báo giả mạo.
Phát hiện tin giả tự động sử dụng học máy truyền thống thường được chia làm 2 phương pháp là dựa trên nội dung tin tức và dựa trên bối cảnh xã hội. Đối với các phương pháp tiếp cận dựa trên nội dung tin tức, các đặc trưng ngôn ngữ hoặc đặc điểm hình ảnh được sử dụng Các đặc điểm ngôn ngữ, từ vựng và cú pháp, nắm bắt các phong cách viết cụ thể và các tiêu đề giật gân thường xuất hiện trong nội dung tin tức giả mạo [14] Các mô hình khai thác các đặc trưng dựa trên nội dung tin tức có thể được phân loại thành (1) dựa trên kiến thức: sử dụng các nguồn bên ngoài để kiểm tra tính xác thực của tuyên bố trong nội dung tin tức [15] và (2) dựa trên phong cách: nắm các thao tác trong phong cách viết, chẳng hạn như lừa dối và không khách quan [14] Castillo cùng các cộng sự đã dùng các đặc trưng dựa trên nội dung thô như dấu chấm hỏi, biểu tượng cảm xúc, các từ tích cực/ tiêu cực, để đánh giá độ tin cậy của bài tin trên Twitter Kết quả thu được dưới 80% Jin và các cộng sự đã sử dụng các đặc trưng hình ảnh và đặc trưng thống kê để xác minh tin tức giả mạo [16]. Phương pháp phát hiện dựa trên văn bản có một số hạn chế Đầu tiên là cần có đủ nội dung văn bản để đưa ra dự đoán Do đó không thể phát hiện ra những tin tức giả mạo với nội dung rất ngắn hoặc không có văn bản Thứ hai, nội dung văn bản của tin giả rất đa dạng về chủ đề, phong cách và nền tảng Do đó, các đặc trưng dựa trên nội dung hoạt động tốt trên một tập dữ liệu tin tức giả cụ thể có thể không hoạt động tốt trên tập dữ liệu khác (Shu và cộng sự, 2017)
[17] Hơn nữa, các biến mục tiêu trong tin tức giả mạo thay đổi theo thời gian và một số nhãn trở nên lỗi thời, trong khi những nhãn khác cần được dán nhãn lại Hầu hết các phương pháp dựa trên nội dung không thể thích ứng với những thay đổi này, điều này đòi hỏi phải trích xuất lại các đặc trưng của tin tức và dán nhãn lại dữ liệu dựa trên các đặc trưng mới Bởi vì các đặc trưng ngôn ngữ được sử dụng trong các phương pháp dựa trên nội dung hầu hết là đặc trưng của ngôn ngữ, tính tổng quát của chúng cũng bị hạn chế Bộ dữ liệu tin tức giả mạo công khai thường không chứa nhiều hơn 10.000 tin bài Hầu hết chúng không bao gồm bất kỳ hình ảnh hoặc video nào Do đó, việc xây dựng một tập dữ liệu tin tức giả có chứa đủ hình ảnh hoặc video để đào tạo một mô hình học máy truyền thống thậm chí còn khó hơn.
Clinton Burfoot, Timothy Baldwin (2009) [18] đã sử dụng thuật toán máy vectơ hỗ trợ (SVM) để tự động phân loại các đặc điểm từ vựng và ngữ nghĩa của nội dung nhằm phân biệt giữa nội dung thực tế và nội dung châm biếm. Zhou (2019) [19] đã sử dụng phương pháp điều tra nội dung tin tức ở các cấp độ ngôn ngữ khác nhau dựa trên các lý thuyết đã được thiết lập tốt trong tâm lý học xã hội và pháp y Wang (2017) [20] đã phân loại nội dung tin giả dựa trên mạng nơ ron phức hợp (CNN) Rubin và cộng sự (2015) [21] đã cố gắng phát hiện tin tức châm biếm từ tin tức có thật bằng thuật toán dựa trên SVM với năm đặc trưng dự đoán (Phi lý, Hài hước, Ngữ pháp, Ảnh hưởng tiêu cực và Dấu câu) Kết quả của họ cho thấy rằng tổ hợp đặc trưng dự đoán tốt nhất phát hiện tin tức trào phúng với độ chính xác 90% và khả năng nhớ lại 84%. Tuy các phương pháp học máy truyền thống cho kết quả tương đối cao nhưng vấn đề thực tế là bài toán phát hiện tin giả dựa trên nội dung lại có văn phong khác nhau của tác giả khiến việc phân tích từ gặp khó khăn. Đối với các phương pháp dựa trên ngữ cảnh xã hội, chúng kết hợp các đặc trưng từ hồ sơ người dùng, nội dung bài đăng và mạng xã hội Hồ sơ người dùng có thể được sử dụng để đo lường đặc điểm và độ tin cậy của người dùng Các đặc trưng được trích xuất từ bài đăng của người dùng thể hiện phản ứng xã hội của người dùng, chẳng hạn như lập trường cá nhân Các đặc trưng mạng được trích xuất bằng cách xây dựng các mạng xã hội cụ thể, chẳng hạn như mạng lan truyền hoặc mạng cộng đồng [22] Các mô hình bối cảnh xã hội có thể được phân loại là dựa trên lập trường hoặc dựa trên tuyên truyền Các mô hình dựa trên lập trường sử dụng ý kiến của người dùng đối với tin tức để suy ra tính xác thực của tin tức, trong khi các mô hình dựa trên tuyên truyền áp dụng các phương pháp tuyên truyền để mô hình hóa các mô hình phổ biến thông tin độc đáo Ruchansky cho rằng mọi người sử dụng rộng rãi phương tiện truyền thông xã hội để bày tỏ cảm xúc và những bài đăng này có thể giúp phát hiện đặc trưng bằng cách rút ra các mô hình tương tác tạm thời giữa tin thật và tin giả thông qua các bài đăng của họ [23] Bessi và cộng sự (2014) đã nghiên cứu sự lan truyền của tin tức sai sự thật trên mạng xã hội [24] Nghiên cứu của họ đề xuất rằng những người dùng tương tác bằng các phương tiện truyền thông xã hội khác nhau có nhiều khả năng sử dụng thông tin sai lệch hơn Họ tập trung vào sự chú ý dành cho những tin tức sai sự thật trên Facebook Các mô hình kết hợp đặc trưng về nội dung tin và ngữ cảnh xã hội có chính xác cao nhưng tốn rất nhiều thời gian, không phù hợp để phát hiện tin giả sớm.
Tổng kết chương 1
Trong chương này, chúng tôi đã giải thích lý do tại sao tin tức giả mạo được hình thành và lan truyền nhanh chóng, và tại sao có một số người một số người có xu hướng tin vào tin tức giả trên các phương tiện truyền thông Sau đó, chúng tôi đã trình bày cơ sở lý thuyết về tin tức giả mạo bằng cách đưa ra một số định nghĩa về tin giả được đề xuất trong các nghiên cứu trước đây Trong phần thứ hai của chương này, chúng tôi trình bày tổng quan về các phương pháp phát hiện tin giả cũng như các nghiên cứu liên quan Trong chương tiếp theo, chúng tôi sẽ trình bày chi tiết hơn về ứng dụng học biểu diễn đồ thị trong phát hiện tin giả. ỨNG DỤNG HỌC BIỂU DIỄN ĐỒ THỊ TRONG PHÁT HIỆN
Trong chương này, chúng tôi nêu phát biểu bài toán, giới thiệu tổng quan về học biểu diễn đồ thị, nêu phương pháp phát hiện tin giả sử dụng mô hình GCN,GAT, GRAPHSAGE.
Phát biểu bài toán
Hướng tiếp cận của chúng tôi trong đề án này là phát hiện tin giả dựa trên sự lan truyền (propagation based) Mục đích của công việc này là xác định tính hợp lệ của một tin tức bằng cách sử dụng mẫu lan truyền của nó Một cách hình thức, chúng tôi định nghĩa bài toán phát hiện tin giả dựa trên lan truyền như sau: cho một tập hợp các đồ thị được gán nhãn D = {(G1, y1),(G2, y2), ,(Gi, yi),}, trong đó G i ∈ G là mẫu lan truyền cho tin tức i, và y i ∈ Y = {0 (tin thật), 1 (tin giả)} là nhãn của đồ thị G i , mục tiêu là xây dựng một mô hình phân lớp từ tập dữ liệu mẫu gồm các đồ thị đã được gán nhãn Như được minh họa trong Hình 2.1, mỗi tin tức được biểu diễn dưới dạng một đồ thị.
Hình 2.1: Minh họa đồ thị cho mỗi tin tức
Giới thiệu chung về phương pháp học biểu diễn đồ thị
Ứng dụng GCN để phát hiện tin giả
GCN nhận đồ thị với một số đỉnh được gắn nhãn làm đầu vào và tạo ra dự đoán nhãn cho tất cả các đỉnh trong đồ thị [26][27] Ta định nghĩa mô hình GCN như sau:
• G = (V, E) là một đồ thị trong đó V đại diện cho tập đỉnh bao gồm n các đỉnhV = {v 1 , v 2 , , v n }vàE là tập hợp các cạnh của đồ thị với(v i , v j )∈ E là biểu diễn cạnh nối từ v i đến v j
• A ∈R n×n là ma trận kề đối xứng (adjacency matrix) trong đó a ij được coi là trọng số của cạnh nối giữa các đỉnh v i và v j
• D =diag(d 1 , , d n ) là một ma trận bậc (degree matrix), hay còn gọi là ma trận đường chéo vuông n×n, trong đó mỗi phần tử trên đường chéo bằng tổng hàng của ma trận A: D ii =Pn i=1A ij
• Mỗi đỉnh v i trong đồ thị có một vectơ đặc trưng X (x i ∈R d ) có kích thước d chiều tương ứng Khi đó X ∈ R n×d là một ma trận bao gồm tất cả các đỉnh n với các đặc trưng của các đỉnh, với n là tổng số lượng đỉnh và d là số chiều của đặc trưng của đỉnh Mỗi đỉnh thuộc về một lớp C và có thể được đánh nhãn dạng bằng vectơ có chiều C, y i ∈ {0,1} C
GCN học một biểu diễn đặc trưng mới cho đặc trưng x i của mỗi đỉnh qua nhiều lớp (layer), sau đó được sử dụng như đầu vào vào bộ phân lớp tuyến tính (linear classifier) Đối với lớp tích chập (convolution layer) hay lớp ẩn (hidden layer) được biểu diễn như sau [26]: H k =f(H k−1 , A)
• H i biểu diễn đầu ra của lớp thứ k + 1, mỗi lớp H k tương ứng với một ma trận có kích thước N ×F k Với F k thể hiện số đặc trưng đầu ra của từng đỉnh tại lớp H k
• H i =X, có trọng số được khởi tạo luôn là đặc trưng của từng đỉnh.
Trong đó, hàm f có thể được biểu diễn đơn giản bằng 1 công thức sau:
• W k là ma trận trọng số ứng với lớp thứ k.
• σ là một hàm kích hoạt phi tuyến tính (activation function): ReLU.
Tuy nhiên, với việc công thức áp dụng lặp lại của các toán tử dẫn đến sự không định khi sử dụng các mô hình mạng nơ ron, ta có thể chuẩn hóa lại (renormalization) công thức như sau:
Hình 2.5: Ma trận kề (adjacency matrix A) và ma trận bậc (degree matrix D), Ma trận đặc trưng (Feature matrix X ) của đồ thị G
Hãy xem hàng đầu tiên của ma trận kề, có thể thấy rằng đỉnh A có một kết nối đến đỉnhE Hàng đầu tiên của ma trận kết quả là vectơ đặc trưng của đỉnh
E, mà đỉnh A kết nối tới (Hình 4) Tương tự, hàng thứ hai của ma trận kết quả là tổng của các vectơ đặc trưng của đỉnh D và E Bằng cách này có thể tính tổng của tất cả các vectơ liền kề.
Hình 2.6: Phép tính nhân ma trận cho hàng đầu tiên cho ma trận vec tơ AX
Từ hình trên có thể thấy rằng bằng cách nhân ma trận A với mỗi đỉnh, giá trị mà các đỉnh liền kề đóng góp cho đỉnh hiện tại V i bằng tổng đặc trưng của các đỉnh đó, không bao gồm đỉnhV i Điều này có thể được khắc phục bằng cách
"cộng thêm" ma trận đơn vị (identity matrix) vào ma trậnA để có một ma trận đối xứng A˜mới: A˜=A+λI N
Chọn λ = 1 (điều này có nghĩa là đặc trưng của đỉnh chính nó quan trọng bằng đặc trưng của các đỉnh liền kề), ta có ma trận A˜ = A+I Lưu ý, có thể xem xét λ như một tham số training.
Hình 2.7: Bằng cách thêm một đoạn nối cho mỗi đỉnh, chúng ta thu được ma trận kề mới
Ngoài ra, các đỉnh có bậc lớn (tức là đỉnh mà kết nối với nhiều đỉnh khác) có thể gây ảnh hưởng trong quá trình cập nhật trọng số của mô hình Hơn nữa, khoảng giá trị hiện tại của ma trận A chưa được chuẩn hóa, điều này có nghĩa là có thể dẫn đến tình trạng numerical instabilities 1 , vanishing 2 / exploding gradient 3
Do đó, đối với việc tỉ lệ hóa ma trận, ta thường nhân ma trận đó với một ma trận bậc và lấy trung bình của tổng đặc trưng, tỉ lệ hóa ma trận vectơ tổng
AX˜ theo số bậc của các đỉnh.
Trong trường hợp này, tác giả dùng ma trận nghịch đảo D˜ −1 Mỗi phần tử trong ma trận nghịch đảo D˜ −1 là nghịch đảo của phần tử tương ứng trong ma trận bậc D.˜
Ví dụ, đỉnh A có bậc là 2, vì vậy chúng ta nhân tổng các vectơ của đỉnh A cho 1 2 , trong khi đỉnh E có bậc là 5, chúng ta nên nhân tổng vectơ của E cho 1 5 , và cứ tiếp tục như vậy.
Do đó, bằng cách nhân ma trận nghịch đảo D˜ −1 với X, chúng ta có thể lấy
Phát hiện tin giả sử dụng mô hình GAT
Giới thiệu chung về GAT
Mạng chú ý đồ thị (Graph Attention Network - GAT) là mạng nơ ron sử dụng trong xử lý đồ thị, đặc biệt là trong các tác vụ liên quan đến đồ thị như phân loại đỉnh hoặc phát hiện cộng đồng GAT được giới thiệu bởi Petar Veliˇckovi´c và đồng nghiệp trong bài báo "Graph Attention Networks" đăng lần đầu vào năm 2017 và bản chỉnh sửa được đăng vào năm 2018 [28][29] đã nhanh chóng thu hút sự quan tâm của cộng đồng nghiên cứu trong lĩnh vực trí tuệ nhân tạo. GAT được thiết kế để xử lý các dữ liệu được biểu diễn bằng đồ thị như mạng xã hội, mạng tương tác, hoặc các dữ liệu có cấu trúc tương tự Mô hình này sử dụng cơ chế tập trung để tạo ra trọng số cho các đỉnh trong đồ thị, cho phép nó tập trung vào những đỉnh quan trọng và bỏ qua những đỉnh không quan trọng. Điểm mạnh của GAT đó là khả năng học được cách tương tác giữa các đỉnh trong đồ thị một cách tự động và hiệu quả Điều này giúp cho GAT có khả năng thích ứng với nhiều loại đồ thị khác nhau và giải quyết nhiều bài toán, chẳng hạn như phân loại đỉnh, phân loại cạnh, hay gom nhóm đỉnh.
Cơ chế tập trung (attention) là một thành phần quan trọng trong các biến thể của mạng nơ ron Cơ chế này cho phép mô hình tập trung vào các phần quan trọng của đầu vào để tạo ra các kết quả chính xác và có ý nghĩa hơn Cơ chế attention hoạt động bằng cách hiệu chỉnh trọng số cho từng phần tử của đầu vào dựa trên mức độ quan trọng của nó đối với mục tiêu Cụ thể, cơ chế này tính toán một điểm tập trung (attention score) cho mỗi phần tử trong đầu vào và sau đó áp dụng một phép tổng hợp trọng số để tính toán giá trị đầu ra Trong cơ chế attention, có hai dạng quan trọng chính là Global Attention vàLocal Attention Global Attention là một dạng tập trung mà mỗi phần tử của đầu vào ảnh hưởng đến tất cả các phần tử trong đầu ra Local Attention tập trung vào một phần nhỏ của đầu vào gần với mục tiêu.
Global Attention Model: Ở mỗi bước thời giant, mô hình suy luận một vectơ trọng số sự sắp xếp chiều dài biến thiên a t dựa trên trạng thái mục tiêu hiện tại h i và tất cả các trạng thái nguồn h s Một vectơ ngữ cảnh toàn cục sau đó được tính toán dưới dạng trung bình có trọng số, theo a t , qua tất cả các trạng thái nguồn. Ý tưởng của một mô hình chú ý toàn cục là xem xét tất cả các trạng thái ẩn của trình mã hóa khi suy luận vectơ ngữ cảnh c t Trong kiểu mô hình này, một vectơ sắp xếp biến thiên chiều dài a t , có kích thước bằng số bước thời gian trên phía nguồn, được suy ra bằng cách so sánh trạng thái ẩn mục tiêu hiện tại h i với mỗi trạng thái ẩn nguồn. a t (s) =align(h t ,¯h s ) = exp(score(h t , ¯ h s ))
P s ′ exp(score(h t , ¯ h s ′ )) 2.5 Ở đây, score được gọi là một hàm dựa trên nội dung: score(h t ,¯h s )
Ngoài ra, để xây dựng các mô hình dựa trên sự chú ý, tác giả [28] sử dụng một hàm dựa trên vị trí, trong đó điểm số sắp xếp được tính toán hoàn toàn từ trạng thái ẩn mục tiêu h t như sau: a t = softmax(W a h t ) location 2.7
Với vectơ sắp xếp làm trọng số, vectơ ngữ cảnhc t được tính toán như trung bình có trọng số qua tất cả các trạng thái ẩn nguồn.
Trong khi phương pháp chú ý toàn cục tương tự về bản chất với mô hình, có một số khác biệt quan trọng phản ánh cách đơn giản hóa và tổng quát hóa từ mô hình ban đầu Trước hết, đơn giản sử dụng trạng thái ẩn ở các lớp LSTM cao nhất trong cả trình mã hóa và giải mã, ngược lại, sử dụng sự kết hợp của trạng thái ẩn nguồn tiến và lùi trong quá trình mã hóa song hướng và trạng thái ẩn mục tiêu trong giải mã không được chồng chất Thứ hai, đường tính toán đơn giản hơn; đi từ h i → a t → c t → h t , sau đó thực hiện một dự đoán Trong khi đó, tại bất kỳ thời điểm t nào, xây dựng từ trạng thái ẩn trước đó f i−1 → a t → c t → h t , sau đó đi qua một lớp đầu ra sâu và một lớp softmax trước khi thực hiện dự đoán.
Local Attention Model là mô hình đầu tiên dự đoán một vị trí đối xứng đơn cho từ mục tiêu hiện tại Một cửa sổ được tạo ra xung quanh vị trí nguồn đối xứng p t sau đó được sử dụng để tính toán vectơ ngữ cảnh c t , là trung bình có trọng số của các trạng thái ẩn nguồn trong cửa sổ Các trọng số a t được suy ra từ trạng thái mục tiêu hiện tại h t và các trạng thái nguồn ¯h s trong cửa sổ.
Sự chú ý toàn cục có điểm yếu là phải chú ý đến tất cả các từ trên phía nguồn cho mỗi từ mục tiêu, điều này tốn kém và có thể khiến cho việc dịch các chuỗi dài hơn, ví dụ, đoạn văn hoặc tài liệu trở nên không thực tế Để giải quyết vấn đề này, một cơ chế sự chú ý cục bộ cho phép tập trung chỉ vào một tập hợp nhỏ các vị trí nguồn cho mỗi từ mục tiêu được đề xuất.
Mô hình này lấy cảm hứng từ sự cân đối giữa mô hình chú ý mềm và cứng (soft attention and hard attention) đã được đề xuất bởi Kelvin Xu và cộng sự
[30] để giải quyết nhiệm vụ mô tả hình ảnh Chú ý mềm đề cập đến phương pháp chú ý toàn cục trong đó trọng số được đặt "mềm mại" trên tất cả các phần trong hình ảnh nguồn Trong khi đó, chú ý cứng chọn một phần của hình ảnh để tập trung vào trong một khoảng thời gian ngắn Mặc dù ít tốn kém khi thực hiện, mô hình chú ý cứng không khả thi và yêu cầu các kỹ thuật phức tạp hơn như giảm biến và học tăng cường để huấn luyện.
Cơ chế chú ý cục bộ tập trung lựa chọn một cửa sổ nhỏ của ngữ cảnh và có thể tích hợp Cách tiếp cận này có lợi thế trong việc tránh tính toán tốn kém như chú ý mềm và đồng thời dễ dàng hơn để huấn luyện so với cách tiếp cận chú ý cứng Cụ thể, mô hình đầu tiên tạo ra một vị trí đối xứng p t cho mỗi từ mục tiêu tại thời điểm t Vectơ ngữ cảnh c t , sau đó được suy ra là một vectơ trung bình có trọng số qua tập hợp các trạng thái ẩn nguồn trong đoạn [p t −D, p t +D]. Khác với tiếp cận toàn cục c t , vectơ sắp xếp cục bộ a t bây giờ có số chiều cố định, tức là 2D+ 1.
Chú ý đơn điệu – đặt p t ̸= t giả định rằng các chuỗi nguồn và mục tiêu có sự tương quan đơn điệu Chú ý dự đoán – mô hình dự đoán một vị trí đối xứng như sau: p t =S ãsigmoid(v ⊤ ãtanh(W p h t )) 2.8
W p và v p là các tham số của mô hình sẽ được học để dự đoán vị trí S là chiều dài câu nguồn Kết quả của hàm sigmoid là p t ∈[0, S]. at(s) =align(ht,h¯s) exp
Sử dụng hàm align và độ lệch chuẩn tiêu biểu được thiết lập dựa trên thực nghiệm là σ = D 2 Lưu ý rằng p t là một số thực; trong khi s là một số nguyên nằm trong đoạn tại vị trí p t
Chúng ta sẽ bắt đầu bằng cách mô tả một lớp chú ý đồ thị đơn lẻ, là lớp duy nhất được sử dụng trong tất cả các kiến trúc GAT được sử dụng trong các thí nghiệm. Đầu vào là một tập các đặc trưng của đỉnh, ⃗h = h⃗ 1 , ⃗h 2 , , ⃗h N , h⃗ i ∈ R F , trong đó N là số đỉnh và F là số lượng đặc trưng trong mỗi đỉnh Lớp này tạo ra một tập mới các đặc trưng của đỉnh (có thể có số lượng khác nhau F ′ ), h ′ =h⃗ ′ 1 , ⃗h ′ 2 , , ⃗h ′ N , h⃗ ′ i ∈R F
′, là đầu ra của nó. Để có thể biến đổi các đặc trưng đầu vào thành các đặc trưng cấp cao hơn, ít nhất một phép biến đổi tuyến tính có thể học được yêu cầu Với mục đích đó, là bước khởi đầu, một phép biến đổi tuyến tính chung, được tham số hóa bằng một ma trận trọng số, W ∈ R ′×F , được áp dụng cho mỗi đỉnh Sau đó, thực hiện chú ý tự thân trên các đỉnh - một cơ chế chú ý chung a : R F
Ứng dụng GAT để phát hiện tin giả
Với những phân tích trên có thể thấy GAT là một phần cải tiến từ GCN khi có thêm cơ chế chú ý (attention), điều này nếu áp dụng vào việc phát hiện tin giả sẽ mang lại hiệu quả hơn Khi đồ thị đầu vào biểu diễn mối quan hệ giữa các nguồn tin và bài viết, mỗi đỉnh trong đồ thị đại diện cho một nguồn tin hoặc bài viết, và các cạnh biểu diễn mối quan hệ giữa chúng, chẳng hạn như sự phụ thuộc, liên kết hoặc chia sẻ thông tin Các đặc trưng của từng đỉnh có thể bao gồm nội dung văn bản, thông tin nguồn tin và các đặc trưng khác có thể trích xuất được Sau đó Chuyển đổi các đặc trưng của các nguồn tin và bài viết thành các vectơ số hóa Các phương pháp như Word2Vec, GloVe hoặc BERT có thể được sử dụng để biểu diễn nội dung văn bản thành các vectơ số hóa Mô hình GAT sẽ được áp dụng để tính toán các đặc trưng mới cho mỗi đỉnh trong đồ thị GAT sử dụng cơ chế chú ý (attention mechanism) để xác định mức độ quan trọng của các hàng xóm của mỗi đỉnh Mỗi đỉnh tính toán trọng số chú ý cho các hàng xóm của nó dựa trên đặc trưng của cả đỉnh và hàng xóm Các trọng số chú ý được sử dụng để tính toán đặc trưng mới cho đỉnh đó Cuối cùng là dùng bộ phân loại (Classifier với các lớp pooling cũng như softmax) để ra được kết quả cuối cùng.
Tương tự GCN, mô hình GAT đã sử dụng hai lớp GAT (GAT layer) Với bộ chuẩn hóa theo lô (Batch Normalization) và ReLU được đặt ở giữa hai lớp liên tiếp để ngăn chặn việc quá khớp và tổng quát hóa của mô hình Sau đó áp dụng một phép gom nhóm toàn cụcGlobal Max Pooling trên tất cả các đỉnh để tổng hợp thông tin từ các biểu diễn của đỉnh Đầu ra củaGlobal Max Pooling là một vec tơ đặc trưng, mỗi đặc trưng có giá trị tối đa trong ma trận đặc trưng của đầu ra tương tự lớp GCN Để cải thiện hiệu suất mô hình, vectơ đầu ra của Global Max Pooling được đưa vào lớp kết nối đầy đủ (Fully connected - Linear) và một hàm Log-softmax cho việc đánh nhãn.
Năm 2022, G.Li [31] và cộng sự đưa ra mô hình phân loại yêu cầu dựa trên GAT như sau: cây phân tích phụ thuộc được sử dụng để xây dựng cấu trúc đồ thị của các yêu cầu Sau đó BERT [32] khởi tạo các đỉnh/cạnh trong biểu đồ và ghi lại GAT nhiều tính năng đỉnh hơn thông qua đào tạo Cuối cùng, sử dụng bộ phân loại để phân loại yêu cầu.
Thuật toán mô hình GAT Đầu vào:Đồ thịG(V, E) cùng với các đặc trưng của đỉnhX; bộ trọng sốW và bias b cho mỗi tầng, số lượng tầng L; hàm kích hoạt ReLU và hàm softmax.Đầu ra: Dự đoán nhãn yˆ
Hình 2.11: Khung phân loại yêu cầu của mô hình GAT
Khởi tạo bộ trọng số W và bias b cho mỗi tầng Định nghĩa hàm forward pass:
For each epoch in range(num epochs) do
Forward pass tính toányˆTính toánentropy chéo (cross-entropy loss)
Lan truyền ngược gradients để cập nhật W và b
Lặp lại các bước trên cho tất cả các mini batch
Forward pass tính toán yˆcho dữ liệu mới (nếu có)
Sử dụng argmax(y) để dự đoán nhãnˆ
Trước khi bắt đầu huấn luyện mạng, cần khởi tạo trọng số và bias cho mỗi tầng (Layer Initialization) bao gồm khởi tạo các trọng số (weights) và bias cho từng tầng của mạng Điều này thường được thực hiện ngẫu nhiên ban đầu và sau đó sẽ được điều chỉnh trong quá trình huấn luyện.Forward Pass: Trong mỗi vòng lặp từ tầng 1 đến tầng L (có thể hiểu là số tầng của mạng), thuật toán thực hiện các bước sau:
• Tính ma trận Z(l): Sử dụng đầu ra của tầng trước đóˆ H(l-1) và ma trậnˆ trọng số Wˆ(l), tính ma trận Z(l) bằng phép nhân ma trận;ˆ
• Attention(Zˆ(l)): Áp dụng một hàmAttention lên ma trậnZ(l) để tínhˆ Eˆ(l). Hàm Attention có nhiệm vụ xử lý thông tin quan trọng hoặc tập trung từ ma trận Z(l).ˆ
• LeakyReLU (E(l)): Sử dụng hàm kích hoạtˆ LeakyReLU lên E(l) để tínhˆ E(l) Hàmˆ LeakyReLU cho phép thông tin lan truyền ngược khi đầu vào là âm.
• Softmax (Alpha(l)): Sử dụng hàmˆ Softmax để tính Alpha(l) từˆ E(l) Hàmˆ Softmax biến đầu vào thành một phân phối xác suất, thường được sử dụng để biểu thị sự tự tin của mô hình về việc dự đoán các lớp.
• Aggregate (Alpha(l),ˆ Z(l)): Sử dụngˆ Alpha(l) để tổng hợp thông tin từ maˆ trận Zˆ(l) và tạo ra một phiên bản mới của H(l).ˆ
• ReLU (H(l)): Cuối cùng, áp dụng hàm kích hoạt ReLU lênˆ H(l) để tạo raˆ đầu vào cho tầng tiếp theo.
• Dự đoán đầu ra y(l): Sau khi lặp qua tất cả các tầng, thuật toán tính dựˆ đoán yˆbằng cách sử dụng hàm softmax trên ma trận đầu raZ(L).ˆ
• Huấn luyện mô hình (Model Training): Trong quá trình huấn luyện, thuật toán lặp qua các epoch để cải thiện mô hình Mỗi epoch bao gồm các bước sau: Forward Pass tính toán dự đoán yˆ cho tập dữ liệu huấn luyện; Tính entropy chéo (Cross-Entropy Loss); So sánh dự đoán yˆvới nhãn thực tế để tính loss sử dụng entropy chéo Đây là một hàm mất mát thường được sử dụng trong bài toán phân loại.
• Lan truyền ngược (Backpropagation): Lan truyền ngược gradients từ lớp cuối cùng (output layer) đến lớp đầu tiên (input layer) để cập nhật trọng số và bias của mạng.
• Lặp lại cho tất cả các mini batch: Thuật toán sử dụng mini batch gradient descent để tối ưu hóa mô hình Nó tính loss, cập nhật trọng số và bias dựa trên một lượng nhỏ dữ liệu cho mỗi lần.
• Inference (Dự đoán): Sau khi mô hình đã được huấn luyện, có thể sử dụng forward pass để tính dự đoán yˆ cho dữ liệu mới Sử dụng argmax(y ) để chọn ra nhãn có xác suất cao nhất là dự đoán của mô hình.
Phát hiện tin giả sử dụng mô hình GRAPHSAGE
Giới thiệu chung về GRAPHSAGE
GraphSAGE là viết tắt của Graph Sample and Aggregation Đây là một mô hình học biểu diễn đặc trưng cho các đỉnh trong một đồ thị hoặc mạng xã hội.
Mô hình này đã được giới thiệu bởi Hamilton và cộng sự vào năm 2017 [33].
Trong bối cảnh hiện nay, việc sử dụng GraphSage để phân biệt tin giả trở nên ngày càng quan trọng Với sự phát triển của internet, thông tin giả mạo và tin thật ngày càng gần nhau, và việc phân biệt giữa chúng đòi hỏi sự hiểu biết sâu rộng về dữ liệu đồ thị và khả năng biểu diễn hiệu quả của các đối tượng trong đồ thị GraphSage được chứng minh có khả năng cải thiện đáng kể quá trình biểu diễn đối tượng trong đồ thị Điều này có thể được áp dụng trong việc phân biệt tin giả bằng cách tiếp cận đặc biệt cho việc xử lý thông tin trong các mạng xã hội, trang web tin tức và các nền tảng truyền thông xã hội Một trong những điểm mạnh của GraphSage là khả năng biểu diễn các đối tượng trong đồ thị dựa trên thông tin lân cận của chúng Điều này có thể giúp phát hiện ra các mẫu hoặc đặc điểm đặc trưng của các tài khoản hoặc nguồn thông tin đáng ngờ Thay vì chỉ dựa vào các đặc điểm tĩnh của một tài khoản hoặc nguồn thông tin, GraphSage có khả năng tự động cập nhật biểu diễn của chúng dựa trên mối quan hệ với các đối tượng khác trong đồ thị Điều này giúp phát hiện ra các thông tin giả mạo dựa trên cấu trúc đồ thị và mối quan hệ của chúng. GraphSage có thể giúp xác định các mẫu thông tin giả mạo bằng cách phân tích sự lan truyền thông tin trong mạng xã hội hoặc trang web Bằng cách sử dụng biểu diễn đối tượng dựa trên thông tin lân cận, GraphSage có thể phân loại nguồn tin là đáng tin cậy hoặc không đáng tin cậy GraphSage cũng có thể hỗ trợ trong việc dự đoán các liên kết tiềm năng giữa các tài khoản hoặc trang web, giúp xác định các mối quan hệ không bình thường GraphSage là một công cụ mạnh mẽ để biểu diễn và phân tích dữ liệu đồ thị, và có thể áp dụng hiệu quả để giúp phân biệt tin giả trong môi trường thông tin ngày càng phức tạp.
Cách hoạt động cơ bản của GraphSAGE là tạo mẫu (Sample), tổng hợp (Aggregation) và tạo biểu diễn (Generate Representation) Trước hết, một tập hợp các đỉnh láng giềng (neighborhood) được xây dựng thành mẫu từ mỗi đỉnh trong đồ thị Điều này bao gồm các đỉnh kề cận trực tiếp hoặc có thể là các đỉnh ở khoảng cách xa hơn Sau khi mẫu được thực hiện, GraphSAGE sử dụng các đặc trưng của các đỉnh láng giềng để tổng hợp thông tin cho đỉnh gốc Có nhiều phương pháp tổng hợp khác nhau, ví dụ như trung bình hóa, tổng hợp LSTM, hoặc tổng hợp bằng mạng nơ ron Cuối cùng, thông tin tổng hợp này được sử dụng để tạo ra biểu diễn mới cho đỉnh gốc Biểu diễn này có thể được sử dụng cho các tác vụ như phân loại, dự đoán, hoặc khám phá cấu trúc trong đồ thị.
GraphSAGE có thể áp dụng cho nhiều loại đồ thị và mạng xã hội khác nhau và đã tạo ra những cải tiến đáng kể Nó được sử dụng rộng rãi trong các tác vụ như phân loại đồ thị, dự đoán, gợi ý, và cả trong phát hiện cấu trúc không bình thường trong các mạng xã hội.
GraphSAGE có nhiều ứng dụng như biểu diễn đỉnh dựa trên nguồn tin, phát hiện cấu trúc gian lận, phân loại tin tức, Việc học biểu diễn đặc trưng cho mỗi tin tức dựa trên các tương tác và mối quan hệ trong mạng xã hội có thể giúp
Hình 2.12: Minh họa trực quan về phương pháp tổng hợp và mẫu GraphSAGE tăng khả năng phân loại chính xác Tuy nhiên, GraphSAGE cũng có những hạn chế như có thể đòi hỏi khả năng tính toán lớn đối với các mạng xã hội lớn Trong mạng xã hội, thông tin thường rất thưa thớt và không đầy đủ Điều này có thể làm cho việc học biểu diễn đặc trưng trở nên khó khăn.
Ứng dụng GRAPHSAGE để phát hiện tin giả
Thuật toán nhúng (Embedding generation)
Giả định rằng đã học được các tham số của K hàm tổng hợp (được ký hiệu làaggregate k ,∀k ∈ {1, , K}, có nhiệm vụ tổng hợp thông tin từ các hàng xóm của đỉnh, cũng như một tập các ma trận trọng số W k ,∀k ∈ {1, , K}, được sử dụng để truyền thông tin giữa các tầng của mô hình Ý tưởng của thuật toán là ở mỗi vòng lặp, các đỉnh tổng hợp thông tin từ các hàng xóm cục bộ của nó, qua quá trình này, các đỉnh ngày càng tích lũy được thông tin từ các đỉnh xa hơn trên đồ thị.
Thuật toán tạo Vectơ Nhúng GraphSAGE: Đầu vào: Đồ thị G(V, E); đặc trưng đầu vào {x v ,∀v ∈ V}; độ sâu K; ma trận trọng số W k ,∀k ∈ {1, , K}; hàm phi tuyến tính σ; các hàm tổng hợp có khả năng viết lại AGGREGATE k ,∀k ∈ {1, , K}; hàm xác định hàng xóm
N : v → 2 V Đầu ra: Biểu diễn dạng vectơ z v cho tất cả v ∈V h 0 v ← x v ,∀v ∈ V
For k = 1 to K do: for v ∈V do: h k N (v) ← AGGREGATEk({h (k−1) u ,∀u ∈N(v)}) h k v ← σ(W k ãCONCAT(h (k−1) v , h k N (v) )) end h k v ← h k v
Với mọi đỉnh v ∈ V, rút đặc trưng của các đỉnh hàng xóm của đỉnh v tại bước k h k N (v) bằng đầu ra của hàm aggregate k Đầu vào của hàm aggregate k là đặc trưng đỉnh đó ở bước thứ k−1 Thực hiện kết nối đặc trưng đỉnh v ở bước k −1 h (k−1) v với h k N (v) Kết quả vừa tính ở trước sẽ tiếp tục được dùng ở các vòng lặp tiếp theo Đặc trưng của mỗi đỉnh v ở bước k được bình thường hóa (normalize) bằng cách chia 2 Cuối cùng sau khi thực K vòng lặp, đặc trưng cuối cùng của mỗi đỉnh v được kí hiệu là z v
Học các tham số của GraphSage Để học các biểu diễn hữu ích và dự đoán trong môi trường hoàn toàn không giám sát, chúng tôi áp dụng một hàm mất mát dựa trên đồ thị cho các biểu diễn đầu ra zu,∀u ∈ V, điều chỉnh các ma trận trọng số W k ,∀k ∈ {1, , K} và các tham số của các hàm tổng hợp thông qua phương pháp hạ dốc đạo hàm (gradient descent 4 ) ngẫu nhiên Hàm mất mát dựa trên đồ thị khuyến khích các đỉnh gần nhau có biểu diễn tương tự, đồng thời đảm bảo rằng các biểu diễn của các đỉnh khác biệt rất lớn:
4 Thuật ngữ "gradient descent", nhấn mạnh việc điều chỉnh tham số dựa trên đạo hàm của hàm mất mát để tìm ra điểm tối ưu Đây là một phương pháp quan trọng trong quá trình tối ưu hóa trong học máy và mạng nơ-ron, giúp mô hình tiến tới giá trị nhỏ nhất của hàm mất mát thông qua việc điều chỉnh các tham số theo hướng mà đạo hàm giảm mạnh nhất.
J G (z u ) =−logσ(z u T z v )−QãEv∼P n (v)logσ(−z u T z v n ) 2.16 trong đó v là một đỉnh xuất hiện gần u trên đường đi ngẫu nhiên có độ dài cố định, σ là hàm sigmoid, P n là phân phối mẫu âm, và Q xác định số lượng mẫu âm Quan trọng, khác với các phương pháp nhúng trước đây, các biểu diễn z u đưa vào hàm mất mát này được tạo ra từ các đặc trưng chứa trong khu vực hàng xóm của một đỉnh thay vì huấn luyện một biểu diễn duy nhất cho mỗi đỉnh.
Các kiến trúc tổng hợp
Hàng xóm của một đỉnh không có thứ tự tự nhiên Do đó, các hàm tổng hợp trong thuật tạo vectơ Nhúng GraphSAGE phải hoạt động trên một tập hợp không có thứ tự các vectơ Lý tưởng nhất, một hàm tổng hợp sẽ là đối xứng (tức là không thay đổi khi hoán đổi vị trí của đầu vào của nó) trong khi vẫn có khả năng huấn luyện và giữ nguyên khả năng biểu diễn cao Thuộc tính đối xứng của hàm tổng hợp đảm bảo rằng mô hình mạng nơ ron có thể được huấn luyện và áp dụng cho các tập hợp không giới hạn các đặc trưng hàng xóm đỉnh theo bất kỳ thứ tự nào Có ba hàm tổng hợp thường được sử dụng: Tổng hợp trung bình, LSTM, pooling Tổng hợp trung bình đơn giản là lấy giá trị trung bình từ các vectơ trong h (k−1) v ,∀u ∈ N(v) Hàm tổng hợp trung bình gần như tương đương với quy tắc truyền của GCN Tổng hợp LSTM xem xét một bộ tổng hợp phức tạp hơn dựa trên kiến trúc LSTM So với hàm tổng hợp trung bình, LSTM có lợi thế về khả năng biểu diễn lớn hơn Tuy nhiên, phải lưu ý rằng LSTM không có tính đối xứng khi xử lý đầu vào của nó theo cách tuần tự, vì vậy phải điều chỉnh LSTM để hoạt động trên một hoán vị ngẫu nhiên của các hàng xóm của đỉnh Tổng hợp pooling là xem xét đối xứng và có khả năng huấn luyện Trong phương pháp gộp này, mỗi vectơ của hàng xóm được đưa qua lớp kết nối đầy đủ (fully connected) một cách độc lập; sau phép biến đổi này, một phép gộp tối đa được áp dụng để tổng hợp thông tin trên tập hợp hàng xóm.
Tổng kết chương 2
Trong chương này, chúng tôi đã phát biểu bài toán phát hiện tin giả; giới thiệu tổng quan về học biểu diễn đồ thị, sau đó nếu một số kỹ thuật học biểu diễn đồ thị tiêu biểu để phát hiện tin giả là GCN, GAT, GRAPHSAGE Trong chương tiếp theo, chúng tôi sẽ trình bày thực nghiệm và so sánh các kết quả đạt được.
Trong chương này, chúng tôi sẽ trình bày thực nghiệm các mô hình GCN, GAT, GRAPHSAGE trên bộ dữ liệu FakenewsNet Sau đó, chúng tôi tiến hành so sánh các kết quả đạt được với nhau và so sánh với kết quả của học máy truyền thống [34].
Dữ liệu
Thách thức lớn đối với phát hiện tin giả tự động là các bộ dữ liệu chuẩn. Trong phần thực nghiệm, chúng tôi sử dụng bộ dữ liệu FakenewsNet [35] Fak- eNewsNet chứa 2 bộ dữ liệu được thu thập bằng cách sử dụng thông tin cơ bản từ Politifact 1 và Gossipcop 2 Đây là bộ dữ liệu có thể được xem là profile (tức là các thông tin liên quan đến user) và tweet ids là lịch sử tweet của bài đó qua các user khác.
Mô tả tập dữ liệu dạng bảng:
Ví dụ dữ liệu dạng bảng của tập Politifact (Tương tự cho bộ Gossipcop).
Tập dữ liệu gồm các thông tin trên được mô tả dạng tính chất đồ thị trong bảng 3.1 sau:
Politifact Number of fake graphs: 373 Number of real graphs: 624
Number of fake nodes: 378936 Number of real nodes: 399862 Number of fake edges: 397243 Number of real edges: 418379 Avg nodes per graphs: 1015 Avg nodes per graphs: 640 Gossipcop Number of fake graphs: 15747 Number of real graphs: 16817
Number of fake nodes: 890200 Number of real nodes: 399862Number of fake edges: 879107 Number of real edges: 418379Avg nodes per graphs: 56 Avg nodes per graphs: 23Bảng 3.1 Mô tả dữ liệu đồ thị của bộ dữ liệu Politifact và Gossipcop
Cài đặt thực nghiệm
Chúng tôi sử dụng thư viện torch geometric Việc triển khai được thực hiện trên Google Colab, nơi cung cấp tới 13,53 RAM miễn phí và GPU NVIDIA TeslaK80 12 GB Công cụ được sử dụng là Python 3 trên khung học sâu Keras Để giúp việc triển khai hiệu quả hơn, các thử nghiệm được lặp lại đối với các khối lượng mẫu dữ liệu được gắn nhãn và không được gắn nhãn khác nhau Điểm hiệu suất và so sánh được liệt kê theo các số liệu độ chính xác P - precision, độ bao phủ R - Recall và độ đo F1 - F1 score.
Các thông số đầu vào của mô hình: learning rate = 0.01,hidden dim = 128, số GCN layer là 2, số epoch = 100.
Chia tập train, val, và test với tỷ lệ 60:20:20, các batch có kích thước là 128 để chuẩn bị cho việc huấn luyện mô hình.
GNNs tổng hợp biểu diễn của hàng xóm trong k bước nhảy rồi áp dụng các phép gộp (pooling) như tính tổng (SUM), tính giá trị trung bình (MEAN), tính giá trị lớn nhất (MAX) để thu được biểu diễn cuối cùng của nút Biểu diễn này bao gồm thông tin ngữ cảnh xã hội sau đó có thể được sử dụng để phân loại các đồ thị Các bước chung liên quan đến việc huấn luyện của GNN bao gồm:
• i) Tạo ra nhúng nút bằng cách sử dụng nhiều lần truyền thông điệp
• ii) Trích xuất nhúng đồ thị bằng cách tổng hợp nhúng nút
• iii) Đưa các nhúng vào các lớp kết nối đầy đủ để phân loại
GNN cho việc mô hình hóa mẫu lan truyền: GNN là một loại mạng nơ ron hoạt động trực tiếp trên cấu trúc đồ thị Các nền tảng mạng xã hội như Twitter, có thể được mô hình hoá dưới dạng các đồ thị GNN hoạt động dựa trên nguyên tắc truyền thông điệp hoặc tổng hợp hàng xóm, đây là quá trình lặp để tạo ra nhúng nút bằng cách tổng hợp thông tin từ hàng xóm cục bộ.
Hình 3.1: Trực quan hóa đồ thị mẫu có hướng
Kết quả
Để đánh giá cách tiếp cận của mình, chúng tôi sử dụng ba số liệu được sử dụng rộng rãi, đó là độ chính xácP (precision - P), độ bao phủ R (recall – R) và độ đo F1 (F1 score – F1) Các số liệu này dựa trên số lượng dự đoán: positives (TP), false positives (FP), true negatives (TN), và false negatives (FN) 3 của từng mô hình phân loại Các chỉ số nêu trên được xác định như sau:
Phương pháp Mô hình Politifact Gossipcop
Học máy truyền thống [34] k-NN 0.887 0.779 0.829 0.798 0.856 0.826
NB 0.874 0.832 0.852 0.831 0.868 0.849 SVM 0.815 0.917 0.863 0.883 0.956 0.918 Học biểu diễn đồ thị GCN 0.855 0.856 0.849 0.920 0.921 0.935 Bảng 3.2: So sánh kết quả của phương pháp học máy truyền thống và GCN trên 2 tập dữ liệu gossipcop và politifact
GRAPHSAGE 0.867 0.907 0.887 Bảng 3.3 So sánh kết quả của các mô hình GCN, GAT, GRAPHSAGE
Kết quả khi thực thi trên 2 tập dữ liệu (Bảng 3.2, 3.3) Nhìn chung, các mô hình GCN , GAT, GRAPHSAGE được thiết kế đơn giản mang lại độ chính xác khá cao Khi trực quan hóa dữ liệu bằng t-SNE cho trước và sau trên cả 2 tập dữ liệu thì thấy kết quả sau khi dự đoán được khớp với nhau rất tốt (Hình 3.2).
3 True Positives (TP): là số lượng các trường hợp mà mô hình dự đoán đúng là thuộc vào lớp tích cực (positive class) và thực tế chúng thuộc vào lớp tích cực True Negatives (TN): là số lượng các trường hợp mà mô hình dự đoán đúng là thuộc vào lớp tiêu cực (negative class) và thực tế chúng thuộc vào lớp tiêu cực False Positives (FP): là số lượng các trường hợp mà mô hình dự đoán sai là thuộc vào lớp tích cực (positive class), nhưng thực tế chúng thuộc vào lớp tiêu cực (negative class) False Negatives (FN): là số lượng các trường hợp mà mô hình dự đoán sai là thuộc vào lớp tiêu cực (negative class), nhưng thực tế chúng thuộc vào lớp tích cực (positive class).
Kết quả cho thấy các mô hình học biểu diễn đồ thị cho kết quả tốt (trên 80%) trên bộ FakenewsNet, với độ chính xác của GCN là tốt nhất, độ bao phủ và độ F1 của GRAPHSAGE là tốt nhất Và phát hiện tin giả bằng phương pháp học biểu diễn đồ thị (đại diện là GCN) đạt kết quả tốt hơn phương pháp học máy truyền thống trên bộ dữ liệu Gossipcop (trên 90%). a) Sơ đồ trực quan hóa t-SNE của dữ liệu trước và sau khi thực thi của bộ Gossipcop b) Sơ đồ trực quan hóa t-SNE của dữ liệu trước và sau khi thực thi của bộ GossipcopHình 3.2: Sơ đồ trực quan hóa t-SNE của dữ liệu trước và sau khi thực thi mô hình
Trong phần này, chúng tôi tóm lượt các nội dung chính của đề án Ngoài ra, chúng tôi nhận xét một số hạn chế cảu đề án và thảo luận về hướng phát triển tiếp theo.
1 Tóm lược các kết quả và đóng góp của đề án
Trong khuôn khổ của một đề án, chúng tôi đã trình bày nghiên cứu vấn đề học biểu diễn đồ thị để phát hiện tin giả gồm các nội dung chính sau:
Thứ nhất là trình bày được vấn đề phát hiện tin giả một cách chính xác, nhanh chóng là sự quan tâm lớn Qua đó, phát biểu được bài toán phát hiện tin giả bằng học biểu diễn đồ thị.
Thứ hai là trình bày được phương pháp phát hiện tin giả bằng học biểu diễn đồ thị, cụ thể là các mô hình: GCN, GAT, GRAPHSAGE.
Thứ ba là cài đặt được các mô hình GCN, GAT, GRAPHSAGE để phát hiện tin giả.
Thứ tư là thực hiện thực nghiệm so sánh, đánh giá hiệu quả của phương pháp học biểu diễn đồ thị với phương pháp học máy truyền thống, và so sánh kết quả giữa các mô hình học biểu diễn đồ thị với nhau.
2 Hướng phát triển trong tương lai
Trong tương lai, chúng tôi mong muốn nghiên cứu thêm việc xây dựng bộ dữ liệu tiếng Việt phù hợp để có thể phát hiện tin giả tràn lan trên mạng xã hội như hiện nay, đặc biệt là các tin giả liên quan đến giáo dục gây ảnh hưởng xấu cho giáo viên và học sinh.
[1] Ray Oshikawa, J Q and Wang, W Y (2018) A survey on natural, language processing for fake news detection CoRR, abs/1811.00770.
[2] Allcott, H.; Gentzkow, M Social media and fake news in the 2016 election.
[3] Xinyi Zhou, Reza Zafarani (2020) A Survey of Fake News: Fundamental Theories, Detection Methods, and Opportunities, arXiv:1812.00315v2
[4] Tasnim, S.; Hossain, M.M.; Mazumder, H Impact of rumors and misinfor- mation on COVID-19 in social media J Prev Med Public Health 2020.
[5] Liu, Y (2019) Early detection of fake news on social media PhD thesis.
[6] Amy B Wang 2016 Post-truth’named 2016 word of the year by Oxford Dictionaries Washington Post (2016).
[7] Ha, L.; Andreu Perez, L.; Ray, R Mapping recent development in scholarship on fake news and misinformation, 2008 to 2017: Disciplinary contribution, topics, and impact Am Behav Sci 2021.
[8] Rubin, V L (2010) On deception and deception detection: Content analysis of computer-mediated stated beliefs Proceedings of the American Society for Information Science and Technology.
[9] P²rez-Rosas, V., Kleinberg, B., Lefevre, A., and Mihalcea, R (2017) Auto- matic detection of fake news CoRR, abs/1708.07104.
[10] Iraklis Varlamis, Dimitrios Michail, Foteini Glykou and Panagiotis Tsantilas
(2022) A Survey on the Use of Graph Convolutional Networks for Combating Fake News.
[11] Huyen Trang Phan, Ngoc Thanh Nguyen, Dosam Hwang (2022) Fake news detection: A survey of graph nơ ron network methods.
[12] Jennifer Golbeck, et al (2018) Fake News vs Satire: A Dataset and Analysis.
[13] Levi, O., Hosseini, P., Diab, M., and Broniatowski, D (2019) Identify- ing nuances in fake news vs satire: Using semantic and linguistic cues In Proceedings of the Second Workshop on Natural Language Processing for Internet Freedom: Censorship, Disinformation, and Propaganda Association for Computational Linguistics.
[14] Martin Potthast, et al (2017) A Stylometric Inquiry into Hyperpartisan and Fake News, arXiv:1702.05638v1.
[15] Amr Magdy, Nayer Mahmoud Wanas (2016) Web-based statistical fact checking of textual documents.
[16] Jin, Z., Cao, J., Zhang, Y., and Luo, J (2016) News verification by ex- ploiting conflicting social viewpoints in microblogs In Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence, AAAI’16.
[17] Shu, K., Sliva, A., Wang, S., Tang, J., and Liu, H (2017) Fake news detec- tion on social media: A data mining perspective ACM SIGKDD explorations newsletter.
[18] Clinton Burfoot, Timothy Baldwin (2009) Automatic satire detection: are you having a laugh?
[19] Zhou, X and Zafarani, R (2019) Fake news detection: An interdisciplinary research In Companion proceedings of the 2019 world wide web conference.
[20] Wang, W Y (2017) “liar, liar pants on fire”: A new benchmark dataset for fake news detection In Proceedings of the 55th Annual Meeting of the Asso- ciation for Computational Linguistics (Volume 2: Short Papers), Vancouver, Canada Association for Computational Linguistics.
[21] Rubin, V L., Conroy, N K., and Chen, Y (2015) Automatic deception detection: Methods for finding fake news Proceedings of the association for information science and technology.
[22] Sejeong Kwon et al (2013) Aspects of Rumor Spreading on a Microblog Network.
[23] Ruchansky, N., Seo, S., and Liu, Y (2017) Csi: A hybrid deep model for fake news detection In Proceedings of the 2017 ACM on Conference on Information and Knowledge Management
[24] Bessi, A., Caldarelli, G., Del Vicario, M., Scala, A., and Quattrocioc- chi, W (2014) Social Determinants of Content Selection in the Age of (Mis)Information, pages 259268 Springer International Publishing, Cham.
[25] Yi Han, Shanika Karunasekeran, Christopher LeckieGraph (2020) Neural Networks with Continual Learning for Fake News Detection from Social Me- dia, arXiv:2007.03316v2 [cs.SI].
[26] Thomas N Kipf, Max Welling (2017) Semi-Supervised Classification with Graph Convolutional Networks.
[27] Felix Wu, Tianyi Zhang, Amauri Holanda de Souza Jr , Christo- pher Fifty, Tao Yu, (2019) Simplifying Graph Convolutional Networks arXiv:1902.07153v2 [cs.LG].
[28] Minh Thang Luong, Hieu Pham, Christopher D Manning (2015), Effective Approaches to Attention-based Neural Machine Translation, arXiv:1508.04025v5.
[29] Petar Veliˇckovi´c, et al (2018) Graph Attention Networks, arXiv:1710.10903v3.
[30] Kelvin Xu, et al (2016) Show, Attend and Tell: Neural Image Caption Generation with Visual Attention, arXiv:1502.03044v3.
[31] G Li, C Zheng, M Li and H Wang (2022) Automatic Requirements Clas- sification Based on Graph Attention Network, in IEEE Access, vol 10, pp. 30080-30090, 2022, doi: 10.1109/ACCESS.2022.3159238.
[32] J Devlin, M.-W Chang, K Lee, and K Toutanova (2018) “BERT: Pre- training of deep bidirectional transformers for language understanding”,arXiv:1810.04805.