Phát hiện tự động tin giả y tế trên mạng xã hội dựa trên chứng cứ

MỤC LỤC

GIỚI THIỆU ĐỀ TÀI

Tuy nhiên, trong phạm vi nghiên cứu và thực hiện luận văn tốt nghiệp này, học viên sẽ tập trung vào một bài toán kiểm tra tin giả sử dụng chứng cứ, cụ thể các phát biểu được kiểm chứng bằng các tin tức, bài viết thu thập từ các nguồn khác và phân loại cặp tuyên bố - chứng cứ là SUPPORTS (Ủng hộ), REFUTES (Bác bỏ) hay làNEI (Không đủ thông tin) (nhưHình 1.2). – Các thí nghiệm trên bốn bộ dữ liệu là CovidFact [2], HealthVer [3], bộ dữ liệu DS01-ISE-ICHEVE (Information Checking and Verification)5 và bộ dữ liệu ViFactCheckingOSNs do học viên xây dựng cho thấy mô hình đề xuất đạt được cải tiến hiệu suất so với các mô hình cơ sở, cụ thể là tăng 3 - 5 % F1 score trên bộ dữ liệu tiếng anh và tăng 3 - 10 % F1 score trên bộ dự liệu tiếng việt.

Hình 1.1: Minh họa về bài toán phát hiện tin giả.

CƠ SỞ LÝ THUYẾT

Cơ sở kiến thức về mô hình học sâu

Trong khi ở các phương pháp dựa trên thống kê NLP trước đó, các từ được xử lý độc lập mà không xem xét mối quan hệ giữa chúng trong một câu hoặc một đoạn văn, cơ chế dựa trên attention của kiến trúc Transformer cho phép xem xét các mối quan hệ này và thiết lập các kết nối sâu. Đây cũng là một mô hình học sâu được thiết kế để phục vụ giải quyết nhiều bài toán trong xử lý ngôn ngữ và tiếng nói, ví dụ như bài toán dịch tự động, bài toán sinh ngôn ngữ, phân loại, nhận dạng thực thể, nhận dạng tiếng nói, chuyển văn bản thành tiếng nói,. Do lượng dữ liệu lớn, thời gian thực hiện và tài nguyên tính toán cần thiết để huấn luyện loại mô hình này, các nhà nghiên cứu thường sử dụng các kiến trúc được huấn luyện trước sau đó điều chỉnh để giải quyết các nhiệm vụ cụ thể.

Có các tập dữ liệu khác nhau đã được thiết kế để huấn luyện và đánh giá các mô hình NLP cho NLI, tuy nhiên, chúng cũng thường được sử dụng để huấn luyện các Transformer đa năng do tầm quan trọng của nhiệm vụ này trong tác vụ Hiểu ngôn ngữ tự nhiên (Natural Language Understanding – NLU).

CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

Tự động phát hiện tin giả không diễn giải

Phương pháp phát hiện tin giả cơ bản dựa vào Neural Network để tự động phát hiện được một số lượng các thông tin dựa trên góc nhìn về nội dung bài viết (content-based) vàngữ cảnh xã hội (context-based) của nó, từ đó tạo nên mô hình phân loại tin giả một cách hiệu quả. Kết quả từ nghiên cứu của Kim và các cộng sự [20] đã chứng minh rằng độ chính xác trong việc phát hiện tin đồn chỉ sử dụng đặc trưng dựa trên nội dung cao hơn so với việc sử dụng tất cả các đặc trưng khác kết hợp đồng thời. Vào năm 2020, tác giả Zhou và các cộng sự [32] đã nghiên cứu nội dung tin tức tại 4 cấp độ: từ vựng (lexicon), cú pháp (syntax), ngữ nghĩa (semantic) và diễn ngôn (discourse) và sử dụng một mô hình học máy để khám phá mẫu chung của các tin giả.

Có nhiều đặc trưng dựa trên mạng được sử dụng để phát hiện tin giả [36], bao gồm việc chia sẻ lại tin tức [37], mô hình truyền bá thông điệp qua mạng xã hội [38], thông tin thời gian và không gian về việc lan truyền thông điệp [39], cũng như mối quan hệ theo dừi-người theo dừi [40].

Hình 3.2: Các đặc trưng dựa trên Social Context được sử dụng để phát hiện tin tức giả mạo

Phát hiện tin giả một cách có diễn giải

• Đặc điểm uy tín của người dùng: bao gồm mức độ đáng tin cậy, ảnh hưởng của tài khoản và danh tiếng của người dùng, cũng như tổng số lượng tin nhắn cỏ nhõn, tỷ lệ bạn bố-theo dừi và số lượng người theo dừi và bạn bố [44]. • Đặc điểm hồ sơ của người dùng: điều này cho thấy chi tiết của hồ sơ người dùng, chẳng hạn như tên tài khoản, dữ liệu vị trí và dữ liệu đăng ký để đánh giá xem tài khoản người dùng có được xác minh hay không [46]. Trong phương pháp của họ, các tuyên bố cùng với nhãn sự thật tương ứng và giải thích cho các nhãn được thu thập từ trang web kiểm chứng sự thật Poynter và sử dụng như một cơ sở tri thức.

Nhưng không phải mâu thuẫn nào cũng có thể được sử dụng như là bằng chứng hợp lệ để giải thích kết quả, và chúng cũng có thể bao gồm những mâu thuẫn không liên quan tới bài viết gốc và thậm chí can thiệp vào kết quả đã xác minh.

Thảo luận

– Có thể phát hiện đối với những tin tức không có nội dung giống với nội dung đã huấn luyện vì dựa vào thông tin cũng như cấu trúc tương tác trên mạng xã hội trên tin đang xét. – Mô hình kém trong việc khái quát hóa, nghĩa là nếu tin giả có sự khác so với mẫu mà mô hình đã học thì kết quả sẽ tệ (thực tế tin giả theo thời gian càng trở nên đa dạng và khó nhận biết hơn). – Có thể phát hiện đối với những tin tức không có nội dung giống với nội dung đã huấn luyện vì dựa vào thông tin cũng như cấu trúc tương tác trên mạng xã hội trên tin đang xét.

Trong khi lựa chọn một phương pháp phù hợp để tuân theo và triển khai cho đề tài, tác giả đã đi đến kết luận rằng cách phát hiện tin giả một cách có diễn giả cụ thể tiếp cận dựa vào chứng cứ sẽ là một cách thích hợp để phát triển vì giỳp đem lại cho người dựng cuối một kết quả diễn giải, rừ ràng từ đú, giỳp kết quả trở nên đáng tin cậy hơn.

CHỨNG

Bộ dữ liệu HealthVer
Bộ dữ liệu COVIDFact
Bộ dữ liệu DS01-ISE-ICHEVE (Information Checking and Verification)
Xây dựng bộ dữ liệu ViFactCheckingOSNs dựa trên về tin trên mạng xã hội

BỘ DỮ LIỆU KIỂM TRA. Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học và Kỹ Thuật Máy Tính. Bảng 4.1: Các thông số liên quan các tập dữ liệu kiểm tra tin giả Ngôn. ngữ Năm Tập dữ liệu Claim Claim Origin. Multi- Domain 2023 ViFactCheckingOSNs 5,388 Social. Engine Heath and Verification) là bộ dữ liệu trong cuộc thi UIT Data Science năm 2023 và. Bộ dữ liệu HealthVer [3] bao gồm các tuyên bố liên quan đến COVID được thu thập bằng cách trích xuất đoạn trích từ các bài báo được tìm thấy để trả lời các câu hỏi từ TREC-COVID [54], được xác minh dựa trên trích dẫn từ các tóm tắt trong bộ dữ liệu CORD-19 corpus [55]. Bộ dữ liệu COVIDFact [2] thu thập các tuyên bố về COVID-19 từ một nhóm reddit liên quan đến COVID-19, và xác minh chúng dựa trên các bài báo khoa học được liên kết, cũng như các tài liệu được tìm thấy thông qua tìm kiếm trên Google.

Nguyên nhân của sử mất cân bằng này một phần là do những bài viết chứa tin giả thường sẽ không tồn tại được lâu, chúng sẽ bị xoá khi bị phát hiện bởi hệ thống kiểm duyệt bài viết của Facebook hoặc bị nhiều người dùng Facebook báo cáo.

Bảng 4.1: Các thông số liên quan các tập dữ liệu kiểm tra tin giả Ngôn

MÔ HÌNH ĐỀ XUẤT ExFAN

Mô hình tham khảo

Khác với các phương pháp trước đó tập trung vào xử lý ngôn ngữ tự nhiên thống kê, Mô hình FacTeR-Check triển khai đánh giá tương tự ngữ nghĩa có semantic-aware, context-aware nhận thức về ngữ nghĩa và ngữ cảnh. – paraphrase-multilingual-mpnet-base-v2: Distilled version của mô hình MPNet từ Microsoft [61] fine-tuned với lượng lớn dữ liệuparaphase sử dụng XLM-R như một mô hìnhstudent. • Multilingual Natural Language Inference(Suy luận Ngôn ngữ Tự nhiên Đa ngôn ngữ): Khi một lựa chọn evidence tương tự được trình bày, các mô- đun NLI tính toán xác suất suy luận P với tuyên bố đầu vào ci.

Khi đã xác định được một tập hợp topk các evidence (e1, e2, .., ek) với một mức độ tương tự ngữ nghĩa cụ thể, mô hình NLI (Suy luận Ngôn ngữ Tự nhiên) được sử dụng để suy luận mối quan hệ giữa câu tuyên bố mới (giả thuyết) và các evidence đã được kiểm chứng.

Hình 5.1: Kiến trúc mô hình FacTeR-Check.

Mô hình đề xuất ExFAN

Underthesea là một toolkit hỗ trợ cho việc nghiên cứu và phát triển xử lý ngôn ngữ tự nhiên tiếng Việt, ra đời vào tháng 03 năm 2017, trong bối cảnh ở Việt Nam đã có một số toolkit khá tốt như vn.vitk, pyvi, nhưng vẫn thiếu một toolkit hoàn chỉnh, nguồn mở, dễ dàng cài đặt và sử dụng như các sản phẩm tương đương đối với tiếng Anh nltk, polyglot, spacy. Ở tác vụ này, với các dữ liệu về tiếng việt, học viên thay thế kiến trúc mô hình Multilingual SBert bằng kiến trúc mô hình Vietnamese Sentence cho tiếng Việt của tác giả Long và các cộng sự1 vì Mô hình của Vietnamese SBert đã đạt được độ chính xác tốt nhất (95,33 %) và điểm F1 (95,42 %) trong tác vụ Paraphasing tiếng việt. Việc chuyển đổi sang mô hình DebertaV3 và việc thực hiện huấn luyện và đánh giá mô hình trên các bộ dữ liệu liên quan đến sức khoẻ, covid ở cả tiếng anh lẫn tiếng việt sẽ giỳp làm rừ hơn về sức mạnh và khả năng ứng dụng của mụ hỡnh trong việc phân tích ngữ nghĩa và suy luận ngôn ngữ tự nhiên.

Tuy nhiên, thách thức lớn hiện nay là làm thế nào để tạo ra một hệ thống NLI mạnh mẽ hơn, đặc biệt là thông qua việc tích hợp các thành phần như Named Entity Recognition (NER), parser và semantic awareness để hỗ trợ quá trình Logical Reasoning.

Hình 5.3: Kiến trúc của tác vụ Tự động truy xuất bằng chứng sử dụng công cụ tìm kiếm

THÍ NGHIỆM VÀ ĐÁNH GIÁ MÔ HÌNH ExFAN

Kết quả thực nghiệm và thảo luận

• Mô hìnhMultiVerS(MultitaskVerification forScience) [68] Mô hình nhận đầu vào là mộtclaim tuyên bố và abstract tóm tắt khoa học chứa thông tin về evidence, MULTIVERS tạo ra một mã hóa chung của toàn bộ ngữ cảnh claim vàabstract bằng cách sử dụng bộ mã hóa Longformer được Beltagy và cộng sự công bố vào năm 2020 để phục vụ các chuỗi thông tin dài. Phương pháp mô hình hóa này đảm bảo rằng việc dự đoán nhãn được thực hiện dựa trên toàn bộ ngữ cảnh có sẵn và cho phép huấn luyện trên các trường hợp được tạo ra thông quaweakly supervised khi chỉ có sẵn các nhãn level abstract nhưng không có evidence ở level câu. Kết quả của mô hình ExFAN khá cạnh tranh với các mô hình đạt vị trí thứ nhất, đồng thời mô hình có độ khái quát hoá cao và có thể dự đoán khi không cần giai đoạn huấn luyện, trong khi nếu sử dụng giải pháp đó là những mô hình machine learning cơ bản như SVM thì khó hiện thực điều này.

– Xây dựng bộ dữ liệu ViFactCheckingOSNs từ các bài post trên mạng xã hội tiếng việt dùng để huấn luyện mô hình, điều này không chỉ có ý nghĩa cho quá trình nghiên cứu của học viên mà còn có ý nghĩa đối với các nghiên cứu có liên quan sau này.

Bảng 6.1: Điều kiện và giải thích các giá trị trong ma trận nhầm lẫn Chấm điểm (Condition) Giải thích (Interpretation)