Giới thiệu mơ hình

Một phần của tài liệu LATS-TuanLM (Trang 69)

Chương 2 CÁC KIẾN THỨC NỀN TẢNG

3.2. Mơ hình tóm tắt đơn văn bản hướng trích rút

3.2.1. Giới thiệu mơ hình

Các cách tiếp cận học máy và học sâu thường quy bài tốn tóm tắt đơn văn bản hướng trích rút về bài tốn phân loại câu với câu có nhãn 1 là câu được đưa vào bản tóm tắt và 0 nếu ngược lại. Vì vậy, việc xác định tập đặc trưng của câu trong bài tốn này đóng vai trị quan trọng. Các cách tiếp cận học sâu giải quyết bài tốn này bằng cách véc tơ hóa các câu của văn bản đầu vào dựa trên một mơ hình ngơn ngữ đã được huấn luyện trước nào đó; sau đó sử dụng các mơ hình học sâu phù hợp để trích ra được các đặc trưng câu. Một mơ hình ngơn ngữ được huấn luyện trước trên tập ngữ liệu lớn các văn bản trên một ngôn ngữ cho phép hiểu được ngữ nghĩa của từ và biểu diễn từ trong không gian véc tơ ngữ nghĩa của ngơn ngữ đó. Hai mơ hình ngơn ngữ sử dụng phổ biến hiện nay là word2vec và BERT. Nhược điểm của các mơ hình huấn luyện dựa trên word2vec là có thể sinh ra véc tơ biểu diễn ngữ nghĩa cho một từ đầu vào mà không phụ thuộc đến ngữ cảnh xuất hiện từ đó. Vì một từ khi xuất hiện trong ngữ cảnh khác nhau có thể có nghĩa khác nhau nên cách tiếp cận trên có thể đưa ra cách biểu diễn từ khơng chính xác, dẫn đến ảnh hưởng đến kết quả tóm tắt của hệ thống. Trong khi đó, mơ hình BERT khơng sinh ra véc tơ ngữ nghĩa của một từ đứng độc lập mà chỉ sinh ra véc tơ ngữ nghĩa của câu, dựa trên việc học mối liên hệ hai chiều giữa các từ trong câu đó. Vì vậy, véc tơ ngữ nghĩa của câu được sinh ra bởi mơ hình BERT sẽ có độ tin cậy cao hơn so với khi sử dụng word2vec. Trong các ứng dụng về xử lý ngôn ngữ tự nhiên, việc sử dụng BERT thường đem lại kết quả vượt trội so với các cách tiếp cận khác. Vì vậy luận án sử dụng các mơ hình tối ưu của BERT để biểu diễn câu đầu vào trong các mơ hình tóm tắt văn bản bao gồm mơ hình RoBERTa [106] cho tiếng Anh và mơ hình PhoBERT [110] cho tiếng Việt.

Với mơ hình tóm tắt văn bản, véc tơ đặc trưng của các câu đầu vào này cần đi qua một bộ phân loại để xác định các câu quan trọng. Phương pháp SVM và MLP là các phương pháp phân loại dựa trên học máy đạt hiệu quả cao. Do MLP thường được sử dụng với đầu vào là véc tơ có kích thước lớn, khá phù hợp với đầu vào là véc tơ đặc trưng câu nói trên nên mơ hình đề xuất sử dụng MLP trong bài tốn này. Một vấn đề có thể xảy ra với kết quả đầu ra của bộ phân loại trên là nhiều câu có nội dung gần tương đồng đều có độ quan trong cao, dẫn đến trùng lặp nội dung trong bản tóm tắt. Để giải quyết vấn đề đó, luận án sử dụng phương pháp MMR để loại bỏ các thông tin trùng lặp đó. Bản tóm tắt được sinh ra dựa trên các câu quan trọng đã loại bỏ trùng lặp, được sắp xếp theo vị trí xuất hiện câu trong văn bản gốc. Dựa trên ý tưởng đó, luận án đề xuất mơ hình tóm tắt văn bản được trình bày trong phần 3.2.2 dưới đây.

Một phần của tài liệu LATS-TuanLM (Trang 69)

Tải bản đầy đủ (DOCX)

(194 trang)
w