Giới thiệu mụ hỡnh

Một phần của tài liệu (Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 69)

Cỏc cỏch tiếp cận học mỏy và học sõu thường quy bài toỏn túm tắt đơn văn bản hướng trớch rỳt về bài toỏn phõn loại cõu với cõu cú nhón 1 là cõu được đưa vào bản túm tắt và 0 nếu ngược lại. Vỡ vậy, việc xỏc định tập đặc trưng của cõu trong bài toỏn này đúng vai trũ quan trọng. Cỏc cỏch tiếp cận học sõu giải quyết bài toỏn này bằng cỏch vộc tơ húa cỏc cõu của văn bản đầu vào dựa trờn một mụ hỡnh ngụn ngữ đó được huấn luyện trước nào đú; sau đú sử dụng cỏc mụ hỡnh học sõu phự hợp để trớch ra được cỏc đặc trưng cõu. Một mụ hỡnh ngụn ngữ được huấn luyện trước trờn tập ngữ liệu lớn cỏc văn bản trờn một ngụn ngữ cho phộp hiểu được ngữ nghĩa của từ và biểu diễn từ trong khụng gian vộc tơ ngữ nghĩa của ngụn ngữ đú. Hai mụ hỡnh ngụn ngữ sử dụng phổ biến hiện nay là word2vec và BERT. Nhược điểm của cỏc mụ hỡnh huấn luyện dựa trờn word2vec là cú thể sinh ra vộc tơ biểu diễn ngữ nghĩa cho một từ đầu vào mà khụng phụ thuộc đến ngữ cảnh xuất hiện từ đú. Vỡ một từ khi xuất hiện trong ngữ cảnh khỏc nhau cú thể cú nghĩa khỏc nhau nờn cỏch tiếp cận trờn cú thể đưa ra cỏch biểu diễn từ khụng chớnh xỏc, dẫn đến ảnh hưởng đến kết quả túm tắt của hệ thống. Trong khi đú, mụ hỡnh BERT khụng sinh ra vộc tơ ngữ nghĩa của một từ đứng độc lập mà chỉ sinh ra vộc tơ ngữ nghĩa của cõu, dựa trờn việc học mối liờn hệ hai chiều giữa cỏc từ trong cõu đú. Vỡ vậy, vộc tơ ngữ nghĩa của cõu được sinh ra bởi mụ hỡnh BERT sẽ cú độ tin cậy cao hơn so với khi sử dụng word2vec. Trong cỏc ứng dụng về xử lý ngụn ngữ tự nhiờn, việc sử dụng BERT thường đem lại kết quả vượt trội so với cỏc cỏch tiếp cận khỏc. Vỡ vậy luận ỏn sử dụng cỏc mụ hỡnh tối ưu của BERT để biểu diễn cõu đầu vào trong cỏc mụ hỡnh túm tắt văn bản bao gồm mụ hỡnh RoBERTa [106] cho tiếng Anh và mụ hỡnh PhoBERT [110] cho tiếng Việt.

Với mụ hỡnh túm tắt văn bản, vộc tơ đặc trưng của cỏc cõu đầu vào này cần đi qua một bộ phõn loại để xỏc định cỏc cõu quan trọng. Phương phỏp SVM và MLP là cỏc phương phỏp phõn loại dựa trờn học mỏy đạt hiệu quả cao. Do MLP thường được sử dụng với đầu vào là vộc tơ cú kớch thước lớn, khỏ phự hợp với đầu vào là vộc tơ đặc trưng cõu núi trờn nờn mụ hỡnh đề xuất sử dụng MLP trong bài toỏn này. Một vấn đề cú thể xảy ra với kết quả đầu ra của bộ phõn loại trờn là nhiều cõu cú nội dung gần tương đồng đều cú độ quan trong cao, dẫn đến trựng lặp nội dung trong bản túm tắt. Để giải quyết vấn đề đú, luận ỏn sử dụng phương phỏp MMR để loại bỏ cỏc thụng tin trựng lặp đú. Bản túm tắt được sinh ra dựa trờn cỏc cõu quan trọng đó loại bỏ trựng lặp, được sắp xếp theo vị trớ xuất hiện cõu trong văn bản gốc. Dựa trờn ý tưởng đú, luận ỏn đề xuất mụ hỡnh túm tắt văn bản được trỡnh bày trong phần 3.2.2 dưới đõy.

Một phần của tài liệu (Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 69)