Mô hình ngôn ngữ

Một phần của tài liệu Tóm tắt văn bản tiếng việt sử dụng hệ thống học sâu nguyễn thị hiệp thuận tp hồ chí minh đại học bách khoa, 2021 b (Trang 28 - 29)

2 Cấu trúc của hệ thống Forcing-SeqSeq

2.3 Mô hình ngôn ngữ

Mô hình này được xây dựng để giải quyết vấn đề bất cập thứ nhất của mô hình Base− Seq2Seq, đó là vấn đề lặp lại các từ trong tiêu đề được tạo tự động. Tôi sử dụngmô hình ngôn ngữ mức từ để sửa lỗi cho các tiêu đề được dự đoán. Tôi gọi mô hình kết hợp giữa Base−Seq2Seq và mô hình ngôn ngữ làSmooth−Seq2Seq, một kiến trúc ở giữa để so sánh sự cải thiện của việc áp dụngmô hình ngôn ngữ so với mô hình hiện có cũng như so với kiến trúc F orcing−Seq2Seq hoàn thiện mà tôi đề xuất trong luận văn này.

Trong bài luận văn này, tôi đã đào tạo mô hình ngôn ngữ từ tập corpus mở rộng,mô hình ngôn ngữ của tôi sử dụng mạng LSTM để đào tạo, quy trình đào tạo được mô tả

trong Hình 9 và đã được giải thích chi tiết trong chương 2.

Hình 9: Huấn luyện mô hình ngôn ngữ

Sau khi đào tạo, mô hình ngôn ngữ này được sử dụng để sửa lỗi cho tiêu đề tự động. Việc sửa lỗi được thực hiện theo sơ đồ trong hình 10.

Tôi sử dụng mô hình ngôn ngữ đã được huấn luyện để đánh giá điểm cho một tiêu đề đã tạo với công thức như sau:

Score=P(w2|w1) +P(w3|w1w2) +...+P(wn|w1...wn−1) (10) Đầu tiên, tôi sẽ truy xuất danh sách thứ tự các từ lặp lại trong tiêu đề vừa tạo ra và xóa lần lượt từng từ được lặp lại này, và đánh giá điểm hợp lý trước và sau khi loại bỏ từ lắp dựa trên công thức (10), và cuối cùng giữ lại tiêu đề có điểm cao đánh giá cao hơn.

Với cách tiếp cận này, tôi hầu như đã loại bỏ các từ được lặp lại nhiều lần trong tiêu đề, giúp cho tiêu đề sau khi chỉnh sửa đúng ngữ pháp, ngắn gọn hơn và vẫn đảm bảo đúng từ ngữ và văn phong.

Tuy nhiên, cách làm này sẽ không thay đổi nhiều về nội dung của tiêu đề, và tiêu đề sinh ra vẫn có nhược điểm rõ rệt về mặt ý nghĩa, chưa thể hiện được rõ ý đồ nồng cốt văn bản gốc truyền tải. Lý do là tiêu đề tại ra thường có độ dài rất ngắn so với văn bản gốc ban đầu. Nhược điểm này đã được tôi nghiên cứu và tìm ra hướng cải thiện, được giải quyết trong mô hình F orcing−Seq2Seq đầy đủ.

Một phần của tài liệu Tóm tắt văn bản tiếng việt sử dụng hệ thống học sâu nguyễn thị hiệp thuận tp hồ chí minh đại học bách khoa, 2021 b (Trang 28 - 29)