CHƯƠNG 3 CÁC CÔNG TRÌNH LIÊN QUAN 26
3.1 Chatbot tiếng Việt dựa trên mạng nơ-ron (A Neural Net- work Based Vietnamese Chatbot)
Đây là một bài báo trên hội nghị SMART năm 2018 của tác giả Trang Nguyen và Maxim Shcherbakov [22]. Bài nghiên cứu chủ yếu xây dựng mô hình chatbot cho tiếng Việt sử dụng mô hình Sequence to Sequence kết hợp với cơ chế Attention. Trong bài viết, các tác giả có đề cập đến một số mô hình nổi tiếng về dịch máy như sử dụng nhiều tầng của LSTM kết hợp với cơ chế Attention và tác giả của bài viết cũng sử dụng mô hình tương tự.
Dữ liệu được dùng trong bài nghiên cứu này được lấy từ các trang web học tiếng Anh cho người Việt Nam. Tập dữ liệu có chứa các 1331 cặp câu hỏi và câu trả lời. Hình 3.1 ví dụ mẫu dữ liệu của tác giả.
Hình 3.1:Ví dụ về cặp câu hỏi và trả lời [22]
Sau khi thực hiện huấn luyện mô hình qua 300.000 bước, tác giả có đưa ra một số nhận xét về mô hình như sau:
• Kết quả được đánh giá bằng độ đo perplexity trong quá trình huấn luyện là 6,845. • Cơ chế attention có ảnh hưởng tốt đến quá trình sinh kết quả.
Hình 3.2:Một số kết quả được đề cập trong bài viết [22]
Trong đề tài luận văn này, nhóm sẽ hiện thực lại mô hình trên cho tập dữ liệu ở mục 4.1 và so sánh với mô hình GPT trên cùng tập dữ liệu để so sánh khả năng của hai mô hình.
3.2 Mô hình BERT
Mô hình BERT [21] được đề xuất bởi nhóm nghiên cứu tại Google AI. Đây là một mô hình ngôn ngữ được thiết kế cho nhiều tác vụ trong xử lý ngôn ngữ tự nhiên như trả lời câu hỏi, sinh câu tiếp theo. Mô hình sẽ được huấn luyện không giám sát như một mô hình ngôn ngữ trước.
CHƯƠNG 3 CÁC CÔNG TRÌNH LIÊN QUAN 27
Hình 3.3:Tổng quát quá trình tiền huấn luyện và áp dụng của mô hình BER [21]
Sau quá trình tiền huấn luyện, các tham số của mô hình sẽ được dùng để huấn luyện cho một nhiệm vụ cụ thể.
Một trong những áp dụng mà mô hình BERT được sử dụng nhiều là tác vụ trả lời câu hỏi. Trong tác vụ này, theo nghiên cứu cho thấy hiệu quả của mô hình rất tốt. Khi so sánh với các mô hình khác trong cùng thời điểm đều có các điểm số vượt trội hơn. Cụ thể các số liệu như hình 3.4 và 3.5.
Hình 3.4:So sánh kết quả trên tập SQuAD 1.1 [21]
Trong đề tài này, nhóm sẽ sử dụng mô hình BERT để giải quyết bài toán trả lời câu hỏi tiếng Việt về người và áp dụng vào chatbot. Ngoài ra, nhóm sẽ phát triển thêm bộ tìm kiếm các đoạn văn bản liên quan bằng Google để có thể trả lời các câu hỏi của người dùng.
CHƯƠNG 3 CÁC CÔNG TRÌNH LIÊN QUAN 28
Hình 3.5:So sánh kết quả trên tập SQuAD 2.0 [21]
3.3 Mô hình GPT-2
Mô hình GPT-2 [20] được phát triển bởi nhóm nghiên cứu tại OpenAI. Mô hình này được thiết kế để giải quyết các bài toán của xử lý ngôn ngữ tự nhiên như trả lời câu hỏi, tóm tắt văn bản,. . . mà không cần phải huấn luyện có giám sát. Thay vào đó, mô hình được huấn luyện trên tập dữ liệu rất lớn là WebText. Sau đó mô hình được đánh giá trên các tập dữ liệu khác nhau và cho kết quả tốt so với những mô hình cùng thời điểm. Cụ thể như hình 3.6, mô hình có tham số ít nhất là mô hình giống với GPT gốc, mô hình tiếp theo là mô hình lớn nhất của BERT, hai mô hình cuối cùng tương ứng với GPT-2.
Hình 3.6:So sánh kết quả mô hình GPT-2 [20]
Tuy nhiên với mô hình có nhiều tham số như GPT-2 sẽ tiêu tốn rất nhiều tài nguyên máy tính cũng như thời gian đáp ứng cho hệ thống chatbot. Chính vì thế, nhóm sẽ điều chỉnh lại số lượng tham số của mô hình để có thể phù hợp với ứng dụng chatbot và tiến hành huấn luyện mô hình trên tập dữ liệu tiếng Việt được đề cập ở mục 4.1.
4
TẬP DỮ LIỆU
Trong chương này, nhóm sẽ trình bày các tập dữ liệu được sử dụng trong luận văn và các phương pháp tiền xử lí được thực hiện trên tập dữ liệu. Hầu hết các bộ dữ liệu đều được chia sẻ miễn phí, tuy nhiên cũng có bộ dữ liệu bị giới hạn quyền truy cập.
Mục lục
4.1 Dữ liệu phụ đề phim tiếng Việt - OpenSubtitles . . . 30