Nghiên cứu và phát triển hệ thống hỏi đáp tiếng việt

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN TỐT NGHIỆP Nghiên cứu phát triển hệ thống hỏi đáp tiếng Việt NGUYỄN HỒNG TIẾN BÁCH bach.nht202149m@sis.hust.edu.vn Ngành: Cơng nghệ thông tin Giảng viên hướng dẫn: TS Nguyễn Thị Thu Trang _ Chữ ký GVHD Trường: Công nghệ thông tin Truyền thông HÀ NỘI, 09/2022 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Nguyễn Hoàng Tiến Bách Đề tài luận văn: Nghiên cứu phát triển hệ thống hỏi đáp tiếng Việt Chuyên ngành: Công nghệ thông tin Mã số SV: 20202149M Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 29/10/2022 với nội dung sau: STT Yêu cầu chỉnh sửa Giải trình Trang Phần tổng quan lý thuyết hệ thống Đã bổ sung làm rõ lý thuyết hỏi đáp cần làm rõ nội dung luận hệ thống hỏi đáp nội văn tránh nhầm lẫn cho người đọc dung luận văn 1-2 Giải thích rõ mơ hình BERT, thay Đã thay từ bổ sung chi từ “giải pháp” thành “cải tiến kỹ tiết mơ hình mạng BERT thuật” 21-26 Chỉ rõ mục tiêu, chất lượng quy Đã bổ sung thông tin đánh 49-50 mô liệu ViQuAD-Open giá liệu xây dựng xây dựng Chỉnh sửa tài liệu đường dẫn tham Đã chỉnh sửa đường dẫn khảo định dạng tài liệu tham khảo Ngày Giáo viên hướng dẫn 1-65 tháng 11 năm 2022 Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG i LỜI CAM ĐOAN Tôi xin cam đoan nội dung luận văn với đề tài “Nghiên cứu phát triển hệ thống hỏi đáp tiếng Việt” cơng trình nghiên cứu độc lập thân hướng dẫn TS Nguyễn Thị Thu Trang Các số liệu, hình ảnh, trích dẫn có nguồn gốc rõ ràng tn thủ ngun tắc Luận văn khơng có chép từ cơng trình, nghiên cứu người khác mà không ghi rõ mục tài liệu tham khảo Mọi chép không hợp lệ, vi phạm quy chế hay gian trá tơi xin hồn tồn chịu trách nhiệm Hà Nội, ngày 29 tháng 10 năm 2022 Học Viên Nguyễn Hoàng Tiến Bách ii LỜI CẢM ƠN Lời em xin chân thành gửi lời cảm ơn sâu sắc tới cô TS Nguyễn Thị Thu Trang, giáo hướng dẫn em tồn q trình hồn thành luận văn thạc sĩ Trong q trình nghiên cứu, nhiều lần em cảm thấy bế tắc kết không mong đợi, cảm ơn giúp em nhìn rộng vấn đề từ tìm hướng giải Cảm ơn giúp em tiếp cận với kiến thức giúp ích nhiều vào định hướng em tương lai Với em, ln hình mẫu để em học tập nghiệp lẫn sống Em xin cảm ơn cô tin tưởng để em hồn thiện hướng nghiên cứu luận văn Em xin cảm ơn thầy cô Trường Công nghệ thông tin Truyền thông, đại học Bách khoa Hà Nội Cảm ơn thầy cô dạy em kiến thức bổ ích chia sẻ kinh nghiệm từ giúp em nắm vững mặt chun mơn có kiến thức để phát triển thân tương lai Tiếp theo, xin cảm ơn đến em Nguyễn Mạnh Dũng em Nguyễn Thị Mừng, đồng hành nghiên cứu với anh suốt gần năm qua Các em người bạn đáng tin cậy tài giỏi giúp đỡ anh hoàn thành luận văn thạc sĩ Chúc em hoàn thành mục tiêu tới thân thành công tương lai Và lời cảm ơn thân thiết em xin dành đến bà ngoại, bố mẹ em, cảm ơn nhà khỏe mạnh chỗ dựa vững để hồn thành mục tiêu nghiệp Cuối cùng, xin gửi lời cảm ơn nhiều cảm xúc tới người bạn suốt đời anh, cảm ơn em bên anh chia sẻ cổ vũ để anh có thêm động lực để vượt qua thử thách sống iii TÓM TẮT NỘI DUNG Hệ thống hỏi đáp ứng dụng quan trọng Xử lý ngôn ngữ tự nhiên, sử dụng với mục đích đưa câu trả lời xác cho người dùng Những năm gần đây, việc sử dụng phương pháp tiếp cận sử dụng học sâu liệu lớn giúp hệ thống hỏi đáp trở nên linh hoạt dễ dàng triển khai Trong đó, hướng tiếp cận đại áp dụng mô hình đọc hiểu đoạn văn (Machine Reading Comprehension – MRC), giúp hệ thống trả lời câu hỏi đa dạng phức tạp Việc áp dụng đem lại kết tốt, tiệm cận hiệu người liệu tiếng Anh Tuy nhiên, ứng dụng với ngôn ngữ phổ biến tiếng Việt, việc áp dụng mơ hình đọc hiểu nhiều đoạn văn để xây dựng hệ thống hỏi đáp chưa phát triển thiếu hụt mặt liệu Để khắc phục vấn đề trên, luận văn đề xuất phương pháp gồm ba phần: (i) xây dựng mở rộng liệu cho toán đọc hiểu nhiều đoạn văn tiếng Việt, (ii) đề xuất kỹ thuật cải tiến chuyển đổi liệu học tinh chỉnh để cải thiện độ xác cho mơ hình đọc hiểu với tiếng Việt, (iii) cuối xây dựng hệ thống hỏi đáp dựa đọc hiểu kết hợp hai đề xuất Bộ liệu đọc hiểu nhiều đoạn văn xây dựng nhằm mục đích huấn luyện mơ hình tìm đoạn văn chứa câu trả lời sở liệu gồm nhiều đoạn văn có sẵn Việc xây dựng liệu bao gồm việc mở rộng số lượng đoạn văn ngữ cảnh cho câu hỏi từ đoạn văn lên thành 15 đoạn văn ngữ cảnh trình huấn luyện, tách toàn đoạn văn tập đánh giá kiểm thử khỏi câu hỏi lưu vào sở liệu chung Kết thu số lượng đoạn văn huấn luyện liệu 4,957 đoạn văn số lượng đoạn văn lưu trữ sở liệu kiểm thử đánh giá 5,109 đoạn văn Với đề xuất thứ hai kỹ thuật cải tiến chuyển đổi liệu sang tiếng Việt từ tập liệu MRC tiếng Anh, sau huấn luyện tinh chỉnh để cải thiện độ xác mơ hình Kỹ thuật đề xuất gọi UtlTran bao gồm ba bước: (i) chuyển đổi tập liệu chất lượng cao toán MRC tiếng Anh sang tiếng Việt, (ii) tiền huấn luyện (pre-train) mơ hình MRC với tập liệu MRC chuyển đổi, (iii) huấn luyện tinh chỉnh (finetune) mơ hình MRC với tập liệu MRC nhỏ tiếng Việt Kết thu bốn tập ngữ liệu khác với kích thước tập khoảng 40 nghìn cặp câu hỏi - câu trả lời dành cho tiếng Việt Kết thử nghiệm tập liệu UIT-ViQuAD, việc sử dụng cải tiến UtlTran có kỹ thuật giảm độ dài trung bình ngữ cảnh dựa vị trí câu trả lời thực chuyển đổi liệu kết hợp việc sử dụng mơ hình học sâu với kiến trúc dựa iv theo mơ hình đa ngơn ngữ XLM-R đem lại kết tốt với F1=88.2% EM=71.8% tập liệu UIT-ViQuAD, cao 1% đến 3% so sánh với kết mơ hình đại khác Kết luận văn chấp nhận công bố hội nghị quốc tế IEA/AIE 2022 (International Conference on Industrial, Engineering & Other Applications of Applied Intelligent Systems) Đặc biệt xây dựng hệ thống hỏi đáp đánh giá tập liệu vừa xây dựng UIT-ViQuAD-Open, kỹ thuật UtlTran cải thiện độ xác hệ thống hỏi đáp với kết F1 = 65.8% EM = 50.4%, F1 cao 9,04% so với không sử dụng kỹ thuật UtlTran HỌC VIÊN Ký ghi rõ họ tên Nguyễn Hoàng Tiến Bách v MỤC LỤC CHƯƠNG GIỚI THIỆU ĐỀ TÀI 1 1.1 Tổng quan toán hỏi đáp 1 1.2 Bài toán hỏi đáp dựa đọc hiểu văn 2 1.3 Các nghiên cứu đọc hiểu văn giới 4 1.4 Các nghiên cứu đọc hiểu văn cho tiếng Việt 7 1.5 Mục tiêu nghiên cứu luận văn 8 1.6 Bố cục luận văn 8 CHƯƠNG CƠ SỞ LÝ THUYẾT 10 2.1 Mạng nơ-ron nhân tạo 10 Tổng quan mạng nơ-ron nhân tạo 10 Mạng mạng nơ-ron hồi quy RNN 11 Kiến trúc mã hóa – giải mã (Encoder-Decoder) 12 2.2 Cơ chế ý 13 Cơ chế ý 13 Cơ chế tự ý 14 Multi-Head Attention 15 2.3 Biểu diễn từ 16 Biểu diễn tần suất từ TF-IDF 16 Biểu diễn từ mơ hình học máy 17 2.4 Mơ hình mạng BERT [27] 21 CHƯƠNG ĐỀ XUẤT CẢI TIẾN KỸ THUẬT CHO BÀI TOÁN ĐỌC HIỂU TIẾNG VIỆT 23 3.1 Mơ hình sở 23 3.2 Đề xuất cải tiến kỹ thuật cho đọc hiểu tiếng Việt (UtlTran) 25 Kỹ thuật chuyển đổi liệu 26 Tiền xử lý liệu 29 Huấn luyện tinh chỉnh mơ hình đọc hiểu 30 3.3 Thực nghiệm đánh giá 32 Các tập liệu sử dụng cho tiền huấn luyện 32 Tập liệu cho huấn luyện tinh chỉnh 34 Các mơ hình thực nghiệm 34 vi Các độ đo đánh giá 35 Kết thử nghiệm đánh giá 36 CHƯƠNG HỆ THỐNG HỎI ĐÁP DỰA TRÊN ĐỌC HIỂU TIẾNG VIỆT 40 4.1 Kiến trúc tổng quan hệ thống hỏi đáp dựa đọc hiểu 40 Mơ hình hỏi đáp dựa đọc hiểu nhiều văn 40 Kiến trúc hệ thống hỏi đáp đề xuất 41 4.2 Mô-đun xếp hạng đoạn văn 41 4.3 Mô-đun chọn lựa văn 43 Xây dựng liệu Tiếng Việt cho đọc hiểu nhiều văn 43 Mơ hình chọn lựa đoạn văn 46 4.4 Mô-đun đọc hiểu văn 49 4.5 Thử nghiệm đánh giá 49 Đánh giá liệu UIT-ViQuAD-Open 50 Thử nghiệm mô hình với liệu UIT-ViQuAD-Open 50 4.6 Minh họa hệ thống hỏi đáp tiếng Việt đề xuất 51 CHƯƠNG KẾT LUẬN 56 5.1 Đóng góp luận văn 56 Kỹ thuật cải tiến tăng cường liệu cho đọc hiểu tiếng Việt 56 Bộ liệu mở rộng UIT-ViQuAD-Open 57 Hệ thống hỏi đáp dựa đọc hiểu tiếng Việt 59 5.2 Hướng phát triển tương lai 59 TÀI LIỆU THAM KHẢO 61 vii DANH MỤC HÌNH VẼ Hình 1.1 Thống kê số lượng báo hỏi đáp ACL 2 Hình 1.2 Ví dụ tốn hỏi đáp dựa đọc hiểu 3 Hình 1.3 Một số ứng dụng toán hỏi đáp dựa đọc hiểu [12] 4 Hình 2.1 Mơ tả nơ-ron người 10 Hình 2.2 Ví dụ mạng nơ-ron 10 Hình 2.3 Mơ tả mạng nơ-ron hồi quy RNN 12 Hình 2.4 Kiến trúc mã hóa - giải mã 13 Hình 2.5 Mơ tả chế ý 13 Hình 2.6 Mô tả khối tự ý (Self-attention) 14 Hình 2.7 Mơ tả lớp Multi-head attention 16 Hình 2.8 Kiến trúc mơ hình CBOW Skip-gram 18 Hình 2.9 Cấu trúc mơ hình ELMo 20 Hình 2.10 Mơ hình Transformer 21 Hình 2.11 Mơ hình mạng BERT-base 22 Hình 3.1 Mơ tả đầu vào cho mơ hình XLM-R 24 Hình 3.2 Các bước xây dựng mơ hình sở cho toán MRC 24 Hình 3.3 Kỹ thuật cải tiến UtlTran đề xuất 25 Hình 3.4 Các bước chuyển đổi liệu 26 Hình 3.5 Định dạng liệu SQuAD 1.1 27 Hình 3.6 Giải pháp sử dụng hai token xác định vị trí câu trả lời sau dịch 28 Hình 4.1 Mơ hình đề xuất cho tốn Hỏi đáp dựa MRC 40 Hình 4.2 Kiến trúc tổng quan hệ thống hỏi đáp 41 Hình 4.3 Ma trận TF-IDF tập liệu chung 42 Hình 4.4 Quá trình xử lý câu hỏi để xếp hạng đoạn văn 42 Hình 4.5 Cấu trúc liệu cho thành phần chọn lựa đoạn văn 44 Hình 4.6 Trực quan hóa câu mã hóa SimCSE-BERT 45 Hình 4.7 Quá trình xây dựng liệu nhiều văn 46 Hình 4.8 Dạng toán gốc đọc hiểu nhiều văn báo BERT-RNN 47 viii Hình 4.9 Kiến trúc mạng BERT-RNN 47 Hình 4.10 Mơ thuật tốn BeamSearch 49 Hình 4.11 Giao diện máy tính hệ thống thử nghiệm 51 Hình 4.12 Giao diện điện thoại hệ thống 52 Hình 4.13 Giao diện hỏi đáp ngắn gọn 53 Hình 4.14 Chức thị tồn thơng tin 54 Hình 4.15 Một vài ví dụ hỏi đáp hệ thống 55 ix Hình 4.12 Giao diện điện thoại hệ thống 52 Hình 4.13 Giao diện hỏi đáp ngắn gọn Ngoài chức hiển thị ngắn gọn câu trả lời cho người dùng minh họa hình 4.13 Hệ thống phát triển thêm chức hiển thị đầy đủ thông tin dẫn chứng liên quan đến câu trả lời minh họa hình 4.14 Người dùng cần chạm vào câu trả lời giao diện thơng tin dẫn chứng liên quan xuất hiện, điều giúp thuận tiện trình tìm kiếm thêm thơng tin 53 Hình 4.14 Chức thị tồn thơng tin 54 Hình 4.15 Một vài ví dụ hỏi đáp hệ thống 55 CHƯƠNG KẾT LUẬN 5.1 Đóng góp luận văn Luận văn đề xuất ba nội dung nhằm xây dựng cải tiến cho hệ thống hỏi đáp tiếng Việt dựa đọc hiểu văn Đầu tiên, luận văn đề xuất phương pháp chuyển đổi tập liệu đọc hiểu tiếng Anh sang tiếng Việt, kết hợp với phương pháp huấn luyện tinh chỉnh từ cải thiện độ xác mơ hình đọc hiểu văn Thứ hai, luận văn đưa đóng góp việc xây dựng liệu tiếng Việt “UIT-ViQuAD Open” cho toán MRC với nhiều văn Phương pháp xây dựng liệu với mơ hình BERT-RNN luận văn đề xuất tảng cảm hứng để thúc đẩy nghiên cứu cho lĩnh vực Đọc hiểu nhiều văn (Multi-passages MRC) Việt Nam Đóng góp cuối luận văn tích hợp mơ-đun cải tiến nhờ hai giải pháp đầu tiên, để xây dựng hệ thống hỏi đáp dựa đọc hiểu văn hoàn chỉnh nhằm chứng minh cho tính thực tiễn hệ thống Kỹ thuật cải tiến tăng cường liệu cho đọc hiểu tiếng Việt Phương pháp chuyển đổi liệu đề xuất nhằm chuyển đổi liệu tốn MRC ngơn ngữ giàu tài ngun tiếng Anh sang ngơn ngữ tài ngun tiếng Việt Hai kỹ thuật chuyển đổi đề xuất phương pháp gồm: Chuyển đổi dựa độ dài văn ngữ cảnh chuyển đổi dựa vị trí câu trả lời Hai kỹ thuật chung hướng tiếp cận sử dụng công cụ dịch Deep-translator dịch tập liệu đọc hiểu văn tiếng Anh sang tiếng Việt với định dạng lại cấu trúc liệu dịch cấu trúc JSON theo chuẩn SQuAD v1.1, ngồi phương pháp cịn sử dụng thêm hai token đặc biệt [ans_s] [ans_e] nhằm đánh dấu vị trị câu trả lời sau dịch Điểm khác hai kỹ thuật nằm chiến lược lấy mẫu tập liệu dịch nhằm giảm độ dài trung bình văn ngữ cảnh Với chiến lược lấy mẫu thứ nhất, mẫu liệu có độ dài văn ngữ cảnh vượt ngưỡng cài đặt bị loại bỏ Khác với chiến lược thứ nhất, chiến lược lấy mẫu thứ hai dựa vị trí câu trả lời, giá trị bắt đầu câu trả lời vượt ngưỡng mẫu bị loại bỏ Tiếp theo, văn thu trực tiếp giảm độ dài đến vị trí ngẫu nhiên để đảm bảo nhỏ ngưỡng khác đặt Với hai kỹ thuật đề xuất, luận văn áp dụng cho hai nguồn liệu MRC tiếng Anh TriviaQA NewsQA chuyển đổi sang tiếng Việt, với số mẫu thu cho tập liệu dịch xấp xỉ 40.000 mẫu, tổng cộng gấp bốn lần so với tập liệu dùng để huấn luyện tinh chỉnh UIT-ViQuAD Với ý tưởng phát triển phương pháp ứng dụng học sâu cho toán MRC, luận văn đề xuất phương pháp tên UtlTran thông qua việc kết hợp sử dụng 56 tập liệu tạo ra, dùng q trình tiền huấn luyện mơ hình, sau huấn luyện tinh chỉnh lại mơ hình Mơ hình sau huấn luyện tinh chỉnh với tập liệu nhỏ Tiếng Việt cho kết cao tập liệu Kết thử nghiệm tiếng Việt rằng, sử dụng tập liệu dịch từ liệu NewsQA theo phương pháp dựa vị trí câu trả lời kết hợp với phương pháp UtlTran sử dụng khung kiến trúc mơ hình đa ngơn ngữ XLM-R cho kết tốt nhất, hiệu phương pháp so sánh với mơ hình tốt thời điểm tăng lên từ 1% đến 3% với hai độ đo đánh giá EM F1-score tập liệu UIT-ViQUAD dành cho toán đọc hiểu Tiếng Việt Kết phương pháp UtlTran chấp nhận công bố hội nghị quốc tế IEA/AIE 2022 (International Conference on Industrial, Engineering & Other Applications of Applied Intelligent Systems) tổ chức từ ngày 19 đến ngày 22 tháng năm 2022 Nhật Bản Bộ liệu mở rộng UIT-ViQuAD-Open Đề xuất thứ hai tiếp tục mở rộng toán đọc hiểu sang cho dạng có nhiều văn ngữ cảnh Bước xây dựng liệu tiếng Việt cho tốn này, sau dùng liệu để huấn luyện đánh giá mơ hình cho tốn đọc hiểu nhiều văn Nhằm tận dụng nguồn liệu tiếng Việt đọc hiểu văn chất lượng cao để đánh giá với dạng toán đọc hiểu văn ngữ cảnh, luận văn sử dụng lại liệu UIT-ViQuAD kèm với cải tiến để phù hợp với toán đọc hiểu nhiều đoạn văn Bộ liệu sau thay đổi gọi UIT-ViQuAD Open Trước tiên, văn ngữ cảnh tách khỏi liệu lưu trữ vào sở liệu để làm tập văn dẫn chứng chung, sau tiến hành định dạng lại tập dev test thành dạng JSON gồm câu hỏi câu trả lời Tiếp theo, với tập train dùng để huấn luyện cho tác vụ chọn lựa đoạn văn dẫn chứng (Retrieval), em tiến hành định dạng lại cấu trúc liệu mô tả chi tiết mục 4.3.1 để phục vụ cho tác vụ chọn lựa văn ngữ cảnh, kèm với tập trung tăng cường liệu cho phần thông tin văn ngữ cảnh từ đoạn văn lên thành 15 đoạn văn cho mẫu tập train liệu Trong gồm đoạn văn có chứa câu trả lời 14 đoạn văn chủ đề với câu hỏi không chứa câu trả lời (negative samples) Quá trình thu thập đoạn văn gồm hai phần độc lập: Thu thập sử dụng cơng cụ tìm kiếm thu thập từ liệu ViQuAD gốc Trong q trình thu thập sử dụng cơng cụ tìm kiếm, em sử dụng thư viện Googlesearch BeautifulSoup để tìm kiếm đoạn văn dựa câu hỏi Dữ liệu thu thập chia nhỏ thành đoạn văn có chiều dài xấp xỉ 512 ký tự để phù hợp với độ dài trung bình tập liệu gốc, loại bỏ đoạn văn có chứa câu trả lời, sử dụng kỹ thuật để loại bỏ ký tự nhiễu, đoạn HTML bị lẫn văn Sau mã hóa đoạn văn 57 qua mơ hình SimCSE-BERT nhằm biểu diễn tương đương văn Cuối sử dụng độ đo tương đương Cosine để tính toán mức độ tương đương văn gốc văn thu thập, áp dụng ngưỡng giới hạn từ 0.4-0.8 để loại bỏ đoạn văn có độ tương đương nằm khoảng Sau thu thập xong lấy tối đa 05 đoạn văn có độ tương đương cao tập liệu để tăng cường cho văn ngữ cảnh mẫu trình huấn luyện Với trình thu thập đoạn văn từ tập liệu gốc, đoạn văn gom lại theo tiêu đề tập liệu UIT-ViQuAD, tổng cộng có 174 tiêu đề gồm 5,109 đoạn văn tính tốn TF-IDF lưu trữ lại ma trận này, sau với câu hỏi tính véc-tơ TF-IDF, nhân ma trận với ma trận TF-IDF lưu nhằm xếp hạng đoạn văn so với câu hỏi, từ lấy tối đa 10 văn xếp hạng cao để gom với 05 đoạn thu thập từ tìm kiếm thành 15 đoạn văn ngữ cảnh cho câu hỏi tập liệu huấn luyện Sau xây dựng xong liệu cho cho dạng toán đọc hiểu nhiều văn bản, luận văn đề xuất sử dụng mơ hình BERT-RNN để làm tác vụ chọn lựa đoạn văn Mơ hình bước mã hóa đoạn văn ngữ cảnh qua lớp mã hóa BERT thành véc-tơ có độ dài cố định Sau lấy giá trị mã hóa token [CLS] để làm giá trị biểu thị thông tin văn đó, truyền vào mạng RNN với số bước (steps) với số đoạn văn ngữ cảnh đánh nhãn liên kết lẫn tập huấn luyện thêm giá trị mã hóa [EOE] đánh dấu kết thúc chuỗi đoạn văn, tập UIT-ViQuAD-Open đoạn văn thu thập khơng có liên kết với nên số bước Đầu mơ hình BERT-RNN chuỗi đoạn văn liên kết với dùng để suy diễn câu trả lời, nhiên, với tập liệu UIT-ViQuAD Open chuỗi đầu có đoạn văn ngữ cảnh trình huấn luyện, trình chạy thử nghiệm đầu tập 10 đoạn văn có xác xuất cao sử dụng thuật toán Beam Search để đưa Sau lấy đoạn văn có xác xuất chứa câu trả lời cao nhất, đoạn văn qua mơ hình đọc hiểu XLM-RLarge phát triển phương pháp UltTran mà luận văn đề xuất trước để tăng cường độ xác đưa câu trả lời cuối Kết thu lần chứng minh mơ hình phát triển phương pháp UtlTran đạt kết tốt kết hợp với mơ hình BERT-RNN để giải toán đọc hiểu nhiều văn bản, với độ xác tăng lên so sánh với việc không áp dụng UtlTran với EM điểm F1 7.69% 9,04% Bộ liệu UIT-ViQuAD Open phương pháp kết hợp BERT-RNN UtlTran hi vọng tảng để tiếp tục nghiên cứu cho toán đọc hiểu nhiều văn Việt Nam, toán sát với thực tế lại có nghiên cứu phát triển Việt Nam 58 Hệ thống hỏi đáp dựa đọc hiểu tiếng Việt Đóng góp cuối luận văn áp dụng phương pháp nêu để phát triển hệ thống hỏi đáp tiếng Việt hoàn chỉnh dựa đọc hiểu văn Hệ thống thử nghiệm xây dựng dựa framework Flask Python với việc lưu trữ đoạn văn dẫn chứng sở liệu SQLite, với thiết kế giao diện website sử dụng Bootstrap Các cấu phần xử lý bên hệ thống gồm: Mô-đun xếp hạng văn dựa TF-IDF, mô-đun chọn lựa văn sử dụng BERT-RNN mô-đun đọc hiểu văn XLM-RLarge Việc chia nhỏ thành mô-đun theo chức giúp cho việc phát triển hiệu hệ thống sau này, mà ta tối ưu lại cho khối mà không ảnh hưởng đến chức khác Hệ thống đề xuất chứng minh việc áp dụng mơ hình đọc hiểu vào hệ thống hỏi đáp nhằm đáp ứng nhu cầu tìm kiếm xác câu trả lời người dùng Tuy nhiên, phương pháp đề xuất mặt hạn chế chưa giải Đầu tiên việc chưa giải toán hỏi đáp nhiều đoạn văn có liên kết lẫn (Multi-hop Question Answering), trường hợp để đưa câu trả lời, mơ hình cần phải suy diễn từ nhiều đoạn văn liên kết với nhau, liệu UIT-ViQuAD-Open chưa đáp ứng toán Bên cạnh mơ hình đọc hiểu cải thiện mơ hình tập trung tìm xác câu trả lời mà chưa xét đến vấn đề vị trí câu trả lời tìm có thật đáp ứng câu hỏi, ngồi việc áp dụng luật cho việc chuyển đổi liệu chưa tận dụng hết thông tin liệu MRC tiếng Anh Cuối tốc độ huấn luyện mô hình BERT-RNN, việc tính tốn lan truyền ngược nên trình huấn luyện mạng RNN chậm không đáp ứng chuỗi văn liên kết cung cấp tập huấn luyện có độ dài lớn 5.2 Hướng phát triển tương lai Với hạn chế nêu phần 5.1, hướng phát triển em tương lai, tập trung giải hạn chế Với hạn chế mặt liệu thực chuyển đổi liệu từ tiếng Anh sang tiếng Việt, việc chiến thuật lọc bỏ mẫu giảm độ dài đoạn văn dựa luật đề Một số giải pháp thay cho luật này, việc áp dụng mơ hình tóm tắt văn để giảm độ dài đoạn văn mà đảm bảo việc lưu lại thông tin sử dụng mơ hình tự động đề xuất vị trí cắt giảm liệu mà đảm bảo không ảnh hưởng đến nội dung liên quan đến câu hỏi câu trả lời Ngoài ra, việc tăng cường liệu cho tốn MRC tiếng Việt thực theo hướng xây dựng mơ hình sinh câu hỏi dựa đoạn văn câu trả lời cho sẵn Về mặt mơ hình, mơ hình đề xuất tập trung vào tìm vị trí câu trả lời có trường hợp câu trả lời với câu hỏi lại tìm 59 vị trí khơng liên quan đến câu hỏi Điều đặc biệt cần lưu ý mà đoạn văn dẫn chứng lặp lại nhiều lần chuỗi câu trả lời Để giải điều này, em dự định cải tiến mơ hình thêm yếu tố vào hàm mát để đánh giá ngữ cảnh câu hỏi với phần đoạn văn để tìm đoạn có độ tương đồng cao với ngữ cảnh câu hỏi, tìm câu trả lời đoạn giới hạn Cùng với cải tiến mơ hình đọc hiểu để nhận dạng dạng câu hỏi khơng có câu trả lời câu hỏi dạng Yes/No Với tác vụ chọn lựa văn bản, liệu UIT-ViQuAD-Open điểm hạn chế mà tập văn ngữ cảnh không liên kết, mà đoạn văn chủ đề tách biệt, điểm hạn chế để huấn luyện mơ hình suy diễn câu trả lời từ chuỗi đoạn văn Để khắc phục vấn đề này, tương lai em cải thiện phần thu thập liệu từ cơng cụ tìm kiếm, tìm kiếm theo cách thu thập vào liên kết nằm bên liên kết ban đầu, từ xây dựng nên chuỗi đoạn văn liên quan đến chủ đề tìm kiếm Hoặc xây dựng mơ hình xác định thực thể đoạn văn sau liên kết dựa thực thể của đoạn văn Về mặt mơ hình, lớp RNN thay chế học ý để đánh dấu đoạn văn liên kết với nhau, đảm bảo tìm mối liên hệ đoạn văn mà lại giảm thời gian huấn luyện đáp ứng mà chuỗi đoạn văn có độ dài lớn Từ dễ dàng áp dụng mơ hình vào hệ thống hỏi đáp suy diễn từ nhiều văn bản, đem lại tính thực tiễn cao cho hệ thống 60 TÀI LIỆU THAM KHẢO [1] W A K C C a L K Green B.F., "BASEBALL: An automatic question answerer," Proceedings Western Joint Computer Conference, pp 19:207-216 McGraw-Hill, 1961 [2] A Bouziane, D Bouchiha, N Doumi and M Malki, "Question Answering Systems: Survey and Trends," Procedia Computer Science, vol 73, pp 366-375, 2015 [3] K Clark, M.-T Luong, G Brain, Q V Le Google Brain and C D Manning, "ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS" [4] R Huang, B Zou, Y Hong, W Zhang, A T Aw and G Zhou, "NUT-RC: Noisy User-generated Text-oriented Reading Comprehension," Online [5] M Hu, Y Peng, Z Huang and D Li, "Retrieve, Read, Rerank: Towards End-to-End Multi-Document Reading Comprehension," Association for Computational Linguistics [6] M Lewis, Y Liu, N Goyal, M Ghazvininejad, A Mohamed, O Levy, V Stoyanov and L Zettlemoyer, BART: Denoising Sequence-toSequence Pre-training for Natural Language Generation, Translation, and Comprehension, 2019 [7] Y Wang, K Liu, J Liu, W He, Y Lyu, H Wu, S Li and H Wang, Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification, 2018 [8] W G Lehnert, The process of question answering : a computer simulation of cognition, p 278 [9] H A Pandya and B S Bhatt, Question Answering Survey: Directions, Challenges, Datasets, Evaluation Matrices, 2021 [10] K Moritz, H † Tomáš, K Kočisk´y, E Grefenstette, L Espeholt, W Kay, M Suleyman, P Blunsom and G Deepmind, "Teaching Machines to Read and Comprehend" 61 [11] A Saha, R Aralikatte, M M Khapra and K Sankaranarayanan, DuoRC: Towards Complex Language Understanding with Paraphrased Reading Comprehension, 2018 [12] C Zeng, S Li, Q Li, J Hu and J Hu, A Survey on Machine Reading Comprehension: Tasks, Evaluation Metrics and Benchmark Datasets, 2020 [13] P Bajaj, D Campos, N Craswell, L Deng, J Gao, X Liu, R Majumder, A McNamara, B Mitra, T Nguyen, M Rosenberg, X Song, A Stoica, S Tiwary and T Wang, MS MARCO: A Human Generated MAchine Reading COmprehension Dataset, 2016 [14] A Trischler, T Wang, X Yuan, J Harris, A Sordoni, P Bachman and K Suleman, NewsQA: A Machine Comprehension Dataset, 2016 [15] W Xiong, J Wu, H Wang, V Kulkarni, M Yu, S Chang, X Guo and W Y Wang, TWEETQA: A Social Media Focused Question Answering Dataset, 2019 [16] Z Yang, P Qi, S Zhang, Y Bengio, W W Cohen, R Salakhutdinov and C D Manning, HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering, 2018 [17] M Joshi, E Choi, D S Weld and L Zettlemoyer, TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension, 2017 [18] T Kočiský, J Schwarz, P Blunsom, C Dyer, K M Hermann, G Melis and E Grefenstette, The NarrativeQA Reading Comprehension Challenge, 2017 [19] T Kwiatkowski, J Palomaki, O Redfield, M Collins, A Parikh, C Alberti, D Epstein, I Polosukhin, J Devlin Kenton Lee, K Toutanova, L Jones Matthew Kelcey, M.-W Chang, A M Dai, J Uszkoreit, Q Le and S Petrov, "Natural Questions: a Benchmark for Question Answering Research" [20] W He, K Liu, J Liu, Y Lyu, S Zhao, X Xiao, Y Liu, Y Wang, H Wu, Q She, X Liu, T Wu and H Wang, DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications, 2017 62 [21] H H Sak, A Senior and B Google, "Long Short-Term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling" [22] M E Peters, M Neumann, M Iyyer, M Gardner, C Clark, K Lee and L Zettlemoyer, Deep contextualized word representations, 2018 [23] A Radford, J Wu, R Child, D Luan, D Amodei and I Sutskever, "Language Models are Unsupervised Multitask Learners" [24] A Vaswani, N Shazeer, N Parmar, J Uszkoreit, L Jones, A N Gomez, L Kaiser and I Polosukhin, Attention Is All You Need, 2017 [25] M Richardson, C J C Burges and E Renshaw, "MCTest: A Challenge Dataset for the Open-Domain Machine Comprehension of Text," 2013 [26] P Rajpurkar, J Zhang, K Lopyrev and P Liang, SQuAD: 100,000+ Questions for Machine Comprehension of Text, 2016 [27] J Devlin, M.-W Chang, K Lee and K Toutanova, BERT: Pretraining of Deep Bidirectional Transformers for Language Understanding, 2018 [28] A Conneau, K Khandelwal, N Goyal, V Chaudhary, G Wenzek, F Guzmán, E Grave, M Ott, L Zettlemoyer and V Stoyanov, Unsupervised Cross-lingual Representation Learning at Scale, 2019 [29] C Raffel, N Shazeer, A Roberts, K Lee, S Narang, M Matena, Y Zhou, W Li and P J Liu, Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, 2019 [30] V Karpukhin, B Oğuz, S Min, P Lewis, L Wu, S Edunov, D Chen and W.-t Yih, Dense Passage Retrieval for Open-Domain Question Answering, 2020 [31] D Chen, A Fisch, J Weston and A Bordes, Reading Wikipedia to Answer Open-Domain Questions, 2017 [32] K Guu, K Lee, Z Tung, P Pasupat and M.-W Chang, REALM: Retrieval-Augmented Language Model Pre-Training, 2020 63 [33] A Asai, K Hashimoto, H Hajishirzi, R Socher and C Xiong, Learning to Retrieve Reasoning Paths over Wikipedia Graph for Question Answering, 2019 [34] A Talmor and J Berant, "The Web as a Knowledge-base for Answering Complex Questions" [35] W Chen, H Zha, Z Chen, W Xiong, H Wang and W Wang, HybridQA: A Dataset of Multi-Hop Question Answering over Tabular and Textual Data, 2020 [36] N Inoue, P Stenetorp and K Inui, R4C: A Benchmark for Evaluating RC Systems to Get the Right Answer for the Right Reason, 2019 [37] X Ho, A.-K Duong Nguyen, S Sugawara and A Aizawa, "Constructing A Multi-hop QA Dataset for Comprehensive Evaluation of Reasoning Steps," Online [38] K Van Nguyen, D.-V Nguyen, A G.-T Nguyen and N L.-T Nguyen, A Vietnamese Dataset for Evaluating Machine Reading Comprehension, 2020 [39] Van Nguyen, Kiet and Van Huynh, Tin and Nguyen, Duc-Vu and Nguyen, Anh Gia-Tuan and Nguyen, Ngan Luu-Thuy, "New Vietnamese Corpus for Machine Reading Comprehension of Health News Articles," Association for Computing Machinery, vol 20, 2020 [40] K van Nguyen, K V Tran, S T Luu, A G T Nguyen and N L T Nguyen, Enhancing lexical-based approach with external knowledge for Vietnamese multiple-choice machine reading comprehension, vol 8, Institute of Electrical and Electronics Engineers Inc., 2020, pp 201404201417 [41] J Libovický, R Rosa and A Fraser, How Language-Neutral is Multilingual BERT?, 2019 [42] D Q Nguyen and A T Nguyen, "Findings of the Association for Computational Linguistics PhoBERT: Pre-trained language models for Vietnamese" 64 [43] A W Yu, D Dohan, M.-T Luong, R Zhao, K Chen, M Norouzi and Q V Le, QANet: Combining Local Convolution with Global SelfAttention for Reading Comprehension, 2018 [44] V B The, O T Thi and P Le-Hong, Improving Sequence Tagging for Vietnamese Text Using Transformer-based Neural Models, 2020 [45] N L Tran, D M Le and D Q Nguyen, BARTpho: Pre-trained Sequence-to-Sequence Models for Vietnamese, 2021 [46] T Mikolov, K Chen, G Corrado and J Dean, "Efficient Estimation of Word Representations in Vector Space," 2013 [Online] Available: http://arxiv.org/abs/1301.3781 [47] J Pennington, R Socher and C D Manning, "GloVe: Global Vectors for Word Representation" [48] P Bojanowski, E Grave, A Joulin and T Mikolov, "Enriching Word Vectors with Subword Information," 2016 [Online] Available: http://arxiv.org/abs/1607.04606 [49] O Melamud, J Goldberger and I Dagan, "context2vec: Learning Generic Context Embedding with Bidirectional LSTM" [50] Z Lan, M Chen, S Goodman, K Gimpel, P Sharma and R Soricut, ALBERT: A Lite BERT for Self-supervised Learning of Language Representations, 2019 [51] T Gao, X Yao and D Chen, "SimCSE: Simple Contrastive Learning of Sentence Embeddings," 2021 [Online] Available: http://arxiv.org/abs/2104.08821 [52] P V Van, "Vietnamese SimCSE," Huggingfaces, [Online] Available: https://huggingface.co/VoVanPhuc/sup-SimCSEVietNamese-phobert-base [53] [54] P Gupta, "A Survey of Text Question Answering Techniques," 2012 J Hu, S Ruder, A Siddhant, G Neubig, O Firat and M Johnson, XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization, 2020 65 [55] N T M Trang and M Shcherbakov, Vietnamese question answering system from multilingual BERT models to monolingual BERT Model, Institute of Electrical and Electronics Engineers Inc., 2020, pp 201-205 [56] Z Zhang, J Yang and H Zhao, Retrospective Reader for Machine Reading Comprehension, 2020 [57] Z Wang, Modern Question Answering Datasets and Benchmarks: A Survey, 2022 [58] P Rajpurkar, R Jia and P Liang, Know What You Don't Know: Unanswerable Questions for SQuAD, 2018 [59] T Lapchaicharoenkit and P Vateekul, Machine Reading Comprehension Using Multi-Passage BERT with Dice Loss on Thai Corpus 125 ECTI Transactions on Computer and Information Technology Machine Reading Comprehension Using Multi-Passage BERT with Dice Loss on Thai Corpus 66 ... đưa hệ thống hoàn chỉnh ứng dụng mơ hình đọc hiểu vào hỏi đáp tiếng Việt trường hợp nhiều văn để phù hợp với hệ thống hỏi đáp thực tế 1.5 Mục tiêu nghiên cứu luận văn Trong phạm vi nghiên cứu. .. CHƯƠNG HỆ THỐNG HỎI ĐÁP DỰA TRÊN ĐỌC HIỂU TIẾNG VIỆT 40 4.1 Kiến trúc tổng quan hệ thống hỏi đáp dựa đọc hiểu 40 Mơ hình hỏi đáp dựa đọc hiểu nhiều văn 40 Kiến trúc hệ thống. .. câu hỏi cụ thể, muốn nhận câu trả lời ngắn xác Vì vậy, có nhiều nghiên cứu giới phát triển để đưa câu trả lời ngắn gọn xác hệ thống hỏi đáp Tùy vào dạng liệu dùng để cung cấp câu trả lời hệ thống

Định dạng
Số trang	78
Dung lượng	1,58 MB