Nghiên cứu và phát triển hệ thống hỏi đáp tiếng việt

78 1 0
Nghiên cứu và phát triển hệ thống hỏi đáp tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN TỐT NGHIỆP Nghiên cứu phát triển hệ thống hỏi đáp tiếng Việt NGUYỄN HỒNG TIẾN BÁCH bach.nht202149m@sis.hust.edu.vn Ngành: Cơng nghệ thông tin Giảng viên hướng dẫn: TS Nguyễn Thị Thu Trang _ Chữ ký GVHD Trường: Công nghệ thông tin Truyền thông HÀ NỘI, 09/2022 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Nguyễn Hoàng Tiến Bách Đề tài luận văn: Nghiên cứu phát triển hệ thống hỏi đáp tiếng Việt Chuyên ngành: Công nghệ thông tin Mã số SV: 20202149M Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 29/10/2022 với nội dung sau: STT Yêu cầu chỉnh sửa Giải trình Trang Phần tổng quan lý thuyết hệ thống hỏi đáp cần làm rõ nội dung luận văn tránh nhầm lẫn cho người đọc Đã bổ sung làm rõ lý thuyết hệ thống hỏi đáp nội dung luận văn 1-2 Giải thích rõ mơ hình BERT, thay từ “giải pháp” thành “cải tiến kỹ thuật” Đã thay từ bổ sung chi tiết mơ hình mạng BERT 21-26 Chỉ rõ mục tiêu, chất lượng quy mô liệu ViQuAD-Open xây dựng Đã bổ sung thông tin đánh giá liệu xây dựng 49-50 Chỉnh sửa tài liệu đường dẫn tham khảo định dạng Đã chỉnh sửa đường dẫn tài liệu tham khảo 1-65 Ngày tháng 11 năm 2022 Giáo viên hướng dẫn Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG i LỜI CAM ĐOAN Tôi xin cam đoan nội dung luận văn với đề tài “Nghiên cứu phát triển hệ thống hỏi đáp tiếng Việt” cơng trình nghiên cứu độc lập thân hướng dẫn TS Nguyễn Thị Thu Trang Các số liệu, hình ảnh, trích dẫn có nguồn gốc rõ ràng tn thủ ngun tắc Luận văn khơng có chép từ cơng trình, nghiên cứu người khác mà không ghi rõ mục tài liệu tham khảo Mọi chép không hợp lệ, vi phạm quy chế hay gian trá tơi xin hồn tồn chịu trách nhiệm Hà Nội, ngày 29 tháng 10 năm 2022 Học Viên Nguyễn Hoàng Tiến Bách ii LỜI CẢM ƠN Lời em xin chân thành gửi lời cảm ơn sâu sắc tới cô TS Nguyễn Thị Thu Trang, giáo hướng dẫn em tồn q trình hồn thành luận văn thạc sĩ Trong q trình nghiên cứu, nhiều lần em cảm thấy bế tắc kết không mong đợi, cảm ơn giúp em nhìn rộng vấn đề từ tìm hướng giải Cảm ơn giúp em tiếp cận với kiến thức giúp ích nhiều vào định hướng em tương lai Với em, ln hình mẫu để em học tập nghiệp lẫn sống Em xin cảm ơn cô tin tưởng để em hồn thiện hướng nghiên cứu luận văn Em xin cảm ơn thầy cô Trường Công nghệ thông tin Truyền thông, đại học Bách khoa Hà Nội Cảm ơn thầy cô dạy em kiến thức bổ ích chia sẻ kinh nghiệm từ giúp em nắm vững mặt chun mơn có kiến thức để phát triển thân tương lai Tiếp theo, xin cảm ơn đến em Nguyễn Mạnh Dũng em Nguyễn Thị Mừng, đồng hành nghiên cứu với anh suốt gần năm qua Các em người bạn đáng tin cậy tài giỏi giúp đỡ anh hoàn thành luận văn thạc sĩ Chúc em hoàn thành mục tiêu tới thân thành công tương lai Và lời cảm ơn thân thiết em xin dành đến bà ngoại, bố mẹ em, cảm ơn nhà khỏe mạnh chỗ dựa vững để hồn thành mục tiêu nghiệp Cuối cùng, xin gửi lời cảm ơn nhiều cảm xúc tới người bạn suốt đời anh, cảm ơn em bên anh chia sẻ cổ vũ để anh có thêm động lực để vượt qua thử thách sống iii TÓM TẮT NỘI DUNG Hệ thống hỏi đáp ứng dụng quan trọng Xử lý ngôn ngữ tự nhiên, sử dụng với mục đích đưa câu trả lời xác cho người dùng Những năm gần đây, việc sử dụng phương pháp tiếp cận sử dụng học sâu liệu lớn giúp hệ thống hỏi đáp trở nên linh hoạt dễ dàng triển khai Trong đó, hướng tiếp cận đại áp dụng mô hình đọc hiểu đoạn văn (Machine Reading Comprehension – MRC), giúp hệ thống trả lời câu hỏi đa dạng phức tạp Việc áp dụng đem lại kết tốt, tiệm cận hiệu người liệu tiếng Anh Tuy nhiên, ứng dụng với ngôn ngữ phổ biến tiếng Việt, việc áp dụng mơ hình đọc hiểu nhiều đoạn văn để xây dựng hệ thống hỏi đáp chưa phát triển thiếu hụt mặt liệu Để khắc phục vấn đề trên, luận văn đề xuất phương pháp gồm ba phần: (i) xây dựng mở rộng liệu cho toán đọc hiểu nhiều đoạn văn tiếng Việt, (ii) đề xuất kỹ thuật cải tiến chuyển đổi liệu học tinh chỉnh để cải thiện độ xác cho mơ hình đọc hiểu với tiếng Việt, (iii) cuối xây dựng hệ thống hỏi đáp dựa đọc hiểu kết hợp hai đề xuất Bộ liệu đọc hiểu nhiều đoạn văn xây dựng nhằm mục đích huấn luyện mơ hình tìm đoạn văn chứa câu trả lời sở liệu gồm nhiều đoạn văn có sẵn Việc xây dựng liệu bao gồm việc mở rộng số lượng đoạn văn ngữ cảnh cho câu hỏi từ đoạn văn lên thành 15 đoạn văn ngữ cảnh trình huấn luyện, tách toàn đoạn văn tập đánh giá kiểm thử khỏi câu hỏi lưu vào sở liệu chung Kết thu số lượng đoạn văn huấn luyện liệu 4,957 đoạn văn số lượng đoạn văn lưu trữ sở liệu kiểm thử đánh giá 5,109 đoạn văn Với đề xuất thứ hai kỹ thuật cải tiến chuyển đổi liệu sang tiếng Việt từ tập liệu MRC tiếng Anh, sau huấn luyện tinh chỉnh để cải thiện độ xác mơ hình Kỹ thuật đề xuất gọi UtlTran bao gồm ba bước: (i) chuyển đổi tập liệu chất lượng cao toán MRC tiếng Anh sang tiếng Việt, (ii) tiền huấn luyện (pre-train) mơ hình MRC với tập liệu MRC chuyển đổi, (iii) huấn luyện tinh chỉnh (finetune) mơ hình MRC với tập liệu MRC nhỏ tiếng Việt Kết thu bốn tập ngữ liệu khác với kích thước tập khoảng 40 nghìn cặp câu hỏi - câu trả lời dành cho tiếng Việt Kết thử nghiệm tập liệu UIT-ViQuAD, việc sử dụng cải tiến UtlTran có kỹ thuật giảm độ dài trung bình ngữ cảnh dựa vị trí câu trả lời thực chuyển đổi liệu kết hợp việc sử dụng mơ hình học sâu với kiến trúc dựa iv theo mơ hình đa ngơn ngữ XLM-R đem lại kết tốt với F1=88.2% EM=71.8% tập liệu UIT-ViQuAD, cao 1% đến 3% so sánh với kết mơ hình đại khác Kết luận văn chấp nhận công bố hội nghị quốc tế IEA/AIE 2022 (International Conference on Industrial, Engineering & Other Applications of Applied Intelligent Systems) Đặc biệt xây dựng hệ thống hỏi đáp đánh giá tập liệu vừa xây dựng UIT-ViQuAD-Open, kỹ thuật UtlTran cải thiện độ xác hệ thống hỏi đáp với kết F1 = 65.8% EM = 50.4%, F1 cao 9,04% so với không sử dụng kỹ thuật UtlTran HỌC VIÊN Ký ghi rõ họ tên Nguyễn Hoàng Tiến Bách v MỤC LỤC CHƯƠNG GIỚI THIỆU ĐỀ TÀI 1.1 Tổng quan toán hỏi đáp 1.2 Bài toán hỏi đáp dựa đọc hiểu văn 1.3 Các nghiên cứu đọc hiểu văn giới 1.4 Các nghiên cứu đọc hiểu văn cho tiếng Việt 1.5 Mục tiêu nghiên cứu luận văn .8 1.6 Bố cục luận văn .8 CHƯƠNG CƠ SỞ LÝ THUYẾT 10 2.1 Mạng nơ-ron nhân tạo 10 Tổng quan mạng nơ-ron nhân tạo 10 Mạng mạng nơ-ron hồi quy RNN .11 Kiến trúc mã hóa – giải mã (Encoder-Decoder) .12 2.2 Cơ chế ý 13 Cơ chế ý 13 Cơ chế tự ý 14 Multi-Head Attention .15 2.3 Biểu diễn từ 16 Biểu diễn tần suất từ TF-IDF .16 Biểu diễn từ mơ hình học máy 17 2.4 Mơ hình mạng BERT [27] 21 CHƯƠNG ĐỀ XUẤT CẢI TIẾN KỸ THUẬT CHO BÀI TOÁN ĐỌC HIỂU TIẾNG VIỆT 23 3.1 Mơ hình sở 23 3.2 Đề xuất cải tiến kỹ thuật cho đọc hiểu tiếng Việt (UtlTran) 25 Kỹ thuật chuyển đổi liệu 26 Tiền xử lý liệu .29 Huấn luyện tinh chỉnh mơ hình đọc hiểu 30 3.3 Thực nghiệm đánh giá 32 Các tập liệu sử dụng cho tiền huấn luyện 32 Tập liệu cho huấn luyện tinh chỉnh 34 Các mơ hình thực nghiệm .34 vi Các độ đo đánh giá 35 Kết thử nghiệm đánh giá 36 CHƯƠNG HỆ THỐNG HỎI ĐÁP DỰA TRÊN ĐỌC HIỂU TIẾNG VIỆT .40 4.1 Kiến trúc tổng quan hệ thống hỏi đáp dựa đọc hiểu 40 Mô hình hỏi đáp dựa đọc hiểu nhiều văn 40 Kiến trúc hệ thống hỏi đáp đề xuất 41 4.2 Mô-đun xếp hạng đoạn văn .41 4.3 Mô-đun chọn lựa văn 43 Xây dựng liệu Tiếng Việt cho đọc hiểu nhiều văn 43 Mơ hình chọn lựa đoạn văn 46 4.4 Mô-đun đọc hiểu văn 49 4.5 Thử nghiệm đánh giá .49 Đánh giá liệu UIT-ViQuAD-Open 50 Thử nghiệm mơ hình với liệu UIT-ViQuAD-Open 50 4.6 Minh họa hệ thống hỏi đáp tiếng Việt đề xuất .51 CHƯƠNG KẾT LUẬN 56 5.1 Đóng góp luận văn .56 Kỹ thuật cải tiến tăng cường liệu cho đọc hiểu tiếng Việt 56 Bộ liệu mở rộng UIT-ViQuAD-Open 57 Hệ thống hỏi đáp dựa đọc hiểu tiếng Việt .59 5.2 Hướng phát triển tương lai 59 TÀI LIỆU THAM KHẢO .61 vii DANH MỤC HÌNH VẼ Hình 1.1 Thống kê số lượng báo hỏi đáp ACL Hình 1.2 Ví dụ tốn hỏi đáp dựa đọc hiểu Hình 1.3 Một số ứng dụng toán hỏi đáp dựa đọc hiểu [12] .4 Hình 2.1 Mơ tả nơ-ron người 10 Hình 2.2 Ví dụ mạng nơ-ron 10 Hình 2.3 Mơ tả mạng nơ-ron hồi quy RNN 12 Hình 2.4 Kiến trúc mã hóa - giải mã .13 Hình 2.5 Mơ tả chế ý 13 Hình 2.6 Mơ tả khối tự ý (Self-attention) 14 Hình 2.7 Mơ tả lớp Multi-head attention .16 Hình 2.8 Kiến trúc mơ hình CBOW Skip-gram 18 Hình 2.9 Cấu trúc mơ hình ELMo 20 Hình 2.10 Mơ hình Transformer .21 Hình 2.11 Mơ hình mạng BERT-base 22 Hình 3.1 Mơ tả đầu vào cho mơ hình XLM-R 24 Hình 3.2 Các bước xây dựng mơ hình sở cho tốn MRC 24 Hình 3.3 Kỹ thuật cải tiến UtlTran đề xuất 25 Hình 3.4 Các bước chuyển đổi liệu 26 Hình 3.5 Định dạng liệu SQuAD 1.1 27 Hình 3.6 Giải pháp sử dụng hai token xác định vị trí câu trả lời sau dịch 28 Hình 4.1 Mơ hình đề xuất cho tốn Hỏi đáp dựa MRC 40 Hình 4.2 Kiến trúc tổng quan hệ thống hỏi đáp 41 Hình 4.3 Ma trận TF-IDF tập liệu chung .42 Hình 4.4 Quá trình xử lý câu hỏi để xếp hạng đoạn văn 42 Hình 4.5 Cấu trúc liệu cho thành phần chọn lựa đoạn văn .44 Hình 4.6 Trực quan hóa câu mã hóa SimCSE-BERT 45 Hình 4.7 Quá trình xây dựng liệu nhiều văn 46 Hình 4.8 Dạng toán gốc đọc hiểu nhiều văn báo BERT-RNN 47 viii Hình 4.9 Kiến trúc mạng BERT-RNN 47 Hình 4.10 Mơ thuật tốn BeamSearch .49 Hình 4.11 Giao diện máy tính hệ thống thử nghiệm 51 Hình 4.12 Giao diện điện thoại hệ thống 52 Hình 4.13 Giao diện hỏi đáp ngắn gọn 53 Hình 4.14 Chức thị tồn thơng tin 54 Hình 4.15 Một vài ví dụ hỏi đáp hệ thống 55 ix

Ngày đăng: 04/06/2023, 11:33

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan