MỞ ĐẦUĐặt vấn đềHỏi - Đáp là một lĩnh vực đang được khai thác và triển khai rộng rãi, chính vì lẽ đó mà đã nhận được chú ý và tìm hiểu của tập thé cộng đồng xử lý ngôn ngữ tự nhiêntrên t
Trang 1ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN
NGUYÊN THỊ NGUYÊN DIỆU - 19521361
NGUYÊN TRƯỜNG GIANG - 19521448
KHÓA LUẬN TÓT NGHIỆP
XÂY DỰNG HE THONG HOI ĐÁP TIENG VIỆT DỰA TREN CÁC MÔ HÌNH
SINH NGÔN NGỮ
Building Vietnamese Question Answering Based on Generative Language Models
GIẢNG VIÊN HƯỚNG DẪN ThS NGUYEN VĂN KIỆT
TS NGUYÊN LƯU THÙY NGÂN
TP HÒ CHÍ MINH, Tháng 7 năm 2023
Trang 2LỜI CẢM ƠN
Lời đầu, nhóm xin gởi lời cảm ơn và lòng biết ơn đến thầy Nguyễn Văn Kiệt đã chỉ
dẫn và theo dõi, quan tâm nhóm chúng em trong cả hành trình thưc hiện môn học
khóa luận tốt nghiệp Nhờ có sự quan tâm, lo lắng và chỉ dẫn của thay mà nhóm
chúng em đã có thể hoàn thành được một công trình khóa luận tốt Ngoài ra thầy cũng
là người đã tạo cơ hội và truyền động lực nhiệt huyết cho chúng em có đầy đủ tự tin
và quyết tắm hoàn thành khóa luận đến cuối cùng.
Tiếp theo, em xin gởi lời cảm ơn đến các quý thầy cô trường đại học Công nghệ thông
tin nói chung và các thầy cô Khoa Khoa học và Kỹ Thuật Thông Tin nói riêng đã
tuyển đạt, cung cấp những giá trị về kiến thức thật đáng giá trong suốt chặn đường
học tập và rèn luyện tại trường Những kiến thức quý giá, bổ ích đó chúng em đã được
tích lũy từ các thầy cô đã giúp chúng em rat nhiều trong chặn đường thực hiện khóa
luận.
Cuối cùng, chúng em xin gởi lời cảm ơn đến tất cả mọi người gia đình và các bạn bè
đã luôn động viên, khuyến khích và hỗ trợ và tạo cơ hội cho nhóm chúng em hoàn
thành khóa luận tốt nghiệp.
Chúng em xin chân thành cảm ơn!
Nhóm tác giả Nguyễn Thị Nguyên Diệu
Nguyễn Trường Giang
Trang 3DANH MỤC HÌNH ẢNH.
DANH MỤC BẢNG
DANH MỤC TỪ VIET TAT
TOM TAT KHÓA LUẬN 22222++222EEE2++++222222E3122+22222231122 222221112 xrrrrrrkx 1
IN, (OY 0 ::::-ậg 2
CHƯƠNG 1: TONG QUAN -22222222222222222222222222122221111111111 ccerrrrrrrre 7
1.1 Phát biểu bài toàn Hỏi - Dap
2.2.2 1
2.2 ậ ll
CHƯƠNG 3: XU LÝ DU LIỆU 22¿©22222222EE2222221222223111222211222211 2212 3
BL BO di LGU 13 3 3.2 Điểm vượt trội của bộ dữ LGU ooeeccecesscsseesssssseessosssecsssstescsssseescessseesssseeeeesseeeees 4 3.3 Phan tích đặc điểm bộ dữ liệu -¿-22+¿+222+++t2222E2t2EEAerrrrrkrrrrrrk 5 3.4 Thống kê phân tích bộ dữ liệu
3.5 Phan tích dự trên phương diện từ vựng
3.6 Kết luận 222222 2222112222112 2211111222 E1 ecre 23
CHƯƠNG 4: HỆ THONG MBARTQA -2-22-22222222222222222122212222221112 2.2 24
4.1 Tách từ: HH He 25
Trang 44.2 Tiền huấn luyện:
TT» AÂ Ò 40 CHƯƠNG 6: CAI ĐẶT, KET QUA VÀ ĐÁNH GIÁ
6.1 Tiền xử lý dữ liệu.
6.2 Cài đặt thử nghiệm
6.3 Phương pháp đánh gi:
6.3.1 FI-SCOTE: ieee 6 /ê ` hố K 45
6.3.2 Exact MafCh: Q G Q.1 1g 111 1841031 £e 46
6.4 Kết quả: em SS Ế cơ 47
CHƯƠNG 7: KET LUẬN VÀ HƯỚNG PHAT TRIỂN 22c¿52c2scccccces 49
7.1 Kết luận: 22 22222222222 EE.E.2.1111 E21 crrree 49
7.2 Hạn chế: -2222+222212122211112222111222111122711122111122.111 E1 re 49
7.3 Hướng phát triỂn: -. -¿-+222222222+t2222EEEEEtEEEEEEEEEErrrrrrrrrrrrrrrrr 50
TÀI LIỆU THAM KHẢO.
Trang 5DANH MỤC HÌNH ẢNH
Hình 1.1 Ví dụ về hệ thống hỏi đáp 2¿-222++z+22EEE+etzErxrrrrrrreccee 7
Hình 3.1: Phân chia bộ dữ liệu theo tập Train, Dev, Test - 16 Hình 3.2: Phân đồ độ dài đoạn văn ở trap Train -:-sc++ccssce2 18 Hình 3.3: Phân đó độ dài đoạn văn ở trp Dev -:©cccc+ccxe+ 19 Hình 3.4: Phân đó độ dài đoạn văn ở trập Test :¿©s2:z+ccxs+ 19
Hình 3.5: WordCloud thé hiện tần suất xuất hiện từ vựng trên tập câu hỏi 20 Hình 3.6: WordCloud thé hiện tần suất xuất hiện từ vựng trên tập Trả lời 21 Hình 3.7: WordCloud thé hiện tần suất xuất hiện từ vựng trên tập đoạn văn 22 Hình 4.1 Mô hình hệ thống -:2¿©222222++++22222ES2zrrrrrtrrxvrrrrcee 24
Hình 4.2: Cấu trúc mBart 2 22-©22+22EE22EEEE22E111221122112721271122221e E2 27 Hình 4.3: Kiến trúc mô hình của Bert cccccccttttttrrtttriiirrrree 28 Hình 4.4: Kiến trúc của GPT -cccvxkvvrtrrrrtrrrrrrrr ket 29 Hình 5.1 Cấu trúc của mô hình Bart cccccccccccccttttEtttttttrtrrrerree 31 Hình 5.2: Mô hình tự nhiễu của Bart ceccceccsssescsesssesssesssesssecssesssesssessessseessees 33 Hình 5.3 Token masKking - - + + tt SEExsEE+kEEerkkekrkekrkrkrrkerrkrkrkek 33 Hình 5.4 Token deletio - - ¿5222 S2 *£2E2E2EEEEEErrkrkrkrrerrrkrrre 34 Hình 5.6 Text infillinng + tt St ng HH ri 34 Hình 5.7 Sentence permufatiOII ¿- + SE *k*EEEEEEEEEkekEkekrkrkrkek 35
Trang 6Hình 5.8 Document Rotation - 2c E2 22011111 11153111111 118311 1111k 35
Hình 5.9: Kết quả đánh giá của non-seg BART trên tập dev . 37
Hình 5.10: Kết quả đánh giá của seg BART trên tập dev - 37
Hình 5.11: Kết quả đánh giá của seg mBART trên tập đev - 38
Hình 5.12: Tác vụ chuyền văn bản sang văn bản của T5 - +: 39
Hình 5.13 Thư viện transformers huggingface - - -cssccsssssssexsseesee 40 00) i0 .iác 1 41
Hình 6.1: Công thức tính F Í-COF€ ¿(622331 * 2E ESEESEEesrkeererrsserrke 45
Hình 6.3: Công thức tinh Recall - - - +22 *+23£+£+tE+eEEseeserrsseeersserrke 46
Hình PL:1 Hình anh logo thư viện StreamLLIY 5+5 s++<++ex+e+sx2 55
Hình PL 2: câu lệnh khởi chạy ứng dụng thử nghiệm - 5-55: 56
Hình PL 3: Đặt câu hỏi liên quan đến đoạn văn - s txeE+xerxerxerees 57 Hình PL 4: Đưa ra kết quả đáp án 2 2+2<+EE+EE£EE£EEEEEEEEEEEEEEerkrrkrred 58 Hình PL 5: Hình ảnh minh hoa Ì - .- ¿55 222 *E E22 E+e+zzeeeeeezzsz 59
Hình PL 6: Hình ảnh minh họa 2 - ©5252 2 222 ***22EE£++EEezeeeeeszeeres 59
Hình PL 7: Hình ảnh minh họa 3 - c5 22223 2*222 E22 ESseekeseeeres 60
Hình PL 8: Hình ảnh minh hoa 4 - - 5 255 2222 * 3+ +22 £++eEEezeeeeeezeees 60
Trang 7DANH MỤC BANG
Bảng 0.1: Ví dụ về cặp câu hỏi - trà lời trong bộ dữ liệu -¿ 5+ 3Bảng 3.1: Ví dụ về câu hỏi và câu trả lời được dẫn ra từ đoạn văn mẫu 14Bảng 3.2: Phân bố độ dài của tập câu hỏi - 2-2: ©5¿+2x+2E22£Et£EczEerxrrresred 17Bang 3.3: Phân bố độ dài của tập câu trả lời 2- + s+cs+zxezxerxerxersered 17
Bảng 3.4: Phân bố độ dài của tập đoạn văn - c + 3+2 vtvsireserree 18
Bảng 6.1: Kết quả của các mô hình trên các tập dựa theo F1, EM 47Bảng 6.2: Đánh giá thủ CONG - - G11 911211 1911 11511 11111 1 1 1 ng ny rưy 47
Trang 8DANH MỤC TU VIET TAT
No | Từ viết tat Giải thích
I | BART Bidirectional Auto-Regressive Transformers
2 |mBART Multilingual Bidirectional Auto-Regressive Transformers
Trang 9TÓM TAT KHÓA LUẬNBồi cảnh hiện giờ, hệ thống Hỏi — Đáp trên các trang mạng và diễn đàn đang là một
lĩnh vực mở rộng cho các người nghiên cứu Là công cụ hỗ trợ phân tích, vấn đề hỗ trợgiải đáp thắc mắc, đưa ra câu hỏi, những tình huống trường hợp khó giải quyết, dé rồinhận lại đáp án là lời khuyên, cách thức giải quyết vấn đề Đi cùng với sự phát triển
hàng loạt như thế giới, xã hội, con người đó là những van đề những thắc mắc nghi van
về tất cả các lĩnh vực được đặt ra và cần giải đáp một cách chính xác và cụ thé, cuối
cùng tích lũy càng nhiều dữ liệu dé tạo nên kho tàng dữ liệu về tất cả thông tin ở đa
lĩnh vực Tận dụng vào việc đó chúng ta có thể tìm hiểu và nghién cứu về một hệ thốnghỏi đáp Giải quyết được mọi vấn đề về thắc mắc tiết kiệm thời gian Là một hệ thốngđược săn đón nhiều nhất gần đây trong lĩnh vực xử lý Ngôn ngữ tự nhiên, mô hình hỏiđáp này có thể thực hiện nhiều tác vụ đặt biệt là trích xuất câu trả lời dựa trên bộ đữ
liệu đã cho trước chính xác và nhanh chóng Điều cần thiết nhất là cần tạo được một bộ
dữ liệu chất lượng về độ chính xác và nghiên cứu mô hình tốt dé giải quyết chức năng
bài toán.
Trang 10MỞ ĐẦUĐặt vấn đề
Hỏi - Đáp là một lĩnh vực đang được khai thác và triển khai rộng rãi, chính vì lẽ đó
mà đã nhận được chú ý và tìm hiểu của tập thé cộng đồng xử lý ngôn ngữ tự nhiêntrên toàn thế giới, đi kèm với sự quan tâm đó thì lĩnh vực hỏi đáp này đã có các
công trình nghiên cứu đạt được các thành tựu đáng ngưỡng mộ Hệ thống mang lạinhững hữu ích thiết thực cho khoa học, y học, giáo dục, tạo nên kho kiến thức tolớn cho sự hiểu biết của con người Và dẫn đến nhiều phát triển ứng dụng lĩnh vực
hệ thống vào các công nghệ khác nhau
Nhóm chúng tôi đã tìm hiệu và thay được tam quan trọng và theo đuôi kip sức ảnhhưởng của các hệ thống hỏi đáp đối với con người Nhưng, lĩnh vực này có quá trẻ
ở Việt Nam ,vì vậy những cộng đồng nghiên cứu sinh xử lý ngôn ngữ tự nhiên ở
Việt Nam vẫn chưa có nhiều thành tựu vượt bậc Việc thực hiện đề tài này chắc
chăn sẽ gặp phải rất nhiều khó khăn và trở ngại thách thức, chính vì lẽ đó chúng tôi
nô lực không ngừng thực hiện đề tài với mục tiêu tạo ra một hệ thống hỏi đáp Bài
toán thuộc dạng tri thức opened domain, vi dụ như dia lý, lich sử, sức khỏe,
Hầu hết, chúng tôi thấy rằng các nghiên cứu sinh đa phần tập trung vào bộ dữ liệu
có kích thước lớn và chất lượng tốt cụ thê là tiếng Anh như SQuAD [3], Trivia [4],tiếng Trung CMRC [5] hay tiếng Nga SberQuAD [6] Với mong muốn thực hiện
nghiên cứu và cuối cùng tạo ra hệ thống hỏi đáp trên bộ dit liệu tiếng Việt, quan tâmđến sự hiểu biết và thắc mắc của người Việt, và muốn nghiên cứu một công trình dé
có thể ứng dụng tạo nên tính thực tế cho người Việt Do đó, chúng tôi đã đề ra mụctiêu định hướng và cố gắng thực hiện bài toán Hỏi — Dap bằng ngôn ngữ Tiếng Việt
Bài toán trong khóa luận của nhóm được mô tả như sau:
Trang 11> Đâu vào: câu hoi băng tiêng Việt ở bat kì lĩnh vực và một đoạn văn liên
quan dén câu hỏi.
> Đâu ra: Một câu trả lời (evidence document) và câu trả lời dang
span-based được tìm thấy trong văn bản này
Ví dụ về một câu hỏi trả lời và đoạn văn trong tập dữ liệu
Đoạn văn
Bang 0.1: Vi dụ vé cặp câu hỏi - tra loi trong bộ dữ liệu
sông, và là trung tâm của một vùng nông nghiệp giàu có Vào thế kỷ 10, Paris đã là
một trong những thành phố chính của Pháp cùng các cung điện hoàng gia, các tu
viện và nhà thờ Từ thế kỷ 12, Paris trở thành một trong những trung tâm của châu
Âu về giáo dục và nghệ thuật Thế kỷ 14, Paris là thành phố quan trọng bậc nhất
của Cơ Đốc giáo và trong các thế kỷ 16, 17, đây là nơi diễn ra Cách mạng Pháp
cùng nhiều sự kiện lịch sử quan trọng của Pháp và châu Âu Đến thế ky 19 và 20,
thành phố trở thành một trong những trung tâm văn hóa của thế giới, thủ đô của
nghệ thuật và giải trí.
Câu hồi
Điều gì đã nói lên Paris là thành phó lý tưởng đề khách du lịch?
Trang 12Câu trả lời
Mục tiêu của khóa luận tốt nghiệp:
Đề đạt kết quả như mong muốn trong khóa luận này chúng tôi đã đề ra mục tiêu như
sau: là tìm hiểu nghiên cứu về bài toán Hệ thống Hỏi — Đáp với hai mô hình Bart và T5cho ngôn ngữ Tiếng Việt
Chúng tôi đã lựa chọn ngôn ngữ Tiếng Việt, về miền đữ liệu chúng tôi lựa chọn đa lĩnhvực dé tạo nên kho kiến thức thúc day phát triển cho người Việt
Đề ra mục tiêu hệ thống Hỏi đáp đa lĩnh vực tốt nhất , chúng tôi đã tiến hành nghiên
cứu các phương pháp và nhiều loại mô hình dé phân tích kết quả dựa vào đó so sánh
và đánh giá các mô hình trên cùng một bài toán.
Dé dat được điều đó, sau khi đánh giá kết quả chúng tôi rút ra những đánh giá và rút ra
kinh nghiệm , tiến hành đưa ra định hướng cho việc nghiên cứu phát triển cho bài toánnày với các mô hình tiếp theo Ngoài ra chúng tôi tạo nên ứng dụng dé trải nghiệm kết
quả cuôi cùng đưa ra đánh giá và cái nhìn chung của mô hình sau khi nghiên cứu.
Về đôi tượng : bài toán nghiên cứu về hệ thông Hỏi — đáp dựa trên mô hình sinh ngôn ngữ về tiêng Việt.
Về phạm vỉ nghiên cứu: bài toán được nghiên cứu dựa vào bộ dữ liệu bao gôm văn
bản, câu hỏi va câu trả lời bang tiêng Việt Đông thời chúng tôi nghiên cứu các mô hình
liên quan dé đánh giá phù hợp và đưa ra mô hình đạt hiểu quả cao
Kết quả nghiên cứu:
Trang 13Sau khi nghiên cứu bài toán hỏi-đáp, chúng tôi đã có được kết quả dưới đây:
“ Chúng tôi đề xuất mô hình dang sinh non-seg_mBART được tiền huấn luyện trên bộ
dữ liệu UIT-ViQuAD2.0 Thông qua quá trình tìm hiểu và tiền huấn luyện các loại
mô hình dạng sinh khác nhau, chúng tôi đã huấn luyện được mô hình
mBART có F1-score đạt được 53.8% cùng với 35.93% EM Ngoài mô hình
non-seg-mBART chúng tôi còn tìm hiểu những mô hình khác như BART, T5
“ Ngoài việc tìm hiểu các mô hình dang sinh, chúng tôi còn tìm hiéu tác động của kỹ
thuật tách từ đối với hiệu suất của mô hình dang sinh trong phạm vi bài toán
hỏi-đáp Và chúng tôi thấy được kỹ thuật tách từ có ảnh hưởng không tuyến tính đối với
mô hình dạng sinh mà chúng tôi đã tìm hiểu sau khi có kết quả thực nghiệm
“ Sau quá trình tìm hiểu và tiền huấn luyện các mô hình, chúng tôi chọn ra mô hình có
kết quả thực nghiệm tốt nhất non-seg-mBART (mô hình mbART không áp dụng kỹthuật tách từ) làm baseline kết hợp với framework streamlist dé tao một công cu trực
quan cho việc kiêm chứng hiệu suât của mô hình đê xuât.
Trang 14Cấu trúc nội dung của khóa luận:
Chương 1: Tổng quan
Giới thiệu khái quát về bài toán , nêu ra tính đứng dụng và những van đề thách thức
phải gặp khi nghiên cứu bai toán Ho1-Dap.
Chương 2: Các công trình nghiên cứu liên quan
Trinh bày giới thiệu về những công trình liên quan và nồi tiếng về lĩnh vực đang
nghiên cứu và rút ra kết luận bài học kinh nghiệm
Chương 5: Phương pháp tiếp cận khác
Chúng tôi tìm hiểu và trình bày một số mô hình, phường pháp tiếp cận bài toán bang
cách khác và so sánh đánh gia.
Chương 6: Kiểm tra, đánh giá và so sánh
Chương này, chúng tôi trình bày quy trình và các giai đoạn từ xử lý đữ liệu đến cài đặt
mô hình, huấn luyện , kết quả và đưa ra nhận xét đánh giá
Chương 7: Kết Luận và hướng phát triển
Cuôi cùng, từ nhận xét và đánh giá trên tìm ra được ưu diém va hạn chê đê đưa ra
Trang 15CHƯƠNG 1: TỎNG QUAN1.1 Phat biểu bài toán Hỏi - Đáp
Question Answering System là một hệ thống Hỏi — Đáp được thiết kế dựa vào các mô
hình thuộc lĩnh vực xử lý ngôn ngữ tự nhiên huấn luyện dé có thé hiểu được và có thé
trả lời được tất cả câu hỏi do người dùng đặt ra, hệ thống Hỏi — Dap sẽ được tiếp cận
bởi nhiều cách khác nhau dé hiểu và từ đó tạo ra câu trả lời chính xác từ kho thông tinnhất định Nhằm hướng vấn đề khoảng cách giữa ngôn ngữ con người và sự hiểu biết
của máy thì hệ thống cho phép được sử dụng nhiều chức năng, tác vụ như hỗ trợ tìm
kiếm thông tin và cung cấp lời khuyên, kiến thức,
Đối với khóa luận chúng tôi đã tiến hành nghiên cứu, xử dụng bộ đữ liệu đa lĩnh vực
dé tiếp cận và nghiên cứu hệ thông Hỏi — Đáp, lợi ích hệ thống mang lại cho con người
về kiến thức ở mọi lĩnh vực dé dang xử lý mọi vấn đề Cũng giúp cho con người rút
ngắn thời lượng tìm kiếm thông tin Ngoài ra, còn giúp học sinh, sinh viên giải đáp một
sô thắc mac vân đê nghiên cứu học tập.
Câu hỏi
hiện nay?
Câu trả lời Tăng quan hệ đối tác thi có khả nang giảm quan hệ đối tượng.
Trang 16Ngoài ra việc giới hạn về mặt chỉ phí huấn luyện các mô hình cũng tạo cho chúng tôi
không ít khó khăn bởi những mô hình chúng tôi lựa chọn cho phạm vi khóa luận này
đều có kích thước cấu trúc lớn đòi hỏi phải có lượng ram cũng như dung lượng bộ nhớkhá lớn (RAM: ~40GB) dé có thể ghi lại tat cả các kết quả trong quá trình huấn luyện
Chiếm nhiều thời gian trong việc thực hiện khóa luận này là giai đoạn chúng tôi phải
tìm kiếm và thử nghiệm các mô hình vừa phù hợp bài toán đồng thời cũng phải phù
hợp với bộ dữ liệu và hỗ trợ ngôn ngữ tiếng Việt Bên cạnh đó dé có thé đánh giá so
sánh chuân xác nhất và đưa ra kết quả phù hợp chúng tôi phải xử lí về đặc điểm của
tiếng Việt
1.3 Ứng dụng
Một hệ thông mang lại tinh ứng dụng cho cộng đồng Nó mang lại hữu ích về tìm kiếm
những thông tin ở những lĩnh vực đặc thù chuyên ngành, tìm các đữ liệu liên quan đến
y học pháp luật và lịch sử, Hỗ trợ tài nguyên tài liệu cho các nghiên cứu sinh học tập
cũng như có thê đưa ra thông tin cụ thể về một thắc mắc mà người dùng đang nghiên
Là
cưu.
Bên cạnh việc thực thi bài toán đưa ra đánh giá thì chúng tôi đã triển khai thêm hệ
thong ứng dụng giúp người dùng sử dụng và thao tác thuận lợi hơn Hỗ trợ hỏi đáp, tưvân, tra cứu, chăm sóc khách hàng, đưa lời khuyên.
Trang 171.44 Kết luận
Trở thành hệ thống được chào đón và phát triển mở rộng toàn thế giới, và đang trở
thành xu hướng của một số quốc gia công nghệ, bởi lẽ đó dé nghiên cứu thành công hệthong Hỏi-Đáp, chúng tôi đã phát huy tối đa mô hình va dữ liệu, kế đến chúng tôi đã
thực hiện đánh giá mô hình bài toán và đưa ra hướng kết quả tìm ra hướng phát triển
cải thiện đổi mới mở rộng hệ thống hỏi — đáp ở Việt Nam Dong góp những tìm hiểu vàkết quả thành công trong việc phát triển công nghệ nước nhà nói chung và lĩnh vực
Hỏi-Đáp nói riêng.
Trang 18CHƯƠNG 2: CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
2.1 Cac công trình
2.1.1 Phát biểu bài toàn Hỏi - Đáp
Cùng với lợi ích và sự phát triển tiếp cận nhanh mà hệ thống Hỏi — Dap mang lại cho
cộng đồng nghiên cứu hiện nay thì, sự phô biến và nồi tiếng với các công trình đã đạt
một số thành tưu là điều đáng ké
Nắm giữ vị trí có được sự quan tâm đông đảo và quan trong đối với việc phát triển xã
hội và thế giới nên hệ thống Hoi-Dap luôn là một trong những chủ đề luôn được chú ýhàng đầu đối với cộng đồng nghiên cứu sinh xử lí ngôn ngữ tự nhiên Có nhiều công
trình tiêu biểu nghiên cứu về hệ thống trên đã được công bố qua từng năm và đã manglại dong góp to lớn trong việc phát triển hệ thống hỏi đáp trên nhiều loại ngôn ngữ khácnhau Đầu tiên đó là những kết quả của các nghiên cứu trên bộ đữ liệu Natural
Questions (NQ) [2] Day là một bộ dữ liệu gồm 307,373 mau cho việc training, 7,830
mẫu cho việc development và 7,842 mẫu cho việc test Mỗi một mẫu như vậy sẽ gồm
có một câu hỏi được lay từ Google.com, trang Wikipedia trả lời câu hỏi, và câu trả lời
ở dang dài (long answer) và câu trả lời dang ngắn (short answer) được đánh dấu trongtrang Wikipedia đó Có thé có trường hợp không có câu trả lời (dang dài hoặc dạng
ngắn)." Attention Is All You Need" (Vaswani et al., 2017): đây là một trong những côngtrình dùng dé giới thiếu mô hình Transformer, sử dụng cơ chế tự chủ của kiến trúc
mạng nơ -ron và đã tạo nên kết quả đầy ấn tượng với nhiều tác vụ khác nhau bao gồm
cả QA."BERT: Pre-training of Deep Bidirectional Transformers for Language
Understanding" (Devlin et al., 2018) Electra: Pre-training Text Encoders as
Discriminators Rather Than Generators" (Clark et al., 2020) "UnifiedQA: Crossing
Format Boundaries With a Single QA System" (Khashabi et al., 2020) giới thiệu mô
Trang 19hình UnifiedQA mộ mô hình QA đa nhiệm có thê xử lý tât cả các định dạng về câu hỏi
dau vao là câu nôi giữa các định dạng câu hỏi khác nhau đã tạo nên kết quả xuât sac.
Về bộ dữ liệu, hiện tại trên thế gidi CÓ rất nhiều bộ dữ liệu khác nhau, nhưng theo đánhgiá gần đây đầu tiên phải nhắc đến đó là một bộ dit liệu đầy thách thức chưa hớn 650
nghìn bộ ba câu hỏi câu trả lời và dẫn chứng Ngoài ra còn có một bộ dữ liệu khác cũng
đáng được chú ý là MRQA[3] được tông hợp từ nhiều bộ dữ liệu tiếng anh nồi tiếng
khác nhau (SQuAD, TriviaQA, ) được chia thành 3 nhóm: nhóm 1 — chỉ gồm các
mẫu thực thi việc huấn luyện mô hình và phát triển mô hình, nhóm 2 — chỉ gồm các
mau dùng cho việc phát triển, đánh giá mô hình, nhóm 3 — chỉ gồm các mẫu dành choviệc đánh giá đưa ra kết quả hiệu suất của mô hình Các công trình nghiên cứu được
đánh giá cao không chỉ được thực thi huấn luyện trên bộ dữ liệu tiếng anh mà còn đượcthực hiện trên các bộ dữ liệu đa ngôn ngữ như bộ đữ liệu MLQA[4] (gồm có tiếng Anh,tiếng A Rap, tiếng Đức, ), TyDi QA[5] (gồm 200,000 cặp câu hỏi — đáp từ 11 loại
ngôn ngữ).
2.2.2 Các công trình trong nước
Các công trình trong nước thì vẫn còn hạn chế và chưa có nhiều các nghiên cứu được
thực hiện trên bộ dữ liệu tiếng Việt mà nỏi tiếng nhất có thé ké đến là bộ 3 VIMMRC
[6], ViQuAD2.0 [7] và ViNewsQA [8] Trong nó nổi bật nhất là bộ đữ liệu
UIT-ViQuAD2.0 với 35.990 cặp câu hỏi — câu trả lời Thời điểm bộ dit liệu UIT-ViQuAD
lần đầu tiên được công bồ thì nó gồm 23,074 cặp câu hỏi được tạo ra dựa trên 5,109
đoạn văn từ 174 bài báo tiếng Việt trên Wikipedia Và mô hình chạy tốt nhất trên bộ ditliệu này vào thời điểm được công bố là X-LMRLarge [9] với độ đo EM là 68,98% và độ
đo F1 là 87,02%.
2.2 Kếtluận
11
Trang 20Được đón nhận bởi sự quan tâm và chú ý của toàn thể nghiên cứu sinh trên Thế Giới,bên cạnh đó lĩnh vực Xử lý ngôn ngữ tự nhiên về hệ thống hỏi đáp là một trong nhữnglĩnh vực còn một sô hạn chê:
- _ Hiệu suất và độ chính xác: tuy có nhiều cải tiến trong quá trình xử lý ngôn ngữ
tự nhiên và phát triển hệ thống Hỏi — Đáp, tuy nhiên độ chính xác còn hạn chếkhi tiếp xúc với những ngôn ngữ có tính phức tạp, đa ngữ nghĩa và có nhiều cau
trúc phức tạp.
- _ Thiếu dit liệu: đây là một hạn chế đáng chú ý Đặc biệt là trên ngôn ngữ Tiếng
Việt, không những thế hầu hết các tài liệu, tài nguyên tiếng Việt hầu như rất ít,
gây khó khăn và can trở trong việc nghiên cứu.
Tuy nhiên những điềm hạn chế trên lại là cơ hội phát triển dé chúng ta nghiên cứutiếp tục phát huy và mở rộng, góp phan phát triển và cải thiện dé cộng đồng nghiêncứu Việt Nam có thể tiếp cận được nhiều hơn Bằng việc tập trung cải thiện hiệu
suất, độ chính xác và mở rộng tập dữ liệu nghiên cứu bằng tiếng Việt, chúng tôi
mong răng với sự nỗ lực nghiên cứu sẽ đóng góp vào sự phát triển và mở rộng củalĩnh vực Xử lý ngôn ngữ tự nhiên và hệ thống Hỏi — Đáp trong tương lai
Trang 21CHUONG 3: XỬ LY DU LIEU
3.1 Bộ dữ liệu
Sau khi nghiên cứu về dé tài bài toán kèm theo tự tìm hiéu một sô công trình liên quan
thì chúng tôi đã định hướng đối với bộ đữ liệu mà chúng tôi hướng đến
Nhóm đã hướng đến những tiêu chí về bộ dữ liệu phải là bộ đữ liệu đa lĩnh vực bằngTiếng Việt Trong bộ đữ liệu cần có những bộ câu hỏi, câu trả lời và đoạn văn liên
quan Trong đó câu hỏi được đặt ra phải là câu có liên quan đến đoạn văn cùng với bộ
đữ liệu và câu trả lời sẽ là được rút trích từ đoạn văn trên.
Vi dụ:
Đoạn văn
Nôi tiếng với tên gọi Kinh đô ánh sáng, Paris là một trung tâm văn hóa lớn của thế giới
và cũng là một trong những thành phó du lịch thu hút nhất Sự nhộn nhịp, các công
trình kiến trúc và không khí nghệ sĩ đã giúp Paris mỗi năm có đến 30 triệu khách nước
ngoài Thành phố còn được xem như kinh đô của thời trang cao cấp với nhiều khu phố
xa xi cùng các trung tâm thương mại lớn Là nơi đặt trụ sở chính của các tô chức quốc
tế như OECD, UNESCO cộng với những hoạt động đa dạng về tài chính, kinh
doanh, chính trị và du lịch đã khiến Paris trở thành một trong những trung tâm trung
cùng với New York, Luân Đôn và Tokyo.
13
Trang 22question_lenght, context_lenght, context_sentence.
3.2 Điểm vượt trội của bộ dữ liệu
Quá trình nghiên cứu về bài toán Hỏi — đáp nói riêng và các nghiên cứu khác về Xử lýngôn ngữ tự nhiên nói chung thì Bộ dữ liệu giữ vi trí quan trọng trong việc xây dựng,
đánh giá và tìm ra hướng phát triên cho mô hình.
Một sô điêm vượt trội của bộ dữ liệu cân có là:
Chât lượng câu hỏi, câu trả lời và đoạn văn: Bộ dữ liệu phải có độ chât lượng về các
tập câu mới có thê huân luyện mô hình chính xác hơn.
Tùy vào định dạng và tác vụ mà bài toán nghiên cứu thì độ đa dang của dữ liệu khác
Trang 23Độ phân phôi công băng đê đảo dam tính công băng đôi với nhiêu quan diém ngữ
nghĩa, bộ dữ liệu cân bao gôm các câu hỏi và các câu trả lời được nhìn ở nhiêu khía
cạnh và nhiêu nguôn khác nhau.
Về chất lượng: dé đạt được mô hình tốt và hiệu quả cao thì việc cần thiết đó là đánh giá
và đo lường hiệu suât bộ dữ liệu.
Cuôi cùng điêu quan trọng là đảm bảo cho sự phát triên và cải tiên cho tương lai nhắm
mở rộng cho nghiên cứu thì bộ dữ liệu cân cập nhật và nâng cap.
Đối với bài toán này hầu như bộ dữ liệu UIT-ViQuAD2.0 đáp ứng gần như đầy đủ cáctiêu chí trên, bộ dữ liệu được xây dựng trên ngôn ngữ tiếng Việt, với tính đa dạng về
lĩnh vực và só lượng tập câu hỏi và trả lời 35.990.
3.3 Phân tích đặc điểm bộ dữ liệu
UIT-ViQuA2.0 là bộ dữ liệu Tiếng Việt là một tập dữ liệu trong lĩnh vực hỏi đáp Trong
đó bao gồm phân loại câu hỏi, trích xuất đáp án và tạo ra câu hỏi dựa trên đoạn văn bảncho trước Kích thước: UIT-ViQuAD2.0 gồm tổng cộng 35.990 cặp câu hỏi và trả lời
được thu thập từ 13 chủ đề khác nhau Mỗi bộ câu hỏi duoc chia thành cấu trúc 3 phầnsau: (a) đoạn văn bản nguồn, (b) câu hỏi và (c) đáp án Chủ dé trong bộ dữ liệu bao
gồm lĩnh vực về khoa học, vật ly, dia ly, công nghê thông tin,
15
Trang 24Distribution of Train, Dev, and Test Sets
Hình 3.1: Phân chia bộ dit liệu theo tập Train, Dev, Test
3.4 Thống kê phân tích bộ dữ liệu
Thực hiện tiến hành thống kê cơ bản về độ dài của câu hỏi và câu trả lời Độ dài của
từng cặp câu của bài toán mà chúng tôi nghiên cứu còn phụ thuộc vao độ dài của văn
bản mà chúng tôi đã cung cấp đề đặt câu hỏi và tạo câu trả lời Với bài toán của chúng
tôi thì câu hỏi sẽ dựa vào văn bản ma đưa ra đáp án phù hop với câu hỏi.
Sau khi kiểm tra tính toán và thống kê một vài số liệu, thì sau đây là bảng chỉ tiết phân
bô độ dai của tập câu hỏi, câu trả lời và đoạn văn và kết quả lân lượt ở các bảng.
Trang 25Bảng 3.2: Phân bố độ dài của tập câu hỏi
Độ dài Question
Train Dev Test Total 50-200 74.484165 74.009966 66.00 74.402077 200-500 0.003515 0.026226 0.00 0.006180
>500 25.512320 25.963808 34.00 25.591743
Theo quan sát bang 3.2 thì phan lớn độ dài của câu hỏi tập trung ở khoảng 50-200 tỉ lệ
rat cao Chứng tỏ người dùng mô tả chi tiét vê những gì có liên quan đên van đê cân
hỏi Với mong muốn nhận lại câu trả lời phù hợp
Bảng 3.3: Phân bo độ dài của tập câu trả lời
17
Trang 26Bảng 3.4: Phân bố độ dài của tập đoạn văn
Độ dài Context
Train Dev Test Total
100-500 1.402510 1.363756 2.00 1.399790 500-1000 77.271609 80.514031 95.00 77.708423
>1000 21.325881 18.122213 3.00 20.891787
Bang 3.4 day là bảng phân bố độ dai của tập đoạn văn nên có thé thay răng độ dai đoạnvăn tập trung ở khoảng 500-1000 tỷ lệ cao nhất, tiếp đến là khoảng >1000 Những đoạnvăn với độ dài lớn là do mỗi câu hỏi và câu trả lời đều dựa vào đoạn văn trên dé trích
xuất, bên cạnh đó với một đoạn văn thì có rất nhiều câu hỏi và câu trả lời được trích
Trang 27Hình 3.3: Phân đồ độ dài đoạn van ở trập Dev
Context's length in Test Set
Trang 28Quan sát hình 3.2, hình 3.3, hình 3.4 chúng ta thấy được số lượng các đoạn đoạn vănđược tập trung ở khoảng 500-100 chiếm số lượng lớn, kế đến là những đoạn văn có sốlượng >1000, cuối cùng là những đoạn văn chiếm số lượng ít nhất trập trung ở khoảng
<500 Cả 3 tập Train, Dev, Test mang lại tỉ lệ độ dài với sé lượng khác nhau, tuy nhiênđây lại là điều phù hợp với bài toán
3.5 Phan tích dựa trên phương diện từ vung
những người er rr
vai tro La Ma , ‘i nam nao
điêu? B1 kG thế giới VAO nam
_- gian nào °° cho ảnh hưởng
‘a thể ke \OXây dựng nào được “ÍỦ
2» Hs ngén ng? >
Ms Ệ
khử Sa sự kiên Sẽ
0 1 nào Tại a ộc chiến nào trong
inh Ai a là người ối vớ
i G nào đã > nea 1a bao
ae quốc thời gian Vì: sao Trung Quốc
3 tO bn thi”) ja ni, xf Số, lượng
E -CO¿àm Bì = ` châu Âu
đầu Tà qymn ^ ƠI mục đích
Hình 3.5: WordCloud thể hiện tan suất xuất hiện từ vựng trên tập câu hỏi
Trang 29Sau khi tiếng hành phân tích kết quả thì tuần suất của từ vựng xuất hiện trên tập câu
hỏi thì tìm ra đặt trừng rằng, các từng vựng ở tất cả lĩnh vực khác nhau điều xuất hiện,
và có thé thay rõ hơn nữa các từ vựng có tân suât xuât hiện phô biên là các từng dé hỏi:
và có nhiêu thac mặc về các lĩnh vực khác nhau.
châu Âu Đại nọc trên Oo
việc 429,98 quân đội
hoac người xã hội oe
với cắc một gan sự Đế quốc
2sy2 Việt Nam chink" eet thé gidi
Ä te tháng nămš al Nga vin
kinh té meee về 3 CỪn om —
la Cộng hòa, ` sản ga iis moi Thad, on ba
được '*' trở thành# hoạt động CHO1®#Ẻ
Trang 30Ở hình 3.6 thé hiện tần suất xuất hiện từ vựng được nhìn thấy rõ hơn ở các từ: “Ngày
tháng”, “Năm”, “chiến tranh”, “chính phủ”, “tổ chức” Dé phù hợp và chính xác với
câu hỏi câu hỏi thì đồng thời câu trả lời phải có tính da dang tương tự hoặc cao hơn dé
có thê diễn giải và giải dap các van đê một cách chính xác va cụ thê hon.
trong khi § ` van hoa
trộn es; khU vực
trở thành 5 as > hành tính, 2
có thé er rane, a, Chính phủ
ets une một số"»st động lực lương"
„ lãnh đạo quan trong’ lổn nhất >
‘ sử dung vom Tuy nhién =.
oper Việt: Nai
t0 - 80 và»fEÄ(u ki VỚI Cac
esc a the Tỷ 2 trong do F trung tam
Ue xã hội sau khi 5
=Cĩ À vua đặc biệt Để, quốc F
me bà Hoa Kỳ Công-sẽf ego dai đọc
lợn Công hoa Quốc hôi dân tộc 1
“5 ĐỘ One THẾ ni Quốc hội aly nay bắt đầu
£5 c= những người sản xuất the gidi
E
ry dau tiện lẻ : { :
5s 0 Đào Nha à: mộ phát “triển
3 ' ngôn ngữ i i a fo chién t anh,„
cua Ong từ nam es
Hình 3.7: WordCloud thé hiện tan suất xuất hiện từ vựng trên tập đoạn văn
Trang 31Cuôi cùng ở hình 3.7 là tập hợp tân suât xuât hiện từ vựng của tập câu hỏi và câu trả
lời, vì là nơi được trích xuât câu hỏi và câu trả lời một các cụ thê và chi tiêt kèm theo
việc ở một đoạn văn có thê trích xuât được nhiêu câu hỏi và câu trả lời, dân đên tính đa
dang và phô biên của từ vựng ở mức độ cao, thê hiện rõ tính đa lĩnh vực của bộ dữ liệu.
Đối với khóa luận này thực hiện bài toán đa lĩnh vực, kèm theo việc bộ dữ liệu không
chỉ ở đa dạng ở rất nhiều lĩnh vực khác nhau, tần xuất xuất hiện những từ vựng của cácchuyên ngành là rât ít, ngược lại các từ đê hỏi và các từ thông dụng thì có tân suât xuât hiện khá cao.
3.6 Kết luận
Tổng kết lại quả trình tìm hiểu và thực hiện các nghiên cứu va huấn luyện bộ dữ liệu
phù hợp với mô hình và đề tài cũng như phù hợp với mục dich đặt ra của khóa luận tốtnghiệp, nhóm đã tiến hành thao tác bộ dir liệu UIT-ViQuAD2.0 Đây là bộ dữ liệu tiếngViệt và chứa nhiều lĩnh vực khác nhau cùng với mô hình mà nhóm đã tìm hiểu sẽ manglại một hệ thống Hỏi — Đáp ở đa lĩnh vực quan trọng góp phan giúp ích cho nghiên cứu
Trang 32CHƯƠNG 4: HỆ THÓNG MBARTQA
Đề đề xuất được mô hình dạng sinh đạt kết quả cao trong bài toán Hỏi-Đáp, chúng tôi
đã thực hiện 2 giai đoạn thử nghiệm với 2 phương pháp khác nhau:
- Huấn luyện mô hình mà không sử dụng kỹ thuật tách từ
- Huan luyện mô hình có sử dung kỹ thuật tach từ
(learning rate, weight_decay)
Chọn ra phiên bản có
hiệu suất tốt nhất làm
base_line cho hệ thống
Hình 4.1 Mô hình hệ thống
Trang 334.1 Tach từ:
Khác với tiếng anh, 1 token của tiếng việt có thé gồm nhiều chữ Trường hợp từ đó
xuất hiện không có nghĩa có thể xảy ra khi chỉ đơn thuần sử dụng tokenizer như trong
tiếng anh
Trong nghiên cứu của mBART cũng chỉ ra, trước khi thực hiện tiền huấn luyện trên
một ngôn ngữ nào khác mà một từ có nghĩa của nó có thé gồm nhiều chữ thì sẽ phải
thực hiện bước tách từ (đề xuất sử dụng Sentencepiece) Trong phạm vi tiếng việt,
chúng tôi đã quyết định sử dụng thư viện py_vncorenlp cho bước tách từ này bởi độ
chính xác của nó lên đên 96%.
Sau khi thực hiện tách từ, chúng tôi phải cập nhật lại tham SỐ answer_start trong câu trảlời bởi vì câu trả lời có thé sẽ có vị trí không khớp so với vị trí trong văn ban sau khi
thực hiện tách từ.
Đương nhiên trong quá trình cập nhật lại giá trị của tham số answer_start van sẽ có
trường hợp không chính xác Cụ thể: trong 1 đoạn ngữ liệu, câu trả lời là “Paris” và từ
này xuất hiện trên 1 lần trong đoạn ngữ liệu dẫn đến việc cập nhật bị nhầm lẫn Chúng
tôi xem những trường hợp này là nhiễu và vẫn thực hiện huấn luyện ngay trên cả bộ dit
liệu có chứa những trường hợp nhiêu vừa được nêu ra ở trên.
Do thời gian nghiên cứu có hạn, nên trước mắt đó là giải pháp tạm thời của chúng tôi
Chúng tôi sẽ xem đây là một điểm hạn chế ảnh hưởng tới hiệu suất của mô hình và
trong tương lai sẽ có biện pháp cải thiện.
4.2 Tiền huấn luyện:
25
Trang 34Dé có thé đê xuât được phiên ban có kêt quả tot vê hiệu suât của mô hình trong giới
hạn phạm vi khóa luận, chúng tôi đã thực hiện tiên huân luyện nhiêu lân với các lựa
chọn khác nhau về giá trị tham số của AdamW optimizer Cu thé:
- learning rate: thử nghiệm với các lựa chon như: le-5, 2e-5, 5e-5
- weight decay: thử nghiệm với 2 lựa chon: 0.01 va 0.1.
Với nhiều lần thực nghiệm nhóm chúng tôi đã nhận thấy ở phạm vi bộ dữ liệu
UIT-ViQuAD2.0 thì tham số weight decay = 0.01 sẽ đem lại hiệu suất (F1-score và EM)
cao hơn.
4.43 mBART:
mBART (Multilingual Denoising Autoencoder for Pretraining) là một kiến trúc mô
hình học sâu được nghiên cứu và phát hành bởi Facebook AT Research (FAIR).
mBART là là một ban mở rộng BART (Bidirectional and Auto-Regressive
Transformers) nhằm mục đích hỗ trợ đa ngôn ngữ
mBART được đảo tạo trên nhiều miền ngôn ngữ khác nhau, cung cấp một tập hợp
tham số có thé được điều chỉnh lại cho bat kỳ ngôn ngữ nào Chính vì thế không cầnphải sửa đổi bat kỳ cấu trúc hay phương án huấn luyện cho một ngôn ngữ cụ thé trongmột bài toán cụ thé Chúng ta chỉ cần tiền huấn luyện lại mô hình trên tập dữ liệu củabài toán nhất định thì vẫn đạt được hiệu suất cao trên một ngôn ngữ bat kỳ (tiếng việt,tiếng A Rập )
mBART được tiền huấn luyện trên các tập dữ liệu không 16 thuộc các nhiều ngôn ngữ
khác nhau Cụ thể, trong tiếng việt, nBART đã được tiền huyến luyện trên bộ dir liệu
có kích thước 137.3GB.
mBART là một trong số phương pháp đầu tiên tiến hành đào tạo một mô hình toàn bộvăn bản theo trình tự bằng cách khử nhiễu toàn bộ các ngôn ngữ, thay vì chỉ tập trung