hình đọc hiểu tự động dựa trên các phương pháp học sâu như sequence-to-sequence, cácphương pháp học sâu hiện đại cho tiếng Việt như PhoBert, mT5 2 Sử dụng kết hợp cácphương pháp xử lý ng
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG DAI HỌC CÔNG NGHỆ THONG TIN
VŨ NGUYÉN
KHÓA LUẬN TÓT NGHIỆP NGHIÊN CỨU TẠO SINH TU ĐỘNG CÂU HOI TIENG VIỆT
VIETNAMESE AUTOMATTIC QUESTION GENERATION
CU NHÂN NGÀNH CÔNG NGHỆ THONG TIN
TP HÒ CHÍ MINH, 2022
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN
VŨ NGUYEN
KHÓA LUẬN TÓT NGHIỆP
NGHIÊN CỨU TẠO SINH TU ĐỘNG CÂU HOI TIENG VIỆT
VIETNAMESE AUTOMATIC QUESTION GENERATION
CỨ NHÂN NGÀNH CÔNG NGHỆ THÔNG TIN
GIẢNG VIÊN HƯỚNG DAN
ThS Nguyễn Văn Kiệt
TP HÒ CHÍ MINH, 2022
Trang 3THÔNG TIN HỘI ĐÒNG CHÁM KHÓA LUẬN TÓT NGHIỆP
Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số TigầY của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
Trang 4LỜI CẢM ƠN
Em xin được gửi lời cảm ơn chân thành nhất đến ThS Nguyễn Văn Kiệt đã luôn
dong hành, hỗ trợ và quan tâm đến em ngay từ những ngày dau tiên lựa chọn
đề tài cho đến khi hoàn tat khóa luận tốt nghiệp này Thay cũng chính là người
đã truyền cảm hứng cho em trong suốt quá trình học tập tại trường Đại học
Công nghệ Thông tin, Đại học Quốc gia thành phá Hồ Chí Minh Qua những
sự hỗ trợ và giúp đỡ do, em đã có du nhiệt huyết và năng lượng dé có thể thực
hiện khóa luận tốt nghiệp này một cách chính chu và tốt nhất.
Em cũng xin gửi lời cảm ơn tới các anh, chị và bạn bè trong nhóm nghiên cứu
DS@UIT và NLP@UIT đã giúp đỡ, chia sẻ kinh nghiệm và góp ý cho đề tai để đạt được kết quả tot nhất.
Hơn hết, em muốn gửi lời cảm ơn sâu sắc nhất đến quý thây, cô tại trường Đại học Công nghệ Thông tin, Đại học Quốc gia thành phó Hồ Chí Minh nói chung
và quý thay, cô khoa Khoa học và Kỹ thuật Thông tin nói riêng đã dong hành cùng em trong suốt khoảng thời gian từ lúc em còn bỡ ngỡ bước vào giảng đường đại học Vốn kiến thức và kỹ năng sống mà em có ngày nay déu nhờ vào
sự truyền lửa của những người lái đò tận tâm nhất Cũng từ đó, em có được sự
tự tin nhất định trong suốt quá trình thực hiện khóa luận tot nghiép nay.
Sau cùng, em muon gửi lời cam ơn đên gia đình, người than, ban bè da luôn quan tâm, chia sẻ, động viên em cho đên khi em hoàn thành khóa luận tot
nghiệp này.
Một lan nữa, em xin chân thành cam ơn.
Tác giả
Vũ Nguyễn
Trang 5ĐẠI HOC QUOC GIA TP HO CHÍMINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN
ĐĂNG KÝ ĐÈ TÀI KHÓA LUẬN TÓT NGHIỆP
TÊN DE TÀI: NGHIÊN CỨU TẠO SINH TU ĐỘNG CÂU HOI TIENG VIET
TEN DE TÀI TIENG ANH: VIETNAMESE AUTOMATIC QUESTION
GENERATION
Ngôn ngữ thực hiện: Tiếng Việt
Cán bộ hướng dẫn: ThS Nguyễn Văn Kiệt
Thời gian thực hiện:Từ ngày 13/09/2021 đến ngày 01/01/2022
Sinh viên thực hiện:
Vũ Nguyễn - 18520323 Lớp: CNTT2018
Email: 18520323 @ gm.uit.edu.vn Điện thoại: 0328880304
Nội dung đề tài:
e Mục tiêu, phạm vi và đối tượng của đề tài:
Nghiên cứu, phân tích bộ dữ liệu UIT-ViQuAD và bộ dữ liệu UIT-ViNewsQA, hai bộ
dữ liệu phục vụ bài toán đọc hiểu tự động, cho bài toán tự động tạo câu hỏi trên văn bản
tiếng Việt
Nghiên cứu các mô hình, kỹ thuật có liên quan cho bài toán đọc hiểu văn bản tự động vàtạo văn bản tự động Từ đó, đề xuất các giải pháp cho bài toán như sau: (1) Xây dựng mô
Trang 6hình đọc hiểu tự động dựa trên các phương pháp học sâu như sequence-to-sequence, cácphương pháp học sâu hiện đại cho tiếng Việt như PhoBert, mT5 (2) Sử dụng kết hợp các
phương pháp xử lý ngôn ngữ hiện đại như Named-Entity Recognition (NER) cho việc
mở rộng bài toán, ứng dụng bài toán rộng rãi hơn (3) Nghiên cứu và thực nghiệm khả
năng đọc hiểu, trả lời các câu hỏi đã được tạo tự động từ các mô hình được xây dựng từ
các công trình nghiên cứu trước đây (4) Nghiên cứu và thực nghiệm các phương pháp
trên cấp độ câu và cấp độ đoạn, mở rộng bài toán đạt được kết quả và ứng dụng đa dạng
hơn.
Đánh giá hiệu suất đối với hai bộ đữ liệu của các giải pháp nêu trên, từ đó đưa ra kết
luận trong việc giúp máy đọc hiểu tự động văn bản, mở rộng bài toán xoay quanh việc
tạo tự động câu hỏi cho văn bản.
e Phương pháp thực hiện:
~~ _ /
Nghiên cửu, phân tích dữ -_ _
Bộ dữ liệu liệu, thiết ké thuật toán, xây Thực ng âu nhện ————>| Mô ninn tao câu hỏi tự đông anh giá kết quả
Hình 1: Quy trình nghiên cứu bài toán tạo câu hỏi trên văn bản và ứng dụng mở rộng
Hình | cho thấy quy trình nghiên cứu cho bài toán tạo câu hỏi tự động trên văn bản tiếng
Việt và các ứng dụng mở rộng Bài toán gồm các giai đoạn: (1) Nghiên cứu bộ dữ liệu và
các thuật toán liên quan (2) Nghiên cứu, xây dựng, thực nghiệm mô hình trên bộ dữ liệu
(3) Kết hợp các thuật toán hiện đại như Named-Entity Reconition và các mô hình cho bài
toán hỏi — đáp (Question Answering) đã được xây dựng trước đó, mở rộng các ứng dụng
của bài toán (4) Đánh giá kết quả bài toán và ứng dụng bài toán
Trang 71 Nghiên cứu bộ dữ liệu và các thuật toán liên quan
Quá trình nghiên cứu bộ dữ liệu và các thuật toán liên quan của chúng tôi gôm có
2 giai đoạn chính:
Giai đoạn 1: Nghiên cứu bộ dữ liệu
Dé phục vu cho bài toán này, chúng tôi sử dụng hai bộ dit liệu đọc hiểu văn bản
cho tiếng Việt đã được xây dựng từ trước là UIT-ViNewsQA (Nguyen et al,
2020) và UIT-ViQuAD (Nguyen et al., 2020) Bảng 1 dưới đây mô tả một ví dụ
về bộ đữ liệu UIT-ViNewsQA
Trước khi phau thuật hôm 10/10, bé đã được các bac sĩ tại
thiết, nội soi tai mũi họng phát hiện hai đường rò luân nhĩ.
Cau hỏi 1 Phat hién diéu gi khi nội soi tai mũi hong cua bệnh nhân ?
Câu trả lời 1 | Hai đường rò luân nhĩ.
Bảng 1: Ví dụ về dữ liệu của bộ dữ liệu UIT-ViNewsQA
Chúng tôi đi vào nghiên cứu, phân tích về các vấn đề thường được nhắc đến củatừng bộ dữ liệu, sau đó đề xuất các phương pháp và hướng đi phù hợp dé đạt hiệu
quả cao nhất
Giai đoạn 2: Nghiên cứu các thuật toán liên quan
Bộ dữ liệu đọc hiểu văn bản tiếng Việt phục vụ cho các bài toán liên quan đến
việc đọc hiểu dựa trên văn bản Dé máy tính có thé học và hiểu tốt về văn bản,
chúng tôi nghiên cứu các công trình trước đó, cả trong nước và quốc tế, phục vụcho bài toán đọc hiểu văn bản Ở giai đoạn này, chúng tôi nghiên cứu về các công
trình hỏi — đáp, tạo văn bản tự động, tạo câu hỏi tự động — chưa có bất kỳ công bố
Trang 8nào về bài toán tạo câu hỏi tự động cho tiêng Việt, xác định thực thê Giai đoạn
này phục vụ cho việc bước vào giai đoạn tiếp theo — nghiên cứu, xây dựng, thực
nghiệm mô hình trên bộ dữ liệu.
2 Nghiên cứu, xây dựng, thực nghiệm mô hình trên bộ dữ liệu
2.1 Bài toán:
Bài toán tạo câu hỏi tự động cho đọc hiểu văn bản tiếng Việt
Đầu vào: Đoạn văn và câu trả lời liên quan đến nội dung của đoạn văn
Đầu ra: Câu hỏi tương ứng với câu trả lời (dựa trên ngữ cảnh của câu / đoạn văn)
Đầu vào:
Doan văn: ?7zóc khi phâu thuật hôm 10/10, bé đã được các bác sĩ tại Trung tâm Y tê huyện Anh Sơn tiên hành các xét nghiệm cần thiết, nội soi tai mũi
họng phát hiện hai đường rò luân nhĩ.
Câu trả lời: Hai đường rò luận nhĩ
Đầu ra:
Câu trả lời: Phat hién điều gi khi nội soi tai mũi họng cua bệnh nhân?
2.2 Phương pháp giải quyết bài toán
Đối với bài toán tạo câu hỏi tự động cho văn bản, chúng tôi đề xuất các phươngpháp tiếp cận bài toán: xây dựng mô hình dựa trên cau trúc bộ mã hóa — giải mã
(Encoder — Decoder); xây dựng mô hình dựa trên công trình State-of-the-art cho
tiếng Việt - PhoBERT; xây dựng mô hình trên công trình đa ngôn ngữ cho các
bài toán xử lý ngôn ngữ tự nhiên hiện đại — mT5.
i) Dựa trên cấu trúc bộ mã hóa - giải mã (Encoder — Decoder)
Chúng tôi sử dụng cau trúc RNN encoder — decoder được xây dựng bởi (Cho
et al., 2014) Chúng tôi xây dung mô hình sequence-to-sequence cho tạo câu
Trang 9hỏi văn bản tiếng Việt Bộ mã hóa biểu diễn dau vào tuân tự, sử dụng kết hợpcác công trình biểu diễn từ được xây dựng trước đó như PhoW2V, FastText.Ngoài ra, chúng tôi còn sử dụng kết hợp Attention Mechanism, giúp cho máy
tập trung ngữ cảnh xoay quanh câu trả lời Hình 2 biểu diễn kiến trúc của mô
Hình 2: Kiến trúc mô hình sequence-to-sequence cho bài toán
ii) Mô hình hiện đại PhoBERT và mT5
Chúng tôi đề xuất xây dựng mô hình hiện đại, phù hợp với việc xử lý tiếng
Việt hơn như PhoBERT, mT5 — các mô hình hiện đại cho bài toán Fill-Mask.
Hình 3 bên dưới biểu diễn kiến trúc của mô hình BERT, với kiến trúc đảo tạotuần tự (tìm mask liên tục, tuần tự) Chúng tôi đề xuất phương pháp này vì
việc đảo tạo cho máy học tìm mask tuần tự giúp việc đặt câu hỏi được sát
nghĩa, và máy hiểu được ngữ cảnh của câu trả lời nhiều hơn Chúng tôi đề
Trang 10xuât việc tạo highlight cho câu trả lời trong văn bản làm đâu vào, giúp cho
việc huân luyện sẽ không bị lặp lại việc máy đọc câu trả lời nhiêu lân và dễ bị nhâm lẫn vị trí của câu trả lời đó trong văn bản Biểu diễn của đầu vào được
thay đổi so với các cách thức truyền thống như sau:
Input = [CLS] ci, ca, , [HL] a1, a2, a3, aa [HL] ci, cc [SEP]
Trong đó, [CLS], [HL] va [SEP] là các ky tự đặc biệt hỗ trợ việc xác định các
thực thể cho các công trình hiện đại [HL] là đoạn biểu diễn Highlight, câu trảlời sẽ được biểu diễn trong đoạn này, năm trong văn bản Điều này giúp tránh
được việc xác định sai vi trí của câu trả lời và việc máy phải đọc câu trả lời
nhiều lần, đạt được hiệu quả cao hơn Các ký tự c, a biểu diễn cho từ
“context” và “answer”.
L | Ie Jer | |
|etsl | tui fA) [eu] [€a| [sep] qwasg fous] © jmj [| uy €a |gerj [at| qmasl
BERT Architecture BERT Architecture
bai [es] IBHNMJ EB- si Ih) [ | EJ | JL] [et]
|
a Løi '¬ 'ô
LÍ M ets] [Cs] tH) A [HƯ [Col [ser] at) [ag [MASRI jets} ©sj |H (A) Hy (Ce) [ser] far] sa gi) [MASK]
L | a a |
BERT Architecture ¬ BERT Architecture
4| [hr hina has] [1 hại
4
[SEP]
———Ì
Hình 3: Kiến trúc mô hình PhoBERT-HLSOG
Đôi với mô hình mT5, chúng tôi sử dụng dau vào tương tự với mô hình
PhoBERT.
3 Kết hop các thuật toán hiện đại, mở rộng ứng dụng bài toán
Trong bài toán này, chúng tôi kết hợp việc sử dụng các thuật toán hiện đại như
NER, sử dụng các công trình đã được xây dựng trước đó cho bài toán hỏi — đáp.
Việc sử dụng kết hợp NER giúp cho con người không cần tự đưa ra câu trả lời
làm đầu vào nữa, máy sẽ tự xác định thực thé va đặt câu hỏi dựa trên thực thé va
Trang 11ngữ cảnh của thực thê đó Ngoài ra, việc sử dụng các công trình hỏi — đáp trước
đó giúp cho phân tích liệu máy có thê trả lời các câu hỏi do chính nó đặt ra hay
không.
Việc tự động hoàn toàn này có thê giúp cho người đọc tóm tắt được văn bản dựa trên các cặp câu hỏi, câu trả lời, xác định được các yêu tô chính của văn bản một cách dễ dàng hơn.
4 Đánh giá kết quảThông số đánh giá: Trong bài toán này, chúng tôi sử dụng thông số đánh giá
BiLingual Evaluation Understudy (BLEU) BLEU thường được sử dụng trong các
bài toán dịch máy như một độ đo hay một hệ số khi so sánh một bản dịch với các
bản dịch tham khảm BLEU sử dụng phương pháp đếm số matching n-grams củacandidate và reference Kết quả sẽ là số match chia cho số từ của candidate Với
bài toán này, chúng tôi sử dụng độ đo chính thức là BLEU 4-grams.
e Kết quả mong đợi của đề tài
Nghiên cứu, xây dựng thành công mô hình học sâu và các mô hình hiện đại cho bài toán
tạo câu hỏi cho đọc hiểu văn ban tiếng Việt.
Dat được hiệu quả cao trên độ do đánh giá.
Mo rộng các ứng dụng bài toán thành công, giúp cho bài toán được ứng dụng rộng rãi.
Kế hoạch thực hiện:
Tìm thuật toán và
Trang 12Nghiên cứu phương
pháp thực nghiệm
và triên khai
mô hình và cải thiện
Xác nhận của CBHD
(Ký tên và ghi rõ họ tên)
Nguyễn Văn Kiệt
TP HCM, ngày 11 thang 09 năm 2021
Sinh viên (Ký tên và ghi rõ họ tên)
Vũ Nguyễn
Trang 13MỤC LỤC
TÓM TAT KHÓA LUẬN - ¿+ ©2+E9SEEEEEEEEEEEEEE21E21212121121112111 211.1 re 1
MỞ DAU oocecccssccsssessssssessssecsssecsssucsssusscsussssussessssecsssvcsssucsesussesussesissesissessssesseseeseeeees 3Chương 1 TONG QUAN - 5-5: SE SE 3 E5 1E111E11212151111111 111111111111 te 9
1.1 Giới thiệu đề tài - c5 St 2k2 112121221212121112111211 01111 111 rre 9
1.2 Thách thức của đề tài ¿55s 2+2 2E 2E2EE2122121121121 2122121121 re 91.3 Tính ứng dụng của đề tài +52 StESSE E2 2152121212171 cxe 101.4 Kết luận :2:2222E 2E 2E 121121121221211011211211211 111.12 I1Chương 2 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN - 12
2.1 Tình hình nghiên cứu trên thé giới - 2 2 + £E£+E+EeE£EzEererereses 12
2.2 Tình hình nghiên cứu trong TƯỚC - << + E11 EE + EEE+seeEeseeeresee 13
Chương 3 BỘ DU LIEU VA CÁC PHƯƠNG PHÁP THU NGHIỆM 14
3.1 Bộ dữ liệu đi Fp “xe1É8 Ỉ 2 14
3.1.1 _ Bộ dif liệu UIT-ViNewsQA -5c 522cc crcrtererrrrrrrree 14 3.1.2 Bộ dif liệu UIT-ViQuAD 2¿ +22 2EEEerkerkererrerrrei 15
3.2 Các phương pháp thử nghiệm - - -.- 5 c5 323221 33+32EE+EEEEsreerereeererre 16
3.2.1 Mô hình học sâu Sequence-to-Sequence - «sex 16
3.2.2 Mô hình học chuyền tiếp mT5 - 2 52+ s+2++£+£++xezxerrxereee 203.2.3 Mô hình học chuyền tiếp PhoBERTT -:-2- 5 +25++sz>s2 22
3.3 Nghiên cứu thử nghiỆm - <1 TH ng ng ng rệt 26
3.3.1 _ Tiền xử lý dữ liệu ¿©5.Sccck2ESE2EEEEEkerkererrerrrei 263.3.2 _ Thông số cài đặt các mô hình - - ++£+++£e£++Ezrx+rezxerses 27
3.3.3 Phương pháp hoc tăng CƯỜng cty 28
B.A, Kết luận c St Sn ThS S111 111511111111111111111111111111111111111111 1111 1E 31
Trang 14Chương 4 SO SÁNH CÁC PHƯƠNG PHAP THU NGHIỆM 32
4.1 Thông số đánh giá ¿2 SE EEEEEE212151112111111111 11111 te 324.2 Kết quả thử nghiệm - +: 2+ SE+E£SE‡EEEEEEEEEEEEEEEEEEEEEEEEEEEEErkrrrrkrree 32
4.2.1 Hiệu suất các bộ biểu diễn từ ¿+ 2 ++s+E+E£EeEzEerszrersrei 334.2.2 Kết quả thử nghiệm -¿-2¿©+5++2+2E+2E2E£EtEEerxerxzrrrrrrei 33
4.3 Khả năng tao sinh câu hỏi của các phương pháp thử nghiệm 38 4.4 Mở rộng ứng dụng bài t0an eee cece ceeeceesesneeceeeesnceeceeeeneeeeeeetsaeeceeeeeaaes 40
AS Kết luận 2.5 2t 222221 212122121121 2121112112112111 11.1 4IChương 5 KÉT LUẬN VA HUONG PHÁT TRIỀN 2-5- =2 s+s+£ec+2 43
5.1 Kết luận s§Z7 œzxf 435.2 Hạn chế ế <ZZZ ‹ấế À occoSHẴ< Là 111 2xc.ce 445.3 Hướng phát triỂn -: +©2++S++2£+E22E£EEEEEEEEEEEEEEEEEEkerkererrerrree 44TÀI LIEU THAM KHẢO :S St E12 121 2851531311 E515E5E51112151111111E2EEE1E 1e cxer 46
Trang 15DANH MỤC HÌNH
Hình 3.1: Kiến trúc mô hình sequence-to-sequence - +2 + scz+s+szcz+sz¿ 17Hình 3.2: Kiến trúc RNN Encoder — Decoder -. ¿- s+s5++x+z++x+zxzxczxzsez 19Hình 3.3: Kiến trúc Attention Mechanism -cs+c++cccxrerktrrrrkrrrrrrrrrrree 20
Hình 3.4: Các nhiệm vụ chính của mô hình T5 << << << ++++++sss 21
Hình 3.5: Một số cách tiếp cận huấn luyện mô hình - ¿2 + 2 2+s+£+£z+s+2 21
Hình 3.6: Bộ mã hóa — giải mã theo kiến trúc BERIT - =2 s+s+s+=z+s+2 23
Hình 3.7: Số lượng lớp mã hóa của BERTpase và BERTiarge (tương tự với PhoBERT)
¬ 24
Hình 3.8: Kiến trúc mô hình PhoBERT kết hợp với học tăng cường - 29
Hình 4.1: Quy trình nghiên cứu bài toán tao câu hỏi tiếng Việt và ứng dụng mở rộng
Trang 16Bảng 3.1:
Bảng 3.2:
Bảng 3.3:
Bảng 3.4:
Bảng 3.5:
Bang 4.1:
Bang 4.2:
Bang 4.3:
Bang 4.4:
Bang 4.5:
Bang 4.6:
Bang 4.7:
DANH MUC BANG
Số liệu thống kê của bộ dữ liệu UIT-ViNewsQA và UIT-ViQuAD 14
Ví dụ về bộ dữ liệu UIT-VINewsQA TS sssn se 15 Ví dụ về bộ dữ liệu UTT-ViQuADD 5- 2 225z2x+zxezxzzzzzxezxez 16 Vi du quá trình tạo sinh câu hỏi của mô hình PhoBERTT 25
Thông số cài đặt cho các phương pháp thử nghiệm 27
Kết quả mô hình seq2seq trên 02 bộ biều diễn từ - -5¿ 33 Các kết quả đánh giá trên bộ dữ liệu UIT-ViNewsQA cấp độ câu 34
Các kết quả đánh giá trên bộ dữ liệu UIT-ViQuAD cấp độ câu 35
Các kết quả đánh giá trên bộ dữ liệu UIT-ViNewsQA cấp độ đoạn 36
Các kết quả đánh giá trên bộ dữ liệu UIT-ViQuAD cấp độ đoạn 37
Dự đoán loại câu hỏi trên bộ dữ liệu UIT-ViNewsQA (đơn vi: %) 39
Dự đoán loại câu hỏi trên bộ dữ liệu UIT-ViQuAD (đơn vi: %) 39
Trang 17DANH MỤC TU VIET TAT
STT | Tw viét tat Y nghia
1 NLG Natural Language Generation
2 LSTM Long Short-Term Memory
3 Seq2seq Sequence-to-Sequence
4 mT5 Multilingual pre-trained text-to-text transformer
5 BERT Bidirectional Encoder Representations from
Transformer
6 RL Reinforcement Learning
7 BLEU Biilingual Evaluation Understudy
8 NER Named-Entity Recognition
9 API Application Programming Interface
Trang 18TÓM TẮT KHÓA LUẬN
Với sự phát triển mạnh mẽ của Trí tuệ nhân tạo, các công nghệ mà máy tính đem lại
đã được ứng dụng hau hết ở moi lĩnh vực, ngành nghề trong cuộc sống Ở tat cả cáclĩnh vực, việc trích xuất thông tin luôn là điều thiết yếu Việc tiếp nhận thông tin giúpcho con người hiểu rõ hơn về một vấn đề, và phần lớn sẽ chọn cách tiếp nhận thôngtin thông qua mô hình hỏi — đáp Việc hỏi — đáp giúp con người tóm tắt được cácthông tin chính của một van dé, từ đó có một cái nhìn tổng quan hơn về thông tinđược đưa ra Nhận thấy giá trị to lớn mà con người có thể có được từ quá trình hỏi —đáp, nhiều nhà khoa học đã đi đến nghiên cứu các công trình phục vụ hỏi — đáp dựatrên văn bản Cac công trình hỏi — đáp còn được vận dụng vào nhiều lĩnh vực khácnhau trong cuộc sống hiện đại, tiêu biểu nhất có thé thay là “Trợ lý ảo thông minh”
như Siri của Apple, Cortana của Microsoft, Google Assistant cua Google.
Theo như chúng tôi tim hiểu, việc nghiên cứu, xây dựng các mô hình hỏi — đáp đã trởnên phổ biến và luôn là một đề tài được lưu tâm vào những năm gần đây Tuy nhiên,
sự phát triển của bài toán này trên ngôn ngữ tiếng Việt chưa thực sự nhiều vì nguồntài nguyên trên tiếng Việt còn ít Đặc biệt là đối với bài toán “Tạo tự động câu hỏitiếng Việt” Theo hiểu biết của chúng tôi, hiện nay chưa có bất kỳ công bố nảo liên
quan đến bài toán này Việc tạo tự động câu hỏi dựa trên văn bản sẽ giúp người đọcchọn lọc được đúng các thông tin có liên quan, tóm tắt được các thông tin được nhắc
đến trong văn bản một cách khách quan hơn Hơn nữa, con người có thói quen đặtcâu hỏi cho các van đề mà họ chưa biết và muốn tiếp nhận Việc tiếp nhận thông tin
qua quá trình hỏi — đáp giúp con người có cái nhìn chỉ tiết hơn về van đề đó Nhận
thấy được giá trị của việc đó, chúng tôi dé xuất các mô hình phục vu bai toán “Tao tựđộng câu hỏi tiếng Việt” với mục đích giúp quá trình hỏi - đáp được diễn ra tự động,phục vụ nhiều nhu cầu tiếp nhận thông tin của con người
Trong bài toán này, chúng tôi tiến hành đánh giá các phương pháp học sâu, từ các môhình phục vụ bài toán dịch máy cho đến các mô hình hiện đại hơn là mô hình thuộcphương pháp học chuyền tiếp Chúng tôi xây dựng mô hình học sâu sequence-to-
Trang 19sequence [1] tương tự như các bai toán dịch may, hay đặc biệt hơn là những mô hình
học chuyền tiếp được công bồ trong thời gian gần đây như mô hình đa ngôn ngữ mT5[2], và mô hình được đánh giá là State-of-the-art cho các bài toán ngôn ngữ tiếng Việt
là PhoBERT [3] Thông qua các thử nghiệm với những phương pháp trên, chúng tôi
đạt được thu được kết quả cao nhất trên độ đo đánh giá BLEU [4], sử dụng BLEU-4
là độ đo chính với mô hình PhoBERT cho nhiệm vụ tạo câu hỏi dựa trên cấp độ câulần lượt là 19.32% trên bộ dữ liệu UIT-ViNewsQA [5]và 20.21% trên bộ dit liệu UIT-
ViQuAD [6].
Ngoài ra, sau khi tiễn hành đánh giá các phương pháp trên, chúng tôi đề xuất việc sử
dụng kết hợp học tăng cường (Reinforcement Learning) [7] cho bài toán Việc kết
hợp học tăng cường giúp cho hiệu quả đặt câu hỏi của máy đạt giá trị cao hơn so với
các thử nghiệm trước Việc kết hợp phương pháp học tăng cường giúp cho máy họcđược sâu hơn về các ngữ cảnh của câu xung quanh câu trả lời được đưa vào Chúng
tôi đạt được kết quả cao hơn cho tất cả các phương pháp có kết hợp học tăng cường,
cao nhất là mô hình PhoBERT kết hợp học tăng cường, đạt được lần lượt là 19.77%
trên bộ dữ liệu UIT-ViNewsQA (cao hon 0.45% so với thử nghiệm trước đó) va
20.43% trên bộ dữ liệu UIT-ViQuAD (cao hon 0.22 so với thử nghiệm trước đó).
Tiếp theo đó, chúng tôi mở rộng ứng dụng bài toán với việc kết hợp các nghiên cứu,ứng dụng trước đó Chúng tôi sử dụng kết hợp các thuật toán hiện đại như Named-Entity Recognition nhằm tự tách những nội dung trong văn bản có thể được sử dụng
cho việc đặt câu hỏi Tiếp theo đó, chúng tôi kết hợp các mô hình đã được xây dựng
trước đó cho bài toán hỏi — đáp trên tiếng Việt dé đánh giá khả năng tự động trả lời
những câu hỏi đã được tạo ra từ nghiên cứu của chúng tôi.
Trang 20MỞ ĐÀU
Đặt vấn đề
Trong bối cảnh nền công nghiệp 4.0 phát triển mạnh mẽ, việc ứng dụng Trí tuệ nhân
tạo đã và đang có mặt tại hầu hết các lĩnh vực kinh tế và đời sống Một trong những
nhiệm vụ đã và đang được cộng đồng Xử lý ngôn ngữ tự nhiên quan tâm đến trong
những năm gần đây là các bài toán hỏi — đáp Việc nghiên cứu, phát triển bài toán hỏi
— đáp có vai trò, ý nghĩa rat lớn trong cuộc sống hàng ngày của con người Khi hỏi —đáp được áp dụng trên các văn bản, việc hỏi — đáp còn giúp cho người đọc tóm tatđược thông tin, trích xuất được các thông tin chính của văn bản mà không cần phảiđọc quá kỹ về các thông tin bên lề xuất hiện trong văn bản Hiểu được ý nghĩa to lớn
đó, nhiều công trình nghiên cứu việc tự động hỏi — đáp dựa trên văn bản cho máy tính
đã được cộng đồng công bố
Trong những năm qua, nhiều công trình nghiên cứu cho bài toán hỏi — đáp đã được
công bó trên nhiều ngôn ngữ khác nhau, từ những ngôn ngữ nhiều tài nguyên như
tiếng Anh đến ngôn ngữ kém tài nguyên hơn như tiếng Việt Hỏi — đáp luôn mangnhiều ý nghĩa quan trọng, nhưng con người thường quan tâm đến quá trình đáp nhiều
hơn so với việc hỏi Con người có thói quen hỏi về một vấn đề họ quan tâm đến, điều
đó giúp họ tập trung hơn vào một vấn đề cụ thể từ việc đáp Ngoài ra, việc hỏi còngiúp con người hình dung rõ hơn về một van đề Khi chưa đọc và tiếp nhận một thôngtin mới, việc nhìn vào những câu hỏi được đặt ra xoay quanh vấn đề giúp con người
tóm tắt được vấn đề đang được nhắc đến là gì, bối cảnh của thông tin họ đang muốn
tiếp nhận ra sao Hiểu được ý nghĩa của việc này, chúng tôi quyết định đi đến nghiên
cứu và xây dựng một bài toán “Tạo sinh tự động câu hỏi tiêng Việt”.
Bài toán “Tạo sinh tự động câu hỏi tiếng Việt” thuộc về lĩnh vực Tao sinh ngôn ngữ
tu nhiên (Natural Language Generation — NLG), một lĩnh vực rất được cộng đồngNLG quan tâm trong những năm gần đây Đã có nhiều công trình nghiên cứu liên
quan đến bài toán của chúng tôi được công bồ trên thế giới, tuy nhiên theo sự tìm
hiéu của chúng tôi, các nghiên cứu liên quan trên ngôn ngữ kém tài nguyên như tiêng
Trang 21Việt chưa nhận được nhiêu sự quan tâm và có bât kỳ công bô nào cho bài toán này.
Vi vậy, chúng tôi tiên phong thực hiện nghiên cứu bài toán “Tao sinh tự động câu hỏi
tiêng Việt”, với mục dich mang lại nhiêu tính ứng dụng hơn va phục vụ nhiêu nhu câu trong cuộc sông hiện đại.
Bài toán “Tạo sinh tự động câu hỏi tiêng Việt” được tông quát như sau:
e Đầu vào: Một đoạn văn ban đi kèm với một câu trả lời liên quan đên nội dung
của đoạn văn bản.
e Đâu ra: Câu hỏi tương ứng với câu trả lời (dựa trên ngữ cảnh của câu / đoạn
văn).
Bên dưới là mau dữ liệu được trích từ bộ dữ liệu UIT-ViNewsQA [5] đã được xây dựng trước đó:
Đoạn văn: Trước khi phẫu thuật hôm 10/10, bé đã
được các bác sĩ tại Trung tâm Y tế huyệnAnh Sơn tiến hành các xét nghiệm cầnthiết, nội soi tai mũi họng phát hiện hai
đường rò luân nhĩ.
Câu hỏi: Phát hiện điều gì khi nội soi tai mũi họng
của bệnh nhân?
Câu trả lời: Hai đường rò luân nhĩ.
Mục tiêu khóa luận
Mục tiêu của khóa luận tôt nghiệp là nghiên cứu về bài toán tạo sinh tự động câu hỏi tiêng Việt Tông quan gôm các mục tiêu chính sau đây:
e Dau tiên, chúng tôi nghiên cứu, tiên hành thử nghiệm và đánh giá hiệu quả của
các mô hình học sâu Sequence-to-Sequence [1] va mô hình học chuyển tiếp
Trang 22như PhoBERT [3], mT5 [2] trên bộ dữ liệu đã được xây dung từ trước: ViNewsQA [5] và UIT-ViQuAD [6].
UIT-Thứ hai, chúng tôi tién hành thử nghiệm kết hợp, đánh giá các mô hình đã
được xây dựng với phương pháp học tăng cường.
Cuối cùng, chúng tôi xây dựng, mở rộng ứng dụng của bài toán khi kết hợp
với các bài toán hiện đại đã được xây dựng trước đó như Named-Entity
Recognition, giúp máy tự xác định thành phần trong văn bản và đặt câu hỏidựa trên thành phan đã được xác định và ngữ cảnh của thành phan đó
Đôi tượng và phạm vỉ nghiên cứu
> Đối tượng:
Bài toán tạo sinh tự động câu hỏi tiêng Việt dựa trên văn bản và câu trả lời, sử dụng
bộ dữ liệu đã được xây dựng từ trước.
> Pham vi:
Pham vi nghiên cứu của đề tài tập trung chủ yếu vào việc giúp máy hoc khả năng tao
sinh tự động câu hỏi cho văn bản tiêng Việt, được dựa trên hai bộ dữ liệu vê văn bản
được xây dựng từ nghiên cứu trước đó trên tiếng Việt là ViNewsQA và
UIT-ViQuAD Dé tài của chúng tôi tập trung chủ yêu vào các van đề sau:
Nghiên cứu, thực nghiệm và đánh giá các phương pháp học sâu
Sequence-to-Sequence và phương pháp học chuyên tiếp mT5, PhoBERT
Nghiên cứu, thực nghiệm và đánh giá việc kết hợp các phương pháp đã xâydựng từ nhiệm vụ trên với phương pháp học tăng cường Liệu việc kết hợp với
phương pháp học tăng cường có giúp cải thiện được hiệu quả của các phương pháp trên độ đo đánh giá hay không?
Kết hợp ứng dụng bài toán của chúng tôi với bài toán phổ biến trước đó làNamed-Entity Reconnition Việc kết hợp ứng dụng này giúp chúng tôi trả lời
câu hỏi “Liệu mô hình của chúng tôi có khả năng đặt câu hỏi dựa trên thành
phần câu do chính máy tính xác định hay không?”
Trang 23> Kết quả nghiên cứu
Sau khi hoàn thành, nghiên cứu của chúng tôi đạt được các kết quả sau:
e Ching tôi tién hanh những nghiên cứu thử nghiệm ban đầu và đạt được kết
quả cao nhất trên mô hình PhoBERT trên độ đo đánh giá BLEU [4], sử dụngBLEU-4 là độ đo đánh giá chính, lần lượt là 19.32% trên bộ di liệu UIT-
ViNewsQA và 20.21% trên bộ dữ liệu UTT-VIQuAD Ngoài ra, chúng tôi còn thử nghiệm trên mô hình học sâu Sequence-to-Sequence và mô hình học
chuyên tiếp đa ngôn ngữ mT5 Việc thử nghiệm nhiều mô hình khác nhau giúp
chúng tôi có cái nhìn và đánh giá khách quan về hiệu suất của các mô hìnhtrên bài toán tạo sinh tự động câu hỏi trên bộ dữ liệu sẵn có Những kết quả
này cũng chính là tiền dé dé các nghiên cứu trong tương lai sử dụng dé so sánhhiệu suất của các mô hình trên nhiệm vụ tương đương
e Chúng tôi thử nghiệm thành công việc kết hợp các mô hình đã được xây dựng
với phương pháp học tăng cường Việc kết hợp học tăng cường giúp tăng hiệusuất của các phương pháp đã được xây dựng, đạt hiệu suất cao nhất khi kếthợp với mô hình PhoBERT trên độ đo đánh giá BLEU, lần lượt là 19.77% trên
bộ dữ liệu UIT-VINewsQA (cao hơn 0.45% so với thử nghiệm trước đó), và 20.43% trên bộ dữ liệu UIT-ViQuAD (cao hơn 0.22% so với thử nghiệm trước
đó) Tuy rang hiệu suất khi kết hợp có cao hơn nhưng không quá vượt trội.Việc kết hợp thành công các phương pháp vẫn sẽ là một tiền đề cho những
nghiên cứu về sau
e Ứng dụng thành công API BERT-VN-NER ! - nghiên cứu bài toán
Named-Entity Recognition sử dụng BERT trên tiếng Việt được xây dựng trước đó.Việc ứng dụng thành công API cho đầu vào của bài toán giúp cho máy tự xácđịnh thành phần sẽ được dùng dé đặt câu hỏi dựa trên ngữ cảnh mà văn bản
mang đên, và mô hình đạt hiệu suât cao nhât của chúng tôi đã đặt được câu
1 https://github.com/dat821168/bert_vn_ner
Trang 24hỏi mà không cần đưa câu trả lời liên quan đến văn bản làm đầu vào Tuynhiên, ứng dụng chưa đạt được hiệu suất mà chúng tôi mong muốn.
e Viết và gửi 01 bài báo khoa học đến hội nghị uy tín trên thế giới - ACIIDS
2022 va đang trong quá trình xét duyệt Ngoài ra, bai toán đã được thông qua
cho đề tài nghiên cứu khoa học sinh viên 2021 do trường Đại học Công nghệ
Thông tin, Đại học Quốc gia thành phó Hồ Chí Minh tô chức
Cấu trúc khóa luận
Khóa luận gồm 5 chương với các các nội dung chính sau:
> Chương 1: Tổng quan
Trong chương này, chúng tôi sẽ trình bày tổng quan về bài toán “Tạo sinh tự độngcâu hỏi tiếng Việt” trên hai bộ dữ liệu hỏi — đáp về văn bản đã được xây dựng trước
đó.
> Chương 2: Các công trình nghiên cứu liên quan
Chúng tôi giới thiệu các công trình nghiên cứu trên thế giới và trong nước có liênquan đến bài toán tạo sinh tự động câu hỏi tiếng Việt trong chương 2 bao gồm các bộ
dữ liệu được sử dụng và các phương pháp thực nghiệm bài toán tạo sinh tự động câu
hỏi.
> Chương 3: Bộ dữ liệu và các phương pháp thử nghiệm
Trong chương 3, chúng tôi trình bày về bộ dữ liệu được sử dụng, phục vụ cho nghiêncứu tạo sinh tự động câu hỏi và khách quan về các phương pháp thử nghiệm, bao gồm
phương pháp học sâu và phương pháp học chuyền tiếp Ngoài ra, chúng tôi trình bày
về việc xây dựng phương pháp học tăng cường, được sử dụng trong việc kết hợp với
các phương pháp thử nghiệm đã xây dựng trước đó.
> Chương 4: So sánh các phương pháp thử nghiệm
Trong chương này, chúng tôi đi đến so sánh, đánh giá các phương pháp thử nghiệmtrên độ đo đánh giá nhất định Chúng tôi đi đến phân tích nguyên nhân dẫn đến các
Trang 25kết quả, sai số Ngoài ra, chúng tôi đi đến phân tích khả năng tạo câu hỏi của các
phương pháp thử nghiệm.
Chương 5: Kết luận va hướng phát triển
Trong chương cuối, chúng tôi trình bày các kết quả đã thực hiện và đạt được trong
khóa luận tốt nghiệp này, các mặt hạn chế cũng như là các hướng phát triển và mở
rộng đề tài trong tương lai
Trang 26Chương 1 TONG QUAN
1.1 Giới thiệu đề tài
Tao sinh văn ban (Text Generation) là một bài toán được cộng đồng Trí tuệ nhân tạo
nói chung và cộng đồng Xử lý ngôn ngữ tự nhiên nói riêng quan tâm đến trong nhữngnăm gần đây Một số bài toán điển hình trong lĩnh vực tạo sinh văn bản có thé kế đến
bài toán tạo sinh tiếp nối văn bản từ văn bản cho trước, hay đối với bài toán được
chúng tôi đi đến nghiên cứu trong khóa luận này là bài toán tạo sinh tự động câu hỏi
cho văn bản Việc tạo sinh tự động câu hỏi văn bản có tính ứng dụng cao, đặc biệt là
đối với các bài toán hỏi — đáp đã và đang ngày càng phát triển rộng rãi ở nhiều lĩnh
vuc.
Câu hỏi luôn là một tiền dé cho các bài toán hỏi — đáp Các câu hỏi luôn mang ngữcảnh của một vấn đề, mà việc đáp lại câu hỏi là việc cung cấp thông tin chính xác về
một vấn đề dựa trên ngữ cảnh mà câu hỏi đã đặt ra Ngoài ra, rất nhiều các thông tin
hữu ích của một vấn đề thường năm trong các câu hỏi Đôi khi việc đọc vào các câuhỏi xoay quanh vấn đề đó đã giúp ta tóm tắt, trích xuất được các thông tin cần thiết
mà không cần phải đọc và tìm hiéu thông tin được đưa ra Các câu hỏi và việc trả lời
trực tiếp các câu hỏi xoay quanh vấn đề cũng giúp ta tập trung vào vấn đề mà không
bị ảnh hưởng nhiều bởi những yêu tố bên lề được nhắc đến trong văn ban đó
Trong khóa luận này, chúng tôi đi đến nghiên cứu, xây dựng, thử nghiệm và đánh giá
khả năng của máy trong việc học cách tạo sinh tự động câu hỏi trên tiếng Việt
1.2 Thách thức của đề tài
Một trong những thách thức lớn nhất của đề tài xuất phát từ việc tiếng Việt là mộtngôn ngữ khó xử lý, có nguồn tài nguyên thấp Trên tiếng Việt, chưa có quá nhiềunghiên cứu và các bộ dữ liệu liên quan đến bài toán tạo sinh tự động, khiến cho cácphương pháp nghiên cứu bị hạn chế
Thách thức tiếp theo là việc chưa có bat kỳ công bé nao liên quan đến bài toán tạo
sinh tự động câu hỏi trên tiêng Việt Điêu này khiên cho các nguôn tham khảo của
Trang 27chúng tôi bị hạn chế Đón nhận thách thức này, chúng tôi tiên phong trong nghiêncứu bài toán tạo sinh tự động trên tiếng Việt.
Không giống với tiếng Anh, tiếng Việt có những cấu trúc câu, từ phức tạp hơn, ảnhhưởng nhiều đến ngữ nghĩa, cũng như các ngữ cảnh câu mà nghiên cứu của chúng tôihướng đến Khó khăn này khiến việc áp dụng các nghiên cứu đã có trên tiếng Anh
vào bài toán của chúng tôi yêu cầu phải có một lượng kiến thức và nên tảng nhất định
trên tiếng Việt trong quá trình xử lý dé có thé phù hợp với bộ dit liệu đã được xâydựng từ trước đó Việc giúp máy học và hiểu được tiếng Việt qua quá trình xử lý vàhuấn luyện cũng sẽ giúp cho hiệu suất của mô hình được cải thiện hơn, tạo sinh câu
hỏi mang ý nghĩa và ngữ cảnh phù hợp hơn.
1.3 Tính ứng dụng của đề tài
Trước tiên, việc nghiên cứu tạo sinh tự động câu hỏi — một bài toán chưa được công
bố trên tiếng Việt, chúng tôi hy vọng sẽ giúp tính ứng dụng của việc tạo câu hỏi trở
nên rộng rãi hơn Con người có xu hướng đặt câu hỏi cho các thông tin mới mà họ
muốn tiếp nhận Con người luôn tò mò với những thông tin mới, họ hỏi về các thông
tin đó với mong muốn nhận được câu trả lời Các thông tin đến từ việc trả lời câu hỏigiúp người đọc tập trung hơn vào vấn đề được nhắc đến trong câu hỏi Câu hỏi giúpcon người tập trung vào thông tin hơn, không bị nhiễu bởi những thông tin bên lề đến
từ văn bản Ngoài ra, việc đặt câu hỏi còn giúp con người tóm tắt được thông tin đến
từ văn bản qua những ngữ cảnh mà câu hỏi đưa ra Và việc giúp máy học cách tự
động tạo sinh câu hỏi sẽ giúp ích cho con người trên nhiều khía cạnh, khi con người
có xu hướng tiếp cận các thông tin qua việc hỏi — đáp nhiều hơn Ví dụ, khi có một
đoạn thông tin mới, thay vì đọc toàn bộ văn bản để biết được văn bản nói về thông
tin gì, việc tự động hỏi — đáp giúp con người trích xuất được các thông tin chính trongvăn bản mà không cần phải đọc toàn bộ các thông tin bên lề xuất hiện trong văn bản.Các bài toán đọc — hiểu văn ban đã được phát triển dé đáp ứng cho việc đáp, tuy nhiên
chưa có nhiêu bài toán đáp ứng việc tự động hỏi trên văn bản Chính vì vậy, chúng
10
Trang 28tôi chọn đê tài tạo sinh tự động câu hỏi tiêng Việt với mong muôn phát triên toàn
diện, tự động bài toán hỏi — đáp.
Bên cạnh đó, việc tiên phong trong nghiên cứu bài toán tạo sinh tự động câu hỏi tiêng Việt sẽ thúc đây các nghiên cứu về bài toán này, cũng sẽ là cơ sở cho các công trình nghiên cứu về sau.
Cuối cùng, việc mở rộng nghiên cứu về khả năng tự động tạo sinh cho máy tính cũng
sẽ thúc day quá trình nghiên cứu các hệ thống ứng dung mô hình hỏi — đáp trên tiếngViệt Chúng tôi mong muốn bài toán sẽ được ứng dụng trong các mô hình Chatbot,Trợ lý ảo cho tiếng Việt trong tương lai
Việt nói riêng.
11
Trang 29Chương 2 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
2.1 Tình hình nghiên cứu trên thế giới
Trong những năm gần đây, bài toán tạo sinh văn bản nói chung và bài toán tạo sinh
tự động câu hỏi nói riêng đã và đang là bài toán nhận được sự quan tâm đến từ cộngđồng Xử lý ngôn ngữ tự nhiên trên toàn thế giới Nhiều công trình nghiên cứu đã
được công bố và nhận được nhiều sự quan tâm Phan lớn các công trình nghiên cứu
được thực hiện trên bộ dữ liệu SQUAD [8] — bộ dữ liệu với hơn 100,000 cặp câu hỏi
— câu trả lời trên tiếng Anh
Phần lớn các công trình liên quan được xây dựng trên mô hình sequence-to-sequence
với cấp độ câu Trong đó có thé kể đến công trình nghiên cứu của Duan và cộng sự
vào năm 2017 [9], đạt được kết quả cao nhất với 12.28%; công trình nghiên cứu của
Du và cộng sự vào năm 2017 đạt 17.63% [10]; công trình nghiên cứu của Kim và
cộng sự, cải tiến dựa trên các công trình đi trước sử dụng phương pháp tách biệt câu
trả lời, đạt được 16.20% [11] Các công trình nghiên cứu trên đều được thử nghiệm,
đánh giá trên bộ dữ liệu SQuAD, sử dụng độ đo đánh giá BLEU, với BLEU-4 là độ
đo chính.
Với sự phát triển của các phương pháp học chuyền tiếp (Transformer), nhiều côngtrình nghiên cứu đã ứng dụng và cải thiện được về mặt kết quả Trong đó, có thể kéđến công trình nghiên cứu của Chan và Fan vào năm 2019 [12], công trình nghiêncứu trên mô hình BERT [13], mô hình học chuyền tiếp đang dần là xu hướng tronglĩnh vực xử lý ngôn ngữ tự nhiên trong thời gian gần đây, đạt được 21.20% cho nghiêncứu cấp độ câu, và đạt được 22.17% cho nghiên cứu trên cấp độ đoạn văn Nghiên
cứu được thực hiện trên bộ dữ liệu SQUAD và sử dụng độ đo đánh giá BLEU-4 Bên cạnh đó, công trình nghiên cứu của Lopez và cộng sự vao năm 2020 [14], xây dung
mô hình end-to-end dựa trên học chuyền tiếp
Bên cạnh đó, cũng có những nghiên cứu sử dụng kết hợp hiệu quả phương pháp học
tăng cường với các mô hình, đạt được hiệu quả nhất định và đã được công bố N ghiên
cứu cua Wang Liuyin và cộng sự vào năm 2020 [15] đạt được 17.54% trên độ đo
12
Trang 30BLEU-4, đánh giá trên bộ dữ liệu HotpotQA [16] Bên cạnh đó, công trình của Chen
Yu và cộng sự công bố vào năm 2019 [17] đạt được kết quả cao nhất với 18.30% trên
độ đo BLEU-4, đánh giá trên bộ dữ liệu SQuAD.
2.2 Tình hình nghiên cứu trong nước
Theo sự tìm hiểu của chúng tôi, hiện nay chưa có bat kỳ công bố nào về dé tài taosinh tự động câu hỏi trên tiếng Việt Chính vì vậy, chúng tôi quyết định tiên phong
trong nghiên cứu bài toán tạo sinh tự động câu hỏi tiếng Việt trên hai bộ dữ liệu đọc
hiểu văn bản: UIT-ViNewsQA và UIT-ViQuAD
13
Trang 31Chương 3 BỘ DU LIEU VÀ CÁC PHƯƠNG PHAP THU NGHIỆM
3.1 Bộ dữ liệu
Trong khóa luận này, chúng tôi sử dung hai bộ dữ liệu vê đọc hiéu văn bản cho ngôn
ngữ có nguồn tài nguyên nhỏ là tiếng Việt, đã được xây dựng trước đó bởi KietNguyen và cộng sự Đây là hai bộ dữ liệu phục vụ bài toán đọc hiểu văn bản, thíchhợp cho mục đích bài toán mà chúng tôi đề ra
Bang 3.1 dưới đây mô tả tong quan về số liệu thống kê chi tiết của hai bộ dit liệu
UIT-ViNewsQA và UIT-ViQuAD Các số liệu thống kê của bộ dữ liệu được chia bởi
tác giả.
Bảng 3.1: Số liệu thống kê của bộ đữ liệu UIT-ViNewsQA và UIT-ViQuAD
Bộ dữ liệu | Loại Train Dev Test All
Bài báo 3,517 500 399| 4,416
UIT Doan van
-ViNewsQA | Cap hoi — dap 17,568 | 2497| 1,992] 22,057
Độ dài trung bình 3429| 3239| 3604| 342.4 Bài báo 138 18 18 174 UIT- Doan van 4,101 515 493 5,109 ViQuAD | Cặp hỏi — đáp 18,579} 2,285] 2,210} 23,074
D6 dai trung binh 1539| 147.9] 155.0 153.4
3.1.1 Bộ dữ liệu UIT-ViNewsQA
Bộ dir liệu UIT-ViNewsQA là bộ dữ liệu về đọc hiểu văn bản cho ngôn ngữ có ítnguồn tài nguyên là tiếng Việt Bộ dữ liệu gồm có 22,057 cặp câu hỏi — đáp được xâydựng thủ công dựa trên 4,416 bài báo về sức khỏe Bảng 3.2 là một ví dụ cụ thé về
bộ dữ liệu UIT-ViNewsQA.
14
Trang 32Bảng 3.2: Ví dụ về bộ dữ liệu UIT-ViNewsQA
Văn bản: Nghiên cứu cho thấy resveratrol trong rượu vang đỏ có khả năng làmgiảm huyết áp, khi thí nghiệm trên chuột Resveratrol là một hợp chất trong vỏ nho
có khả năng chống oxy hóa, chống nắm mốc và ký sinh trùng Trên Circulation, các
nhà khoa học từ King’s College London (Anh) công bố kết quả thí nghiệm tìm ra
sự liên quan giữa chuột va resveratrol Cụ thé, resveratrol tác động đến huyết ápcủa những con chuột này, làm giảm huyết áp của chúng
Câu hỏi 1: Chất bé trong vỏ nho có tác dụng gi?
Trả lời: có khả năng chong oxy hóa, chong nam moc và ký sinh trùng
Câu hỏi 2: Các nhà khoa học từ trường King’s tìm ra phát hiện gì về loài chuột va
resveratrol?
Trả lời: resveratrol tác động đến huyết áp của những con chuột nay, làm giảm
huyết áp của chúng
3.1.2 Bộ dữ liệu UIT-ViQuAD
Bên cạnh bộ dữ liệu UIT-ViNewsQA, chúng tôi tiễn hành thử nghiệm và đánh giá
các phương pháp trên bộ dữ liệu UIT-ViQuAD Bộ dữ liệu được xây dựng từ 174 bài
báo bắt nguồn từ Wikipedia, tách thành 5,109 đoạn văn bản Bộ dit liệu được xây
dựng bởi với hơn 23,000 cặp câu hỏi — đáp được xây dựng thủ công Ví dụ về bộ dữ
liệu UIT-ViQuAD được mô tả trong bang 3.3.
15
Trang 33Bảng 3.3: Ví dụ về bộ dit liệu UIT-ViQuAD
Văn bản: Nước biến có độ mặn không đồng đều trên toàn thế giới mặc dù phanlớn có độ mặn nằm trong khoảng từ 3,1% tới 3,8% Khi sự pha trộn với nước ngọt
đồ ra từ các con sông hay gần các sông băng đang tan chảy thì nước biển nhạt hơn
một cách đáng kể Nước biến nhạt nhất có tại vịnh Phần Lan, một phần của bién
Trong khóa luận này, chúng tôi đề xuất phương pháp học sâu sequence-to-sequence
và các phương pháp học chuyền tiếp hiện đại Chúng tôi sử dụng các phương pháp
mới, đã đạt được hiệu quả nhất định trên các bài toán liên quan, vì chúng tôi tin rằng
những phương pháp tiếp cận mới và hiện đại sẽ giúp nghiên cứu của chúng tôi đạtđược tính ứng dụng cao hơn, cũng như có một hiệu suất tốt hơn cho bai toán trên hai
bộ dữ liệu.
3.2.1 M6 hình học sâu Sequence-to-Sequence
Mô hình học sâu Sequence-to-Sequence (seq2seq) [1] thường được sử dụng nhiều
trong các bài toán như dịch máy (Machine Translation), nhận diện thực thể có tên
(Named-Entity Recognition) hay các bài toán phân loại văn ban (Text Classification).
Trong khóa luận này, chúng tôi đề xuất xây dựng mô hình seq2seq theo mô hình ứng
dụng cho bài toán dịch máy Chúng tôi đề xuất sử dụng kiến trúc mã hóa — giải mãRNN (RNN encoder — decoder) được công bố bởi Cho và cộng sự vào năm 2014 [18]cho bài toán tạo sinh tự động câu hỏi tiếng Việt Trong bài toán này, chúng tôi sử
16