Trong dé tai khóa luan nay, chúng tôi tập trung vào nghiên cứu các phương pháp tăng cường dữ liệu va xây dựng mô hình diễn giải câu hỏi tiếng Việt.. Đối với ngôn ngữ Tiếng Việt các kỹ th
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HOC VA KY THUAT THONG TIN
NGUYEN QUANG SANG - 19522122
VO ĐÌNH THỤC - 19522322
KHÓA LUẬN TÓT NGHIỆP
TĂNG CƯỜNG DỮ LIỆU TƯƠNG ĐÒNG
CHO PHAN LOẠI CÂU HOI TIENG VIỆT
Data augmentation for Vietnamese question classification
CU NHAN NGANH CONG NGHE THONG TIN
DINH HUONG NHAT BAN
GIANG VIEN HUONG DAN
TS Nguyễn Luu Thùy Ngân
Ths Nguyễn Văn Kiệt
TP HO CHÍ MINH, 2023
Trang 2LOI CAM ON
Sau quá trình học tập và làm việc một thời gian dai cũng như tiếp thu va rèn luyện
tại trường Dai hoc Công nghệ Thông tin — Đại học Quốc gia thành phố Hồ Chí Minh, đây là lúc mà những kỹ năng, kiến thức, kinh nghiệm của chúng tôi được áp dụng cho công việc thực tế.
Trước hết, chúng tôi xin được gửi lời cảm ơn và biết ơn sâu sắc đến TS Nguyễn
Luu Thùy Ngân và Ths Nguyễn Văn Kiệt — khoa Khoa học và Kỹ thuật Thông tin
— trường Đại học Công nghệ Thông tin — Đại học Quốc gia thành phó Hồ Chí Minh,
đã giúp đỡ tận tình, hỗ trợ và đưa ra ý tưởng cho chúng tôi trong quá trình học tập,
hướng nghiên cứu khoa học và thực hiện bài khóa luận này.
Chúng tôi cũng muốn được gửi lời cảm ơn chân thành đến toàn thể các thầy cô
trường Đại học Công nghệ Thông tin và khoa Khoa học và Kỹ thuật Thông tin —
Đại học Quốc gia thành phố Hồ Chí Minh Các thầy cô đã giảng day và cho chúng
tôi điều kiện giảng dạy tốt nhất Nhờ những kiến thức và kinh nghiệm mà chúng tôi
tiếp thu được sẽ là bước tiễn vững chắc cho con đường sự nghiệp trong tương lai.
Sau cùng, chúng tôi xin được gửi lời cảm ơn đến gia đình, bạn bè và đặc biệt là các bạn học cùng lớp CNCL2019, đã giúp đỡ, động viên lẫn nhau trong quá trình học
tập, đây là nguồn động lực tỉnh thần và nguồn cô vũ to lớn đã giúp tôi hoàn thành
một cách tốt nhất cho bài khóa luận này.
Chúng tôi đã dành hét tâm huyết và cố gắng hoàn thành bài khóa luận này một cách tốt nhất trong khả năng của chúng tôi Những thiếu sót không đáng có là điều khó
tránh khỏi Chúng tôi rất hy vọng mình có thể nhận được sự cảm thông và giúp đỡ
của quý thầy cô và bạn bè, dé bài khóa luận này có thé đi đến một kết quả tốt nhất.Đây sẽ là thành quả dé chúng tôi có kiến thức và động lực dé làm tốt việc
nghiên cứu, phát triển trau dồi thêm kiến thức sau này.
Trang 32.1 Phân tích và đánh giá các hướng nghiên cứu trước
đó -2.1.1 Phương pháp sinh câu -.eeeeerirrrrearoroue
2.1.2 Phân loại câu hỏi
2.2 Những van đề còn tôn tại -.s-eeeceseeeereereereeterrererrerrerrerreroe.Ô
2.3 Những nội dung nghiên Cứu eeccceeeeceeeeeeeeeeeeeeeeesesesesesssrsraosrooor O
Chương 3 NGHIÊN CỨU LÝ THUYẾT VÀ PHƯƠNG PHÁP THỰC NGHIỆM 7
3.1 Mô tả các phương pháp -cccccccccccrrrrrreerereetrtrrrirrirrrrrrrtrrrrrrrrrrrrroree 7
3.1.1 Các phương pháp EDA -.eeeeekekeiiiiiiiiiiiiiiiiiiiiiiiiri 7
3.1.1.1 RD (Random Deletion) wees 3.1.1.2 RS (Random SwWap) -ceekekiieerrieeiiiiiirrriiiirirrsersrse, 3.1.1.3 RI (Random Insertion)
3.1.1.4 SR (Synonym Replacement)
3.1.2 Phương pháp diễn giải câu hỏi (QP) ssssssseessnesnesneieenetnetnenetetaeee 12
3.1.3 Phương pháp dịch ngược (BT) - eeeeeeeeeeeeeeeere e LO
3.2 Các mô hình phân loại sử dụng eeeeeereerrreaearue LA
3.2.1 Mô hình KNN eiiirrirareseuo LA 3.2.2 Mô hình Naive Bayes - eo LA 3.2.3 Mô hình SVM eo LD 3.2.4 Mô hình Logistic Regression LD
Trang 43.2.5 Mô hình LSTM eeeeeeeeerrrrrreerrrerrrrrrrrrrrer LO 3.2.6 Mô hình BiLSTM ee-cirrieeeeeeerrrrrrrrrereeeeeore LO 3.2.7 Mô hình CNN eeeeeeeeerrrrrrrrrrrrrrrrrrrrrreeoeore LO 3.2.8 Mô hình PhoBERT -eeserreeeeeeeerrrrrrrrrrrmrereerer | 7
3.3 Các phương pháp đánh giá -. -ceceeriirriirie L 7
3.3.1.1 Độ đo BLEU seeeeeeeeeserereerrsser LT
3.3.1.2 Độ do FI
Chương 4 XÂY DỰNG DỮ LIEU wssssssssssnesnsssesssnessussussiesusstiasnanistuseasssensenees LO
AA Bộ dữ liệu ViQP s-seeeereereerrererererrereeee TỔ
4.2 — Bộ dữ liệu ViTREC
Chương 5 XÂY DỰNG MÔ HÌNH DIỄN GIẢI CÂU HỎI 42
5.1 Mô hình đề xuất
5.2 Mô tả bài toán eseereeereereererererereereeeeee 3
5.3 _ Tiền xử lý dữ liệu seo 3
54 Huấn luyện mô hình «ecevveeeeeeeersrrirrrseeorue 4D)
Chương 6 THU NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 48
6.1 — Kết qua thử nghiệm -eeeeeerreererereoo 4B
6.1.1 Thử nghiệm 1.
6.1.2 Thử nghiệm 2 eeerrriieeerertrtrrriiiinniiiiirriiriinnaoses OD
6.1.2.1 Phan loại nhãn COARSE
6.1.2.2 Phân loại nhãn FINE
Trang 51.2 Uy 0 -4).,), ,, H)H)),HH,.,.,,
73 Nhược bò H
Chương 8 HƯỚNG PHAT TRIỂN -222t2teEttztrrerrirrrrre
65 66 67
Trang 6DANH MỤC HÌNH
Hình 3.1: Phương pháp RD
Hình 3.2: Ví dụ cách hoạt động của RD -c-c2rrrrrrrrrtrrrrrrrrrrrrrrrrrie Hình 3.3: Phương pháp RS -: - sec, Hình 3.4: Ví dụ cách hoạt động của RS . -.scseseerierriiiiiiiriiriiiiiirrrie Hình 3.5: Phương pháp RÌ -. -22c2ccczEckrkrErtrErkrriiiiiiiiiiiiiiiiiiriiirir Hình 3.6: Ví dụ cách hoạt động của RÌ cce.vvseeeieerkrtiiirirrirriiiiirrie Hình 3.7: Phương pháp SR -ccccccsccrrrrrrtrtrtririiiiiiiiiiiiiiiiiiirrirrrrer Hình 3.8: Ví dụ cách hoạt động của RÌ -:::++++++*tEteEEEEtEtEirEririririe Hình 3.9: Phương pháp QP u.sssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssesssssssssessnsesssssssssssssssessseseete Hình 3.10: Phương pháp BT -:-++*1212172217.7.7.7 de Hình 3.11: Ví dụ cách hoạt động của BÍT -:©+EEEE1E.,1E.E.E.mrrrie Hình 4.1: Quy trình xây dựng bộ dữ liệu ViQP e-cccccceeeeerrrrer Hình 4.2: Ví dụ về mẫu huấn luyện trong bộ dữ liệu Hình 4.3: Phân loại câu hỏi theo chuẩn TREC
Hình 5.1: Kiến trúc mô hình VïTS5 -.-.stetetretrerrerrrrrrtrrrerrrrre Hình 5.2: Phương pháp QP
Hình 5.3:Cấu trúc dữ liệu cho một mẫu dữ liệu huấn luyện .
Hình 5.4: Ví dụ về dữ liệu trong bộ dữ liệu ViQP s sexee Hình 5.5: Ví dụ về cách tạo cặp câu
Hình 5.6: Ví du 1 về cách hoạt động của mô hình ViTS
(QP) -Hình 5.7: Ví dụ 2 về cách hoạt động của mô hình ViT5 (QP)
Hình 6.1: Biểu đồ sự phụ thuộc vào alpha của các phương pháp EDA
Hình 6.2: Biểu đồ đánh giá chung các phương pháp tăng cường
Hình 6.3: Tác động của QP đối với nhãn COARSE
(Accuracy) -.-Hình 6.4: Tác động của QP đối với nhãn COARSE (FI) -i ececereee Hình 6.5: Tác động QP đối với nhãn FINE (Á CCUTACY) ii
Hình 6.6: Tác động của QP đối với nhãn FINE (F1)
RoR i¬BwWN PR CC © © ®& ©
uur? BR BB BR RN NYEuP ON N ƠI CĐ SF WN FSF CO YO
Trang 7Hình 6.7: Lỗi diễn giải câu hỏi I -cecceeeeeeeereeereeersereerreererer OL
Hình 6.8: Lỗi diễn giải câu hỏi 2 -csscceeeeieereeereerrrsrrsersrresrosecu, OD
Hình 6.9: Lỗi diễn giải câu hỏi 3 -sscsreeeeeeereerreerrerrrerreeroeeooeoov OZ Hình 6.10: Lỗi phân loại câu hỏi dài e seeeereeeeeereereereerreeeov OD
Hình 6.11: Lỗi phân loại câu hỏi đa nghĩa s.ieerceereeeresesee.ee OD
Hình 6.12: Lỗi phân loại câu hỏi sai nghĩa .s-ceereeeeeeeeeereeeeeeeov OD
Hình 6.13: Lỗi phân loại câu hỏi có nhiều cách hiều
Trang 8Bang 4.1:
Bang 4.2:
Bang 4.3:
Bang 4.4:
Bang 4.5:
Bang 4.6:
Bang 5.1:
Bang 6.1:
Bang 6.2:
Bang 6.3:
Accuracy
Bang 6.4:
DANH MUC BANG
Phân bố các câu hỏi trong bộ đữ liệu VIQP -c cc-reerreerriee 20
Thống kê số lượng các loại câu hỏi tính theo nhãn thô 21
Thống kê số lượng các loại câu hỏi tính theo nhãn mịn 21
Bảng phân loại câu hỏi theo TREC . e cc<cscserxerrrerererrrrrre 25 Phân bồ các nhãn thô trong bộ dữ liệu VITFREC c-+ 39 Phân bồ các nhãn mịn trong bộ dif liệu VïTREC - 39
Kết quả huấn luyện mô hình VïT5 trên bộ dữ liệu ViQP 45
Kết quả đánh giá đầu ra phương pháp tăng cường dit liệu 48
Đánh giá các mô hình khi huấn luyện thông thường 52
Đánh giá các mô hình huấn luyện có sử dụng QP, tính theo độ đo (nhãn COARSEE) c- HH HH HH HH này 54 Đánh giá các mô hình huấn luyện có sử dụng QP, tính theo độ đo F1 (mh&in COARSE) nh 54
Trang 9DANH MỤC TỪ VIET TAT
Từ viết tắt Y nghia
EDA Easy Data Augmentation
TREC Text Retrieval Conference
Trang 10TOM TAT KHÓA LUẬN
Việc tăng cường dữ liệu dé sử dụng cho một nghiên cứu nào đó là đề tài rat đáng
được mong đợi Bởi vì dit liệu chính là cái quan trọng, là thứ cốt lõi dé giải quyết
được một bài toán khoa học, hay vấn đề trong cuộc song Trong dé tai khóa luan
nay, chúng tôi tập trung vào nghiên cứu các phương pháp tăng cường dữ liệu va xây
dựng mô hình diễn giải câu hỏi tiếng Việt
Dựa trên nguyên tắc xây dựng bộ dữ liệu TREC-QC (Text Retrieval
Conference), chúng tôi tạo nên 2 bộ dữ liệu là ViQP (dùng cho diễn giải câu hỏi) và
ViTREC (dùng cho phân loại câu hỏi) Về ViQP, đây là bộ dữ liệu gồm 13411 câuhỏi, có thể tạo thành 56068 cặp câu, đây là bộ dữ liệu đầu tiên và lớn nhất về diễn
giải câu hỏi trong Tiếng Việt Về ViTREC, gồm 6 nhãn thé (coarse) và 50 nhãn mịn(fine), đây là bộ dữ liệu được xây dựng dựa trên lý thuyết của bộ dữ liệu TREC-QC
(Tiếng Anh) trong Tiếng Việt
Sau khi có được dit liệu chúng tôi tiến hành, xây dựng phương pháp diễn giảicâu hỏi cho Tiếng Việt (QP) Kết quả thử nghiệm trên tập kiểm thử của bộ đữ liệuViQP cho thay đầu ra của phương pháp này gần với cách đặt câu hỏi của con ngườinhất khi cùng so sánh với các phương pháp dịch ngược của Bing, Google hay
phương pháp diễn giải của ChatGPT.
Dé khai thác tiềm năng của phương pháp diễn giải câu hỏi (QP) chúng tôi tiếnhành so sánh kết quả của các mô hình như Naive Bayes, Logistic Regression, SVM,KNN, LSTM, BiLSTM, CNN, PhoBERT, khi huấn luyện thông thường vả saukhi đã được huấn luyện trên tap dit liệu tăng cường Ở bài toán phân loại nhãn thô,kết quả tốt nhất ở mô hình PhoBERT với độ đo Accuracy đạt 90.5 và độ đo F1 đạt
90 Ở bài toán phân loại nhãn mịn, mặc dù kết quả tốt nhất thuộc về mô hình SVMvới độ do Accuracy đạt 77.6 và độ đo F1 đạt 77.05 sau khi tang cường, nhưng nếu
thống kê theo độ đo Accuracy, biên độ tăng nằm trong khoảng 0.5 đến 5.8, thống kê
theo độ do Fl, biên độ tăng năm trong khoảng 0.2 đến 16.46, điều này cho thấy
phương pháp diễn giải đã có tác động rất nhiều trong bài toán này
Trang 11Kết qua cho thấy tiềm năng cửa phương pháp diễn giải dit liệu có thé giúp cải
thiện độ chính xác của mô hình phân loại Tuy nhiên tiềm năng của phương pháp
này không dừng lại ở đó mà còn có ích đối với các bài toán có thành phần là câu hỏi
ở ngôn ngữ Tiếng Việt
Trang 12Chương 1 MỞ ĐẦU
1.1 Lý do chọn đề tài
Kỹ thuật tăng cường dữ liệu được sử dụng để mở rộng kích thước của tập huấn
luyện bằng cách tạo sinh thêm nhiều dữ liệu mới từ dữ liệu ban đầu Bằng cách tăng kích thước tập huấn luyện, các mô hình phân loại có thé cải thiện và tăng độ chính xác Tăng cường dữ liệu giúp khắc phục các sự cố như thiếu dit liệu, overfitting và
giúp mô hình có thé xử lý các mẫu dữ liệu khác nhau một cách hiệu quả hơn Đối
với ngôn ngữ Tiếng Việt các kỹ thuật này vẫn còn nhiều hạn chế, còn nếu nhắc tới phạm vi nhỏ hơn là tăng cường dữ liệu câu hỏi thì lại càng ít ỏi hơn Chính vì thế
chúng tôi lựa chọn dé tài này với mục tiêu đóng góp bộ dữ liệu diễn giải câu hỏi và
xây dựng một phương pháp tăng cường dữ liệu câu hỏi cho Tiếng Việt.
1.2 Mục đích
Thông qua phương pháp tạo ra các câu hỏi tương đồng dựa trên phương pháp tăng cường dữ liệu tự động Mô hình sau khi được huấn luyện trên bộ dữ liệu được tăng
cường có thể phân loại được các câu hỏi tương tự với độ chính xác cao hơn so với
việc huấn luyện bằng bộ dữ liệu thông thường.
1.3 Đối tượng nghiên cứu
Đối tượng chính được hướng đến trong khóa luận này là phương pháp tăng cường
dữ liệu câu hỏi tương đồng và sự tác động của nó đối với mô hình phân loại Vì thế chúng tôi tiến hành nghiên cứu phương pháp sinh câu tự động Huan luyện các mô hình học máy và học sâu đề đánh giá hiệu suất của các phương pháp này.
1.4 Phạm vi nghiên cứu
Để so sánh một cách khách quan sự tác động của các phương pháp cường dữ liệu đối với mô hình phân loại, chúng tôi tiến hành thử nghiệm trên các mô hình học
máy và các mô hình học sâu kết hợp với việc sử dụng các phương pháp sinh câu tự
động như: EDA, Back translation, Question Paraphrasing.,
Trang 13Chương2 TONG QUAN
2.1 Phân tích và đánh gia các hướng nghiên cứu trước đó
2.1.1 Phuong pháp sinh câu
Trong nghiên cứu của trước đó của Jason Wei va Kai Zou [1], họ trình bày phương
pháp sinh câu tự động có tên là EDA, trong đó có đề cập đến 4 phương pháp tăng
cường dữ liệu RD (Random Delete), RI (Random Insert), RS (Random Swap), SR
(Symnonym Replace) Hau hết được áp dụng trên bộ dữ liệu bằng tiếng Anh Sử
dụng các mô hình phân loại để đánh giá trực quan về dữ liệu như: RNN, RNN, CNN Độ chính xác F1 từ phương pháp sinh câu bằng EDA đạt được trung
LSTM-bình khoảng 88.6%.
Tuy nhiên, nhóm nghiên cứu nhận thấy rằng việc áp dụng EDA cần cân nhắc kỹ
lưỡng để tránh tạo ra những câu vô nghĩa hoặc mâu thuẫn Điều này đặc biệt quan trọng đối với các bộ dữ liệu chuyên ngành đòi hỏi sự chính xác và ngữ cảnh rõ ràng.
Tổng kết lại, phương pháp sinh câu tự động EDA đã được chứng minh là một công
cụ mạnh mẽ trong việc tăng cường dữ liệu và cải thiện hiệu suất phân loại Nhóm nghiên cứu đề xuất tiếp tục nghiên cứu và ứng dụng EDA trên các bộ dữ liệu đa
ngôn ngữ và chuyên ngành, với hy vọng mang lại những tiến bộ đáng kể trong lĩnh vực này.
Trong nghiên cứu của Marzieh Fadaee và cộng sự [2] có đề cập đến việc xác định các từ khó và lấy mẫu chúng, với mục tiêu là tăng số lần xuất hiện của những từ
này, đồng thời xác định các ngữ cảnh mà những từ khó này có mặt để dự đoán
chúng, sau đó lấy các câu mẫu tương tự nằm trong các ngữ cảnh khó khác Với việc lấy mẫu câu có mục tiêu để dịch ngược, bài báo có đề cập đến số điểm BLEU đạt
được lên tới 1,7 điểm so với dịch ngược bằng cách sử dụng lấy mẫu ngẫu nhiên.
Trong nghiên cứu của Quentin và cộng sự [3], trình bày mộ phương pháp mới để cải thiện chất lượng của các câu hỏi trong hệ thống hỏi đáp theo dạng đối thoại
(CQA) Trong phương pháp này, các câu hỏi gốc từ CoQA được chú thích với ít
Trang 14nhất hai đến ba sự viết lại ngữ cảnh khác nhau Điều này dẫn đến tổng cộng 4,1 nghìn cuộc trò chuyện được chú thích trong tập huấn luyện CoQA và tất cả 500 cuộc trò chuyện trong tập phát triển Sau khi tổng hợp sé lượng chú thích, tập huấn luyện và tập phát triển của CoQAR bao gồm 45 nghìn và 8 nghìn câu hỏi Để huấn
luyện các mô hình CoQAR và Quora Question Pairs (QQP), các tác giả đã trích
xuất các cặp từ các tập dữ liệu CoQAR va QQP Vì các câu hỏi gốc trong CoQAR
đôi khi chứa những cách diễn đạt không phù hợp với ngữ cảnh, các cặp được xây
dựng bằng cách liên kết những cách diễn đạt lại của cùng một câu hỏi gốc Sau khi được huấn luyện trên các cặp trích xuất, mô hình BART đạt điểm cao nhất là 73,7
điểm cho tập CoQAR Trong nghiên cứu này nhóm nghiên cứu cũng nêu rõ 2
phương pháp tăng cường dữ liệu câu hỏi đó là QP (Question Paraphrasing) và QR (Question Rewriting).
Trong Tiếng Việt, sử dụng phương pháp QR, có nghiên cứu của Vu Nguyen và cộng sự [5], các tác giả đánh giá các hệ thống tạo câu hỏi tiên tiến trên hai tập dữ
liệu tiếng Việt thử nghiệm: UIT-ViQuAD [4] và UIT-ViNewsQA [5] Họ tiến hành
thử nghiệm với các mô hình học sâu và sử dụng thông tin ngữ cảnh và câu trả lời để
tạo câu hỏi Bên cạnh đó, họ tích hợp hai mô hình ngôn ngữ mạnh, PhoBERT và
mT5, và sử dung học tăng cường trong quá trình giải mã dé cải thiện hiệu suất Các
thử nghiệm cho thay mô hình tốt nhất của họ đạt điểm BLEU-4 là 20,43 trên
UIT-ViQuAD và 19,77 trên UIT-ViNewsQA, chứng tỏ tính hiệu qua của phương pháp
đề xuất trong việc tạo câu hỏi tiếng Việt.
2.1.2 Phan loại câu hỏi
Phân loại câu hỏi theo TREC là quá trình gán nhãn cho các câu hỏi dé xác định chủ
đề, loại câu hỏi, và mục đích của câu hỏi Trong các nghiên cứu về TREC đã được
thực hiện từ trước, có các nghiên cứu [4] [5] được thực hiện trên ngôn ngữ Tiếng
Việt Ví dụ đối với nghiên cứu [4], nhóm tác giả đã sử dụng phương pháp dịch thuật
để dịch bộ dữ liệu TREC (Tiếng Anh) sang Tiếng Việt, thử nghiệm kết quả trên bộ
dữ liệu khá cao, đạt 94% với nhãn thô (Coarse) và 85% đối với nhãn mịn
Trang 15Fine).Trong một nghiên cứu khác [5], nhóm tác giả thu thập dữ liệu từ các chương
trình truyền hình như “Ai là triệu phú”, “Đường lên đỉnh Olympia”, để xây dựng
bộ dữ liệu Kết quả thử nghiệm cho thấy đạt được độ chính xác 85,4 đối với nhãn thô và 70,2% đối với nhãn mịn.
2.2 Những vấn đề còn tồn tại
Cách cấu thành câu hỏi trong Tiếng Việt được biết đến là đa dạng và phức tạp hơn
các ngôn ngữ khác và Tiếng Việt cũng có dang câu hỏi: Cái gì (What), Lúc nào
(When), Nơi nào (Where), Người nào (Who), Cái nào (Which), Như thế nào (How) Với mỗi loại câu hỏi lại có nhiều cách hỏi khác nhau, ví dụ như đối với kiểu câu Why thì có các cách như sao: "Vì sao?", "Tại sao", "Vì lý do gì" , Tuy Tiếng Việt
rất đa dạng nhưng các nguồn tài liệu có liên quan đến tăng cường dữ liệu trong
Tiếng Việt còn khá ít, đối với tăng cường dữ liệu câu hỏi tiếng Việt lại càng hiếm.
Điều này tạo ra một thách thức trong việc nghiên cứu và phát triển các phương pháp
tang cường dữ liệu cho câu hỏi Tiếng Việt Đề khắc phục tình trạng này, cần có sự đầu tư và nỗ lực trong việc thu thập dữ liệu và xây dựng tài liệu nguồn phong phú
dé thúc day nghiên cứu về tăng cường dữ liệu câu hỏi Tiếng Việt.
2.3 Những nội dung nghiên cứu
Ở đề tài này, chúng tôi tập trung nghiên cứu về những vấn đề cốt lõi sau:
¢ Phuong pháp sinh câu hỏi và đánh giá đầu ra.
e _ Xây dựng phương pháp diễn giải câu hỏi QP (Question Paraphrasing).
e So sánh phương pháp QP với các kỹ thuật tăng cường dữ liệu hiện có như
EDA, BT, ChatGPT,
© Ung dụng diễn giải câu hỏi vào mô hình phân loại.
Trang 16Chương 3 NGHIÊN CỨU LÝ THUYET VÀ PHƯƠNG PHAP THỰC
e Thay đổi từ loại tir (SR - Synonym Replacement): thay đôi một từ bằng một
từ khác có nghĩa tương đương.
© Ngau nhiên xoá từ (RD - Random Deletion): xoá ngẫu nhiên một sé từ trong
câu.
e = Ngẫu nhiên c èn từ (RI - Random Insertion): chèn một từ mới vào vị trí ngẫu
nhiên trong câu.
e Ngẫu nhiên thay thế từ trong câu (RS - Random Swapping): hoán đổi vị trí
hai từ trong câu.
Phương pháp EDA có những đặc điểm sau:
- Đầu vào (InpuÐ: C âu hỏi, số câu tăng cường (n), tỉ lệ biến đổi (alpha).
- Đầu ra (Output): Gồm n câu hỏi được biến đồi theo ngẫu nhiên bằng phép biến đổi với một tỉ lệ alpha.
Trang 173.1.1.1 RD (Random Deletion)
| Câu hỏi gốc — RD: Xóa từ ngẫu nhiên + Câu hỏi tang cường
RD———>_ Tại sao có câu hỏi A?
Tại sao lại có câu hỏi A?
Tại sao dùng giun đất câu cá?
Tại sao người ta làm mỗi câu cá?
Hình 3.2: Ví dụ cách hoạt động của RD.
Trang 183.1.1.2 RS (Random Swap)
Câu hỏi gốc " RS: Hoán đổi từ ngẫu nhiên 4 Câu hỏi tăng cường
Thời gian đến công việc B là khi nào? ——RS——> Thời gian công việc B đến là khi nào? |
Tai sao giun dat ding làm người ta môi câu cá?
Tại sao làm giun đất đùng người ta môi câu cá?
Tại sao người ta môi đùng làm giun đất câu cá?
Tại sao người ta dùng giun đất câu cá làm môi?
Hình 3.4: Ví dụ cách hoạt động của RS.
Trang 193.1.1.3 RI (Random Insertion)
Câu hỏi gốc " RI: Chèn từ ngẫu nhiên 4 Câu hỏi tăng cường
| Công xưởng C có khi nào? ————RI——> Công xưởng C có từ khi nào? |
Hình 3.5: Phương pháp RI.
Đây là phương pháp ngược lại với RD, bằng cách sử dụng cách chèn một
hoặc cụm từ vào một vị trí ngẫu nhiên trong câu.
Tai sao người ta dùng tại sao giun dat làm môi câu cá?
Tại sao người ta ding giun đất làm tại sao môi câu cá?
Tai sao người ta dùng giun đất câu văn làm môi câu cá?
Tại sao người ta dùng chúng giun đất làm mỗi câu cá?
Tại sao người ta dùng Người ta giun đất làm môi câu cá?
Hình 3.6: Ví dụ cách hoạt động của RI.
10
Trang 203.1.1.4 SR (Synonym Replacement)
Câu hỏi gốc Chọn từ cần thay thế — Từ thay thé ¬
Câu hỏi tăng cường SR: Thay từ ngẫu nhiên «|
Từ nào được dùng cho tr D —-SR——> Từ nào được sử dung cho từ D
Hình 3.7: Phương pháp SR.
Phương pháp sử dụng cách thay thế một từ hoặc cụm từ trong câu với một từ
đồng nghĩa hoặc từ tương đương nhưng không làm thay đồi ý nghĩa của câu.
Tai sao người ta dùng giun đất làm môi câu cá?
Tai sao người ta dùng giun đất làm môi câu van cá?
Tai sao người ta áp dụng giun đất làm môi câu cá?
Tai sao người ta dùng giun đất làm cá đuối câu cá?
Tai sao người ta dùng giun đất làm môi câu thơ cá?
Hình 3.8: Ví dụ cách hoạt động của RI.
11
Trang 213.1.2 Phương pháp diễn giải câu hỏi (QP)
Đây phương pháp tái sử dụng các câu được hỏi trước đó dé tạo ra các câu hỏi mới
Kỹ thuật này giúp tăng độ phủ của ngữ liệu và đưa ra nhiều cách giải thích khácnhau về cùng một van dé và van dé ở đây chính là câu hỏi
Có những lý do để ứng dụng QP, bao gồm:
e Tạo ra các biến thé của câu hỏi giúp tăng tính đa dạng
e Giảm thiêu hiện tượng overfitting trong các mô hình NLP
e Cải thiện khả năng hỏi đáp câu hỏi của các hệ thống đọc hiểu tự động
Phương pháp QP có những đặc điểm sau:
e Đầu vào (Input): Câu hỏi, số câu tăng cường (k)
e Đầu ra (Output): Gồm k câu hỏi được diễn giải với nhiều cách khác nhau
nhưng vẫn đảm bảo được ý nghĩa như câu ban đầu
Nhiều câu hỏi tăng cường với các cách diễn đạt khác nhau
:_] Chụp cộng hưởng từ cho thấy
Trang 223.1.3 Phương pháp dịch ngược (BT)
Day là một phương pháp dịch ngược được sử dụng dé tăng độ chính xác của các bộ
dữ liệu dịch thuật hoặc giúp nâng cao hiệu suất huấn luyện cho các mô hình dịch
máy Kỹ thuật này thường được sử dụng khi thiếu dữ liệu dịch thuật có sẵn chongôn ngữ đích, do đó cần phải sử dụng một ngôn ngữ thứ ba
Phương pháp Back Translation là quá trình dịch một văn bản từ ngôn ngữ gốc sangngôn ngữ thứ ba, sau đó dịch lại từ ngôn ngữ thứ ba sang ngôn ngữ đích Điều này
cho phép tạo ra các mẫu đữ liệu dịch thuật mới cho ngôn ngữ đích từ mẫu dữ liệu đã
có san cho ngôn ngữ nguồn và ngôn ngữ thứ ba Thông thường, ngôn ngữ thứ bađược sử dụng là tiếng Anh, vì rất nhiều tài liệu dịch thuật có sẵn và nó được coi làngôn ngữ đứng vi trí thứ hai có mức độ phô biến trên thé giới
Phương pháp BT có những đặc điểm sau:
- Đầu vào (Input): Câu hỏi
- Đầu ra (Output): Gồm 1 câu hỏi được tạo ra từ phương pháp dịch ngược
Câu hỏi gốc Dịch sang Tiếng Anh
Đối tượng
dịch thuật
Câu hỏi tăng cường Dịch sang Tiếng Việt
EN Vi Nhật nằm ở đâu? ————> Where is Japan located? ———}® Nhật Ban nằm ở đâu?
13
Trang 23Đây là mô hình học máy không thuộc nhóm mô hình tuyến tính KNN dựa trên
nguyên tắc các điểm dữ liệu có đặc điểm tương tự sẽ có kết quả dự đoán tương tự.
Mô hình KNN là một mô hình học tập có giám sát cho các vấn đề phân loại và dựđoán Trong quá trình huấn luyện, KNN không học các tham số của mô hình mà chỉlưu trữ toàn bộ tập huấn luyện Khi một điểm dữ liệu mới được thêm vào dự đoán,KNN sẽ tìm kiếm K điểm gần nhất trong tập huấn luyện và dự đoán điểm dữ liệu
mới theo nhãn của các điềm này.
3.2.2 Mô hình Naive Bayes
Đây là mô hình thường được sử dụng cho các bài toán phân loại văn bản, phân loại
email hoặc phân loại tin tức Mô hình này dựa trên các nguyên tắc xác suất của
Bayesian, giả định rằng các tính năng đầu vào (còn gọi là các biến giải thích) là độclập với nhau Nhờ vào đó ta có thé tính toán xác suất của những loại nhãn (còn gọi
là các lớp) dựa trên tập huấn luyện
Mô hình Naive Bayes đơn giản, dễ hiểu và có thể cho kết quả dự đoán tốt trongnhiều trường hợp Tuy nhiên, giả định về tính độc lập giữa các đặc trưng không phảilúc nào chính xác, vì vậy mô hình Naive Bayes có thê đưa ra dự đoán không chính
xác nêu các đặc trưng đâu vào phụ thuộc chặt chẽ với nhau.
14
Trang 243.2.3 Mô hình SVM
Đây là một mô hình được dùng dé phân loại và dự đoán Mô hình này là một trongnhững mô hình phân loại tuyến tính phổ biến nhất và được sử dụng rộng rãi nhấttrong những vấn đề khác nhau, từ phân loại hình ảnh đến phân tích văn bản
SVM phân loại dữ liệu bằng cách tìm một đường thắng hoặc mặt phang dé phânchia các điểm dữ liệu thuộc các loại khác nhau Mục tiêu của SVM là tìm đường đó
sao cho điểm dữ liệu gần nhất có khoảng cách lớn nhất đến đường đó
Mô hình SVM có thể cho kết quả phân loại tốt và độ chính xác cao trong nhiềutrường hợp Tuy nhiên, do sự phức tạp của phương pháp tối ưu hóa hàm mat mát vàkhối lượng tính toán lớn, việc sử dụng SVM đòi hỏi tài nguyên máy tinh đáng kể
3.2.4 Mô hình Logistic Regression
Mô hình Logistic Regression thuộc lớp mô hình học có giám sát Dùng dé phân loạicác điểm dữ liệu thành hai hoặc nhiều nhãn khác nhau dựa trên các tính năng đượctrích xuất từ dir liệu huấn luyện Mô hình này được gọi là "Logistic" vì nó sử dụnghàm logistic (còn được gọi là hàm sigmoid) dé chuyên đổi tông trọng số của các đốitượng thành giá trị xác suất dự đoán
Các mô hình hồi quy logistic sử dụng các phương pháp tối ưu hóa dé tìm các trọng
số phù hợp cho từng tính năng Mục tiêu của tối ưu hóa là tìm một tập hợp các trọng
số sao cho các giá trị xác suất dự đoán của mô hình gần nhất với nhãn thực của các
điểm dữ liệu huấn luyện
3.2.5 Mô hình LSTM
Đây là một loại mô hình mạng thần kinh học sâu được dùng phổ biến Mô hìnhLSTM có khả năng giải quyết các bài toán gián đoạn dài hạn trong quá trình xử lýchuỗi dữ liệu, giúp mô hình có thé tìm hiểu các phụ thuộc gián đoạn dài hạn giữacác phần tử trong chuỗi dữ liệu Điều này làm cho các mô hình LSTM đặc biệt hữu
ích trong các van dé về trình tự, chang hạn như dự đoán từ tiếp theo trong một câu
hoặc chuỗi thời gian.
15
Trang 25Một đặc điểm của các mô hình LSTM là khả năng duy trì và truyền thông tin ở
trạng thái ấn qua nhiều bước thời gian, cho phép mô hình học và ghi nhớ thông tin
liên quan đến quá khứ trong chuỗi dữ liệu Các mô hình LSTM là một lựa chọn tốt
dé giải quyết các van dé với dit liệu chuỗi
3.2.6 Mô hình BiLSTM
Day là mô hình được xây dựng dựa trên mô hình LSTM, mô hình BiLSTM có thểgiải quyết những bài toán liên quan đến từ ngữ và ngữ cảnh của một hoặc nhiều
ngôn ngữ.
Mô hình BiLSTM mở rộng từ mô hình LSTM bằng cách sử dụng hai lớp LSTM
song song, một điều chỉnh cho việc truyền thuận (forward) và một điều chỉnh cho
việc truyền ngược (backward).
Quá trình huấn luyện của mô hình BiLSTM bao gồm việc truyền thuận và truyềnngược qua các lớp LSTM Quá trình truyền thuận xử lý đữ liệu từ trái sang phảitrong chuỗi, trong khi quá trình truyền ngược xử lý dữ liệu từ phải sang trái Vớikhả năng xem xét ngữ cảnh từ cả hai phía, mô hình BiLSTM có thể nắm bắt đượccác mối quan hệ phụ thuộc từ xa và hiểu được ngữ cảnh một cách toàn diện hơn
3.2.7 Mô hình CNN
Đây là một loại mô hình mạng nơ-ron học sâu được sử dụng phô biến trong lĩnh vực
xử lý hình ảnh và video Mô hình nhằm mục dich tự động tìm hiểu các tính năng
cục bộ của hình ảnh, cho phép mô hình phân loại, nhận dạng hoặc trích xuất các đặc
trưng.
Trong phân loại văn bản, CNN hoạt động bằng cách dùng phép tích chập đề tìm cácđặc trưng quan trong trong văn bản Sau đó, các lớp tông hợp giúp giảm kích thướccủa đặc trưng Cuối cùng, các lớp kết nối đầy đủ được dùng để phân loại văn bảndựa trên các đặc trưng đã trích xuất
16
Trang 263.2.8 Mô hình PhoBERT
Những van đề thường hay gặp phải khi làm việc với ngôn ngữ Tiếng Việt có thê kêđến đó là sự đa dạng và phức tạp của ngôn ngữ này như là: sự có mặt của các dấuthanh, các từ viết tắt và việc sử dụng từ không có dấu Điều này làm cho việc xử lýngôn ngữ Tiếng Việt trở nên khó khăn hơn những thứ tiếng khác
Kế thừa từ kiến trúc BERT, là một pre-trained được huấn luyện dành riêng choTiếng Việt PhoBERT được huấn luyện dựa trên kiến trúc RoBERTa của Facebook.Đây là một điểm cộng khi so sánh với BERT trước đây
Một tính năng chính của PhoBERT là khả năng tìm hiểu mối quan hệ ngữ nghĩa
giữa các từ trong câu, cho phép mô hình hiểu ngữ cảnh và đưa ra dự đoán chính xác
hơn đối với Tiếng Việt Với sự phát triển của PhoBERT, nhiều ứng dụng trí tuệnhân tạo đã sử dụng mô hình này để giải các bài toán xử lý ngôn ngữ tự nhiên vàđạt được kết quả tat
3.3 Cac phwong phap danh gia
3.3.1.1 Độ do BLEU
Day là một phương pháp đánh giá ban dich dựa theo các ban dịch tham khảo.
BLEU được thiết kế để đánh giá đầu ra của bài toán dịch thuật, nhưng trên thực tế
độ đo này cũng được dùng trong tóm tắt văn bản, nhận dạng giọng nói và các tác vụkhác Hơn nữa, độ đo này cũng có thê đánh giá chất lượng bản dịch của con người
BLEU được coi là kỹ thuật đánh giá tuy đơn giản nhưng hiệu quả và giống như con
nguoi.
Công thức của độ do BLEU được tính như sau:
4
; output — length ¬ 1 BLEU = min (1——————————— precisioni)*
reference — length’ ‘| 4
i=
17
Trang 273.3.1.2 Độ do FI
Độ do F1 là một phép do dùng trong bài toán phân loại, dé đánh giá một mô hình dự
đoán Nó là sự kết hợp giữa độ chính xác (precision) và độ phủ (recall) dé tính toánmột chỉ số tổng quát
Độ đo F1 được tính như sau:
2 * precision * recall F1 Score = —
Trang 28Chương 4 XÂY DUNG DU LIEU
4.1 Bộ dữ liệu ViQP
ViQP (Vietnamese Question Paraphrase) là bộ dữ liệu mới được thiết kế dé bé Sung
dữ liệu cho các tác vụ diễn giải câu hỏi trong Tiếng Việt
Tự kiểm tra Bộ dữ liệu
đã được tự kiểm tra chéo
Kiểm tra chéo
đã được tự kiểm tra
| Tạo câu hỏi gốc | i ai Tạo câu hỏi tương đồng
~~ “iden thothử kiểm thừ
Tập huấn Dữ liệu tập
luyện huấn luyện
Hình 4.1: Quy trình xây dựng bộ dữ liệu VIQP
Quá trình xây dựng dữ liệu được được tiễn hành như sau:
Phase 1
e Bước 1: Xác định đối tượng tham gia xây dựng bộ dit liệu: Nhóm người xây
dựng bao gồm: người có khả năng hiểu và sử dụng thành thạo ngôn ngữTiếng Việt, xác định các tiêu chí dé tiến hành xây dựng bộ dữ liệu: Các tiêu
chí này bao gồm độ tương đồng giữa các câu hỏi, độ phong phú về cấu trúccâu, độ phân biệt về từ vựng và ngữ nghĩa, độ dài của câu,
e Bước 2: Thu thập dữ liệu: Da số các câu hỏi được chúng tôi tạo ra từ tác vụ
xây dựng dữ liệu cho ViTREC Mục đích dé các câu hỏi trong bộ dữ liệu này
có thê bao phủ được hết các chủ đề hỏi trong Tiếng Việt
e Bước 3: Xác định các câu hỏi tương đồng (câu hỏi mục tiêu): Những câu hỏi
tương đồng sẽ được tạo thủ công
19
Trang 29e Bước 4: Thực hiện tự kiểm tra (self-check) và kiểm tra chéo ngữ nghĩa
(cross-check) giữa các thành viên trong quá trình xây dung dữ liệu.
e_ Xây dựng bộ dữ liệu: Bộ dữ liệu được chia thành hai tập huấn luyện và kiêm
tra.
Mỗi câu hỏi gốc trong bộ dữ liệu sẽ có từ 4 — 7 câu tăng cường tương ứng Bộ dữ
liệu VIQP có tổng cộng 13411 câu hỏi, có thể tạo thành 56068 cặp câu Bộ dữ liệuđược chia thành 2 tập: tập huấn luyện và tập kiểm thử theo tỉ lệ 8:2
{
"source": "Ong Vinh mang nhóm máu gì?",
“target”: [
"Loại mau ma Gng Vinh mang là gi?",
"Nhóm mau của ông Vinh là gì?",
"Nhóm mau trong người ông Vinh là gi?",
“lên nhóm mau trong người ông Vinh là gi?",
“lên nhóm máu ông Vinh mang trong người là gi?"
] }
Hình 4.2: Ví dụ về mẫu huấn luyện trong bộ dữ liệu
Bảng 4.1: Phân bố các câu hỏi trong bộ dữ liệu ViQP
Số câu hỏi | Số câu hỏi Tổng số câu | Số cặp câu có thé
gốc mục tiêu hỏi tạo thành
Tập huấn
2335 7306 9641 34506 luyén
Tap kiém
572 3198 3770 21562 thir
20
Trang 30Bảng 4.2: Thống kê số lượng các loại câu hỏi tính theo nhãn thô
Tỉ lệ Tỉ lệ Nhãn Nhãn
(Source / Target) (Source / Target)
(Source / Target) (Source / Target)
Trang 31ENTY_ animal 32/280 HUM title 32/264
ENTY_ body 43/363 LOC_city 35/287
ENTY_lang 26/230 NUM_ distance 26/196
ENTY_letter 10/76 NUM_ money 22/190
ENTY other 99/601 NUM_ order 17/147
ENTY_plant 22/202 NUM_ other 35/261
ENTY_ product 29/263 NUM_percent 37/243
ENTY_religion 29/239 NUM_period 51/437
22
Trang 32ENTY_ sport 21/181 NUM size 26/188
ENTY_ substance 61/415 NUM_speed 25/245
ENTY_symbol 22/156 NUM_temp 9/73
ENTY_ technique 39/255 NUM_weight 37/277
23
Trang 334.2 Bộ dữ liệu ViTREC
Chúng tôi kế thừa các quy chuẩn xây dựng nhãn có sẵn có từ bộ dữ liệu TREC-QC
(6 nhãn thô và 50 nhãn mịn) để tạo ra dữ liệu mới ViTREC dựa theo nhãn những
nhãn được cung cap.
Color Letter Symbol Reason | Ind Mountain ) Date Speed
Creative Other Technique Manner | Description State ) Distance Temp Currency Plant Term Other ) Money Size
Dismed Product Vehicle Order Weight
———~
Event Religion Word Other
Food
Hình 4.3: Phân loại câu hỏi theo chuẩn TREC
Quá trình xây dựng bộ dữ liệu VITREC, chúng tôi đã thực hiện các bước sau:
e Thu thập dữ liệu: Chúng tôi đã thu thập các câu hỏi truy vấn Tiếng Việt từ
nhiều nguồn dit liệu khác nhau, bao gồm các câu hỏi truy van từ các cuộc thiOlympia, Ai là triệu phú, các câu hỏi truy vấn từ các trang web, tài liệu và
các nguồn khác
e Xây dựng dữ liệu: Chúng tôi đã xác định các nhãn cho các câu hỏi truy van
dựa theo các quy chuẩn của bộ dữ liệu TREC-QC và các nghiên cứu trước
đó.
24
Trang 34Bên dưới đây là định nghĩa va vi du của từng loại nhãn trong bộ dt liệu VITREC
của chúng tdi.
Bang 4.4: Bảng phân loại câu hỏi theo TREC.
LỚP NHAN DINH NGHIA
VIET TAT
Khái niệm: Hỏi về từ viết tắt
Vi dụ:
e Cum từ "last universal common
ancestor" trong sinh học có tên viết tắt
Abb
là gì?
e Tên viết tắt của web stack được kết
ABBREVIATION hợp bởi Apache, Linux, PHP, Python,
Perl, MySQL là gi?
Khái niệm: Hỏi về nghĩa từ viết tắt
Trang 35ông trong phim Pi là con gì?
Khai niệm: Hỏi về các phân cơ thê của con
người, các loai thực vật hoặc động vật.
e Mau nao tượng trưng cho hạnh phúc?
Khái niệm: Hỏi về những loại thực thể có liênquan đến chủ đề nghệ thuật như: phim, kịch,
e Tác phâm nghệ thuật đầu tiên của
Pablo Picasso có tên gi?
Khái niệm: Hỏi về các loại tiền tệ
Trang 36e Gia của các tiên tệ thường được so
sánh với đông tiên nào?
Khái niệm: Hỏi về những sự kiện, lễ hội, giải
thưởng được tổ chức hoặc cũng có thé là trận
e Ăn gì dé giảm mỡ trong máu?
e Món ăn nào giúp tăng hap thu canxi?e_ Món ăn nào giúp tăng độ sắc tô da?
e Cân ăn món ăn nào tot cho trí não?
Instrument
Khái niệm: Hỏi về các loại nhạc cụ
Vi dụ:
27
Trang 37e Từ đá và gỗ chúng ta có thé tao ra nhạc
cụ gì?
e Loại nhạc cụ nao có sé phim mau trang
nhiéu hon den?
e Nudoc Pháp nôi tiêng với nhac cụ gi?
Lang
Khái niệm: Hỏi về ngôn ngữ, thứ tiếng
Ví dụ:
e Ngôn ngữ mà người Ai Cập cô đại
dùng đề ghi chép là loại ngôn ngữ nào?
e Tại Việt Nam, thứ tiếng nào đang có
nguy cơ biến mat?
e Ngoài sử dụng tiếng Việt thì người dân
tộc Hoa còn sử dụng tiêng nào?
Letter
Khái niệm: Hỏi về chữ cái
Vi dụ:
e Phụ âm được dùng nhiều trong các bài
thơ Tiếng Việt?
e Từ có âm ngang trong bai thơ bánh trôi
nước là từ gì?
Other
Khái niệm: Hỏi về các thực thé khác như
hành tinh, vũ trụ, ngôi sao,
Trang 38e Loài thực vật có thể giết chết con mỗi
e Tên của sản phẩm laptop cấu hình cao
nhất của ASUS tên là gì?
Religion
Khái niệm: Hỏi về các loại tôn giáo
Vi dụ:
e Trong tôn giáo nao, tin đồ tin rang họ
có thé giúp đỡ mọi người qua việc giữ
gìn những giáo lý?
e Trong tôn giáo nao, con người được
coi là tạo hóa của đức tôi cao hơn?
Trang 39cây mai vàng phụ thuộc vào tính chât
và yêu tô nào?
e Loại chat nào có trong thuôc lá có khả
năng gây nghiện?
Symbol
Khái niệm: Hỏi về các ký hiệu, biêu tượng
Vi dụ:
e Lá bài nào tượng trưng cho cái chết?
e_ Biểu tượng cho cung hoàng đạo
e Trong quá trình nghiên cứu về gen di
truyền các bác sĩ đã tìm ra những kỹthuật thay thé gen di truyền nào?