Sinh viên thực hiện: Lớp: KHCL2020.2 Email: 20521517 @gm.uit.edu.vn Dién thoai: 0868516729 Nội dung đề tai:M6 ta chỉ tiết mục tiêu, phạm vi, doi tượng, phương pháp thực hiện, kết quả mo
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
NGUYEN THÀNH LAM - 20521517
KHÓA LUẬN TOT NGHIỆP
MACHINE READING COMPREHENSION
FOR VIETNAMESE IDIOMS
CU NHAN NGANH KHOA HOC MAY TINH
GIANG VIEN HUONG DAN
PGS.TS NGUYEN LUU THUY NGAN
THS NGUYEN VAN KIET
TP HO CHi MINH, 2024
Trang 2DANH SÁCH HỘI ĐÒNG BẢO VỆ KHÓA LUẬN
Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số -. -:
TĐẦY se của Hiệu trường Truong Dai học Công nghệ Thông tin.
= cee eeeeee eee eeeeeeeeeeeeeeeesaaaneeeeeeaaeeeeeeea - Chủ tịch.
2 - Thư ký
LH TK - Ủy viên
Trang 3ĐẠI HỌC QUỐC GIA TP HO CHÍMINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIET NAM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Độc Lập - Tự Do - Hạnh Phúc
THÔNG TIN —
TP HCM, ngay thang ndm
NHAN XET KHOA LUAN TOT NGHIEP
CUA CAN BO HUONG DAN
Tên khóa luân:
NGHIÊN CUU VE ĐỌC HIẾU TỰ DONG CHO THÀNH NGỮ TIENG VIET
SV thực hiện: Cán bộ hướng dẫn:
Nguyễn Thành Lâm 20521517 PGS.TS.Nguyễn Lưu Thùy Ngân
ThS Nguyễn Văn Kiệt
Đánh giá Khóa luận
1 Vé cuôn báo cáo:
Số trang Số chương
SO bảng sô liệu Sô hình vẽ
Sô tài liệu tham khảo Sản phâm
Một sô nhận xét về hình thức cuôn báo cáo:
3 Về chương trình ứng dụng:
Trang 4Điểm từng sinh viên:
Nguyễn Thành Lâm 0
Người nhận xét
(Ký tên và ghi rõ họ tên)
Trang 5ĐẠI HỌC QUỐC GIA TP HO CHÍMINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIET NAM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Độc Lập - Tự Do - Hạnh Phúc
THÔNG TIN ——
TP HCM ngày tháng năm
NHẬN XÉT KHÓA LUẬN TÓT NGHIỆP
CUA CÁN BO PHAN BIEN
Tên khóa luân:
NGHIÊN CỨU VE ĐỌC HIEU TỰ ĐỘNG CHO THÀNH NGỮ TIENG VIỆT
SV thực hiện: Cán bô phản biên:
Nguyễn Thành Lâm 20521517 c cceeerriec
Đánh giá Khóa luận
1 Vé cuôn báo cáo:
Số trang - Số chương
So bang sô liệu Sô hình vẽ
Sô tài liệu tham khảo Sản phâm
Một sô nhận xét vê hình thức cuôn báo cáo:
3 Về chương trình ứng dụng:
Trang 6Điểm từng sinh viên:
Nguyễn Thành Lâm 0
Người nhận xét
(Ký tên và ghi rõ họ tên)
Trang 7ĐẠI HỌC QUỐC GIA TP HO CHÍMINH CONG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Độc Lập - Tự Do - Hạnh Phúc
THÔNG TIN ——————
DE CUONG CHI TIẾT
Tên đề tài: Nghiên cứu về đọc hiểu tự động cho thành ngữ tiếng Việt
Tên đề tài tiếng Anh: Machine reading comprehension for Vietnamese idioms
Ngôn ngữ thực hiện: Tiếng Việt
Cán bộ hướng dẫn: PGS.TS Nguyễn Lưu Thùy Ngân
ThS Nguyễn Văn Kiệt
Thời gian thực hiện: Từ ngày 18/09/2023 đến ngày 30/12/2023
Sinh viên thực hiện:
<Nguyễn Thành Lâm — 20521517> Lớp: KHCL2020.2
Email: 20521517 @gm.uit.edu.vn Dién thoai: 0868516729
Nội dung đề tai:(M6 ta chỉ tiết mục tiêu, phạm vi, doi tượng, phương pháp thực hiện,
kết quả mong đợi của dé tài)
e_ Mục tiêu, phạm vi và đối tượng của đề tài:
Xây dựng một bộ ngữ liệu về các câu tục ngữ, thành ngữ tiếng Việt giúp cung cấp
cho máy tính một nguồn dữ liệu về thành ngữ tiếng Việt có khả năng đọc hiểu tự
động các văn bản chứa thành ngữ tiếng Việt với độ chính xác cao
Bộ ngữ liệu được thu thập trên kho tàng tục ngữ, thành ngữ Việt Nam gồm có các
câu ca dao, thành ngữ, tục ngữ Việt Nam và các văn bản liên quan đến chúng
dữ liệu.
Figure 1: Quy trình thu thập và đánh gia bộ dit liệu
Trang 81 Xây dựng bộ dữ liệu thành ngữ tiếng Việt:
Quá trình xây dựng bộ dữ liệu gồm có 3 giai đoạn: Thu thập các câu ca dao, tục ngữ,thành ngữ tiếng Việt; thu thập các văn bản chứa các câu tục ngữ, thành ngữ tiếng Việt
và phân loại văn bản dựa trên danh sách các câu tục ngữ, thành ngữ đã thu thập trước đó; gán nhãn đữ liệu.
Giai đoạn 1: Thu thập các câu ca dao, tục ngữ, thành ngữ tiếng Việt:
Sử dụng mã nguồn mở là thư viện BeautifulSoap dé tạo ra một crawler thu thap caccâu thành ngữ, tục ngữ từ các văn bản tiếng Việt có sẵn trên Internet Crawler sẽ thuthập các câu thành ngữ và các văn bản liên quan nhưng không chứa thành ngữ Cuốicùng sẽ trả về một file chứa dit liệu thô và tôi sẽ tiến hành bước lọc ra những câu tụcngữ, thành ngữ dé chuẩn bị cho bước tiếp theo
Ác giả ác báo
Ách giữa đàng, mang qua cổ
Ăn quả nhớ kẻ trồng cây
cây nào rào cây nãy
cháo đá bát vóc học hay
i chết trước thì được mồ ma
i giàu ba ho, ai khó ba đời
i làm dữ nay lo
i nhân như kỷ
Figure 2: Minh họa danh sách thành ngữ đã xử lý xong ở giai đoạn 1
Giai đoạn 2: Thu thập các văn bản liên quan đến các câu tục ngữ, thành ngữtiếng Việt và phân loại văn bản:
Trang 9Từ danh sách thành ngữ đã thu thập được ở bước 1, tôi sẽ tiễn hành thu thập các văn
bản tiếng Việt liên quan đến chúng, sắp xếp các văn bản đã thu thập theo từng thành
ngữ cũng như loại bỏ đi những thành ngữ ít được sử dụng (không có văn bản chứa thành ngữ tương ứng).
Bác gà ác báo txt
BE Ac nhàn tự hữu ác nhân ma txt
H Ai giau ba họ, ai khó ba đời.txt Bái nhân như kýxc
BB Ai vác dui duc di hỏi vợt
BB An bat cơm dẻo, nhớ nẻo đường ditxt
BE An tớ: bát, nói bớt nhời rét
EB An tụi tre, dé bụi hép.tet
EB An cá nha xương, ăn đường nuốt cham.txt
Figure 3: Danh sách các văn ban đã thu thập được phân loại theo thành ngữ
Thành ngữ Ac giả, ác báo
Doan van 1 Ac giả ác báo ý nói những người từng làm việc ác, có lúc sé gặp lại
báo ứng vì những hành động sai trái của mình Bạn sông như thê
nao thi sẽ nhận lại kêt quả như thê ay, đó là quy luật hiên nhiên.
Đoạn văn 2 Bạn có tin vào luật nhân quả ở trên đời không? Tin răng nếu chúng
ta sống thiện sẽ gặp quý nhân giúp đỡ, còn bằng sống thất đức thì sẽphải chịu bị trừng phạt thích đáng? Ông bà ta bảo “Co kiêng mới cólành” nên dù có tin hay không thì sống cân thận vẫn hơn Ranh giớigiữa thiện và ác đôi khi rất mong manh Sống sao mới gọi là ác, cònthế nảo là lương thiện? Chung quy thiện hay ác là do định nghĩa của
mỗi người, cân nhất là sống đúng với lương tâm của mình và làm
những điều minh cho là hợp lý Cân thận đừng dé “Ac gid ác báo”
rồi mới hối hận cũng không kịp nữa
Table 1: Minh họa khi mở file "Ac giả ác báo.txt"
Trang 10Hình 3 là các file với tiêu đề là các câu thành ngữ và nội dung của chúng được minhhọa ở bảng 1 với dòng đầu tiên là thành ngữ và các dòng tiếp theo là các văn bản có
chứa thành ngữ ở dòng đầu tiên
Nếu so với hình 2 là hình minh họa danh sách thành ngữ đã thu thập được, chúng ta
có thê thấy hình 3 thiếu một vài thành ngữ, ví dụ: “Ai làm đữ nấy lo”, thành ngữ nàykhông xuất hiện vì không có bat kì văn bản nào liên quan đến
Giai đoạn 3: Gán nhãn bộ dữ liệu:
Trong giai đoạn này, tôi tiến hành kiểm tra từng đoạn văn bản đã thu thập và chuyểncác câu thành ngữ xuất hiện trong văn bản thành các ô trống [BLANK] tương ứng
và lưu lại dit liệu mới dưới dạng json bao gồm các thành phần như: context ¡d,
answer, choices, context Bang 2 là một ví dụ minh họa bộ dữ liệu sau khi gan nhãn:
Context_id TRAIN_0
Answer Có công mài sắt có ngày nên kim
Choices [ "Giac bên Ngô không băng bà cô bên chong",
"Học một biết mười",
"Cái nết đánh chết cái đẹp",
"Có công mài sắt có ngày nên kim"]
Context Câu tục ngữ [BLANK] là một bai học quý gia ma cha ông
đã dé lại cho chúng ta Đó là lời đúc kết từ hàng ngàn năm
chiến đấu và lao động, để cho mỗi cá nhân chúng ta hôm nay
có thé lay đó là gương mà noi theo, mà học tập theo Muốn
có được thành công thì đức tính đầu tiên phải xây dựng được
là lòng kiên trì Có lòng kiên trì, có quyết tâm giữ vững
được lý tưởng thì tương lai chờ đón chúng ta sẽ là sự thành
công, là trái ngọt của cuộc đời.
Giai đoạn 4: Kiểm tra lại bộ dữ liệu:
Sau khi gán nhãn bộ dữ liệu, tôi sẽ tiến hành kiểm tra, rà soát lại xem các[BLANK] có khớp hoàn toàn với các câu thành ngữ hay không và kiểm tra các đáp
án trong phần “choices” có câu trả lời đúng hay không bằng phương pháp thủ công
kết hợp với phương pháp tự động
Trang 112 _ Tiến hành thực nghiệm và đánh giá bộ dữ liệu:
2.1 Bài toán:
Bài toán đọc hiểu tự động cho thành ngữ tiếng Viét
Dau vào: Doan van có chứa 6 trông va các câu trả lời là các thành ngữ ma may can chọn dé điện vao 6 trông.
Đâu ra: Câu thành ngữ đúng cân được điên vao 6 trông trong đoạn van đã cung cap.
Vi dụ:
Dau vào:
Đoạn văn: Câu tục ngữ [BLANK] là một bài học quý giá mà cha ông đã để lại cho
chúng ta Đó là lời đúc kết từ hàng ngàn năm chiến đấu và lao động, dé cho mỗi cá
nhân chúng ta hôm nay có thể lấy đó là gương mà noi theo, mà học tập theo Muốn
có được thành công thì đức tính đầu tiên phải xây dựng được là lòng kiên trì Cólòng kiên trì, có quyết tâm giữ vững được lý tưởng thì tương lai chờ đón chúng ta
sẽ là sự thành công, là trái ngọt của cuộc đời.
Các đáp án cần chọn:
"Giặc bên Ngô không bằng bà cô bên chồng",
"Học một biết mười",
"Cái nết đánh chết cái đẹp",
"Có công mài sắt có ngày nên kim"
Dau ra: Có công mai sắt có ngày nên kim
BERT (Devlin và các cộng sự), XLM-RoBER Ta (Conneau và các cộng sự).
Các mô hình như BERT, XLM-RoBERTa là các mô hình siêu mạnh được đào tạo
trước các mô hình đa ngôn ngữ với quy mô lớn, dẫn đến hiệu suất tang đáng ké chohang loạt các nhiệm vụ Do đó tôi sẽ áp dụng các mô hình như trên dé tiến hành
Trang 12đánh giá bộ ngữ liệu.
2.3 Thông số đánh giá:
Đề đánh giá hiệu suất của mô hình, tôi sử dụng thông số tương tự như bộ dữ
liệu SQUAD (Rajpurkar và các cộng sự) là Fl-Score (FI-Score đo lượng sự
trùng lặp giữa câu câu dự đoán và câu trả lời chính xác.), ngoải ra còn một
vài thông số khác như QAC (Question-level Accuracy là một phép đo được
tính bằng tỷ lệ dự đoán đúng và tổng số khoảng trống), PAC (Passage-level
Accuracy là phép đo cho biết bao nhiêu văn bản được trả lời đúng.)
e _ Kết quả mong đợi của đề tài:
Tạo ra được một bộ dữ liệu mới về ca dao, tục ngữ, thành ngữ Việt Nam và
có thé sử dung dé tạo ra các mô hình đọc hiểu tiếng Việt, từ đó giúp máy tinh
có thé dé dàng đọc hiệu các văn bản tiếng Việt, phân tích ngữ nghĩa của các
câu văn tiếng Việt dễ dàng hơn, ngoài ra tôi mong muốn bộ đữ liệu có thể
đóng góp một phan nho nhỏ vào kho dữ liệu kho ngữ liệu dé phát triển các
ứng dụng cần sử dụng hiéu tiếng Việt.
e - Tài liệu tham khảo:
1 Conneau, Alexis, Kartiky Khandelwal, Naman Goyal, Vishrav
Chaudhary, Guillaume Wenzek, Francisco Guzman, Edouard Grave, Myle Ott, Luke Zettlemoyer, and Veselin Stoyanov 2020 “Unsupervised Cross- lingual Representation Learning at Scale.” 2020.
2 Devlin, Jacob, Ming-Wei Chang, Kenton Lee, and Kristina
Toutanova 2019 “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.” 2019.
3 Rajpurkar, Pranav, Jian Zhang, Konstantin Lopyrev, and Percy
Liang 2016 “SQuAD: 100,000+ Questions for Machine Comprehension of
Trang 13Kế hoạch thực hién:(M6 ta tóm tắt kế hoạch làm việc và phân công công việc cho từng
sinh viên tham gia)
e_ Mô tả tóm tắt kế hoạch làm việc:
Xác nhận của CBHD TP HCM, ngày 18 thang 09 năm 2023
(Ký tên và ghi rõ họ tên) Sinh viên
(Ký tên và ghi rõ họ tên)
Trang 14LỜI CÁM ƠN
Tôi chân thành bày tỏ lòng biết ơn đối với cô Nguyễn Lưu Thùy Ngân, và thầy
Nguyễn Văn Kiệt, vì đã tận tình giúp đỡ, động viên, định hướng cho tôi trong những
ngày đầu, xuyên suốt quá trình nghiên cứu và hoàn thiện đề tài khóa luận Nếu không
có sự hướng dẫn từ các thầy cô, mục tiêu của khóa luận sẽ không thé hoàn thành
Ngoài ra, tôi xin được gửi lời cảm ơn đến quý thay cô giảng viên trong trường
Đại học Công Nghệ Thông Tin nói chung và khoa Khoa Học May Tính nói riêng
vì đã tận tình giảng dạy và giúp tôi có được nhiều kiến thức chuyên môn để làm
hành trang cho việc hoàn thành đề tài nghiên cứu này.
Cuối cùng, tôi muốn bày tỏ lòng biết ơn to lớn của mình đối với những thànhviên trong gia đình tôi vì họ là luôn là điểm tựa vững chắc trong suốt những ngàythang sinh viên của tôi, và là nguồn động lực to lớn dé thôi thúc tôi hoàn thành tốt đề
tài này.
TP Hồ Chí Minh, tháng 01 năm 2024
Sinh viên thực hiện
Trang 15Chương 1: TONG QUAN ooesssssssssssssccsscssssssssnscenscsuccssccascenscesscnscsnscenccssccnscenscsss 1
LL Dat Vn G6 eee eccccecessesecsesesccececscsecsescssecsvscasevssecansvsecavavsucasavsesesavavees 11.2 Đối tượng nghiên COU oi eccsescsseesessessessessessessesesssstssessessessessees 3
1.3 Phạm vi nghiÊn CỨU - c5 2 132111391113 1 1E 118 111k kg rerikt 3
1.4 Mục tiêu dat Qu - Ăn S111 S HH vn re 4
1.5 Cấu trúc khóa luận -:+sESt+ESE1E12EEEE12E5EEE1515EE111212E11 1E cree 4
Chương 2: CÁC NGHIÊN CỨU LIEN QUAN VÀ CƠ SO LÝ THUYET 6
2.1 Các công trình nghiên cứu liên quan - 5555 s+ss++x+sex+exsxs 6
2.1.1 Các bộ đữ liệu thành ngữ, tục ngữ đã có - -~ 6
2.1.2 Các bộ dữ liệu liên quan đến bai toán MRC - s5: 72.2 Cơ sở lý thuyẾT (+ St222 E21 E1E21911211211211211 21111111110 11
2.1.1 Bidirectional Transformers for Language Understanding 11
2.1.2 Hệ thống hỏi dap ccecececcescecessessessesessessesseessessessesseeseeseeses 17
2.1.3 Hệ thống đọc hiểu tự động ¿-5¿©2++2x++cxeszxsreee 19
Trang 162.3 Kết chương - 5:52 St EEEE12112112112111 1111111111 rre 20
Chương 3: XÂY DUNG BO DỮ LIỆU e 2 scssccss©ssee 21
3.1 Quy trình xây đựng bộ dữ liệu -2- 2 ++2++2xz+£xzrxczrsrrreee 21
3.1.1 Nguồn gốc của bộ dit liệu -¿ 2¿©2++22++cx+zzxsrxrrseee 23
3.1.2 Thu thập và tao dữ liệu thô -2- ¿2+22++£z++zxzzx+zseee 23
3.1.3 Thống kê dữ liệu đã thu thập trên Internet - 27
4.4.1 Hiệu chỉnh tham sSỐ : :- ¿©22+2E+SE+£Et£EE+EESEEerkzrerrkered 43
4.4.2 Kết quả thực nghiệm - 2-52 s22 2EE2EEEEEerErrrrrkrred 44
4.4.3 Các thách thức của bộ dữ liệu - 25 =5++++<<s+<+s<ss2 45
4.5 Kết chương - 5 tÉEỀ E9 12112112111 11111111 1111 rre 52
Chương 5: KET LUẬN, HAN CHE VÀ HƯỚNG PHÁT TRIEN 53
5.1 KẾt luận - St 222221221 2121122121121 errree 535.2 Hạn Chế - St 2k2 2E1E21121211211171071211211 111121 re 54
5.3 Hướng phat trim c.cceccecceccecccccscsescscesesscssessessessessessesessessessessessesessveees 54
Trang 17TÀI LIỆU THAM KHẢO
Trang 18DANH SÁCH HÌNH VẾ
Hình 2.1: Sự khác biệt của BERT so với các mô hình dao tạo trước đó 13
Hình 2.2: Biểu diễn đầu vào của mô hình BERTT -2¿ 2 s+s+tx£z£z+£sz£xzrxez 14Hình 2.3: Ví dụ về kiến trúc cơ bản của mô hình QA 2-5 + +cx+zerxezzxere2 18
Hình 3.1: Minh họa quá trình xây dựng bộ dit liệu ViII 55555 sS<x>+s<++sss+ 22
Hình 3.2: Minh hoa quá trình thu thập thành ngữ 555 S- 5< *+<++se+ss 24
Hình 3.3: Minh họa lưu các văn bản đã thu thập được theo thành ngữ, tục ngữ 26
Hình 3.4: Biểu đồ thống kê độ đài thành ngữ, tục ngữ đã thu thập - 28
Hình 4.1: Kiến tric CƠ SO cccccccccccsssssscesvesesestesecescsvsucscavsusscsvaressavsusasacsveusaravsusacsvesacseanene 37
Trang 19DANH SÁCH BANG
Bang 1.1: Sự khác nhau về nghĩa đen và nghĩa bóng của các câu thành ngữ, tục ngữ 2Bảng 2.1: Khảo sát sơ bộ về bộ đữ liệu ViID và các bộ dữ liệu liên quan 11
Bang 3.1: 10 trang web có lượng truy cập nhiều nhất 2 25c 5 s+cs+£s2 5+2 25
Bang 3.2: Minh họa khi mở tệp "Ác giả, ác báo"" ¿- 5s x22 eEEerErExerkerrerex 27
Bảng 3.3: Tần suất xuất hiện của các thành ngữ, tục ngữ trong kho ngữ liệu đã thu
008 ốỐốỐốỐố.ố.ố.ốẻốẽẼ ẽ⁄/G ẽ Số ố a 28
Bảng 3.4: Cấu trúc các điểm dit liệu trong ViIID 2- 2 52252+x+£E+zEezEzrxsrxeres 32
Bang 3.5: Quy trình chọn danh sách đáp án cho bién "Choiees” - 32Bang 3.6: Số liệu thống kê trên ba mẫu của tập dữ liệu ViID -5-5¿ 35
Bảng 4.1: Các gia trị TP, TN, FP, FN trong confusion 1mafTIX «5+5 s<+>s 42
Bảng 4.2: Siêu tham số thiết lập cho các mô hình -¿- ¿22 5++cx+2z++zz+ecs+ 43Bảng 4.3: Kết quả thực nghiệm - ¿222522222 2EE92EE2EEE22E2EEE2EE2EEEErrrkrrree 44Bảng 4.4: Ví dụ về các thách thức của bộ dữ liệu -¿- - c + sx+Ev£k+E+EeEzxexerezee 52
Trang 20DANH SACH TU VIET TAT
BERT Bidirectional Encoder Representations from Transformers
BF Beautiful Soap
ChID Chinese Idiom Datasets
EPIE English Possible Idiomatic Expressions
LLM Large Language Model
MLM Masked Language Model
MRC Machine Reading Comprehension
XLM Cross-lingual Language Model
ViID Vietnamese Idiom Datasets
Trang 21TOM TAT
Thanh ngữ, tục ngữ là những hiện tượng ngôn ngữ độc đáo của ông cha ta từ
xưa còn lưu truyền đến hiện nay, chúng là một chuỗi văn bản với các từ ngữ cốđịnh nhưng lại mang nhiều trường nghĩa (nghĩa đen và nghĩa bóng), chính điềunày tạo nên nhiều thách thức cho các mô hình học sâu hiện đại trong quá trình đọc
hiểu các văn bản tiếng Việt vốn đã rất phức tạp khi huấn luyện
Giải pháp đề xuất của tôi gồm một vai đóng góp chính sau: bộ dữ liệu về thành
ngữ, tục ngữ tiếng Việt và các thí nghiệm đa dạng về các mô hình huấn luyện trên
bộ dữ liệu đã được xây dựng, từ đó đưa ra những phân tích, đánh gia và đưa ra kết
luận vê các tác nhân chính ảnh hưởng đên hiệu suât của mô hình.
Khoá luận là sự đóng góp về cả mặt khoa học và thực tế khi đi tiên phong xử
lý bài toán đọc hiểu về thành ngữ, tục ngữ cho ngôn ngữ tiếng Việt Tôi cũng đã
thành công xây dựng bộ dữ liệu đầu tiên đành cho tiếng Việt về chủ đề tục ngữ,
thành ngữ với tổng cộng có ba mẫu dữ liệu với độ khó khác nhau cho từng mẫu dữliệu điểm dữ liệu (mẫu 1 gồm 6107 điểm, mẫu 2 gồm 5540 điểm và mẫu 3 gồm
5227 điểm trong cả ba tập huấn luyện, phát triển và kiểm thử) với nguồn thu thập
chính là từ Internet, tuy quy mô của bộ dữ liệu còn khiêm tốn và chưa đạt độ chính
xác cao khi khảo sát thực tế với các mô hình hiện nay nhưng tôi van hi vọng khóaluận này sẽ đánh dấu bước đi mới trong lĩnh vực khai thác sự phong phú của tiếng
Việt.
Trang 22Chương 1 TONG QUAN 1
Chương 1
TONG QUAN
Trong chương này, tôi sẽ giới thiệu tong quan về sự phức tap, nhập nhang về
tính đa nghĩa của thành ngữ, tục ngữ tiếng Việt, cũng như những khó khăn và
thách thức khi nghiên cứu về bai toán đọc hiểu thành ngữ, tục ngữ tiếng Việt.Đồng thời, tôi cũng sẽ nói về đối tượng, phạm vi cũng như mục đích nghiên cứutrong khóa luận này Ở cuối chương, tôi sẽ trình bày những nội dung đã thực hiện
và bô cục chính của khóa luận.
1.1 Đặt van đề:
Một trong những thách thức lớn trong lĩnh vực Xử lý ngôn ngữ tự nhiên (NLP) là
việc xử lý thành ngữ [1]; những cụm từ tưởng chừng như bình thường nhưng có théđược liên hợp sâu hơn hoặc thậm chi trải rộng khắp câu đề phủ hợp với ngữ cảnh Vìthành ngữ là một phần của ngôn ngữ tự nhiên nên khả năng giải quyết chúng sẽ đưa
chúng ta đến gần hơn với việc tạo ra các công cụ NLP hiệu quả
Thành ngữ, tục ngữ có cả hai trường nghĩa là nghĩa đen và nghĩa bóng (Bàng
1.1) nên không dé dé học cách xử lý tự động của chúng bằng máy tính nếu không
có cơ sở dit liệu thành ngữ, tục ngữ Điều này làm cho việc xử lý thành ngữ trở
thành một vấn đề đầy thách thức đối với các bài toán NLP khác nhau như SA, MT
[2] hay MRC Ngoài ra, ý nghĩa của những thành ngữ như vậy nhìn chung khác
với nghĩa đen do các ký tự cấu thành Những thành ngữ như vậy thường có nguồn
Trang 23Chương 1 TONG QUAN 2
gốc từ những câu chuyện văn hóa cổ xưa, nhưng ý nghĩa được bao tồn theo lịch sử
lâu dài của việc sử dụng ngôn ngữ.
Thành ngữ, : ` : , `
- An quả nhớ kẻ trông cây An chac mặc bên
tục ngữ
Nghia den Nếu ai đó ăn quả của cây mà ho Ăn uống phải lấy chất
đã tự trồng, thì họ sẽ nhớ đến lượng làm cốt yếu, ăn dé no
công sức và công việc mà họ đã lâu để làm việc chứ không
bỏ ra dé trồng và chăm sóc cây đó ăn qua loa, linh tinh; áo
quần mặc cũng phải chọnvải bền để mặc được lâu,
không phải mua nhiều đồ
moi.
Nghia bóng Thuong được sử dung dé diễn đạt Kinh nghiệm sống của ông
ý nghĩa rằng nếu ai đó hưởng lợi cha ta: phải chọn dùng các
từ một công việc hay công hiến vật dụng không cao sang,
nào đó, họ nên biết ơn và nhớ đến hào nhoáng nhưng chắc
người đã làm ra điều đó cho họ chắn, dùng được lâu.
Bang 1.1: Sự khác nhau về nghĩa đen và nghĩa bóng của các câu thành ngữ, tục ngữ
Đặc trưng của văn bản tiếng Việt vốn di phức tạp, có sự khác nhau giữa nhiều
vùng miền và đa ý nghĩa trong từng bình luận Chính vì vậy việc phân tích, bóctách khái niệm về tục ngữ, thành ngữ trong các văn bản tiếng Việt là cực kỳ quantrọng Ngoài ra, do tính đa nghĩa của một ký tự duy nhất nên ngay cả những thànhngữ, tục ngữ cấu thành đó cũng có khả năng có sự mơ hồ, điều này cũng tháchthức kha năng của máy tính dé chọn lựa thành ngữ, tục ngữ chính xác trong mộtngữ cảnh nhất định
Trang 24Chương 1 TONG QUAN 3
1.2 Muc tiêu của khóa luận
Trong khóa luận này, tôi tập trung nghiên cứu các phương pháp để xây dựng một
hệ thống có thê đọc hiểu các câu tục ngữ, thành ngữ Tiếng Việt Cụ thê, tôi đặt ra từng
mục tiêu như sau:
e - Xây dựng bộ dữ liệu Vietnamese Idioms Dataset (ViID), bộ dữ liệu
dành cho tiếng Việt đầu tiên bao gồm các văn bản đã chứa các câu
thành ngữ, tục ngữ bên trong Bộ dữ liệu được kỳ vọng giúp các mô
hình huấn luyện mang lại hiệu suất cao nhờ các phân tích, bóc tách đặctrưng và định nghĩa khái niệm về tục ngữ, thành ngữ trong các văn bảntiếng Việt
e _ Thí nghiệm da dạng các mô hình huấn luyện đã được chứng minh tính
hiệu quả cho bài toán Machine Reading Comprehension trên các mô
hình học sâu, học chuyên tiếp đa ngôn ngữ và đơn ngôn tiếng Việt và
so sánh, phân tích và đưa ra kết luận về tính hiệu quả của từng mô hìnhtrên từng thí nghiệm với mục tiêu tìm ra mô hình cho hiệu suất caonhất cũng như các thách thức tồn tại trong bộ dữ liệu VIID
1.3 Đối tượng nghiên cứu:
Thành ngữ, tục ngữ Việt Nam là kho tàng văn học dân gian mang nhiều hàm ýsâu sắc, thể hiện kinh nghiệm sống của ông cha ta từ bao đời nay Các câu thành
ngữ, tục ngữ có tính đa nghĩa của chúng nên việc nghiên cứu về bài toán đọc hiểuthành ngữ, tục ngữ tiếng Việt cũng là vấn đề mang nhiều thách thức Trong khóa
Trang 25Chương 1 TONG QUAN 4
luận này, có hai mục tiêu chính tôi sé thực hiện Đầu tiên tôi sẽ xây dựng bộ ngữliệu về thành ngữ, tục ngữ tiếng Việt Sau đó, tôi sẽ tìm hiểu các phương pháp đểhuấn luyện mô hình đọc hiểu thành ngữ, tục ngữ tiếng Việt cũng như kiểm tra tính
khả thi của bộ ngữ liệu đã tạo.
1.4 Pham vi nghiên cứu
Tuy đề tài hiện đang ở mức sơ khởi nhưng phạm vi áp dụng là vô cùng lớn Cụ
thé, nghiên cứu về đọc hiểu tự động trên thành ngữ, tục ngữ tiếng Việt với nguồn
thu thập chính là các văn bản trên không gian mạng Công trình nghiên cứu này là
một bước đệm giúp cho các hệ thống đọc hiéu trích xuất văn bản tiếng Việt xử lýthông tin mượt mà hơn, tránh tình trạng nhập nhang khi xử lý những văn bản chứa
thành ngữ, tục ngữ.
1.5 Cấu trúc khóa luận:
Khoá luận được chia thành 5 chương với các nội dung chính như sau:
° Chương 1: Tổng quan
Giới thiệu bài toán nhận diện chuỗi xúc phạm, phản cảm có trong bình
luận mạng xã hội tiếng Việt Tầm quan trọng và tính ứng dụng của khoá
luận vào thực tế đời sống trong bối cảnh phát triển mạnh mẽ của nền tảng
trực tuyến hiện tại
° Chương 2: Các nghiên cứu liên quan và cơ sở lý thuyết
Giới thiệu một vài các công trình nghiên cứu liên quan dén bài toán đọc
Trang 26Chương 1 TONG QUAN 5
hiểu máy nói chung cũng một số công trình về thành ngữ tiếng Trung va
cơ sở lý thuyết
° Chương 3: Xây dựng bộ dữ liệu
Giới thiệu bộ dữ liệu Vietnamese Idiom Dataset (VIID) Tôi sẽ trình bày
quy trình xây dựng bộ dữ liệu cu thé theo từng bước kèm theo phân tích
về các đặc điểm ngôn ngữ đặc thù kèm phương pháp tiếp cận giải quyết,
đưa ra những thống kê cơ bản cho bộ dữ liệu ViID
° Chương 4: Thực nghiệm và đánh giá
Thí nghiệm các mô hình học sâu, học chuyền tiếp đa ngôn ngữ và đơnngôn ngữ dành riêng cho tiếng Việt trên bộ dữ liệu ViID Phân tích kếtquả của từng mô hình, sau đó tiễn hành so sánh, đánh giá và kết luận vềhiệu suất của từng loại mô hình
° Chương 5: Kết luận, hạn chế và hướng phát triển
Tổng kết các kết quả đạt được của khoá luận, nêu lên những hạn chế còntồn tại và định hướng phát triển của khoá luận trong tương lai
Trang 27Chương 2 CÁC NGHIÊN CUU LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 6
nghiên cứu về bài toán đọc hiểu tự động Phần 2.2 sẽ giới thiệu các kiến trúc cơ sở
cần thiết dé xây dựng bộ dữ liệu cũng như giải quyết bài toán liên quan đến bộ dữ
liệu.
2.1 Các công trình nghiên cứu liên quan
Liên quan đến nghiên cứu của khóa luận tốt nghiệp, tôi tập trung trình bài
những bộ dữ liệu liên quan đến thành ngữ đã giới thiệu trước đó (Mục 2.1.1) vànhững bộ dữ liệu liên quan đến bài toán MRC (Mục 2.1.2) Ngoài ra, bảng 2.1 sosánh chỉ tiết các bộ dit liệu tôi đã đề cập với bộ dit liệu ViID tôi đã xây dựng
2.1.1 Các bộ dữ liệu thành ngữ, tục ngữ đã có
Trang 28Chương 2 CÁC NGHIÊN CUU LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 7
Thành ngữ luôn là chủ đề gây ra nhiều khó khăn trong lĩnh vực NLP, tuy nhiên
trong những năm gần đây, có nhiều nghiên cứu về thành ngữ đã được công bó, có
thé kê đến một vài bộ dit liệu nổi bật như IMIL hay ChID, cụ thé:
° IMIL [3]: Bộ dữ liệu IMIL là bộ dữ liệu song song đa ngôn ngữ ảnh xa
2208 thành ngữ thường được sử dụng bằng tiếng Anh sang bản dịch của chúngbang bảy ngôn ngữ Ấn Độ: Hindi, Urdu, Bengali, Tamil, Gujarati, Malayalam va
Telugu Các thành ngữ cũng được chú thích bang những cảm xúc thích hop màchúng truyền tải và ý nghĩa của chúng trong các ngôn ngữ tương ứng Tập dữ liệu
kết quả có kích thước 47.382 câu (Tập huấn luyện - 46200, tập phát triển - 1432,tập thử nghiệm - 2200) Các thành ngữ được thu thập trên các website kết hợp vớinhững thành ngữ được tông hợp từ kho ngữ liệu tiếng Anh Mỹ nổi tiếng khác, bao
gồm American National Corpus (ANC) (Ide và Suderman, 2004); Tập hợp tiếng
Anh học thuật Michigan (MICASE) (Simpson va cộng su, 2002), và Brown
Corpus (Francis và Kucera, 1979).
° ChID [4]: ChID chứa 581K đoạn văn va 729K khoảng trống từ ba miền
(tin tức, tiêu thuyết và tiêu luận) được chia thành ba tập huấn luyện, xác thực vàkiểm tra với tỉ lệ lần lượt là: 520711 (93%), 20000 (3.5%), 20000 (3.5%), thànhngữ được thu thập từ tập thành ngữ tiếng Trung Daquan, các văn bản được thuthập từ các tiểu thuyết và tiêu luận Internet cũng như các bài báo do Sun và cáccộng sự của ông cung cấp (2016) [5]
2.1.2 Các bộ dữ liệu liên quan đến bai toán MRC:
Do lĩnh vực MRC có nhiều nghiên cứu, trong khóa luận tốt nghiệp này tôi chỉ
tập trung vào các bộ dữ liệu liên quan trực tiếp như CNN/DailyMail, Children”s
Trang 29Chương 2 CÁC NGHIÊN CUU LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 8
Book Test, The 1st Evaluation on Chinese Machine Reading Comprehension,
New Vietnamese Corpus for Machine Reading Comprehension of Health News
Articles, Vietnamese Question Answering Dataset.
° CNN/DailyMail [6]: Bộ dữ liệu CNN/Daily Mail là bộ dữ liệu bao gồmhơn 300,000 bài báo được viết bởi các nhà báo ở hai tòa soạn CNN và Daily Mail,
bộ dữ liệu được chia thành 287,113 mẫu đữ liệu để huấn luyện, 13,368 dé xác thực
va 11,490 dé kiểm tra Trung bình, có khoảng 28 câu trong mỗi tài liệu trong bộ
huấn luyện Bộ dữ liệu này bao gồm phiên bản an danh và phiên bản không ân
danh Phiên bản đầu tiên là tất cả các tên thực thé của dữ liệu được thay thé bằng
các từ thẻ đặc biệt, trong khi phiên bản thứ hai là dữ liệu gốc Dữ liệu CNN/Daily
Mail bao gồm nhiều cặp tài liệu-tóm tắt, mỗi cặp tương ứng với một vải câu đượcđánh dấu trong tài liệu được chú thích thủ công
° Children’s Book Test [7]: Children’s Book Test được thiết kế để kiểmtra vai trò của trí nhớ và ngữ cảnh trong việc xử lý và hiểu ngôn ngữ Bài kiểm tra
yêu cầu dự đoán về các loại từ còn thiếu khác nhau trong sách dành cho trẻ em,
dựa trên cả những từ gần đó và bối cảnh rộng hơn từ cuốn sách Bộ đữ liệu đượcthu thập từ những cuốn sách được cung cấp miễn phí nhờ dự án Gutenberg [8].Việc sử dụng sách dành cho trẻ em đảm bảo cau trúc tường thuật rõ ràng, điều này
có thé làm cho vai trò của bối cảnh trở nên nồi bật hon
° The Ist Evaluation on Chinese Machine Reading Comprehension
(CMRC-2017) [9]: Bộ dữ liệu dang cloze-style reading comprehension của Trung
Quốc được tạo tự động quy mô lớn, được thu thập từ tài liệu đọc của trẻ em Mặc
dù tao dữ liệu dao tạo tự động, các bộ dữ liệu đánh giá của CMRC-2017 (xác thực
và kiểm tra) được chú thích thủ công Dé tăng thêm sự đa dạng và điều tra sâu hon
Trang 30Chương 2 CÁC NGHIÊN CUU LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 9
về transfer learning, nhóm tác giả cũng cung cấp một bộ đữ liệu đánh giá khác
cũng được con người chú thích, nhưng truy vấn tự nhiên hơn loại cloze
° New Vietnamese Corpus for Machine Reading Comprehension of
Health News Articles (UIT-ViNewsQA) [10]: ViNewsQA bao gom hon 22.000
cặp câu hỏi-câu trả lời do con người tạo ra dựa trên hon 4.400 bai báo trực tuyếntrong lĩnh vực y tế Kho ngữ liệu này được cung cấp công khai cho nghiên cứu xử
lý ngôn ngữ tiếng Việt và cả cho các nghiên cứu đa ngôn ngữ cùng với các kho tàiliệu tương tự khác như NewsQA [11] (cho tiếng Anh), CMRC (cho tiếng Trung)[12], FQuAD (cho tiếng Pháp) [13] và KorQuAD [14] (cho tiếng Hàn) Bộ ngữliệu được phân tích theo các khía cạnh ngôn ngữ khác nhau, bao gồm dựa trên từ
vựng, ba loại độ dài (câu hỏi, câu trả lời và mạo từ), ba loại dựa trên nội dung (câu
hỏi, câu trả lời và lý luận) và mối tương quan giữa dựa trên loại và độ dài câu trả
lời, từ đó cung cấp những hiểu biết toàn điện về bộ dữ liệu
° Vietnamese Question Answering Dataset (UIT-ViQuAD): [15]
ViQuAD bao gồm 23.074 cặp câu hỏi-câu trả lời do con người tạo ra dựa trên5.109 đoạn của 174 bài viết Wikipedia tiếng Việt Tập dữ liệu được phân tích theocác khía cạnh ngôn ngữ khác nhau bao gồm phân tích theo độ dài (độ dài câu hỏi,
độ dài câu trả lời và độ dài đoạn văn) và phân tích dựa trên loại (loại câu hỏi, loại
câu trả lời và loại lý luận) UIT-ViQuAD có thể dùng làm nguồn tài nguyên cho
nghiên cứu đa ngôn ngữ cùng với các bộ dữ liệu tương tự khác như SQuAD,
CMRC và KorQuA.
Dữ liệu Giải quyết | Ngôn ngữ Kích thước Nguồn thu
bài toán thập
Trang 31Chương 2 CÁC NGHIÊN CUU LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 10
IMIL MT vaSA |7ngônngữÁn | 47.382 câu (Tập | Website kết
Độ gồm: Hindi, | huấn luyện - hợp với những
Urdu, Bengali, | 46200, tập phát | thành ngữ
Tamil, Gujarati, | triển - 1432,tập | được tổng hợp
Malayalam và | thử nghiệm — từ kho ngữ liệu
Telugu 2200 tiếng Anh Mỹ.
ChID Cloze-style | Tiéng Trung 581K đoạn văn | Tin tức, tiểu
MRC Quốc và 729K thuyết và tiểu
luận
CNN/Daily | Cloze-style | Tiếng Anh 287,113 mẫu đữ | CNN và Daily
Mai MRC liệu đểhuẩn | Mail
luyện, 13,368 để
xác thực và
11,490 đề kiểm
tra
Children’s | Cloze-style | Tiếng Anh 669,343 mau dữ | Sách dành cho
Book Test | MRO liệu huấn luyện, | trẻ em
8,000 mẫu xác
thực và 10,000
mẫu kiểm tra
CMRC- Cloze-style | Tiéng Trung 354,295 mẫu dữ | Mã nguồn mở
2017 MRC Quéc liệu dé huấn
luyện, 2,000 dé
xac thuc va
Trang 32Chương 2 CÁC NGHIÊN CUU LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 11
MRC 23074 câu hỏi nguôn mở)
VIID Cloze-style | Tiếng Việt 3639 mẫu đữ liệu | Internet
MRC
dé huấn luyện,
363 mẫu xác thực và 363 mẫu
kiêm tra
Bảng 2.1: Khảo sát sơ bộ về bộ đữ liệu ViID và các bộ dữ liệu liên quan
2.2 Cơ sở lý thuyết
2.2.1 Bidirectional Transformers for Language Understanding:
BERT [16] là một kiến trúc mới cho lớp bài toán Language Representationđược Google công bố vào năm 2019 Không giống như các mô hình trước đó [17],BERT được thiết kế dé đào tạo ra các vector đại diện cho ngôn ngữ văn bản thông
qua ngữ cảnh 2 chiều (trái và phải) của chúng Kết quả là, vector đại điện được
sinh ra từ mô hình BERT được tính chỉnh với các lớp đầu ra bé sung đã tạo ra
nhiêu kiên trúc cải tiên đáng kê cho các nhiệm vụ xử lý ngôn ngữ tự nhiên như
Question Answering, Language Inference, mà không cần thay đổi quá nhiều từ
các kiên trúc cũ.
BERT là một khái niệm đơn giản nhưng lại mang lại hiệu quả cực lớn trong
Trang 33Chương 2 CÁC NGHIÊN CUU LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 12
thực tế Nó đã thu được kết quả tối ưu mới nhất cho 11 nhiệm vụ xử lý ngôn ngữ
tự nhiên, bao gồm việc đây kết quả của nhiệm vụ GLUE benchmark lên 80.4%(caitiến thêm 7.6%) và SQuAD v.1.1 [18] với F1 score trên tập test đạt 93.2%(cai tiếnthêm 1.5%), tốt hơn con người 2%
Lớp bài toán Representation cho mô hình ngôn ngữ đã cho thấy hiệu quả trong
việc cải thiện nhiều nhiệm vụ trong lĩnh vực xử lý ngôn ngữ tự nhiên Những
nhiệm vu này có thé là những nhiệm vụ cấp câu như Natural language inference[19], Paraphrasing nham dự đoán mối quan hệ giữa các câu bang cách phân tíchtong thé chúng và cũng có thé là những nhiệm vụ cấp từ như nhận dang thực thé
có tên (NER), Question Answering với yêu cầu trả ra kết quả chính xác cho câu
hỏi ở dạng từ.
Tuy nhiên, các kỹ thuật hiện tại bị hạn chế rất nhiều trong việc thể hiện khả
năng của các mô hình vector đại diện, đặc biệt là hướng tiếp cận fine-tuning Hạn
chế chính ở đây là do các mô hình ngôn ngữ được xây dựng dựa trên ngữ cảnh 1
chiều gây nên sự hạn chế trong việc lựa chọn mô hình kiến trúc được sử dụng
trong quá trình sử dụng pre-training Vi dụ như trong OpenAI GPT [20], các tác
giả sử dụng kiến trúc left-to-right, nghĩa là các tokens chỉ phụ thuộc vào các token
ở trước đó.
2.2.1.1 Kiến trúc:
Kiến trúc của mô hình BERT là một kiến trúc đa tầng gồm nhiều lớpBidirectional Transformer encoder dựa trên bản mô tả đầu tiên của Vaswani và các
cộng sự (2017) [21]va sự phát hành trong thư viện tensor2tensor.
Giả sử L là số lớp Transformer (blocks) được sử dụng với kích thước của cáclớp ân là H và số heads ở lớp attention là A Trong mọi trường hợp, kích thước của
Trang 34Chương 2 CÁC NGHIÊN CUU LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 13
bộ lọc(filter size) luôn được đặt bằng 4H Điều này có nghĩa là khi H = 768 thì
filter size = 3072 và hoặc khi H = 1024 thì filter size = 4096 Báo cáo chủ yếu laykết quả trên 2 kích thước mô hình:
e PERTpasg:L = 12,H = 768,A = 12,Total Parameters = 110M
e BERT arge: L = 24,H = 1024,A = 16,Total Parameters = 340M
BERT đã được chọn dé có một kích thước mô hình giống hệt như mô hình
OpenAI GPT dé nhằm mục dich so sánh giữa 2 mô hình này Tuy nhiên, một cáchđơn giản dé so sánh, BERT Transformer sử dụng các attention 2 chiều trong khiGPT Transformer sử dụng các attention 1 chiều (không tự nhiên, không hợp với
cách mà xuất hiện của ngôn ngữ), nơi mà tất cả các từ chỉ chú ý tới ngữ cảnh trái
của nó.
Có một chú thích nhỏ rằng, một Transformer 2 chiều thường được gọi là
Transformer encoder trong khi các phiên ban Transformer chỉ sử dụng ngữ cảnh
bên trái thường được gọi là Transformer decoder vì nó có thể được sử dụng để tạo
ra văn bản Sự so sánh giữa BERT, OpenAI GPT và ELMo [17] được hiện thị 1
cách trực quan dưới đây:
Hình 2.1: Sự khác biệt của BERT so với các mô hình đào tạo trước đó
Trang 35Chương 2. CÁC NGHIÊN CUU LIEN QUAN VA CƠ SỞ LÝ THUYET 14
2.2.1.2 Biểu diễn đầu vào:
Đâu vào có thê là biêu diễn của một câu văn bản đơn hoặc một cặp câu văn
bản(ví dụ:
Khi có
[Câu hỏi, câu trả lời]) được đặt thành 1 chuỗi tạo bởi các từ.
một chuỗi đâu vào cụ thê, biêu diễn đâu vào được xây dựng băng cách tính tông các token đó với vector phân đoạn và vi tri trong ứng của các từ trong
Hình 2.2: Biểu diễn đầu vào của mô hình BERT
Một sô điêm cân chú ý:
Sử dụng WordPiece embeddings (Wu và các cộng sự, 2016) [22] với
một từ dién 30.000 từ và sử dụng ## làm dấu phân tách Ví dụng từ
playing được tách thành play##ing.
Sử dụng positional embeddings với độ dài câu tối đa là 512 tokens
Token đầu tiên cho mỗi chuỗi được mặc định là một token đặc biệt cógiá trị là [CLS] Đầu ra của Transformer(hidden state cuối cùng) tương
ứng với token này sẽ được sử dụng đê đại diện cho cả câu trong các
Trang 36Chương 2 CÁC NGHIÊN CUU LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 15
nhiệm vụ phân loại Nếu không trong các nhiệm vụ phân loại, vector
này được bỏ qua.
e Trong trường hợp các cặp câu được gộp lại với nhau thành một chuỗi
duy nhất, có thể phân biệt các câu theo 2 cách Đầu tiên, phải tách
chúng bo một token đặc biệt [SEP] Thứ hai, thêm một segment
embedding cho câu A và một segment embedding khác cho câu B như
hình vẽ.
e Khi chỉ có 1 câu đơn duy nhất, segment embedding chỉ có cho câu A
2.2.1.3 Các tác vụ của BERT:
Có thể đào tạo BERT bằng cách sử dụng 2 nhiệm vụ dự đoán không giám sát
được gọi là Masked Language Model [23] và Next Sentence Prediction [24].
2.2.1.3.1 Mask Language Model:
Trực quan mà thấy, một mô hình học sâu được học dựa trên ngữ cảnh 2 chiều
là tự nhiên và mạnh mẽ hơn nhiều so với một mô hình chỉ dùng ngữ cảnh từ trái
qua phải (hoặc ngược lại).
Tuy nhiên, thật không may, các mô hình ngôn ngữ trước đây chỉ có thé dao
tạo từ trái qua phải hoặc từ phải qua trái Lý do được lý giải là vì khi sử dụng ngữ
cảnh 2 chiều sẽ gây ra một nghịch lý là một từ có thể gián tiếp tự nhìn thấy nó
trong một ngữ cảnh nhiều lớp
Đề đào tạo một mô hình tìm ra đại diện dua vào ngữ cảnh 2 chiều, có thể sử
dụng một cách tiêp cận đơn giản đê che giau đi một sô token dau vào một cách
Trang 37Chương 2 CÁC NGHIÊN CUU LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 16
ngẫu nhiên và sau đó chỉ dự đoán các token được giấu đi đó và gọi nhiệm vụ này
như là một "masked LM" (MLM) Trong trường hợp này, các hidden vectors ở
lớp cuối cùng tương ứng với các tokens được ân di được đưa vào | lớp softmax
trên toàn bộ từ vựng dé dự đoán Các nhà nghiên cứu của Google đã thử nghiệm
mask 15% tất cả các token lấy từ từ điển của WordPiece trong câu một cách ngẫu
nhiên là chỉ dự đoán các từ được mask.
Mặc dù điều nảy có thể tạo ra một mô hình đào tạo 2 chiều, nhưng có 2 nhược
điểm tồn tại Đầu tiên có một sự không phù hợp giữa pre-train và fine-tuning vì
các token được [MASK] không bao giờ được nhìn thấy trong quá trình tinh chỉnh
mô hình Dé giảm thiêu điều này, không phải lúc nào cũng thay thé các từ được
giấu đi bằng token [MASKT Thay vào đó, trình tạo dữ liệu đào tạo chọn 15%
tokens một cách ngẫu nhiên và thực hiện các bước như sau:
Ví dụ với câu: "con_cho của tôi dep qué" Từ được chọn dé mask là từ "đẹp"
e Thay thé 80% từ được chon trong đữ liệu huấn luyện thành token
[MASK] — "con chó của tôi [MASK] qua"
e 10% các từ được chọn sẽ được thay thé bởi 1 từ ngẫu nhiên >
"con_ chó của tôi máy_ tính qua"
e_ 10% còn lại được giữ không thay đổi > "con_cho của tôi dep quá"
Transformer encoder không hề biết được từ nao sẽ được yêu cầu dự đoán hoặc
từ nào đã được thay thế bằng một từ ngẫu nhiên, do đó, nó buộc phải giữ một
biểu dién theo ngữ cảnh của mối token đầu vào Ngoài ra, do thay thế 1.5% tat cả
các tokens bằng một từ ngẫu nhiên nên điều này đường như sẽ không làm ảnh
hưởng tới khả năng hiểu ngôn ngữ của mô hình
Nhược điểm thứ 2 của việc sử dụng MLM là chỉ có 15% tokens được dự đoán
trong moi lô, điêu này gợi ý một điêu là có thê cân thêm các các bước sử dụng
Trang 38Chương 2 CÁC NGHIÊN CUU LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 17
các pre-train model khác đề mô hình hội tụ
2.2.1.3.2 Next Sentence Prediction:
Nhiéu nhiém vu quan trong trong xu lý ngôn ngữ tự nhiên như Question
Answering yêu cầu sự hiểu biết dựa trên mối quan hệ giữa 2 câu văn bản, không
trực tiếp sử dụng được các mô hình ngôn ngữ Đề đào tạo được mô hình hiểu
được mối quan hệ giữa các câu, phải xây dựng một mô hình dự đoán câu tiếp theo
dựa vào câu hiện tại, dữ liệu huấn luyện có thể là một corpus bat ky nao Cu thé,
khi chon câu A và câu B cho mỗi training sample, 50% kha năng câu B là câu
tiếp theo sau câu A và 50% còn lại là một câu ngẫu nhiên nào đó trong corpus
Vị dụ:
Input: [CLS] người đàn ông làm [MASK] tại cửa hàng [SEP] anh ta rat
[MASK] và thân thiện [SEP]
Label: isNext
Input: [CLS] người dan_dng lam [MASK] tại cửa hàng [SEP] cô_ ta dang
cam súng [SEP]
Label: notNext
Chon những cau notNext một cach ngau nhiên va mô hình cuối cùng đạt được
độ chính xác 97%-98% trong nhiệm vụ này.
2.2.2 Hệ thống hỏi đáp:
Hệ thống hỏi đáp tự động (QA) là một bài toán lớn trong NLP, yêu cầu kết
hợp nhiều tác vụ khác nhau, nhằm xây dựng, hỗ trợ và phát triển tính năng giao
tiếp của Trí tuệ nhân tạo AI Khác với các công cụ tìm kiếm, chỉ thực hiện “truy
Trang 39Chương 2 CÁC NGHIÊN CUU LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 18
xuất tài liệu” có chứa từ khóa yêu cầu, hệ thống hỏi đáp tự động được thiết kế dé
đưa ra câu trả lời cụ thể cho các truy vấn Hệ thống QA hiện nay được phân thành
02 loại chính: hệ thống QA miền mở (open-domain QA systems — gần như có kha
năng trả lời mọi câu hoi) và hệ thống QA miền đóng (closed- domain QA systems
— chỉ phản hồi các câu hỏi trong một số lĩnh vực cụ thể) Cau trúc của hệ thống
QA bao gồm 03 modules: Xử lý tài liệu; Xử lý câu hỏi và Hỏi đáp
Hiện này có 2 cách tiếp cận chính cho bài toán xây dựng hệ hỏi đáp tự động
đó là hỏi đáp dựa trên hệ tri thức (Knowledge-based question answering) va hỏi
đáp dựa trên đọc hiểu (MRC):
e Hỏi đáp dựa trên hệ tri thức: với cach tiếp cận này hệ thống cần trích
xuất được thực thê cũng như mối quan hệ của thực thể được đề cập
trong câu hỏi Dựa vào những thông tin này, câu trả lời sẽ được tìm
trong hệ tri thức dựa trên các suy diễn trong hệ đó.
e Hỏi đáp dựa trên đọc hiểu: Day là cách tiếp cận hiện đại cho bài toán
hỏi đáp tự động, dựa trên cơ chế attention giữa câu hỏi và đoạn văn bản(chứa câu trả lời) để tìm ra các cụm từ là câu trả lời cho câu hỏi đó
Cách tiếp cận này mô phỏng quá trình chúng ta đọc một văn bản rồi trả
lời các câu hỏi liên quan đến văn bản đó, nó giống như phần thi đọc
hiểu trong các kì kiểm tra tiếng Anh thường gặp
Inputs : Output
Question Answer Which name is also used to Amazonia
describe the Amazon Question
rainforest in English? Answering
Context Model
The Amazon rainforest, also known in English as Amazonia
or the Amazon Jungle #
Hình 2.3: Ví dụ về kiến trúc cơ bản của mô hình QA