Khóa luận tốt nghiệp Khoa học máy tính: Nghiên cứu về đọc hiểu tự động cho thành ngữ tiếng Việt

Sinh viên thực hiện: Lớp: KHCL2020.2 Email: 20521517 @gm.uit.edu.vn Dién thoai: 0868516729 Nội dung đề tai:M6 ta chỉ tiết mục tiêu, phạm vi, doi tượng, phương pháp thực hiện, kết quả mo

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

NGUYEN THÀNH LAM - 20521517

KHÓA LUẬN TOT NGHIỆP

MACHINE READING COMPREHENSION

FOR VIETNAMESE IDIOMS

CU NHAN NGANH KHOA HOC MAY TINH

GIANG VIEN HUONG DAN

PGS.TS NGUYEN LUU THUY NGAN

THS NGUYEN VAN KIET

TP HO CHi MINH, 2024

Trang 2

DANH SÁCH HỘI ĐÒNG BẢO VỆ KHÓA LUẬN

Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số -. -:

TĐẦY se của Hiệu trường Truong Dai học Công nghệ Thông tin.

= cee eeeeee eee eeeeeeeeeeeeeeeesaaaneeeeeeaaeeeeeeea - Chủ tịch.

2 - Thư ký

LH TK - Ủy viên

Trang 3

ĐẠI HỌC QUỐC GIA TP HO CHÍMINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIET NAM

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Độc Lập - Tự Do - Hạnh Phúc

THÔNG TIN —

TP HCM, ngay thang ndm

NHAN XET KHOA LUAN TOT NGHIEP

CUA CAN BO HUONG DAN

Tên khóa luân:

NGHIÊN CUU VE ĐỌC HIẾU TỰ DONG CHO THÀNH NGỮ TIENG VIET

SV thực hiện: Cán bộ hướng dẫn:

Nguyễn Thành Lâm 20521517 PGS.TS.Nguyễn Lưu Thùy Ngân

ThS Nguyễn Văn Kiệt

Đánh giá Khóa luận

1 Vé cuôn báo cáo:

Số trang Số chương

SO bảng sô liệu Sô hình vẽ

Sô tài liệu tham khảo Sản phâm

Một sô nhận xét về hình thức cuôn báo cáo:

3 Về chương trình ứng dụng:

Trang 4

Điểm từng sinh viên:

Nguyễn Thành Lâm 0

Người nhận xét

(Ký tên và ghi rõ họ tên)

Trang 5

ĐẠI HỌC QUỐC GIA TP HO CHÍMINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIET NAM

THÔNG TIN ——

TP HCM ngày tháng năm

NHẬN XÉT KHÓA LUẬN TÓT NGHIỆP

CUA CÁN BO PHAN BIEN

Tên khóa luân:

NGHIÊN CỨU VE ĐỌC HIEU TỰ ĐỘNG CHO THÀNH NGỮ TIENG VIỆT

SV thực hiện: Cán bô phản biên:

Nguyễn Thành Lâm 20521517 c cceeerriec

Đánh giá Khóa luận

1 Vé cuôn báo cáo:

Số trang - Số chương

So bang sô liệu Sô hình vẽ

Sô tài liệu tham khảo Sản phâm

Một sô nhận xét vê hình thức cuôn báo cáo:

3 Về chương trình ứng dụng:

Trang 6

Điểm từng sinh viên:

Nguyễn Thành Lâm 0

Người nhận xét

Trang 7

ĐẠI HỌC QUỐC GIA TP HO CHÍMINH CONG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

THÔNG TIN ——————

DE CUONG CHI TIẾT

Tên đề tài: Nghiên cứu về đọc hiểu tự động cho thành ngữ tiếng Việt

Tên đề tài tiếng Anh: Machine reading comprehension for Vietnamese idioms

Ngôn ngữ thực hiện: Tiếng Việt

Cán bộ hướng dẫn: PGS.TS Nguyễn Lưu Thùy Ngân

ThS Nguyễn Văn Kiệt

Thời gian thực hiện: Từ ngày 18/09/2023 đến ngày 30/12/2023

Sinh viên thực hiện:

<Nguyễn Thành Lâm — 20521517> Lớp: KHCL2020.2

Email: 20521517 @gm.uit.edu.vn Dién thoai: 0868516729

Nội dung đề tai:(M6 ta chỉ tiết mục tiêu, phạm vi, doi tượng, phương pháp thực hiện,

kết quả mong đợi của dé tài)

e_ Mục tiêu, phạm vi và đối tượng của đề tài:

Xây dựng một bộ ngữ liệu về các câu tục ngữ, thành ngữ tiếng Việt giúp cung cấp

cho máy tính một nguồn dữ liệu về thành ngữ tiếng Việt có khả năng đọc hiểu tự

động các văn bản chứa thành ngữ tiếng Việt với độ chính xác cao

Bộ ngữ liệu được thu thập trên kho tàng tục ngữ, thành ngữ Việt Nam gồm có các

câu ca dao, thành ngữ, tục ngữ Việt Nam và các văn bản liên quan đến chúng

dữ liệu.

Figure 1: Quy trình thu thập và đánh gia bộ dit liệu

Trang 8

1 Xây dựng bộ dữ liệu thành ngữ tiếng Việt:

Quá trình xây dựng bộ dữ liệu gồm có 3 giai đoạn: Thu thập các câu ca dao, tục ngữ,thành ngữ tiếng Việt; thu thập các văn bản chứa các câu tục ngữ, thành ngữ tiếng Việt

và phân loại văn bản dựa trên danh sách các câu tục ngữ, thành ngữ đã thu thập trước đó; gán nhãn đữ liệu.

Giai đoạn 1: Thu thập các câu ca dao, tục ngữ, thành ngữ tiếng Việt:

Sử dụng mã nguồn mở là thư viện BeautifulSoap dé tạo ra một crawler thu thap caccâu thành ngữ, tục ngữ từ các văn bản tiếng Việt có sẵn trên Internet Crawler sẽ thuthập các câu thành ngữ và các văn bản liên quan nhưng không chứa thành ngữ Cuốicùng sẽ trả về một file chứa dit liệu thô và tôi sẽ tiến hành bước lọc ra những câu tụcngữ, thành ngữ dé chuẩn bị cho bước tiếp theo

Ác giả ác báo

Ách giữa đàng, mang qua cổ

Ăn quả nhớ kẻ trồng cây

cây nào rào cây nãy

cháo đá bát vóc học hay

i chết trước thì được mồ ma

i giàu ba ho, ai khó ba đời

i làm dữ nay lo

i nhân như kỷ

Figure 2: Minh họa danh sách thành ngữ đã xử lý xong ở giai đoạn 1

Giai đoạn 2: Thu thập các văn bản liên quan đến các câu tục ngữ, thành ngữtiếng Việt và phân loại văn bản:

Trang 9

Từ danh sách thành ngữ đã thu thập được ở bước 1, tôi sẽ tiễn hành thu thập các văn

bản tiếng Việt liên quan đến chúng, sắp xếp các văn bản đã thu thập theo từng thành

ngữ cũng như loại bỏ đi những thành ngữ ít được sử dụng (không có văn bản chứa thành ngữ tương ứng).

Bác gà ác báo txt

BE Ac nhàn tự hữu ác nhân ma txt

H Ai giau ba họ, ai khó ba đời.txt Bái nhân như kýxc

BB Ai vác dui duc di hỏi vợt

BB An bat cơm dẻo, nhớ nẻo đường ditxt

BE An tớ: bát, nói bớt nhời rét

EB An tụi tre, dé bụi hép.tet

EB An cá nha xương, ăn đường nuốt cham.txt

Figure 3: Danh sách các văn ban đã thu thập được phân loại theo thành ngữ

Thành ngữ Ac giả, ác báo

Doan van 1 Ac giả ác báo ý nói những người từng làm việc ác, có lúc sé gặp lại

báo ứng vì những hành động sai trái của mình Bạn sông như thê

nao thi sẽ nhận lại kêt quả như thê ay, đó là quy luật hiên nhiên.

Đoạn văn 2 Bạn có tin vào luật nhân quả ở trên đời không? Tin răng nếu chúng

ta sống thiện sẽ gặp quý nhân giúp đỡ, còn bằng sống thất đức thì sẽphải chịu bị trừng phạt thích đáng? Ông bà ta bảo “Co kiêng mới cólành” nên dù có tin hay không thì sống cân thận vẫn hơn Ranh giớigiữa thiện và ác đôi khi rất mong manh Sống sao mới gọi là ác, cònthế nảo là lương thiện? Chung quy thiện hay ác là do định nghĩa của

mỗi người, cân nhất là sống đúng với lương tâm của mình và làm

những điều minh cho là hợp lý Cân thận đừng dé “Ac gid ác báo”

rồi mới hối hận cũng không kịp nữa

Table 1: Minh họa khi mở file "Ac giả ác báo.txt"

Trang 10

Hình 3 là các file với tiêu đề là các câu thành ngữ và nội dung của chúng được minhhọa ở bảng 1 với dòng đầu tiên là thành ngữ và các dòng tiếp theo là các văn bản có

chứa thành ngữ ở dòng đầu tiên

Nếu so với hình 2 là hình minh họa danh sách thành ngữ đã thu thập được, chúng ta

có thê thấy hình 3 thiếu một vài thành ngữ, ví dụ: “Ai làm đữ nấy lo”, thành ngữ nàykhông xuất hiện vì không có bat kì văn bản nào liên quan đến

Giai đoạn 3: Gán nhãn bộ dữ liệu:

Trong giai đoạn này, tôi tiến hành kiểm tra từng đoạn văn bản đã thu thập và chuyểncác câu thành ngữ xuất hiện trong văn bản thành các ô trống [BLANK] tương ứng

và lưu lại dit liệu mới dưới dạng json bao gồm các thành phần như: context ¡d,

answer, choices, context Bang 2 là một ví dụ minh họa bộ dữ liệu sau khi gan nhãn:

Context_id TRAIN_0

Answer Có công mài sắt có ngày nên kim

Choices [ "Giac bên Ngô không băng bà cô bên chong",

"Học một biết mười",

"Cái nết đánh chết cái đẹp",

"Có công mài sắt có ngày nên kim"]

Context Câu tục ngữ [BLANK] là một bai học quý gia ma cha ông

đã dé lại cho chúng ta Đó là lời đúc kết từ hàng ngàn năm

chiến đấu và lao động, để cho mỗi cá nhân chúng ta hôm nay

có thé lay đó là gương mà noi theo, mà học tập theo Muốn

có được thành công thì đức tính đầu tiên phải xây dựng được

là lòng kiên trì Có lòng kiên trì, có quyết tâm giữ vững

được lý tưởng thì tương lai chờ đón chúng ta sẽ là sự thành

công, là trái ngọt của cuộc đời.

Giai đoạn 4: Kiểm tra lại bộ dữ liệu:

Sau khi gán nhãn bộ dữ liệu, tôi sẽ tiến hành kiểm tra, rà soát lại xem các[BLANK] có khớp hoàn toàn với các câu thành ngữ hay không và kiểm tra các đáp

án trong phần “choices” có câu trả lời đúng hay không bằng phương pháp thủ công

kết hợp với phương pháp tự động

Trang 11

2 _ Tiến hành thực nghiệm và đánh giá bộ dữ liệu:

2.1 Bài toán:

Bài toán đọc hiểu tự động cho thành ngữ tiếng Viét

Dau vào: Doan van có chứa 6 trông va các câu trả lời là các thành ngữ ma may can chọn dé điện vao 6 trông.

Đâu ra: Câu thành ngữ đúng cân được điên vao 6 trông trong đoạn van đã cung cap.

Vi dụ:

Dau vào:

Đoạn văn: Câu tục ngữ [BLANK] là một bài học quý giá mà cha ông đã để lại cho

chúng ta Đó là lời đúc kết từ hàng ngàn năm chiến đấu và lao động, dé cho mỗi cá

nhân chúng ta hôm nay có thể lấy đó là gương mà noi theo, mà học tập theo Muốn

có được thành công thì đức tính đầu tiên phải xây dựng được là lòng kiên trì Cólòng kiên trì, có quyết tâm giữ vững được lý tưởng thì tương lai chờ đón chúng ta

sẽ là sự thành công, là trái ngọt của cuộc đời.

Các đáp án cần chọn:

"Giặc bên Ngô không bằng bà cô bên chồng",

"Học một biết mười",

"Cái nết đánh chết cái đẹp",

"Có công mài sắt có ngày nên kim"

Dau ra: Có công mai sắt có ngày nên kim

BERT (Devlin và các cộng sự), XLM-RoBER Ta (Conneau và các cộng sự).

Các mô hình như BERT, XLM-RoBERTa là các mô hình siêu mạnh được đào tạo

trước các mô hình đa ngôn ngữ với quy mô lớn, dẫn đến hiệu suất tang đáng ké chohang loạt các nhiệm vụ Do đó tôi sẽ áp dụng các mô hình như trên dé tiến hành

Trang 12

đánh giá bộ ngữ liệu.

2.3 Thông số đánh giá:

Đề đánh giá hiệu suất của mô hình, tôi sử dụng thông số tương tự như bộ dữ

liệu SQUAD (Rajpurkar và các cộng sự) là Fl-Score (FI-Score đo lượng sự

trùng lặp giữa câu câu dự đoán và câu trả lời chính xác.), ngoải ra còn một

vài thông số khác như QAC (Question-level Accuracy là một phép đo được

tính bằng tỷ lệ dự đoán đúng và tổng số khoảng trống), PAC (Passage-level

Accuracy là phép đo cho biết bao nhiêu văn bản được trả lời đúng.)

e _ Kết quả mong đợi của đề tài:

Tạo ra được một bộ dữ liệu mới về ca dao, tục ngữ, thành ngữ Việt Nam và

có thé sử dung dé tạo ra các mô hình đọc hiểu tiếng Việt, từ đó giúp máy tinh

có thé dé dàng đọc hiệu các văn bản tiếng Việt, phân tích ngữ nghĩa của các

câu văn tiếng Việt dễ dàng hơn, ngoài ra tôi mong muốn bộ đữ liệu có thể

đóng góp một phan nho nhỏ vào kho dữ liệu kho ngữ liệu dé phát triển các

ứng dụng cần sử dụng hiéu tiếng Việt.

e - Tài liệu tham khảo:

1 Conneau, Alexis, Kartiky Khandelwal, Naman Goyal, Vishrav

Chaudhary, Guillaume Wenzek, Francisco Guzman, Edouard Grave, Myle Ott, Luke Zettlemoyer, and Veselin Stoyanov 2020 “Unsupervised Cross- lingual Representation Learning at Scale.” 2020.

2 Devlin, Jacob, Ming-Wei Chang, Kenton Lee, and Kristina

Toutanova 2019 “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.” 2019.

3 Rajpurkar, Pranav, Jian Zhang, Konstantin Lopyrev, and Percy

Liang 2016 “SQuAD: 100,000+ Questions for Machine Comprehension of

Trang 13

Kế hoạch thực hién:(M6 ta tóm tắt kế hoạch làm việc và phân công công việc cho từng

sinh viên tham gia)

e_ Mô tả tóm tắt kế hoạch làm việc:

Xác nhận của CBHD TP HCM, ngày 18 thang 09 năm 2023

(Ký tên và ghi rõ họ tên) Sinh viên

Trang 14

LỜI CÁM ƠN

Tôi chân thành bày tỏ lòng biết ơn đối với cô Nguyễn Lưu Thùy Ngân, và thầy

Nguyễn Văn Kiệt, vì đã tận tình giúp đỡ, động viên, định hướng cho tôi trong những

ngày đầu, xuyên suốt quá trình nghiên cứu và hoàn thiện đề tài khóa luận Nếu không

có sự hướng dẫn từ các thầy cô, mục tiêu của khóa luận sẽ không thé hoàn thành

Ngoài ra, tôi xin được gửi lời cảm ơn đến quý thay cô giảng viên trong trường

Đại học Công Nghệ Thông Tin nói chung và khoa Khoa Học May Tính nói riêng

vì đã tận tình giảng dạy và giúp tôi có được nhiều kiến thức chuyên môn để làm

hành trang cho việc hoàn thành đề tài nghiên cứu này.

Cuối cùng, tôi muốn bày tỏ lòng biết ơn to lớn của mình đối với những thànhviên trong gia đình tôi vì họ là luôn là điểm tựa vững chắc trong suốt những ngàythang sinh viên của tôi, và là nguồn động lực to lớn dé thôi thúc tôi hoàn thành tốt đề

tài này.

TP Hồ Chí Minh, tháng 01 năm 2024

Sinh viên thực hiện

Trang 15

Chương 1: TONG QUAN ooesssssssssssssccsscssssssssnscenscsuccssccascenscesscnscsnscenccssccnscenscsss 1

LL Dat Vn G6 eee eccccecessesecsesesccececscsecsescssecsvscasevssecansvsecavavsucasavsesesavavees 11.2 Đối tượng nghiên COU oi eccsescsseesessessessessessessesesssstssessessessessees 3

1.3 Phạm vi nghiÊn CỨU - c5 2 132111391113 1 1E 118 111k kg rerikt 3

1.4 Mục tiêu dat Qu - Ăn S111 S HH vn re 4

1.5 Cấu trúc khóa luận -:+sESt+ESE1E12EEEE12E5EEE1515EE111212E11 1E cree 4

Chương 2: CÁC NGHIÊN CỨU LIEN QUAN VÀ CƠ SO LÝ THUYET 6

2.1 Các công trình nghiên cứu liên quan - 5555 s+ss++x+sex+exsxs 6

2.1.1 Các bộ đữ liệu thành ngữ, tục ngữ đã có - -~ 6

2.1.2 Các bộ dữ liệu liên quan đến bai toán MRC - s5: 72.2 Cơ sở lý thuyẾT (+ St222 E21 E1E21911211211211211 21111111110 11

2.1.1 Bidirectional Transformers for Language Understanding 11

2.1.2 Hệ thống hỏi dap ccecececcescecessessessesessessesseessessessesseeseeseeses 17

2.1.3 Hệ thống đọc hiểu tự động ¿-5¿©2++2x++cxeszxsreee 19

Trang 16

2.3 Kết chương - 5:52 St EEEE12112112112111 1111111111 rre 20

Chương 3: XÂY DUNG BO DỮ LIỆU e 2 scssccss©ssee 21

3.1 Quy trình xây đựng bộ dữ liệu -2- 2 ++2++2xz+£xzrxczrsrrreee 21

3.1.1 Nguồn gốc của bộ dit liệu -¿ 2¿©2++22++cx+zzxsrxrrseee 23

3.1.2 Thu thập và tao dữ liệu thô -2- ¿2+22++£z++zxzzx+zseee 23

3.1.3 Thống kê dữ liệu đã thu thập trên Internet - 27

4.4.1 Hiệu chỉnh tham sSỐ : :- ¿©22+2E+SE+£Et£EE+EESEEerkzrerrkered 43

4.4.2 Kết quả thực nghiệm - 2-52 s22 2EE2EEEEEerErrrrrkrred 44

4.4.3 Các thách thức của bộ dữ liệu - 25 =5++++<<s+<+s<ss2 45

4.5 Kết chương - 5 tÉEỀ E9 12112112111 11111111 1111 rre 52

Chương 5: KET LUẬN, HAN CHE VÀ HƯỚNG PHÁT TRIEN 53

5.1 KẾt luận - St 222221221 2121122121121 errree 535.2 Hạn Chế - St 2k2 2E1E21121211211171071211211 111121 re 54

5.3 Hướng phat trim c.cceccecceccecccccscsescscesesscssessessessessessesessessessessessesessveees 54

Trang 17

TÀI LIỆU THAM KHẢO

Trang 18

DANH SÁCH HÌNH VẾ

Hình 2.1: Sự khác biệt của BERT so với các mô hình dao tạo trước đó 13

Hình 2.2: Biểu diễn đầu vào của mô hình BERTT -2¿ 2 s+s+tx£z£z+£sz£xzrxez 14Hình 2.3: Ví dụ về kiến trúc cơ bản của mô hình QA 2-5 + +cx+zerxezzxere2 18

Hình 3.1: Minh họa quá trình xây dựng bộ dit liệu ViII 55555 sS<x>+s<++sss+ 22

Hình 3.2: Minh hoa quá trình thu thập thành ngữ 555 S- 5< *+<++se+ss 24

Hình 3.3: Minh họa lưu các văn bản đã thu thập được theo thành ngữ, tục ngữ 26

Hình 3.4: Biểu đồ thống kê độ đài thành ngữ, tục ngữ đã thu thập - 28

Hình 4.1: Kiến tric CƠ SO cccccccccccsssssscesvesesestesecescsvsucscavsusscsvaressavsusasacsveusaravsusacsvesacseanene 37

Trang 19

DANH SÁCH BANG

Bang 1.1: Sự khác nhau về nghĩa đen và nghĩa bóng của các câu thành ngữ, tục ngữ 2Bảng 2.1: Khảo sát sơ bộ về bộ đữ liệu ViID và các bộ dữ liệu liên quan 11

Bang 3.1: 10 trang web có lượng truy cập nhiều nhất 2 25c 5 s+cs+£s2 5+2 25

Bang 3.2: Minh họa khi mở tệp "Ác giả, ác báo"" ¿- 5s x22 eEEerErExerkerrerex 27

Bảng 3.3: Tần suất xuất hiện của các thành ngữ, tục ngữ trong kho ngữ liệu đã thu

008 ốỐốỐốỐố.ố.ố.ốẻốẽẼ ẽ⁄/G ẽ Số ố a 28

Bảng 3.4: Cấu trúc các điểm dit liệu trong ViIID 2- 2 52252+x+£E+zEezEzrxsrxeres 32

Bang 3.5: Quy trình chọn danh sách đáp án cho bién "Choiees” - 32Bang 3.6: Số liệu thống kê trên ba mẫu của tập dữ liệu ViID -5-5¿ 35

Bảng 4.1: Các gia trị TP, TN, FP, FN trong confusion 1mafTIX «5+5 s<+>s 42

Bảng 4.2: Siêu tham số thiết lập cho các mô hình -¿- ¿22 5++cx+2z++zz+ecs+ 43Bảng 4.3: Kết quả thực nghiệm - ¿222522222 2EE92EE2EEE22E2EEE2EE2EEEErrrkrrree 44Bảng 4.4: Ví dụ về các thách thức của bộ dữ liệu -¿- - c + sx+Ev£k+E+EeEzxexerezee 52

Trang 20

DANH SACH TU VIET TAT

BERT Bidirectional Encoder Representations from Transformers

BF Beautiful Soap

ChID Chinese Idiom Datasets

EPIE English Possible Idiomatic Expressions

LLM Large Language Model

MLM Masked Language Model

MRC Machine Reading Comprehension

XLM Cross-lingual Language Model

ViID Vietnamese Idiom Datasets

Trang 21

TOM TAT

Thanh ngữ, tục ngữ là những hiện tượng ngôn ngữ độc đáo của ông cha ta từ

xưa còn lưu truyền đến hiện nay, chúng là một chuỗi văn bản với các từ ngữ cốđịnh nhưng lại mang nhiều trường nghĩa (nghĩa đen và nghĩa bóng), chính điềunày tạo nên nhiều thách thức cho các mô hình học sâu hiện đại trong quá trình đọc

hiểu các văn bản tiếng Việt vốn đã rất phức tạp khi huấn luyện

Giải pháp đề xuất của tôi gồm một vai đóng góp chính sau: bộ dữ liệu về thành

ngữ, tục ngữ tiếng Việt và các thí nghiệm đa dạng về các mô hình huấn luyện trên

bộ dữ liệu đã được xây dựng, từ đó đưa ra những phân tích, đánh gia và đưa ra kết

luận vê các tác nhân chính ảnh hưởng đên hiệu suât của mô hình.

Khoá luận là sự đóng góp về cả mặt khoa học và thực tế khi đi tiên phong xử

lý bài toán đọc hiểu về thành ngữ, tục ngữ cho ngôn ngữ tiếng Việt Tôi cũng đã

thành công xây dựng bộ dữ liệu đầu tiên đành cho tiếng Việt về chủ đề tục ngữ,

thành ngữ với tổng cộng có ba mẫu dữ liệu với độ khó khác nhau cho từng mẫu dữliệu điểm dữ liệu (mẫu 1 gồm 6107 điểm, mẫu 2 gồm 5540 điểm và mẫu 3 gồm

5227 điểm trong cả ba tập huấn luyện, phát triển và kiểm thử) với nguồn thu thập

chính là từ Internet, tuy quy mô của bộ dữ liệu còn khiêm tốn và chưa đạt độ chính

xác cao khi khảo sát thực tế với các mô hình hiện nay nhưng tôi van hi vọng khóaluận này sẽ đánh dấu bước đi mới trong lĩnh vực khai thác sự phong phú của tiếng

Việt.

Trang 22

Chương 1 TONG QUAN 1

Chương 1

TONG QUAN

Trong chương này, tôi sẽ giới thiệu tong quan về sự phức tap, nhập nhang về

tính đa nghĩa của thành ngữ, tục ngữ tiếng Việt, cũng như những khó khăn và

thách thức khi nghiên cứu về bai toán đọc hiểu thành ngữ, tục ngữ tiếng Việt.Đồng thời, tôi cũng sẽ nói về đối tượng, phạm vi cũng như mục đích nghiên cứutrong khóa luận này Ở cuối chương, tôi sẽ trình bày những nội dung đã thực hiện

và bô cục chính của khóa luận.

1.1 Đặt van đề:

Một trong những thách thức lớn trong lĩnh vực Xử lý ngôn ngữ tự nhiên (NLP) là

việc xử lý thành ngữ [1]; những cụm từ tưởng chừng như bình thường nhưng có théđược liên hợp sâu hơn hoặc thậm chi trải rộng khắp câu đề phủ hợp với ngữ cảnh Vìthành ngữ là một phần của ngôn ngữ tự nhiên nên khả năng giải quyết chúng sẽ đưa

chúng ta đến gần hơn với việc tạo ra các công cụ NLP hiệu quả

Thành ngữ, tục ngữ có cả hai trường nghĩa là nghĩa đen và nghĩa bóng (Bàng

1.1) nên không dé dé học cách xử lý tự động của chúng bằng máy tính nếu không

có cơ sở dit liệu thành ngữ, tục ngữ Điều này làm cho việc xử lý thành ngữ trở

thành một vấn đề đầy thách thức đối với các bài toán NLP khác nhau như SA, MT

[2] hay MRC Ngoài ra, ý nghĩa của những thành ngữ như vậy nhìn chung khác

với nghĩa đen do các ký tự cấu thành Những thành ngữ như vậy thường có nguồn

Trang 23

gốc từ những câu chuyện văn hóa cổ xưa, nhưng ý nghĩa được bao tồn theo lịch sử

lâu dài của việc sử dụng ngôn ngữ.

Thành ngữ, : ` : , `

- An quả nhớ kẻ trông cây An chac mặc bên

tục ngữ

Nghia den Nếu ai đó ăn quả của cây mà ho Ăn uống phải lấy chất

đã tự trồng, thì họ sẽ nhớ đến lượng làm cốt yếu, ăn dé no

công sức và công việc mà họ đã lâu để làm việc chứ không

bỏ ra dé trồng và chăm sóc cây đó ăn qua loa, linh tinh; áo

quần mặc cũng phải chọnvải bền để mặc được lâu,

không phải mua nhiều đồ

moi.

Nghia bóng Thuong được sử dung dé diễn đạt Kinh nghiệm sống của ông

ý nghĩa rằng nếu ai đó hưởng lợi cha ta: phải chọn dùng các

từ một công việc hay công hiến vật dụng không cao sang,

nào đó, họ nên biết ơn và nhớ đến hào nhoáng nhưng chắc

người đã làm ra điều đó cho họ chắn, dùng được lâu.

Bang 1.1: Sự khác nhau về nghĩa đen và nghĩa bóng của các câu thành ngữ, tục ngữ

Đặc trưng của văn bản tiếng Việt vốn di phức tạp, có sự khác nhau giữa nhiều

vùng miền và đa ý nghĩa trong từng bình luận Chính vì vậy việc phân tích, bóctách khái niệm về tục ngữ, thành ngữ trong các văn bản tiếng Việt là cực kỳ quantrọng Ngoài ra, do tính đa nghĩa của một ký tự duy nhất nên ngay cả những thànhngữ, tục ngữ cấu thành đó cũng có khả năng có sự mơ hồ, điều này cũng tháchthức kha năng của máy tính dé chọn lựa thành ngữ, tục ngữ chính xác trong mộtngữ cảnh nhất định

Trang 24

1.2 Muc tiêu của khóa luận

Trong khóa luận này, tôi tập trung nghiên cứu các phương pháp để xây dựng một

hệ thống có thê đọc hiểu các câu tục ngữ, thành ngữ Tiếng Việt Cụ thê, tôi đặt ra từng

mục tiêu như sau:

e - Xây dựng bộ dữ liệu Vietnamese Idioms Dataset (ViID), bộ dữ liệu

dành cho tiếng Việt đầu tiên bao gồm các văn bản đã chứa các câu

thành ngữ, tục ngữ bên trong Bộ dữ liệu được kỳ vọng giúp các mô

hình huấn luyện mang lại hiệu suất cao nhờ các phân tích, bóc tách đặctrưng và định nghĩa khái niệm về tục ngữ, thành ngữ trong các văn bảntiếng Việt

e _ Thí nghiệm da dạng các mô hình huấn luyện đã được chứng minh tính

hiệu quả cho bài toán Machine Reading Comprehension trên các mô

hình học sâu, học chuyên tiếp đa ngôn ngữ và đơn ngôn tiếng Việt và

so sánh, phân tích và đưa ra kết luận về tính hiệu quả của từng mô hìnhtrên từng thí nghiệm với mục tiêu tìm ra mô hình cho hiệu suất caonhất cũng như các thách thức tồn tại trong bộ dữ liệu VIID

1.3 Đối tượng nghiên cứu:

Thành ngữ, tục ngữ Việt Nam là kho tàng văn học dân gian mang nhiều hàm ýsâu sắc, thể hiện kinh nghiệm sống của ông cha ta từ bao đời nay Các câu thành

ngữ, tục ngữ có tính đa nghĩa của chúng nên việc nghiên cứu về bài toán đọc hiểuthành ngữ, tục ngữ tiếng Việt cũng là vấn đề mang nhiều thách thức Trong khóa

Trang 25

luận này, có hai mục tiêu chính tôi sé thực hiện Đầu tiên tôi sẽ xây dựng bộ ngữliệu về thành ngữ, tục ngữ tiếng Việt Sau đó, tôi sẽ tìm hiểu các phương pháp đểhuấn luyện mô hình đọc hiểu thành ngữ, tục ngữ tiếng Việt cũng như kiểm tra tính

khả thi của bộ ngữ liệu đã tạo.

1.4 Pham vi nghiên cứu

Tuy đề tài hiện đang ở mức sơ khởi nhưng phạm vi áp dụng là vô cùng lớn Cụ

thé, nghiên cứu về đọc hiểu tự động trên thành ngữ, tục ngữ tiếng Việt với nguồn

thu thập chính là các văn bản trên không gian mạng Công trình nghiên cứu này là

một bước đệm giúp cho các hệ thống đọc hiéu trích xuất văn bản tiếng Việt xử lýthông tin mượt mà hơn, tránh tình trạng nhập nhang khi xử lý những văn bản chứa

thành ngữ, tục ngữ.

1.5 Cấu trúc khóa luận:

Khoá luận được chia thành 5 chương với các nội dung chính như sau:

° Chương 1: Tổng quan

Giới thiệu bài toán nhận diện chuỗi xúc phạm, phản cảm có trong bình

luận mạng xã hội tiếng Việt Tầm quan trọng và tính ứng dụng của khoá

luận vào thực tế đời sống trong bối cảnh phát triển mạnh mẽ của nền tảng

trực tuyến hiện tại

° Chương 2: Các nghiên cứu liên quan và cơ sở lý thuyết

Giới thiệu một vài các công trình nghiên cứu liên quan dén bài toán đọc

Trang 26

hiểu máy nói chung cũng một số công trình về thành ngữ tiếng Trung va

cơ sở lý thuyết

° Chương 3: Xây dựng bộ dữ liệu

Giới thiệu bộ dữ liệu Vietnamese Idiom Dataset (VIID) Tôi sẽ trình bày

quy trình xây dựng bộ dữ liệu cu thé theo từng bước kèm theo phân tích

về các đặc điểm ngôn ngữ đặc thù kèm phương pháp tiếp cận giải quyết,

đưa ra những thống kê cơ bản cho bộ dữ liệu ViID

° Chương 4: Thực nghiệm và đánh giá

Thí nghiệm các mô hình học sâu, học chuyền tiếp đa ngôn ngữ và đơnngôn ngữ dành riêng cho tiếng Việt trên bộ dữ liệu ViID Phân tích kếtquả của từng mô hình, sau đó tiễn hành so sánh, đánh giá và kết luận vềhiệu suất của từng loại mô hình

° Chương 5: Kết luận, hạn chế và hướng phát triển

Tổng kết các kết quả đạt được của khoá luận, nêu lên những hạn chế còntồn tại và định hướng phát triển của khoá luận trong tương lai

Trang 27

Chương 2 CÁC NGHIÊN CUU LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 6

nghiên cứu về bài toán đọc hiểu tự động Phần 2.2 sẽ giới thiệu các kiến trúc cơ sở

cần thiết dé xây dựng bộ dữ liệu cũng như giải quyết bài toán liên quan đến bộ dữ

liệu.

2.1 Các công trình nghiên cứu liên quan

Liên quan đến nghiên cứu của khóa luận tốt nghiệp, tôi tập trung trình bài

những bộ dữ liệu liên quan đến thành ngữ đã giới thiệu trước đó (Mục 2.1.1) vànhững bộ dữ liệu liên quan đến bài toán MRC (Mục 2.1.2) Ngoài ra, bảng 2.1 sosánh chỉ tiết các bộ dit liệu tôi đã đề cập với bộ dit liệu ViID tôi đã xây dựng

2.1.1 Các bộ dữ liệu thành ngữ, tục ngữ đã có

Trang 28

Thành ngữ luôn là chủ đề gây ra nhiều khó khăn trong lĩnh vực NLP, tuy nhiên

trong những năm gần đây, có nhiều nghiên cứu về thành ngữ đã được công bó, có

thé kê đến một vài bộ dit liệu nổi bật như IMIL hay ChID, cụ thé:

° IMIL [3]: Bộ dữ liệu IMIL là bộ dữ liệu song song đa ngôn ngữ ảnh xa

2208 thành ngữ thường được sử dụng bằng tiếng Anh sang bản dịch của chúngbang bảy ngôn ngữ Ấn Độ: Hindi, Urdu, Bengali, Tamil, Gujarati, Malayalam va

Telugu Các thành ngữ cũng được chú thích bang những cảm xúc thích hop màchúng truyền tải và ý nghĩa của chúng trong các ngôn ngữ tương ứng Tập dữ liệu

kết quả có kích thước 47.382 câu (Tập huấn luyện - 46200, tập phát triển - 1432,tập thử nghiệm - 2200) Các thành ngữ được thu thập trên các website kết hợp vớinhững thành ngữ được tông hợp từ kho ngữ liệu tiếng Anh Mỹ nổi tiếng khác, bao

gồm American National Corpus (ANC) (Ide và Suderman, 2004); Tập hợp tiếng

Anh học thuật Michigan (MICASE) (Simpson va cộng su, 2002), và Brown

Corpus (Francis và Kucera, 1979).

° ChID [4]: ChID chứa 581K đoạn văn va 729K khoảng trống từ ba miền

(tin tức, tiêu thuyết và tiêu luận) được chia thành ba tập huấn luyện, xác thực vàkiểm tra với tỉ lệ lần lượt là: 520711 (93%), 20000 (3.5%), 20000 (3.5%), thànhngữ được thu thập từ tập thành ngữ tiếng Trung Daquan, các văn bản được thuthập từ các tiểu thuyết và tiêu luận Internet cũng như các bài báo do Sun và cáccộng sự của ông cung cấp (2016) [5]

2.1.2 Các bộ dữ liệu liên quan đến bai toán MRC:

Do lĩnh vực MRC có nhiều nghiên cứu, trong khóa luận tốt nghiệp này tôi chỉ

tập trung vào các bộ dữ liệu liên quan trực tiếp như CNN/DailyMail, Children”s

Trang 29

Book Test, The 1st Evaluation on Chinese Machine Reading Comprehension,

New Vietnamese Corpus for Machine Reading Comprehension of Health News

Articles, Vietnamese Question Answering Dataset.

° CNN/DailyMail [6]: Bộ dữ liệu CNN/Daily Mail là bộ dữ liệu bao gồmhơn 300,000 bài báo được viết bởi các nhà báo ở hai tòa soạn CNN và Daily Mail,

bộ dữ liệu được chia thành 287,113 mẫu đữ liệu để huấn luyện, 13,368 dé xác thực

va 11,490 dé kiểm tra Trung bình, có khoảng 28 câu trong mỗi tài liệu trong bộ

huấn luyện Bộ dữ liệu này bao gồm phiên bản an danh và phiên bản không ân

danh Phiên bản đầu tiên là tất cả các tên thực thé của dữ liệu được thay thé bằng

các từ thẻ đặc biệt, trong khi phiên bản thứ hai là dữ liệu gốc Dữ liệu CNN/Daily

Mail bao gồm nhiều cặp tài liệu-tóm tắt, mỗi cặp tương ứng với một vải câu đượcđánh dấu trong tài liệu được chú thích thủ công

° Children’s Book Test [7]: Children’s Book Test được thiết kế để kiểmtra vai trò của trí nhớ và ngữ cảnh trong việc xử lý và hiểu ngôn ngữ Bài kiểm tra

yêu cầu dự đoán về các loại từ còn thiếu khác nhau trong sách dành cho trẻ em,

dựa trên cả những từ gần đó và bối cảnh rộng hơn từ cuốn sách Bộ đữ liệu đượcthu thập từ những cuốn sách được cung cấp miễn phí nhờ dự án Gutenberg [8].Việc sử dụng sách dành cho trẻ em đảm bảo cau trúc tường thuật rõ ràng, điều này

có thé làm cho vai trò của bối cảnh trở nên nồi bật hon

° The Ist Evaluation on Chinese Machine Reading Comprehension

(CMRC-2017) [9]: Bộ dữ liệu dang cloze-style reading comprehension của Trung

Quốc được tạo tự động quy mô lớn, được thu thập từ tài liệu đọc của trẻ em Mặc

dù tao dữ liệu dao tạo tự động, các bộ dữ liệu đánh giá của CMRC-2017 (xác thực

và kiểm tra) được chú thích thủ công Dé tăng thêm sự đa dạng và điều tra sâu hon

Trang 30

về transfer learning, nhóm tác giả cũng cung cấp một bộ đữ liệu đánh giá khác

cũng được con người chú thích, nhưng truy vấn tự nhiên hơn loại cloze

° New Vietnamese Corpus for Machine Reading Comprehension of

Health News Articles (UIT-ViNewsQA) [10]: ViNewsQA bao gom hon 22.000

cặp câu hỏi-câu trả lời do con người tạo ra dựa trên hon 4.400 bai báo trực tuyếntrong lĩnh vực y tế Kho ngữ liệu này được cung cấp công khai cho nghiên cứu xử

lý ngôn ngữ tiếng Việt và cả cho các nghiên cứu đa ngôn ngữ cùng với các kho tàiliệu tương tự khác như NewsQA [11] (cho tiếng Anh), CMRC (cho tiếng Trung)[12], FQuAD (cho tiếng Pháp) [13] và KorQuAD [14] (cho tiếng Hàn) Bộ ngữliệu được phân tích theo các khía cạnh ngôn ngữ khác nhau, bao gồm dựa trên từ

vựng, ba loại độ dài (câu hỏi, câu trả lời và mạo từ), ba loại dựa trên nội dung (câu

hỏi, câu trả lời và lý luận) và mối tương quan giữa dựa trên loại và độ dài câu trả

lời, từ đó cung cấp những hiểu biết toàn điện về bộ dữ liệu

° Vietnamese Question Answering Dataset (UIT-ViQuAD): [15]

ViQuAD bao gồm 23.074 cặp câu hỏi-câu trả lời do con người tạo ra dựa trên5.109 đoạn của 174 bài viết Wikipedia tiếng Việt Tập dữ liệu được phân tích theocác khía cạnh ngôn ngữ khác nhau bao gồm phân tích theo độ dài (độ dài câu hỏi,

độ dài câu trả lời và độ dài đoạn văn) và phân tích dựa trên loại (loại câu hỏi, loại

câu trả lời và loại lý luận) UIT-ViQuAD có thể dùng làm nguồn tài nguyên cho

nghiên cứu đa ngôn ngữ cùng với các bộ dữ liệu tương tự khác như SQuAD,

CMRC và KorQuA.

Dữ liệu Giải quyết | Ngôn ngữ Kích thước Nguồn thu

bài toán thập

Trang 31

IMIL MT vaSA |7ngônngữÁn | 47.382 câu (Tập | Website kết

Độ gồm: Hindi, | huấn luyện - hợp với những

Urdu, Bengali, | 46200, tập phát | thành ngữ

Tamil, Gujarati, | triển - 1432,tập | được tổng hợp

Malayalam và | thử nghiệm — từ kho ngữ liệu

Telugu 2200 tiếng Anh Mỹ.

ChID Cloze-style | Tiéng Trung 581K đoạn văn | Tin tức, tiểu

MRC Quốc và 729K thuyết và tiểu

luận

CNN/Daily | Cloze-style | Tiếng Anh 287,113 mẫu đữ | CNN và Daily

Mai MRC liệu đểhuẩn | Mail

luyện, 13,368 để

xác thực và

11,490 đề kiểm

tra

Children’s | Cloze-style | Tiếng Anh 669,343 mau dữ | Sách dành cho

Book Test | MRO liệu huấn luyện, | trẻ em

8,000 mẫu xác

thực và 10,000

mẫu kiểm tra

CMRC- Cloze-style | Tiéng Trung 354,295 mẫu dữ | Mã nguồn mở

2017 MRC Quéc liệu dé huấn

luyện, 2,000 dé

xac thuc va

Trang 32

MRC 23074 câu hỏi nguôn mở)

VIID Cloze-style | Tiếng Việt 3639 mẫu đữ liệu | Internet

MRC

dé huấn luyện,

363 mẫu xác thực và 363 mẫu

kiêm tra

Bảng 2.1: Khảo sát sơ bộ về bộ đữ liệu ViID và các bộ dữ liệu liên quan

2.2 Cơ sở lý thuyết

2.2.1 Bidirectional Transformers for Language Understanding:

BERT [16] là một kiến trúc mới cho lớp bài toán Language Representationđược Google công bố vào năm 2019 Không giống như các mô hình trước đó [17],BERT được thiết kế dé đào tạo ra các vector đại diện cho ngôn ngữ văn bản thông

qua ngữ cảnh 2 chiều (trái và phải) của chúng Kết quả là, vector đại điện được

sinh ra từ mô hình BERT được tính chỉnh với các lớp đầu ra bé sung đã tạo ra

nhiêu kiên trúc cải tiên đáng kê cho các nhiệm vụ xử lý ngôn ngữ tự nhiên như

Question Answering, Language Inference, mà không cần thay đổi quá nhiều từ

các kiên trúc cũ.

BERT là một khái niệm đơn giản nhưng lại mang lại hiệu quả cực lớn trong

Trang 33

thực tế Nó đã thu được kết quả tối ưu mới nhất cho 11 nhiệm vụ xử lý ngôn ngữ

tự nhiên, bao gồm việc đây kết quả của nhiệm vụ GLUE benchmark lên 80.4%(caitiến thêm 7.6%) và SQuAD v.1.1 [18] với F1 score trên tập test đạt 93.2%(cai tiếnthêm 1.5%), tốt hơn con người 2%

Lớp bài toán Representation cho mô hình ngôn ngữ đã cho thấy hiệu quả trong

việc cải thiện nhiều nhiệm vụ trong lĩnh vực xử lý ngôn ngữ tự nhiên Những

nhiệm vu này có thé là những nhiệm vụ cấp câu như Natural language inference[19], Paraphrasing nham dự đoán mối quan hệ giữa các câu bang cách phân tíchtong thé chúng và cũng có thé là những nhiệm vụ cấp từ như nhận dang thực thé

có tên (NER), Question Answering với yêu cầu trả ra kết quả chính xác cho câu

hỏi ở dạng từ.

Tuy nhiên, các kỹ thuật hiện tại bị hạn chế rất nhiều trong việc thể hiện khả

năng của các mô hình vector đại diện, đặc biệt là hướng tiếp cận fine-tuning Hạn

chế chính ở đây là do các mô hình ngôn ngữ được xây dựng dựa trên ngữ cảnh 1

chiều gây nên sự hạn chế trong việc lựa chọn mô hình kiến trúc được sử dụng

trong quá trình sử dụng pre-training Vi dụ như trong OpenAI GPT [20], các tác

giả sử dụng kiến trúc left-to-right, nghĩa là các tokens chỉ phụ thuộc vào các token

ở trước đó.

2.2.1.1 Kiến trúc:

Kiến trúc của mô hình BERT là một kiến trúc đa tầng gồm nhiều lớpBidirectional Transformer encoder dựa trên bản mô tả đầu tiên của Vaswani và các

cộng sự (2017) [21]va sự phát hành trong thư viện tensor2tensor.

Giả sử L là số lớp Transformer (blocks) được sử dụng với kích thước của cáclớp ân là H và số heads ở lớp attention là A Trong mọi trường hợp, kích thước của

Trang 34

bộ lọc(filter size) luôn được đặt bằng 4H Điều này có nghĩa là khi H = 768 thì

filter size = 3072 và hoặc khi H = 1024 thì filter size = 4096 Báo cáo chủ yếu laykết quả trên 2 kích thước mô hình:

e PERTpasg:L = 12,H = 768,A = 12,Total Parameters = 110M

e BERT arge: L = 24,H = 1024,A = 16,Total Parameters = 340M

BERT đã được chọn dé có một kích thước mô hình giống hệt như mô hình

OpenAI GPT dé nhằm mục dich so sánh giữa 2 mô hình này Tuy nhiên, một cáchđơn giản dé so sánh, BERT Transformer sử dụng các attention 2 chiều trong khiGPT Transformer sử dụng các attention 1 chiều (không tự nhiên, không hợp với

cách mà xuất hiện của ngôn ngữ), nơi mà tất cả các từ chỉ chú ý tới ngữ cảnh trái

của nó.

Có một chú thích nhỏ rằng, một Transformer 2 chiều thường được gọi là

Transformer encoder trong khi các phiên ban Transformer chỉ sử dụng ngữ cảnh

bên trái thường được gọi là Transformer decoder vì nó có thể được sử dụng để tạo

ra văn bản Sự so sánh giữa BERT, OpenAI GPT và ELMo [17] được hiện thị 1

cách trực quan dưới đây:

Hình 2.1: Sự khác biệt của BERT so với các mô hình đào tạo trước đó

Trang 35

Chương 2. CÁC NGHIÊN CUU LIEN QUAN VA CƠ SỞ LÝ THUYET 14

2.2.1.2 Biểu diễn đầu vào:

Đâu vào có thê là biêu diễn của một câu văn bản đơn hoặc một cặp câu văn

bản(ví dụ:

Khi có

[Câu hỏi, câu trả lời]) được đặt thành 1 chuỗi tạo bởi các từ.

một chuỗi đâu vào cụ thê, biêu diễn đâu vào được xây dựng băng cách tính tông các token đó với vector phân đoạn và vi tri trong ứng của các từ trong

Hình 2.2: Biểu diễn đầu vào của mô hình BERT

Một sô điêm cân chú ý:

Sử dụng WordPiece embeddings (Wu và các cộng sự, 2016) [22] với

một từ dién 30.000 từ và sử dụng ## làm dấu phân tách Ví dụng từ

playing được tách thành play##ing.

Sử dụng positional embeddings với độ dài câu tối đa là 512 tokens

Token đầu tiên cho mỗi chuỗi được mặc định là một token đặc biệt cógiá trị là [CLS] Đầu ra của Transformer(hidden state cuối cùng) tương

ứng với token này sẽ được sử dụng đê đại diện cho cả câu trong các

Trang 36

nhiệm vụ phân loại Nếu không trong các nhiệm vụ phân loại, vector

này được bỏ qua.

e Trong trường hợp các cặp câu được gộp lại với nhau thành một chuỗi

duy nhất, có thể phân biệt các câu theo 2 cách Đầu tiên, phải tách

chúng bo một token đặc biệt [SEP] Thứ hai, thêm một segment

embedding cho câu A và một segment embedding khác cho câu B như

hình vẽ.

e Khi chỉ có 1 câu đơn duy nhất, segment embedding chỉ có cho câu A

2.2.1.3 Các tác vụ của BERT:

Có thể đào tạo BERT bằng cách sử dụng 2 nhiệm vụ dự đoán không giám sát

được gọi là Masked Language Model [23] và Next Sentence Prediction [24].

2.2.1.3.1 Mask Language Model:

Trực quan mà thấy, một mô hình học sâu được học dựa trên ngữ cảnh 2 chiều

là tự nhiên và mạnh mẽ hơn nhiều so với một mô hình chỉ dùng ngữ cảnh từ trái

qua phải (hoặc ngược lại).

Tuy nhiên, thật không may, các mô hình ngôn ngữ trước đây chỉ có thé dao

tạo từ trái qua phải hoặc từ phải qua trái Lý do được lý giải là vì khi sử dụng ngữ

cảnh 2 chiều sẽ gây ra một nghịch lý là một từ có thể gián tiếp tự nhìn thấy nó

trong một ngữ cảnh nhiều lớp

Đề đào tạo một mô hình tìm ra đại diện dua vào ngữ cảnh 2 chiều, có thể sử

dụng một cách tiêp cận đơn giản đê che giau đi một sô token dau vào một cách

Trang 37

ngẫu nhiên và sau đó chỉ dự đoán các token được giấu đi đó và gọi nhiệm vụ này

như là một "masked LM" (MLM) Trong trường hợp này, các hidden vectors ở

lớp cuối cùng tương ứng với các tokens được ân di được đưa vào | lớp softmax

trên toàn bộ từ vựng dé dự đoán Các nhà nghiên cứu của Google đã thử nghiệm

mask 15% tất cả các token lấy từ từ điển của WordPiece trong câu một cách ngẫu

nhiên là chỉ dự đoán các từ được mask.

Mặc dù điều nảy có thể tạo ra một mô hình đào tạo 2 chiều, nhưng có 2 nhược

điểm tồn tại Đầu tiên có một sự không phù hợp giữa pre-train và fine-tuning vì

các token được [MASK] không bao giờ được nhìn thấy trong quá trình tinh chỉnh

mô hình Dé giảm thiêu điều này, không phải lúc nào cũng thay thé các từ được

giấu đi bằng token [MASKT Thay vào đó, trình tạo dữ liệu đào tạo chọn 15%

tokens một cách ngẫu nhiên và thực hiện các bước như sau:

Ví dụ với câu: "con_cho của tôi dep qué" Từ được chọn dé mask là từ "đẹp"

e Thay thé 80% từ được chon trong đữ liệu huấn luyện thành token

[MASK] — "con chó của tôi [MASK] qua"

e 10% các từ được chọn sẽ được thay thé bởi 1 từ ngẫu nhiên >

"con_ chó của tôi máy_ tính qua"

e_ 10% còn lại được giữ không thay đổi > "con_cho của tôi dep quá"

Transformer encoder không hề biết được từ nao sẽ được yêu cầu dự đoán hoặc

từ nào đã được thay thế bằng một từ ngẫu nhiên, do đó, nó buộc phải giữ một

biểu dién theo ngữ cảnh của mối token đầu vào Ngoài ra, do thay thế 1.5% tat cả

các tokens bằng một từ ngẫu nhiên nên điều này đường như sẽ không làm ảnh

hưởng tới khả năng hiểu ngôn ngữ của mô hình

Nhược điểm thứ 2 của việc sử dụng MLM là chỉ có 15% tokens được dự đoán

trong moi lô, điêu này gợi ý một điêu là có thê cân thêm các các bước sử dụng

Trang 38

các pre-train model khác đề mô hình hội tụ

2.2.1.3.2 Next Sentence Prediction:

Nhiéu nhiém vu quan trong trong xu lý ngôn ngữ tự nhiên như Question

Answering yêu cầu sự hiểu biết dựa trên mối quan hệ giữa 2 câu văn bản, không

trực tiếp sử dụng được các mô hình ngôn ngữ Đề đào tạo được mô hình hiểu

được mối quan hệ giữa các câu, phải xây dựng một mô hình dự đoán câu tiếp theo

dựa vào câu hiện tại, dữ liệu huấn luyện có thể là một corpus bat ky nao Cu thé,

khi chon câu A và câu B cho mỗi training sample, 50% kha năng câu B là câu

tiếp theo sau câu A và 50% còn lại là một câu ngẫu nhiên nào đó trong corpus

Vị dụ:

Input: [CLS] người đàn ông làm [MASK] tại cửa hàng [SEP] anh ta rat

[MASK] và thân thiện [SEP]

Label: isNext

Input: [CLS] người dan_dng lam [MASK] tại cửa hàng [SEP] cô_ ta dang

cam súng [SEP]

Label: notNext

Chon những cau notNext một cach ngau nhiên va mô hình cuối cùng đạt được

độ chính xác 97%-98% trong nhiệm vụ này.

2.2.2 Hệ thống hỏi đáp:

Hệ thống hỏi đáp tự động (QA) là một bài toán lớn trong NLP, yêu cầu kết

hợp nhiều tác vụ khác nhau, nhằm xây dựng, hỗ trợ và phát triển tính năng giao

tiếp của Trí tuệ nhân tạo AI Khác với các công cụ tìm kiếm, chỉ thực hiện “truy

Trang 39

xuất tài liệu” có chứa từ khóa yêu cầu, hệ thống hỏi đáp tự động được thiết kế dé

đưa ra câu trả lời cụ thể cho các truy vấn Hệ thống QA hiện nay được phân thành

02 loại chính: hệ thống QA miền mở (open-domain QA systems — gần như có kha

năng trả lời mọi câu hoi) và hệ thống QA miền đóng (closed- domain QA systems

— chỉ phản hồi các câu hỏi trong một số lĩnh vực cụ thể) Cau trúc của hệ thống

QA bao gồm 03 modules: Xử lý tài liệu; Xử lý câu hỏi và Hỏi đáp

Hiện này có 2 cách tiếp cận chính cho bài toán xây dựng hệ hỏi đáp tự động

đó là hỏi đáp dựa trên hệ tri thức (Knowledge-based question answering) va hỏi

đáp dựa trên đọc hiểu (MRC):

e Hỏi đáp dựa trên hệ tri thức: với cach tiếp cận này hệ thống cần trích

xuất được thực thê cũng như mối quan hệ của thực thể được đề cập

trong câu hỏi Dựa vào những thông tin này, câu trả lời sẽ được tìm

trong hệ tri thức dựa trên các suy diễn trong hệ đó.

e Hỏi đáp dựa trên đọc hiểu: Day là cách tiếp cận hiện đại cho bài toán

hỏi đáp tự động, dựa trên cơ chế attention giữa câu hỏi và đoạn văn bản(chứa câu trả lời) để tìm ra các cụm từ là câu trả lời cho câu hỏi đó

Cách tiếp cận này mô phỏng quá trình chúng ta đọc một văn bản rồi trả

lời các câu hỏi liên quan đến văn bản đó, nó giống như phần thi đọc

hiểu trong các kì kiểm tra tiếng Anh thường gặp

Inputs : Output

Question Answer Which name is also used to Amazonia

describe the Amazon Question

rainforest in English? Answering

Context Model

The Amazon rainforest, also known in English as Amazonia

or the Amazon Jungle #

Hình 2.3: Ví dụ về kiến trúc cơ bản của mô hình QA

Tiêu đề	Nghiên cứu về đọc hiểu tự động cho thành ngữ tiếng Việt
Tác giả	Nguyen Thanh Lam
Người hướng dẫn	PGS.TS. Nguyen Luu Thuy Ngan, ThS. Nguyen Van Kiet
Trường học	Trường Đại học Công nghệ Thông tin
Chuyên ngành	Khoa học máy tính
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2024
Thành phố	TP. Ho Chi Minh

Định dạng
Số trang	79
Dung lượng	37,73 MB