Trước đó, chúng tôi đã tham gia VLSP share-task với nhiệm vụ Đọc hiểu tự động tiếng Việt, chúng tôi đã thực hiện một thực nghiệm chứng minh rằng các mô hình ngôn ngữ đào tạo trước cho kế
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHO HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
EE
LÊ THI THU HANG - 18520274
HO VIỆT ĐỨC - 18520610
NGHIÊN CỨU PHƯƠNG PHÁP TRÌNH DOC HOI TƯỞNG CHO
BÀI TOÁN ĐỌC HIỂU TỰ ĐỘNG TIENG VIỆT
RETROSPECTIVE READER FOR VIETNAMESE MACHINE READING
COMPREHENSION
KHÓA LUẬN TỐT NGHIỆP
CỬ NHÂN NGÀNH CÔNG NGHỆ THÔNG TIN
TP HỒ CHÍ MINH - NĂM 2022
Trang 2LE THI THU HANG - 18520274
HO VIỆT ĐỨC - 18520610
NGHIÊN CUU PHƯƠNG PHAP TRÌNH ĐỌC HOI TƯỞNG CHO
BÀI TOÁN ĐỌC HIỂU TỰ ĐỘNG TIẾNG VIỆT
RETROSPECTIVE READER FOR VIETNAMESE MACHINE READING
COMPREHENSION
KHÓA LUẬN TỐT NGHIỆP
CỬ NHÂN NGÀNH CÔNG NGHỆ THÔNG TIN
GIẢNG VIÊN HƯỚNG DẪN
TS NGUYEN LƯU THUY NGAN
ThS NGUYEN ĐỨC VŨ
TP HO CHÍ MINH - NĂM 2022
Trang 3DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN
Hội đồng chim khóa luận tốt nghiệp, thành lập theo Quyết định số ngày
của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
1 Chủ tịch:
2 Thư ký:
3 Ủy viên:
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan:
Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực
tiếp của tiền sĩ Nguyễn Lưu Thuỳ Ngân và thạc sĩ Nguyễn Đức Vũ.
Mọi tham khảo trong luận văn đều được trích dẫn rõ ràng tên tác giả, tên công
trình, và thời gian công bố.
Moi sao chép không hợp lệ va vi phạm quy chế đào tạo tôi xin chịu hoàn toàn
Trang 5LỜI CẮM ƠN
Đầu tiên, tôi xin chân thành cảm ơn cô Nguyễn Lưu Thuỳ Ngân đã giúp đỡ và định hướng cho tôi hoàn thành khóa luận tốt nghiệp này Đồng thời, tôi xin gửi lời cảm ơn đến ThS Nguyễn Đức Vũ đã luôn bên cạnh hỗ trợ, chỉ bảo và giúp đỡ cho tôi rất nhiều Cô và thầy đã hướng dẫn tôi tận tình, bổ sung cho tôi những kiến thức,
kỹ năng quan trọng để thực hiện các nghiên cứu trong đề tài này.
Bên cạnh đó, tôi xin gửi lời cảm ơn đến các thầy, cô khoa Khoa học và Kỹ thuật thông tin cùng các thầy cô Trường Đại học Công nghệ thông tin đã giảng dạy tận tình
và giúp đỡ tôi trong suốt 4 năm học tập Tôi cũng xin cảm ơn tập thể lớp CNCL2018,
họ luôn là mục tiêu để tôi phấn đấu Xin cảm ơn các bạn bè, anh chị em đã luôn đồng hành cùng tôi.
Dù đã nỗ lực cố gắng hoàn thiện Khóa luận tốt nghiệp này, song chắc chắn sẽ
không tránh khỏi những thiếu sót và hạn chế Tôi kính mong nhận được sự chỉ bảo
và góp ý tận tình từ quý Thay, Cô để đề tài được tốt hơn Một lần nữa, tôi xin chân
thành cảm ơn!
Thành pho Hô Chí Minh, tháng 7 năm 2022
Sinh viên Lê Thị Thu Hằng Sinh viên Hồ Việt Đức
11
Trang 6TÓM TẮT
Đọc hiểu tự động là một trong những chủ đề nghiên cứu tiên tiến và phổ biến nhất trong xử lý ngôn ngữ tự nhiên Với đầu vào là một đoạn văn và một câu hỏi, đầu ra sẽ là một khoảng trả lời trong đoạn văn nếu câu hỏi đó có thể trả lời, ngược lại
sẽ nhận được câu trả lời rỗng Bài toán không chỉ nhận được nhiều sự quan tâm từ
cộng đồng các nhà nghiên cứu mà còn được ứng dụng rộng rãi bởi các doanh nghiệp,
cơ quan, tổ chức công nghệ lớn.
Các công trình nghiên cứu Đọc hiểu tự động trước đây hầu hết tập trung vào hai ngôn ngữ chính là tiếng Anh và tiếng Trung Đối với tiếng Việt, trong những năm
gần đây, Đọc hiểu tự động bắt đầu được quan tâm đến, với sự ra đời của các bộ dữ
liệu và những nghiên cứu liên quan Tuy nhiên hầu hết các nghiên cứu trước đây trên tiếng Việt chỉ sử dung lại các mô hình ngôn ngữ được huấn luyện trước vì thế chưa đạt được kết quả cao so với các công trình nghiên cứu của tiếng Anh và tiếng Trung.
Trước đó, chúng tôi đã tham gia VLSP share-task với nhiệm vụ Đọc hiểu tự động
tiếng Việt, chúng tôi đã thực hiện một thực nghiệm chứng minh rằng các mô hình
ngôn ngữ đào tạo trước cho kết quả không tốt đồi với việc phân loại khả năng trả lời của câu hỏi Vì vậy trong khóa luận lần này chúng tôi quyết định chọn bài toán Đọc hiểu tự động tiếng Việt làm đề tài chính để nguyên cứu và tập trung hơn vào việc
phân loại khả năng trả lời của câu hỏi.
Chúng tôi đã tập trung nghiên cứu vào mô hình Trình đọc hồi tưởng Day là một
mô hình được công bố vào năm 2020 và đạt được kết quả state-of-the-art đối với một
số bài toán Đọc hiểu tự động trên tiếng Anh Thêm vào đó, chúng tôi còn nghiên cứu thêm về phương pháp Tích hợp thông tin ngữ nghĩa, đây là phương pháp tận dụng
các nhãn của nhiệm vụ Gán nhãn vai nghĩa và tích hợp chúng vào mô hình biểu diễn
ngôn ngữ được đào tạo trước để thu được một biểu diễn đầu ra có chứa cả ngữ cảnh
và ngữ nghĩa của câu.
Trong phạm vi khóa luận này, chúng tôi tiến hành xây dựng mô hình Trình đọc hồi tưởng sử dụng mô hình Tích hợp thông tin ngữ nghĩa BERT làm biểu diễn ngôn
ngữ cho tác vụ phân loại trong Trình đọc hồi tưởng Chúng tôi sử dụng bộ dữ liệu
Đọc hiểu tự động ViQuAD2.0 của VLSP 2021, được kế thừa và cải thiện từ bộ dữ
liệu ViQuADvI.0.
iv
Trang 7MỤC LỤC
Danh sách hội đồng bảo vệ khóa luận i
Lời cam đoan ii
Lời cảm ơn Hi
Tom tat iv
Muc luc v
Danh mục các bang viii
Danh mục các hình vẽ và đồ thị ix
Danh mục các ký hiệu va chữ viết tắt x
Chương 1 Mở đầu 1
11 Đặtvấnđề Ốc Q HQ xo 2
1.2 Mục tiêu khóa luận 4
1.3 Đối tượng và phạm vi nghiên cứu - 5
143.1 Đối tượng nghiéncttu 5
1.3.2 Pham vinghiêncứu - 5
14 Kết quả của đề tài eee 6 1.5 Cấu trúc khóa luận cSẶSSV 6 Chương 2 Tổng quan § 2.1 Bài toán Đọc hiểu tự động §
2.11 Môtảbàitoán ẶẶẶẶ 9 2.1.2 Khókhăn QQ QQ Q eee 10 2.1.2.1 Sự mơ hồ của ngôn ngữ - 1
2.1.2.2 Kỹ năng suy luận và nhận thức thông thường 12
2.1.2.3 Những câu hỏi dé gây nhằm lẫn 12
2.13 Những nghiên cứu liên quan 13
2.2 Bài toán Gan nhãn vai nghĩa 15
Trang 8MỤC LỤC
2.2.1 Môtđbàitoán ẶẶ ee 16
2.2.2 Những nghiên cứu liên quan 18
Chương 3 Cơ sở lý thuyết 20 3.1 Mạng nơ-ron (NeuralNetwork) - 20
3.1.1 Mô hình mạng nơ-ron nhân tạo(ANN) 21
3.1.2 Mô hình mạng nơron hồi quy (Recurrent Neural Network -RNN) QQ ee 22 3.1.3 Nút hdi tiếp có cổng (Gated Recurrent Unit-GRU) 24
3.2 TransfOomers Ặ Ặ Q Q Q Q Q H 25 3.3 Tổng quan mô hình BERT - 26
3.3.1 Gidithidu Ặ Q.0 Q He 26 3.3.2 Kiến túc mOhinh BERT 27
3.3.2.1 Mô hình BERT đào tạo trước 28
3.3.2.2 Tinh chỉnh mô hình BERT 29
3.3.3 Một số biến thể của BERT 30
3/1 (NGHERTIa SÃ / - 30
33.32 XLM-RoBERTa 30
3.3.3.3 PhoBERT 31
Chương 4 Mô hình cho bài toán Đọc hiểu tự động 32 4.1 Mô hình Đọc hiểu tự động cơ s6- Baseline 32
4.2 Mô hình Trình đọc hồi tưởng 34
4.2.1 Mô-đun phân loại 35
4.2.2 Mô đun đọc chuyênsâu 36
4.2.3 Xác minh cuối cùng 2 0.0 ee 37 4.3 Mô hình Tích hợp thông tin ngữ nghĩa BERT 38
4.3.1 Gán nhãn vainghĩa 38
43.2 Mãhóa Q Q Q Q Q HQ nh va 40 4.3.2.1 Nhúng ngữ cảnh (Contextual Embedding) 40
4.3.2.2 Nhung ngữ nghĩa (Semantic Embedding) 40
4.3.3 Tíchhợp ee eee 41
vi
Trang 9MỤC LỤC
Chương 5 Thí nghiệm và kết quả
5.1 Bộ dữliệu
5.11 UIT-ViQuAD 5.1.2 LORELEI 5.2 Phương pháp đánh giá
5.2.1 Flscore
5.22 ExactMatch(EM)
5.3 Cài đặt thí nghiệm.
5.3.1 Mô hình Trinh đọc hồi tưởng
5.3.2 Kết hợp Mô hình biểu diễn ngôn ngữ tích hợp thông tin ngữ
nghĩa vào Trình đọc hồi tưởng
ưởng với mô-đun phân loại tích hợp thông tin
Chương 6 Kết luận và hướng phát triển
6.1 Kếtluận Q.2 ee ee
Chương 7 Công bố khoa học
Tài liệu tham khảo
in
BR awonrnn
>
49 5
52 52
52
54 64
vii
Trang 1021
22
2.3
2.4
4.1
5.1
5.2
5.3
5.4
5.5
5.6
DANH MUC CAC BANG
Ví dụ về các nhãn vai nghĩa
-Vi dụ về câu hỏi trả lời được và không trả lời được .
Vi dụ về những câu hỏi dé gây nhằm lẫn
Một số nhãn được sử dụng trong gán nhãn vai nghĩa
Vi dụ về cách gan nhãn vai nghĩa theo dạng BIO
Vi dụ về phương pháp xử lý đầu ra Heuristic
Số lượng dữ liệu để huấn luyện và đánh giá mô hình
Danh sách các thành phần và các nhãn được gán trong từng thành Kết quả các mô hình Đọc hiểu tự động Trình đọc hồi tưởng + ngữ nghĩa (CLS) biểu thị cho việc sử dụng mô hình ngôn ngữ tích hợp thông tin ngữ nghĩa vào mô-đun phân loại của mô hình Trình đọc hồi tưởng ẤN ¬am - gr /
Kết quả mô hình Trình đọc hồi tưởng trên dữ liệu ViQuAD2.0
Kết quả khi sử dụng mô hình ngôn ngữ tích hợp thông tin ngữ nghĩa trong mô-đun phân loại của Trình đọc hồi tưởng
Kết quả của mô hình Gan nhãn vai nghĩa trên bộ dữ liệu LORELEI Kết quả các mô hình Đọc hiểu tự động trên tập đánh giá khác Trình đọc hôi tưởng + ngữ nghĩa (CLS) biểu thị cho việc sử dụng mô hình ngôn ngữ tích hợp thông tin ngữ nghĩa vào mô-đun phân loại của mô hình Trình đọc hồi
tưởng -viii
43
48 49
Trang 113.2
3.3
3.4
3.5
3.6
3.7
4.1
4.2
4.3
4.4
4.5
4.6
5.1
DANH MỤC CÁC HÌNH VE VA ĐỒ THỊ
Một tế bào nơ-ron thần kinh cơ bản 20
Mô hình mạng nơ-ron nhan tao 21
Minh họa kiến trúc mô hình mạng nơ-ron hồi quy 23
Minh họa kiến trúc Nút hồi tiếp có cổng (GRU) 24
Kiến trúc Transformers[66] 26
Tổng quan quá trình tiền huấn luyện và tinh chỉnh mô hình BERT [3] 27 Sơ đồ kiến trúc BERT theo tac vụ MLM 28
Tổng quan mô hình Đọc hiểu tự động cơsở 33
Tổng quan mô hình Trình đọc hồi tưởng 35
Tổng quan về mô hình tích hợp ngữ nghĩa BERT-SemBERT 39
Chi tiết quá trình Nhúng ngữ nghĩa 39
Chi tiết quá trình Nhúng ngữ nghĩa 41
Chi tiết quá trình Tíchhợp - 42
Quá trình kết hợp Mô hình biểu diễn ngôn ngữ tích hợp thông tin ngữ nghĩa vào mô-đun phân loại của Trình đọc hồi tưởng Gồm hai quá
trình: 1) Huấn luyện một mô hình Gán nhãn vai nghĩa, 2) Kết hợp
Mô hình biểu diễn ngôn ngữ tích hợp thông tin ngữ nghĩa vào Trình
1X
Trang 12DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
MRC Machine Reading Comprehesion
QA Question Answering
SRL Semantic Role Labling
VLSP Vietnamese Language and Speech Processing
PrLMs Pre-Trained Language Models
BERT Bidirectional Encoder Representations
from Transformers
SemBERT Semantic-aware BERT
CNN Convolutional Neural Network
GRU Gated Recurrent Unit
EM Exact Match
Trang 13Chương 1 MỞ ĐẦU
Một trong những mong muốn mãnh liệt, xuất hiện từ rất sớm của các nhà khoa
học máy tính nói chung và trí tuệ nhân tạo nói riêng là xây dựng thành công các hệ
thống, chương trình máy tính có khả năng giao tiếp với con người thông qua ngôn
ngữ tự nhiên, tức thứ ngôn ngữ con người sử dụng hàng ngày thay vì các ngôn ngữ lập trình hay ngôn ngữ máy bậc thấp.
Xử lý ngôn ngữ tự nhiên nhằm giải quyết van đề hiểu và tạo ra ngôn ngữ tự nhiên
Ngôn ngữ tự nhiên là viên ngọc quý của trí tuệ nhân tạo Đó là một trong những
khả năng quan trọng nhất của máy tính, nhưng cũng là một hướng nghiên cứu đầy
thách thức Mỗi ngôn ngữ của con người đều có ngữ pháp riêng do các cách sử dụng
khác nhau, cùng với các yêu tố như phương ngữ và thành ngữ, các dạng ngôn ngữ
có nhiều biến thể Những biến thể này thường không ảnh hưởng nhiều vào giao tiếpgiữa con người với con người, nhưng đối với máy tính lại là một thách thức lớn để
máy tính có thể hiểu Điều này là do kiến trúc máy tính Von Neumann hiện tại có
khả năng xử lý thông tin tốt với các quy tắc rõ ràng, nhưng lại kém khả năng xử lý
các dạng thông tin liên tục phát triển.
Những năm qua, các nhà nghiên cứu đã đề xuất và phát triển nhiều phương pháp,
từ các kỹ thuật ngôn ngữ dựa trên quy tắc đến các mô hình dựa trên máy học thống
kê Trong những năm gan đây, các nhà nghiên cứu đã phát triển các mô hình học sâuend-to-end để xử lý ngôn ngữ tự nhiên, bao gồm nhúng từ, cơ chế chú ý, kiến trúc
bộ mã hóa va gần đây là các mô hình đào tạo trước [1, 2, 3, 4, 5, 6] Những kỹ thuật
này đã cải thiện đáng kể khả năng hiểu văn bản của các mô hình và mang lại những
ý tưởng mới cho xử lý ngôn ngữ tự nhiên.
Đọc hiểu tự động là một trong những chủ dé nghiên cứu tiên tiến và phổ biến
nhất trong xử lý ngôn ngữ tự nhiên Đọc là phương tiện cơ bản để mọi người có
được thông tin, không đọc thì con người không thể hiểu và nắm bắt được thông tin
Đã có nhiều chatbot trên thị trường, nhưng mọi người thường thấy chúng phản hồi
không chính xác Lý do là công nghệ hiện tại là cách tiếp cận dựa trên đối sánh văn
bản Vì vậy, chatbot không thực sự hiểu ý của mọi người Như chúng ta đã biết, con
người giao tiếp với nhau bằng ngữ cảnh, do đó chúng ta có thể dễ dàng hiểu những
gi người khác đang nói về thông qua việc tưởng tượng
Trang 14Ngoài những giá trị nghiên cứu của nó, đọc hiểu bằng máy còn có nhiều ứng
dụng có ý nghĩa Điển hình như tóm tắt bài báo do máy tạo ra có thể tiết kiệm rất
nhiều thời gian đọc toàn văn và hệ thống QA có thể tìm chính xác câu trả lời cho
các câu hỏi của người dùng từ một số lượng lớn tài liệu Khả năng đọc hiểu của máycũng là cơ sở để phát triển dịch máy và hội thoại, có giá trị lớn đối với các dịch vụ
có máy tính hỗ trợ.
1.1 Đặt vấn đề
Đọc hiểu tự động nhằm mục đích dạy máy trả lời câu hỏi sau khi hiểu các đoạn
văn đã cho, đây là mục tiêu cơ bản và lâu dài của việc hiểu ngôn ngữ tự nhiên Đọc
hiểu tự động có nhiều ứng dụng quan trọng như hệ thống trả lời câu hỏi và hộp thoại
tự động Các nhiệm vụ trả lời câu hỏi đòi hỏi khả năng đọc và hiểu ở mức độ cao, do
đó yêu cầu mức độ hiểu biết về ngôn ngữ của mô hình lớn Đây là lý do tại sao các
nhiệm vụ trả lời câu hỏi thường sử dụng để đánh giá các mô hình ngôn ngữ trong các nhiệm vụ hiểu ngôn ngữ khác nhau.
Các hệ thống đọc hiểu tự động ban đầu [7, 8, 9, 10, 11] được thiết kế trên một
giả thuyết rằng tất cả các câu hỏi đều có thể được trả lời dựa trên đoạn văn đã cho,
trong thực tế điều này không phải lúc nào cũng đúng với các trường hợp Sự tiến
bộ gần đây của nhiệm vụ đọc hiểu văn bản đã yêu cầu rằng mô hình phải có khả
năng phân biệt những câu hỏi không thể trả lời được (là những câu hỏi có câu trả lời
không được đề cập trong đoạn văn) để tránh đưa ra những câu trả lời không hợp lý
Điều đó buộc mô hình không chỉ phải chỉ học cách nắm bắt ngữ nghĩa của đoạn văn
và đưa ra câu trả lời cho các câu hỏi mà phải học cách xác định những câu hỏi có thể
trả lời và các câu hỏi không thể trả lời Để giải quyết tốt được van dé này quả thật làmột thách thức lớn đối với mô hình Đọc hiểu tự động
Đây cũng là một trong những vấn đề nan giải mà VLSP 2021 share-task MRC yêucầu các nhóm tham gia phải giải quyết Trong Hội thảo quốc tế về xử lý giọng nói và
2
Trang 151.1 ĐẶT VẤN DE
ngôn ngữ tiếng Việt (VLSP) 2021, Vietnamese Machine Reading Comprehension
[12] yêu cầu người tham gia xây dựng mô hình MRC tiếng Việt từ bộ dữ liệu cho
trước bao gồm các câu hỏi có câu trả lời và các câu hỏi không thể trả lời được đặtbởi các chuyên gia ngôn ngữ để trông giống với những câu hỏi có thể trả lời được
Để mô hình có thể hoạt động tốt trên bộ dữ liệu này, hệ thống MRC không chỉ phải
trả lời các câu hỏi có câu trả lời mà còn phải xác định những câu hỏi không có câu trả và không trả lời.
Để phục vụ việc phân loại khả năng trả lời của câu hỏi trong VLSP 2021
share-task: MRC, chúng tôi đã phân tích kết quả trên tập thử nghiệm của cuộc thi và nhậnkết quả dự đoán của mô hình tồn tại trường hợp có nhiều câu trả lời giống nhau trảlời cho các câu hỏi khác nhau về nghĩa Sau khi đọc và so sánh các câu trả lời đó với
các câu trả lời đúng chúng tôi thấy trong số các câu trả lời giống nhau đó chỉ có từ 1-2 câu trả lời là đúng thật.
Vì vậy việc kiểm chứng các câu trả lời là thật sự cần thiết Chúng tôi đã đề xuất
sử dụng phương pháp xử lý đầu ra, bản chất của việc sử dụng phương pháp này giốngnhư việc cho máy xác nhận lại câu trả lời để đưa ra dự đoán cuối cùng nhằm giảiquyết van dé phân loại các trường hợp có nhiều câu trả lời giống nhau trả lời cho cáccâu hỏi khác nhau về nghĩa, việc xử lý đầu ra đã ban đầu đã đạt được kết quả cao,tăng 3-4% so với mô hình cơ sở (mô hình ngôn ngữ được đào tạo trước) ban đầu
Thông qua việc sử dụng phương pháp xử lý đầu ra này chúng tôi thấy rằng các
mô hình cơ sở chưa hoạt động tốt trong việc phân loại khả năng trả lời của câu hỏi
và việc xác định khả trả lời của một câu hỏi rất là quan trọng vì nó ảnh hưởng lớnđến điểm đánh giá của một mô hình đọc hiểu
Ngoài ra, trong quá trình tìm hiểu các phương pháp để cải thiện việc phân loại
khả năng trả lời câu hỏi của mô hình chúng tôi nhận thấy các nhãn vai nghĩa có thể
giúp mô hình đưa ra các dự đoán về câu trả lời chính xác và dé dàng hơn Xét ví dụ
như bảng 1.1.
Ví dụ trên chúng ta có thể thấy chúng ta có thể dựa vào các nhãn trong câu để dễ
dàng xác định được khả năng trả lời và câu trả lời của câu hỏi Tuy vậy việc sử dụng nhãn vai nghĩa để phục vụ bài toán QA hay MRC hiện nay chưa có nhiều nghiên cứu
về điều này Vì vậy trong khóa luận lần này chúng tôi sẽ thử nghiệm việc sử dụng
Trang 16nhãn vai nghĩa vào trong bài toán Đọc hiểu tự động tiếng Việt Chúng tôi sử dụng
nhãn vai nghĩa để giúp mô hình có thể hiểu rõ hơn về ngữ nghĩa của câu, hỗ trợ cho
quá trình học ngữ cảnh và biểu diễn ngôn ngữ.
Trong khóa luận lần này chúng tôi sẽ tập trung đi giải quyết các vấn đề sau:
e Chứng minh việc xác định khả năng trả lời của câu hỏi rất quan trọng đối với
bài toán Đọc hiểu tự động.
e Tìm kiếm một phương pháp để giải quyết tốt van đề xác định khả năng trả lời
của câu hỏi
e Thử nghiệm thêm một số phương pháp để cải thiện việc phân loại đó.
1.2 Mục tiêu khóa luận
Trong khóa luận lần này chúng tôi sé đi giải quyết những vấn dé đã được nêu ở phan 1.1 Về khía cạnh học thuật chúng tôi đi xây dựng một mô hình Đọc hiểu tự
động có thể giải quyết tốt việc phân loại khả năng trả lời của câu hỏi một cách tổngquát Từ đó chúng tôi dé ra mục tiêu của nghiên cứu lần này là:
e Nghiên cứu, đánh giá mô hình Trình đọc hồi tưởng đã đạt được kết quả
state-of-the-art trên tiếng Anh trong nhiệm vụ Đọc hiểu tự động.
e Chúng tôi sẽ xây dựng lại mô hình Đọc hiểu tự động cơ sở và mô hình Đọc
hiểu được chúng tôi sử dụng trong VLSP 2021 share-task:MRC Dựa vào hai
mô hình này va mô hình Trình đọc hồi tưởng chúng tôi sẽ đi đánh giá, nhận xét
Trang 171.3 ĐỐI TƯỢNG VA PHAM VI NGHIÊN CỨU
một cách khách quan về tầm quan trọng của phân loại khả năng trả lời trong
Đọc hiểu tự động.
e Thử nghiệm tích hợp phương pháp biểu diễn ngôn ngữ SemBERT vào mô hình
Trình đọc hồi tưởng.
143 Đối tượng và phạm vỉ nghiên cứu
1.3.1 Doi tượng nghiên cứu
Đối tượng nghiên cứu của chúng tôi tập trung vào nghiên cứu mô hình Trình đọc hồitưởng việc để giải quyết vấn đề phân loại khả năng trả lời của câu hỏi trong nhiệm
vụ Đọc hiểu tự động.Chúng tôi thử nghiệm trên các mô hình biểu diễn ngôn ngữ
được đào tạo trước khác nhau như: mBỗERT, XLM-RoBERTa, PhoBERT Ngoài ra,
để các mô hình biểu diễn ngôn ngữ có thể học được cấu trúc ngữ nghĩa của câu phục
vụ việc trả lời câu hỏi chúng tôi sử dụng thêm phương pháp tích hợp thông tin ngữ nghĩa (semantic aware) vào các mô hình ngôn ngữ trên.
1.3.2 Phạm vi nghiên cứu
Trong phạm vi khóa luận này, chúng tôi tiến hành xây dựng hệ thống Đọc hiểu tự
động trên bộ dữ liệu tiếng Việt Chúng tôi sẽ đánh giá, phân tích các nghiên cứu, thực nghiệm của chúng tôi trên bộ div liệu UIT-ViQuAD2.0, bộ dif liệu nay là được
phát triển và kế thừa từ bộ dữ liệu UIT- ViQuADv1.0 được biết đến rộng rãi trongcộng đồng xử lý ngôn ngữ tự nhiên phát hành năm 2020
Ngoài ra, để thử nghiệm việc tích hợp mô hình thông tin ngữ nghĩa SemBERT
vào Trinh đọc hồi tưởng, chúng tôi sử dụng thêm bộ dữ liệu LORELEI Vietnamese
Representative Language Pack [13] Đối với bộ dit liệu LORELEI Vietnamese
Rep-resentative Language Pack chúng tôi sử dụng lượng dữ liệu đã được Gan nhãn vai
nghĩa vào việc đào tạo mô hình Gán nhãn vai nghĩa tự động nhằm phục vụ cho việc
đào tạo mô hình tích hợp thông tin ngữ nghĩa SemBERT.
Về phần nghiên cứu thực nghiệm, nhận thấy trong những năm qua chưa có nhiều
nghiên cứu về Đọc hiểu tự động tiếng Việt vì thế chúng tôi tiến hành nghiên cứu vàcài đặt lại mô hình Trình đọc hồi tưởng và dé xuất sử dụng phương pháp tích hợp
Trang 18CHƯƠNG 1 MO ĐẦU
thông tin ngữ nghĩa (SemBERT) lên bài toán Đọc hiểu tự động Chúng tôi chấp
nhận kết quả dự đoán của mô hình có thể không cao vì đây là một thử nghiệm của chúng tôi để tìm hiểu về sử ảnh hưởng của việc Gán nhãn vai nghĩa lên khả năng đọc hiểu ngôn ngữ của mô hình (cụ thể ở đây chúng tôi lấy bài toán Đọc hiểu tự động để
đánh giá).
1.4 Kết quả của đề tài
Nghiên cứu của chúng tôi đã đạt được kết quả như sau:
e Đưa ra được các dẫn chứng về việc mô hình cơ sở hoạt động không tốt trong
nhiệm vụ phân loại khả năng trả lời của câu hỏi và xác định được tầm quan
trọng của nó trong đọc hiểu tự động.
e Cài đặt, thử nghiệm thành công phương pháp Trình đọc hồi tưởng và thu được
kết tốt trong nhiệm vụ xác định khả năng trả lời của câu hỏi.
e Huấn luyện được một mô hình SLR.
e Kết hợp thành công phương pháp tích hợp thông tin ngữ nghĩa vào mô hình
biểu diễn ngôn ngữ sử dụng cho mô-đun phân loại của Trình đọc hồi tưởng.
1.5 Cấu trúc khóa luận
Bồ cục khóa luận này gồm 6 chương, với các nội dung chính được liệt kê dưới đây:
Chương 1: Mở đầu Đặt vấn đề, trình bày lý do thực hiện khóa luận, đề tài của
khóa luận, mục tiêu, đối tượng và phạm vi nghiên cứu của khóa luận, kết quả đạt
được của khóa luận.
Chương 2: Tổng quan Chúng tôi giới thiệu về hai bài toán chính chúng tôi
nghiên cứu trong khóa luận này là Đọc hiểu tự động và Gán nhãn vai nghĩa, thêm
vào đó chúng tôi sẽ trình bày khó khăn và các nghiên cứu của từng bài toán.
Chương 3: Cơ sở lý thuyết Trình bày các cơ sở lý thuyết liên quan tới các
phương pháp mà chúng tôi sử dụng trong mô hình Đọc hiểu tự động
Chương 4: Mô hình Đọc hiểu tự động Trong chương này, chúng tôi tập trung
trình bày kiến trúc mô hình cơ sở và mô hình Trình đọc hồi tưởng Thêm vào đó,
6
Trang 191.5 CẤU TRÚC KHÓA LUẬN
chúng tôi sẽ giới thiệu phương pháp Tích hợp thông tin ngữ nghĩa BERT (SemBERT)
cho bài toán Đọc hiểu tự động.
Chương 5: Thí nghiệm và kết quả Trình bay các bước cài đặt mô hình đã dé
xuất, giới thiệu về bộ dữ liệu và những khó khăn, thách thức của bộ dữ liệu Cuốicùng, đưa ra kết quả thu được và phân tích, đánh giá dựa trên các kết quả đó
Chương 6: Kết luận và hướng phát triển Trong phần cuối cùng, chúng tôi
tổng kết những điều đã đạt được trong khóa luận này, chỉ ra những điểm hạn chế và
đưa ra hướng phát triển trong tương lai.
Trang 20Chương 2 TỔNG QUAN
Trong phần này chúng tôi giới thiệu về hai bài toán là Đọc hiểu tự động và Gán
nhãn vai nghĩa Cùng với đó chúng tôi sẽ trình bày những khó khăn, thách thức của
bài toán Đọc hiểu tự động và Gán nhãn vai nghĩa trong xử lý ngôn ngữ tự nhiên đang
gặp phải Cuối cùng là giới thiệu một số công trình nghiên cứu có ảnh hưởng lớn
dén hai bài toán trên.
2.1 Bài toán Doc hiểu tự động
Với rất nhiều dữ liệu văn bản được tạo ra từ các ngành khác nhau, cách xử lý
dữ liệu thủ công theo kiểu truyền thống đã trở thành nút thắt cổ chai của nhiều ứng
dụng do tốc độ chậm và chi phí lớn Do đó, công nghệ Đọc hiểu tự động có thé tự
động xử lý và phân tích dữ liệu văn bản cũng như trích xuất các thông tin ngữ nghĩa
từ nó, ngày càng trở nên phổ biến hơn Ví dụ như công cụ tìm kiếm truyền thống chỉ
có thể trả về tài liệu liên quan đến truy vấn của người dùng, trong khi mô hình Đọc
hiểu tự động có thể xác định chính xác câu trả lời trong tài liệu, do đó cải thiện trải
ra nguyên nhân có thể xảy ra và đưa ra chẩn đoán Tóm lại, Đọc hiểu tự động có thể
giúp tiết kiệm nhân lực và thời gian to lớn trong các lĩnh vực yêu cầu xử lý và phân
tích tự động một lượng lớn văn bản.
Ngay cả khi chất lượng của một mô hình đọc hiểu không hoàn toàn đạt đến trình
độ của con người, nó có thể tiết kiệm chi phí bằng cách giải quyết một phần khônggian của vấn dé Ví du, trong dịch vụ khách hàng, máy tính có thể giải quyết cácvan dé thường gặp nhất với độ chính xác cao, trong khi phải nhờ đến nhân viên chocác van dé còn lại Do các ứng dụng rộng rãi của nó trong các lĩnh vực khác nhau,MRC đã trở thành một trong những hướng phổ biến nhất trong nghiên cứu Trí tuệ
nhân tạo tiên tiến.
Trang 212.1 BÀI TOÁN ĐỌC HIỂU TỰ ĐỘNG
Đọc hiểu tự động tương tự như nhiệm vụ đọc hiểu của con người Do đó, nó
cần được đánh giá bằng khả năng hiểu nội dung của các bài viết mẫu Không giống
như các van dé toán học, đọc hiểu yêu cầu các thước đo đánh giá cụ thể để hiểu ngữ
nghĩa Ai cũng biết rằng việc đánh giá khả năng đọc hiểu của con người được thựchiện dưới hình thức câu hỏi và trả lời, trong đó người đọc được yêu cầu trả lời cáccâu hỏi liên quan đến đoạn văn Vì vậy việc đánh giá mô hình Đọc hiểu tự động có
thể có cùng một dạng: mô hình trả lời các câu hỏi liên quan của đoạn văn và được
đánh giá bằng chất lượng câu trả lời
Tiêu chí đánh giá phụ thuộc vào hình thức trả lời Dưới đây là một số mẫu câutrả lời phổ biến:
e Multiple choice, nghĩa là, mô hình cần chọn câu trả lời đúng từ một số tùy
chọn.
e Trích xuât, nghĩa là, câu trả lời bị ràng buộc là một đoạn văn bản trong bài
việt, vì vậy mô hình cân đánh dâu vị trí bắt đầu và kêt thúc chính xác của câu
trả lời trong bài viết
e Tự do, nghĩa là, không có giới hạn về văn bản của câu trả lời, cho phép mô
hình tự do tạo ra các câu trả lời.
e Kiểm tra Cloze, nghĩa là, một số từ khóa nhất định bị xóa khỏi bài viết và mô
hình cần điền từ hoặc cụm từ chính xác vào chỗ trống.
Ngoài ra, một số bộ dữ liệu thiết kế các câu hỏi “không thể trả lời được”, tức là
câu hỏi không có câu trả lời phù hợp trong đoạn văn Trong trường hợp này, mô hình
sẽ xuất ra câu trả lời là rỗng.
2.1.1 Mô ta bài toán
Trong nghiên cứu này chúng tôi dựa theo cách trả lời trích xuất để đánh giá mô
hình Đọc hiểu tự động của chúng tôi Cụ thể, bài toán của chúng tôi trong nghiên cứu này có thể được phát biểu như sau:
e Đâu vào: Đoạn văn và câu hỏi.
Trang 22CHƯƠNG 2 TỔNG QUAN
e Đầu ra: Câu trả lời của câu hỏi là một khoảng trong đoạn văn hoặc là rỗng đối
với câu hỏi không trả lời được.
Với các bộ dữ liệu có chứa những câu hỏi không trả lời được, mô hình sẽ dự
đoán thêm một nhãn “is_impossible”, nếu câu hỏi có thể trả lời được thì đầu ra sẽ
là nhãn “is_impossible” mang giá trị là False cùng với câu trả lời của câu hỏi đó Ngược lại, đối với những câu hỏi có không thể trả lời, đầu ra của mô hình sẽ là nhãn
“is_impossible” mang giá tri True và câu trả lời là rỗng Cu thể, xét ví dụ bên dưới:
Doan van: Sao Kim hay Kim tinh, còn gọi là sao Thái Bạch, Thái Bạch Kim
tinh, là hành tính thứ hai trong hệ Mặt Trời, tự quay quanh nó với chu kỳ 224,7
ngày Trái Đất Xếp sau Mặt Trăng, nó là thiên thể tự nhiên sáng nhất trong bầu
trời tối, với cap sao biểu kiến bằng -4.6, đủ sáng để tạo nên bóng trên mặt nước
Bởi vì Sao Kim là hành tinh phía trong tính từ Trái Đất, nó không bao giờ xuất
hiện trên bầu trời mà quá xa Mặt Trời: góc ly giác đạt cực đại bằng 47,8 Sao
Kim đạt độ sáng lớn nhất ngay sát thời điểm hoàng hôn hoặc bình minh, do vậy
mà dân gian còn gọi là sao Hôm, khi hành tinh nay mọc lên lúc hoàng hôn, và
sao Mai, khi hành tinh nay mọc lên lúc bình minh.
Câu hỏi: Tại sao sao Kim được gọi là sao Hôm?
Câu trả lời: Độ sáng lớn nhất ngay sát thời điểm hoàng hôn hoặc bình minh
is_impossible: False
Câu hoi: Tại sao Mặt Trời được gọi là sao Hôm?
Câu trả lời: []
is_impossible: True
Bảng 2.1 Ví dụ về câu hỏi tra lời được va không trả lời được.
Đối với câu hỏi thứ nhất: “Tại sao sao Kim được gọi là sao Hôm?” kết quả dự
đoán sé là “is_impossible: False” và câu trả lời tương ứng với câu hỏi đó “Câu trả
lời: Độ sáng lớn nhất ngay sát thời điểm hoàng hôn hoặc bình minh” Và ngược lạivới câu hỏi thứ hai: “Tại sao Mặt Trời được gọi là sao Hôm?” kết quả dự đoán sẽ là
“is_impossible: True” và “Câu trả lời: []” Ở đây hai dấu ngoặc vuông tượng trưng
cho đó là một câu trả lời rỗng.
2.1.2 Kho khan
Mặc dù chúng ta đã đạt được những thành tựu đáng kể trong nhiều nhiệm vu xử
lý ngôn ngữ tự nhiên, nhưng vẫn còn nhiều van dé chưa được giải quyết tốt, bao gồm
cả sự hiểu biết về cấu trúc ngôn ngữ và ngữ nghĩa Nhiều vấn dé chưa được giải
10
Trang 232.1 BÀI TOÁN ĐỌC HIỂU TỰ ĐỘNG
quyết này cũng liên quan mật thiết đến Đọc hiểu tự động
Dưới đây chúng tôi sẽ trình bày một số van dé, khó khăn của Đọc hiểu tự động
nói riêng và xử lý ngôn ngữ nói chung đang gặp phải:
2.1.2.1 Su mơ hồ của ngôn ngữ
Một trong những đặc điểm của ngôn ngữ là nó có thể diễn đạt những ý tưởng phức
tạp với những câu nói ngắn gọn Do đó, thường có sự mơ hồ trong một câu, tức là
có nhiều cách hiểu hợp lý Dưới đây là một số ví dụ.
Ví dụ 1: Cá đã sẵn sàng để ăn.
Câu trên có thể có nghĩa là “cá có thể bắt đầu ăn” hoặc “ca đã sẵn sàng để cung
cấp cho một người nào đó để ăn” Sự mơ hồ đến từ các cách hiểu khác nhau về vai
trò cua từ “cá” trong câu: phụ thuộc vào ý nghĩa của hành động "an" trong câu là
chủ động hay bị động.
Vi dụ 2: Tôi nhìn thay một người đàn ông trên đôi với kính viễn vọng.
Kính viễn vọng có thể nằm trong tay tôi (tôi sử dụng kính viễn vọng và thấy một
người đàn ông) hoặc người đàn ông (tôi đã nhìn thấy người đàn ông và kính viễn
vọng của anh ta), vì cả hai nghĩa của câu đều hợp lệ.
Đây chỉ là một số trong vô số ví dụ về sự mơ hồ trong ngôn ngữ Ngay cả đốivới con người, rất khó để đánh giá ý định thực sự của người nói Tuy nhiên, nếu có
đủ thông tin theo ngữ cảnh, hầu hết sự mơ hồ có thể được loại bỏ Ví dụ 1, nếu mộtngười đầu bếp nói "cá đã sẵn sàng để ăn", chúng ta sẽ hiểu rằng ở đây cá đóng vai
trò là món ăn và đã sẵn sàng để ăn.
Nhiều mô hình NLP vẫn gặp khó khăn trong việc hiểu ngữ nghĩa của ngữ cảnh
Bằng cách phân tích kết quả của các mô hình khác nhau về các nhiệm vụ như MRC,các nhà nghiên cứu nhận thấy rằng các mô hình hiện có phần lớn phụ thuộc vào đối
sánh từ khóa hoặc cụm từ, điều này hạn chế đáng kể khả năng hiểu ngữ cảnh và xử
lý sự mơ hồ Đó là lý do chúng tôi đề xuất sử dụng mô hình tích hợp thông tin ngữ
nghĩa (SemBERT) lên bài toán Đọc hiểu tự động trong nghiên cứu này Đó là lý do
chúng tôi đề xuất sử dụng mô hình tích hợp thông tin ngữ nghĩa (SemBERT) lên bàitoán Đọc hiểu tự động trong nghiên cứu này.Chúng tôi tin rằng việc sử dụng tích
hợp thông tin ngữ nghĩa sẽ giải quyết được phần nào vấn đề này.
11
Trang 24CHƯƠNG 2 TỔNG QUAN
2.1.2.2 Kỹ năng suy luận và nhận thức thông thường
Trong nhiều trường hợp, con người có thể suy luận từ các cuộc trò chuyện để đưa rakết luận mà không cần giải thích rõ ràng Dưới đây là một đoạn hội thoại ví dụ về
Tổng đài viên: Vâng , Anh muốn bay khi nào a?
Khách hàng: A, tôi sẽ đến Ha Nội để tham dự một hội nghị, diễn ra từ ngày 6
đến ngày 9.
Tổng đài viên: Vâng, em gửi anh thông tin chuyến bay thẳng từ Tp.Hồ Chi Minh
đến Hà Nội vào ngày 5 tháng 5,
Ở đây, khách hàng không trả lời trực tiếp câu hỏi của nhân viên về ngày khởihành Thay vào đó, anh ta đưa ra ngày bắt đầu và kết thúc của hội nghị mà anh ta sẽtham dự Vì chuyến bay phải đến Hà Nội trước khi cuộc họp bắt đầu, đại lý thôngbáo rằng ngày khởi hành là ngày 5 tháng 5 Và nếu khách hàng cũng cần một chuyến
bay trở lại Tp.Hồ Chí Minh từ Hà Nội, nhân viên nên cung cấp thông tin về các
chuyến bay khởi hành trong tối ngày 9/5 hoặc ngày 10/5 Do đó, một mô hình dịch
vụ khách hàng tự động cần phải suy ra giống như ngày khởi hành từ các câu trước
đó Suy luận này đòi hỏi mô hình phải mang một ý thức rằng chuyến bay phải đến
trước hội nghị Trong những năm gần đây, đã có nhiều nỗ lực trong việc áp dụng
lý lẽ và nhận thức thông thường vào NLP Tuy nhiên, đó vẫn là một câu hỏi mở về
việc làm thế nào để trang bị cho một mô hình có tầm nhìn quy mô lớn và khả năng
lý luận hiệu quả.
2.1.2.3 Những câu hỏi dễ gây nhầm lẫn
Ngoài hai thách thức nói trên trong quá trình tham gia VLSP, chúng tôi đã đi
tiến hành phân tích kết quả dự đoán của mô hình và nhận ra trong bộ dữ liệu ViQuAD2.0 có tồn tại một số câu hỏi khó dễ gây nhầm lẫn cho mô hình Thường
UIT-12
Trang 252.1 BÀI TOÁN ĐỌC HIỂU TỰ ĐỘNG
đối với những câu hỏi này mô hình sẽ dự đoán ra những câu trả lời giống nhau vàchỉ có một đến hai câu trả lời đó cho kết quả đúng hầu hết các câu còn lại là không
có câu trả lời Dưới đây là một số ví dụ về những câu hỏi khó dễ gây nhầm lẫn.
Đoạn văn: Đoạn văn: Theo như biên niên sử về triều đại của Henry viết bởi
Roger Hoveden thì phần lớn lâu đài thuộc sở hữu của những người nổi loạn phải
được trả lại trạng thái ban đầu 15 ngày trước khi cuộc chiến nổ ra, trong khi
những tòa lâu đài khác sẽ bị san bằng Nếu xét trên việc lâu đài thời bấy giờ
thường được xây bằng đá và nhiều nam tước đã mở rộng hoặc củng cố lại lâu
đài của mình, đây không phải là điều dễ dàng
Câu hỏi: Những lâu đài thời bây giờ thường được xây bằng nguyên liệu gì ?
Câu trả lời: Thường được xây bằng đá
Câu hỏi: Những lâu đài thời bây giờ thường được xây bằng nguyên liệu gì ?
Câu trả lời: []
Bảng 2.2 Ví dụ về những câu hỏi dễ gây nhầm lẫn
Như ví dụ trên ta thấy hai câu hỏi có nội dung và cách diễn đạt gần như là tươngđồng nhau chỉ khác ở duy nhất một từ, tuy vậy một trong hai câu đó chỉ có duy nhất
một câu có thể trả lời được Phương pháp xử lý đầu ra của chúng tôi đã giải quyết
phần nào được vấn đề nói trên, tuy nhiên để mô hình Đọc hiểu tự động có thể tự học
và xác định được khả năng trả lời của các câu hỏi này vẫn là một nhiệm vụ tương
đối là khó khăn
Trên tiếng Anh, mô hình Trình đọc hồi tưởng đã giải quyết tốt van dé phân loại
các câu hỏi không thể trả lời được, vì thế trong khóa luận lần này chúng tôi quyếtđịnh áp dụng phương pháp này cho Đọc hiểu tự động tiếng Việt, hi vọng sẽ phầnnào giải quyết được khó khăn trên Ngoài ra chúng tôi cũng hi vọng ý tưởng tích hợpphương pháp biểu diễn ngôn ngữ SemBERT vào mô hình Trình đọc hồi tưởng của
chúng tôi cũng sẽ giúp ích phần nào khả năng phân loại các câu trên.
2.1.3 Những nghiên cứu liên quan
Đọc hiểu tự động là một hướng quan trong trong xử lý ngôn ngữ tự nhiên (NLP).
Xử lý ngôn ngữ tự nhiên phân tích các mẫu và cấu trúc của ngôn ngữ con người, với mục tiêu thiết kế các mô hình máy tính để hiểu ngôn ngữ và giao tiếp với con người.
Lịch sử của xử lý ngôn ngữ tự nhiên có thể bắt nguồn từ sự ra đời của trí tuệ nhân
13
Trang 26CHƯƠNG 2 TỔNG QUAN
tạo Qua nhiều thập kỷ, chúng ta đã đạt được những tiến bộ to lớn trong nhiều lĩnh
vực xử lý ngôn ngữ tự nhiên, chẳng hạn như hiểu biết và tạo lập, điều này đã đặt nền
tảng vững chắc cho nghiên cứu đọc hiểu tự động Dưới đây tôi sẽ trình bày một số
nghiên cứu trước về đọc hiểu tự động.
Các mô hình ngôn ngữ được đào tạo trước (PrLM) như BERT (Devlin và cộng
sự 2019) và XLNet (Yang và cộng sự 2019) đã đạt được thành công trên các nhiệm
vụ xử lý ngôn ngữ tự nhiên khác nhau được biết đến rộng rãi và đóng vai trò như một bộ mã hóa mạnh mẽ [14, 15, 16] Tuy nhiên, việc truyền đạt một lượng lớn kiến thức tổng quát từ kho ngữ liệu vào một mô hình ngôn ngữ học sâu thông qua đào tạo
trước là khá tốn thời gian và đòi hỏi nguồn lực lớn
Gần đây, hầu hết nhà nghiên cứu MRC đều tập trung chủ yếu vào khía cạnh bộ
mã hóa, tức là PrLM (mô hình ngôn ngữ đào tạo trước) học sâu [3, 4, 6], vì các nhà
nghiên cứu có thể đơn giản hóa và dễ dàng hưởng lợi từ một bộ mã hoá Trong khi
đó, người ta ít chú ý đến bộ giải mã (bộ giải mã ở đây là bộ phận dành riêng cho
nhiệm vụ trong hệ thống MRC, chang hạn như tương tác đoạn văn, câu hỏi và xác
minh câu trả lời) của các mô hình MRC [17, 18, 19], mặc dù nó đã được chứng minh
rằng bộ giải mã tốt hơn hoặc cách sử dụng bộ mã hóa tốt hơn vẫn có tác động đáng
kể đến hiệu suất của MRC, bat kể bộ mã hóa đó mạnh đến mức nào [20, 21, 22, 23,
241.
Để giải quyết nhiệm vụ MRC với những câu hỏi không trả lời được hầu hết các
cách xử lý là áp dụng thêm một lớp xác minh câu trả lời, dự đoán khoảng câu trả lời
và xác minh câu trả lời được đào tạo cùng với việc học đa tác vụ Cơ chế xác minh
được triển khai như vậy cũng có thể đơn giản như cài đặt ngưỡng có thể trả lời được
sử dụng rộng rãi bởi các mô hình ngôn ngữ được đào tạo trước (PrLM) đủ mạnh để
nhanh chóng xây dựng trình đọc [3, 25].
Liu và cộng sự [26] đã thêm một mã thông báo từ trống vào ngữ cảnh và thêm
một lớp phân loại đơn giản cho trình đọc Hu và cộng sự [17] sử dụng hai hàm mất
mát phụ trợ là mat mát khoảng trả lời tập trung vào trích xuất câu trả lời và mat mát
không có câu trả lời tập trung vào việc phân loại kha nang trả lời của câu hỏi Tác
giả còn sử dụng thêm một trình xác minh bổ sung để xác thực lại câu trả lời Back
và cộng sự [18] đã phát triển một điểm số hài lòng dựa trên sự chú ý để so sánh các
14
Trang 272.2 BÀI TOÁN GAN NHÂN VAI NGHĨA
nhúng câu hỏi với nhúng câu trả lời ứng viên Zhang và cộng sự [27] đã đề xuất một
lớp trình xác minh, là một lớp tuyến tính được áp dụng cho việc nhúng ngữ cảnh có
trọng số theo phân phối bắt đầu và kết thúc trên các đại diện từ ngữ cảnh được nối
với biểu diễn mã thông báo [CLS] cho BERT.
Khác so với các nghiên cứu trước, Trình đọc hồi tưởng lấy cảm hứng từ cách conngười giải quyết các câu hỏi về đọc hiểu, Zhang và cộng sự [2§] đã đề xuất mộttrình đọc hồi tưởng (Retro-Reader) tích hợp hai giai đoạn của chiến lược đọc và xácminh: 1) đọc sơ lược để điều tra các tương tác tổng thể của đoạn văn và câu hỏi,đồng thời đưa ra phán đoán ban đầu; 2) đọc chuyên sâu xác minh câu trả lời và đưa
ra dự đoán cuối cùng Mô hình đọc được đề xuất được đánh giá trên hai bộ dữ liệuđọc hiểu tự động chuẩn là SQUAD 2.0 [12] va NewsQA [29] đã thu được được kết
quả state-of-the-art Và trong nghiên cứu lần này chúng tôi sẽ tập trung vào nghiên cứu mô hình Trình đọc hồi tưởng này để giải quyết vẫn đề phân loại khả năng trả lời
trong bài toán Đọc hiểu tự động tiếng Việt
Các nghiên cứu về Đọc hiểu tiếng cũng đang phát triển rất mạnh mẽ với việc
phát hành các bộ dữ liệu dành riêng cho nhiệm vu này như là UIT-ViNewsQA [29],
UIT-ViQuAD1.0 [30], UIT-ViSQuaD2.0[12] Hơn thé nửa các nghiên cứu về Doc
hiểu tiếng Việt cũng được các nhà nghiên cứu quan tâm đến với nhiều nghiên cứuđược công bố [31, 32, 33, 34]
2.2 Bài toán Gan nhãn vai nghĩa
Các trình phân tích cú pháp mạnh mẽ [35, 36, 37, 38] đã có tác động lớn đến lĩnh
vực xử lý ngôn ngữ tự nhiên trong những năm gần đây Tuy nhiên, các phân tích cú pháp được tạo ra bởi các trình phân tích cú pháp không thể hiểu được thể hiện được
ý nghĩa đầy đủ của các câu được phân tích cú pháp Đặc biệt, họ không nêu rõ "Ai
đã làm gì với ai, và như thế nào, khi nào và ở đâu?" Đối với máy tính để sử dụnghiệu quả thông tin được mã hóa trong văn bản, điều cần thiết là chúng có thể phát
hiện các sự kiện đang được mô tả và những người tham gia sự kiện.
Gan nhãn vai nghĩa lần đầu tiên được Gildea và Jurafsky (2000) [39] khởi xướng
dựa trên dự án gắn nhãn ngữ nghĩa FrameNet [40] và PropBank [41] là một trong
những chương trình ghi nhãn được sử dụng phổ biến nhất cho nhiệm vụ này Điều
15
Trang 28CHƯƠNG 2 TỔNG QUAN
này liên quan đến hai biến thể: gắn nhãn dựa trên nhịp (span SRL), trong đó cácđối s6 được mô tả là các khoảng từ [42]; [43] và nhãn dựa trên phần đầu (phụ thuộc
SRL).
2.2.1 Mô tả bài toán
Bài toán Gán nhãn vai nghĩa là một bài toán trong xử lý ngôn ngữ tự nhiên bao
gôm hai nhiệm vụ chính:
e Phát hiện các đối ngữ nghĩa liên hệ với vị ngữ hay động từ của câu và phân
loại chúng vào các vai trò riêng Ví dụ, câu "Hương đã bán quyển sách cho
Hùng", bài toán đặt ra là cần nhận ra động từ "bán" là vị từ, "Hương" là người
bán, "quyển sách" là vật được đem bán, và "Hùng" là người mua.
e Đây là một bước quan trọng để hiểu nghĩa của một câu Một biểu diễn ngữ
nghĩa như vậy là dạng trừu tượng bậc cao hơn cây cú pháp Ví dụ, câu "Quyển sách đã được bán bởi Hương cho Hùng" có dạng cú pháp khác, nhưng có cùng
vai trò ngữ nghĩa.
Mục tiêu của bài toán là phân tích ngữ nghĩa nông của các văn bản ngôn ngữ tự nhiên tìm ra cấu trúc vị ngữ - đối số (Predicate - Argument) của câu Trong đó vị ngữ mang ý nghĩa trung tâm của một tình huống được văn bản thể hiện Trong hầu
hết các ngữ nghĩa lý thuyết, vị ngữ là động từ, danh từ nguyên thể và một số dạngđộng từ khác Đối số là những cum từ điền vào các chỗ trống nghĩa của một tình
huống được vị ngữ diễn đạt và xác định các chi tiết quan trọng của nó Họ trả lời
những câu hỏi như “ai?”, “Đã làm gì?”, “Cho ai?”, “Với cái gì?”, “Ở đâu?”, “Khi
nào?”, v.v Các nhãn thông thường trong bài toán Gán nhãn vai nghĩa trong bảng
2.3.
Bài toán Gán nhãn vai nghĩa thuộc lớp bài toán Gán nhãn chuỗi (Sequence ing), một cách tổng quát bài toán có thể được phát biểu như sau:
label-Đầu vào: X = {z¡,z›,za tn} trong đó là z; từng từ trong câu.
Đầu ra: Y = {Y1, 9a, 93, , Yn} trong đó y; là nhãn tương ứng của từ 2;
trong câu.
16
Trang 292.2 BÀI TOÁN GÁN NHÂN VAI NGHĨA
Trong đó với mỗi từ x; € X ta có tương ứng một nhãn y; € Y là chuỗi các nhãn,
sao cho độ dai của X và Y bang nhau.
Vai trò Mô tả Ví dụ Agent Nguyên nhân của một sự | Người phục vụ làm đổ súp.
kiện.
Patient Người trải nghiệm một sự | John bị đau đầu.
kiện.
Force Nguyên nhân phi điều kiện | Gió thổi lá khô từ cây vào sân
của sự kiện của chúng tôi.
Theme Người tham gia bị ảnh hưởng | Tôi đã ném trái bóng cho
trực tiếp nhất bởi một sự kiện | Hằng
Result Sản phẩm cuối cùng của một | Thành phố đã xây một trung
sự kiện tâm thương mại lớn nhất cả
nước.
Content Mệnh dé hoặc nội dung của | Mona hỏi: "Bạn đã gap Mary
một sự kiện mệnh đề Ann ở siêu thị?".
Instrument | Một công cụ được sử dụng | Anh ta đã leo qua bức tường
trong một sự kiện đó bằng thang
Beneficiary | Người thụ hưởng một sự | Tôi đã đặt lịch khách sạn cho
Bảng 2.3 Một số nhãn được sử dụng trong gán nhãn vai nghĩa
Một cách tiếp cận tiêu chuẩn để giải quyết van đề gán nhãn chuỗi cho bài toán
có dạng biểu diễn theo cụm từ (span) như Nhận dạng thực thể định danh đó là
phương pháp gán nhãn BIO [44] (Begin - Inside - Outside) Bằng cách này, ta có thể
xem bài toán Nhận dạng thực thể định danh như một bài toán gán nhãn chuỗi theo từng từ (word by word) thông qua các nhãn mang cả hai giá trị: ranh giới từ (word
boundary)- vị trí bắt đầu và kết thúc của một từ - và loại thực thể định danh
Trong cách gan nhãn BIO, ta gan tất cả những từ bắt đầu một cụm từ được quan
tâm bằng B, các từ xuất hiện trong cụm từ đó bằng nhãn I, và tất cả những từ nằm
ngoài cụm từ đang được quan tâm đều được gán nhãn O Biểu diễn câu văn theo các
nhãn BIO tận dụng được ưu điểm của phương pháp gán nhãn từ loại (part-of-speech tagging) trong bài toán gán nhãn chuỗi, đó là: gán mỗi nhãn y; tương ứng với một từ
z¿ Ví dụ như bảng 2.4.
17
Trang 30CHƯƠNG 2 TỔNG QUAN
Công nhân vận chuyển vật tư sang | Indonesia
B-AGENT | I-AGENT | B-VERB | I-VERB | B-THEME | I-THEME | O | B-GOAL
Bảng 2.4 Ví dụ về cách gán nhãn vai nghĩa theo dạng BIO
2.2.2 Những nghiên cứu liên quan
Một trong những thách thức đối với việc hiểu văn bản là học ngữ nghĩa Mặc dù học
sâu đã được áp dụng cho các nhiệm vụ xử lý ngôn ngữ tự nhiên (NLP) và đạt được
hiệu suất đáng kể [45, 46, 47, 48, 49, 50], các nghiên cứu gần đây đã phát hiện ra
các mô hình học sâu có thể không thực sự hiểu các văn bản ngôn ngữ tự nhiên [51]
và dễ bị đánh lừa bởi các câu gây nhiễu [52].
Gắn nhãn vai trò ngữ nghĩa (SRL) là một nhiệm vụ phân tích ngữ nghĩa nôngnhằm khám pha xem ai đã làm gi với ai, khi nào và tại sao [53, 23, 22], cung cấp
ngữ nghĩa theo ngữ cảnh rõ ràng, phù hợp với mục tiêu của nhiệm vụ hiểu văn bản.
Ngữ nghĩa rõ ràng đã được chứng minh là có lợi cho một loạt các nhiệm vụ NLP,
bao gồm phân loại ý thức quan hệ diễn ngôn [54], dịch máy [55], và trả lời câu hỏi[56] Tất cả các công trình thành công trước đây chỉ ra răng ngữ nghĩa theo ngữ cảnh
rõ ràng có thể giúp ích cho các nhiệm vụ đọc hiểu và suy luận ngôn ngữ tự nhiên.
Đối với MRC, các câu hỏi thường được dat ra là: với ai, cái gì, như thế nào, khinào và tại sao, mối quan hệ vị ngữ-đối số được cho là từ SRL cũng có đi giải quyếtcác vấn đề tương tự Vì vậy sử dụng các nhãn vai nghĩa để phục nhiệm vụ đọc hiểu
tự động là một việc hiển nhiên Trong bài toán trả lời câu hỏi nói riêng và đọc hiểu
tự động nói chung, đã có một số nghiên cứu về việc sử dụng các nhãn vai nghĩa vào
việc trả lời câu hỏi Việt sử dụng ngữ nghĩa vào nhiệm vụ đọc hiểu động không phải
là một phương pháp mới, ban đầu các nhãn vai nghĩa được sử dụng như một phương
pháp cốt lõi trong quá trình QA.
Nghiên cứu của Narayanan và Harabagiu [57] là một trong những nghiên cứu đầutiên đề xuất sử dụng vai trò ngữ nghĩa trong hệ thống QA và chúng được áp dụng
để xác định loại câu trả lời cho các câu hỏi phức tap.[58] đề xuất biểu diễn cả câuhỏi và đoạn văn có chứa câu trả lời khả thi dưới dạng cấu trúc kiểu FrameNet Câu
trả lời có được nhờ một quá trình ánh xạ giữa cả hai cấu trúc Kết quả cho các câu
hỏi miền mở đạt được độ chính xác là 66% và khả năng nhớ lại là 33%.Ngoài ra, hệ
18
Trang 312.2 BÀI TOÁN GAN NHÂN VAI NGHĨA
thống được trình bày bởi [59] thiết lập một bộ quy tắc liên quan một số loại câu hỏi
(ai, khi nào, ở đâu hoặc cái gì) với loại vai trò cho câu trả lời mong đợi Moschitti
và cộng sự [60] đã đề xuất một thuật toán học có giám sát bằng cách sử dụng thông
tin từ một cây phân tích ngữ nghĩa bao gồm vị từ câu và các đối số của nó được gắn
thẻ với vai trò ngữ nghĩa Các nghiên cứu trên đã đạt được kết quả state-of-the-art sovới các mô hình QA thời bấy giờ đã cho thấy tiềm năng việc sử dụng của các nhãn
vai nghĩa vào bài toán QA.
Hiện nay, với sự phát triển của các mô hình ngôn ngữ được đào tạo trước, không
còn nhiều nghiên cứu đến vấn đề này Tuy nhiên, vào năm 2020 Zhang và cộng sự
[25] đã đề xuất kết hợp ngữ nghĩa theo ngữ cảnh rõ ràng từ việc gắn nhãn vai trò
ngữ nghĩa được đào tạo trước và giới thiệu một mô hình biểu diễn ngôn ngữ cải tiến,
Semantics Aware BERT (SemBERT), có khả năng hiểu rõ ràng ngữ nghĩa theo ngữ
cảnh qua mô hình cốt lõi BERT SemBERT giữ cho khả năng sử dụng thuận tiện
của tiền thân BERT của nó theo cách tinh chỉnh nhẹ mà không có những sửa đổiđáng kể về nhiệm vụ cụ thể Trong nghiên cứu này các nhãn vai nghĩa được sử dụng
để bổ sung ngữ nghĩa cho phương pháp biểu diễn ngôn ngữ BERT So với BERT,
SemBERT đơn giản về khái niệm nhưng mạnh hơn về khả năng Nó dat được
state-of-the-art và cải thiện đáng kể kết quả trên mười nhiệm vụ đọc hiểu và suy luận ngônngữ trong tiếng Anh Chúng tôi sẽ thử nghiệm việc sử dụng mô hình SemBERT nàyvào phương pháp Trình đọc hồi tưởng để xem sự ảnh hưởng của các nhãn vai nghĩalên bài toán Đọc hiểu tự động tiếng Việt
Trong tiếng Việt bài toán Gán nhãn vai nghĩa chưa được phổ biến, [61] Phuong
Le-Hong và cộng sự đã cho rằng nhãn vai trò ngữ nghĩa (SRL) là một nhiệm vụ phụ
phân tích ngữ nghĩa của các câu ngôn ngữ tự nhiên và ứng dụng của nó đối với tiếng
Việt là rất cao Vì vậy họ đã xây dựng PropBank tiếng Việt, kho ngữ liệu SRL tiếng
Việt đầu tiên và một hệ thống phần mềm để gắn nhãn các vai trò ngữ nghĩa của văn
bản tiếng Việt Đặc biệt, nhóm tác giả đã trình bày một thuật toán trích xuất cầuthành mới trong bước xác định ứng viên đối số phù hợp hơn và chính xác hơn so với
phương pháp ánh xạ nút thông thường.
19
Trang 32Chương 3 CƠ SỞ LÝ THUYET
Trong chương này, chúng tôi trình bày cơ sở lý thuyết của các phương pháp chúng
tôi đã sử dụng để xây dựng mô hình Đọc hiểu tự động Tiếng Việt
3.1 Mạng no-ron (Neural Network)
Bộ não của con người được coi là vật thể phức tạp nhất trong vũ trụ Giả thuyết nàymột phần là do mạng lưới thần kinh của não hoặc cách hệ thần kinh sinh học củachúng ta xử lý thông tin, các mạng nơ ron bao gồm nhiều nơ-ron xử lý kết nối vớinhau và cùng nhau giải quyết một vấn đề cụ thể
Nơ-ron (neuron) là đơn vị cơ bản cấu tạo nên hệ thần kinh và là thành phần quantrọng nhất của não bộ Phần thân của nơ ron là soma, chứa nhân (nucleus) sẽ chịutrách nhiệm tiếp nhận thông tin đầu vào từ thế giới bên ngoài thông qua các sợinhánh (dendrites), sau đó xử lý và đưa ra các thông tin đầu ra thông qua các sợi trục(axon) và truyền đến sợi nhánh của no ron khác Hình 3.1 mô tả cấu tạo của một nơron thần kinh cơ bản
Hình 3.1 Một tế bao nơ-ron thần kinh co ban
Các nơ-ron thần kinh thực hiện việc truyền dẫn tín hiệu qua lại lẫn nhau dựa vào
việc lan truyền xung điện, hay còn gọi là xung thần kinh Nếu các xung điện này đủ
lớn, các nơ-ron sẽ kích hoạt để cho phép tín hiệu đi từ các sợi nhánh của mình đến
sợi trục và lan truyền qua các sợi nhánh của các nơ-ron khác.
20
Trang 333.1 MẠNG NƠ-RON (NEURAL NETWORK)
Lay cảm hứng từ cấu trúc mạng nơ-ron thần kinh va cách thức hoạt động của não
bộ trong việc lan truyền xung thần kinh giúp con người có thể xử lý những thông tin
nhận được từ môi trường bên ngoài, các nhà nghiên cứu [62] đã mô hình hóa mạng
nơ-ron với hi vọng máy tính cũng có thể thực hiện xử lý các tác vụ mà con người
hiện tại có thể thực hiện một cách dễ dàng.
3.1.1 M6 hình mạng nơ-ron nhân tạo (ANN)
Mạng Neural network bao gồm nhiều lớp (layer) được kết nối với nhau, được chia thành 3 nhóm chính như hình 3.2, với lớp ngoài cùng bên trái được gọi là lớp đầu
vào (input layer), lớp ngoài cùng bên phải được gọi là lớp đầu ra (output layer), vànhóm các layer ở giữa gọi là các lớp ẩn (hidden layer) Bat kỳ mạng nơ-ron nào cũng
có 1 lớp đầu vào và 1 lớp đầu ra, tuy nhiên số lượng lớp ẩn tùy thuộc vào mức độ
phức tạp của vẫn đề, có thể có một, nhiều hoặc không có lớp ẩn nào.
Input Layer
(Lớp đầu vào)
Output Layer
(Lớp đầu ra)
Hình 3.2 Mô hình mạng nơ-ron nhân tạo
Các lớp trong mạng nơ-ron biến đổi dữ liệu bằng cách tính tổng tuyến tính của
các đầu vào và sau đó chuẩn hóa nó bằng cách sử dụng hàm kích hoạt, quá trình
21
Trang 34CHƯƠNG 3 CƠ SỞ LÝ THUYẾT
này được diễn ra tại mỗi node Mỗi node trong lớp đầu ra và các lớp ẩn đều liên kếtvới tất cả các node ở tầng liên trước với các trọng số w riêng, và ngoài ra mỗi node
cũng mang một hệ số bias b riêng.
e Tính tổng tuyến tính: Tính tổng tất cả các node ở tầng liền trước, nhân với
trọng số w và cộng với hệ số bias b tương ứng
e Sử dụng hàm kích hoạt (activation function) cho tổng tuyến tính.
Hàm kích hoạt là một phép biến đổi đầu vào tuyến tính thành phi tuyến tính, được
thực hiện trên dữ liệu đầu vào tại mỗi node và kết quả đầu ra được dùng làm đầu vàocủa node tiếp theo, giúp mô hình hóa được những bài toán phức tạp hơn Hàm kích
hoạt quyết định thông tin tại node đó có nên được tiếp tục đưa vào các lớp phía sau hay không, giống như việc các nơ-ron thông thường quyết định có nên lan truyền xung thần kinh đến các nơ-ron khác hay không Công thức của hàm kích hoạt được
biểu diễn một cách tổng quát như sau:
fO(wT a +b) (3.1)
Trong đó, ae) là hàm kích hoạt tai node thứ i trong lớp /, +? là ma trận hệ số
với b là vec-tơ hệ số độc lập
Ngoài ra, hàm kích hoạt còn hỗ trợ cơ chế lan truyền ngược (backpropogation)
với việc cung cấp các hệ số đối với hàm chí phi (loss function), qua đó có thể cập
nhật được weight va bias, giúp cải thiện mô hình.
3.1.2 Mô hình mạng nơ-ron hoi quy (Recurrent Neural Network - RNN)
Vi dụ xét câu “chưa ăn tôi cơm”, chúng ta có thể thấy câu này hoàn toàn không có
nghĩa Vậy thử xét thêm một câu “tôi chưa ăn cơm”, nó dễ hiểu và có ý nghĩa hơn
phải không? Cùng là 4 từ như sau nhưng cách sắp xếp khác nhau sẽ làm cho ý nghĩacủa các câu khác nhau Vì vậy, có thể nói trình tự của một câu hay một đoạn văn rấtquan trọng Tuy nhiên các mạng nơ-ron truyền thống thường nhận các giá trị đầu vàđầu ra độc lập với nhau, không quan tâm đến cách sắp xếp của câu, mạng nơ-ron hồi
quy (RNN) đã được ra đời để giải quyết van dé đó.
22
Trang 353.1 MẠNG NƠ-RON (NEURAL NETWORK)
Mạng nơ-ron hồi quy (Recurrent Neural Network - RNN) [63] là một loại đặcbiệt của mạng nơ-ron nhân tạo được điều chỉnh để làm việc cho dữ liệu chuỗi thời
gian hoặc dữ liệu liên quan đến trình tự Ý tưởng chính của RNN là sử dụng thông
tin dạng chuỗi, cùng với việc dùng một bộ nhớ cho phép lưu lại thông tin những
bước tính toán trước đó để đưa ra dự đoán cho bước hiện tại Hình 3.4 là một minh
Hình 3.3 Minh họa kiến trúc mô hình mạng nơ-ron hồi quy
Mô hình RNN hoạt động như sau:
e Giá trị đầu vào tại thời điểm ¿ là 2;
e s¿ là trạng thái ẩn tại thời điểm t, được tính toán dựa trên tất cả các trạng thái
ẩn trước đó và giá trị đầu vào z;, sử dụng một hàm kích hoạt phi tuyến tính
(thường là Tanh hoặc Sigmoid) cho tổng cuối cùng Ở thời điểm đầu tiên sẽ
khởi tao trạng thái ẩn s_¡, thường được gan bằng 0
e o¿ là giá trị đầu ra tại thời điểm t Với V là một hệ số lớp đầu ra, f(.) là một
hàm phi tuyến (thường là softmax), giá tri đầu ra 0; có công thức: o; = ƒ(Vh;¿)
Về lý thuyết, các mạng nơ-ron hồi quy (RNN) có thể sử dụng thông tin theo chuỗidài tùy ý, nhưng thực tế đã cho thấy rằng, các mạng RNN truyền thống đã gặp khókhăn khi độ dài của chuỗi tuần tự bắt đầu tăng lên Theo nghiên cứu của Hochreiter
và Bengo cùng các cộng sự, các mô hình RNN đã gặp phải hai vấn dé là mat mát
đạo hàm (vanishing gradient) và bùng nổ đạo hàm (exploding gradient).
Có nhiều phương pháp được đề xuất để giải quyết van dé trên Một trong nhữngphương pháp ra đời sớm nhất là Bộ nhớ ngắn hạn dài hạn (LSTM) [64], và sau đó[65] đã cho ra đời Nút hồi tiếp có cổng (Gated Recurrent Unit - GRU) là một biến
23
Trang 36CHƯƠNG 3 CƠ SỞ LÝ THUYẾT
thể gọn hơn của LSTM, thường có chất lượng tương đương và tính toán nhanh hơnđáng kể Chúng tôi sẽ giới thiệu rõ hơn về GRU trong phần 3.1.3
3.1.3 Nút hồi tiếp có cổng (Gated Recurrent Unit - GRU)
Năm 2014, Cho và cộng sự [65] đã giới thiệu GRU, như một biến thể của RNN giảiquyết được van dé của mạng nơ-ron hồi quy như Sự khác biệt chính giữa RNN
thông thường và GRU là GRU hỗ trợ việc kiểm soát trạng thái ẩn thông qua cổng
xóa (reset gate) và cổng cập nhật (update gate), giúp quyết định khi nào nên cập nhật
và khi nào nên xóa trạng thái ẩn.
Hình 3.4 Minh họa kiến trúc Nút hồi tiếp có cổng (GRU)
Tại mỗi thời gian t, ô nhớ GRU sẽ nhận một đầu vào x, và một trạng thái ẩn h;_ ¡
từ điểm thời gian trước t — 1 Sau đó một số phép tính và đề xuất ra một trang thái
ẩn h;, và trạng thái ẩn này được đưa tới 6 nhớ ở thời điểm tiếp theo Có hai cổngchính trong ô nhớ là cổng xóa và cổng cập nhật, cổng xóa chịu trách nhiệm về trạng
thái ngắn hạn của mạng trong khi cổng cập nhật lại chịu trách nhiệm về trạng thái
dài hạn, được tính theo công thức sau:
ry, = o(a, # U, + hy-1 * W,)
2t — ơ( * U, + hịT— 1 * W;)
r; là giá trị đầu ra của cổng xóa, z là giá trị đầu ra của cổng cập nhật, cả hai giá
trị đều nằm trong khoảng từ 0 đến 1, sử dụng hàm kích hoạt sigmoid Ur, Wr và
24
Trang 373.2 TRANSFOMERS
Uz, W z lần lượt là trọng số và độ lệch của cổng xóa và cổng cập nhật
Để tim được trạng thái ẩn h; trong GRU, cần phải tuân theo quy trình sau Dautiên, tao ra trạng thái ẩn hiện tại bằng cách lấy đầu vào và trang thái ẩn trước đó h;_ ¡nhân với giá trị của cổng xóa r;, rồi chuyển toàn bộ thông tin này đến hàm tanh:
ht = tanh(az * Ug + (rị 0 he-1) * Wg)
Phan quan trong nhất trong quá trình này là việc sử dung giá tri của cổng xóa đểkiểm soát mức độ ảnh hưởng của trạng thái ẩn trước đó đối với trạng thái ẩn ứngviên Nếu giá trị r; bằng 1 có nghĩa là toàn bộ thông tin từ trạng thái ẩn trước đó
hy dang được xem xét, ngược lại nếu r; bằng 0 thì thông tin của trạng thái ẩn trước
đó hoàn toàn bị bỏ qua.
Sau khi có được trạng thái hiện tại, kết hợp với cổng cập nhật để xác định được
trạng thái ẩn mới Nhiệm vụ của cổng cập nhật là xác định khía cạnh nào của nội dung hiện tại được sử dụng và khía cạnh nội dung thông tin nào của trạng thái ẩn
trước đó cần loại bỏ cho trạng thái ẩn kế tiếp, được mô bằng công thức sau:
3.2 Transfomers
Transformer [66] là một mô hình học sâu được thiết kế để phục vụ giải quyết nhiềubài toán trong xử lý ngôn ngữ tự nhiên Kiến trúc Transformer sử dụng hai phần
Encoder và Decoder khá giống với RNNs Điểm khác biệt là mô hình hoàn toàn
không sử dụng các kiến trúc Recurrent Neural Network mà chỉ sử dụng các layersAttention để embedding các từ trong câu Kiến trúc cụ thể của mô hình trong hình
3.5
Mô hình sẽ bao gồm hai giai đoạn:
e Encoder: Bao gồm 6 layers liên tiếp nhau Mỗi một layer sẽ bao gồm một
sublayer là Multi-Head Attention kết hợp với fully-connected layer như mô tả
ở nhánh Encoder bên trái của hình vẽ Kết thúc quá trình Encoder ta thu được
một vector embedding output cho mỗi từ.
25
Trang 38CHƯƠNG 3 CƠ SỞ LÝ THUYET
Add & Norm
Add & Norm
Multi-Head Attention
¿Ạ _ J
Add & Norm
Add & Norm
e Decoder: Kiến trúc cũng bao gồm các layers liên tiếp nhau Mỗi một layer của
Decoder cũng có các sub-layers gần tương tự như layer của Encoder nhưng bổsung thêm sub-layer đầu tiên là Masked Multi-Head Attention có tác dụng loại
bỏ các từ trong tương lai khỏi quá trình Attention.
3.3 Tổng quan mô hình BERT
3.3.1 Giới thiệu
BERT [3] là viết tắt của cụm từ Bidirectional Encoder Representation from
former có nghĩa là mô hình biểu diễn từ theo hai chiều ứng dụng kỹ thuật former BERT được thiết kế để huấn luyện trước các biểu diễn hai chiều từ văn bản
Trans-26