Học viên tiến hành đánh giá hiệu suất của mô hình trên các bộ dé liệu hiểu ngôn ngữ tự nhiên tiếng Việt khác nhau cũng như thực hiện việc so sánh kết quả thông qua việc sử dụng các độ đo
Trang 1NGUYEN XUAN VĨNH PHU
HIEU NGON NGU TU NHIEN TIENG VIET
LUAN VAN THAC Si
NGANH KHOA HOC MAY TÍNH
MA SO: 8480101
NGUOI HUONG DAN KHOA HOC PGS.TS NGUYEN LUU THUY NGAN
TP HO CHi MINH - 2023
Trang 2LỜI CẢM ƠN
Trong quá trình thực hiện luận văn này, học viên xin bay tỏ lòng biết ơn chân thành tới Thầy Cô, nhà trường và gia đình đã giúp đỡ và động viên dé học viên hoàn
thành được luận văn.
Học viên xin gửi lời cảm ơn đến Cô PGS.TS Nguyễn Lưu Thùy Ngân đã tận
tình hướng dẫn, hỗ trợ và góp ý trong suốt quá trình thực hiện luận văn Những kinh nghiệm và kiến thức chuyên sâu của Cô đã truyền cảm hứng và động lực đề học viên
trang bị các kiến thức và kỹ năng chuyên môn, giúp học viên thực hiện nghiên cứu
khoa học và giải quyết vấn đề một cách có hiệu quả.
Học viên cũng xin gửi lời cảm ơn đến Thầy ThS Nguyễn Văn Kiệt đã hỗ trợ
và chia sẻ những kinh nghiệm quý báu trong quá trình hoàn thiện luận văn Thay luôn sẵn lòng lắng nghe và đưa ra những góp ý mang tính xây dựng giúp học viên tìm ra
những hướng tiếp cận dé giải quyết van dé.
Học viên xin gửi lời tri ân đến quý Thầy Cô trường Đại học Công nghệ Thông
tin và khoa Khoa học Máy tính đã nhiệt tình giảng dạy, truyền đạt những kiến thức
bổ ích trong những năm học vừa qua Đây là hành trang rất quan trọng, là nền tảng
để học viên thực hiện luận văn này.
Cuối cùng, học viên muốn gửi lời cảm ơn đến gia đình, bạn bè đã đồng hành, khích lệ và hỗ trợ trong suốt quá trình thực hiện luận văn Xin chân thành cảm ơn.
TP.Hồ Chí Minh, tháng 12 năm 2023
Học viên
Nguyễn Xuân Vĩnh Phú
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan luận văn “Cải tiến mô hình đa ngôn ngữ cho các tác vụ hiểu
ngôn ngữ tự nhiên tiếng Việt” là công trình nghiên cứu của tác giả, với sự hướng dẫn của PGS.TS Nguyễn Lưu Thuỳ Ngân Tắt cả các ý tưởng, khái niệm và các phân tích
được trình bày trong nghiên cứu này là kết của của những nỗ lực và đóng góp trí tuệ
của tôi.
Các tài liệu tham khảo, các số liệu phục vụ nghiên cứu có nguồn gốc rõ rang
và được trích dẫn đầy đủ Các kết quả nghiên cứu trong luận văn là do tôi tự tìm hiểu,
phân tích một cách trung thực và khách quan.
Tôi xin cam đoan những, vấn đề trên là hoàn toàn đúng sự thật Nếu Sai, tôi xin
chịu hoàn toàn trách nhiệm.
TP Hồ Chí Minh, tháng 12 năm 2023
Học viên
Nguyễn Xuân Vĩnh Phú
Trang 4MỤC LỤC
MỤC LUC
DANH MỤC TU VIET TẮTT -2¿-22222t‡2EEEEEEEE11122211227211122111 11c ccrrrrkve.[V DANH MỤC CAC BANG BIÊU 2222222222EEEEEEEEEE212.1211111111111111112212 cee v DANH MỤC CÁC HÌNH VẼ, ĐÒ THỊ
TOM TAT 0 ằ viii
CHUONG 1 TONG QUAN
11 Bài toán hiểu ngôn ngữ tự nhiên -2: 222E2222+22222EEEE++EtE2EEEEEEErrrrErrkkrrrrrrrrrrkr 1
1.2 Mô hình ngôn ngữ huấn luyện trước trên các tác vụ NLU
CHƯƠNG2_ CÁC CÔNG TRINH LIÊN QUAN -22222222222222222111222222222.Xe2 6
21 Các bộ dit liệu có liên quan ¿5-5252 +SE‡S*2Et2k‡£zkerkerrkrrkrrerrrerrrrrrrerrrerece, O
2.2 Các hướng tiếp cận có liên quan -c:cccccccccrsteetrrtrrrrrrrrrrrxsssssseeeeece TỔ
CHƯƠNG3_ CƠ SỞ LÝ THUYẾT 2+++cccSSSEEErtrierkttrrrrrrrrrrrrre 15
3.1 Mô hình ngôn ngữ sử dung kiến trúc Transformers .v22cvccccccccccrcrrrrrtrr 15 3.2 Tổng quan về kiến trúc mô hình .-vvvv2vvvvvv++++++++++t+ttttttttEtrEEtrrrrrrkrr 16 3.3 Chat lọc tri thức thui 30 3.4 Vận chuyển tối ưu
CHƯƠNG 4_ PHƯƠNG PHAP CẢI TIEN -22255+cccccvettrrrrrieeerrrrrrre
41 Tổng quan về phương pháp -. -©22EEEEEEEEEEES2222222222222+1222222212212222222222212 40
42 Tinh chỉnh mô hình huấn luyện trước -. -ssscsccccccccrsssssrssssrseer-ee 4
43 Tang cường dữ liệu và chuyền tiếp chéo ngôn ngữ -: c -ssss-s - 44 4.4 Quá trình chất lọc tri thức +222+++222E22222+222222312222222211122 trEE.ecree 46 4.5 Minh hoa quá trình huấn luyện
4.6 Phân tích các yếu tổ cải thiện mô hình đa ngôn ngữ cc22cc22ccccccccczzttz 53
CHƯƠNG 5 THU’ NGHIỆM VA KET QUẢ . - cccc+cccsccerrveecrrrxeccerre 54
Trang 5TÀI LIỆU THAM KHẢO
PHU LUC 1 DANH MỤC CÔNG BO KHOA HỌC 2 ©¿+222+ze+tEvvzesrrrscee 83
Trang 6DANH MỤC TU VIET TAT
DANH MUC TU VIET TAT
STT Từ viết tắt Y Nghĩa
1 NLI Natural Language Inference
2 MRC Machine Reading Comprehension
3 NLP Natural Language Processing
4 NLU Natural Language Understanding
5 PLM Pre-trained Language Model
Trang 7DANH MỤC CÁC BẢNG BIÊU
DANH MỤC CÁC BANG BIEU
Bảng 2.1 Khảo sát các phương pháp cải thiện mô hình đa ngôn ngữ hiện nay 14
Bảng 5.1 Số liệu thống kê trên bộ dữ liệu UIT-ViQuAD trên tập huấn luyện, phát triển và kiểm thử 54
Bảng 5.2 Vi dụ minh họa trong tập dit liệu UIT-ViQuADD -c+cc«ccsccece- DD Bảng 5.3 Định nghĩa các loại suy luận có trong bộ dit liệu ¿- - 5+5 ccc++xe> 58
Bảng 5.4 Ví dụ minh hoa trong tập dữ liệu VINLI
Bảng 5.6 Từ trùng lặp giữa câu tiền dé và câu giả thuyết . -¿¿+2c2xccscczscee 62
Bảng 5.7 So sánh tỉ lệ trùng lặp từ giữa bộ đữ liệu tiếng Việt ViNLI và tiếng Anh
MultiNLI.
Bảng 5.8.
62
quả thử nghiệm trên bộ dữ liệu UIT-ViQuAD (Ký hiệu: DA — phương pháp
tăng cường dữ liệu; DA-KDOT — phương pháp tăng cường dữ liệu và chất lọc tri thức
thông qua vận chuyền tối wu) .
Bảng 5.9 Kết quả thử nghiệm trên bộ dữ liệu ViNLI
Bảng 5.10 Hiệu suất của mô hình trên các phương thức chắt lọc tri thức khác nhau
Trang 8DANH MỤC CÁC HÌNH VẼ, ĐỎ THỊ
DANH MỤC CÁC HÌNH VẼ, ĐÒ THỊ
Hình 1.1 Hiệu suất của mô hình đa ngôn ngữ XLM-R trên bộ đữ liệu XNLI 4
Hình 3.1 Minh hoạ cho cơ chế Self-attention -. ccz+2c5setscvsseerrrreesrrrsseerreecee LT Hình 3.2 Kiến trúc cơ chế Multi-head Self-attention [36] - - c-z-:c 20
Hình 3.3 Kiến trúc của bộ mã hoá [36] -::¿52222vvcc+tttvvvvsecrrerrrrrssccrcccrrr 2Ï Hình 3.4 Kiến trúc của bộ giải mã [36] -2:¿¿¿222222vvccettrrrkeeerrrsrrrrseeeccccrr 22
Hình 3.5 Kiến trúc mô hình BART [43] -¿¿-©252c+ccssetsrrssererrxsecerrxecc-r 25
Hình 3.6 Kiến trúc mô hình BERT [444] - ::¿¿522V222+++2222EESE++rttEEEEkxrrrrrrrrrrkev 26 Hình 3.7 Kiến trúc của bộ giải mã đơn [46] - 2 ¿¿22+++222E+++t22EE+zttzrxsesrrrscee 27 Hình 3.8 Minh hoa quá trình chit lọc tri thức [53] -z¿+22+zz+22+sz++:zsce2 31 Hình 3.9 Vận chuyên tối ưu trên hai phân phối pt và v [60] - -: 3Š 38 39 42 Hình 3.10 Giải thuật Sinkhorn cho bài toán vận chuyển tối ưu Hình 3.11 Mô tả quá trình tối ưu thông qua thuật toán Sinkhorn-Knopp [66] Hình 4.1 Mô hình đọc hiéu tự động dựa trên kiến trúc Transformer Hình 4.2 Mô hình suy luận ngôn ngữ tự nhiên dựa trên kiến trúc Transformer 43
Hình 4.3 Minh hoa cho mô hình đề xuất DA-KDOT 46
Hình 4.4 Quá trình huấn luyện mô hình trên ngôn ngữ tiếng Việt ¿ 50
Hình 4.5 Quá trình tính toán độ lỗi chat lọc tri thức -::-+ccccc2222v2212112112212222Ete 51 Hình 4.6 Quá trình tính toán độ lỗi tác vụ trên mô hình trò :-zc-s:zc 5 Í Hình 4.7 Quá trình huấn luyện mô hình trên ngôn ngữ tiếng Anh - Ø2 Hình 5.1 Phân bé độ dài câu hỏi trong tập dữ liệu UIT-ViQuAD - 36
Hình 5.2 Phân bố độ dài đoạn văn trong tập dit liệu UIT-ViQuAD 27
Hình 5.3 Ti lệ phan trăm theo từng loại câu hỏi 58
Hình 5.4 Phân bó độ dài câu tiền dé và giả thuyết trong tập dữ liệu ViNLI 61
Hình 5.5 Mô ta ma trận nhầm lẫn 64 Hình 5.6 Hiệu suất của mô hình theo độ dài câu hỏi trên tập dữ liệu UIT-ViQuAD 70
Hình 5.7 Hiệu suất của mô hình theo độ dài câu trả lời trên tập dữ liệu UIT-ViQuAD 71
Hình 5.8 Hiệu suất của mô hình theo độ dài đoạn văn trên tập dữ liệu UIT-ViQuAD 72 Hình 5.9 Hiệu suất của mô hình trên các khoảng Jaccard khác nhau với bộ dữ liệu ViNLI
73
Hình 5.10 Hiệu suất của mô hình trò và thầy tương ứng trên tập dữ liệu UIT-ViQuAD
(Exact-Match).
Trang 9DANH MỤC CÁC HÌNH VẼ, ĐỎ THỊ
Hình 5.11 Hiệu suất của mô hình trò và thầy tương ứng trên tập dữ liệu ViNLI
(ÁCCUTACY) ST HH HH HH0 HH0 00 10 10t 74
Trang 10TÓM TẮT
TÓM TÁT Trong những năm gần đây, sự xuất hiện của những mô hình đa ngôn ngữ huấn
luyện trước đã mang lại kết quả ấn tượng trên hầu hết các tác vụ xử lý ngôn ngữ tự nhiên, đặc biệt là những ngôn ngữ có lượng tài nguyên ít Tuy nhiên hiệu suất của mô
hình đa ngôn ngữ giảm khi số lượng ngôn ngữ cần biểu diễn tăng lên Điều này đã dẫn đến việc xây dựng các mô hình đơn ngôn ngữ, trong đó các mô hình được huấn
luyện trước trên một lượng lớn dữ liệu từ một ngôn ngữ duy nhất Các mô hình đơn ngôn ngữ thường có hiệu suất vượt trội hơn do tất cả trọng số của mô hình chỉ dùng
để biểu diễn một ngôn ngữ duy nhất Mặc dù vậy, so với việc dựa vào nhiều mô hình
cho các ngôn ngữ khác nhau thì việc tận dụng một mô hình dé biéu diễn nhiều ngôn ngữ mang lại lợi thế nhất định Mô hình có khả năng tổng quát hoá trên nhiều ngôn
ngữ khác nhau và đặc biệt, hiệu suất trên ngôn ngữ ít tài nguyên có thể được cải thiện
do tận dụng được những tri thức từ những ngôn ngữ giàu tài nguyên khác.
Đề kết hợp những ưu điểm của cả mô hình đa ngôn ngữ và đơn ngôn ngữ, học viên đề xuất kỹ thuật DA-KDOT - một kỹ thuật tận dụng các tri thức có trong mô
hình đơn ngôn ngữ và chuyền giao sang mô hình đa ngôn ngữ với mục đích cải tiến
khả năng diễn dat đầu vào cho tiếng Việt Trong kỹ thuật này, học viên sử dụng hướng tiếp cận chat lọc tri thức với kiến trúc thay — trò, trong đó tri thức từ hai mô hình đơn
ngôn ngữ (mô hình thầy) được chuyên giao sang mô hình đa ngôn ngữ (mô hình trò) thông qua một hàm mất mát Do đặc trưng của mô hình thầy va trò nằm trên các
không gian ngữ nghĩa khác nhau và việc áp dụng trực tiếp kỹ thuật chat lọc tri thức
là điều không khả thi, học viên đề xuất sử dụng kỹ thuật vận chuyền tối ưu để đo
lường sự khác biệt giữa các phân phối trên hai không gian này Học viên tiến hành
thử nghiệm trên hai tác vụ hiểu ngôn ngữ tự nhiên tiếng Việt là đọc hiểu tự động và suy luận ngôn ngữ tự nhiên Kết quả thử nghiệm cho thay mô hình đề xuất có kết quả
tốt hơn và có những cải tiễn đáng ké so với các mô hình khác Dé hiểu rõ hơn về các yếu tố ảnh hưởng đến hiệu suất của mô hình, học viên tiến hành phân tích kết quả
theo các khía cạnh khác nhau.
Trang 11MO DAU
MO DAU
Đặt vấn đề:
Hiểu ngôn ngữ tự nhiên (Natural Language Understanding — NLU) là một khía
cạnh quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing
— NLP), tập trung vào cải thiện khả năng của máy tinh trong việc hiểu và diễn giải ngôn ngữ của con người Trong những năm gần đây, với sự ra đời và phát triển của
mạng Transformers mô hình ngôn ngữ được huấn luyện trước (Pre-trained Language Model), nhiều nghiên cứu khoa học đã được công bố và đạt được những bước cải tiến
lớn về hiệu suất trên các tác vụ về NLU Thông qua quá trình huấn luyện trước trên
một lượng lớn dữ liệu, mô hình có khả năng khai thác các đặc trưng về cầu trúc cũng như ngữ nghĩa của ngôn ngữ, cho phép chúng tạo ra các phản hồi chính xác dựa trên
dữ liệu đầu vào Các mô hình huấn luyện trước là một trong những yếu tố quan trọng dẫn đến sự phát triển vượt bậc trên nhiều bài toán NLP khác nhau như dịch máy, đọc
hiểu tự động, phân tích cảm xúc
Hiện nay, các công trình nghiên cứu chủ yếu tập trung vào xây dựng mô hình
ngôn ngữ huấn luyện trước trên các ngôn ngữ giàu tài nguyên với lượng dữ liệu khổng
lồ Các mô hình được huấn luyện trên một ngôn ngữ duy nhất (mô hình đơn ngôn ngữ) có khả năng khả năng nắm bắt các thông tin và đặc trưng khác nhau cho ngôn
ngữ đó Đối với các ngôn ngữ ít tài nguyên hơn, mô hình huấn luyện trước không được tối ưu tốt đo lượng dữ liệu cho quá trình huấn luyện khan hiếm và quá trình thu
thập dữ liệu không phải lúc nào cũng khả thi Sự xuất hiện của mô hình đa ngôn ngữ
đã giải quyết được vấn đề trên Mô hình đa ngôn ngữ mở rộng khả năng biểu diễn
của mô hình trên nhiều ngôn ngữ khác nhau, tạo điều kiện cho việc chuyền giao và
trao đồi tri thức giữa các ngôn ngữ với nhau, điều này dẫn đến hiệu suất trên các tác
vụ về NLU được cải thiện đáng kể, đặc biệt là trên các ngôn ngữ ít tài nguyên Mô
hình đa ngôn ngữ phần nào giải quyết được vấn đề khan hiếm dữ liệu trên các ngôn ngữ ít tài nguyên thông qua việc chia sẻ tri thức dựa vào học cách biểu diễn thống
nhất cho nhiều ngôn ngữ khác nhau.
Bằng việc khảo sát và phân tích kết quả nghiên cứu của các công trình khoa
học được công bố, học viên nhận thấy mô hình đa ngôn ngữ có một nhược điểm: hiệu
Trang 12Đề tài “Cải tiến mô hình đa ngôn ngữ cho các tác vụ hiểu ngôn ngữ tự nhiên
tiếng Việt” của học viên dưới sự hướng dẫn của PGS.TS Nguyễn Lưu Thùy Ngân hướng tới việc cải thiện hiệu suất của mô hình đa ngôn ngữ trên tiếng Việt cho các
tác vụ NLU, cụ thể là hai bài toán đọc hiểu tự động và suy luận ngôn ngữ tự nhiên Học viên hướng tới hai mục tiêu chính Thứ nhất, học viên đề xuất ý tưởng cải thiện
khả năng biểu dién của mô hình đa ngôn ngữ trên tiếng Việt, từ đó nâng cao hiệu suất
trên các tác vụ NLU Thứ hai, luận văn trình bày các thử nghiệm, phân tích sự ảnh
hưởng của các thành phần trong mô hình đối với hiệu suất trên hai tác vụ đọc hiểu tự
động và suy luận ngôn ngữ tự nhiên dé hiểu rõ ưu, nhược điểm của từng phương
pháp.
Đối tượng:
Mô hình đa ngôn ngữ và bài toán hiểu ngôn ngữ tự nhiên tiếng Việt.
Pham vi nghiên cứu:
Phạm vi nghiên cứu của đề tài tập trung chủ yếu vào cải tiến mô hình đa ngôn ngữ
trên các tác vụ hiểu ngôn ngữ tự nhiên tiếng Việt Về giới hạn nghiên cứu, học viên
tập trung vào ba nội dung chính sau:
+ Nghiên cứu các hướng tiếp cận và cách xử lý cho các tác vụ NLU Luận
văn này tập trung nghiên cứu và thử nghiệm một số mô hình tiêu biểu giải quyết các tác vụ NLU, cụ thể là tác vụ đọc hiểu tự động và tác vụ suy luận
ngôn ngữ tự nhiên, để xác định hướng tiếp cận phủ hợp cho tiếng Việt.
+ Dé xuất, cài đặt thử nghiệm phương pháp cải thiện mô hình đa ngôn ngữ
trên tiếng Việt Trong luận văn này học viên dé xuất phương pháp cải thiện
mô hình đa ngôn ngữ từ những mô hình đơn ngôn ngữ khác dựa trên ý tưởng
sử dụng kỹ thuật chắt lọc tri thức (Knowledge Distillation) và vận chuyển tối
Trang 13trên dữ liệu được gán nhãn và các đặc trưng từ mô hình đơn ngôn ngữ khác.
+ _ Đánh giá và phân tích kết quả mô hình đề xuất Học viên tiến hành đánh
giá hiệu suất của mô hình trên các bộ dé liệu hiểu ngôn ngữ tự nhiên tiếng
Việt khác nhau cũng như thực hiện việc so sánh kết quả thông qua việc sử dụng các độ đo phù hợp với từng tác vụ Đồng thời, học viên cũng đi sâu vào
phân tích kết quả của mô hình để rút ra những điểm mạnh và điểm yếu cũng
như hành vi của mô hình trong các trường hợp khác nhau.
Kết quả nghiên cứu:
Nghiên cứu của học viên đạt được những kết quả sau:
e Nghiên cứu các hướng tiếp cận và phương pháp cho bài toán NLU: Kết
quả thử nghiệm, phân tích, đánh giá một số phương pháp và mô hình tiên tiến hiện nay cho bài toán NLU tiếng Việt.
e Dé xuất một thuật toán cải tiến mô hình đa ngôn ngữ: Mô hình đa ngôn
ngữ cải tiến dựa trên sự kết hợp sử dụng hai kỹ thuật là chat lọc tri thức và vận chuyển tối ưu Thông qua các việc tiến hành các thử nghiệm, đánh giá và phân
tích kết quả trên hai bài toán đọc hiểu tự động và suy luận ngôn ngữ tự nhiên, học viên đã chứng minh được hiệu quả của phương pháp dé xuất trên mô hình
đa ngôn ngữ.
Trang 14TONG QUAN
CHUONG 1 TONG QUAN
Trong chương này học viên giới thiệu tổng quan về mô hình ngôn ngữ huấn luyện trước, tầm quan trọng của chúng với các tác vụ NLP hiện tại cũng như là các
van dé mà mô hình ngôn ngữ phải đối mặt trong việc xử lý những ngôn ngữ ít tài
nguyên như tiếng Việt.
1.1 Bài toán hiểu ngôn ngữ tự nhiên
Hiểu ngôn ngữ tự nhiên là nghiên cứu hướng tới việc làm cho máy tính hiểu
và xử lý ngôn ngữ của con người một cách hiệu quả nhất Đây là vấn đề quan trọng
và nhận được rất nhiều sự quan tâm của các nhà nghiên cứu trong lĩnh vực NLP Trong những năm gan đây, nhờ vào những tiến bộ trong lĩnh vực máy học, đặc biệt
là học sâu, các nghiên cứu trên NLU đã đạt được nhiều thành tựu nhất định trên các
tác vụ khác nhau như phân tích cảm xúc, dịch máy, đọc hiểu tự động hay suy luận ngôn ngữ tự nhiên Các tác vụ chính trong NLU hướng tới việc hiểu, diễn giải và
phân tích ngôn ngữ của con người dưới đạng văn bản hoặc âm thanh đề đưa ra các
dự đoán chính xác.
Đối với con người, việc tiếp nhận và xử lý thông tin dưới dạng văn bản hoặc
âm thanh là điều dé dàng bởi vì con người có nhận thức và hiểu biết về ngôn ngữ bao
gồm các kiến thức về từ vựng và ngữ pháp Chính vì thế, con người có khả năng sử dụng kiến thức đã tích lũy và các thông tin từ ngữ cảnh để giải thích ý nghĩa của các
thông tin được tiếp nhận Khác với con người, máy tính biểu diễn tat cả các thông tin
đầu vào dưới dạng nhị phân nên khả năng hiểu và xử lý ngôn ngữ của máy tính phụ thuộc nhiều vào các thuật toán và các mô hình máy học Việc xây dựng mô hình máy
học đề hiểu ngôn ngữ tự nhiên đối mặt với một số khó khăn và thử thách chang hạn như: tính mơ hồ, tinh da dạng, ngữ cảnh của thông tin được tiếp nhận, Tầm quan
trọng của NLU đã được chứng minh qua các nghiên cứu khoa học từ trước đến nay, nhắm tới việc thu hẹp khoảng cách giao tiếp giữa con người và máy tính, giúp máy
tính có thể hiểu và phản hồi ngôn ngữ tự nhiên một cách hiệu quả nhất NLU xuất
hiện trong rất nhiều ứng dụng phục vụ con người bao gồm trợ lý ảo, các hệ thống dịch thuật, hệ thống rút trích thông tin, Luận văn tập trung vào hai tác vụ chính của
Trang 15TONG QUAN
NLU bao gồm đọc hiểu tự động và suy luận ngôn ngữ tự nhiên Day là hai tác vụ
quan trọng, được áp dụng nhiều trong thực tế, đặc biệt là các hệ thống hỏi đáp và truy
bao gồm một đoạn văn bản (context) và câu hỏi có liên quan (query) Mô hình MRC
có nhiệm vụ phân tích và tìm ra câu trả lời là một chuỗi các ký tự xuất hiện trong đoạn văn đầu vào Đây là một tác vụ khó, đòi hỏi mô hình phải có khả năng suy luận
và hiểu ngôn ngữ tự nhiên dé tìm ra câu trả lời chính xác Mô hình MRC là một trong những thành phan quan trọng và quyết định đến hiệu suất của các hệ thống hỏi đáp
tự động và truy van thông tin.
Gan đây, hiệu suất của các mô hình MRC có sự cải tiễn đáng kể so với các mô
hình truyền thống trước đó Sự phát triển của máy học và học sâu, đặc biệt là các mô
hình Transformers được huấn luyện trước trên lượng dữ liệu khổng lồ đã cho thấy khả năng nắm bắt thông tin quan trọng về ngữ cảnh của văn bản đầu vào, từ đó thực
hiện suy luận dé tìm ra câu trả lời thích hợp Bên cạnh đó, rất nhiều bộ dữ liệu từ các ngôn ngữ và miền khác nhau được gán nhãn với kích thước lớn và đa dạng đã được
công bố, từ đó tạo điều kiện thuận lợi cho việc huấn luyện và xây dựng các mô hình
MRC Nhiều cải tiến trên mô hình MRC đã được đề xuất và áp dụng, hiệu suất của
mô hình nhờ vào đó được nâng cao.
1.1.2 Suy luận ngôn ngữ tự nhiên
Suy luận ngôn ngữ tự nhiên (Natural Language Inference — NLI) là bài toán
xác định mối quan hệ logic giữa hai câu văn cho trước, trong đó một câu được xác định là “giả thuyết” và câu còn lại là “tiền đề” Nhiệm vụ chính của bài toán NLI đó
chính là xác định mối quan hệ logic giữa hai câu này, có thể là “kéo theo”, “mâu
thuẫn” hay “trung tính” NLI là một trong những tác vụ quan trọng của NLP, liên
Trang 16hay ý nghĩa của câu dựa trên ngữ cảnh khác nhau Với sự phát triển của lĩnh vực NLP,
đặc biệt là các mô hình học sâu và các bộ dữ liệu mới ra đời, NLI đã có những bước
tiến đáng ké trong những năm gần đây Điều này hướng tới mục tiêu chung đó chính
là cải thiện khả năng suy luận và xử lý ngôn ngữ tự nhiên của máy tính.
1.2 Mô hình ngôn ngữ huấn luyện trước trên các tác vụ NLU
Gần đây, sự xuất hiện của mạng Transformers và các mô hình ngôn ngữ huấn luyện trước (Pre-trained Language Model — PLM) đã tạo ra bước đột phá đáng kể
trong lĩnh vực NLP nói chung và NLU nói riêng PLM được huấn luyện trên một
lượng lớn di liệu văn ban và sau đó thực hiện việc tinh chỉnh trên các tac vụ NLP.
Rất nhiều nghiên cứu đã được tiến hành và đã đạt được kết quả tốt trên nhiều tác vụ,
ngay cả trong khi tồn tại rat ít dữ liệu gán nhãn Nhiều mô hình đã được công bố trên các ngôn ngữ giàu tài nguyên như tiếng Anh, tiếng Trung, tiếng Nhật, và chúng
được huấn luyện với lượng dữ liệu khổng lồ và đa dạng đến từ nhiều miền khác nhau Bên cạnh đó, sự xuất hiện mô hình đa ngôn ngữ cũng đã góp phần không nhỏ vào sự
phát triển và nghiên cứu NLP, đặc biệt là trên các ngôn ngữ ít tài nguyên Khác với
mô hình đơn ngôn ngữ chỉ được huấn luyện trên một ngôn ngữ duy nhất, mô hình đa
ngôn ngữ được huấn luyện đồng thời trên nhiều ngôn ngữ khác nhau, cho phép chúng
tận dụng sự tương đồng giữa các ngôn ngữ và chuyên giao tri thức giữa các ngôn ngữ với nhau [2] Một sé mô hình nồi bật như mBERT [3], XLM [4], XLM-R [5] mở rộng
khả năng xử lý của mô hình lên hàng trăm ngôn ngữ thông qua việc học và đạt được
sự tổng quát hoá trên bộ dữ liệu đa ngôn ngữ Hiệu suất trên các tác vụ NLP được cải
thiện đáng kể, đặc biệt là trên các ngôn ngữ có lượng tài nguyên hạn chế Tuy nhiên
mô hình đa ngôn ngữ lại có một nhược điểm đó chính là hiệu suất trên các tác vụ
Trang 17TONG QUAN
NLP giảm khi chúng ta thêm nhiều ngôn ngữ trong quá trình huấn luyện trước, đặc
biệt là trên các ngôn ngữ ít tài nguyên Trong một nghiên cứu của Conneau và cộng
sự [4], nhóm tác giả thử nghiệm với việc xây dựng mô hình đa ngôn ngữ XLM-R với
số lượng ngôn ngữ và kích thước dữ liệu trong quá trình huấn luyện trước khác nhau.
Nhóm tác giả đã chỉ ra rằng các yếu tố có ảnh hưởng lớn đến hiệu suất trên các tác
vụ bao gồm kích thước batch, kích thước dữ liệu huấn luyện và tập từ điển được chia
sẻ giữa các ngôn ngữ với nhau Bên cạnh đó, khi tiến hành thử nghiệm trên tác vụ NLI với bộ dit liệu XNLI, tác giả đã quan sát thấy rằng việc mở rộng mô hình đa
ngôn ngữ sang nhiều ngôn ngữ khác nhau chỉ làm tăng hiệu suất của mô hình đến
một điểm nhất định và sau đó hiệu suất trên các vụ sẽ giảm đi đáng kẻ.
80
Accuracy Bn aN© C
7 15 30 60 100 Number of languages
— Low res lf High res Oo All
Hình 1.1 Hiệu suất của mô hình đa ngôn ngữ XLM-R trên bộ dữ liệu XNLI.
Nguyên nhân chính dẫn đến tình trạng này là do số lượng trọng số trong mô
hình là có hạn, việc thêm càng nhiều ngôn ngữ trong quá trình huấn luyện trước dẫn tới giảm lượng trọng số của mô hình trên mỗi ngôn ngữ, khiến cho các biểu diễn đầu
vào từ mô hình không hiệu quả và ảnh hưởng đến hiệu suất chung trên các tác vụ
NLP Vấn đề này ảnh hưởng rõ rệt trên các ngôn ngữ ít tài nguyên, vốn có lượng dữ liệu hạn chế Việc giải quyết vấn đề của mô hình đa ngôn ngữ cải thiện được kết quả
trên các tác vụ NLP, đặc biệt là tác động hiệu quả của mô hình đối với ngôn ngữ ít
Trang 18TONG QUAN
tài nguyên như tiếng Việt Các hướng tiếp cận khi xây dung mô hình da ngôn ngữ sé
cố gắng cân bằng giữa lượng ngôn ngữ có thể xử lý và số lượng trọng số của mô hình.
Gan đây, đề giải quyết van đề trên, nhiều nghiên cứu tập trung vào phát trién các mô hình đơn ngôn ngữ Các mô hình này có khả năng biéu diễn đầu vào tốt hơn do dung
lượng của chúng được sử dụng để biểu diễn và rút trích các đặc trưng trên một ngôn ngữ duy nhất Tuy nhiên việc xây dựng nhiều mô hình huấn luyện trước trên các ngôn
ngữ khác nhau không phải lúc nào cũng kha thi, đặc biệt là trên các ngôn ngữ it tài
nguyên do vấn đề khan hiếm dit liệu Bên cạnh đó, ta không thể tận dụng được tính
đa ngôn ngữ trong việc áp dụng mô hình huấn luyện trước trên các bài toán NLP,
chang hạn như khả năng chuyển tiếp tri thức giữa các ngôn ngữ với nhau
(cross-lingual knowledge transfer) [6].
Trong luận văn này, học viên hướng tới cải thiện mô hình đa ngôn ngữ cho
các tác vụ hiéu ngôn ngữ tự nhiên tiếng Việt, cụ thé là hai tác vụ chính: MRC và NLI.
Học viên dé xuất phương pháp kết hợp điểm mạnh của ca hai hướng tiếp cận trong việc xây dựng mô hình ngôn ngữ dé giải quyết van đề trên mô hình đa ngôn ngữ Học
viên sử dung kỹ thuật chất lọc tri thức (Knowledge distillation) dựa vào vận chuyền
tối ưu (Optimal Transport) đề chuyền giao tri thức từ các mô hình đơn ngôn ngữ qua
mô hình đa ngôn ngữ, giúp cải thiện khả năng biểu diễn ngôn ngữ của mô hình trên
tiếng Việt, thông qua đó, hiệu suất trên các tác vụ NLU được nâng cao Các kết quả thử nghiệm được phân tích và đánh giá dé chứng minh khả năng hoạt động của mô
hình dé xuất Luận văn này đóng góp vào việc giải quyết một số vấn đề còn ton tại trên mô hình đa ngôn ngữ và thúc đây các nghiên cứu về ngôn ngữ có ít tài nguyên
như tiếng Việt.
Trang 19CÁC CÔNG TRÌNH LIÊN QUAN
CHƯƠNG2_ CÁC CÔNG TRÌNH LIÊN QUAN
Hiểu ngôn ngữ tự nhiên là một trong những hướng nghiên cứu quan trọng trong NLP nói riêng và trí tuệ nhân tạo nói chung Đây là một hướng nghiên cứu hấp
dẫn, thu hút được nhiều sự quan tâm của các nhà nghiên cứu trong nước và trên thế
giới Rất nhiều bộ dữ liệu về NLU đã được công bồ dé huấn luyện và kiểm tra hiệu suất của các mô hình máy học, cho phép chúng ta lựa chọn hướng tiếp cận phù hợp
để giải quyết cho từng van đề Bên cạnh đó, với sự xuất hiện và áp dụng rộng rãi của các mô hình ngôn ngữ được huấn luyện trước, nhiều công trình khoa học đã được
công bó dẫn đến sự cải thiện đáng kể về hiệu suất cũng như tốc độ trên các tác vụ về NLU Chương 2 trình bày những nghiên cứu có liên quan bao gồm một số bộ dữ liệu
tiêu biểu trên tac vụ NLU, các hướng tiếp cận và cách giải quyết van dé trên mô hình
đa ngôn ngữ.
2.1 Các bộ dữ liệu có liên quan
Lịch sử của NLU bắt đầu từ những năm 1960 với ý tưởng ban đầu là tạo ra những
cỗ máy có khả năng hiểu ngôn ngữ tự nhiên và tương tác với con người [7] Các hệ
thống ban đầu được phát triển dựa vào các tập luật và hệ chuyên gia, nhưng những
hệ thống này còn nhiều hạn chế do sự phức tap của ngôn ngữ con người [8] Ké từ đó
đến nay, chúng ta đã chứng kiến được những bước phát triển đột phá trong lĩnh vực NLU, hàng loạt các mô hình và hướng tiếp cận đã được đề xuất trên nhiều tác vụ liên
quan Ngoài những tiến bộ đạt được trong lĩnh vực trí tuệ nhân tạo, các bộ dữ liệu
được công bé đã đóng một vai trò quan trọng trong sự phát triển của NLU Sự xuất hiện của các bộ dữ liệu đã tạo điều kiện để phát triển và đánh giá các mô hình máy
học trên các tác vụ NLU như đọc hiểu tự động, suy luận ngôn ngữ tự nhiên hay phân tích cảm xúc Với mục tiêu hiểu rõ hơn về các bộ dữ liệu được sử dụng cho các tác
vụ NLU, trong phần này, học viên cung cấp một cái nhìn tổng quan toàn diện về các
bộ dữ liệu này trên tiếng Anh và một số ngôn ngữ khác, đặc biệt là trên hai tác vụ
chính: MRC và NLI.
Trang 20CÁC CÔNG TRÌNH LIÊN QUAN
2.1.1 Bộ dữ liệu đọc hiểu tự động trên các ngôn ngữ pho biến
Stanford Question Answering Dataset (SQuAD) [9] là bộ dữ liệu đọc hiểu tự động trên tiếng Anh với kích thước lớn được thiết kế dé kiểm tra khả năng đọc
và trả lời câu hỏi của máy tính về một đoạn văn bản nhất đ ¡nh Bộ đữ liệu được
thu thập từ hơn 500 bài viết trên Wikipedia, bao gồm khoảng 100,000 câu hỏi
và câu trả lời tương ứng SQuAD được sử dụng dé huấn luyện và đánh giá các
mô hình máy học, đặc biệt là các mô hình học sâu Đây được xem như là một
trong những bộ dữ liệu điểm chuẩn (benchmark) dé đánh giá tiễn độ trong lĩnh
vực NLU.
NewsQA [10] là một bộ dữ liệu có kích thước lớn được thiết kế cho nhiệm vụ
đọc hiểu tự động, bao gồm hơn 100,000 cặp câu hỏi và câu trả lời được rút
trích ra từ 10,000 bài báo trên tiếng Anh Bộ dữ liệu NewsQA được tạo ra với mục tiêu là nâng cao khả năng hiểu văn bản tự nhiên thông qua việc xử lý ngôn
ngữ của các mô hình máy học NewsQA được thiết kế theo hướng yêu cầu mô
hình phải có khả năng suy luận, diễn giải, tổng hợp các thông tin khác nhau để
đưa ra câu trả lời đúng Đây được xem như là một thách thức trong việc xây dựng các mô hình MRC hiệu quả.
Delta Reading Comprehension Dataset (DCRD) [11] là bộ đữ liệu trên tiếng Trung cho tác vụ MRC, bao gồm hơn 30,000 câu hỏi và câu trả lời được gán
nhãn trên các bài đăng thu thập từ Wikipedia Các câu hỏi được chia ra làm
bảy dạng, tập trung vào truy vấn các thông tin về thực thể hoặc mô tả Bộ dữ
liệu bổ sung sự đa dạng về mặt ngôn ngữ, góp phan thúc day việc nghiên cứu NLU cho các ngôn ngữ khác ngoài tiếng Anh.
Stanford Question Answering Dataset - Spanish (SQuAD-es) [12] là một bộ
dữ liệu MRC trên tiếng Tây Ban Nha SQuAD-es có kích thước hơn 80,000 mẫu, bao gồm các cặp câu hỏi và câu trả lời được dịch từ bộ dữ liệu SQuAD
từ tiếng Anh sang tiếng Tây Ban Nha Tác giả đã đề xuất một phương pháp
xây dựng một bộ dữ liệu trên một ngôn ngữ mới từ một bộ dữ liệu sẵn có trên ngôn ngữ gốc thông qua dịch máy và căn chỉnh từ (word-alignment) Phương pháp đề xuất của tác giả giúp cho việc xây dựng các bộ dữ liệu về MRC trên
Trang 21CÁC CÔNG TRÌNH LIÊN QUAN
2.1.2
2.1.3
các ngôn ngữ khác trở nên dé dàng hơn đặc biệt là cho các ngôn ngữ it tài
nguyên.
MultiLingual Question Answering (MLQA) [13] là một bộ dữ liệu để đánh
giá hiệu suất của các mô hình MRC đa ngôn ngữ, được giới thiệu bởi Facebook
AI Research bằng cách dịch bộ đữ liệu SQuAD trên tiếng Anh sang 6 ngôn ngữ khác bao gồm Tiếng Ả Rập, tiếng Đức, tiếng Tây Ban Nha, tiếng Hindi,
tiếng Việt và tiếng Trung giản thể Đặc trưng của bộ dữ liệu là tính đa ngôn
ngữ, hướng tới phát triển các mô hình đa ngôn ngữ có khả năng trả lời các câu hỏi trên những ngôn ngữ khác nhau Đây là một trong những vấn đề thách thức
trong lĩnh vực NLU bởi nó yêu cầu mô hình phải có khả năng hiểu ý nghĩa của văn bản đầu vào và trả lời câu hỏi bằng các ngôn ngữ khác nhau mà không cần
dùng dữ liệu hoặc cần dùng rất ít dữ liệu huấn luyện cụ thể trên ngôn ngữ đó.
Bộ dữ liệu đọc hiểu tự động trên tiếng Việt
Vietnamese Question Answering Dataset (UIT-ViQuAD) [14] là một bộ dữ
liệu được tạo ra để phục vụ nghiên cứu tác vụ đọc hiểu tự động trên tiếng Việt.
Bộ đữ liệu bao gồm hơn 23,000 cặp câu hỏi và câu trả lời được gán nhãn dựa
trên 5,109 đoạn văn từ các bài đăng trên Wikipedia UIT-ViQuAD được thiết
kế theo hướng yêu cầu khả năng suy luận, tổng hợp các thông tin từ đầu vào
của mô hình Đây là một trong những bộ dữ liệu có ý nghĩa lớn trong việc thúc
đây quá trình nghiên cứu bài toán hỏi đáp tự động trên các ngôn ngữ ít tài
nguyên như tiếng Việt.
Vietnamese Corpus for Machine Reading Comprehension of Health News
Articles (UIT-ViNewsQA) [15] là một bộ dữ liệu về đọc hiểu tự động trên lĩnh
vực y tế trên tiếng Việt Bộ dữ liệu có kích thước là hơn 22,000 cặp câu hỏi và câu trả lời được thu thập từ các bài báo trên mạng về lĩnh vực y tế, trong đó
người gán nhãn hỏi và trả lời các câu hỏi liên quan đến bài báo.
Suy luận ngôn ngữ tự nhiên cho các ngôn ngữ phổ biến Stanford Natural Language Inference (SNLI) [16] là một bộ dữ liệu trên tiếng Anh bao gồm hơn 570,000 cặp câu tiền đề - giả thuyết được gán nhãn theo 3
Trang 22CÁC CÔNG TRÌNH LIÊN QUAN
lớp đó chính là “kéo theo”, “mau thuẫn” hoặc “trung tính” Các câu tiền đề là
các chú thích hình ảnh được lấy từ bộ dữ liệu Flickr30k, trong khi đó các câu
giả thuyết tương ứng do người gan nhãn tạo ra dé thé hiện mối quan hệ giữa hai câu Day là một trong những bộ dif liệu về suy luận ngôn ngữ tự nhiên có
kích thước lớn, được sử dụng rộng rãi để đánh giá hiệu suất trên các mô hình
máy học, đặc biệt là các mô hình học sâu.
e Multi-Genre Natural Language Inference (MNLI) [17] là một bộ dữ liệu NLI
được thu thập va gan nhãn tương tự như SNLI Kích thước của bộ dữ liệu là
hơn 400,000 cặp câu bao gồm hon 10 thể loại văn bản khác nhau, thé hiện
được tính đa dạng mà con người sử dụng trong giao tiếp Cùng với SNLI, MNLI được sử dụng rộng rãi và đóng góp một phan quan trong trong lĩnh vực
nghiên cứu NLU.
e Original Chinese Natural Language Inference (OCNLI) [18] là bộ dữ liệu suy
luận ngôn ngữ tự nhiên thuộc bộ ngữ liệu điểm chuẩn (benchmark) CLUE: A
Chinese Language Understanding Evaluation Benchmark [19] trén tiéng Trung, bao gồm 56,000 cặp câu được gan nhãn Cách OCNLI được xây dựng
tương tự như bộ dữ liệu MNLI, nhưng hướng đến việc tạo ra những câu giả thuyết đa dạng hơn, yêu cầu mô hình máy học phải có khả năng hiểu và suy
luận sâu sắc hơn Việc OCNLI được công bố tạo điều kiện thuận lợi và thúc đây việc nghiên cứu bai toán NLI trên các ngôn ngữ khác ngoài tiếng Anh.
¢ Cross-lingual Natural Language Inference (XNLI) [20] là bộ dữ liệu điểm
chuẩn cho các tác vụ suy luận ngôn ngữ tự nhiên trên nhiều ngôn ngữ Được phát triển bởi Facebook AI Research, XNLI là một phiên bản mở rộng của
MNLI, bao gồm các cặp câu giả thuyết - tiền đề được dịch từ tiếng Anh sang
14 thứ tiếng khác XNLI được xây dựng để đánh giá khả năng đa ngôn ngữ
của mô hình, trong đó tiếng Anh được sử dụng làm bộ dữ liệu huấn luyện và
mô hình phải thực hiện việc đánh giá trên các ngôn ngữ khác Đây là một
hướng nghiên cứu có ý nghĩa thực tiễn rất lớn, đặc biệt đối với các ngôn ngữ
mà có lượng tài nguyên hạn chế.
Trang 23CÁC CÔNG TRÌNH LIÊN QUAN
2.1.4 Bộ dữ liệu suy luận ngôn ngữ tự nhiên cho tiếng Việt
Vietnamese Natural Language Inference (ViNLI) [21] là một bộ dữ liệu phục
vụ cho nghiên cứu bài toán suy luận ngôn ngữ tự nhiên cho tiếng Việt ViNLI bao gồm hơn 30,000 cặp câu tiền dé - giả thuyết được thu thập và gan nhãn từ
các bài báo trên 13 chủ đề khác nhau Tác giả đề xuất một quy trình gán nhãn bao gồm nhiều bước khác nhau đề đảm bảo chất lượng của bộ dữ liệu.
'VnNewsNLI [22] là bộ dữ liệu suy luận ngôn ngữ tự nhiên cho tiếng Việt, bao gồm các cặp giả thuyết - tiền đề được thu thập từ các bài báo Tác giả đề xuất một phương pháp xây dựng bộ dữ liệu suy luận ngôn ngữ tự nhiên nhằm tăng
cường chất lượng của bộ dữ liệu.
VLSP 2021 Shared Task - Textual Entailment [23] là bộ dữ liệu được sử dụng
cho cuộc thi VLSP Shared Task 2021 trên tác vụ NLI — xác định mối quan hệ
logic giữa hai văn bản đầu vào Bộ dữ liệu có kích thước là hơn 16,000 câu song ngữ Việt-Anh bao gồm ba nhãn chính: “đồng ý”, “không đồng ý” và
“trung tính” Day là một bộ dữ liệu góp phan thúc đây và phát triển việc nghiên
cứu các mô hình đa ngôn ngữ cũng như tính ứng dụng của NLI trong các bài
toán thực tế.
2.2 Các hướng tiếp cận có liên quan
Mô hình đa ngôn ngữ huấn luyện trước là một tiến bộ vượt bậc trong lĩnh vực
trí tuệ nhân tạo nói chung và xử lý ngôn ngữ tự nhiên nói riêng, đặc biệt là khả năng
xử lý trên nhiều ngôn ngữ cùng lúc Các mô hình đa ngôn ngữ sử dụng các kiến trúc
phức tạp, kết hợp với số lượng trọng số lớn và được huấn luyện trên các bộ dữ liệu được xây dung từ nhiều ngôn ngữ khác nhau Mô hình đa ngôn ngữ đã thé hiện hiệu
suất tốt và khả năng đa ngôn ngữ của chúng trên một các tác vụ NLP, đặc biệt là trên
các ngôn ngữ ít tài nguyên [24, 25].
Tuy nhiên, mô hình đa ngôn ngữ có một nhược điểm lớn đó chính là số lượng
ngôn ngữ mà mô hình phải xử lý ảnh hưởng đáng kê đến hiệu suất của nó Điều này xuất phát từ số lượng trong số hữu hạn của mô hình và sự mat cân bằng dữ liệu trong
quá trình huấn luyện Dé giải quyết van đề này, nhiều phương pháp và hướng giải
10
Trang 24CÁC CÔNG TRÌNH LIÊN QUAN
quyết đã được đề xuất nhằm khắc phục những hạn chế và nâng cao hiệu quả của mô
hình trong các nhiệm vụ xử lý ngôn ngữ tự nhiên đa ngôn ngữ.
Chit loc tri thức là kỹ thuật huấn luyện mạng nơ-ron, trong đó các tri thức từ một mô hình sẽ được chuyên giao sang mô hình khác thông qua việc sử dụng kiến
trúc mô hình thay - trò Trong quá trình huấn luyện, cơ chế này sẽ hướng dẫn mô
hình trò tận dụng hiệu quả các tri thức trong mô hình thầy, thông qua đó mô hình
trò có thể học được các thông tin hay đặc trưng hữu ích đề cải thiện kết quả của
mình Gần đây nhiều nghiên cứu hướng đến việc giải quyết vấn đề của mô hình đa
ngôn ngữ thông qua kỹ thuật chắt lọc tri thức.
Trong công trình MERGEDISTILL [26], tác giả đã đề xuất phương pháp dé cải tiến mô hình đa ngôn ngữ dé cải thiện hiệu suất trên ba tác vụ NLP đó chính là
nhận dạng tên thực thể, gán nhãn từ loại và đọc hiểu tự động Mô hình đề xuất tập
trung vào giải quyết van đề tối ưu hoá biểu diễn đầu vào trên mô hình đa ngôn ngữ
do dung lượng mô hình hạn chế và dữ liệu huấn luyện bị mắt cân bằng Mô hình đề xuất của các tác giả sử dụng sử dụng cơ chế chắt lọc tri thức với kiến trúc thầy - trò,
trong đó các tri thức được chắt lọc từ mô hình thầy và chuyền giao nó qua mô hình
trò, nhờ đó mô hình trò có thể được tổng quát hoá nhờ vào việc học các đặc trưng của
mô hình thay Tác giả tập trung vào hai hướng tiếp cận chính: chit lọc tri thức từ
nhiều mô hình đơn ngôn ngữ khác nhau và chuyển giao sang một mô hình đa ngôn ngữ; kết hợp nhiều mô hình đa ngôn ngữ khác nhau đề chuyền giao tri thức sang một
mô hình đa ngữ khác Kết qua thử nghiệm trên các tác vụ NLP đã chứng minh sự hiệu quả của phương pháp đề xuất.
Công trình của tác giả Ziqing Yang và cộng sự [27] đã đề xuất phương pháp
cải thiện hiệu suất của mô hình đa ngôn ngữ trên các tác vụ NLP học có giám sát và các tác vụ sử dụng cơ chế zero-shot learning Hai vấn đề trên mô hình đa ngôn ngữ
mà tác giả tập trung giải quyết là xung đột về gradient và dung lượng (số lượng trọng
số của mô hình) hạn chế khi biểu diễn nhiều ngôn ngữ, điều này khiến cho các mô
hình không được tối ưu và thường có hiệu suất thấp hơn các mô hình đơn ngôn ngữ.
Mô hình đề xuất sử dụng cơ chế chat lọc tri thức, trong đó nhiều mô hình thay là mô
hình đơn ngôn ngữ được chuyền giao tri thức sang một mô hình đa ngôn ngữ là trò.
11
Trang 25CÁC CÔNG TRÌNH LIÊN QUAN
Bên cạnh đó, tác giả đề xuất phương pháp gia tăng dung lượng của mô hình bằng
cách thêm các mô-đun cho từng ngôn ngữ biểu diễn Kết qua thử nghiệm được tiến
hành trên các tác vụ phân loại văn bản chứng minh được mô hình đề xuất cải thiện đáng kê hiệu suất của mô hình.
Công trình của Alan Ansell [28] và cộng sự, tác giả đã đề xuất phương pháp
xây dựng các mô hình đơn ngôn ngữ từ các mô hình đa ngôn ngữ Nhóm tác giả sử
dụng phương pháp chit lọc tri thức với kiến trúc mô hình thay và trò bao gồm hai giai đoạn (two-phase distillation) trong đó giai đoạn thứ nhất tập trung vào chat loc
các đặc trưng về ngôn ngữ; giai đoạn thứ hai tập trung vào tỉnh chỉnh mô hình và
chắt lọc các đặc trưng về tác vụ Tác giả đã chứng minh hiệu quả của phương pháp
đề xuất với việc thử nghiệm trên các bộ dữ liệu điểm chuẩn song ngữ thông qua hai
khía cạnh là hiệu suất mô hình và tài nguyên tính toán trên các tác vụ phân tích cú
pháp phụ thuộc, gán nhãn từ loại, suy luận ngôn ngữ tự nhiên, hỏi đáp tự động.
Gần đây, nhiều nghiên cứu tập trung vào cải thiện mô hình đa ngôn ngữ thông qua việc gia tăng trọng số của mô hình Cụ thể hơn, mô hình được tích hợp
với một mô-đun điều hợp ngôn ngữ (language-adapter) để thích ứng tốt hơn với các
tác vụ trong quá trình huấn luyện.
Trong công trình của Jonas và cộng sự [30], nhóm tác giả đã tích hợp một
mô-đun điều hợp ngôn ngữ vào mô hình đa ngôn ngữ để gia tăng dung lượng mô hình và giảm thiểu sự phụ thuộc của ngôn ngữ đầu vào trong quá trình huấn luyện trước và
tỉnh chỉnh mô hình Nhóm tác giả đã tiền hành thử nghiệm trên các bài toán suy luận ngôn ngữ tự nhiên, nhận dạng thực thể, hỏi đáp tự động trên các bộ dữ liệu thuộc các
ngôn ngữ khác nhau Kết quả cho thấy hiệu suất của mô hình đa ngôn ngữ được cải
thiện đáng kể.
Trong công trình của Ahmet Ustun và cộng sự [30], nhóm tác giả đã đề xuất phương pháp cải thiện mô hình đa ngôn ngữ thông qua việc gia tăng
dung lượng của mô hình Nhóm tác giả đã tích hợp mô-đun điều hợp ngôn
ngữ theo ngữ cảnh (contextual language adapters), trong đó các trong số của mô-đun điều hợp được điều chỉnh dựa trên thành phần nhúng ngôn ngữ
(language embedding) Các đặc trưng về mặt ngôn ngữ sẽ được tích hợp hiệu
12
Trang 26CÁC CÔNG TRÌNH LIÊN QUAN
quả vào mô hình đa ngôn ngữ trên các tác vụ như phân tích cú pháp, gán nhãn
từ loại hay nhận dạng tên thực thé Tuy nhiên, việc tích hợp các thành phần
khác vào mô hình đa ngôn ngữ đã gia tăng số lượng trọng s6 đáng kể cũng
như độ phức tạp của mô hình.
Trong công trình của Jonas Pfeiffer và cộng sự [31], tác giả tập trung
vào giải quyết vấn đề của mô hình đa ngôn ngữ trên các ngôn ngữ ít tài
nguyên Tác gia đã đề xuất phương pháp cho phép các mô hình có thé thích
ứng với ngôn ngữ và tác vụ mới thông qua việc tích hợp một bộ điều hợp
ngôn ngữ và một bộ điều hợp về tác vụ Hai mô-đun này hoạt động song song
và hỗ trợ cho nhau trong quá trình huấn luyện Tác giả đã chứng minh hiệu
quả của phương pháp trên các tác vụ như nhận dạng tên thực thể, luận lý phổ thông, và đọc hiểu tự động.
Bên cạnh đó, một số hướng tiếp cận khác cũng được dé xuất áp dung Trong
công trình của Phillip Rust và cộng sự, 2021 [29], nhóm tác giả đã tiến hành phân tích và đánh giá nhằm xác định các yếu tố tạo nên hiệu suất vượt trội của các mô hình
đơn ngữ so với các mô hình đa ngôn ngữ trên các tác vụ NLP Tác giả đã quan sát
thấy hai yếu tố ảnh hưởng đến hiệu suất của mô hình ngôn ngữ bao gồm lượng dữ
liệu huấn luyện và chất lượng của tập từ vựng Bên cạnh đó, tác giả cũng tiễn hành một số phương pháp tỉnh chỉnh tập từ vựng hiệu quả hơn dựa trên ba yếu tố: tỉ lệ từ
được phân đoạn, tỉ lệ từ nằm ngoài tập từ vựng và kích thước bộ dữ liệu huấn luyện.
Các thử nghiệm được tiến hành trên 9 ngôn ngữ va 5 tac vụ chứng minh được độ hiệu quả của phương pháp đề xuất trên mô hình đa ngôn ngữ.
13
Trang 27CÁC CÔNG TRÌNH LIÊN QUAN
Bảng 2.1 Khảo sát các phương pháp cải thiện mô hình đa ngôn ngữ hiện nay.
Công trình Phương pháp
Chắt lọc tri thức Gia tăng số lượng
trọng số
Simran Khanuja et al [26] M Mĩ
Ziqing Yang et al [27] Mi
Alan Ansell et al [28] Mĩ
Jonas et al [29] Mĩ
Ahmet Ustun [30] Mĩ
Jonas Pfeiffer et al [31]
Thông qua khảo sát các công trình nghiên cứu trên, học viên nhận thay các phương pháp đề xuất chủ yếu tập trung gia tăng sé lượng tham số và can thiệp vào
quá trình huấn luyện trước của mô hình Điều này là rất tốn kém về mặt chi phí và thường không khả thi khi lượng tài nguyên tính toán bị hạn chế Việc phân tích và
hiểu được tác động của vấn đề của mô hình đa ngôn ngữ ảnh hưởng như thế nào tới
hiệu suất và khả năng xử lý dữ liệu là điều quan trọng đề khai thác toàn bộ khả năng của mô hình Từ đây học viên đề xuất các hướng tiếp cận phù hợp đề hướng tới việc
cải thiện hiệu suất trên các tác vụ NLU trên tiếng Việt.
14
Trang 28CƠ SỞ LÝ THUYET
CHƯƠNG 3 CƠ SỞ LÝ THUYET
Trong chương 3, học viên trình bày các kiến thức có liên quan đến kỹ thuật đề xuất về việc cải tiễn mô hình đa ngôn ngữ cho tiếng Việt Chương 3 đi sâu vào phân
tích ba nội dung chính: mô hình ngôn ngữ sử dụng kiến trúc Transformers, kỹ thuật
chắt lọc tri thức và kỹ thuật vận chuyền tối ưu Thông qua việc trình bày những nội dung nêu trên, học viên hướng tới xây dựng cơ sở lý thuyết cho kỹ thuật đề xuất, cũng
như là nền tảng cho các chương tiếp theo.
3.1 Mô hình ngôn ngữ sử dụng kiến trúc Transformers
Mô hình ngôn ngữ là một mô hình tính toán được sử dụng để xử lý đầu vào dưới dạng ngôn ngữ tự nhiên Nó phân tích dữ liệu văn bản để xây dựng và thiết lập
các quy tắc trong dữ liệu đầu vào, cho phép mô hình có thể đưa ra dự đoán Đây là
một trong những tác vụ cơ bản nhất và là chủ đề nghiên cứu quan trọng trong lĩnh vực NLP, được áp dụng vào nhiều bài toán và ứng dụng thực tiễn khác nhau như tạo
văn bản, dịch máy, nhận dạng giọng nói, hệ thống hỏi đáp,
Có hai cách tiếp cận chính để xây dựng ngôn ngữ đó chính là dựa vào phương
pháp thống kê và dựa vào mạng nơron nhân tạo Mô hình ngôn ngữ thống kê dựa trên phân tích một lượng lớn văn bản đề ước lượng phân bồ xác suất của các từ hoặc chuỗi
các từ [31] Cách tiếp cận này thường sử dụng n-gram bao gồm các chuỗi phần tử
liền kề nhau từ một văn bản Các mô hình thống kê ước lượng xác suất của các gram dựa trên tần suất xuất hiện của chúng trong dữ liệu huấn luyện Hướng tiếp cận
n-thứ hai đó chính là mô hình ngôn ngữ sử dụng kiến trúc mạng noron nhân tạo [32] Một số kiến trúc được sử dụng phổ biến như mạng nơron hdi quy [33] hay
Transformers [34] được huấn luyện để khai thác các đặc trưng và các mối quan hệ
phụ thuộc giữa các token trong dit liệu đầu vào Trong thực tế, các mô hình này được huấn luyện với một lượng lớn dữ liệu, sau đó chúng được sử dụng vào một tác vụ cụ
thể thông qua quá trình tỉnh chỉnh các trọng số của mô hình dựa trên dữ liệu được
gán nhãn Các mô hình này được gọi là mô hình ngôn ngữ luyện trước và được áp
dụng rộng rãi trong các tác vụ NLP Trong phan này, học viên cung cấp một cái nhìn tổng quan về kiến trúc mô hình Transformers, cách thức mô hình được huấn luyện và
học chuyền tiếp trên các tác vụ đích.
15
Trang 29CƠ SỞ LÝ THUYÉT
3.2 Tông quan về kiến trúc mô hình
Transformers được đề xuất trong công trình của Ashish Vaswani và cộng sự[34], là một trong những kiến trúc mạng nơron quan trọng và được áp dụng rộng rãi
trong NLP, đặc biệt là trong việc xây dựng các mô hình ngôn ngữ Transformers đã
chứng minh được sự hiệu quả và khả năng vượt trội về mặt hiệu suất trên các tác vụ
xử NLP nói riêng và máy học nói chung Cải tiến quan trọng nhất của Transformers
là việc sử dụng các cơ chế Self-attention, cho phép mô hình tập trung có chọn lọc vào
các phần khác nhau của chuỗi đầu vào tại các thời điểm khác nhau Khác với mạng
noron hồi quy - trong đó mô hình dựa vào quá trình xử lý tuần tự để năm bat cácthông tin về ngữ cảnh trong văn bản, kiến trúc Transformers có thé nam bắt các thông
tin về ngữ cảnh và mối quan hệ phụ thuộc g1ữa các token một cách toàn cục va đồng
thời trên toàn bộ câu.
Kiến trúc của Transformers là sự kết hợp của nhiều lớp Self-attention và mạngnơron truyền thăng (feedforward neural network) [35] Các lớp này cho phép mô hình
học được cách biểu diễn các đặc trưng của ngôn ngữ từ mức độ đơn giản nhất đến
phức tạp nhất, thông qua việc lặp lại quá trình huấn luyện và tỉnh chỉnh trên nhiềulớp khác nhau Ngoài ra, đo quá trình xử lý đầu vào song song thay vì tuần tự nhưmạng noron hồi quy, mang Transformers còn tích hợp các thông tin về vị trí dé giảithích thứ tự của từng token trong câu Thế mạnh của mô hình Transformers là khảnăng khai thác tri thức được biểu diễn qua các đặc trưng trên một lượng lớn dữ liệuvăn bản thông qua quá trình huấn luyện trước Quá trình này giúp cho mô hình trở
nên mạnh mẽ, đạt được hiệu suất tốt trên các tác vụ sau khi tinh chỉnh trên bộ dữ liệu
cụ thể, ngay cả khi lượng dữ liệu được gán nhãn hạn chế
16
Trang 30CƠ SỞ LÝ THUYET
hình gan các trọng số biéu thị mức độ quan trọng khác nhau cho các yêu tố khác nhaucủa chuỗi đầu vào, dựa trên mức độ phù hợp của chúng với ngữ cảnh hiện tại Trongnhiều trường hợp đặc biệt, chuỗi đầu vào có độ dài rất lớn và phức tạp, các mô hìnhthường gặp khó khăn trong việc xử lý và rút trích các đặc trưng Cơ chế Attentioncho phép mô hình tập trung có chọn lọc vào các phần quan trọng nhất của chuỗi đầu
vào dé đưa ra dự đoán và bỏ qua các phan ít liên quan hơn Điều này giúp mô hìnhđưa ra dự đoán chính xác hơn và đo đó hiệu suất trên các tác vụ NLP cũng được cải
thiện.
Cơ chế Self-attention được phát triển từ Attention, là một trong những thànhphần cốt lõi của mạng Transformers Cơ chế Self-attention có nhiệm vụ giúp cho môhình xử lý chuỗi đầu vào một cách hiệu quả hơn thông qua việc sử dụng Attentiontrên chính các thông tin từ chuỗi đầu vào Ý tưởng chính dang sau Self-attention là
mỗi token trong chuỗi đầu vào tương tác với tất cả các token khác với mức độ liên
quan hoặc tầm quan trọng khác nhau Ảnh hưởng của từng token trên toàn bộ chuỗi
đầu vào được xác định bởi mô hình thông quá quá trình huấn luyện
Hình 3.1 Minh hoạ cho cơ chế Self-attention
Hình 3.1 mô tả toàn bộ cơ chế Self-attention Hàm Self-attention nhận đầu vào
là chuỗi có độ dài L token được thé hiện qua 3 ma trận đặc trưng: Query (Q), Key(K) và Value (V); Q,K,V € IR“X#: d là số chiều của đặc trưng mô hình
17
Trang 31CƠ SỞ LÝ THUYET
e Key: mỗi Key được liên kết với một giá tri thể hiện mức độ phù hợp hoặc tầm
quan trọng của nó đối với từng phần tử Query
e Query: đại diện cho một phần tử tại vị trí nhất định mà mô hình muốn tính
toán mức độ quan trọng Nó được sử dung dé so sánh với các phần tử kháctrong chuỗi đầu vào
e Value: được sử dụng dé tính toán đầu ra của cơ chế Self-attention, nó đại diện
cho các thông tin được liên kết với mỗi giá tri Key thé hiện qua giá trị của các
trọng số Các gia tri của trọng số được xác định bởi một hàm tính trọng số dựa
trên giá trị của Query và Key tương ứng.
e Hàm tính trọng số: Hàm này nhận vào một cặp Query - Key va được sử dụng
để xếp hạng độ liên quan của từng phan tử trong Key với Value Thông
thường, hàm tính trọng số được tính thông qua tích vô hướng giữa hai vectorhay thông qua một mạng noron nhăm đánh giá độ liên quan giữa hai phan tửđầu vào
Mỗi token trong cùng một câu có độ quan trọng khác nhau ứng với các token
khác Chúng có hai giá tri Query và Key tương ứng Query của token được so sánh
với tất cả các Key khác thông qua hàm tính trọng số
Q x K'
Attention(Q,K,V) = softmax( xV (3.1)
vây
mà) exp (q¡k; `) (32)
Phép tích vô hướng Q x KT cho ra một ma trận có dạng IR! 4, thé hiện cho độquan trọng của từng token với các token còn lại Cụ thể hơn, độ quan trọng a; j củatoken tại vị trí i với từng token tại vị trí j được thé hiện thông qua tích vô hướng của
dinky € R* là hai véctơ hàng trong hai ma trận Query va Key S; là tập các vi trí
trong chuỗi dau vảo.
18
Trang 32giá trị K và Q Tuy nhiên, khi thực hiện phép tích vô hướng giữa hai véctơ có phương
sai bang nhau, kết quả sẽ cho ra giá trị có phương sai gấp d, lần
dk
qi ~ N(0,07),k; ~ N(0,07) > Var > ak = o*-d, (3.3)
i=1
Bang cách điều chỉnh nay, gia tri Attention luôn được duy trì trong một phạm
vi hợp lý, khiến cho các giá trị sau khi qua hàm Softmax tránh bị bão hoà (có giá trị
1 tại một vi trí và 0 tai các vi trí khác), giúp quá trình huấn luyện ôn định hơn và ngănchặn các van đề như exploding gradient hay vanishing gradient Ngoài ra, hệ số tỷ lệcho phép cân bằng tốt hơn giữa các các giá trị attention với số chiều của hai ma trận
Q và K, đảm bảo rằng số lượng chiều không làm ảnh hưởng đến giá trị cuối cùng
19
Trang 33CƠ SỞ LÝ THUYET
3.2.2 Multi-head Self-attention
Hình 3.2 Kiến trúc cơ chế Multi-head Self-attention [36].
Multi-head Self-attetion là phiên bản mở rộng của cơ chế Self-attention, và làthành phan chính trong mang Transformers Mặc dù cơ ché Self-attention đã cho phépcác mô hình nam bắt các yêu tố phụ thuộc lẫn nhau trong chuỗi đầu vào, nhưng với
cơ chế Multi-head Self-attention nâng cao hơn nữa khả năng xử lý của mô hình thôngqua việc tập trung vào các khía cạnh khác nhau của biểu diễn đầu vào Trong Multi-
head Self-attention, cơ chế Self-attention được áp dụng song song nhiều lần, với mỗi
“head” học các biểu diễn có trọng số khác nhau trên một nhóm đặc trưng đầu vào
Mỗi ma trận Query, Key và Value được chia thành h ma trận con Sau khi
thực hiện cơ chế Self-attention độc lập trên các ma trận con này, đầu ra được tạo rabằng cách ghép nối đầu ra của các attention head và đưa qua phép chuyền đổi tuyến
tính, thông qua đó mô hình có thé nam bắt được nhiều thông tin đa dang và hữu ichtrong quá trình huấn luyện
Multihead(Q,K,V) = Concat(heady, , head, )W°? (3.4)
20
Trang 34CƠ SỞ LÝ THUYÉT
head; = Attention(QW°,KW*,VW/) (3.5)
Trong đó, W,°, WK, WY € IR#X4+/° là các trong số dùng dé ánh xa các biểu diễn
đầu vào thành các ma trận Key, Query và Value
3.2.3 Kiến trúc mô hình
Kiến trúc của mô hình Transformers về cơ bản có hai thành phan chính: bộ mã
hoá (encoder) và bộ giải mã (decoder) Kiến trúc này được sử dung chủ yếu trong các
bài toán tạo văn bản, trong đó mô hình nhận đầu vào là một chuỗi các token và đầu
ra là một chuỗi token khác.
e Bộ mã hóa
Add & Norm
Nx | (da & Norm |
Multi- Head Attention
Positional Encoding
Input
Embedding
Inputs
Hình 3.3 Kiến trúc của bộ mã hoá [36].
Bộ mã hóa bao gồm N khối Transformers có cấu trúc như nhau và được xử lý
tuần tự - trong đó đầu ra của khối này là đầu vào của khối khác Mỗi khối
Transformers bao gồm cơ chế Self-attention và mạng nơron truyền thăng Cơ chế
Self-attention cho phép bộ mã hóa nắm bắt các mối quan hệ phụ thuộc giữa các token
khác nhau từ chuỗi đầu vào, trong khi các mạng noron truyền thang thực hiện cácbiến đổi tuyến tinh cho từng phan tử trong chuỗi Mỗi khối trong bộ mã hoá đều có
21
Trang 35CƠ SỞ LÝ THUYET
sử dụng các kết nối Residual [38] và lớp Layer norm [39] Bộ mã hoá nhận đầu vào
là x, sau đó nó được đưa qua lớp Multi-head Self-attention Đầu ra của bước này được
kết hợp trực tiếp với đầu vào thông qua kết nối Residual và đưa qua lớp Layer norm
Mang noron truyền thang có chức năng là tăng độ phức tap cho mô hình, đóng
vai trò là tổng hợp lại tất cả các thông tin đã được xử lý thông qua cơ chế Multi-head
Self-attention trước đó.
Đầu ra của mang là đầu vào cho khối Transformers tiếp theo, do đó quá trình
xử lý này đảm bảo rằng thông tin được tinh chỉnh và tối ưu hóa một cách phù hợp
3.2.3.1 Bộ giải mã
Add & Norm
Add & Norm
Multi-Head Attention
Add & Norm Masked Multi-Head Attention
Positional Encoding
Output
Embedding
Outputs (shifted right) Hình 3.4 Kiến trúc của bộ giải mã [36].
22
Trang 36CƠ SỞ LÝ THUYET
Chức năng của bộ giải mã là nhận vào các thông tin từ bộ mã hoá và sử dụng
các thông tin này cho việc xây dựng đầu ra Bộ giải mã có kiến trúc gần giống như
bộ mã hoá, bao gồm N khối Transformers xếp chồng lên nhau Tuy nhiên, điểm khác
biệt là tại mỗi khối Transformers, bộ giải mã chứa hai lớp Multi-head Self-attention
thay vì một như ở bộ mã hoá Lớp Multi-head Self-attention thứ nhất có chức năngnăm bắt các quan hệ phụ thuộc trong chuỗi đầu ra được tạo và lớp thứ hai cho phép
bộ giải mã khai thác các thông tin quan trong từ biéu diễn đầu vào do bộ mã hóa tao
ra Cơ chế này tạo điều kiện cho việc kết hợp các thông tin từ bộ mã hóa và bộ giải
mã, giúp mô hình tạo ra các chuỗi đâu ra chính xác và hiệu quả.
3.2.3.2 Ảnh hưởng của cơ chế kết nối Residual và Layer norm lên quá trình
huan luyện
Kết nối Residual là cơ chế quan trọng giúp quá trình huấn luyện mạngTransformers trở nên hiệu quả hơn Thông thường, Transformers được thiết kế với
nhiều lớp, việc sử dụng cơ chế kết nối Residual giúp quá trình lan truyền ngược dễ
dàng hơn, giảm thiểu hiện tượng vanishing gradient Hiện tượng này xảy ra khigradient tiêu biến trong quá trình lan truyền ngược qua nhiều lớp, gây khó khăn trongquá trình huấn luyện mạng nơron [40] Hơn nữa, kết nối Residual thúc đây việc tận
dụng lại các thông tin đã được học từ các lớp trước đó, cho phép mạng lưu giữ và
truyền đi thông tin quan trọng qua nhiều lớp Điều này cải thiện khả năng của môhình trong việc nắm bắt và duy trì các phụ thuộc tầm xa
Layer norm được sử dụng dé chuẩn hoá các đầu ra trong mỗi lớp của mạng
Transformers, giúp quá trình huấn luyện trở nên nhanh hơn Cơ chế này đảm bảo các
đặc trưng có độ lớn tương đương nhau giữa các phần tử trong chuỗi Nhờ vào đó,
mạng Transformers cải thiện khả năng tổng quát hoá trên dữ liệu mới, do nó làm giảm
sự phụ thuộc vào các yếu tô như giá trị trung bình hay phương sai của đặc trưng đầu
vào.
3.2.3.3 Mã hoá vị trí
Mã hóa vị trí là có chức năng kết hợp thông tin về vị trí tuyệt đối của các token
trong biêu diễn dau vào của mô hình Khác với mạng noron hôi quy xử lý tuân tự
23
Trang 37CƠ SỞ LÝ THUYÉT
từng token, Transformers không có khái nệm về thứ tự các token hoặc vị trí củachúng, mã hóa vi trí cho phép mô hình nam bắt các mối quan hệ tuần tự giữa các mãthông báo trong chuỗi đầu vào Thông thường, hàm mã hóa vi trí là các hàm sin và
cos có tần số và biên độ khác nhau, cho phép mô hình phân biệt giữa các token dựa
ee (sp0000= nana) gược lại
Trong đó ma trận PE đại diện cho véctơ nhúng tại vị tri pos trong chuỗi Bangcách kết hop mã hóa vi trí, Transformers có thể phân biệt giữa các token có nội dung
tương tự nhưng vi trí khác nhau, cho phép mô hình tận dung được thông tin từ ngữ
cảnh tuần tự của đầu vào Thông tin về vi tri này rat cần thiết trong việc nắm bắt các
phụ thuộc và hiểu cấu trúc của chuỗi đầu vào.
3.1.5 Các kiên trúc mô hình phô biên
Trong quá trình xây dựng mô hình ngôn ngữ, mục tiêu quan trọng nhất là pháttriển các kỹ thuật huấn luyện và thiết kế mô hình một cách hiệu quả dé khai thác các
tri thức có trong dit liệu, góp phần nâng cao hiệu suất trên các tác vụ xử lý ngôn ngữ
Một mô hình ngôn ngữ tốt phải có khả năng biểu diễn văn bản đầu vào một cáchchính xác và đạt được khả năng tổng quát hoá trên các tác vụ được huấn luyện Trongphan này, học viên cung cấp cái nhìn tổng quan về các kỹ thuật thiết kế mô hình đã
va đang được sử dung Có ba kiến trúc phố biến hay được sử dụng đó chính là bộ mã
hoá - bộ giải mã (encoder-decoder), bộ mã hoá đơn (encoder-only) và bộ giải mã đơn (decoder-only).
3.2.3.4 Bộ mã hoá - bộ giải mã (Encoder — Decoder)
Đây là kiến trúc thường được sử dụng cho các tác vụ tạo sinh ngôn ngữ tự
nhiên (Natural Language Generation), trong đó mô hình tập trung vao việc tạo ra các
chuỗi văn bản mạch lạc, có ý nghĩa dựa theo đầu vào cụ thể Như đã đề cập ở trên,
24
Trang 38CƠ SỞ LÝ THUYET
kiến trúc này bao gồm hai phần chính: bộ mã hóa và bộ giải mã Bộ mã hóa nhận vàomột chuỗi đầu vào và và có nhiệm vụ nắm bắt thông tin theo ngữ cảnh và trích xuấtcác biểu diễn có ý nghĩa Bộ giải mã sử dụng đầu ra của bộ mã hóa và từng bước tạochuỗi đầu ra Nó sử dụng các biểu diễn từ đầu vào của bộ mã hóa và đồng thời xemxét các kết qua đầu ra được tạo trước đó dé đảm bao tính nhất quán và liên kết trên
chuỗi đầu ra Trong quá trình huấn luyện trước trên một số mô hình tiêu biểu, bộ mã
hoá thực hiện một số phép biến đồi trên chuỗi đầu vào, trong khi đó bộ giải mã sẽ cốgắng phục hồi chúng ở đầu ra
Hình 3.5 Kiến trúc mô hình BART [43].
BART (Bidirectional and Auto-Regressive Transformers ) [41] là mô hình tiêu
biểu cho kiến trúc bộ mã hoá - bộ giải mã Bộ mã hoá sử dụng kiến trúc Transformershai chiều với mục đích nắm bắt thông tin quan trọng trên chuỗi đầu vào theo ngữcảnh, trong khi đó, bộ giải mã sử dụng cơ chế tự hồi quy (auto-regressive) dé tạo
chuỗi đầu ra, đảm bảo đầu ra có ý nghĩa và nhất quán Trong Hình 3.5, mô hình BARTđược huấn luyện bằng cách thay đổi cau trúc của chuỗi đầu vào thông qua một ham
gây nhiễu, bộ giải mã có chức năng tái tạo lại văn bản gốc, cho phép nó học cách biểu
diễn ngôn ngữ mạnh mẽ Mô hình đạt được kết quả tốt trên các bài toán tạo văn bản
và hiéu ngôn ngữ tự nhiên
3.2.3.5 Bộ mã hoá đơn (Encoder only)
Kiên trúc bộ mã hoá đơn chi sử dụng bộ mã hóa Transformers và nhắm mục
đích tạo ra biêu diễn cho chuôi đâu vào có độ dài cô định Trong kiên trúc này, chuôi đâu vào được đưa qua nhiêu khôi Transformers, trong đó cơ chê Attention có khả
năng truy cập và xử lý các thông tin từ tat cả các token trong chuỗi đầu vào, giúp nam
25
Trang 39CƠ SỞ LÝ THUYÉT
bắt ngữ cảnh của chuỗi đầu vào một cách toan diện Quá trình huấn luyện trước của
các mô hình này thường tập trung vào việc thay déi câu trúc của chuỗi đầu vào vànhiệm vụ của mô hình là có găng dự đoán chuỗi ban đầu Đầu ra của mô hình là một
ma trận trạng thái ân biéu diễn các đặc trưng tương ứng với chuỗi đầu vào, sau đó cácđặc trưng này được sử dụng cho các mạng nơron khác dé đưa ra dự đoán Các mô
hình có kiến trúc bộ mã hoá đơn phù hợp với các tác vụ đòi hỏi mô hình phải hiểu vàsuy luận từ các đặc trưng từ đầu vào chăng hạn như phân loại câu, nhận dạng thực
thé hay đọc hiểu tự động
Single Sentence
Hình 3.6 Kiến trúc mô hình BERT [44].
Mô hình tiêu biểu cho kiến trúc này đó chính là BERT (Bidirectional Encoder
Representations from Transformers) [42] và được mô tả trong Hình 3.6 Khác với các
mô hình trước đây chỉ sử dụng các thông tin về ngữ cảnh một chiều, BERT có khảnăng nam bắt được thông tin về ngữ cảnh từ cả hai chiều trong cũng một chuỗi đầuvào, thông qua việc huấn luyện trên tác vụ Masked Language Model [43] Trong tác
vụ này, chuỗi đầu vào được biến đổi (thay thế ngẫu nhiên một vài token bằng token
[MASK] với qua một tỉ lệ nhất định), sau đó mô hình cố gắng đưa ra dự đoán vềtoken bị thay thé dựa vào ngữ cảnh xung quanh của token nay Bang cách huấn luyện
26
Trang 40CƠ SỞ LÝ THUYET
trên một lượng lớn văn bản, BERT học cách biéu diễn phong phú của từng câu và sau
đó thực hiện tinh chỉnh cho các tác vụ khác.
3.2.3.6 Bộ giải mã đơn
Không giống như các mô hình tạo văn bản khác, bao gồm day đủ cả bộ mãhoá và bộ giải mã, kiến trúc này chỉ tập trung hoàn toàn vào giai đoạn giải mã trongquá trình xử lý văn bản Nó sử dụng bộ giải mã Transformers một chiều, tức là dựđoán các token hiện tại dựa vào các token đã được tạo ra trước đó theo hướng tự hồi
quy (auto-regressive) Các mô hình áp dụng kiến trúc bộ giải mã đơn chủ yếu được
sử dụng trong các bài toán tạo sinh văn bản, với mục tiêu chính là tạo ra các
chuỗi đầu ra nhất quán và phù hợp với ngữ cảnh.
Hình 3.7 Kiến trúc của bộ giải mã đơn [46].
GPT là một trong những mô hình đầu tiên áp dụng kiến trúc bộ giải mã đơntrong quá trình xây dựng mô hình ngôn ngữ [44] GPT được huấn luyện trước trên
một lượng lớn di liệu văn bản thông qua phương pháp học tự giám sát, với mục tiêu
chính là tính toán phân phối xác suất của token tiếp theo dựa trên chuỗi đầu vào.Phương pháp này cho phép GPT học cách biểu diễn đầu vào và tạo văn bản một cách
mạch lạc và có ý nghĩa.
27