Luận văn thạc sĩ Khoa học máy tính: Cải tiến mô hình đa ngôn ngữ cho các tác vụ hiểu ngôn ngữ tự nhiên Tiếng Việt

Học viên tiến hành đánh giá hiệu suất của mô hình trên các bộ dé liệu hiểu ngôn ngữ tự nhiên tiếng Việt khác nhau cũng như thực hiện việc so sánh kết quả thông qua việc sử dụng các độ đo

Trang 1

NGUYEN XUAN VĨNH PHU

HIEU NGON NGU TU NHIEN TIENG VIET

LUAN VAN THAC Si

NGANH KHOA HOC MAY TÍNH

MA SO: 8480101

NGUOI HUONG DAN KHOA HOC PGS.TS NGUYEN LUU THUY NGAN

TP HO CHi MINH - 2023

Trang 2

LỜI CẢM ƠN

Trong quá trình thực hiện luận văn này, học viên xin bay tỏ lòng biết ơn chân thành tới Thầy Cô, nhà trường và gia đình đã giúp đỡ và động viên dé học viên hoàn

thành được luận văn.

Học viên xin gửi lời cảm ơn đến Cô PGS.TS Nguyễn Lưu Thùy Ngân đã tận

tình hướng dẫn, hỗ trợ và góp ý trong suốt quá trình thực hiện luận văn Những kinh nghiệm và kiến thức chuyên sâu của Cô đã truyền cảm hứng và động lực đề học viên

trang bị các kiến thức và kỹ năng chuyên môn, giúp học viên thực hiện nghiên cứu

khoa học và giải quyết vấn đề một cách có hiệu quả.

Học viên cũng xin gửi lời cảm ơn đến Thầy ThS Nguyễn Văn Kiệt đã hỗ trợ

và chia sẻ những kinh nghiệm quý báu trong quá trình hoàn thiện luận văn Thay luôn sẵn lòng lắng nghe và đưa ra những góp ý mang tính xây dựng giúp học viên tìm ra

những hướng tiếp cận dé giải quyết van dé.

Học viên xin gửi lời tri ân đến quý Thầy Cô trường Đại học Công nghệ Thông

tin và khoa Khoa học Máy tính đã nhiệt tình giảng dạy, truyền đạt những kiến thức

bổ ích trong những năm học vừa qua Đây là hành trang rất quan trọng, là nền tảng

để học viên thực hiện luận văn này.

Cuối cùng, học viên muốn gửi lời cảm ơn đến gia đình, bạn bè đã đồng hành, khích lệ và hỗ trợ trong suốt quá trình thực hiện luận văn Xin chân thành cảm ơn.

TP.Hồ Chí Minh, tháng 12 năm 2023

Học viên

Nguyễn Xuân Vĩnh Phú

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn “Cải tiến mô hình đa ngôn ngữ cho các tác vụ hiểu

ngôn ngữ tự nhiên tiếng Việt” là công trình nghiên cứu của tác giả, với sự hướng dẫn của PGS.TS Nguyễn Lưu Thuỳ Ngân Tắt cả các ý tưởng, khái niệm và các phân tích

được trình bày trong nghiên cứu này là kết của của những nỗ lực và đóng góp trí tuệ

của tôi.

Các tài liệu tham khảo, các số liệu phục vụ nghiên cứu có nguồn gốc rõ rang

và được trích dẫn đầy đủ Các kết quả nghiên cứu trong luận văn là do tôi tự tìm hiểu,

phân tích một cách trung thực và khách quan.

Tôi xin cam đoan những, vấn đề trên là hoàn toàn đúng sự thật Nếu Sai, tôi xin

chịu hoàn toàn trách nhiệm.

TP Hồ Chí Minh, tháng 12 năm 2023

Học viên

Nguyễn Xuân Vĩnh Phú

Trang 4

MỤC LỤC

MỤC LUC

DANH MỤC TU VIET TẮTT -2¿-22222t‡2EEEEEEEE11122211227211122111 11c ccrrrrkve.[V DANH MỤC CAC BANG BIÊU 2222222222EEEEEEEEEE212.1211111111111111112212 cee v DANH MỤC CÁC HÌNH VẼ, ĐÒ THỊ

TOM TAT 0 ằ viii

CHUONG 1 TONG QUAN

11 Bài toán hiểu ngôn ngữ tự nhiên -2: 222E2222+22222EEEE++EtE2EEEEEEErrrrErrkkrrrrrrrrrrkr 1

1.2 Mô hình ngôn ngữ huấn luyện trước trên các tác vụ NLU

CHƯƠNG2_ CÁC CÔNG TRINH LIÊN QUAN -22222222222222222111222222222.Xe2 6

21 Các bộ dit liệu có liên quan ¿5-5252 +SE‡S*2Et2k‡£zkerkerrkrrkrrerrrerrrrrrrerrrerece, O

2.2 Các hướng tiếp cận có liên quan -c:cccccccccrsteetrrtrrrrrrrrrrrxsssssseeeeece TỔ

CHƯƠNG3_ CƠ SỞ LÝ THUYẾT 2+++cccSSSEEErtrierkttrrrrrrrrrrrrre 15

3.1 Mô hình ngôn ngữ sử dung kiến trúc Transformers .v22cvccccccccccrcrrrrrtrr 15 3.2 Tổng quan về kiến trúc mô hình .-vvvv2vvvvvv++++++++++t+ttttttttEtrEEtrrrrrrkrr 16 3.3 Chat lọc tri thức thui 30 3.4 Vận chuyển tối ưu

CHƯƠNG 4_ PHƯƠNG PHAP CẢI TIEN -22255+cccccvettrrrrrieeerrrrrrre

41 Tổng quan về phương pháp -. -©22EEEEEEEEEEES2222222222222+1222222212212222222222212 40

42 Tinh chỉnh mô hình huấn luyện trước -. -ssscsccccccccrsssssrssssrseer-ee 4

43 Tang cường dữ liệu và chuyền tiếp chéo ngôn ngữ -: c -ssss-s - 44 4.4 Quá trình chất lọc tri thức +222+++222E22222+222222312222222211122 trEE.ecree 46 4.5 Minh hoa quá trình huấn luyện

4.6 Phân tích các yếu tổ cải thiện mô hình đa ngôn ngữ cc22cc22ccccccccczzttz 53

CHƯƠNG 5 THU’ NGHIỆM VA KET QUẢ . - cccc+cccsccerrveecrrrxeccerre 54

Trang 5

TÀI LIỆU THAM KHẢO

PHU LUC 1 DANH MỤC CÔNG BO KHOA HỌC 2 ©¿+222+ze+tEvvzesrrrscee 83

Trang 6

DANH MỤC TU VIET TAT

DANH MUC TU VIET TAT

STT Từ viết tắt Y Nghĩa

1 NLI Natural Language Inference

2 MRC Machine Reading Comprehension

3 NLP Natural Language Processing

4 NLU Natural Language Understanding

5 PLM Pre-trained Language Model

Trang 7

DANH MỤC CÁC BẢNG BIÊU

DANH MỤC CÁC BANG BIEU

Bảng 2.1 Khảo sát các phương pháp cải thiện mô hình đa ngôn ngữ hiện nay 14

Bảng 5.1 Số liệu thống kê trên bộ dữ liệu UIT-ViQuAD trên tập huấn luyện, phát triển và kiểm thử 54

Bảng 5.2 Vi dụ minh họa trong tập dit liệu UIT-ViQuADD -c+cc«ccsccece- DD Bảng 5.3 Định nghĩa các loại suy luận có trong bộ dit liệu ¿- - 5+5 ccc++xe> 58

Bảng 5.4 Ví dụ minh hoa trong tập dữ liệu VINLI

Bảng 5.6 Từ trùng lặp giữa câu tiền dé và câu giả thuyết . -¿¿+2c2xccscczscee 62

Bảng 5.7 So sánh tỉ lệ trùng lặp từ giữa bộ đữ liệu tiếng Việt ViNLI và tiếng Anh

MultiNLI.

Bảng 5.8.

62

quả thử nghiệm trên bộ dữ liệu UIT-ViQuAD (Ký hiệu: DA — phương pháp

tăng cường dữ liệu; DA-KDOT — phương pháp tăng cường dữ liệu và chất lọc tri thức

thông qua vận chuyền tối wu) .

Bảng 5.9 Kết quả thử nghiệm trên bộ dữ liệu ViNLI

Bảng 5.10 Hiệu suất của mô hình trên các phương thức chắt lọc tri thức khác nhau

Trang 8

DANH MỤC CÁC HÌNH VẼ, ĐỎ THỊ

DANH MỤC CÁC HÌNH VẼ, ĐÒ THỊ

Hình 1.1 Hiệu suất của mô hình đa ngôn ngữ XLM-R trên bộ đữ liệu XNLI 4

Hình 3.1 Minh hoạ cho cơ chế Self-attention -. ccz+2c5setscvsseerrrreesrrrsseerreecee LT Hình 3.2 Kiến trúc cơ chế Multi-head Self-attention [36] - - c-z-:c 20

Hình 3.3 Kiến trúc của bộ mã hoá [36] -::¿52222vvcc+tttvvvvsecrrerrrrrssccrcccrrr 2Ï Hình 3.4 Kiến trúc của bộ giải mã [36] -2:¿¿¿222222vvccettrrrkeeerrrsrrrrseeeccccrr 22

Hình 3.5 Kiến trúc mô hình BART [43] -¿¿-©252c+ccssetsrrssererrxsecerrxecc-r 25

Hình 3.6 Kiến trúc mô hình BERT [444] - ::¿¿522V222+++2222EESE++rttEEEEkxrrrrrrrrrrkev 26 Hình 3.7 Kiến trúc của bộ giải mã đơn [46] - 2 ¿¿22+++222E+++t22EE+zttzrxsesrrrscee 27 Hình 3.8 Minh hoa quá trình chit lọc tri thức [53] -z¿+22+zz+22+sz++:zsce2 31 Hình 3.9 Vận chuyên tối ưu trên hai phân phối pt và v [60] - -: 3Š 38 39 42 Hình 3.10 Giải thuật Sinkhorn cho bài toán vận chuyển tối ưu Hình 3.11 Mô tả quá trình tối ưu thông qua thuật toán Sinkhorn-Knopp [66] Hình 4.1 Mô hình đọc hiéu tự động dựa trên kiến trúc Transformer Hình 4.2 Mô hình suy luận ngôn ngữ tự nhiên dựa trên kiến trúc Transformer 43

Hình 4.3 Minh hoa cho mô hình đề xuất DA-KDOT 46

Hình 4.4 Quá trình huấn luyện mô hình trên ngôn ngữ tiếng Việt ¿ 50

Hình 4.5 Quá trình tính toán độ lỗi chat lọc tri thức -::-+ccccc2222v2212112112212222Ete 51 Hình 4.6 Quá trình tính toán độ lỗi tác vụ trên mô hình trò :-zc-s:zc 5 Í Hình 4.7 Quá trình huấn luyện mô hình trên ngôn ngữ tiếng Anh - Ø2 Hình 5.1 Phân bé độ dài câu hỏi trong tập dữ liệu UIT-ViQuAD - 36

Hình 5.2 Phân bố độ dài đoạn văn trong tập dit liệu UIT-ViQuAD 27

Hình 5.3 Ti lệ phan trăm theo từng loại câu hỏi 58

Hình 5.4 Phân bó độ dài câu tiền dé và giả thuyết trong tập dữ liệu ViNLI 61

Hình 5.5 Mô ta ma trận nhầm lẫn 64 Hình 5.6 Hiệu suất của mô hình theo độ dài câu hỏi trên tập dữ liệu UIT-ViQuAD 70

Hình 5.7 Hiệu suất của mô hình theo độ dài câu trả lời trên tập dữ liệu UIT-ViQuAD 71

Hình 5.8 Hiệu suất của mô hình theo độ dài đoạn văn trên tập dữ liệu UIT-ViQuAD 72 Hình 5.9 Hiệu suất của mô hình trên các khoảng Jaccard khác nhau với bộ dữ liệu ViNLI

73

Hình 5.10 Hiệu suất của mô hình trò và thầy tương ứng trên tập dữ liệu UIT-ViQuAD

(Exact-Match).

Trang 9

DANH MỤC CÁC HÌNH VẼ, ĐỎ THỊ

Hình 5.11 Hiệu suất của mô hình trò và thầy tương ứng trên tập dữ liệu ViNLI

(ÁCCUTACY) ST HH HH HH0 HH0 00 10 10t 74

Trang 10

TÓM TẮT

TÓM TÁT Trong những năm gần đây, sự xuất hiện của những mô hình đa ngôn ngữ huấn

luyện trước đã mang lại kết quả ấn tượng trên hầu hết các tác vụ xử lý ngôn ngữ tự nhiên, đặc biệt là những ngôn ngữ có lượng tài nguyên ít Tuy nhiên hiệu suất của mô

hình đa ngôn ngữ giảm khi số lượng ngôn ngữ cần biểu diễn tăng lên Điều này đã dẫn đến việc xây dựng các mô hình đơn ngôn ngữ, trong đó các mô hình được huấn

luyện trước trên một lượng lớn dữ liệu từ một ngôn ngữ duy nhất Các mô hình đơn ngôn ngữ thường có hiệu suất vượt trội hơn do tất cả trọng số của mô hình chỉ dùng

để biểu diễn một ngôn ngữ duy nhất Mặc dù vậy, so với việc dựa vào nhiều mô hình

cho các ngôn ngữ khác nhau thì việc tận dụng một mô hình dé biéu diễn nhiều ngôn ngữ mang lại lợi thế nhất định Mô hình có khả năng tổng quát hoá trên nhiều ngôn

ngữ khác nhau và đặc biệt, hiệu suất trên ngôn ngữ ít tài nguyên có thể được cải thiện

do tận dụng được những tri thức từ những ngôn ngữ giàu tài nguyên khác.

Đề kết hợp những ưu điểm của cả mô hình đa ngôn ngữ và đơn ngôn ngữ, học viên đề xuất kỹ thuật DA-KDOT - một kỹ thuật tận dụng các tri thức có trong mô

hình đơn ngôn ngữ và chuyền giao sang mô hình đa ngôn ngữ với mục đích cải tiến

khả năng diễn dat đầu vào cho tiếng Việt Trong kỹ thuật này, học viên sử dụng hướng tiếp cận chat lọc tri thức với kiến trúc thay — trò, trong đó tri thức từ hai mô hình đơn

ngôn ngữ (mô hình thầy) được chuyên giao sang mô hình đa ngôn ngữ (mô hình trò) thông qua một hàm mất mát Do đặc trưng của mô hình thầy va trò nằm trên các

không gian ngữ nghĩa khác nhau và việc áp dụng trực tiếp kỹ thuật chat lọc tri thức

là điều không khả thi, học viên đề xuất sử dụng kỹ thuật vận chuyền tối ưu để đo

lường sự khác biệt giữa các phân phối trên hai không gian này Học viên tiến hành

thử nghiệm trên hai tác vụ hiểu ngôn ngữ tự nhiên tiếng Việt là đọc hiểu tự động và suy luận ngôn ngữ tự nhiên Kết quả thử nghiệm cho thay mô hình đề xuất có kết quả

tốt hơn và có những cải tiễn đáng ké so với các mô hình khác Dé hiểu rõ hơn về các yếu tố ảnh hưởng đến hiệu suất của mô hình, học viên tiến hành phân tích kết quả

theo các khía cạnh khác nhau.

Trang 11

MO DAU

Đặt vấn đề:

Hiểu ngôn ngữ tự nhiên (Natural Language Understanding — NLU) là một khía

cạnh quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing

— NLP), tập trung vào cải thiện khả năng của máy tinh trong việc hiểu và diễn giải ngôn ngữ của con người Trong những năm gần đây, với sự ra đời và phát triển của

mạng Transformers mô hình ngôn ngữ được huấn luyện trước (Pre-trained Language Model), nhiều nghiên cứu khoa học đã được công bố và đạt được những bước cải tiến

lớn về hiệu suất trên các tác vụ về NLU Thông qua quá trình huấn luyện trước trên

một lượng lớn dữ liệu, mô hình có khả năng khai thác các đặc trưng về cầu trúc cũng như ngữ nghĩa của ngôn ngữ, cho phép chúng tạo ra các phản hồi chính xác dựa trên

dữ liệu đầu vào Các mô hình huấn luyện trước là một trong những yếu tố quan trọng dẫn đến sự phát triển vượt bậc trên nhiều bài toán NLP khác nhau như dịch máy, đọc

hiểu tự động, phân tích cảm xúc

Hiện nay, các công trình nghiên cứu chủ yếu tập trung vào xây dựng mô hình

ngôn ngữ huấn luyện trước trên các ngôn ngữ giàu tài nguyên với lượng dữ liệu khổng

lồ Các mô hình được huấn luyện trên một ngôn ngữ duy nhất (mô hình đơn ngôn ngữ) có khả năng khả năng nắm bắt các thông tin và đặc trưng khác nhau cho ngôn

ngữ đó Đối với các ngôn ngữ ít tài nguyên hơn, mô hình huấn luyện trước không được tối ưu tốt đo lượng dữ liệu cho quá trình huấn luyện khan hiếm và quá trình thu

thập dữ liệu không phải lúc nào cũng khả thi Sự xuất hiện của mô hình đa ngôn ngữ

đã giải quyết được vấn đề trên Mô hình đa ngôn ngữ mở rộng khả năng biểu diễn

của mô hình trên nhiều ngôn ngữ khác nhau, tạo điều kiện cho việc chuyền giao và

trao đồi tri thức giữa các ngôn ngữ với nhau, điều này dẫn đến hiệu suất trên các tác

vụ về NLU được cải thiện đáng kể, đặc biệt là trên các ngôn ngữ ít tài nguyên Mô

hình đa ngôn ngữ phần nào giải quyết được vấn đề khan hiếm dữ liệu trên các ngôn ngữ ít tài nguyên thông qua việc chia sẻ tri thức dựa vào học cách biểu diễn thống

nhất cho nhiều ngôn ngữ khác nhau.

Bằng việc khảo sát và phân tích kết quả nghiên cứu của các công trình khoa

học được công bố, học viên nhận thấy mô hình đa ngôn ngữ có một nhược điểm: hiệu

Trang 12

Đề tài “Cải tiến mô hình đa ngôn ngữ cho các tác vụ hiểu ngôn ngữ tự nhiên

tiếng Việt” của học viên dưới sự hướng dẫn của PGS.TS Nguyễn Lưu Thùy Ngân hướng tới việc cải thiện hiệu suất của mô hình đa ngôn ngữ trên tiếng Việt cho các

tác vụ NLU, cụ thể là hai bài toán đọc hiểu tự động và suy luận ngôn ngữ tự nhiên Học viên hướng tới hai mục tiêu chính Thứ nhất, học viên đề xuất ý tưởng cải thiện

khả năng biểu dién của mô hình đa ngôn ngữ trên tiếng Việt, từ đó nâng cao hiệu suất

trên các tác vụ NLU Thứ hai, luận văn trình bày các thử nghiệm, phân tích sự ảnh

hưởng của các thành phần trong mô hình đối với hiệu suất trên hai tác vụ đọc hiểu tự

động và suy luận ngôn ngữ tự nhiên dé hiểu rõ ưu, nhược điểm của từng phương

pháp.

Đối tượng:

Mô hình đa ngôn ngữ và bài toán hiểu ngôn ngữ tự nhiên tiếng Việt.

Pham vi nghiên cứu:

Phạm vi nghiên cứu của đề tài tập trung chủ yếu vào cải tiến mô hình đa ngôn ngữ

trên các tác vụ hiểu ngôn ngữ tự nhiên tiếng Việt Về giới hạn nghiên cứu, học viên

tập trung vào ba nội dung chính sau:

+ Nghiên cứu các hướng tiếp cận và cách xử lý cho các tác vụ NLU Luận

văn này tập trung nghiên cứu và thử nghiệm một số mô hình tiêu biểu giải quyết các tác vụ NLU, cụ thể là tác vụ đọc hiểu tự động và tác vụ suy luận

ngôn ngữ tự nhiên, để xác định hướng tiếp cận phủ hợp cho tiếng Việt.

+ Dé xuất, cài đặt thử nghiệm phương pháp cải thiện mô hình đa ngôn ngữ

trên tiếng Việt Trong luận văn này học viên dé xuất phương pháp cải thiện

mô hình đa ngôn ngữ từ những mô hình đơn ngôn ngữ khác dựa trên ý tưởng

sử dụng kỹ thuật chắt lọc tri thức (Knowledge Distillation) và vận chuyển tối

Trang 13

trên dữ liệu được gán nhãn và các đặc trưng từ mô hình đơn ngôn ngữ khác.

+ _ Đánh giá và phân tích kết quả mô hình đề xuất Học viên tiến hành đánh

giá hiệu suất của mô hình trên các bộ dé liệu hiểu ngôn ngữ tự nhiên tiếng

Việt khác nhau cũng như thực hiện việc so sánh kết quả thông qua việc sử dụng các độ đo phù hợp với từng tác vụ Đồng thời, học viên cũng đi sâu vào

phân tích kết quả của mô hình để rút ra những điểm mạnh và điểm yếu cũng

như hành vi của mô hình trong các trường hợp khác nhau.

Kết quả nghiên cứu:

Nghiên cứu của học viên đạt được những kết quả sau:

e Nghiên cứu các hướng tiếp cận và phương pháp cho bài toán NLU: Kết

quả thử nghiệm, phân tích, đánh giá một số phương pháp và mô hình tiên tiến hiện nay cho bài toán NLU tiếng Việt.

e Dé xuất một thuật toán cải tiến mô hình đa ngôn ngữ: Mô hình đa ngôn

ngữ cải tiến dựa trên sự kết hợp sử dụng hai kỹ thuật là chat lọc tri thức và vận chuyển tối ưu Thông qua các việc tiến hành các thử nghiệm, đánh giá và phân

tích kết quả trên hai bài toán đọc hiểu tự động và suy luận ngôn ngữ tự nhiên, học viên đã chứng minh được hiệu quả của phương pháp dé xuất trên mô hình

đa ngôn ngữ.

Trang 14

TONG QUAN

CHUONG 1 TONG QUAN

Trong chương này học viên giới thiệu tổng quan về mô hình ngôn ngữ huấn luyện trước, tầm quan trọng của chúng với các tác vụ NLP hiện tại cũng như là các

van dé mà mô hình ngôn ngữ phải đối mặt trong việc xử lý những ngôn ngữ ít tài

nguyên như tiếng Việt.

1.1 Bài toán hiểu ngôn ngữ tự nhiên

Hiểu ngôn ngữ tự nhiên là nghiên cứu hướng tới việc làm cho máy tính hiểu

và xử lý ngôn ngữ của con người một cách hiệu quả nhất Đây là vấn đề quan trọng

và nhận được rất nhiều sự quan tâm của các nhà nghiên cứu trong lĩnh vực NLP Trong những năm gan đây, nhờ vào những tiến bộ trong lĩnh vực máy học, đặc biệt

là học sâu, các nghiên cứu trên NLU đã đạt được nhiều thành tựu nhất định trên các

tác vụ khác nhau như phân tích cảm xúc, dịch máy, đọc hiểu tự động hay suy luận ngôn ngữ tự nhiên Các tác vụ chính trong NLU hướng tới việc hiểu, diễn giải và

phân tích ngôn ngữ của con người dưới đạng văn bản hoặc âm thanh đề đưa ra các

dự đoán chính xác.

Đối với con người, việc tiếp nhận và xử lý thông tin dưới dạng văn bản hoặc

âm thanh là điều dé dàng bởi vì con người có nhận thức và hiểu biết về ngôn ngữ bao

gồm các kiến thức về từ vựng và ngữ pháp Chính vì thế, con người có khả năng sử dụng kiến thức đã tích lũy và các thông tin từ ngữ cảnh để giải thích ý nghĩa của các

thông tin được tiếp nhận Khác với con người, máy tính biểu diễn tat cả các thông tin

đầu vào dưới dạng nhị phân nên khả năng hiểu và xử lý ngôn ngữ của máy tính phụ thuộc nhiều vào các thuật toán và các mô hình máy học Việc xây dựng mô hình máy

học đề hiểu ngôn ngữ tự nhiên đối mặt với một số khó khăn và thử thách chang hạn như: tính mơ hồ, tinh da dạng, ngữ cảnh của thông tin được tiếp nhận, Tầm quan

trọng của NLU đã được chứng minh qua các nghiên cứu khoa học từ trước đến nay, nhắm tới việc thu hẹp khoảng cách giao tiếp giữa con người và máy tính, giúp máy

tính có thể hiểu và phản hồi ngôn ngữ tự nhiên một cách hiệu quả nhất NLU xuất

hiện trong rất nhiều ứng dụng phục vụ con người bao gồm trợ lý ảo, các hệ thống dịch thuật, hệ thống rút trích thông tin, Luận văn tập trung vào hai tác vụ chính của

Trang 15

TONG QUAN

NLU bao gồm đọc hiểu tự động và suy luận ngôn ngữ tự nhiên Day là hai tác vụ

quan trọng, được áp dụng nhiều trong thực tế, đặc biệt là các hệ thống hỏi đáp và truy

bao gồm một đoạn văn bản (context) và câu hỏi có liên quan (query) Mô hình MRC

có nhiệm vụ phân tích và tìm ra câu trả lời là một chuỗi các ký tự xuất hiện trong đoạn văn đầu vào Đây là một tác vụ khó, đòi hỏi mô hình phải có khả năng suy luận

và hiểu ngôn ngữ tự nhiên dé tìm ra câu trả lời chính xác Mô hình MRC là một trong những thành phan quan trọng và quyết định đến hiệu suất của các hệ thống hỏi đáp

tự động và truy van thông tin.

Gan đây, hiệu suất của các mô hình MRC có sự cải tiễn đáng kể so với các mô

hình truyền thống trước đó Sự phát triển của máy học và học sâu, đặc biệt là các mô

hình Transformers được huấn luyện trước trên lượng dữ liệu khổng lồ đã cho thấy khả năng nắm bắt thông tin quan trọng về ngữ cảnh của văn bản đầu vào, từ đó thực

hiện suy luận dé tìm ra câu trả lời thích hợp Bên cạnh đó, rất nhiều bộ dữ liệu từ các ngôn ngữ và miền khác nhau được gán nhãn với kích thước lớn và đa dạng đã được

công bố, từ đó tạo điều kiện thuận lợi cho việc huấn luyện và xây dựng các mô hình

MRC Nhiều cải tiến trên mô hình MRC đã được đề xuất và áp dụng, hiệu suất của

mô hình nhờ vào đó được nâng cao.

1.1.2 Suy luận ngôn ngữ tự nhiên

Suy luận ngôn ngữ tự nhiên (Natural Language Inference — NLI) là bài toán

xác định mối quan hệ logic giữa hai câu văn cho trước, trong đó một câu được xác định là “giả thuyết” và câu còn lại là “tiền đề” Nhiệm vụ chính của bài toán NLI đó

chính là xác định mối quan hệ logic giữa hai câu này, có thể là “kéo theo”, “mâu

thuẫn” hay “trung tính” NLI là một trong những tác vụ quan trọng của NLP, liên

Trang 16

hay ý nghĩa của câu dựa trên ngữ cảnh khác nhau Với sự phát triển của lĩnh vực NLP,

đặc biệt là các mô hình học sâu và các bộ dữ liệu mới ra đời, NLI đã có những bước

tiến đáng ké trong những năm gần đây Điều này hướng tới mục tiêu chung đó chính

là cải thiện khả năng suy luận và xử lý ngôn ngữ tự nhiên của máy tính.

1.2 Mô hình ngôn ngữ huấn luyện trước trên các tác vụ NLU

Gần đây, sự xuất hiện của mạng Transformers và các mô hình ngôn ngữ huấn luyện trước (Pre-trained Language Model — PLM) đã tạo ra bước đột phá đáng kể

trong lĩnh vực NLP nói chung và NLU nói riêng PLM được huấn luyện trên một

lượng lớn di liệu văn ban và sau đó thực hiện việc tinh chỉnh trên các tac vụ NLP.

Rất nhiều nghiên cứu đã được tiến hành và đã đạt được kết quả tốt trên nhiều tác vụ,

ngay cả trong khi tồn tại rat ít dữ liệu gán nhãn Nhiều mô hình đã được công bố trên các ngôn ngữ giàu tài nguyên như tiếng Anh, tiếng Trung, tiếng Nhật, và chúng

được huấn luyện với lượng dữ liệu khổng lồ và đa dạng đến từ nhiều miền khác nhau Bên cạnh đó, sự xuất hiện mô hình đa ngôn ngữ cũng đã góp phần không nhỏ vào sự

phát triển và nghiên cứu NLP, đặc biệt là trên các ngôn ngữ ít tài nguyên Khác với

mô hình đơn ngôn ngữ chỉ được huấn luyện trên một ngôn ngữ duy nhất, mô hình đa

ngôn ngữ được huấn luyện đồng thời trên nhiều ngôn ngữ khác nhau, cho phép chúng

tận dụng sự tương đồng giữa các ngôn ngữ và chuyên giao tri thức giữa các ngôn ngữ với nhau [2] Một sé mô hình nồi bật như mBERT [3], XLM [4], XLM-R [5] mở rộng

khả năng xử lý của mô hình lên hàng trăm ngôn ngữ thông qua việc học và đạt được

sự tổng quát hoá trên bộ dữ liệu đa ngôn ngữ Hiệu suất trên các tác vụ NLP được cải

thiện đáng kể, đặc biệt là trên các ngôn ngữ có lượng tài nguyên hạn chế Tuy nhiên

mô hình đa ngôn ngữ lại có một nhược điểm đó chính là hiệu suất trên các tác vụ

Trang 17

TONG QUAN

NLP giảm khi chúng ta thêm nhiều ngôn ngữ trong quá trình huấn luyện trước, đặc

biệt là trên các ngôn ngữ ít tài nguyên Trong một nghiên cứu của Conneau và cộng

sự [4], nhóm tác giả thử nghiệm với việc xây dựng mô hình đa ngôn ngữ XLM-R với

số lượng ngôn ngữ và kích thước dữ liệu trong quá trình huấn luyện trước khác nhau.

Nhóm tác giả đã chỉ ra rằng các yếu tố có ảnh hưởng lớn đến hiệu suất trên các tác

vụ bao gồm kích thước batch, kích thước dữ liệu huấn luyện và tập từ điển được chia

sẻ giữa các ngôn ngữ với nhau Bên cạnh đó, khi tiến hành thử nghiệm trên tác vụ NLI với bộ dit liệu XNLI, tác giả đã quan sát thấy rằng việc mở rộng mô hình đa

ngôn ngữ sang nhiều ngôn ngữ khác nhau chỉ làm tăng hiệu suất của mô hình đến

một điểm nhất định và sau đó hiệu suất trên các vụ sẽ giảm đi đáng kẻ.

80

Accuracy Bn aN© C

7 15 30 60 100 Number of languages

— Low res lf High res Oo All

Hình 1.1 Hiệu suất của mô hình đa ngôn ngữ XLM-R trên bộ dữ liệu XNLI.

Nguyên nhân chính dẫn đến tình trạng này là do số lượng trọng số trong mô

hình là có hạn, việc thêm càng nhiều ngôn ngữ trong quá trình huấn luyện trước dẫn tới giảm lượng trọng số của mô hình trên mỗi ngôn ngữ, khiến cho các biểu diễn đầu

vào từ mô hình không hiệu quả và ảnh hưởng đến hiệu suất chung trên các tác vụ

NLP Vấn đề này ảnh hưởng rõ rệt trên các ngôn ngữ ít tài nguyên, vốn có lượng dữ liệu hạn chế Việc giải quyết vấn đề của mô hình đa ngôn ngữ cải thiện được kết quả

trên các tác vụ NLP, đặc biệt là tác động hiệu quả của mô hình đối với ngôn ngữ ít

Trang 18

TONG QUAN

tài nguyên như tiếng Việt Các hướng tiếp cận khi xây dung mô hình da ngôn ngữ sé

cố gắng cân bằng giữa lượng ngôn ngữ có thể xử lý và số lượng trọng số của mô hình.

Gan đây, đề giải quyết van đề trên, nhiều nghiên cứu tập trung vào phát trién các mô hình đơn ngôn ngữ Các mô hình này có khả năng biéu diễn đầu vào tốt hơn do dung

lượng của chúng được sử dụng để biểu diễn và rút trích các đặc trưng trên một ngôn ngữ duy nhất Tuy nhiên việc xây dựng nhiều mô hình huấn luyện trước trên các ngôn

ngữ khác nhau không phải lúc nào cũng kha thi, đặc biệt là trên các ngôn ngữ it tài

nguyên do vấn đề khan hiếm dit liệu Bên cạnh đó, ta không thể tận dụng được tính

đa ngôn ngữ trong việc áp dụng mô hình huấn luyện trước trên các bài toán NLP,

chang hạn như khả năng chuyển tiếp tri thức giữa các ngôn ngữ với nhau

(cross-lingual knowledge transfer) [6].

Trong luận văn này, học viên hướng tới cải thiện mô hình đa ngôn ngữ cho

các tác vụ hiéu ngôn ngữ tự nhiên tiếng Việt, cụ thé là hai tác vụ chính: MRC và NLI.

Học viên dé xuất phương pháp kết hợp điểm mạnh của ca hai hướng tiếp cận trong việc xây dựng mô hình ngôn ngữ dé giải quyết van đề trên mô hình đa ngôn ngữ Học

viên sử dung kỹ thuật chất lọc tri thức (Knowledge distillation) dựa vào vận chuyền

tối ưu (Optimal Transport) đề chuyền giao tri thức từ các mô hình đơn ngôn ngữ qua

mô hình đa ngôn ngữ, giúp cải thiện khả năng biểu diễn ngôn ngữ của mô hình trên

tiếng Việt, thông qua đó, hiệu suất trên các tác vụ NLU được nâng cao Các kết quả thử nghiệm được phân tích và đánh giá dé chứng minh khả năng hoạt động của mô

hình dé xuất Luận văn này đóng góp vào việc giải quyết một số vấn đề còn ton tại trên mô hình đa ngôn ngữ và thúc đây các nghiên cứu về ngôn ngữ có ít tài nguyên

như tiếng Việt.

Trang 19

CÁC CÔNG TRÌNH LIÊN QUAN

CHƯƠNG2_ CÁC CÔNG TRÌNH LIÊN QUAN

Hiểu ngôn ngữ tự nhiên là một trong những hướng nghiên cứu quan trọng trong NLP nói riêng và trí tuệ nhân tạo nói chung Đây là một hướng nghiên cứu hấp

dẫn, thu hút được nhiều sự quan tâm của các nhà nghiên cứu trong nước và trên thế

giới Rất nhiều bộ dữ liệu về NLU đã được công bồ dé huấn luyện và kiểm tra hiệu suất của các mô hình máy học, cho phép chúng ta lựa chọn hướng tiếp cận phù hợp

để giải quyết cho từng van đề Bên cạnh đó, với sự xuất hiện và áp dụng rộng rãi của các mô hình ngôn ngữ được huấn luyện trước, nhiều công trình khoa học đã được

công bó dẫn đến sự cải thiện đáng kể về hiệu suất cũng như tốc độ trên các tác vụ về NLU Chương 2 trình bày những nghiên cứu có liên quan bao gồm một số bộ dữ liệu

tiêu biểu trên tac vụ NLU, các hướng tiếp cận và cách giải quyết van dé trên mô hình

đa ngôn ngữ.

2.1 Các bộ dữ liệu có liên quan

Lịch sử của NLU bắt đầu từ những năm 1960 với ý tưởng ban đầu là tạo ra những

cỗ máy có khả năng hiểu ngôn ngữ tự nhiên và tương tác với con người [7] Các hệ

thống ban đầu được phát triển dựa vào các tập luật và hệ chuyên gia, nhưng những

hệ thống này còn nhiều hạn chế do sự phức tap của ngôn ngữ con người [8] Ké từ đó

đến nay, chúng ta đã chứng kiến được những bước phát triển đột phá trong lĩnh vực NLU, hàng loạt các mô hình và hướng tiếp cận đã được đề xuất trên nhiều tác vụ liên

quan Ngoài những tiến bộ đạt được trong lĩnh vực trí tuệ nhân tạo, các bộ dữ liệu

được công bé đã đóng một vai trò quan trọng trong sự phát triển của NLU Sự xuất hiện của các bộ dữ liệu đã tạo điều kiện để phát triển và đánh giá các mô hình máy

học trên các tác vụ NLU như đọc hiểu tự động, suy luận ngôn ngữ tự nhiên hay phân tích cảm xúc Với mục tiêu hiểu rõ hơn về các bộ dữ liệu được sử dụng cho các tác

vụ NLU, trong phần này, học viên cung cấp một cái nhìn tổng quan toàn diện về các

bộ dữ liệu này trên tiếng Anh và một số ngôn ngữ khác, đặc biệt là trên hai tác vụ

chính: MRC và NLI.

Trang 20

2.1.1 Bộ dữ liệu đọc hiểu tự động trên các ngôn ngữ pho biến

Stanford Question Answering Dataset (SQuAD) [9] là bộ dữ liệu đọc hiểu tự động trên tiếng Anh với kích thước lớn được thiết kế dé kiểm tra khả năng đọc

và trả lời câu hỏi của máy tính về một đoạn văn bản nhất đ ¡nh Bộ đữ liệu được

thu thập từ hơn 500 bài viết trên Wikipedia, bao gồm khoảng 100,000 câu hỏi

và câu trả lời tương ứng SQuAD được sử dụng dé huấn luyện và đánh giá các

mô hình máy học, đặc biệt là các mô hình học sâu Đây được xem như là một

trong những bộ dữ liệu điểm chuẩn (benchmark) dé đánh giá tiễn độ trong lĩnh

vực NLU.

NewsQA [10] là một bộ dữ liệu có kích thước lớn được thiết kế cho nhiệm vụ

đọc hiểu tự động, bao gồm hơn 100,000 cặp câu hỏi và câu trả lời được rút

trích ra từ 10,000 bài báo trên tiếng Anh Bộ dữ liệu NewsQA được tạo ra với mục tiêu là nâng cao khả năng hiểu văn bản tự nhiên thông qua việc xử lý ngôn

ngữ của các mô hình máy học NewsQA được thiết kế theo hướng yêu cầu mô

hình phải có khả năng suy luận, diễn giải, tổng hợp các thông tin khác nhau để

đưa ra câu trả lời đúng Đây được xem như là một thách thức trong việc xây dựng các mô hình MRC hiệu quả.

Delta Reading Comprehension Dataset (DCRD) [11] là bộ đữ liệu trên tiếng Trung cho tác vụ MRC, bao gồm hơn 30,000 câu hỏi và câu trả lời được gán

nhãn trên các bài đăng thu thập từ Wikipedia Các câu hỏi được chia ra làm

bảy dạng, tập trung vào truy vấn các thông tin về thực thể hoặc mô tả Bộ dữ

liệu bổ sung sự đa dạng về mặt ngôn ngữ, góp phan thúc day việc nghiên cứu NLU cho các ngôn ngữ khác ngoài tiếng Anh.

Stanford Question Answering Dataset - Spanish (SQuAD-es) [12] là một bộ

dữ liệu MRC trên tiếng Tây Ban Nha SQuAD-es có kích thước hơn 80,000 mẫu, bao gồm các cặp câu hỏi và câu trả lời được dịch từ bộ dữ liệu SQuAD

từ tiếng Anh sang tiếng Tây Ban Nha Tác giả đã đề xuất một phương pháp

xây dựng một bộ dữ liệu trên một ngôn ngữ mới từ một bộ dữ liệu sẵn có trên ngôn ngữ gốc thông qua dịch máy và căn chỉnh từ (word-alignment) Phương pháp đề xuất của tác giả giúp cho việc xây dựng các bộ dữ liệu về MRC trên

Trang 21

2.1.2

2.1.3

các ngôn ngữ khác trở nên dé dàng hơn đặc biệt là cho các ngôn ngữ it tài

nguyên.

MultiLingual Question Answering (MLQA) [13] là một bộ dữ liệu để đánh

giá hiệu suất của các mô hình MRC đa ngôn ngữ, được giới thiệu bởi Facebook

AI Research bằng cách dịch bộ đữ liệu SQuAD trên tiếng Anh sang 6 ngôn ngữ khác bao gồm Tiếng Ả Rập, tiếng Đức, tiếng Tây Ban Nha, tiếng Hindi,

tiếng Việt và tiếng Trung giản thể Đặc trưng của bộ dữ liệu là tính đa ngôn

ngữ, hướng tới phát triển các mô hình đa ngôn ngữ có khả năng trả lời các câu hỏi trên những ngôn ngữ khác nhau Đây là một trong những vấn đề thách thức

trong lĩnh vực NLU bởi nó yêu cầu mô hình phải có khả năng hiểu ý nghĩa của văn bản đầu vào và trả lời câu hỏi bằng các ngôn ngữ khác nhau mà không cần

dùng dữ liệu hoặc cần dùng rất ít dữ liệu huấn luyện cụ thể trên ngôn ngữ đó.

Bộ dữ liệu đọc hiểu tự động trên tiếng Việt

Vietnamese Question Answering Dataset (UIT-ViQuAD) [14] là một bộ dữ

liệu được tạo ra để phục vụ nghiên cứu tác vụ đọc hiểu tự động trên tiếng Việt.

Bộ đữ liệu bao gồm hơn 23,000 cặp câu hỏi và câu trả lời được gán nhãn dựa

trên 5,109 đoạn văn từ các bài đăng trên Wikipedia UIT-ViQuAD được thiết

kế theo hướng yêu cầu khả năng suy luận, tổng hợp các thông tin từ đầu vào

của mô hình Đây là một trong những bộ dữ liệu có ý nghĩa lớn trong việc thúc

đây quá trình nghiên cứu bài toán hỏi đáp tự động trên các ngôn ngữ ít tài

nguyên như tiếng Việt.

Vietnamese Corpus for Machine Reading Comprehension of Health News

Articles (UIT-ViNewsQA) [15] là một bộ dữ liệu về đọc hiểu tự động trên lĩnh

vực y tế trên tiếng Việt Bộ dữ liệu có kích thước là hơn 22,000 cặp câu hỏi và câu trả lời được thu thập từ các bài báo trên mạng về lĩnh vực y tế, trong đó

người gán nhãn hỏi và trả lời các câu hỏi liên quan đến bài báo.

Suy luận ngôn ngữ tự nhiên cho các ngôn ngữ phổ biến Stanford Natural Language Inference (SNLI) [16] là một bộ dữ liệu trên tiếng Anh bao gồm hơn 570,000 cặp câu tiền đề - giả thuyết được gán nhãn theo 3

Trang 22

lớp đó chính là “kéo theo”, “mau thuẫn” hoặc “trung tính” Các câu tiền đề là

các chú thích hình ảnh được lấy từ bộ dữ liệu Flickr30k, trong khi đó các câu

giả thuyết tương ứng do người gan nhãn tạo ra dé thé hiện mối quan hệ giữa hai câu Day là một trong những bộ dif liệu về suy luận ngôn ngữ tự nhiên có

kích thước lớn, được sử dụng rộng rãi để đánh giá hiệu suất trên các mô hình

máy học, đặc biệt là các mô hình học sâu.

e Multi-Genre Natural Language Inference (MNLI) [17] là một bộ dữ liệu NLI

được thu thập va gan nhãn tương tự như SNLI Kích thước của bộ dữ liệu là

hơn 400,000 cặp câu bao gồm hon 10 thể loại văn bản khác nhau, thé hiện

được tính đa dạng mà con người sử dụng trong giao tiếp Cùng với SNLI, MNLI được sử dụng rộng rãi và đóng góp một phan quan trong trong lĩnh vực

nghiên cứu NLU.

e Original Chinese Natural Language Inference (OCNLI) [18] là bộ dữ liệu suy

luận ngôn ngữ tự nhiên thuộc bộ ngữ liệu điểm chuẩn (benchmark) CLUE: A

Chinese Language Understanding Evaluation Benchmark [19] trén tiéng Trung, bao gồm 56,000 cặp câu được gan nhãn Cách OCNLI được xây dựng

tương tự như bộ dữ liệu MNLI, nhưng hướng đến việc tạo ra những câu giả thuyết đa dạng hơn, yêu cầu mô hình máy học phải có khả năng hiểu và suy

luận sâu sắc hơn Việc OCNLI được công bố tạo điều kiện thuận lợi và thúc đây việc nghiên cứu bai toán NLI trên các ngôn ngữ khác ngoài tiếng Anh.

¢ Cross-lingual Natural Language Inference (XNLI) [20] là bộ dữ liệu điểm

chuẩn cho các tác vụ suy luận ngôn ngữ tự nhiên trên nhiều ngôn ngữ Được phát triển bởi Facebook AI Research, XNLI là một phiên bản mở rộng của

MNLI, bao gồm các cặp câu giả thuyết - tiền đề được dịch từ tiếng Anh sang

14 thứ tiếng khác XNLI được xây dựng để đánh giá khả năng đa ngôn ngữ

của mô hình, trong đó tiếng Anh được sử dụng làm bộ dữ liệu huấn luyện và

mô hình phải thực hiện việc đánh giá trên các ngôn ngữ khác Đây là một

hướng nghiên cứu có ý nghĩa thực tiễn rất lớn, đặc biệt đối với các ngôn ngữ

mà có lượng tài nguyên hạn chế.

Trang 23

2.1.4 Bộ dữ liệu suy luận ngôn ngữ tự nhiên cho tiếng Việt

Vietnamese Natural Language Inference (ViNLI) [21] là một bộ dữ liệu phục

vụ cho nghiên cứu bài toán suy luận ngôn ngữ tự nhiên cho tiếng Việt ViNLI bao gồm hơn 30,000 cặp câu tiền dé - giả thuyết được thu thập và gan nhãn từ

các bài báo trên 13 chủ đề khác nhau Tác giả đề xuất một quy trình gán nhãn bao gồm nhiều bước khác nhau đề đảm bảo chất lượng của bộ dữ liệu.

'VnNewsNLI [22] là bộ dữ liệu suy luận ngôn ngữ tự nhiên cho tiếng Việt, bao gồm các cặp giả thuyết - tiền đề được thu thập từ các bài báo Tác giả đề xuất một phương pháp xây dựng bộ dữ liệu suy luận ngôn ngữ tự nhiên nhằm tăng

cường chất lượng của bộ dữ liệu.

VLSP 2021 Shared Task - Textual Entailment [23] là bộ dữ liệu được sử dụng

cho cuộc thi VLSP Shared Task 2021 trên tác vụ NLI — xác định mối quan hệ

logic giữa hai văn bản đầu vào Bộ dữ liệu có kích thước là hơn 16,000 câu song ngữ Việt-Anh bao gồm ba nhãn chính: “đồng ý”, “không đồng ý” và

“trung tính” Day là một bộ dữ liệu góp phan thúc đây và phát triển việc nghiên

cứu các mô hình đa ngôn ngữ cũng như tính ứng dụng của NLI trong các bài

toán thực tế.

2.2 Các hướng tiếp cận có liên quan

Mô hình đa ngôn ngữ huấn luyện trước là một tiến bộ vượt bậc trong lĩnh vực

trí tuệ nhân tạo nói chung và xử lý ngôn ngữ tự nhiên nói riêng, đặc biệt là khả năng

xử lý trên nhiều ngôn ngữ cùng lúc Các mô hình đa ngôn ngữ sử dụng các kiến trúc

phức tạp, kết hợp với số lượng trọng số lớn và được huấn luyện trên các bộ dữ liệu được xây dung từ nhiều ngôn ngữ khác nhau Mô hình đa ngôn ngữ đã thé hiện hiệu

suất tốt và khả năng đa ngôn ngữ của chúng trên một các tác vụ NLP, đặc biệt là trên

các ngôn ngữ ít tài nguyên [24, 25].

Tuy nhiên, mô hình đa ngôn ngữ có một nhược điểm lớn đó chính là số lượng

ngôn ngữ mà mô hình phải xử lý ảnh hưởng đáng kê đến hiệu suất của nó Điều này xuất phát từ số lượng trong số hữu hạn của mô hình và sự mat cân bằng dữ liệu trong

quá trình huấn luyện Dé giải quyết van đề này, nhiều phương pháp và hướng giải

10

Trang 24

quyết đã được đề xuất nhằm khắc phục những hạn chế và nâng cao hiệu quả của mô

hình trong các nhiệm vụ xử lý ngôn ngữ tự nhiên đa ngôn ngữ.

Chit loc tri thức là kỹ thuật huấn luyện mạng nơ-ron, trong đó các tri thức từ một mô hình sẽ được chuyên giao sang mô hình khác thông qua việc sử dụng kiến

trúc mô hình thay - trò Trong quá trình huấn luyện, cơ chế này sẽ hướng dẫn mô

hình trò tận dụng hiệu quả các tri thức trong mô hình thầy, thông qua đó mô hình

trò có thể học được các thông tin hay đặc trưng hữu ích đề cải thiện kết quả của

mình Gần đây nhiều nghiên cứu hướng đến việc giải quyết vấn đề của mô hình đa

ngôn ngữ thông qua kỹ thuật chắt lọc tri thức.

Trong công trình MERGEDISTILL [26], tác giả đã đề xuất phương pháp dé cải tiến mô hình đa ngôn ngữ dé cải thiện hiệu suất trên ba tác vụ NLP đó chính là

nhận dạng tên thực thể, gán nhãn từ loại và đọc hiểu tự động Mô hình đề xuất tập

trung vào giải quyết van đề tối ưu hoá biểu diễn đầu vào trên mô hình đa ngôn ngữ

do dung lượng mô hình hạn chế và dữ liệu huấn luyện bị mắt cân bằng Mô hình đề xuất của các tác giả sử dụng sử dụng cơ chế chắt lọc tri thức với kiến trúc thầy - trò,

trong đó các tri thức được chắt lọc từ mô hình thầy và chuyền giao nó qua mô hình

trò, nhờ đó mô hình trò có thể được tổng quát hoá nhờ vào việc học các đặc trưng của

mô hình thay Tác giả tập trung vào hai hướng tiếp cận chính: chit lọc tri thức từ

nhiều mô hình đơn ngôn ngữ khác nhau và chuyển giao sang một mô hình đa ngôn ngữ; kết hợp nhiều mô hình đa ngôn ngữ khác nhau đề chuyền giao tri thức sang một

mô hình đa ngữ khác Kết qua thử nghiệm trên các tác vụ NLP đã chứng minh sự hiệu quả của phương pháp đề xuất.

Công trình của tác giả Ziqing Yang và cộng sự [27] đã đề xuất phương pháp

cải thiện hiệu suất của mô hình đa ngôn ngữ trên các tác vụ NLP học có giám sát và các tác vụ sử dụng cơ chế zero-shot learning Hai vấn đề trên mô hình đa ngôn ngữ

mà tác giả tập trung giải quyết là xung đột về gradient và dung lượng (số lượng trọng

số của mô hình) hạn chế khi biểu diễn nhiều ngôn ngữ, điều này khiến cho các mô

hình không được tối ưu và thường có hiệu suất thấp hơn các mô hình đơn ngôn ngữ.

Mô hình đề xuất sử dụng cơ chế chat lọc tri thức, trong đó nhiều mô hình thay là mô

hình đơn ngôn ngữ được chuyền giao tri thức sang một mô hình đa ngôn ngữ là trò.

11

Trang 25

Bên cạnh đó, tác giả đề xuất phương pháp gia tăng dung lượng của mô hình bằng

cách thêm các mô-đun cho từng ngôn ngữ biểu diễn Kết qua thử nghiệm được tiến

hành trên các tác vụ phân loại văn bản chứng minh được mô hình đề xuất cải thiện đáng kê hiệu suất của mô hình.

Công trình của Alan Ansell [28] và cộng sự, tác giả đã đề xuất phương pháp

xây dựng các mô hình đơn ngôn ngữ từ các mô hình đa ngôn ngữ Nhóm tác giả sử

dụng phương pháp chit lọc tri thức với kiến trúc mô hình thay và trò bao gồm hai giai đoạn (two-phase distillation) trong đó giai đoạn thứ nhất tập trung vào chat loc

các đặc trưng về ngôn ngữ; giai đoạn thứ hai tập trung vào tỉnh chỉnh mô hình và

chắt lọc các đặc trưng về tác vụ Tác giả đã chứng minh hiệu quả của phương pháp

đề xuất với việc thử nghiệm trên các bộ dữ liệu điểm chuẩn song ngữ thông qua hai

khía cạnh là hiệu suất mô hình và tài nguyên tính toán trên các tác vụ phân tích cú

pháp phụ thuộc, gán nhãn từ loại, suy luận ngôn ngữ tự nhiên, hỏi đáp tự động.

Gần đây, nhiều nghiên cứu tập trung vào cải thiện mô hình đa ngôn ngữ thông qua việc gia tăng trọng số của mô hình Cụ thể hơn, mô hình được tích hợp

với một mô-đun điều hợp ngôn ngữ (language-adapter) để thích ứng tốt hơn với các

tác vụ trong quá trình huấn luyện.

Trong công trình của Jonas và cộng sự [30], nhóm tác giả đã tích hợp một

mô-đun điều hợp ngôn ngữ vào mô hình đa ngôn ngữ để gia tăng dung lượng mô hình và giảm thiểu sự phụ thuộc của ngôn ngữ đầu vào trong quá trình huấn luyện trước và

tỉnh chỉnh mô hình Nhóm tác giả đã tiền hành thử nghiệm trên các bài toán suy luận ngôn ngữ tự nhiên, nhận dạng thực thể, hỏi đáp tự động trên các bộ dữ liệu thuộc các

ngôn ngữ khác nhau Kết quả cho thấy hiệu suất của mô hình đa ngôn ngữ được cải

thiện đáng kể.

Trong công trình của Ahmet Ustun và cộng sự [30], nhóm tác giả đã đề xuất phương pháp cải thiện mô hình đa ngôn ngữ thông qua việc gia tăng

dung lượng của mô hình Nhóm tác giả đã tích hợp mô-đun điều hợp ngôn

ngữ theo ngữ cảnh (contextual language adapters), trong đó các trong số của mô-đun điều hợp được điều chỉnh dựa trên thành phần nhúng ngôn ngữ

(language embedding) Các đặc trưng về mặt ngôn ngữ sẽ được tích hợp hiệu

12

Trang 26

quả vào mô hình đa ngôn ngữ trên các tác vụ như phân tích cú pháp, gán nhãn

từ loại hay nhận dạng tên thực thé Tuy nhiên, việc tích hợp các thành phần

khác vào mô hình đa ngôn ngữ đã gia tăng số lượng trọng s6 đáng kể cũng

như độ phức tạp của mô hình.

Trong công trình của Jonas Pfeiffer và cộng sự [31], tác giả tập trung

vào giải quyết vấn đề của mô hình đa ngôn ngữ trên các ngôn ngữ ít tài

nguyên Tác gia đã đề xuất phương pháp cho phép các mô hình có thé thích

ứng với ngôn ngữ và tác vụ mới thông qua việc tích hợp một bộ điều hợp

ngôn ngữ và một bộ điều hợp về tác vụ Hai mô-đun này hoạt động song song

và hỗ trợ cho nhau trong quá trình huấn luyện Tác giả đã chứng minh hiệu

quả của phương pháp trên các tác vụ như nhận dạng tên thực thể, luận lý phổ thông, và đọc hiểu tự động.

Bên cạnh đó, một số hướng tiếp cận khác cũng được dé xuất áp dung Trong

công trình của Phillip Rust và cộng sự, 2021 [29], nhóm tác giả đã tiến hành phân tích và đánh giá nhằm xác định các yếu tố tạo nên hiệu suất vượt trội của các mô hình

đơn ngữ so với các mô hình đa ngôn ngữ trên các tác vụ NLP Tác giả đã quan sát

thấy hai yếu tố ảnh hưởng đến hiệu suất của mô hình ngôn ngữ bao gồm lượng dữ

liệu huấn luyện và chất lượng của tập từ vựng Bên cạnh đó, tác giả cũng tiễn hành một số phương pháp tỉnh chỉnh tập từ vựng hiệu quả hơn dựa trên ba yếu tố: tỉ lệ từ

được phân đoạn, tỉ lệ từ nằm ngoài tập từ vựng và kích thước bộ dữ liệu huấn luyện.

Các thử nghiệm được tiến hành trên 9 ngôn ngữ va 5 tac vụ chứng minh được độ hiệu quả của phương pháp đề xuất trên mô hình đa ngôn ngữ.

13

Trang 27

Bảng 2.1 Khảo sát các phương pháp cải thiện mô hình đa ngôn ngữ hiện nay.

Công trình Phương pháp

Chắt lọc tri thức Gia tăng số lượng

trọng số

Simran Khanuja et al [26] M Mĩ

Ziqing Yang et al [27] Mi

Alan Ansell et al [28] Mĩ

Jonas et al [29] Mĩ

Ahmet Ustun [30] Mĩ

Jonas Pfeiffer et al [31]

Thông qua khảo sát các công trình nghiên cứu trên, học viên nhận thay các phương pháp đề xuất chủ yếu tập trung gia tăng sé lượng tham số và can thiệp vào

quá trình huấn luyện trước của mô hình Điều này là rất tốn kém về mặt chi phí và thường không khả thi khi lượng tài nguyên tính toán bị hạn chế Việc phân tích và

hiểu được tác động của vấn đề của mô hình đa ngôn ngữ ảnh hưởng như thế nào tới

hiệu suất và khả năng xử lý dữ liệu là điều quan trọng đề khai thác toàn bộ khả năng của mô hình Từ đây học viên đề xuất các hướng tiếp cận phù hợp đề hướng tới việc

cải thiện hiệu suất trên các tác vụ NLU trên tiếng Việt.

14

Trang 28

CƠ SỞ LÝ THUYET

CHƯƠNG 3 CƠ SỞ LÝ THUYET

Trong chương 3, học viên trình bày các kiến thức có liên quan đến kỹ thuật đề xuất về việc cải tiễn mô hình đa ngôn ngữ cho tiếng Việt Chương 3 đi sâu vào phân

tích ba nội dung chính: mô hình ngôn ngữ sử dụng kiến trúc Transformers, kỹ thuật

chắt lọc tri thức và kỹ thuật vận chuyền tối ưu Thông qua việc trình bày những nội dung nêu trên, học viên hướng tới xây dựng cơ sở lý thuyết cho kỹ thuật đề xuất, cũng

như là nền tảng cho các chương tiếp theo.

3.1 Mô hình ngôn ngữ sử dụng kiến trúc Transformers

Mô hình ngôn ngữ là một mô hình tính toán được sử dụng để xử lý đầu vào dưới dạng ngôn ngữ tự nhiên Nó phân tích dữ liệu văn bản để xây dựng và thiết lập

các quy tắc trong dữ liệu đầu vào, cho phép mô hình có thể đưa ra dự đoán Đây là

một trong những tác vụ cơ bản nhất và là chủ đề nghiên cứu quan trọng trong lĩnh vực NLP, được áp dụng vào nhiều bài toán và ứng dụng thực tiễn khác nhau như tạo

văn bản, dịch máy, nhận dạng giọng nói, hệ thống hỏi đáp,

Có hai cách tiếp cận chính để xây dựng ngôn ngữ đó chính là dựa vào phương

pháp thống kê và dựa vào mạng nơron nhân tạo Mô hình ngôn ngữ thống kê dựa trên phân tích một lượng lớn văn bản đề ước lượng phân bồ xác suất của các từ hoặc chuỗi

các từ [31] Cách tiếp cận này thường sử dụng n-gram bao gồm các chuỗi phần tử

liền kề nhau từ một văn bản Các mô hình thống kê ước lượng xác suất của các gram dựa trên tần suất xuất hiện của chúng trong dữ liệu huấn luyện Hướng tiếp cận

n-thứ hai đó chính là mô hình ngôn ngữ sử dụng kiến trúc mạng noron nhân tạo [32] Một số kiến trúc được sử dụng phổ biến như mạng nơron hdi quy [33] hay

Transformers [34] được huấn luyện để khai thác các đặc trưng và các mối quan hệ

phụ thuộc giữa các token trong dit liệu đầu vào Trong thực tế, các mô hình này được huấn luyện với một lượng lớn dữ liệu, sau đó chúng được sử dụng vào một tác vụ cụ

thể thông qua quá trình tỉnh chỉnh các trọng số của mô hình dựa trên dữ liệu được

gán nhãn Các mô hình này được gọi là mô hình ngôn ngữ luyện trước và được áp

dụng rộng rãi trong các tác vụ NLP Trong phan này, học viên cung cấp một cái nhìn tổng quan về kiến trúc mô hình Transformers, cách thức mô hình được huấn luyện và

học chuyền tiếp trên các tác vụ đích.

15

Trang 29

CƠ SỞ LÝ THUYÉT

3.2 Tông quan về kiến trúc mô hình

Transformers được đề xuất trong công trình của Ashish Vaswani và cộng sự[34], là một trong những kiến trúc mạng nơron quan trọng và được áp dụng rộng rãi

trong NLP, đặc biệt là trong việc xây dựng các mô hình ngôn ngữ Transformers đã

chứng minh được sự hiệu quả và khả năng vượt trội về mặt hiệu suất trên các tác vụ

xử NLP nói riêng và máy học nói chung Cải tiến quan trọng nhất của Transformers

là việc sử dụng các cơ chế Self-attention, cho phép mô hình tập trung có chọn lọc vào

các phần khác nhau của chuỗi đầu vào tại các thời điểm khác nhau Khác với mạng

noron hồi quy - trong đó mô hình dựa vào quá trình xử lý tuần tự để năm bat cácthông tin về ngữ cảnh trong văn bản, kiến trúc Transformers có thé nam bắt các thông

tin về ngữ cảnh và mối quan hệ phụ thuộc g1ữa các token một cách toàn cục va đồng

thời trên toàn bộ câu.

Kiến trúc của Transformers là sự kết hợp của nhiều lớp Self-attention và mạngnơron truyền thăng (feedforward neural network) [35] Các lớp này cho phép mô hình

học được cách biểu diễn các đặc trưng của ngôn ngữ từ mức độ đơn giản nhất đến

phức tạp nhất, thông qua việc lặp lại quá trình huấn luyện và tỉnh chỉnh trên nhiềulớp khác nhau Ngoài ra, đo quá trình xử lý đầu vào song song thay vì tuần tự nhưmạng noron hồi quy, mang Transformers còn tích hợp các thông tin về vị trí dé giảithích thứ tự của từng token trong câu Thế mạnh của mô hình Transformers là khảnăng khai thác tri thức được biểu diễn qua các đặc trưng trên một lượng lớn dữ liệuvăn bản thông qua quá trình huấn luyện trước Quá trình này giúp cho mô hình trở

nên mạnh mẽ, đạt được hiệu suất tốt trên các tác vụ sau khi tinh chỉnh trên bộ dữ liệu

cụ thể, ngay cả khi lượng dữ liệu được gán nhãn hạn chế

16

Trang 30

CƠ SỞ LÝ THUYET

hình gan các trọng số biéu thị mức độ quan trọng khác nhau cho các yêu tố khác nhaucủa chuỗi đầu vào, dựa trên mức độ phù hợp của chúng với ngữ cảnh hiện tại Trongnhiều trường hợp đặc biệt, chuỗi đầu vào có độ dài rất lớn và phức tạp, các mô hìnhthường gặp khó khăn trong việc xử lý và rút trích các đặc trưng Cơ chế Attentioncho phép mô hình tập trung có chọn lọc vào các phần quan trọng nhất của chuỗi đầu

vào dé đưa ra dự đoán và bỏ qua các phan ít liên quan hơn Điều này giúp mô hìnhđưa ra dự đoán chính xác hơn và đo đó hiệu suất trên các tác vụ NLP cũng được cải

thiện.

Cơ chế Self-attention được phát triển từ Attention, là một trong những thànhphần cốt lõi của mạng Transformers Cơ chế Self-attention có nhiệm vụ giúp cho môhình xử lý chuỗi đầu vào một cách hiệu quả hơn thông qua việc sử dụng Attentiontrên chính các thông tin từ chuỗi đầu vào Ý tưởng chính dang sau Self-attention là

mỗi token trong chuỗi đầu vào tương tác với tất cả các token khác với mức độ liên

quan hoặc tầm quan trọng khác nhau Ảnh hưởng của từng token trên toàn bộ chuỗi

đầu vào được xác định bởi mô hình thông quá quá trình huấn luyện

Hình 3.1 Minh hoạ cho cơ chế Self-attention

Hình 3.1 mô tả toàn bộ cơ chế Self-attention Hàm Self-attention nhận đầu vào

là chuỗi có độ dài L token được thé hiện qua 3 ma trận đặc trưng: Query (Q), Key(K) và Value (V); Q,K,V € IR“X#: d là số chiều của đặc trưng mô hình

17

Trang 31

CƠ SỞ LÝ THUYET

e Key: mỗi Key được liên kết với một giá tri thể hiện mức độ phù hợp hoặc tầm

quan trọng của nó đối với từng phần tử Query

e Query: đại diện cho một phần tử tại vị trí nhất định mà mô hình muốn tính

toán mức độ quan trọng Nó được sử dung dé so sánh với các phần tử kháctrong chuỗi đầu vào

e Value: được sử dụng dé tính toán đầu ra của cơ chế Self-attention, nó đại diện

cho các thông tin được liên kết với mỗi giá tri Key thé hiện qua giá trị của các

trọng số Các gia tri của trọng số được xác định bởi một hàm tính trọng số dựa

trên giá trị của Query và Key tương ứng.

e Hàm tính trọng số: Hàm này nhận vào một cặp Query - Key va được sử dụng

để xếp hạng độ liên quan của từng phan tử trong Key với Value Thông

thường, hàm tính trọng số được tính thông qua tích vô hướng giữa hai vectorhay thông qua một mạng noron nhăm đánh giá độ liên quan giữa hai phan tửđầu vào

Mỗi token trong cùng một câu có độ quan trọng khác nhau ứng với các token

khác Chúng có hai giá tri Query và Key tương ứng Query của token được so sánh

với tất cả các Key khác thông qua hàm tính trọng số

Q x K'

Attention(Q,K,V) = softmax( xV (3.1)

vây

mà) exp (q¡k; `) (32)

Phép tích vô hướng Q x KT cho ra một ma trận có dạng IR! 4, thé hiện cho độquan trọng của từng token với các token còn lại Cụ thể hơn, độ quan trọng a; j củatoken tại vị trí i với từng token tại vị trí j được thé hiện thông qua tích vô hướng của

dinky € R* là hai véctơ hàng trong hai ma trận Query va Key S; là tập các vi trí

trong chuỗi dau vảo.

18

Trang 32

giá trị K và Q Tuy nhiên, khi thực hiện phép tích vô hướng giữa hai véctơ có phương

sai bang nhau, kết quả sẽ cho ra giá trị có phương sai gấp d, lần

dk

qi ~ N(0,07),k; ~ N(0,07) > Var > ak = o*-d, (3.3)

i=1

Bang cách điều chỉnh nay, gia tri Attention luôn được duy trì trong một phạm

vi hợp lý, khiến cho các giá trị sau khi qua hàm Softmax tránh bị bão hoà (có giá trị

1 tại một vi trí và 0 tai các vi trí khác), giúp quá trình huấn luyện ôn định hơn và ngănchặn các van đề như exploding gradient hay vanishing gradient Ngoài ra, hệ số tỷ lệcho phép cân bằng tốt hơn giữa các các giá trị attention với số chiều của hai ma trận

Q và K, đảm bảo rằng số lượng chiều không làm ảnh hưởng đến giá trị cuối cùng

19

Trang 33

CƠ SỞ LÝ THUYET

3.2.2 Multi-head Self-attention

Hình 3.2 Kiến trúc cơ chế Multi-head Self-attention [36].

Multi-head Self-attetion là phiên bản mở rộng của cơ chế Self-attention, và làthành phan chính trong mang Transformers Mặc dù cơ ché Self-attention đã cho phépcác mô hình nam bắt các yêu tố phụ thuộc lẫn nhau trong chuỗi đầu vào, nhưng với

cơ chế Multi-head Self-attention nâng cao hơn nữa khả năng xử lý của mô hình thôngqua việc tập trung vào các khía cạnh khác nhau của biểu diễn đầu vào Trong Multi-

head Self-attention, cơ chế Self-attention được áp dụng song song nhiều lần, với mỗi

“head” học các biểu diễn có trọng số khác nhau trên một nhóm đặc trưng đầu vào

Mỗi ma trận Query, Key và Value được chia thành h ma trận con Sau khi

thực hiện cơ chế Self-attention độc lập trên các ma trận con này, đầu ra được tạo rabằng cách ghép nối đầu ra của các attention head và đưa qua phép chuyền đổi tuyến

tính, thông qua đó mô hình có thé nam bắt được nhiều thông tin đa dang và hữu ichtrong quá trình huấn luyện

Multihead(Q,K,V) = Concat(heady, , head, )W°? (3.4)

20

Trang 34

head; = Attention(QW°,KW*,VW/) (3.5)

Trong đó, W,°, WK, WY € IR#X4+/° là các trong số dùng dé ánh xa các biểu diễn

đầu vào thành các ma trận Key, Query và Value

3.2.3 Kiến trúc mô hình

Kiến trúc của mô hình Transformers về cơ bản có hai thành phan chính: bộ mã

hoá (encoder) và bộ giải mã (decoder) Kiến trúc này được sử dung chủ yếu trong các

bài toán tạo văn bản, trong đó mô hình nhận đầu vào là một chuỗi các token và đầu

ra là một chuỗi token khác.

e Bộ mã hóa

Add & Norm

Nx | (da & Norm |

Multi- Head Attention

Positional Encoding

Input

Embedding

Inputs

Hình 3.3 Kiến trúc của bộ mã hoá [36].

Bộ mã hóa bao gồm N khối Transformers có cấu trúc như nhau và được xử lý

tuần tự - trong đó đầu ra của khối này là đầu vào của khối khác Mỗi khối

Transformers bao gồm cơ chế Self-attention và mạng nơron truyền thăng Cơ chế

Self-attention cho phép bộ mã hóa nắm bắt các mối quan hệ phụ thuộc giữa các token

khác nhau từ chuỗi đầu vào, trong khi các mạng noron truyền thang thực hiện cácbiến đổi tuyến tinh cho từng phan tử trong chuỗi Mỗi khối trong bộ mã hoá đều có

21

Trang 35

CƠ SỞ LÝ THUYET

sử dụng các kết nối Residual [38] và lớp Layer norm [39] Bộ mã hoá nhận đầu vào

là x, sau đó nó được đưa qua lớp Multi-head Self-attention Đầu ra của bước này được

kết hợp trực tiếp với đầu vào thông qua kết nối Residual và đưa qua lớp Layer norm

Mang noron truyền thang có chức năng là tăng độ phức tap cho mô hình, đóng

vai trò là tổng hợp lại tất cả các thông tin đã được xử lý thông qua cơ chế Multi-head

Self-attention trước đó.

Đầu ra của mang là đầu vào cho khối Transformers tiếp theo, do đó quá trình

xử lý này đảm bảo rằng thông tin được tinh chỉnh và tối ưu hóa một cách phù hợp

3.2.3.1 Bộ giải mã

Add & Norm

Multi-Head Attention

Add & Norm Masked Multi-Head Attention

Positional Encoding

Output

Embedding

Outputs (shifted right) Hình 3.4 Kiến trúc của bộ giải mã [36].

22

Trang 36

CƠ SỞ LÝ THUYET

Chức năng của bộ giải mã là nhận vào các thông tin từ bộ mã hoá và sử dụng

các thông tin này cho việc xây dựng đầu ra Bộ giải mã có kiến trúc gần giống như

bộ mã hoá, bao gồm N khối Transformers xếp chồng lên nhau Tuy nhiên, điểm khác

biệt là tại mỗi khối Transformers, bộ giải mã chứa hai lớp Multi-head Self-attention

thay vì một như ở bộ mã hoá Lớp Multi-head Self-attention thứ nhất có chức năngnăm bắt các quan hệ phụ thuộc trong chuỗi đầu ra được tạo và lớp thứ hai cho phép

bộ giải mã khai thác các thông tin quan trong từ biéu diễn đầu vào do bộ mã hóa tao

ra Cơ chế này tạo điều kiện cho việc kết hợp các thông tin từ bộ mã hóa và bộ giải

mã, giúp mô hình tạo ra các chuỗi đâu ra chính xác và hiệu quả.

3.2.3.2 Ảnh hưởng của cơ chế kết nối Residual và Layer norm lên quá trình

huan luyện

Kết nối Residual là cơ chế quan trọng giúp quá trình huấn luyện mạngTransformers trở nên hiệu quả hơn Thông thường, Transformers được thiết kế với

nhiều lớp, việc sử dụng cơ chế kết nối Residual giúp quá trình lan truyền ngược dễ

dàng hơn, giảm thiểu hiện tượng vanishing gradient Hiện tượng này xảy ra khigradient tiêu biến trong quá trình lan truyền ngược qua nhiều lớp, gây khó khăn trongquá trình huấn luyện mạng nơron [40] Hơn nữa, kết nối Residual thúc đây việc tận

dụng lại các thông tin đã được học từ các lớp trước đó, cho phép mạng lưu giữ và

truyền đi thông tin quan trọng qua nhiều lớp Điều này cải thiện khả năng của môhình trong việc nắm bắt và duy trì các phụ thuộc tầm xa

Layer norm được sử dụng dé chuẩn hoá các đầu ra trong mỗi lớp của mạng

Transformers, giúp quá trình huấn luyện trở nên nhanh hơn Cơ chế này đảm bảo các

đặc trưng có độ lớn tương đương nhau giữa các phần tử trong chuỗi Nhờ vào đó,

mạng Transformers cải thiện khả năng tổng quát hoá trên dữ liệu mới, do nó làm giảm

sự phụ thuộc vào các yếu tô như giá trị trung bình hay phương sai của đặc trưng đầu

vào.

3.2.3.3 Mã hoá vị trí

Mã hóa vị trí là có chức năng kết hợp thông tin về vị trí tuyệt đối của các token

trong biêu diễn dau vào của mô hình Khác với mạng noron hôi quy xử lý tuân tự

23

Trang 37

từng token, Transformers không có khái nệm về thứ tự các token hoặc vị trí củachúng, mã hóa vi trí cho phép mô hình nam bắt các mối quan hệ tuần tự giữa các mãthông báo trong chuỗi đầu vào Thông thường, hàm mã hóa vi trí là các hàm sin và

cos có tần số và biên độ khác nhau, cho phép mô hình phân biệt giữa các token dựa

ee (sp0000= nana) gược lại

Trong đó ma trận PE đại diện cho véctơ nhúng tại vị tri pos trong chuỗi Bangcách kết hop mã hóa vi trí, Transformers có thể phân biệt giữa các token có nội dung

tương tự nhưng vi trí khác nhau, cho phép mô hình tận dung được thông tin từ ngữ

cảnh tuần tự của đầu vào Thông tin về vi tri này rat cần thiết trong việc nắm bắt các

phụ thuộc và hiểu cấu trúc của chuỗi đầu vào.

3.1.5 Các kiên trúc mô hình phô biên

Trong quá trình xây dựng mô hình ngôn ngữ, mục tiêu quan trọng nhất là pháttriển các kỹ thuật huấn luyện và thiết kế mô hình một cách hiệu quả dé khai thác các

tri thức có trong dit liệu, góp phần nâng cao hiệu suất trên các tác vụ xử lý ngôn ngữ

Một mô hình ngôn ngữ tốt phải có khả năng biểu diễn văn bản đầu vào một cáchchính xác và đạt được khả năng tổng quát hoá trên các tác vụ được huấn luyện Trongphan này, học viên cung cấp cái nhìn tổng quan về các kỹ thuật thiết kế mô hình đã

va đang được sử dung Có ba kiến trúc phố biến hay được sử dụng đó chính là bộ mã

hoá - bộ giải mã (encoder-decoder), bộ mã hoá đơn (encoder-only) và bộ giải mã đơn (decoder-only).

3.2.3.4 Bộ mã hoá - bộ giải mã (Encoder — Decoder)

Đây là kiến trúc thường được sử dụng cho các tác vụ tạo sinh ngôn ngữ tự

nhiên (Natural Language Generation), trong đó mô hình tập trung vao việc tạo ra các

chuỗi văn bản mạch lạc, có ý nghĩa dựa theo đầu vào cụ thể Như đã đề cập ở trên,

24

Trang 38

CƠ SỞ LÝ THUYET

kiến trúc này bao gồm hai phần chính: bộ mã hóa và bộ giải mã Bộ mã hóa nhận vàomột chuỗi đầu vào và và có nhiệm vụ nắm bắt thông tin theo ngữ cảnh và trích xuấtcác biểu diễn có ý nghĩa Bộ giải mã sử dụng đầu ra của bộ mã hóa và từng bước tạochuỗi đầu ra Nó sử dụng các biểu diễn từ đầu vào của bộ mã hóa và đồng thời xemxét các kết qua đầu ra được tạo trước đó dé đảm bao tính nhất quán và liên kết trên

chuỗi đầu ra Trong quá trình huấn luyện trước trên một số mô hình tiêu biểu, bộ mã

hoá thực hiện một số phép biến đồi trên chuỗi đầu vào, trong khi đó bộ giải mã sẽ cốgắng phục hồi chúng ở đầu ra

Hình 3.5 Kiến trúc mô hình BART [43].

BART (Bidirectional and Auto-Regressive Transformers ) [41] là mô hình tiêu

biểu cho kiến trúc bộ mã hoá - bộ giải mã Bộ mã hoá sử dụng kiến trúc Transformershai chiều với mục đích nắm bắt thông tin quan trọng trên chuỗi đầu vào theo ngữcảnh, trong khi đó, bộ giải mã sử dụng cơ chế tự hồi quy (auto-regressive) dé tạo

chuỗi đầu ra, đảm bảo đầu ra có ý nghĩa và nhất quán Trong Hình 3.5, mô hình BARTđược huấn luyện bằng cách thay đổi cau trúc của chuỗi đầu vào thông qua một ham

gây nhiễu, bộ giải mã có chức năng tái tạo lại văn bản gốc, cho phép nó học cách biểu

diễn ngôn ngữ mạnh mẽ Mô hình đạt được kết quả tốt trên các bài toán tạo văn bản

và hiéu ngôn ngữ tự nhiên

3.2.3.5 Bộ mã hoá đơn (Encoder only)

Kiên trúc bộ mã hoá đơn chi sử dụng bộ mã hóa Transformers và nhắm mục

đích tạo ra biêu diễn cho chuôi đâu vào có độ dài cô định Trong kiên trúc này, chuôi đâu vào được đưa qua nhiêu khôi Transformers, trong đó cơ chê Attention có khả

năng truy cập và xử lý các thông tin từ tat cả các token trong chuỗi đầu vào, giúp nam

25

Trang 39

bắt ngữ cảnh của chuỗi đầu vào một cách toan diện Quá trình huấn luyện trước của

các mô hình này thường tập trung vào việc thay déi câu trúc của chuỗi đầu vào vànhiệm vụ của mô hình là có găng dự đoán chuỗi ban đầu Đầu ra của mô hình là một

ma trận trạng thái ân biéu diễn các đặc trưng tương ứng với chuỗi đầu vào, sau đó cácđặc trưng này được sử dụng cho các mạng nơron khác dé đưa ra dự đoán Các mô

hình có kiến trúc bộ mã hoá đơn phù hợp với các tác vụ đòi hỏi mô hình phải hiểu vàsuy luận từ các đặc trưng từ đầu vào chăng hạn như phân loại câu, nhận dạng thực

thé hay đọc hiểu tự động

Single Sentence

Hình 3.6 Kiến trúc mô hình BERT [44].

Mô hình tiêu biểu cho kiến trúc này đó chính là BERT (Bidirectional Encoder

Representations from Transformers) [42] và được mô tả trong Hình 3.6 Khác với các

mô hình trước đây chỉ sử dụng các thông tin về ngữ cảnh một chiều, BERT có khảnăng nam bắt được thông tin về ngữ cảnh từ cả hai chiều trong cũng một chuỗi đầuvào, thông qua việc huấn luyện trên tác vụ Masked Language Model [43] Trong tác

vụ này, chuỗi đầu vào được biến đổi (thay thế ngẫu nhiên một vài token bằng token

[MASK] với qua một tỉ lệ nhất định), sau đó mô hình cố gắng đưa ra dự đoán vềtoken bị thay thé dựa vào ngữ cảnh xung quanh của token nay Bang cách huấn luyện

26

Trang 40

CƠ SỞ LÝ THUYET

trên một lượng lớn văn bản, BERT học cách biéu diễn phong phú của từng câu và sau

đó thực hiện tinh chỉnh cho các tác vụ khác.

3.2.3.6 Bộ giải mã đơn

Không giống như các mô hình tạo văn bản khác, bao gồm day đủ cả bộ mãhoá và bộ giải mã, kiến trúc này chỉ tập trung hoàn toàn vào giai đoạn giải mã trongquá trình xử lý văn bản Nó sử dụng bộ giải mã Transformers một chiều, tức là dựđoán các token hiện tại dựa vào các token đã được tạo ra trước đó theo hướng tự hồi

quy (auto-regressive) Các mô hình áp dụng kiến trúc bộ giải mã đơn chủ yếu được

sử dụng trong các bài toán tạo sinh văn bản, với mục tiêu chính là tạo ra các

chuỗi đầu ra nhất quán và phù hợp với ngữ cảnh.

Hình 3.7 Kiến trúc của bộ giải mã đơn [46].

GPT là một trong những mô hình đầu tiên áp dụng kiến trúc bộ giải mã đơntrong quá trình xây dựng mô hình ngôn ngữ [44] GPT được huấn luyện trước trên

một lượng lớn di liệu văn bản thông qua phương pháp học tự giám sát, với mục tiêu

chính là tính toán phân phối xác suất của token tiếp theo dựa trên chuỗi đầu vào.Phương pháp này cho phép GPT học cách biểu diễn đầu vào và tạo văn bản một cách

mạch lạc và có ý nghĩa.

27

Tiêu đề	Cải tiến mô hình đa ngôn ngữ cho các tác vụ hiểu ngôn ngữ tự nhiên Tiếng Việt
Tác giả	Nguyễn Xuân Vĩnh Phú
Người hướng dẫn	PGS.TS. Nguyễn Lưu Thùy Ngân
Trường học	Đại học Công nghệ Thông tin
Chuyên ngành	Khoa học Máy tính
Thể loại	Luận văn Thạc sĩ
Năm xuất bản	2023
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	121
Dung lượng	59,85 MB