TONG QUANmiên tri thức, mô hình cho bài toán phải dat được hiệu suất tôt trên các cơ sở dit liệu chưa từng gặp trong quá trình huấn luyện.. Do đó, từ những vấn đề nêu trên, luận văn trướ
Trang 1ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
⁄
HUỲNH THIỆN Ý
NGHIÊN CỨU BÀI TOÁN CHUYEN DOI NGÔN
NGỮ TỰ NHIÊN SANG CÂU TRUY VAN SQL CHO
TIENG VIỆT
LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS CAO THỊ NHẠN
TP HÒ CHÍ MINH, 2023
Trang 2LỜI CAM ĐOAN
Tôi xin cam đoan:
Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực
tiếp của TS Cao Thị Nhạn.
Mọi tham khảo trong luận văn đều được trích dẫn rõ ràng tên tác giả, tên công
trình, và thời gian công bố.
Moi sao chép không hợp lệ và vi phạm quy chế dao tạo tôi xin chịu hoàn toàn
trách nhiệm.
Thành phó Hồ Chí Minh, tháng 11 năm 2023
Học viên
Huỳnh Thiện Ý
Trang 3LỜI CẢM ƠN
Học viên xin gửi lời cảm ơn chân thành đến TS Cao Thị Nhạn, Cô đã truyền
cảm hứng giúp học viên có được định hướng trong nghiên cứu khoa học Cô đã rèn
luyện cho học viên các kỹ năng thực hiện một nghiên cứu khoa học hoàn chỉnh từ
đọc hiểu, phản biện các báo cáo khoa học đến triển khai ý tưởng và viết báo
khoa học Cô đã tạo mọi điều kiện tốt nhất cho học viên trong quá trình thực
luận văn cũng như công việc nghiên cứu khoa học của học viên trong tương lai.
Trong quá trình học tập tại Trường Đại học Công nghệ Thông tin - Dai
cáo hiện
học
Quốc gia Thành phố Hồ Chí Minh, học viên được truyền dạy các kiến thức quan trọng dưới sự hướng dẫn của các thầy cô tại trường trong suốt hai năm học cao học.
Học viên xin gửi lời cảm ơn chân thành nhất đến quý thầy cô Đặc biệt, học viên
xin gửi lời cảm ơn chân thành đến quý thầy phản biện khoa học vì những góp ý quan trọng của quý thầy giúp cho luận văn được hoàn thiện hơn.
Cuối cùng, học viên muốn gửi lời cảm ơn chân thành nhất đến đắng thành, người thân và bạn bè Cảm ơn bố mẹ đã luôn đi tạo động lực thúc đây
thân của học viên, luôn ủng hộ con đường mà học viên đã chọn.
sinh
tỉnh
Trong quá trình thực hiện, học viên đã cố gắng hoàn chỉnh luận văn tốt nhất
có thể, tuy nhiên không thể tránh khỏi những thiếu sót và hạn chế Học viên rất
mong nhận được những ý kiến đóng góp quý báu đến từ đọc giả và quý thầy cô.
Một lần nữa, học viên xin gửi lời cảm ơn chân thành nhất!
Thành phó Hồ Chí Minh, thang 11 năm 2023
Học viên
Huỳnh Thiện Ý
Trang 4DANH MỤC THUAT NGỮ VÀ TU VIET TAT wiceessscsssssssecsssssecssssesssssecssssssessssssecsssseees viii
Chuong 1 TONG QUAN
D1 Đặtvấnđề LA aa Orcs cece re Mc sscssessscessecnesstesssssesssesesennees 1
1.2 Mục tiêu và phạm Vi wee elec cece cs eecsescececsescscscseecseeeseecscenssenseenseenseenseenseenseees 2
Pe ek Cee Ae / `" ắố 2 1.2.2 Pham Vi 40 SG Meiers MMR, EI Pecsscccesesssecssecssecssecssocssocssecssecssecssecssaces 3
1.3 Ý nghĩa thực tiễn và ý nghĩa khoa học -cccccccc+ccccvvsccrrsrrrvsecccces 3 1.3.1 Ý nghĩa thực tiển -222222222222222211122222222111122221111112 2.11 crree 3 1.3.2 Ý nghĩa khoa học: -c::222222222ccEEEEEEEvrrrrrtrrrtrrrrerrrrrrrrerrrrreccceos 1.4 len ôn 8a ẽ 4dAAL.H)ẬậH,à , 4 Chương 2 CƠ SỞ LÝ THUYET
2.1 Bài toán Text-to-SQÌU - 2-5-5252 2x2 2222 22121.221.111 rrree 6
2.1.1 Phát biểu bài toán ccc -22222222222211E TT crrre 6 2.1.2 Các thách thức của bài toán Text-to-SQL trên tiếng Việt cccccccccc: §
22 Các phương pháp tiếp cận học sâu -2¿ ©22¿2222+++22ES++t2EEEEertrkkrerrrxee 9
2.3 RAT-SQL che 1I
2.3.1 RAT-SQL Encoder 5c c2 2S HH re 12
Trang 52.3.2 RAT-SQL Decoder
2.4 Các mô hình ngôn ngữ đã được huân luyện 5-5 5v+xsxvsvsxervrverrrxe 14
2.4.1 Bidirectional Encoder Representations from Transformers -. ‹-+ 15
2.4.2 Các mô hình ngôn ngữ tiền huấn luyện cho tiếng Việt - ¿©2552 17 Chuong 3 VAN DE CHUYEN MIEN TRI THUC VA CAC PHUONG PHAP DE
XUAT 19
3.1 Vấn dé chuyền miền tri thức -ccccvvvvvvvveverrrrrrrtrrrrttrrrrttrrrrrrrrrrrrrrree 19 3.1.1 Bài toán Text-to-SQL dưới dang thống kê cccccccssccccssecccerrrr 19 3.1.2 Vấn đề chuyền miễn tri thức trong Spider.
3.2 Cách tiếp cận Meta-learning -2222:+2222222222222222111121 222221112212 20
3.3 Empirical Quantile Risk Minization
3.4 InterRAT TL HH HH HH HH He 22
Chuong 4 CÁC THỰC NGHIỆM :::::::22222222222222221EEEEEEtrrrrrrrrrrrrrrrrre 27 4.1 Thực nghiệm về tác động của mô hình ngôn ngữ -ccccvvccccccccccccerre2 27 4.2 Thực nghiệm về các phương pháp học - : 22c++2222vvvzc+ttztvzvsseccee 28
443 Tap dit liệu thực nghiệm - ¿5-5252 S222 22121212121 21 1E 1 re 29
Chương 5 KET QUA THỰC NGHIỆM VA PHAN TÍCH - - ¿+2 31 5.1 Độ đo kết QUAL ce cecscccssssssseseccsssstnseseccssssnussseccssssiusessecssssiuessecessssuuseesssssuuseseeesssninees 31 5.2 Két quả khảo sát các mô hình ngôn ngữ - -¿- - + + k1 gi y 31 5.3 Kết quả trên các phương pháp học
Chương 6 KET LUẬN VÀ HƯỚNG PHAT TRIÊN .-¿-zz+222+zzttrzs+ 35 6.1 Két luận 35
6.2 Hướng phat triÊn - -¿- + + ST TH HH HH it 35
TÀI LIEU THAM KHAO eecssssessssssssssssssesssssecssssseessssssesssssvecessssessssueessssseesssssvessssseecessseeess 37
Trang 6DANH MỤC HÌNH VE
Hình 1.1 Tốp 10 hệ quản trị cơ sở dữ liệu được sử dụng nhiều nhất tính đến tháng
11/2023 bởi DB-Engines 5-5-5 5< s2
Hình 2.1 Một mẫu dữ liệu cho bài toán trong tập Spider tiếng Việt 7
Hình 2.2 Vấn đề chuyền miền tri thức trong tập dữ liệu Spider tiếng Việt Tập dữ liệu dùng trong quá trình đánh giá thuộc miền tri thức công trình kiến trúc, trong khi tập dữ liệu dùng dé huấn luyện thuộc miền tri thức về công ty - - 9
Hình 2.3 Quá trình tiền huấn luyện của mô hình BERT [19] 16
Hình 2.4 Quá trình tiền huấn luyện của mô hình ngôn ngữ ELECTRA [22] 17
Trang 7DANH MỤC BẢNG Bảng 4.1 Các siêu tham số của mô hình cơ sở RAT-SQL „27
20
Bảng 4.2 Ví dụ một mẫu dữ liệu từ tập Spider tiếng Việt
Bảng 5.1 Hiệu suất theo độ đo EM khi sử dụng các mô hình ngôn ngữ khác nhau
trên tap dev Va (€Sf ¿Sàn 212111 H112 H101 HH HH HH HH 31
Bảng 5.2 Hiệu suất trên tập test của các mô hình ngôn ngữ phân theo mức độ khó
Bang 5.3 Kết quả của các phương pháp học ở độ đo EM trên tập dev và test 33
Trang 8DANH MỤC THUAT NGỮ VÀ TỪ VIET TAT
Từ Viết Tắt Nội Dung
BERT Bidirectional Encoder Representations from
Transformers
RoBERTa Robustly optimized BERT approach
RAT Relation-Aware Transformer
RASA Relation-Aware Self-Attention
LSTM Long Short-Term Memory
RBF Radial Basis Function
MLM Masked Language Model
SVGD Stein Variational Gradient Descent
EQRM Empirical Quantile Risk Minization
SGD Stochastic Gradient Descent
DU Domain Generalization
with Model-Agnostic Meta-Learning
Trang 9DB-dữ liệu này, đòi hỏi người dùng phải có kiến thức về ngôn ngữ truy van DB-dữ liệu (cụ
thể là SQL) Việc này gây ra nhiều khó khăn với người dùng không phải là chuyên gia Vì vậy, yêu cầu cần có một mô hình chuyển đổi từ ngôn ngữ tự nhiên sang câu truy van SQL dé hỗ trợ người ding không chuyên, đặt ra tính cấp thiết cho bài toán Text-to-SQL.
Rank Score
Nov oct Nov DBMS Database Model cH 83 Cay
2023 2023 2022 2023 2023 2022
1 1 1 Oracle Relational, Multi-model f8 1277.03 +15.61 +35.34
2.22 MySQL Relational, Multi-model @ 1115.24 -18.07 -90.30
3 3 3 Microsoft SQL Server Relational, Multi-model 911.42 +1454 -1.09
4 4 4 PostgreSQL Relational, Multi-model fÿ 636.86 -1.96 +13.70
5.5 5 MongoDB Document, Multi-model @ 428.55 -287 -49.35
6 6 6 Redis Key-value, Multi-model § 160.02 -295 -22.03
7 7 7 Elasticsearch Search engine, Multi-modelfj 139.62 +2.48 -10.70
8 8 8 IBMDb2 Relational, Multi-model §8 136.00 +113 -13.56
9.9 410 SQLite Relational 124.58 -056 -10.05
10 10 9 Microsoft Access Relational 124.49 +019 -10.53
Hình 1.1 Tốp 10 hệ quản trị cơ sở đữ liệu được sử dụng nhiều nhất tính đến tháng
11/2023 bởi DB-Engines!
Nhằm đáp ứng tính cấp thiết của bài toán, hiện nay, nhiều tập dữ liệu đã được
đề xuất với rất nhiều thách thức khác nhau Từ các tập dữ liệu với câu hỏi đơn giản
như WikiSQL [1], trong đó mỗi cơ sở dữ liệu chỉ bao gồm một bảng đơn giản, đến các tập dữ liệu lớn với câu truy vấn và cơ sở đữ liệu phức tạp như: Spider [2], SParC
[3] Tuy nhiên, các tập dữ liệu này tập trung chủ yếu vào ngôn ngữ phổ biến là tiếng Anh Hiện chưa có nhiều tập dữ liệu và nghiên cứu cho bài toán trên tiếng Việt Hơn
nữa, các bộ dữ liệu như Spider còn xem xét thêm một thách thức thực tế đối với bài
toán là việc chuyển miền tri thức (Domain Shift) Nếu xem mỗi cơ sở đữ liệu là một
1 https://đb-engines.com/
Trang 10TONG QUAN
miên tri thức, mô hình cho bài toán phải dat được hiệu suất tôt trên các cơ sở dit liệu chưa từng gặp trong quá trình huấn luyện Vì vậy đề tài xem xét hai vấn đề là ngữ
cảnh tiếng Việt và chuyền miền tri thức với đữ liệu được dịch từ tập Spider tiếng Anh.
Các cách tiếp cận hiện tại sử dụng mạng nơ ron nhân tạo kết hợp tinh chỉnh
mô hình ngôn ngữ đã được huấn luyện (Pre-trained language model) nhằm tận dụng
tri thức trong các mô hình này dé tăng hiệu suất Đồng thời, nhiều phương pháp huấn luyện mô hình đã được đề xuất dé giải quyết van đề về chuyển miễn tri thức giữa các
co sở dir liệu Vi vậy, mô hình ngôn ngữ và thuật toán huấn luyện được sử dụng đóng
vai trò quan trọng quyết định hiệu suất của mô hình bên cạnh mô hình cơ sở Mỗi mô hình ngôn được tiền huấn luyện bằng các tác vụ cũng như dữ liệu khác nhau dẫn đến tác động đến mô hình chính của bài toán cũng khác nhau Tương tự, các thuật toán
huấn luyện khác nhau có tác động đến khả năng tổng quát hóa của mô hình đề thích
nghỉ trên các miễn tri thức chưa gặp là khác nhau Tuy nhiên chưa có nhiều công trình khảo sát tác động của các mô hình ngôn ngữ cũng như thuật toán đối với bài toán trên
tiếng Việt Do đó, từ những vấn đề nêu trên, luận văn trước hết khảo sát và phân tích các tác động của mô hình ngôn ngữ và thuật toán huắn luyện đến bài toán, sau đó dé
xuất mô hình ngôn ngữ phù hợp, đồng thời đề xuất phương phương pháp huấn luyện mới dé nâng cao hiệu suất của mô hình cho bai toán.
1.2 Mục tiêu và phạm vi
1.2.1 Mục tiêu
- Tim hiểu bài toán Text-to-SQL trên tiếng Việt và các nghiên cứu liên quan.
- Khao sát va phân tích ảnh hưởng của các mô hình ngôn ngữ và các phương pháp
học tập khác nhau đến hiệu suất của mô hình nhằm đề xuất mô hình ngôn ngữ
và phương pháp học phù hợp.
- Đề xuất phương pháp huấn luyện mới giúp tăng tinh tổng quát hóa của mô hình
trên các miền tri thức khác nhau từ đó tăng hiệu suất tổng quá của mô hình.
- Thực nghiệm, so sánh và phân tích hiệu suất khi áp dụng các mô hình ngôn ngữ,
phương pháp học hiện có cũng như phương pháp đã đề xuất.
Trang 11TONG QUAN
1.2.2 Pham vi - Các thực nghiệm và phân tích của dé tài giới han trong tập dữ liệu Spider tiếng
Việt, được dịch từ tập Spider cho tiếng Anh.
- Mô hình ngôn ngữ trong đề tài đều ở kiến trúc cơ sở (base), với số lượng tham
số nhỏ, không xét đến các mô hình với kiến trúc lớn (large) do giới hạn về phần
cứng.
- Luan văn xem xét các phương pháp huấn luyện cơ sở (baseline) theo cách tiếp
cận Meta-Learning trong việc giải quyết van đề chuyển miền tri thức trong bài
toán.
-_ Kết quả các thực nghiệm được đánh giá trên độ do Exact Match Without Values,
chưa xem xét đến các độ đo khác như kết quả thực thi câu truy vấn do giới hạn
từ tập dữ liệu.
1.3 Ý nghĩa thực tiễn và ý nghĩa khoa học
1.3.1 Ý nghĩa thực tiễn
Bài toán được xem xét trong luận văn có nhiều ý nghĩa thực tiễn do nhu cầu
khai thác thông tin từ lượng lớn các cơ sở dữ liệu hiện có, hỗ trợ người dùng không
chuyên có thể truy vấn thông tin bằng ngôn ngữ tự nhiên Nghiên cứu cũng có thể
được tích hợp vào các ứng dụng thực tiễn như hệ hỏi đáp, chat bot, hệ thống khuyến
nghi, Ngoài ra, nghiên cứu tập trung giải quyết van đề về việc chuyển miễn tri thức giữa các cơ sở dữ liệu Đây là vấn đề thực tiễn của bài toán khi mỗi doanh nghiệp cần lưu trữ và khai thác dữ liệu quan hệ trên các lĩnh vực khác nhau.
1.3.2 Ý nghĩa khoa học:
Bài toán Text-to-SQL về bản chất là một dạng của bài toán phân tích ngữ nghĩa (Semantic Parsing) giúp chuyên đổi ngôn ngữ tự nhiên sang dạng logic, là vấn đề cơ
ban và nền tang trong xử lý ngôn ngữ tự nhiên Vì vậy, nghiên cứu đóng góp trong
việc xử lý ngữ nghĩa của câu nói tự nhiên cũng như liên kết ngữ nghĩa với ngôn ngữ lập trình Mô hình phát triển bởi ngôn ngữ cũng có thể được tận dụng đề trích xuất các đặt trưng ngữ nghĩa cho các tác vụ xử lý ngôn ngữ tự nhiên khác Luận văn còn
cung cấp khảo sát về tác động của các mô hình ngôn ngữ khác nhau đến bài toán, từ
3
Trang 12luyện mô hình có khuynh hướng tối ưu khác nhau sẽ có tác động khác nhau đến mô
hình Các tác động này được thực nghiệm và phân tích trong luận văn đề làm cơ sở cho việc nghiên cứu các phương pháp học tối ưu hơn cho bài toán Ngoài ra, nghiên
cứu còn đề xuất một phương pháp huấn luyện mới cho bài toán với sự kết hợp giữa các tiếp cận bayes và particle-based optimization để nâng cao khả năng trích xuất đặc
trưng từ mô hình ngôn ngữ cũng như tăng tính tổng quát của mô hình.
1.4 Cấu trúc luận văn
Chương 1: Tổng quan
Giới thiệu tổng quan về vấn đề mà luận văn cần thực hiện, phạm vi nghiên cứu cũng như các đóng góp của luận văn về cả hai khía cạnh: thực tiễn và khoa học.
Chương 2: Cơ sở lý thuyết
Giới thiệu bài toán Text-to-SQL cùng các thách thức khi giải quyết bài toán trên ngữ cảnh ngôn ngữ tiếng Việt Các phương pháp tiếp cận hiện tại về mặt kiến trúc mô
hình cũng như phương pháp huấn luyện cũng được trình bày và phân tích trong chương này Đồng thời, chương cũng giới thiệu tổng quan về các mô hình ngôn ngữ
thường được sử dụng cho bài toán.
Chương 3: Vấn đề chuyển miền tri thức và các phương pháp đề xuất
Chương này trình bày về vấn đề chuyền miền tri thức (Domain shift) hay tổng quát
hóa miền tri thức (Domain Generalization) trên bộ dữ liệu Spider tiếng Việt Sau đó trình bày về hai phương pháp mà luận văn đề xuất dé giải quyết van đề nêu trên.
Chương 4: Các thực nghiệm
Các chiến lược cũng như thiết lập cụ thể cho các thực nghiệm được trình bày trong
chương Đồng thời, tập dữ liệu và độ đo thé hiện các kết quả thực nghiệm sẽ được
trình bày.
Chương 5: Kết quả thực nghiệm và phân tích
Trang 13TONG QUAN l
Trình bày kết quả của các thực nghiệm trong chương 4 và các phân tích trên kêt quả liên quan đến mô hình ngôn ngữ, các phương pháp huấn luyện cơ sở cũng như các
phương pháp mà luận văn đề xuất.
Chương 6: Kết luận và hướng phát triển
Tổng hợp các van dé của bài toán mà luận văn đã giải quyết cùng các định hướng
phát triển đề tài.
Trang 14CƠ SỞ LÝ THUYET
Chương 2 CƠ SỞ LÝ THUYET
Do nhu cầu khai thác thông tin từ một lượng rất lớn dữ liệu trên các cơ sở dữ liệu hiện có, nên bài toán Text-to-SQL được đặt ra đi kèm với nhiều thách thức từ
thực tế Từ yêu cầu đó, rất nhiều bộ di liệu đã được đề xuất dẫn đến các cách tiếp cận
khác nhau cho bài toán Vì vậy, phần mở đầu chương sẽ giới thiệu bài toán SQL cùng với các thách thức từ bộ dữ liệu trong ngữ cảnh tiếng Việt Sau đó, các
Text-to-phương pháp tiếp cận đã được dé xuất sẽ được trình bày và phân tích để đặt cơ sở cho hai phương pháp mà luận văn đề xuất Các đặc điểm về kiến trúc, tác vụ tiền huấn
luyện của các mô hình ngôn ngữ được dùng trong các cách tiếp cận hiện tại sẽ được
sơ lược trong phần kết chương.
2.1 Bài toán Text-to-SQL
2.1.1 Phát biểu bài toán
Chuyển đổi ngôn ngữ tự nhiên sang dạng logic (semantic parsing) là một trong
những vấn dé nên tảng trong Xử lý ngôn ngữ tự nhiên Một dang của bài toán
Semantic Parsing là chuyền đồi ngôn ngữ tự nhiên sang ngôn ngữ biéu diễn như: logic bậc nhất (first order logic) , hay các ngôn ngữ lập trình (Python, Java, SQL ) [4].
Text-to-SQL là một dang cụ thể của bài toán vừa nêu với đích chuyển đổi là ngôn ngữ truy vấn có cấu trúc SQL Bài toán được phát biểu cụ thể như sau:
Input:
1) Lược đồ cơ sở dữ liệu (Schema) S = 7 UC bao gồm m bảng T = {f, tạ, tz,
.„„fm} va các cột thuộc tính tương ứng với từng bang C=
t t t t t; t; t; ;
(C1, Cah Cha se, Có, CỤ, C2” Ca”, «ý G7 oe}
2) Câu hỏi truy van dạng ngôn ngữ tự nhiên Q = (đ¡, đa, 43, ++» Nal)
Output: Câu truy vấn SQL tương ứng với ngữ nghĩa của câu hỏi dạng ngôn ngữ tự nhiên.
Để phục vụ cho việc nghiên cứu bài toán, đã có nhiều tập dữ liệu được phát
triển đa dạng trên nhiều mức độ khó và miễn tri thức khác nhau Điển hình, ở mức cơ
bản nhất trong đó các tập dữ liệu đơn giản chỉ bao gồm một cơ sé đữ liệu với số lượng
Trang 15CƠ SỞ LÝ THUYET
nhỏ các câu truy vấn như ATIS [5], GeoQuery [6], Academic [7] Hơn nữa, câu truy
van SQL của các tap đữ liệu nay trong tập train va test là giống nhau, nên chưa đánh
giá được khả năng thực sự của mô hình được áp dụng Nâng cấp hơn về độ lớn tập
dữ liệu thì ta có tập WiKiSQL [1] Tuy số có số lượng câu truy van SQL cùng với sốlượng cơ sở dữ liệu lớn hơn các tập dữ liệu trên, các câu truy vấn trong tập WiKiSQLcòn khá đơn giản Đồng thời, mỗi một cơ sở dữ liệu chỉ bao gồm một bảng Tập dữ
liệu đủ phức tạp và gần với thực tế nhất cũng như là tập dữ liệu mà luận văn tập trung
là Spider [2] Tập Spider bao gồm nhiều câu truy vấn với các cấp độ phức tạp khácnhau, đồng thời mỗi cơ sở dữ liệu bao gồm nhiều bảng và thuộc các miền tri thức
khác nhau.
Các bộ dữ liệu nêu trên đều tập trung ở ngôn ngữ phổ biến trên tiếng Anh,chưa có nhiều tập dữ liệu cũng như công trình cho bài toán trên tiếng Việt Khảo sáttới thời điểm thực hiện luận văn, có hai tập dit liệu cho bài toán trên tiếng Việt Dautiên là tập dữ liệu từ công trình của Vuong cùng các cộng sự [8], bao gồm 1258 câutruy vấn đơn giản trên 03 cơ sở dữ liệu Tuy nhiên, tập dữ liệu này không được công
bố công khai Một tập dữ liệu khác được dịch từ tap Spider cho tiếng Anh được nêutrên từ công trình cua Tuan cùng các cộng sự [9] , đây cũng là tập mà luận văn tập
trung chính.
@ Những quốc gia nào ở châu Âu có ít nhất 3 nhà sản xuất xe hơi? j
“
SELECT T1.[tên quốc gia] FROM [quốc gia] AS T1 JOIN [lục địa]
AS T2 ON T1.[lục địa] = T2.[id lục địa] JOIN [nhà san xuất xe hoi]
AS T3 ON T1.[id quốc gia] = T3.[quéc gia]
WHERE T2.[lục dia] = “chau âu” GROUP BY T1.[tên quốc gia]
HAVING count(*) >= 3
`
Hình 2.1 Một mẫu đữ liệu cho bài toán trong tap Spider tiéng Viét.
Trang 16CƠ SỞ LÝ THUYET
2.1.2 Các thách thức của bài toán Text-to-SQL trên tiếng Việt
Việc thực hiện bài toán trên ngôn ngữ tiếng Việt đối mặt với nhiều thách thức:
sự khác biệt từ đặc điểm ngôn ngữ, thách thức từ tập dữ liệu Spider tiếng Việt vàthiếu các mô hình ngôn ngữ chuyên biệt cho bài toán
Về đặc điểm ngôn ngữ, việc dịch từ tiếng Anh sang tiếng Việt có khả năngsinh ra một số sai sót từ việc mang cách dùng của tiếng Anh sang tiếng Việt Ngoài
ra, việc phân tách từ trong tiếng Anh thường dùng dấu cách, tiếng Việt thì không Cácđặc điểm này ảnh hưởng đến hiệu suất của mô hình và đã được trình bày trong thực
nghiệm từ nghiên cứu của Tuan cùng các cộng sự [9].
Về các khó khăn tạo ra từ tập dữ liệu, ta có thé tổng hợp 03 thách thức chính
từ tập dữ liệu Spider trên tiếng Việt Đầu tiên, tập dữ liệu đề ra 04 mức độ khó khác
nhau: Easy, Medium, Hard, Extra Hard Các mức độ khó này bao phủ hết gần như
các trường hợp khi viết câu truy vấn trong thực tế Ở các độ khó cao hơn, câu truyvan bao gồm các câu truy van lồng và câu truy van con Điều này yêu cầu mô hình
phải học được tính câu trúc tốt khi sinh câu truy vấn Tiếp theo, các cơ sở dữ liệu bao
gồm nhiều bảng liên kết với nhau bằng khóa ngoại Từ đó, mô hình cần xác định đượcbảng, hay cột nào trong lược đồ có tham gia vào việc sinh ra câu truy van Tổng quáthơn là mô hình cần xác định được yêu tố liên kết giữa các thành phan trong Input củabài toán Việc xác định đặc trưng liên kết này sẽ đơn giản trong trường hợp tên bảng
hoặc tên cột xuất hiện trong câu hỏi tự nhiên như trường hợp của bảng “quốc gia”
trong Hình 2.1 Tuy nhiên đối với các liên kết được suy luận hay có tính tương đồng
về mặt ngữ nghĩa thì mô hình sẽ gặp nhiều khó khăn Ví dụ như trong Hình 2.1, môhình cần xác định được là “châu Âu” được đề cập trong câu hỏi có liên quan đến bảng
“lục địa” trong lược đồ cơ sở dữ liệu Thách thức cuối cùng từ tập dữ liệu là việc
chuyển miền tri thức giữ các cơ sở dữ liệu Mỗi một cơ sở đữ liệu đề cập đến một lĩnh
vực khác nhau, đồng thời các miền tri thức khi đánh giá mô hình chưa từng xuất hiện
Trang 17fe} ) | What are the name of each industry and the number of company in | | Cho biết tên của tắt cả các ngành công nghiệp va số lượng công ty |
Oo that industry ? tương ứng thuộc mỗi nganh ?
| sevecr Industry, count(*) FROM Companies GROUP BY Industry | SELECT Ngành công nghiệp, count(*) FROM Công ty GROUP BY Nganh |
S SELECT Type, count(*) FROM mil/ GROUP BY Type ORDER BY count(*) SELECT Loại, count(*) FROM Wha may GROUP BY Loại ORDER BY
E a DESC LIMIT 4 count(*) DESC LIMIT 1
Hinh 2.2 Van dé chuyén miền tri thức trong tập dữ liệu Spider tiếng Việt Tập dữ liệu
dùng trong quá trình đánh giá thuộc miền tri thức công trình kiến trúc, trong khi tập dữ liệu
dùng đề huấn luyện thuộc miền tri thức về công ty.
Ví dụ trong Hình 2.2, mô hình được huấn luyện trên các mẫu từ cơ sở dự liệu
công ty văn phòng (company office) nhưng mau test là từ một cơ sở dữ liệu với lĩnh
vực khác hoàn toàn là về công trình kiến trúc Thách thức này xảy ra với hầu hết các
mô hình máy học và thường được nhắc đến với khái niệm là tổng quát hóa miền tri
thức (Domain Generalization).
Các cách tiếp cận hiện tại thực hiện việc tinh chỉnh các mô hình đã được huấn
luyện cùng với mô hình chính cho bài toán để tăng hiệu suất của mô hình Đối vớingữ cảnh ngôn ngữ tiếng Việt, theo khảo sát của học viên, chỉ có các mô hình ngôn
ngữ được huấn luyện trên dữ liệu văn bản, chưa có các mô hình được huấn luyện sẵn
tập trung cho dữ liệu dạng bảng cho bài toán Text-to-SQL như mô hình GraPPa [10]trên tiếng Anh
2.2 Các phương pháp tiếp cận học sâu
Các nghiên cứu hiện tại trên bài toán phần lớn sử dụng các mô hình học sâu(Deep learning) chia làm 2 nhánh chính theo cau trúc của mô hình bao gồm: mã hóa-giải mã (Encoder-Decoder) và điền vào khung câu truy van cho trước (Sketch-based
Trang 18CƠ SỞ LÝ THUYÉT
slot-filling) [11] Các mô hình dang Encoder-Decoder có thé chia thành 02 nhóm con
là mô hình chuỗi sang chuỗi (Seq2seq) [1] và giải mã dựa trên ngữ pháp
(Grammar-based) [12] [13] Mỗi cách tiếp cận có ưu và nhược điểm khác nhau cụ thé như sau:
chuỗi câu truy van output
- Uu điểm: có khả năng sinh ra các câu truy van phức tạp khác so với
nhãn do không bị giới hạn không gian câu truy vấn đầu ra
- _ Nhược điểm: dễ sinh ra các từ hoặc từ khóa lạ không đúng với câu truy
vấn
Grammar-based: nhóm cách tiếp cận này khác với mô hình seq2seq trongphần giải mã ở chỗ quy trình giải mã được giới hạn trong các luật ngữ phápcủa ngôn ngữ SQL Cụ thé hơn, quá trình giải mã thường đi theo quy trìnhduyệt cây cú pháp trừu tượng (Abstract Syntax Tree) của ngôn ngữ SQL.
- Uu điểm: câu truy van được tao ra giới han trong phạm vi ngữ pháp
của ngôn ngữ SQL do đó khó tạo ra các từ lỗi.
- Nhược điểm: phụ thuộc vào bộ ngữ pháp của ngôn ngữ SQL được sử
dụng do đó hạn chế không gian câu truy vấn kết quả
Sketch-based slot-filling: cách tiếp cận này giới hạn không gian kết quả đầu
ra trong một khung câu truy vấn SQL Từ đó, mô hình cần dự đoán sự có mặtcủa các thành phần trong khung câu truy vấn (ví dụ như có điều kiện chọn haykhông), sau đó điền các giá trị thích hợp vào khung Các giá trị được điền vàokhung có thé là tên cột, tên bảng hay là giá trị từ câu hỏi tự nhiên cung cấp
- Ưu điểm: dam bảo câu truy van đúng cấu trúc và ngữ pháp của SQL
nhờ khung có sẵn.
10
Trang 19CƠ SỞ LÝ THUYET
- _ Nhược điểm: do giới hạn trong khung câu truy van sẵn có nên mô hình
khó tao ra các câu truy van phức tạp, đồng thời không gian câu truy van
kết quả cũng bị giới hạn rất nhiều
Phần tiếp theo của chương sẽ trình bày về một mô hình thuộc nhóm
Grammar-based là RAT-SQL [12] Mô hình được sử dụng làm mô hình cơ sở cho
các phương pháp cũng như các thực nghiệm của luận văn Lý do chọn mô hình này
cho các nghiên cứu của luận văn là vì mô hình nằm trong top các bảng xếp hạng hiệu
xuất của tập dit liệu Spider không tính đến việc sử dụng các mô hình tiền huấn luyện
hỗ trợ Hơn nữa, mô hình này còn được sử dụng trong các nghiên cứu cơ sở (baseline)
có liên quan đên nghiên cứu của luận văn.
2.3 RAT-SQL
Từ khi được công bó, kiến trúc mang Transformer [14] được rat nhiéu su quantâm trong cộng đồng nghiên cứu hoc sâu nói chung va cà cộng đồng xử lý ngôn ngữ
tự nhiên nói riêng Kiến trúc đã đạt được nhiều bức phá trong việc cái tiếng hiệu suất
của các bài toán xử lý ngôn ngữ tự nhiên điển hình là dịch máy Từ đó, các nghiêncứu nhằm chỉnh sửa và tối ưu kiến trúc này cho các bài toán thuộc nhiều lĩnh vựckhác nhau liên tục được công bó, trong đó có bài toàn Text-to-SQL Nhằm khuyếnkhích liên kết giữa các phần trong input của bài toán, Wang cùng các cộng sự [12] đãchỉnh sửa cấu trúc tự chú ý (self-attention), một thành phan quan trọng trong cau trúcTransformer, dé trong quá trình huấn luyện mô hình sẽ thiên về các mối liên kết biếttrước như: khóa ngoại, bảng-cột, giá trị trong câu hỏi tự nhiên và thành phần trong
lược đồ cơ sở dữ liệu, thành phần kiến trúc này được đặt tên là Relation-Aware
Self-Attention (RASA) Cau trúc chi tiết của thành phan này cũng như kiến trúc tong
quát từng phần Encoder và Decoder của mô hình RAT-SQL sẽ được trình bày sau
đây.
11
Trang 20CƠ SỞ LÝ THUYÉT
2.3.1 RAT-SQL Encoder
Phần mã hóa của RAT-SQL còn gọi là Relation-Aware Transformer (RAT)
gồm các lớp RASA xếp chồng lên nhau Mỗi lớp RASA được chỉnh sửa từ Attention của Transformer theo các phương trình sau:
Trong đó x; € R® là một vector thuộc tập các vector đầu vào X = {x,}74,
ws”, ws”, wi”? € R#+zX(4⁄H) là các tham số của mô hình, 1 <h <H, H là số
lượng head trong kiến trúc của Transformer, LayerNorm là lớp chuẩn hóa dựa theonghiên cừu cứu của Ba cùng các cộng sự [15], FC là lớp kết nối đầy đủ (Fully
Connected) RASA khác với Self-Attention truyền thống ở các phan biểu diễn quan
hệ giữa các thành phan trong input được tô đỏ trong hai phương trình (2.1 và (2.1.3)
Dé hiểu rõ ý nghĩa của điểm khác biệt này ta giải nghĩa trường hợp của Attention, trong đó hai thành phần được tô đỏ không tôn tại Khi đó đầu vào x; được
Self-biến đối thành Z¿ qua chuỗi các phương trình (2.1 Theo đó, biểu diễn của một thành
phần x; trên mỗi head được hình thành dựa trên quan hệ với biểu diễn của các thànhphần khác, các quan hệ này được tham số hóa qua các tham số W vì vậy có thể thay
12
Trang 21CƠ SỞ LÝ THUYÉT
đổi trong quá trình huấn luyện Độ mạnh hay yêu của các quan hệ này được thé hiện
Act £ (h) qua các trong sô @;; ở phương trình (2.1.2).
Trở lại với RASA, việc xác định và tận dụng các quan hệ giữa các thành phần
trong input là rất quan trọng, giúp ta xác định được các bảng hoặc cột nào sẽ xuất
hiện trong câu truy vẫn kết quả Do đó đối với RASA, tác giả cộng biéu diễn củacác quan hệ đã biết này vào trong quá trình mã hóa, thê hiện ở phần tô đỏ Điều nàygiúp trong quá trình huấn luyện, mô hình sẽ cập nhật hướng theo các quan hệ đã biếtnhiều hơn
RAT-SQL nhắn mạnh mối quan hệ giữa các phần tử trong Input, bao gồm cảquan hệ giữa các từ trong câu hỏi tự nhiên và lược đồ cơ sở dữ liệu Vì vậy, về mặthình thức, phần mã hóa có thé được biéu diễn bằng đồ thị G = (V,E) trong đó tậpđỉnh V = C UT U Q bao gồm tập các cột, bang và các từ trong câu hỏi tự nhiên Tap
các cạnh E biểu diễn các dang quan hệ: khóa chính, khóa ngoại, cột thuộc bang, hai
cột chung một bảng và quan hệ giữa từ trong câu hỏi tự nhiên và cột hoặc bảng liên
quan.
Trong đó quan hệ giữa từ trong câu hỏi và các thành phần của lược đồ là
không san có và khó xác định nhất Các nghiên cứu tiếp cận hiện tại xác định các
đặc trưng liên kết này sử dụng phương pháp tiềm kiếm heuristic trên mặt chữ băng
cách so khớp n-gram giữa câu hỏi ngôn ngữ tự nhiên với tên bảng hoặc tên cột Tuy
nhiên phương pháp này có nhiều yếu điểm như: không thể xác định được các liênkết dang cùng chung ngữ nghĩa, liên kết nhờ suy luận, Day cũng là yếu tổ màphương pháp đề xuất trong luận văn tập trung cải tiến
Cho trước một mẫu đầu vào X = (c¡, , Clel, tay) ÊIr|, Qa +» Qa) ( các chỉ số bảngtrên mỗi cột được lược bỏ dé đơn giản cho việc biểu diễn), có hai cách đề biểu diễncác phần tử trong input này trước khi đưa vào RAT là sử dụng các vector từ từ các
mô hình embedding đã được huấn luyện sẵn như Word2vec [16] hay Glove [17]hoặc sử dụng các mô hình ngôn ngữ đã được huấn luyện dé trích xuất vector biểu
diễn Mỗi phần tử trong mẫu này cũng đại diện tương ứng là một đỉnh trong đồ thìđược trình bay ở phần trước Sau quá trình biểu diễn các thành phan của input ta
13
Trang 22CƠ SỞ LÝ THUYÉT
được tập input khởi tạo, tạm ký hiệu: X=
(Cp Cie HP”, tị › q7”, + Vg) )- Phan khởi tao nay sau đó di qua các lớp
của RAT cho ta biểu diễn cuối cùng của từng phan tử là c¿, t;,q; Phần giải mã của
mô hình sẽ sinh câu truy van dựa trên các biéu diễn nay
- APPLYRULE: tiếp tục nới rộng node hiện tai bằng luật ngữ pháp
- SELECTTABLE: chọn bảng khi gặp node lá.
- SELECTCOLUMN: chọn cột khi gặp node lá.
2.4 Các mô hình ngôn ngữ đã được huấn luyện
Như đã đề cập trong chương 2.3.1, các cách tiếp cận hiện tại thường dùngcác mô hình ngôn ngữ được huấn luyện sẵn trên một lượng lớn dit liệu văn ban dé
biểu diễn các vector đầu vào cho mô hình, đồng thời kết hợp tinh chỉnh tham số của
các mô hình ngôn ngữ này để thích hợp cho bài toán Nhờ đó, hiệu suất của bài toánđược cải tiễn nhờ vào lượng tri thức được tích hợp trong các mô hình ngôn ngữ này.Việc sử dụng các mô hình ngôn ngữ này cho bài toán đã được chứng minh mang lạihiệu suất tốt hơn nhiều so với các mô hình embedding truyền thống Tuy nhiên mỗi
mô hình ngôn ngữ sử dụng kiến trúc, tiền xử lý, tác vụ tiền huấn luyện khác nhau
cũng như dữ liệu huấn luyện khác nhau Điều này dẫn đến tác động đến mô hình
chính cũng như hiệu suất của bài toán là khác nhau Vì vậy, luận văn đã thực nghiệm
và phân tích các tác động này của các mô hình ngôn ngữ khác nhau, giới hạn trong
các mô hình dang BERT [19] với kiến trúc cơ sở (base model), nhăm đề xuất môhình thích hợp cho bài toán Phần này của chương sẽ trình bày sơ lược về các mô
hình ngôn ngữ được xem xét trong luận văn.
14
Trang 23CƠ SỞ LÝ THUYÉT
2.4.1 Bidirectional Encoder Representations from Transformers
Devlin cùng các cộng su đã tiếp nối sự thành công của kiến trúcTransformer [20] trong xử lý ngôn ngữ tự nhiên băng việc phát triển một mô hìnhngôn ngữ dựa trên phần mã hóa (Encoder) của Transformer Nhờ khả năng mã hóaliên kết giữa các thành phần trong input của Transformer, BERT có thể tạo ra đượcvector biêu diễn từ với ngữ cảnh rộng hơn các mô hình embedding truyền thống.Một mô hình ngôn ngữ như BERT hoặc các mô hình phát triển từ BERT sẽ có 2quá trình chính là tiền huấn luyện (Pre-trained) và tinh chỉnh (Fine-Tuning) Quá
trình tiền huấn luyện đóng vai trò chính trong việc học biểu diễn cùa một từ dựa
trên ngữ cảnh Các biểu diễn này sẽ được chỉnh sử theo các bài toán cụ thé trong
xử lý ngôn ngữ tự nhiên trong quá trình Fine-Tuning Phan tinh chỉnh của các mô
hình ngôn ngữ sẽ không được trình bày trong luận văn do khác bài toán, vì vậy đọc
giả có thé tìm đọc phần này trong nghiên cứu gốc của các mô hình Các tác vụ tiềnhuấn luyên của BERT và các mô hình được phát triển dựa trên BERT sẽ được trìnhbày sơ lược như sau :
- BERT: về kiến trúc, BERT dùng kiến trúc phần mã hóa của Transformer với
hai phién bản có kích khác nhau là BERTbnasz với 12 lớp, kích thước lớp an là
768, gồm 12 head, với tổng số tham số là 110 triệu và BERTLAno với 24 lớp,
kích thước lớp an là 1024, gồm 16 head, với tong số tham số là 340 triệu Quá
trình tiền huấn luyện cua BERT được mô tả trong Hình 2.3, gồm hai tác vụ là
dự đoán token bị che (Masked LM - MLM) và dự đoán câu tiếp theo khi đã cómột câu cho trước (Next Sentence Prediction — NSP) Do đó, đầu vào của môhình sẽ bao gồm 2 câu A và B được tách thành các token (đơn vị từ) nhỏ.BERT thêm vào các token đặc biệt để mô hình nhận biết vị trí đầu câu là
“TCLS]” và vi trí phân cách giữa 2 câu “[SEP]” Ở tác vụ dự đoán từ bị che,
BERT sẽ chọn ngẫu nhiên 15% token trong input và thay 80% các token này
băng token đặc biệt là “[MASK]”, 10% thay bằng token bất kì và 10% giữnguyên Nhiệm vụ của mô hình là dự đoán các token bị che này Đối với tác
vụ dự đoán câu tiêp theo, dữ liệu được huân luyện được tạo ra băng cách với
15
Trang 24CƠ SỞ LÝ THUYET
mỗi câu A được chọn, 50% câu B sẽ là câu tiếp theo của A và 50% là câu bất
kỳ, mô hình sẽ phải dự đoán câu B có phải là câu tiếp theo của A hay không
Masked Sentence A Masked Sentence B
+
Unlabeled Sentence A and B Pair
Hình 2.3 Quá trình tiền huấn luyện của mô hình BERT [19]
- RoBERTa: là một cải tiến từ BERT theo công trình của Liu và các cộng sự
[21] ROBERTa giữ theo kiến trúc của BERT, chỉ thay đôi tác vụ huấn luyện,siêu tham số và tiền xử lý dé đạt được các cải tiễn hiệu suất Cu thé, ROBERTa
không giữ nguyên vị trí của các token bị che trên mỗi mẫu đữ liệu như BERT,
thay vào đó các token bị che này sẽ được sinh ngẫu nhiên khi một mẫu dé liệu
được đưa vào mô hình RoBERTa không sử dụng tác vụ dự đoán câu tiếp theo
trong quá trình tiền huấn luyện, thay vào đó input của mô hình sẽ được chọn
từ các câu liên tiếp trong một hoặc nhiều tài liệu sao cho thỏa mãn chiều đài
của input là 512 token Các tài liệu khác nhau được phân cách bằng token
“[SEP]” Thay đổi cuối cùng là ROBERTa được huấn luyện với số lượn mẫumỗi lần (batch size) lớn hơn so với BERT
- Electra: là một mô hình ngôn ngữ khác cũng được cải tiến dựa trên BERT
[22] Electra giữ nguyên kiến trúc của BERT, chỉ cải tiến về phương pháp tiền
huấn luyện, theo đó mô hình sẽ gồm 2 phần là Generator và Discriminator
được mô tả trong Đầu vào của mô hình cũng sẽ được che đi một SỐ lượng
token , sau đó phân Generator cua mô hình sẽ dự đoán token ban dau của
16
Trang 25CƠ SỞ LÝ THUYET
những vị trị bi che đi Discriminator được huấn luyện đề phân biệt giữa token
từ data và token được sinh ra từ phan Generator
sample
the —»[MASK] -> the original
chef —> chef Generator chef Discriminator original
cooked —> [MASK] (typically a > ate (ELECTRA) replaced
the —» the small MLM) the original
meal —> meal meal Original
Hình 2.4 Quá trình tiền huấn luyện của mô hình ngôn ngữ ELECTRA [22]
2.4.2 Các mô hình ngôn ngữ tiền huấn luyện cho tiếng Việt
Tương ứng với các mô hình ngôn ngữ cho tiếng Anh trình bày trong mục 2.4.1,công đồng nghiên cứu trong nước cũng đã phát triển các mô hình ngôn ngữ dànhcho tiếng Việt với các thay đôi về tiền xử lý cũng như đữ liệu huấn luyện cho phù
hợp với đặc trưng ngôn ngữ của tiếng Việt Các mô hình ngôn ngữ cho tiếng Việt
tương ứng được sơ lược như sau:
- mBERT: multilingual Bert là phiên bản đa ngôn ngữ cho mô hình BERT được
trình bay trong chương trước, được huấn luyện trên tập dit liệu gồm 104 ngônngữ bao gồm tiếng Việt Mô hình khá thích hợp cho các tác vụ yêu cầu đangôn ngữ trong đó có Text-to-SQL do tập dữ liệu vẫn giữ một số giá trị chuỗi
là ngôn ngữ tiếng Anh trong câu truy vấn
- PhoBERT: mô hình ngôn ngữ dựa trên kiến trúc của RoBERTa với một số
tinh chỉnh cho tiền xử lý tiếng Việt [23] PhoBERT yêu cầu việc tách từ trêncâu đầu vào trước khi đưa vào mô hình Chính vì vậy, chiều dài tối đa cho đầuvào của Phobert chỉ là 256 ngắn hơn so với các mô hình khác Mô hình nàyđược huấn luyện trên 20GB dữ liệu tiếng Việt với nội dung bao gồm từWikipedia và các bài báo tin tức.
- yvELECTRA: mô hình này dựa theo cách tiếp cận tiền huấn luyện của
ELECTRA được trình bày trong chương trước [24] Dữ liệu được sử dụng
17
Trang 26CƠ SỞ LÝ THUYET
gồm 2 tập tiếng Việt là NewsCorpus và OscarCorpus VELECTRA không yêu
cầu tách từ trước khi đưa vào mô hình so với PhoBERT
- vibert4news: mô hình giữ nguyên cấu trúc và cách tiếp cận của BERT chi
khác di liệu huấn luyện vibert4news được huấn luyện trên 20GB dir liệu làcác bài báo tiếng Việt
Tổng hợp lại, luận văn chọn khảo sát các mô hình vừa nêu là đại diện cho cácnhóm cách tiếp cận khác nhau ở phan tiền huấn luyện Hơn nữa, trong nhóm các
mô hình được khảo sát còn có mô hình đa ngôn ngữ và đơn ngôn ngữ tiếng Việt.Tính đa dạng này giúp ta có cái nhìn tổng quát hơn về tác động của các mô hìnhđên bài toán.
18
Trang 27VAN DE CHUYEN MIEN TRI THỨC VÀ CÁC PHƯƠNG PHAP DE XUẤT
Chương 3 VAN DE CHUYEN MIEN TRI THUC VA CÁC PHƯƠNG
PHAP DE XUAT
Nhu đã đề cập trong chương 2, ngoài độ khó từ ban chat của bai toán thì tập
dữ liệu Spider trên tiếng Việt còn đặt ra một thách thức về việc chuyền miền tri thức
giữa các cơ sở dữ liệu Điều này yêu cầu mô hình phải có tính tổng quát tốt trên các
miền tri thức khác nhau Phương pháp huấn luyện mô hình là một trong những yếu
tố ảnh hưởng nhiều nhất đến tính tổng quát của mô hình trên các miền tri thức khácnhau Vì vậy, chương này trước hết so sánh, phân tích tác động của các phương pháphuấn luyện mô hình đã được đề xuất cho bài toán sau đó là hai phương pháp mà luậnvăn đề xuất dé cải tiễn về cả hai phương diện là thời gian huấn luyện và hiệu suất trên
tập đữ liệu.
3.1 Vấn đề chuyển miền tri thức
3.1.1 Bài toán Text-to-SQL dưới dạng thống kê
Đề thống nhất và đơn giản hóa việc biểu diễn về mặt toán học của các phươngpháp được dé cập trong chương, ta phát biéu bài toán Text-to-SQL dưới dạng thống
kê như sau: cho trước một lược đồ cơ sở dữ liệu S va câu hỏi tự nhiên Q, ta cần xây
dựng một mô hình f có tham số Ø dé dự đoán câu truy van SQL Y dựa trên phân phốipạ(Y|0, S) qua tat ca các câu truy van SQL có thể
Phương pháp huấn luyện thường dùng là tối ưu hóa nguy cơ thực nghiệm (Empiricalrisk minimization — ERM) bang cách lấy ngẫu nhiên độc lập tập mẫu B với kích thước
N trên tập train Sau đó tối ưu hóa hàm lỗi là giá trị âm của log-likelihood:
N
1
Lạ(8) =-—) logpe(V|0,S) GB.)
i=1
Phương pháp nay được dùng trong nghiên cứu gốc của RAT-SQL và cũng được xem
xét là một phương pháp cơ sở đê so sánh với các đê xuât của luận văn.
19
Trang 28VAN DE CHUYEN MIEN TRI THỨC VÀ CÁC PHƯƠNG PHAP DE XUẤT
3.1.2 Van đề chuyển miền tri thức trong Spider
Ở các phương pháp sẽ trình bày tiếp theo sau, ta sẽ xem mỗi cơ sở đữ liệu thể
hiện một miền tri thức cụ thê Tập dữ liệu Spider được tạo thành sao cho các miền tri
thức trong các tập train, dev và test là phân biệt hay khác nhau hoàn toàn Vì vậy, mô
hình được huấn luyện trên tập các miễn tri thức nguồn D, phải đảm bảo tương thích
tốt với tập các miền tri thức đích D, Trong quá trình huấn luyện thì mô hình khôngđược tiếp cận với các mẫu thuộc về tập các miền tri thức đích Do đó, vấn đề chuyền
miễn tri thức cũng có thê coi trong tập Spider cũng có thể coi như là bài toán tổng quáhóa miễn tri thức (Domain generalization) hay Zero-shot parsing
3.2 Cách tiếp cận Meta-learning
Dé giải quyết van đề tông quát hóa miền tri thức trong trong tập Spider, Wangcùng các cộng sự [25] đã đề xuất phương pháp tiếp cận sử dụng Meta-learning dựatrên nghiên cứu về Meta-learning cho van đề tông quát hóa miền tri thức của Li cùngcác cộng sự [26] Cụ thé, tác giả tạo ra các tác vụ giả lập dựa trên các miền tri thức
trong tập train, mỗi tác vụ có tập các miền tri thức nguồn D, và tập các miền tri thứcđích D, Sau đó sử dụng Meta-learning dé huan luyện mô hình theo hướng thích nghỉ
việc chuyển miền tri thức từ nguồn đến đích Quá trình huấn luyện gồm hai bước
chính là Meta-train và Meta-test.
O bước Meta-train, tham sô của mô hình được cập nhật theo hướng tôi ưu
hóa hàm lỗi của mô hình trên tập mẫu B; được chọn từ các miễn tri thức nguôn bởi
thuật toán stochastic gradient descent (SGD) với tốc độ hoc a:
0’ — Ø9— dVạLp (6) (3.2)
Đến bước Meta-test tham số mô hình đã được cập nhật là Ø “sẽ được sử dụng
dé tinh hàm lỗi của mô hình trên tập mau B, được chọn từ miễn tri thức đích L(').Hàm lỗi cuối cùng của một tác vụ giả lập r sẽ được tính dựa trên hai giá trị lỗi vừađược tính:
20
Trang 29VAN DE CHUYEN MIEN TRI THỨC VÀ CÁC PHƯƠNG PHAP DE XUẤT
L, = Lg, (0) + Lg, (0') = Leg, (0) + Lp,(Ø — œVạLp, (8)) (3.3)
Bang cách tối ưu hóa hàm lỗi (3.3), tham số của mô hình được cập nhật theo hướngtốt ưu cho cả tập nguồn và tập đích
Phương pháp tiếp cận này có hai hạn chế chính Thứ nhất là cần phải giả định
sự không đồng nhất giữa các miền tri thức trong tập train và tập test thật có thé biểudiễn thông qua các miền tri thức nguồn và đích trong các tác vụ Thứ hai, ta có nhận
xét là phương trình (3.3) yêu cầu phải tính đạo hàm cấp hai đối với tham số của mô
hình, điều này làm tăng số lượng tính toán cũng như bộ nhớ trong quá trình huấnluyện Trong nghiên cứu của minh, tác giả đã nhận thay van đề này với phương pháp
và đã sử dụng biện pháp xấp xi đạo hàm cấp cao, tuy nhiên điều này đánh đổi sự sụtgiảm về mặt hiệu suất
3.3 Empirical Quantile Risk Minization
Ở phương pháp đề xuất cải tiến đầu tiên này, ta có giả định linh hoạt hon so
với phương pháp sử dụng Meta-learning vừa trình bày đó là các miền tri thức của đữliệu đều xuất phát từ cùng một phân phối Dựa trên giả định này, sự chuyền miền ditliệu trong quá trình huấn luyện mô hình sẽ giúp ta định hướng được sự chuyền miền
ở quá trình đánh giá mô hình Cùng từ giả định này, luận văn áp dụng hàm mục tiêu
từ nghiên cứu của Cian Eastwood cùng các cộng sự [27] dé huấn luyện mô hình
Cụ thê, gọi F là lớp các mô hình f mà ta cần xác định, P(X%, Y3) là phân phốicủa các cặp dữ liệu thuộc miền tri thức đ, ®#(ƒ) là hàm nguy co (risk) của f trênmiền tri thức d, Day là tập tất cả các miền tri thức Thông thường hàm nguy cơ đượcđịnh nghĩa là kỳ vọng của các giá trị lỗi trên miền tri thức đang xét ##(ƒ) :=Ep(xaya) [L(f (X%, Y%] Khi mô hình van dé tổng quát hóa miền tri thức ta thường
tối ưu hai trường hợp là trung bình nguy cơ của các miễn tri thức hoặc nguy cơ caonhất của các miễn tri thức thé hiện ở phương trình (3.4) sau đây
: bì
min max R°(f) (3.4)
21
Trang 30VAN DE CHUYEN MIEN TRI THỨC VÀ CÁC PHƯƠNG PHÁP DE XUẤT
Càng tối ưu về trường hợp nguy cơ cao nhất thì mô hình càng mạnh Tuy nhiên
trong thực tẾ, ta không có thông tin về tất cả các miễn tri thức và chỉ có được một số
mẫu nhất định Do đó, việc tối ưu cho trường hợp có nguy cơ cao nhất gần như là
không thé, trừ khi ta giới hạn sự tách biệt giữa các miền tri thức Thay vào đó ta cóthé thay thế trường hợp của phương trình (3.4) một cách linh hoạt hon ở dạng xác
xuât như sau:
i j da <t}>
mint subject to Pr ir (f) <t}=y (3.5)
Trong đó ® là phân phối chung của tat cả các miền tri thức mà ta đã giả định.
Với phương trình (3.5) ta đang tìm một một hình ƒ tổng quát hóa trên các miền trithức với mức độ y nêu nguy cơ của nó trên các miền tri thức tối đa là t Tuy có tongquát hon so với ở dạng (3.4), ta gặp một rắc rồi khác là phân phối ® thường khó biết
trong thực tế Do đó, thêm một bước biến đôi dé chuyền đôi phương trình (3.5) về
phân phối qua các giá trị nguy cơ
đã ước lượng T; sẽ được sử dung trong phương trình (3.6) thay cho phân phối gốc
Tham số y có thé được sử dung dé điều chỉnh mức độ tống quát hóa miền tri thức,khi y tiến đến 1 thì sẽ tương ứng với trường hợp tối ưu nguy cơ cao nhất và tiến tới 0tương ứng với trường hợp trung bình.
3.4 InterRAT
Các mô hình ngôn ngữ đã được huấn luyện được chứng minh là có chứa các
đặc điểm ngôn ngữ học [28] [29], hơn nữa ở các lớp càng về sau của các mô hình này
càng nhấn mạnh tính liên kết về mặt ngữ nghĩa giữa các thành phan trong input Vì
vậy dé khai thác tốt các đặc trưng liên kết cần cho bài toán Text-to-SQL từ các mô
22
Trang 31VAN DE CHUYEN MIEN TRI THỨC VÀ CÁC PHƯƠNG PHÁP DE XUẤT
hình ngôn ngữ này đồng thời van đảm bảo tính tổng quát của mô hình, luận văn đã
đề xuất một phương pháp kết hợp giữa Ensemble và cách tiếp cận Bayes đặt tên làInterRAT Ý tưởng chính của phương pháp là thực hiện phương pháp ensemble trênlớp RAT đầu tiên ngay sau mô hình ngôn ngữ trong phần mã hóa của RAT-SQL vàdùng chung các lớp RAT còn lại Đồng nghĩa với việc ta sẽ khởi tạo n lớp đầu tiênnày, mỗi lớp có tham số riêng của nó Tuy nhiên, thay vì các lớp RAT đầu tiên này
được được huấn luyện độc lập nhau như các phương pháp Deep Ensemble thông
thường, luận văn sẽ huấn luyện sử dụng phương pháp Particle-based Optimization
Vì vậy, ta có thể gọi mỗi lớp RAT này là một particle Các lớp RAT khác nhau này
sẽ đóng vai trò là các trích xuất đặt trưng (feature extractor) khác nhau trên đầu racủa mô hình ngôn ngữ Do đó, mục đích của việc thay đổi phương pháp huấn luyệncác lớp RAT này là dé tăng tinh da dạng của các đặc trưng được trích xuất, bao gồm
đặt trưng về liên kết giữa các thành phần của input
Cu thê, gọi g(-;@) tham số hóa bởi Ø là lớp RAT đầu tiên của mô hình vàd(-;w) là phan còn lại tham số hóa bởi w Như vậy toàn bộ mô hình được biéu diễn
bởi fC; Ø,w) = d(;w) s g(; 8) Dưới góc nhìn của Deep Ensemble, sau khi sinh n
lớp RAT đầu tiên với các bộ tham số 6; khác nhau, ta có n mô hình Mô hình thứ i
được biểu diễn bởi fC; 6;,w) = d(-;w) © ø(; 6,), trong đó thành phần tham số wđược dùng chung giữa các mô hình Dé thực hiện việc huấn luyện bằng phương phápparticle-based, ta cần thực hiện cách tiếp cận Bayes trên lớp RAT đầu tiên của môhình Theo đó, xác suất hậu nghiệm (posterior distribution) cua Ø là p(0|2) «p(?D|6)p(8) biểu thị khả năng một giá trị cụ thé của tham số Ø ứng với tập dit liệu
cho trước D p(Ø) là xác suất của tham số Ø trước khi có dữ liệu Khi cho trước một
mau dit liệu mới +”, cách tiếp cận Bayes xem xét toàn bộ các giá trị của tham số Ø cóthé có thông qua phân phối lề trên các tham số Ø được lấy từ xác suất hậu nghiệm:
p(yˆ|x',D) = | p(y" |f x", D))p(6|D) de (3.7)
23
Trang 32VAN DE CHUYEN MIEN TRI THỨC VÀ CÁC PHƯƠNG PHÁP DE XUẤT
Vấn đề chính đối với cách tiếp cận Bayes là phân phối hậu nghiệm p(6|D)không thé tính chính xác được do không gian tính toán quá lớn Do đó, ta sẽ xap xỉphân phối này bằng n lớp RAT đầu tiên đã khởi tạo thông qua phương pháp Stein
Variational Gradient Descent (SVGD) [30] Phương pháp này có ưu điểm là không
giới hạn lớp các phân phối dùng dé xấp xi SVGD sử dung gradient của phân phốiđích cần xap xi dé hướng các particle hội tụ về phân phối này thông qua một côngthức cập nhât xác định Cụ thê, đối với bài toán đang xét, ta cần xấp xỉ phân phối hậu
nghiệm của các tham số ở lớp RAT đầu tiên p(Ø|2) Ta lay mẫu n lớp RAT đầu tiên{9;}?_¡, sau đó ở mỗi lần lập £ ta cập nhật một particle cụ thé theo luật sau từ SVGD:
Theo đó phan @(6,) thé hiện hướng cập nhật các tham số, , tốc độ cập nhật
và k(z,+”) là ham kernel xác định dương (positive-define kernel) Lượng cập nhật
của một particle phụ thuộc vào gradient xác suất của các particle khác Cụm đầu tiên
trong hướng cập nhật k(øj ,8,)V ,ilogp (8/|D) gọi la “driving term”, day các particle
t
về vùng có xác suất cao của phân phối cần xấp xi Cụm thứ hai gọi là “repulsive term”giúp day các particle ra xa nhau dé chúng không dồn về cùng một giá trị Dựa vàocụm thứ hai trong hướng cập nhật tham số giúp tăng tinh đa dạng giữa các particle,
từ đó giúp các lớp RAT đầu trích xuất các đặc trưng đa dạng hơn
Khi huấn luyện mô hình ta thường dùng hàm lỗi là hàm likelihood, ta cần chuyên đổi
xác suất hậu nghiệm V ạ/]08P (971) chưa chuẩn hóa về hàm likelihood như sau:
t
Vạ;logp(61|2) = Vạ;logp(D|ð?) + Vạ;Iogp(82) (3.9)
Xác suất tiền nghiệm trong luận văn sử dụng phân phối đồng nhất (Uniform)
24
Trang 33VAN DE CHUYEN MIEN TRI THỨC VA CÁC PHƯƠNG PHAP DE XUẤT
Bén canh viéc cap nhat tham số cho các lớp đầu của RAT theo luật 3.8, các tham sốdùng chung w được cập nhật theo trung bình các giá trị log-likelihood của tất cả các
4: for bước t<— 1 đến T do5: Lấy tập mau B tir D6: for particle i= 1 đến n do
7: Tinh Gradient Vạ¡, Vi: iw (Bi 6!,w)
8: end for
9: Tinh hướng cập nhật:
25