Luận văn thạc sĩ Khoa học máy tính: Nghiên cứu bài toán chuyển đổi ngôn ngữ tự nhiên sang câu truy vấn SQL cho Tiếng Việt

TONG QUANmiên tri thức, mô hình cho bài toán phải dat được hiệu suất tôt trên các cơ sở dit liệu chưa từng gặp trong quá trình huấn luyện.. Do đó, từ những vấn đề nêu trên, luận văn trướ

Trang 1

ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

⁄

HUỲNH THIỆN Ý

NGHIÊN CỨU BÀI TOÁN CHUYEN DOI NGÔN

NGỮ TỰ NHIÊN SANG CÂU TRUY VAN SQL CHO

TIENG VIỆT

LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC

TS CAO THỊ NHẠN

TP HÒ CHÍ MINH, 2023

Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan:

Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực

tiếp của TS Cao Thị Nhạn.

Mọi tham khảo trong luận văn đều được trích dẫn rõ ràng tên tác giả, tên công

trình, và thời gian công bố.

Moi sao chép không hợp lệ và vi phạm quy chế dao tạo tôi xin chịu hoàn toàn

trách nhiệm.

Thành phó Hồ Chí Minh, tháng 11 năm 2023

Học viên

Huỳnh Thiện Ý

Trang 3

LỜI CẢM ƠN

Học viên xin gửi lời cảm ơn chân thành đến TS Cao Thị Nhạn, Cô đã truyền

cảm hứng giúp học viên có được định hướng trong nghiên cứu khoa học Cô đã rèn

luyện cho học viên các kỹ năng thực hiện một nghiên cứu khoa học hoàn chỉnh từ

đọc hiểu, phản biện các báo cáo khoa học đến triển khai ý tưởng và viết báo

khoa học Cô đã tạo mọi điều kiện tốt nhất cho học viên trong quá trình thực

luận văn cũng như công việc nghiên cứu khoa học của học viên trong tương lai.

Trong quá trình học tập tại Trường Đại học Công nghệ Thông tin - Dai

cáo hiện

học

Quốc gia Thành phố Hồ Chí Minh, học viên được truyền dạy các kiến thức quan trọng dưới sự hướng dẫn của các thầy cô tại trường trong suốt hai năm học cao học.

Học viên xin gửi lời cảm ơn chân thành nhất đến quý thầy cô Đặc biệt, học viên

xin gửi lời cảm ơn chân thành đến quý thầy phản biện khoa học vì những góp ý quan trọng của quý thầy giúp cho luận văn được hoàn thiện hơn.

Cuối cùng, học viên muốn gửi lời cảm ơn chân thành nhất đến đắng thành, người thân và bạn bè Cảm ơn bố mẹ đã luôn đi tạo động lực thúc đây

thân của học viên, luôn ủng hộ con đường mà học viên đã chọn.

sinh

tỉnh

Trong quá trình thực hiện, học viên đã cố gắng hoàn chỉnh luận văn tốt nhất

có thể, tuy nhiên không thể tránh khỏi những thiếu sót và hạn chế Học viên rất

mong nhận được những ý kiến đóng góp quý báu đến từ đọc giả và quý thầy cô.

Một lần nữa, học viên xin gửi lời cảm ơn chân thành nhất!

Thành phó Hồ Chí Minh, thang 11 năm 2023

Học viên

Huỳnh Thiện Ý

Trang 4

DANH MỤC THUAT NGỮ VÀ TU VIET TAT wiceessscsssssssecsssssecssssesssssecssssssessssssecsssseees viii

Chuong 1 TONG QUAN

D1 Đặtvấnđề LA aa Orcs cece re Mc sscssessscessecnesstesssssesssesesennees 1

1.2 Mục tiêu và phạm Vi wee elec cece cs eecsescececsescscscseecseeeseecscenssenseenseenseenseenseenseees 2

Pe ek Cee Ae / `" ắố 2 1.2.2 Pham Vi 40 SG Meiers MMR, EI Pecsscccesesssecssecssecssecssocssocssecssecssecssecssaces 3

1.3 Ý nghĩa thực tiễn và ý nghĩa khoa học -cccccccc+ccccvvsccrrsrrrvsecccces 3 1.3.1 Ý nghĩa thực tiển -222222222222222211122222222111122221111112 2.11 crree 3 1.3.2 Ý nghĩa khoa học: -c::222222222ccEEEEEEEvrrrrrtrrrtrrrrerrrrrrrrerrrrreccceos 1.4 len ôn 8a ẽ 4dAAL.H)ẬậH,à , 4 Chương 2 CƠ SỞ LÝ THUYET

2.1 Bài toán Text-to-SQÌU - 2-5-5252 2x2 2222 22121.221.111 rrree 6

2.1.1 Phát biểu bài toán ccc -22222222222211E TT crrre 6 2.1.2 Các thách thức của bài toán Text-to-SQL trên tiếng Việt cccccccccc: §

22 Các phương pháp tiếp cận học sâu -2¿ ©22¿2222+++22ES++t2EEEEertrkkrerrrxee 9

2.3 RAT-SQL che 1I

2.3.1 RAT-SQL Encoder 5c c2 2S HH re 12

Trang 5

2.3.2 RAT-SQL Decoder

2.4 Các mô hình ngôn ngữ đã được huân luyện 5-5 5v+xsxvsvsxervrverrrxe 14

2.4.1 Bidirectional Encoder Representations from Transformers -. ‹-+ 15

2.4.2 Các mô hình ngôn ngữ tiền huấn luyện cho tiếng Việt - ¿©2552 17 Chuong 3 VAN DE CHUYEN MIEN TRI THUC VA CAC PHUONG PHAP DE

XUAT 19

3.1 Vấn dé chuyền miền tri thức -ccccvvvvvvvveverrrrrrrtrrrrttrrrrttrrrrrrrrrrrrrrree 19 3.1.1 Bài toán Text-to-SQL dưới dang thống kê cccccccssccccssecccerrrr 19 3.1.2 Vấn đề chuyền miễn tri thức trong Spider.

3.2 Cách tiếp cận Meta-learning -2222:+2222222222222222111121 222221112212 20

3.3 Empirical Quantile Risk Minization

3.4 InterRAT TL HH HH HH HH He 22

Chuong 4 CÁC THỰC NGHIỆM :::::::22222222222222221EEEEEEtrrrrrrrrrrrrrrrrre 27 4.1 Thực nghiệm về tác động của mô hình ngôn ngữ -ccccvvccccccccccccerre2 27 4.2 Thực nghiệm về các phương pháp học - : 22c++2222vvvzc+ttztvzvsseccee 28

443 Tap dit liệu thực nghiệm - ¿5-5252 S222 22121212121 21 1E 1 re 29

Chương 5 KET QUA THỰC NGHIỆM VA PHAN TÍCH - - ¿+2 31 5.1 Độ đo kết QUAL ce cecscccssssssseseccsssstnseseccssssnussseccssssiusessecssssiuessecessssuuseesssssuuseseeesssninees 31 5.2 Két quả khảo sát các mô hình ngôn ngữ - -¿- - + + k1 gi y 31 5.3 Kết quả trên các phương pháp học

Chương 6 KET LUẬN VÀ HƯỚNG PHAT TRIÊN .-¿-zz+222+zzttrzs+ 35 6.1 Két luận 35

6.2 Hướng phat triÊn - -¿- + + ST TH HH HH it 35

TÀI LIEU THAM KHAO eecssssessssssssssssssesssssecssssseessssssesssssvecessssessssueessssseesssssvessssseecessseeess 37

Trang 6

DANH MỤC HÌNH VE

Hình 1.1 Tốp 10 hệ quản trị cơ sở dữ liệu được sử dụng nhiều nhất tính đến tháng

11/2023 bởi DB-Engines 5-5-5 5< s2

Hình 2.1 Một mẫu dữ liệu cho bài toán trong tập Spider tiếng Việt 7

Hình 2.2 Vấn đề chuyền miền tri thức trong tập dữ liệu Spider tiếng Việt Tập dữ liệu dùng trong quá trình đánh giá thuộc miền tri thức công trình kiến trúc, trong khi tập dữ liệu dùng dé huấn luyện thuộc miền tri thức về công ty - - 9

Hình 2.3 Quá trình tiền huấn luyện của mô hình BERT [19] 16

Hình 2.4 Quá trình tiền huấn luyện của mô hình ngôn ngữ ELECTRA [22] 17

Trang 7

DANH MỤC BẢNG Bảng 4.1 Các siêu tham số của mô hình cơ sở RAT-SQL „27

20

Bảng 4.2 Ví dụ một mẫu dữ liệu từ tập Spider tiếng Việt

Bảng 5.1 Hiệu suất theo độ đo EM khi sử dụng các mô hình ngôn ngữ khác nhau

trên tap dev Va (€Sf ¿Sàn 212111 H112 H101 HH HH HH HH 31

Bảng 5.2 Hiệu suất trên tập test của các mô hình ngôn ngữ phân theo mức độ khó

Bang 5.3 Kết quả của các phương pháp học ở độ đo EM trên tập dev và test 33

Trang 8

DANH MỤC THUAT NGỮ VÀ TỪ VIET TAT

Từ Viết Tắt Nội Dung

BERT Bidirectional Encoder Representations from

Transformers

RoBERTa Robustly optimized BERT approach

RAT Relation-Aware Transformer

RASA Relation-Aware Self-Attention

LSTM Long Short-Term Memory

RBF Radial Basis Function

MLM Masked Language Model

SVGD Stein Variational Gradient Descent

EQRM Empirical Quantile Risk Minization

SGD Stochastic Gradient Descent

DU Domain Generalization

with Model-Agnostic Meta-Learning

Trang 9

DB-dữ liệu này, đòi hỏi người dùng phải có kiến thức về ngôn ngữ truy van DB-dữ liệu (cụ

thể là SQL) Việc này gây ra nhiều khó khăn với người dùng không phải là chuyên gia Vì vậy, yêu cầu cần có một mô hình chuyển đổi từ ngôn ngữ tự nhiên sang câu truy van SQL dé hỗ trợ người ding không chuyên, đặt ra tính cấp thiết cho bài toán Text-to-SQL.

Rank Score

Nov oct Nov DBMS Database Model cH 83 Cay

2023 2023 2022 2023 2023 2022

1 1 1 Oracle Relational, Multi-model f8 1277.03 +15.61 +35.34

2.22 MySQL Relational, Multi-model @ 1115.24 -18.07 -90.30

3 3 3 Microsoft SQL Server Relational, Multi-model 911.42 +1454 -1.09

4 4 4 PostgreSQL Relational, Multi-model fÿ 636.86 -1.96 +13.70

5.5 5 MongoDB Document, Multi-model @ 428.55 -287 -49.35

6 6 6 Redis Key-value, Multi-model § 160.02 -295 -22.03

7 7 7 Elasticsearch Search engine, Multi-modelfj 139.62 +2.48 -10.70

8 8 8 IBMDb2 Relational, Multi-model §8 136.00 +113 -13.56

9.9 410 SQLite Relational 124.58 -056 -10.05

10 10 9 Microsoft Access Relational 124.49 +019 -10.53

Hình 1.1 Tốp 10 hệ quản trị cơ sở đữ liệu được sử dụng nhiều nhất tính đến tháng

11/2023 bởi DB-Engines!

Nhằm đáp ứng tính cấp thiết của bài toán, hiện nay, nhiều tập dữ liệu đã được

đề xuất với rất nhiều thách thức khác nhau Từ các tập dữ liệu với câu hỏi đơn giản

như WikiSQL [1], trong đó mỗi cơ sở dữ liệu chỉ bao gồm một bảng đơn giản, đến các tập dữ liệu lớn với câu truy vấn và cơ sở đữ liệu phức tạp như: Spider [2], SParC

[3] Tuy nhiên, các tập dữ liệu này tập trung chủ yếu vào ngôn ngữ phổ biến là tiếng Anh Hiện chưa có nhiều tập dữ liệu và nghiên cứu cho bài toán trên tiếng Việt Hơn

nữa, các bộ dữ liệu như Spider còn xem xét thêm một thách thức thực tế đối với bài

toán là việc chuyển miền tri thức (Domain Shift) Nếu xem mỗi cơ sở đữ liệu là một

1 https://đb-engines.com/

Trang 10

TONG QUAN

miên tri thức, mô hình cho bài toán phải dat được hiệu suất tôt trên các cơ sở dit liệu chưa từng gặp trong quá trình huấn luyện Vì vậy đề tài xem xét hai vấn đề là ngữ

cảnh tiếng Việt và chuyền miền tri thức với đữ liệu được dịch từ tập Spider tiếng Anh.

Các cách tiếp cận hiện tại sử dụng mạng nơ ron nhân tạo kết hợp tinh chỉnh

mô hình ngôn ngữ đã được huấn luyện (Pre-trained language model) nhằm tận dụng

tri thức trong các mô hình này dé tăng hiệu suất Đồng thời, nhiều phương pháp huấn luyện mô hình đã được đề xuất dé giải quyết van đề về chuyển miễn tri thức giữa các

co sở dir liệu Vi vậy, mô hình ngôn ngữ và thuật toán huấn luyện được sử dụng đóng

vai trò quan trọng quyết định hiệu suất của mô hình bên cạnh mô hình cơ sở Mỗi mô hình ngôn được tiền huấn luyện bằng các tác vụ cũng như dữ liệu khác nhau dẫn đến tác động đến mô hình chính của bài toán cũng khác nhau Tương tự, các thuật toán

huấn luyện khác nhau có tác động đến khả năng tổng quát hóa của mô hình đề thích

nghỉ trên các miễn tri thức chưa gặp là khác nhau Tuy nhiên chưa có nhiều công trình khảo sát tác động của các mô hình ngôn ngữ cũng như thuật toán đối với bài toán trên

tiếng Việt Do đó, từ những vấn đề nêu trên, luận văn trước hết khảo sát và phân tích các tác động của mô hình ngôn ngữ và thuật toán huắn luyện đến bài toán, sau đó dé

xuất mô hình ngôn ngữ phù hợp, đồng thời đề xuất phương phương pháp huấn luyện mới dé nâng cao hiệu suất của mô hình cho bai toán.

1.2 Mục tiêu và phạm vi

1.2.1 Mục tiêu

- Tim hiểu bài toán Text-to-SQL trên tiếng Việt và các nghiên cứu liên quan.

- Khao sát va phân tích ảnh hưởng của các mô hình ngôn ngữ và các phương pháp

học tập khác nhau đến hiệu suất của mô hình nhằm đề xuất mô hình ngôn ngữ

và phương pháp học phù hợp.

- Đề xuất phương pháp huấn luyện mới giúp tăng tinh tổng quát hóa của mô hình

trên các miền tri thức khác nhau từ đó tăng hiệu suất tổng quá của mô hình.

- Thực nghiệm, so sánh và phân tích hiệu suất khi áp dụng các mô hình ngôn ngữ,

phương pháp học hiện có cũng như phương pháp đã đề xuất.

Trang 11

TONG QUAN

1.2.2 Pham vi - Các thực nghiệm và phân tích của dé tài giới han trong tập dữ liệu Spider tiếng

Việt, được dịch từ tập Spider cho tiếng Anh.

- Mô hình ngôn ngữ trong đề tài đều ở kiến trúc cơ sở (base), với số lượng tham

số nhỏ, không xét đến các mô hình với kiến trúc lớn (large) do giới hạn về phần

cứng.

- Luan văn xem xét các phương pháp huấn luyện cơ sở (baseline) theo cách tiếp

cận Meta-Learning trong việc giải quyết van đề chuyển miền tri thức trong bài

toán.

-_ Kết quả các thực nghiệm được đánh giá trên độ do Exact Match Without Values,

chưa xem xét đến các độ đo khác như kết quả thực thi câu truy vấn do giới hạn

từ tập dữ liệu.

1.3 Ý nghĩa thực tiễn và ý nghĩa khoa học

1.3.1 Ý nghĩa thực tiễn

Bài toán được xem xét trong luận văn có nhiều ý nghĩa thực tiễn do nhu cầu

khai thác thông tin từ lượng lớn các cơ sở dữ liệu hiện có, hỗ trợ người dùng không

chuyên có thể truy vấn thông tin bằng ngôn ngữ tự nhiên Nghiên cứu cũng có thể

được tích hợp vào các ứng dụng thực tiễn như hệ hỏi đáp, chat bot, hệ thống khuyến

nghi, Ngoài ra, nghiên cứu tập trung giải quyết van đề về việc chuyển miễn tri thức giữa các cơ sở dữ liệu Đây là vấn đề thực tiễn của bài toán khi mỗi doanh nghiệp cần lưu trữ và khai thác dữ liệu quan hệ trên các lĩnh vực khác nhau.

1.3.2 Ý nghĩa khoa học:

Bài toán Text-to-SQL về bản chất là một dạng của bài toán phân tích ngữ nghĩa (Semantic Parsing) giúp chuyên đổi ngôn ngữ tự nhiên sang dạng logic, là vấn đề cơ

ban và nền tang trong xử lý ngôn ngữ tự nhiên Vì vậy, nghiên cứu đóng góp trong

việc xử lý ngữ nghĩa của câu nói tự nhiên cũng như liên kết ngữ nghĩa với ngôn ngữ lập trình Mô hình phát triển bởi ngôn ngữ cũng có thể được tận dụng đề trích xuất các đặt trưng ngữ nghĩa cho các tác vụ xử lý ngôn ngữ tự nhiên khác Luận văn còn

cung cấp khảo sát về tác động của các mô hình ngôn ngữ khác nhau đến bài toán, từ

3

Trang 12

luyện mô hình có khuynh hướng tối ưu khác nhau sẽ có tác động khác nhau đến mô

hình Các tác động này được thực nghiệm và phân tích trong luận văn đề làm cơ sở cho việc nghiên cứu các phương pháp học tối ưu hơn cho bài toán Ngoài ra, nghiên

cứu còn đề xuất một phương pháp huấn luyện mới cho bài toán với sự kết hợp giữa các tiếp cận bayes và particle-based optimization để nâng cao khả năng trích xuất đặc

trưng từ mô hình ngôn ngữ cũng như tăng tính tổng quát của mô hình.

1.4 Cấu trúc luận văn

Chương 1: Tổng quan

Giới thiệu tổng quan về vấn đề mà luận văn cần thực hiện, phạm vi nghiên cứu cũng như các đóng góp của luận văn về cả hai khía cạnh: thực tiễn và khoa học.

Chương 2: Cơ sở lý thuyết

Giới thiệu bài toán Text-to-SQL cùng các thách thức khi giải quyết bài toán trên ngữ cảnh ngôn ngữ tiếng Việt Các phương pháp tiếp cận hiện tại về mặt kiến trúc mô

hình cũng như phương pháp huấn luyện cũng được trình bày và phân tích trong chương này Đồng thời, chương cũng giới thiệu tổng quan về các mô hình ngôn ngữ

thường được sử dụng cho bài toán.

Chương 3: Vấn đề chuyển miền tri thức và các phương pháp đề xuất

Chương này trình bày về vấn đề chuyền miền tri thức (Domain shift) hay tổng quát

hóa miền tri thức (Domain Generalization) trên bộ dữ liệu Spider tiếng Việt Sau đó trình bày về hai phương pháp mà luận văn đề xuất dé giải quyết van đề nêu trên.

Chương 4: Các thực nghiệm

Các chiến lược cũng như thiết lập cụ thể cho các thực nghiệm được trình bày trong

chương Đồng thời, tập dữ liệu và độ đo thé hiện các kết quả thực nghiệm sẽ được

trình bày.

Chương 5: Kết quả thực nghiệm và phân tích

Trang 13

TONG QUAN l

Trình bày kết quả của các thực nghiệm trong chương 4 và các phân tích trên kêt quả liên quan đến mô hình ngôn ngữ, các phương pháp huấn luyện cơ sở cũng như các

phương pháp mà luận văn đề xuất.

Chương 6: Kết luận và hướng phát triển

Tổng hợp các van dé của bài toán mà luận văn đã giải quyết cùng các định hướng

phát triển đề tài.

Trang 14

CƠ SỞ LÝ THUYET

Chương 2 CƠ SỞ LÝ THUYET

Do nhu cầu khai thác thông tin từ một lượng rất lớn dữ liệu trên các cơ sở dữ liệu hiện có, nên bài toán Text-to-SQL được đặt ra đi kèm với nhiều thách thức từ

thực tế Từ yêu cầu đó, rất nhiều bộ di liệu đã được đề xuất dẫn đến các cách tiếp cận

khác nhau cho bài toán Vì vậy, phần mở đầu chương sẽ giới thiệu bài toán SQL cùng với các thách thức từ bộ dữ liệu trong ngữ cảnh tiếng Việt Sau đó, các

Text-to-phương pháp tiếp cận đã được dé xuất sẽ được trình bày và phân tích để đặt cơ sở cho hai phương pháp mà luận văn đề xuất Các đặc điểm về kiến trúc, tác vụ tiền huấn

luyện của các mô hình ngôn ngữ được dùng trong các cách tiếp cận hiện tại sẽ được

sơ lược trong phần kết chương.

2.1 Bài toán Text-to-SQL

2.1.1 Phát biểu bài toán

Chuyển đổi ngôn ngữ tự nhiên sang dạng logic (semantic parsing) là một trong

những vấn dé nên tảng trong Xử lý ngôn ngữ tự nhiên Một dang của bài toán

Semantic Parsing là chuyền đồi ngôn ngữ tự nhiên sang ngôn ngữ biéu diễn như: logic bậc nhất (first order logic) , hay các ngôn ngữ lập trình (Python, Java, SQL ) [4].

Text-to-SQL là một dang cụ thể của bài toán vừa nêu với đích chuyển đổi là ngôn ngữ truy vấn có cấu trúc SQL Bài toán được phát biểu cụ thể như sau:

Input:

1) Lược đồ cơ sở dữ liệu (Schema) S = 7 UC bao gồm m bảng T = {f, tạ, tz,

.„„fm} va các cột thuộc tính tương ứng với từng bang C=

t t t t t; t; t; ;

(C1, Cah Cha se, Có, CỤ, C2” Ca”, «ý G7 oe}

2) Câu hỏi truy van dạng ngôn ngữ tự nhiên Q = (đ¡, đa, 43, ++» Nal)

Output: Câu truy vấn SQL tương ứng với ngữ nghĩa của câu hỏi dạng ngôn ngữ tự nhiên.

Để phục vụ cho việc nghiên cứu bài toán, đã có nhiều tập dữ liệu được phát

triển đa dạng trên nhiều mức độ khó và miễn tri thức khác nhau Điển hình, ở mức cơ

bản nhất trong đó các tập dữ liệu đơn giản chỉ bao gồm một cơ sé đữ liệu với số lượng

Trang 15

CƠ SỞ LÝ THUYET

nhỏ các câu truy vấn như ATIS [5], GeoQuery [6], Academic [7] Hơn nữa, câu truy

van SQL của các tap đữ liệu nay trong tập train va test là giống nhau, nên chưa đánh

giá được khả năng thực sự của mô hình được áp dụng Nâng cấp hơn về độ lớn tập

dữ liệu thì ta có tập WiKiSQL [1] Tuy số có số lượng câu truy van SQL cùng với sốlượng cơ sở dữ liệu lớn hơn các tập dữ liệu trên, các câu truy vấn trong tập WiKiSQLcòn khá đơn giản Đồng thời, mỗi một cơ sở dữ liệu chỉ bao gồm một bảng Tập dữ

liệu đủ phức tạp và gần với thực tế nhất cũng như là tập dữ liệu mà luận văn tập trung

là Spider [2] Tập Spider bao gồm nhiều câu truy vấn với các cấp độ phức tạp khácnhau, đồng thời mỗi cơ sở dữ liệu bao gồm nhiều bảng và thuộc các miền tri thức

khác nhau.

Các bộ dữ liệu nêu trên đều tập trung ở ngôn ngữ phổ biến trên tiếng Anh,chưa có nhiều tập dữ liệu cũng như công trình cho bài toán trên tiếng Việt Khảo sáttới thời điểm thực hiện luận văn, có hai tập dit liệu cho bài toán trên tiếng Việt Dautiên là tập dữ liệu từ công trình của Vuong cùng các cộng sự [8], bao gồm 1258 câutruy vấn đơn giản trên 03 cơ sở dữ liệu Tuy nhiên, tập dữ liệu này không được công

bố công khai Một tập dữ liệu khác được dịch từ tap Spider cho tiếng Anh được nêutrên từ công trình cua Tuan cùng các cộng sự [9] , đây cũng là tập mà luận văn tập

trung chính.

@ Những quốc gia nào ở châu Âu có ít nhất 3 nhà sản xuất xe hơi? j

“

SELECT T1.[tên quốc gia] FROM [quốc gia] AS T1 JOIN [lục địa]

AS T2 ON T1.[lục địa] = T2.[id lục địa] JOIN [nhà san xuất xe hoi]

AS T3 ON T1.[id quốc gia] = T3.[quéc gia]

WHERE T2.[lục dia] = “chau âu” GROUP BY T1.[tên quốc gia]

HAVING count(*) >= 3

`

Hình 2.1 Một mẫu đữ liệu cho bài toán trong tap Spider tiéng Viét.

Trang 16

CƠ SỞ LÝ THUYET

2.1.2 Các thách thức của bài toán Text-to-SQL trên tiếng Việt

Việc thực hiện bài toán trên ngôn ngữ tiếng Việt đối mặt với nhiều thách thức:

sự khác biệt từ đặc điểm ngôn ngữ, thách thức từ tập dữ liệu Spider tiếng Việt vàthiếu các mô hình ngôn ngữ chuyên biệt cho bài toán

Về đặc điểm ngôn ngữ, việc dịch từ tiếng Anh sang tiếng Việt có khả năngsinh ra một số sai sót từ việc mang cách dùng của tiếng Anh sang tiếng Việt Ngoài

ra, việc phân tách từ trong tiếng Anh thường dùng dấu cách, tiếng Việt thì không Cácđặc điểm này ảnh hưởng đến hiệu suất của mô hình và đã được trình bày trong thực

nghiệm từ nghiên cứu của Tuan cùng các cộng sự [9].

Về các khó khăn tạo ra từ tập dữ liệu, ta có thé tổng hợp 03 thách thức chính

từ tập dữ liệu Spider trên tiếng Việt Đầu tiên, tập dữ liệu đề ra 04 mức độ khó khác

nhau: Easy, Medium, Hard, Extra Hard Các mức độ khó này bao phủ hết gần như

các trường hợp khi viết câu truy vấn trong thực tế Ở các độ khó cao hơn, câu truyvan bao gồm các câu truy van lồng và câu truy van con Điều này yêu cầu mô hình

phải học được tính câu trúc tốt khi sinh câu truy vấn Tiếp theo, các cơ sở dữ liệu bao

gồm nhiều bảng liên kết với nhau bằng khóa ngoại Từ đó, mô hình cần xác định đượcbảng, hay cột nào trong lược đồ có tham gia vào việc sinh ra câu truy van Tổng quáthơn là mô hình cần xác định được yêu tố liên kết giữa các thành phan trong Input củabài toán Việc xác định đặc trưng liên kết này sẽ đơn giản trong trường hợp tên bảng

hoặc tên cột xuất hiện trong câu hỏi tự nhiên như trường hợp của bảng “quốc gia”

trong Hình 2.1 Tuy nhiên đối với các liên kết được suy luận hay có tính tương đồng

về mặt ngữ nghĩa thì mô hình sẽ gặp nhiều khó khăn Ví dụ như trong Hình 2.1, môhình cần xác định được là “châu Âu” được đề cập trong câu hỏi có liên quan đến bảng

“lục địa” trong lược đồ cơ sở dữ liệu Thách thức cuối cùng từ tập dữ liệu là việc

chuyển miền tri thức giữ các cơ sở dữ liệu Mỗi một cơ sở đữ liệu đề cập đến một lĩnh

vực khác nhau, đồng thời các miền tri thức khi đánh giá mô hình chưa từng xuất hiện

Trang 17

fe} ) | What are the name of each industry and the number of company in | | Cho biết tên của tắt cả các ngành công nghiệp va số lượng công ty |

Oo that industry ? tương ứng thuộc mỗi nganh ?

| sevecr Industry, count(*) FROM Companies GROUP BY Industry | SELECT Ngành công nghiệp, count(*) FROM Công ty GROUP BY Nganh |

S SELECT Type, count(*) FROM mil/ GROUP BY Type ORDER BY count(*) SELECT Loại, count(*) FROM Wha may GROUP BY Loại ORDER BY

E a DESC LIMIT 4 count(*) DESC LIMIT 1

Hinh 2.2 Van dé chuyén miền tri thức trong tập dữ liệu Spider tiếng Việt Tập dữ liệu

dùng trong quá trình đánh giá thuộc miền tri thức công trình kiến trúc, trong khi tập dữ liệu

dùng đề huấn luyện thuộc miền tri thức về công ty.

Ví dụ trong Hình 2.2, mô hình được huấn luyện trên các mẫu từ cơ sở dự liệu

công ty văn phòng (company office) nhưng mau test là từ một cơ sở dữ liệu với lĩnh

vực khác hoàn toàn là về công trình kiến trúc Thách thức này xảy ra với hầu hết các

mô hình máy học và thường được nhắc đến với khái niệm là tổng quát hóa miền tri

thức (Domain Generalization).

Các cách tiếp cận hiện tại thực hiện việc tinh chỉnh các mô hình đã được huấn

luyện cùng với mô hình chính cho bài toán để tăng hiệu suất của mô hình Đối vớingữ cảnh ngôn ngữ tiếng Việt, theo khảo sát của học viên, chỉ có các mô hình ngôn

ngữ được huấn luyện trên dữ liệu văn bản, chưa có các mô hình được huấn luyện sẵn

tập trung cho dữ liệu dạng bảng cho bài toán Text-to-SQL như mô hình GraPPa [10]trên tiếng Anh

2.2 Các phương pháp tiếp cận học sâu

Các nghiên cứu hiện tại trên bài toán phần lớn sử dụng các mô hình học sâu(Deep learning) chia làm 2 nhánh chính theo cau trúc của mô hình bao gồm: mã hóa-giải mã (Encoder-Decoder) và điền vào khung câu truy van cho trước (Sketch-based

Trang 18

CƠ SỞ LÝ THUYÉT

slot-filling) [11] Các mô hình dang Encoder-Decoder có thé chia thành 02 nhóm con

là mô hình chuỗi sang chuỗi (Seq2seq) [1] và giải mã dựa trên ngữ pháp

(Grammar-based) [12] [13] Mỗi cách tiếp cận có ưu và nhược điểm khác nhau cụ thé như sau:

chuỗi câu truy van output

- Uu điểm: có khả năng sinh ra các câu truy van phức tạp khác so với

nhãn do không bị giới hạn không gian câu truy vấn đầu ra

- _ Nhược điểm: dễ sinh ra các từ hoặc từ khóa lạ không đúng với câu truy

vấn

Grammar-based: nhóm cách tiếp cận này khác với mô hình seq2seq trongphần giải mã ở chỗ quy trình giải mã được giới hạn trong các luật ngữ phápcủa ngôn ngữ SQL Cụ thé hơn, quá trình giải mã thường đi theo quy trìnhduyệt cây cú pháp trừu tượng (Abstract Syntax Tree) của ngôn ngữ SQL.

- Uu điểm: câu truy van được tao ra giới han trong phạm vi ngữ pháp

của ngôn ngữ SQL do đó khó tạo ra các từ lỗi.

- Nhược điểm: phụ thuộc vào bộ ngữ pháp của ngôn ngữ SQL được sử

dụng do đó hạn chế không gian câu truy vấn kết quả

Sketch-based slot-filling: cách tiếp cận này giới hạn không gian kết quả đầu

ra trong một khung câu truy vấn SQL Từ đó, mô hình cần dự đoán sự có mặtcủa các thành phần trong khung câu truy vấn (ví dụ như có điều kiện chọn haykhông), sau đó điền các giá trị thích hợp vào khung Các giá trị được điền vàokhung có thé là tên cột, tên bảng hay là giá trị từ câu hỏi tự nhiên cung cấp

- Ưu điểm: dam bảo câu truy van đúng cấu trúc và ngữ pháp của SQL

nhờ khung có sẵn.

10

Trang 19

CƠ SỞ LÝ THUYET

- _ Nhược điểm: do giới hạn trong khung câu truy van sẵn có nên mô hình

khó tao ra các câu truy van phức tạp, đồng thời không gian câu truy van

kết quả cũng bị giới hạn rất nhiều

Phần tiếp theo của chương sẽ trình bày về một mô hình thuộc nhóm

Grammar-based là RAT-SQL [12] Mô hình được sử dụng làm mô hình cơ sở cho

các phương pháp cũng như các thực nghiệm của luận văn Lý do chọn mô hình này

cho các nghiên cứu của luận văn là vì mô hình nằm trong top các bảng xếp hạng hiệu

xuất của tập dit liệu Spider không tính đến việc sử dụng các mô hình tiền huấn luyện

hỗ trợ Hơn nữa, mô hình này còn được sử dụng trong các nghiên cứu cơ sở (baseline)

có liên quan đên nghiên cứu của luận văn.

2.3 RAT-SQL

Từ khi được công bó, kiến trúc mang Transformer [14] được rat nhiéu su quantâm trong cộng đồng nghiên cứu hoc sâu nói chung va cà cộng đồng xử lý ngôn ngữ

tự nhiên nói riêng Kiến trúc đã đạt được nhiều bức phá trong việc cái tiếng hiệu suất

của các bài toán xử lý ngôn ngữ tự nhiên điển hình là dịch máy Từ đó, các nghiêncứu nhằm chỉnh sửa và tối ưu kiến trúc này cho các bài toán thuộc nhiều lĩnh vựckhác nhau liên tục được công bó, trong đó có bài toàn Text-to-SQL Nhằm khuyếnkhích liên kết giữa các phần trong input của bài toán, Wang cùng các cộng sự [12] đãchỉnh sửa cấu trúc tự chú ý (self-attention), một thành phan quan trọng trong cau trúcTransformer, dé trong quá trình huấn luyện mô hình sẽ thiên về các mối liên kết biếttrước như: khóa ngoại, bảng-cột, giá trị trong câu hỏi tự nhiên và thành phần trong

lược đồ cơ sở dữ liệu, thành phần kiến trúc này được đặt tên là Relation-Aware

Self-Attention (RASA) Cau trúc chi tiết của thành phan này cũng như kiến trúc tong

quát từng phần Encoder và Decoder của mô hình RAT-SQL sẽ được trình bày sau

đây.

11

Trang 20

2.3.1 RAT-SQL Encoder

Phần mã hóa của RAT-SQL còn gọi là Relation-Aware Transformer (RAT)

gồm các lớp RASA xếp chồng lên nhau Mỗi lớp RASA được chỉnh sửa từ Attention của Transformer theo các phương trình sau:

Trong đó x; € R® là một vector thuộc tập các vector đầu vào X = {x,}74,

ws”, ws”, wi”? € R#+zX(4⁄H) là các tham số của mô hình, 1 <h <H, H là số

lượng head trong kiến trúc của Transformer, LayerNorm là lớp chuẩn hóa dựa theonghiên cừu cứu của Ba cùng các cộng sự [15], FC là lớp kết nối đầy đủ (Fully

Connected) RASA khác với Self-Attention truyền thống ở các phan biểu diễn quan

hệ giữa các thành phan trong input được tô đỏ trong hai phương trình (2.1 và (2.1.3)

Dé hiểu rõ ý nghĩa của điểm khác biệt này ta giải nghĩa trường hợp của Attention, trong đó hai thành phần được tô đỏ không tôn tại Khi đó đầu vào x; được

Self-biến đối thành Z¿ qua chuỗi các phương trình (2.1 Theo đó, biểu diễn của một thành

phần x; trên mỗi head được hình thành dựa trên quan hệ với biểu diễn của các thànhphần khác, các quan hệ này được tham số hóa qua các tham số W vì vậy có thể thay

12

Trang 21

đổi trong quá trình huấn luyện Độ mạnh hay yêu của các quan hệ này được thé hiện

Act £ (h) qua các trong sô @;; ở phương trình (2.1.2).

Trở lại với RASA, việc xác định và tận dụng các quan hệ giữa các thành phần

trong input là rất quan trọng, giúp ta xác định được các bảng hoặc cột nào sẽ xuất

hiện trong câu truy vẫn kết quả Do đó đối với RASA, tác giả cộng biéu diễn củacác quan hệ đã biết này vào trong quá trình mã hóa, thê hiện ở phần tô đỏ Điều nàygiúp trong quá trình huấn luyện, mô hình sẽ cập nhật hướng theo các quan hệ đã biếtnhiều hơn

RAT-SQL nhắn mạnh mối quan hệ giữa các phần tử trong Input, bao gồm cảquan hệ giữa các từ trong câu hỏi tự nhiên và lược đồ cơ sở dữ liệu Vì vậy, về mặthình thức, phần mã hóa có thé được biéu diễn bằng đồ thị G = (V,E) trong đó tậpđỉnh V = C UT U Q bao gồm tập các cột, bang và các từ trong câu hỏi tự nhiên Tap

các cạnh E biểu diễn các dang quan hệ: khóa chính, khóa ngoại, cột thuộc bang, hai

cột chung một bảng và quan hệ giữa từ trong câu hỏi tự nhiên và cột hoặc bảng liên

quan.

Trong đó quan hệ giữa từ trong câu hỏi và các thành phần của lược đồ là

không san có và khó xác định nhất Các nghiên cứu tiếp cận hiện tại xác định các

đặc trưng liên kết này sử dụng phương pháp tiềm kiếm heuristic trên mặt chữ băng

cách so khớp n-gram giữa câu hỏi ngôn ngữ tự nhiên với tên bảng hoặc tên cột Tuy

nhiên phương pháp này có nhiều yếu điểm như: không thể xác định được các liênkết dang cùng chung ngữ nghĩa, liên kết nhờ suy luận, Day cũng là yếu tổ màphương pháp đề xuất trong luận văn tập trung cải tiến

Cho trước một mẫu đầu vào X = (c¡, , Clel, tay) ÊIr|, Qa +» Qa) ( các chỉ số bảngtrên mỗi cột được lược bỏ dé đơn giản cho việc biểu diễn), có hai cách đề biểu diễncác phần tử trong input này trước khi đưa vào RAT là sử dụng các vector từ từ các

mô hình embedding đã được huấn luyện sẵn như Word2vec [16] hay Glove [17]hoặc sử dụng các mô hình ngôn ngữ đã được huấn luyện dé trích xuất vector biểu

diễn Mỗi phần tử trong mẫu này cũng đại diện tương ứng là một đỉnh trong đồ thìđược trình bay ở phần trước Sau quá trình biểu diễn các thành phan của input ta

13

Trang 22

được tập input khởi tạo, tạm ký hiệu: X=

(Cp Cie HP”, tị › q7”, + Vg) )- Phan khởi tao nay sau đó di qua các lớp

của RAT cho ta biểu diễn cuối cùng của từng phan tử là c¿, t;,q; Phần giải mã của

mô hình sẽ sinh câu truy van dựa trên các biéu diễn nay

- APPLYRULE: tiếp tục nới rộng node hiện tai bằng luật ngữ pháp

- SELECTTABLE: chọn bảng khi gặp node lá.

- SELECTCOLUMN: chọn cột khi gặp node lá.

2.4 Các mô hình ngôn ngữ đã được huấn luyện

Như đã đề cập trong chương 2.3.1, các cách tiếp cận hiện tại thường dùngcác mô hình ngôn ngữ được huấn luyện sẵn trên một lượng lớn dit liệu văn ban dé

biểu diễn các vector đầu vào cho mô hình, đồng thời kết hợp tinh chỉnh tham số của

các mô hình ngôn ngữ này để thích hợp cho bài toán Nhờ đó, hiệu suất của bài toánđược cải tiễn nhờ vào lượng tri thức được tích hợp trong các mô hình ngôn ngữ này.Việc sử dụng các mô hình ngôn ngữ này cho bài toán đã được chứng minh mang lạihiệu suất tốt hơn nhiều so với các mô hình embedding truyền thống Tuy nhiên mỗi

mô hình ngôn ngữ sử dụng kiến trúc, tiền xử lý, tác vụ tiền huấn luyện khác nhau

cũng như dữ liệu huấn luyện khác nhau Điều này dẫn đến tác động đến mô hình

chính cũng như hiệu suất của bài toán là khác nhau Vì vậy, luận văn đã thực nghiệm

và phân tích các tác động này của các mô hình ngôn ngữ khác nhau, giới hạn trong

các mô hình dang BERT [19] với kiến trúc cơ sở (base model), nhăm đề xuất môhình thích hợp cho bài toán Phần này của chương sẽ trình bày sơ lược về các mô

hình ngôn ngữ được xem xét trong luận văn.

14

Trang 23

2.4.1 Bidirectional Encoder Representations from Transformers

Devlin cùng các cộng su đã tiếp nối sự thành công của kiến trúcTransformer [20] trong xử lý ngôn ngữ tự nhiên băng việc phát triển một mô hìnhngôn ngữ dựa trên phần mã hóa (Encoder) của Transformer Nhờ khả năng mã hóaliên kết giữa các thành phần trong input của Transformer, BERT có thể tạo ra đượcvector biêu diễn từ với ngữ cảnh rộng hơn các mô hình embedding truyền thống.Một mô hình ngôn ngữ như BERT hoặc các mô hình phát triển từ BERT sẽ có 2quá trình chính là tiền huấn luyện (Pre-trained) và tinh chỉnh (Fine-Tuning) Quá

trình tiền huấn luyện đóng vai trò chính trong việc học biểu diễn cùa một từ dựa

trên ngữ cảnh Các biểu diễn này sẽ được chỉnh sử theo các bài toán cụ thé trong

xử lý ngôn ngữ tự nhiên trong quá trình Fine-Tuning Phan tinh chỉnh của các mô

hình ngôn ngữ sẽ không được trình bày trong luận văn do khác bài toán, vì vậy đọc

giả có thé tìm đọc phần này trong nghiên cứu gốc của các mô hình Các tác vụ tiềnhuấn luyên của BERT và các mô hình được phát triển dựa trên BERT sẽ được trìnhbày sơ lược như sau :

- BERT: về kiến trúc, BERT dùng kiến trúc phần mã hóa của Transformer với

hai phién bản có kích khác nhau là BERTbnasz với 12 lớp, kích thước lớp an là

768, gồm 12 head, với tổng số tham số là 110 triệu và BERTLAno với 24 lớp,

kích thước lớp an là 1024, gồm 16 head, với tong số tham số là 340 triệu Quá

trình tiền huấn luyện cua BERT được mô tả trong Hình 2.3, gồm hai tác vụ là

dự đoán token bị che (Masked LM - MLM) và dự đoán câu tiếp theo khi đã cómột câu cho trước (Next Sentence Prediction — NSP) Do đó, đầu vào của môhình sẽ bao gồm 2 câu A và B được tách thành các token (đơn vị từ) nhỏ.BERT thêm vào các token đặc biệt để mô hình nhận biết vị trí đầu câu là

“TCLS]” và vi trí phân cách giữa 2 câu “[SEP]” Ở tác vụ dự đoán từ bị che,

BERT sẽ chọn ngẫu nhiên 15% token trong input và thay 80% các token này

băng token đặc biệt là “[MASK]”, 10% thay bằng token bất kì và 10% giữnguyên Nhiệm vụ của mô hình là dự đoán các token bị che này Đối với tác

vụ dự đoán câu tiêp theo, dữ liệu được huân luyện được tạo ra băng cách với

15

Trang 24

CƠ SỞ LÝ THUYET

mỗi câu A được chọn, 50% câu B sẽ là câu tiếp theo của A và 50% là câu bất

kỳ, mô hình sẽ phải dự đoán câu B có phải là câu tiếp theo của A hay không

Masked Sentence A Masked Sentence B

+

Unlabeled Sentence A and B Pair

Hình 2.3 Quá trình tiền huấn luyện của mô hình BERT [19]

- RoBERTa: là một cải tiến từ BERT theo công trình của Liu và các cộng sự

[21] ROBERTa giữ theo kiến trúc của BERT, chỉ thay đôi tác vụ huấn luyện,siêu tham số và tiền xử lý dé đạt được các cải tiễn hiệu suất Cu thé, ROBERTa

không giữ nguyên vị trí của các token bị che trên mỗi mẫu đữ liệu như BERT,

thay vào đó các token bị che này sẽ được sinh ngẫu nhiên khi một mẫu dé liệu

được đưa vào mô hình RoBERTa không sử dụng tác vụ dự đoán câu tiếp theo

trong quá trình tiền huấn luyện, thay vào đó input của mô hình sẽ được chọn

từ các câu liên tiếp trong một hoặc nhiều tài liệu sao cho thỏa mãn chiều đài

của input là 512 token Các tài liệu khác nhau được phân cách bằng token

“[SEP]” Thay đổi cuối cùng là ROBERTa được huấn luyện với số lượn mẫumỗi lần (batch size) lớn hơn so với BERT

- Electra: là một mô hình ngôn ngữ khác cũng được cải tiến dựa trên BERT

[22] Electra giữ nguyên kiến trúc của BERT, chỉ cải tiến về phương pháp tiền

huấn luyện, theo đó mô hình sẽ gồm 2 phần là Generator và Discriminator

được mô tả trong Đầu vào của mô hình cũng sẽ được che đi một SỐ lượng

token , sau đó phân Generator cua mô hình sẽ dự đoán token ban dau của

16

Trang 25

CƠ SỞ LÝ THUYET

những vị trị bi che đi Discriminator được huấn luyện đề phân biệt giữa token

từ data và token được sinh ra từ phan Generator

sample

the —»[MASK] -> the original

chef —> chef Generator chef Discriminator original

cooked —> [MASK] (typically a > ate (ELECTRA) replaced

the —» the small MLM) the original

meal —> meal meal Original

Hình 2.4 Quá trình tiền huấn luyện của mô hình ngôn ngữ ELECTRA [22]

2.4.2 Các mô hình ngôn ngữ tiền huấn luyện cho tiếng Việt

Tương ứng với các mô hình ngôn ngữ cho tiếng Anh trình bày trong mục 2.4.1,công đồng nghiên cứu trong nước cũng đã phát triển các mô hình ngôn ngữ dànhcho tiếng Việt với các thay đôi về tiền xử lý cũng như đữ liệu huấn luyện cho phù

hợp với đặc trưng ngôn ngữ của tiếng Việt Các mô hình ngôn ngữ cho tiếng Việt

tương ứng được sơ lược như sau:

- mBERT: multilingual Bert là phiên bản đa ngôn ngữ cho mô hình BERT được

trình bay trong chương trước, được huấn luyện trên tập dit liệu gồm 104 ngônngữ bao gồm tiếng Việt Mô hình khá thích hợp cho các tác vụ yêu cầu đangôn ngữ trong đó có Text-to-SQL do tập dữ liệu vẫn giữ một số giá trị chuỗi

là ngôn ngữ tiếng Anh trong câu truy vấn

- PhoBERT: mô hình ngôn ngữ dựa trên kiến trúc của RoBERTa với một số

tinh chỉnh cho tiền xử lý tiếng Việt [23] PhoBERT yêu cầu việc tách từ trêncâu đầu vào trước khi đưa vào mô hình Chính vì vậy, chiều dài tối đa cho đầuvào của Phobert chỉ là 256 ngắn hơn so với các mô hình khác Mô hình nàyđược huấn luyện trên 20GB dữ liệu tiếng Việt với nội dung bao gồm từWikipedia và các bài báo tin tức.

- yvELECTRA: mô hình này dựa theo cách tiếp cận tiền huấn luyện của

ELECTRA được trình bày trong chương trước [24] Dữ liệu được sử dụng

17

Trang 26

CƠ SỞ LÝ THUYET

gồm 2 tập tiếng Việt là NewsCorpus và OscarCorpus VELECTRA không yêu

cầu tách từ trước khi đưa vào mô hình so với PhoBERT

- vibert4news: mô hình giữ nguyên cấu trúc và cách tiếp cận của BERT chi

khác di liệu huấn luyện vibert4news được huấn luyện trên 20GB dir liệu làcác bài báo tiếng Việt

Tổng hợp lại, luận văn chọn khảo sát các mô hình vừa nêu là đại diện cho cácnhóm cách tiếp cận khác nhau ở phan tiền huấn luyện Hơn nữa, trong nhóm các

mô hình được khảo sát còn có mô hình đa ngôn ngữ và đơn ngôn ngữ tiếng Việt.Tính đa dạng này giúp ta có cái nhìn tổng quát hơn về tác động của các mô hìnhđên bài toán.

18

Trang 27

VAN DE CHUYEN MIEN TRI THỨC VÀ CÁC PHƯƠNG PHAP DE XUẤT

Chương 3 VAN DE CHUYEN MIEN TRI THUC VA CÁC PHƯƠNG

PHAP DE XUAT

Nhu đã đề cập trong chương 2, ngoài độ khó từ ban chat của bai toán thì tập

dữ liệu Spider trên tiếng Việt còn đặt ra một thách thức về việc chuyền miền tri thức

giữa các cơ sở dữ liệu Điều này yêu cầu mô hình phải có tính tổng quát tốt trên các

miền tri thức khác nhau Phương pháp huấn luyện mô hình là một trong những yếu

tố ảnh hưởng nhiều nhất đến tính tổng quát của mô hình trên các miền tri thức khácnhau Vì vậy, chương này trước hết so sánh, phân tích tác động của các phương pháphuấn luyện mô hình đã được đề xuất cho bài toán sau đó là hai phương pháp mà luậnvăn đề xuất dé cải tiễn về cả hai phương diện là thời gian huấn luyện và hiệu suất trên

tập đữ liệu.

3.1 Vấn đề chuyển miền tri thức

3.1.1 Bài toán Text-to-SQL dưới dạng thống kê

Đề thống nhất và đơn giản hóa việc biểu diễn về mặt toán học của các phươngpháp được dé cập trong chương, ta phát biéu bài toán Text-to-SQL dưới dạng thống

kê như sau: cho trước một lược đồ cơ sở dữ liệu S va câu hỏi tự nhiên Q, ta cần xây

dựng một mô hình f có tham số Ø dé dự đoán câu truy van SQL Y dựa trên phân phốipạ(Y|0, S) qua tat ca các câu truy van SQL có thể

Phương pháp huấn luyện thường dùng là tối ưu hóa nguy cơ thực nghiệm (Empiricalrisk minimization — ERM) bang cách lấy ngẫu nhiên độc lập tập mẫu B với kích thước

N trên tập train Sau đó tối ưu hóa hàm lỗi là giá trị âm của log-likelihood:

N

1

Lạ(8) =-—) logpe(V|0,S) GB.)

i=1

Phương pháp nay được dùng trong nghiên cứu gốc của RAT-SQL và cũng được xem

xét là một phương pháp cơ sở đê so sánh với các đê xuât của luận văn.

19

Trang 28

3.1.2 Van đề chuyển miền tri thức trong Spider

Ở các phương pháp sẽ trình bày tiếp theo sau, ta sẽ xem mỗi cơ sở đữ liệu thể

hiện một miền tri thức cụ thê Tập dữ liệu Spider được tạo thành sao cho các miền tri

thức trong các tập train, dev và test là phân biệt hay khác nhau hoàn toàn Vì vậy, mô

hình được huấn luyện trên tập các miễn tri thức nguồn D, phải đảm bảo tương thích

tốt với tập các miền tri thức đích D, Trong quá trình huấn luyện thì mô hình khôngđược tiếp cận với các mẫu thuộc về tập các miền tri thức đích Do đó, vấn đề chuyền

miễn tri thức cũng có thê coi trong tập Spider cũng có thể coi như là bài toán tổng quáhóa miễn tri thức (Domain generalization) hay Zero-shot parsing

3.2 Cách tiếp cận Meta-learning

Dé giải quyết van đề tông quát hóa miền tri thức trong trong tập Spider, Wangcùng các cộng sự [25] đã đề xuất phương pháp tiếp cận sử dụng Meta-learning dựatrên nghiên cứu về Meta-learning cho van đề tông quát hóa miền tri thức của Li cùngcác cộng sự [26] Cụ thé, tác giả tạo ra các tác vụ giả lập dựa trên các miền tri thức

trong tập train, mỗi tác vụ có tập các miền tri thức nguồn D, và tập các miền tri thứcđích D, Sau đó sử dụng Meta-learning dé huan luyện mô hình theo hướng thích nghỉ

việc chuyển miền tri thức từ nguồn đến đích Quá trình huấn luyện gồm hai bước

chính là Meta-train và Meta-test.

O bước Meta-train, tham sô của mô hình được cập nhật theo hướng tôi ưu

hóa hàm lỗi của mô hình trên tập mẫu B; được chọn từ các miễn tri thức nguôn bởi

thuật toán stochastic gradient descent (SGD) với tốc độ hoc a:

0’ — Ø9— dVạLp (6) (3.2)

Đến bước Meta-test tham số mô hình đã được cập nhật là Ø “sẽ được sử dụng

dé tinh hàm lỗi của mô hình trên tập mau B, được chọn từ miễn tri thức đích L(').Hàm lỗi cuối cùng của một tác vụ giả lập r sẽ được tính dựa trên hai giá trị lỗi vừađược tính:

20

Trang 29

L, = Lg, (0) + Lg, (0') = Leg, (0) + Lp,(Ø — œVạLp, (8)) (3.3)

Bang cách tối ưu hóa hàm lỗi (3.3), tham số của mô hình được cập nhật theo hướngtốt ưu cho cả tập nguồn và tập đích

Phương pháp tiếp cận này có hai hạn chế chính Thứ nhất là cần phải giả định

sự không đồng nhất giữa các miền tri thức trong tập train và tập test thật có thé biểudiễn thông qua các miền tri thức nguồn và đích trong các tác vụ Thứ hai, ta có nhận

xét là phương trình (3.3) yêu cầu phải tính đạo hàm cấp hai đối với tham số của mô

hình, điều này làm tăng số lượng tính toán cũng như bộ nhớ trong quá trình huấnluyện Trong nghiên cứu của minh, tác giả đã nhận thay van đề này với phương pháp

và đã sử dụng biện pháp xấp xi đạo hàm cấp cao, tuy nhiên điều này đánh đổi sự sụtgiảm về mặt hiệu suất

3.3 Empirical Quantile Risk Minization

Ở phương pháp đề xuất cải tiến đầu tiên này, ta có giả định linh hoạt hon so

với phương pháp sử dụng Meta-learning vừa trình bày đó là các miền tri thức của đữliệu đều xuất phát từ cùng một phân phối Dựa trên giả định này, sự chuyền miền ditliệu trong quá trình huấn luyện mô hình sẽ giúp ta định hướng được sự chuyền miền

ở quá trình đánh giá mô hình Cùng từ giả định này, luận văn áp dụng hàm mục tiêu

từ nghiên cứu của Cian Eastwood cùng các cộng sự [27] dé huấn luyện mô hình

Cụ thê, gọi F là lớp các mô hình f mà ta cần xác định, P(X%, Y3) là phân phốicủa các cặp dữ liệu thuộc miền tri thức đ, ®#(ƒ) là hàm nguy co (risk) của f trênmiền tri thức d, Day là tập tất cả các miền tri thức Thông thường hàm nguy cơ đượcđịnh nghĩa là kỳ vọng của các giá trị lỗi trên miền tri thức đang xét ##(ƒ) :=Ep(xaya) [L(f (X%, Y%] Khi mô hình van dé tổng quát hóa miền tri thức ta thường

tối ưu hai trường hợp là trung bình nguy cơ của các miễn tri thức hoặc nguy cơ caonhất của các miễn tri thức thé hiện ở phương trình (3.4) sau đây

: bì

min max R°(f) (3.4)

21

Trang 30

VAN DE CHUYEN MIEN TRI THỨC VÀ CÁC PHƯƠNG PHÁP DE XUẤT

Càng tối ưu về trường hợp nguy cơ cao nhất thì mô hình càng mạnh Tuy nhiên

trong thực tẾ, ta không có thông tin về tất cả các miễn tri thức và chỉ có được một số

mẫu nhất định Do đó, việc tối ưu cho trường hợp có nguy cơ cao nhất gần như là

không thé, trừ khi ta giới hạn sự tách biệt giữa các miền tri thức Thay vào đó ta cóthé thay thế trường hợp của phương trình (3.4) một cách linh hoạt hon ở dạng xác

xuât như sau:

i j da <t}>

mint subject to Pr ir (f) <t}=y (3.5)

Trong đó ® là phân phối chung của tat cả các miền tri thức mà ta đã giả định.

Với phương trình (3.5) ta đang tìm một một hình ƒ tổng quát hóa trên các miền trithức với mức độ y nêu nguy cơ của nó trên các miền tri thức tối đa là t Tuy có tongquát hon so với ở dạng (3.4), ta gặp một rắc rồi khác là phân phối ® thường khó biết

trong thực tế Do đó, thêm một bước biến đôi dé chuyền đôi phương trình (3.5) về

phân phối qua các giá trị nguy cơ

đã ước lượng T; sẽ được sử dung trong phương trình (3.6) thay cho phân phối gốc

Tham số y có thé được sử dung dé điều chỉnh mức độ tống quát hóa miền tri thức,khi y tiến đến 1 thì sẽ tương ứng với trường hợp tối ưu nguy cơ cao nhất và tiến tới 0tương ứng với trường hợp trung bình.

3.4 InterRAT

Các mô hình ngôn ngữ đã được huấn luyện được chứng minh là có chứa các

đặc điểm ngôn ngữ học [28] [29], hơn nữa ở các lớp càng về sau của các mô hình này

càng nhấn mạnh tính liên kết về mặt ngữ nghĩa giữa các thành phan trong input Vì

vậy dé khai thác tốt các đặc trưng liên kết cần cho bài toán Text-to-SQL từ các mô

22

Trang 31

hình ngôn ngữ này đồng thời van đảm bảo tính tổng quát của mô hình, luận văn đã

đề xuất một phương pháp kết hợp giữa Ensemble và cách tiếp cận Bayes đặt tên làInterRAT Ý tưởng chính của phương pháp là thực hiện phương pháp ensemble trênlớp RAT đầu tiên ngay sau mô hình ngôn ngữ trong phần mã hóa của RAT-SQL vàdùng chung các lớp RAT còn lại Đồng nghĩa với việc ta sẽ khởi tạo n lớp đầu tiênnày, mỗi lớp có tham số riêng của nó Tuy nhiên, thay vì các lớp RAT đầu tiên này

được được huấn luyện độc lập nhau như các phương pháp Deep Ensemble thông

thường, luận văn sẽ huấn luyện sử dụng phương pháp Particle-based Optimization

Vì vậy, ta có thể gọi mỗi lớp RAT này là một particle Các lớp RAT khác nhau này

sẽ đóng vai trò là các trích xuất đặt trưng (feature extractor) khác nhau trên đầu racủa mô hình ngôn ngữ Do đó, mục đích của việc thay đổi phương pháp huấn luyệncác lớp RAT này là dé tăng tinh da dạng của các đặc trưng được trích xuất, bao gồm

đặt trưng về liên kết giữa các thành phần của input

Cu thê, gọi g(-;@) tham số hóa bởi Ø là lớp RAT đầu tiên của mô hình vàd(-;w) là phan còn lại tham số hóa bởi w Như vậy toàn bộ mô hình được biéu diễn

bởi fC; Ø,w) = d(;w) s g(; 8) Dưới góc nhìn của Deep Ensemble, sau khi sinh n

lớp RAT đầu tiên với các bộ tham số 6; khác nhau, ta có n mô hình Mô hình thứ i

được biểu diễn bởi fC; 6;,w) = d(-;w) © ø(; 6,), trong đó thành phần tham số wđược dùng chung giữa các mô hình Dé thực hiện việc huấn luyện bằng phương phápparticle-based, ta cần thực hiện cách tiếp cận Bayes trên lớp RAT đầu tiên của môhình Theo đó, xác suất hậu nghiệm (posterior distribution) cua Ø là p(0|2) «p(?D|6)p(8) biểu thị khả năng một giá trị cụ thé của tham số Ø ứng với tập dit liệu

cho trước D p(Ø) là xác suất của tham số Ø trước khi có dữ liệu Khi cho trước một

mau dit liệu mới +”, cách tiếp cận Bayes xem xét toàn bộ các giá trị của tham số Ø cóthé có thông qua phân phối lề trên các tham số Ø được lấy từ xác suất hậu nghiệm:

p(yˆ|x',D) = | p(y" |f x", D))p(6|D) de (3.7)

23

Trang 32

Vấn đề chính đối với cách tiếp cận Bayes là phân phối hậu nghiệm p(6|D)không thé tính chính xác được do không gian tính toán quá lớn Do đó, ta sẽ xap xỉphân phối này bằng n lớp RAT đầu tiên đã khởi tạo thông qua phương pháp Stein

Variational Gradient Descent (SVGD) [30] Phương pháp này có ưu điểm là không

giới hạn lớp các phân phối dùng dé xấp xi SVGD sử dung gradient của phân phốiđích cần xap xi dé hướng các particle hội tụ về phân phối này thông qua một côngthức cập nhât xác định Cụ thê, đối với bài toán đang xét, ta cần xấp xỉ phân phối hậu

nghiệm của các tham số ở lớp RAT đầu tiên p(Ø|2) Ta lay mẫu n lớp RAT đầu tiên{9;}?_¡, sau đó ở mỗi lần lập £ ta cập nhật một particle cụ thé theo luật sau từ SVGD:

Theo đó phan @(6,) thé hiện hướng cập nhật các tham số, , tốc độ cập nhật

và k(z,+”) là ham kernel xác định dương (positive-define kernel) Lượng cập nhật

của một particle phụ thuộc vào gradient xác suất của các particle khác Cụm đầu tiên

trong hướng cập nhật k(øj ,8,)V ,ilogp (8/|D) gọi la “driving term”, day các particle

t

về vùng có xác suất cao của phân phối cần xấp xi Cụm thứ hai gọi là “repulsive term”giúp day các particle ra xa nhau dé chúng không dồn về cùng một giá trị Dựa vàocụm thứ hai trong hướng cập nhật tham số giúp tăng tinh đa dạng giữa các particle,

từ đó giúp các lớp RAT đầu trích xuất các đặc trưng đa dạng hơn

Khi huấn luyện mô hình ta thường dùng hàm lỗi là hàm likelihood, ta cần chuyên đổi

xác suất hậu nghiệm V ạ/]08P (971) chưa chuẩn hóa về hàm likelihood như sau:

t

Vạ;logp(61|2) = Vạ;logp(D|ð?) + Vạ;Iogp(82) (3.9)

Xác suất tiền nghiệm trong luận văn sử dụng phân phối đồng nhất (Uniform)

24

Trang 33

VAN DE CHUYEN MIEN TRI THỨC VA CÁC PHƯƠNG PHAP DE XUẤT

Bén canh viéc cap nhat tham số cho các lớp đầu của RAT theo luật 3.8, các tham sốdùng chung w được cập nhật theo trung bình các giá trị log-likelihood của tất cả các

4: for bước t<— 1 đến T do5: Lấy tập mau B tir D6: for particle i= 1 đến n do

7: Tinh Gradient Vạ¡, Vi: iw (Bi 6!,w)

8: end for

9: Tinh hướng cập nhật:

25

Tiêu đề	Nghiên cứu bài toán chuyển đổi ngôn ngữ tự nhiên sang câu truy vấn SQL cho Tiếng Việt
Tác giả	Huỳnh Thiện Ý
Người hướng dẫn	TS. Cao Thị Nhạn
Trường học	Trường Đại học Công nghệ Thông tin - Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành	Khoa học máy tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2023
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	66
Dung lượng	45,85 MB