Luận văn thạc sĩ Khoa học máy tính: Xây dựng Chatbot Tiếng Việt với mô hình ngôn ngữ lớn

Đặc biệt hơn các mô hình mô hình ngôn ngữ tự hồi quy lớn large autoregressive language models, điển hình như GPT-3 [1], đã cho thay được rằng chúng có thé được sử dụng cho bat ki tác vụ

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHÓ HÒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

ĐOÀN VŨ THUẬN

VỚI MÔ HÌNH NGÔN NGỮ LỚN

LUẬN VĂN THẠC SĨ, KHÓA LUẬN CAO HỌC

NGÀNH KHOA HỌC MÁY TÍNH

MÃ SÓ: 8480101

NGƯỜI HƯỚNG DẪN KHOA HỌC:

PGS.TS NGUYÊN LƯU THÙY NGÂN

TS NGUYEN VINH TIỆP

Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan dé tài “Xây dựng chatbot tiếng Việt với mô hình ngôn ngữ lớn” hoàn

toàn là công trình nghiên cứu của cá nhân tôi do tôi thực hiện dưới sự hướng dẫn của TS Nguyễn Lưu Thùy Ngân và TS.Nguyễn Vinh Tiệp.

Các số liệu và những kết quả trong khóa luận là trung thực và chưa được công bồ trong

bat kỳ một công trình nào khác Moi tham khảo trong đề tài luận văn đều được trích dẫn

rõ ràng tên tác giả, tên công trình và thời gian công bố.

Tôi xin chịu trách nhiệm theo quy định của nhà trường với các hình thức sao chép không

hợp lệ và vi phạm quy chế đào tạo sau đại học.

Tp Hồ Chí Minh, tháng 11 năm 2023

Học viên

Đoàn Vũ Thuận

Trang 3

LỜI CẢM ƠN

Đầu tiên, tôi xin gửi lời cảm ơn sâu sắc đến PGS.TS Nguyễn Lưu Thùy Ngân Tôi đã

được học rất nhiều kiến thức từ cô qua các khóa học trên lớp cũng như các chia sẻ từ cô

qua các cuộc gặp gỡ Cô đã giúp tôi rất nhiều về các kiến thức chuyên môn, cũng như

định hướng và truyền cảm hứng cho tôi theo con đường nghiên cứu nhờ đó tôi có thêm

động lực làm đề tài này.

Tiếp theo, tôi xin cảm ơn thầy TS Nguyễn Vinh Tiệp đã đồng hành, hỗ trợ và có rất

nhiều đóng góp quý báu trong quá trình thực hiện bài báo khoa học và đề tài luận văn.

Nếu không có sự giúp đỡ của thầy có lẽ tôi còn chưa thể tốt nghiệp trong năm nay.

Tiếp nữa, tôi cũng vô cùng biết ơn Quý Thầy Cô giảng viên Trường Đại Học Công Nghệ

Thông Tin — Đại Học Quốc Gia Thành Phố Hồ Chí Minh Các thay cô thật sự đã giúp đỡ

tôi rất nhiều trong quá trình học thạc sĩ của tôi Đặc biệt hai thầy PGS TS Lê Đình Duy

và Nguyễn Tan Tran Minh Khang đã truyền động lực cho tôi rat lớn dé bắt đầu con

đường học thạc sĩ.

Cuối cùng, tôi xin gửi lời tri ân tới gia đình và người thân đã luôn ủng hộ, dù trong những

hoàn cảnh khó khăn nhất, hoặc những lúc chán nản muốn nghỉ học nhưng họ luôn động

viên và tạo động lực dé tôi tiếp tục con đường học tập và nghiên cứu.

Trang 4

Danh mục các ký hiệu và chữ việt tặt - ¿+ + St E12 2 1212121 11111101 1111 re 8

Danh mục các hình vẽ, đồ thị, - 2-52 s£+EE2EE2EE12E11271127112711211121112112112111 11C 9

Danh mục các bảng - ¿+5 + EESkEk2EE E112 111111141111 1111 010011111 tt grưn 10

Chương 1: MO ĐẢẦU 2 222222222222222221112222111122221112271111271111 111 2221111 e 11

1.2 Mục tiêu và phạm vi nghiÊn CỨU - - +56 St E2 EEEEEEESEEkekrkEkEkrrrkrkrkek 12

1.3 Đóng góp của đề tài - 222222 vn 2,221 1 re 13 Chương 2: CÁC CÔNG TRÌNH NGHIÊN CUU LIÊN QUAN - 14

2.1 Mô hình ngôn ngữ lớn (LJLÌM) ¿2-5-5 5252 S+2E‡xx#Etzeekekekerrrerrree 14

2.1.2 Ứng dụng “6 ⁄ À 15

bu na nh °(-(ÄÂäÂÄäậậH,)H.)

2.1.4LLM cho Tiếng Việ

2.2 Instruction Fine-tuning ( Huấn luyện theo chỉ dẫn ) 15

2.3 Self-Instruct 17 2.4 Parameter-Efficient Tuning với LoRA 18 2.5 Language model (mô hình ngôn ngữ ) 20

2.5.1 Statistical Language Model — SLM (Mô hình ngôn ngữ thống kê), 20 2.5.2 Neural Language Model — NLM (Mô hình ngôn ngữ thần kinh)

2.5.3 Pre-trained language models (PLM) (Mô hình ngôn ngữ huấn luyện trước) 2l

2.5.4 Large language models — LLM (Mô hình ngôn ngữ lớn) -. -« 22

2.6 TTAIISÍOTINT - 552 2 t2E2E2E93 3 12121211311 111111111 1111111111111 xe 2

2.6.1 Cơ chế Self-attention :::++ccc222222122,11.-1 Em 24

Trang 5

Chương 3: PHƯƠNG PHÁP 22: ©2222222EES29222111222221112221112271112221111 2211Xe 36

3.1 Giới thiệu về phương pháp -: -©222++++22EEEEE2+rtEEEEEEEErrrrrrrrrrrrrrrrrrrer 36

3.2 Thu thap ốỐố ố 37 3.2.1 BO dit liGu da cà na 38

4.1 Thiết lập môi trường

4.2 Prompt template (Mẫu lời nhắc) -+222222222+c+z+ttt22vvvzrrrrrrrrrvsee 46 4.3 Thực hiện huấn luyện . -222¿+222222+222EE221222112222211112272112227111 21111 ceEExe 41 4.3.1 Nap mô hình và Tokenizer - - t1 2191212121 1212121 121 1711171111111 1 xe 47 4.3.2 Nap dit ng ẽ.ẽ 48 4.3.3 Tokenize dữ liệu

4.3.4 Câu hình tham số LoR

4.3.5 Khởi tạo bộ huấn luyện (trainer)

4.4 Chạy mô hình kết quả 2+:222++2VV+2++22EE+++EEEEEEvtEEEEEErrtEEEvrrttrkkrrrrrrrrree 51

4.5 Xây dựng ứng dụng chaf(bOt eee cece k 2E TT 111101 01101 gà 52

4.6 Áp dung RAG vào chatbot 22222222222 2222212E22131122221122221112 22111222 52

4.6.1 Mô hình RAG +: 2 2222222,,,,.122212 0.11121.0 0111 00 0r 53

4.6.2 Giao diện nhập liệu

Chương 5: ĐÁNH GIÁ KÉT QUẢ

5.1 Phương pháp đánh giá

Trang 6

5.3.2 Tập dữ liệu đánh giá c 9922221111111221 tt E21 cccee 58

5.3.3 Một số kết quả từ mô hình - 2-2 ¿+ ++EESEE+EEE£EEEEEEEEEEEEE271211711271221 21 xe 58

5.4 Kết quả đánh giá - 2-55: ©222SE 2 2E 2212211211271121121121111121121111211 11 1xx 59Chương 6: KET LUẬN VA HƯỚNG PHAT TRIEN 2-2 2£ ++£x+zxezes 62

6.1 KẾt luận - 22 52-©52+SE2EE9E1221192112117112117112117111171111711 1111.11.1111 626.2 Hạn chẾ + 2 %+S<+EE9EEEEEEEEEEEEEE12112112112112111121111111 1111111111111 11 11 c0 626.3 Hướng phát triỂn -. - ¿2 2 ©E+EE+E£EE£+E£EEEE12E12212112212171717171.11 1.1.1 xe 63

Tài Liệu Tham KKhảoO - - - G E1 2101111211111931 112911111 1111 011110 11110 1111 kg vn kg 64

Trang 7

Danh mục các ký hiệu va chữ việt tat

TT | Chữ viết tắt Y nghĩa

1 AI Artificial Intelligence

2 LLM Large Language Model

3 NLP Natural Language Processing

4 BERT Bidirectional Encoder Representations from Transformers

5 RNN Recurrent Neuron Network

6 LSTM Long Short-term Memory Networks

7 GRU Gated Recurrent Unit

8 LoRA Low-Rank Adaptation of Large Language Models

9 RAG Retrieval Augment Generation

10 | ICL In-Context Learning

11 | SLM Statistical Language Model

12 |NLM Neural Language Model

13 | PLM Pretrained Language Model

14 | PEFT Parameter-Efficent Fine-Tuning

15 | GPT Generative Pre-trained Transformer

Trang 8

Danh mục các hình vẽ, đồ thị

Hình 2.1 Tiến trình phát triển các mô hình ngôn ngữ lớn - ¿52522222252 14Hình 2.2 Huan luyện theo chỉ dẫn 2- 2° £+S£+E£2E£2EE+EE+EE+EEEEESEEEEEEEEEEerEerrerrkee 16

Hình 2.3 Cách hoạt động của Self-Imstruct - 5-2132 * 321191 9E Ekrrrrrn 18

Hình 2.4 Cơ chế của LoRA -. -225c¿222v+ttEE tt rreeg 19

Hình 2.5 Mô hình ngôn ngữ là gì - Ă 1S SH HH HH HH HH 21

Hình 2.6 Kiến trúc Transformer ccccscsssessesssessssssessssssecsssssecsueesesssessecssessesssecsesseeseeeseess 23Hình 2.7 Cơ chế self-attention -cc:2c2xttttEEkttrttEktrrttttrrrrrttrrirrrtrrirrrrrirrrrrrre 25Hình 2.8 Kiến trúc Multi-Head Attention cccccscccsscsssesseessesssessesssessesssessesssessessseeseeseess 27Hình 2.9 Kiến trúc bộ mã hóa -222+¿++222+++tttEEELEE re 28Hình 2.10 Kiến trúc bộ giải mã 4 2 6NE tG A 29Hình 2.11 Quy trình các luồng xử lý với R.AQ, -¿- 2 ++c£+k+Ex+EEeEEerkerkerrerrerreee 34Hình 3.1 Quá trình huấn luyện của các mô hình - 2 ¿+ £++£+z++xz+zxzxzzzxzzsz 37

Hình 3.2 Xây dựng dữ liệu với Self-Instruct và OpenA Ï - +++s«++xx+se+seesee 37 Hình 3.3 Quá trình tạo dữ liệu cho mô hình đa tac vụ - -. 55555 +‡++<<‡++sss+ssexss 38 Hình 3.4 Quá trình tạo bộ dữ liệu cho mô hình y khoa . - ¿+ 5+ ++<‡+++sx++sex+eex+sex 40

Hình 3.5 Kiến trúc mô hình BLOOMM ¿- 2£ ©2+22++2EE+2EE+2EEE+EEEerErerrxrrrrrrrree 43

Hình 3.5 Phương pháp tinh chỉnh với LORA - 5c 5c 32+ S< E3 +sEEseEeereerseereerse 44 Hình 4 1 Chương trình nạp mô hình và tOk€T01Z€T - - - 6 5+ £+2£*+EE+s+seeseeeseeeee 47 Hinh 4 2 Nap dit GU oo eee 48 Hinh 4 3 Ham tokemize ose 48 Hình 4 4 Khởi tạo LORA woo eee cecsesseeseeseescesesscseceeesecsessessessessessesaseaseeessessessesseeaeeaes 49

Hình 4 5 Khởi tạo bộ huấn luyện -¿- 22 ©2£22+2E+t2EE+2EE+SEEEtEEEerxrrrrrrrrrrrrvee 50

Hình 4 6 Giao diện ứng dụng chafbOI - <5 << E211 E930 19111 911g ngư 52

Hình 4 7 Mô hình RAG cho quá trình nhập dữ liệu và truy vấn . - 2+: 53

Hình 4 8 Giao diện man hình nhập liệu cho mô hình RA - 5 +55 <<+<<<<<+ 54

Trang 9

Danh mục các bảng

Bang 1: Thong kê bộ dữ liệu thu thập QUOC 2 ccc esceeeteeseeeseeeeceseeseceeeeseeeeeeseeseeeaeesees 42Bang 2: Chi tiết quá trình huan 1Uy6n eee ceceecessesessessessessessessessessssseesesesestessesseesen 51Bảng 3: Kết qua từ mô hình - 2-2 2 S£2SE£EE2EE£EEEEEEEEEEEEEE2EEE71211712211712 2212 xe 59Bang 4: Kết quả đánh giá mô hình BlOOMZ 2 2 2 5£ E££E+£E£EE£EE£EzEzzEezreee 60Bang 5: Kết quả đánh giá mô hình GP TJ - ¿22 £+S£+S££EE£EE+EE£EEEEEEEEEEEerErrerrerrree 60

Trang 10

Chương 1: MỞ ĐẦU

1.1 Đặt vấn đề

Trong những năm gần đây, các công nghệ trí tuệ nhân tao (AI) như Generative AI (AI tạo sinh), chatbot, và trợ lý ảo đã trở nên rất phổ biến và xuất hiện mọi nơi, đặc biệt là

ChatGPT đã và đang tạo ra hiệu ứng rất lớn trong cộng đồng Các ứng dụng của chúng đã

thực sự trở nên hữu ích và giúp đỡ con người rất nhiều trong công việc hằng ngày Từ trợ

lý hỏi đáp, viết email tới sáng tạo nội dung quảng cáo-marketing, viết báo, viết truyện.

Đăng sau sự thành công của chúng là các mô hình ngôn ngữ lớn (Large Language Model

- LLM) Đặc biệt hơn các mô hình mô hình ngôn ngữ tự hồi quy lớn (large autoregressive

language models), điển hình như GPT-3 [1], đã cho thay được rằng chúng có thé được sử dụng cho bat ki tác vụ nào chỉ bởi việc cung cấp vài mẫu ví dụ trong chỉ dẫn đầu vào

(prompt), hay còn gọi là few-shots learning Những tiến bộ gần đây trong việc tinh chỉnh

theo chỉ dẫn (instruction fine-tuning) mang lại cho LLM khả năng hiểu và thực hiện theo yêu cầu mà không cần đưa ra bat ki ví dụ mẫu nào (zero-shot) Điều nay giúp cho các mô

hình LLM có khả năng trả lời một cách tự nhiên và có thê thay thế các mô hình chatbot

truyền thống von phan lớn dựa vào bộ luật (rules) phức tạp và không linh động Tuy

nhiên, việc huấn luyện theo chỉ dẫn đòi hỏi một lượng lớn dữ liệu chi dẫn (instruction

dataset) đa dạng trên tat cả các tác vụ từ người dùng Ngoài ra việc huắn luyện và triển khai LLM rất tốn kém về mặt tài nguyên tính toán.

Những tiến bộ gần đây trong việc áp dụng các kĩ thuật tối ưu huấn luyện

(parameter-efficient fine-tuning, PEFT) [2] và nén mô hình (quantization) đã giúp giải quyết phần

nào các van đề về tài nguyên phần cứng cho việc huấn luyện, tinh chỉnh các mô hình

ngôn ngữ lớn Chúng giúp cho quá trình huấn luyện mô hình tiết kiệm thời gian, tài

nguyên tính toán và năng lực tính toán Ngoài ra sự phổ biến của các kĩ thuật tăng cường

dữ liệu dựa với openAI và các mô hình như GPT-3.5, GPT-4 đã giải quyết phần nào về

Trang 11

nhãn bởi con người Tuy vậy những công trình nghiên cứu về việc áp dụng các kĩ thuật

trên cho mô hình ngôn ngữ tiếng Việt còn rất hạn chế.

1.2 Mục tiêu và phạm vi nghiên cứu

Với mong muốn xây dựng trợ lý ảo cho tiếng Việt, học viên áp dụng các phương pháp tỉnh chỉnh theo chỉ dẫn cho các mô hình LLM tiếng Việt, từ đó nâng cao khả năng các mô

hình này trong việc hiểu và thực hiện các yêu cầu khác nhau từ người dùng Cụ thể học

viên sẽ huấn luyện, tinh chỉnh mô hình cho hai lĩnh vực: đa tác vụ trên lĩnh vực rộng (open domain) và hỏi đáp trên lĩnh vực hẹp (close domain) là về y tế, sức khỏe Đề tài này sẽ thực hiện cho tiếng Việt với mô hình ngôn ngữ lớn trong điều kiện giới hạn về tài

nguyên và đữ liệu Để đạt được mục tiêu này, để tài sẽ thực hiện các nội dung như sau:

* Áp dụng kỹ thuật huấn luyện với chi dẫn (instruction fine-tuning) kết hợp các

phương pháp tối ưu tham số huấn luyện, cụ thể là LoRA [2], nén mô hình

(quantization) để huấn luyện tinh chỉnh mô hình tiếng Việt cho các tác vụ trên lĩnh

vực rộng và cho lĩnh vực cụ thể là y tế, sức khỏe.

v Thu thập và áp dụng các phương pháp về tăng cường dữ liệu sử dụng OpenAI

(Self-Instruct) nhằm xây dựng bộ dữ liệu tinh chỉnh theo chỉ dẫn cho mô hình đa

tác vụ gồm khoảng hai trăm ngàn mẫu gồm chi dẫn và tra lời Xây dựng bộ đữ liệu instruction tuning cho lĩnh vực y tế, sức khỏe gồm khoảng một trăm ngàn ví dụ

gồm chỉ dẫn và trả lời.

vx Thử nghiệm, phân tích, đánh giá sự hiệu quả của việc áp dụng các phương pháp

trên so với mô hình gốc, và so với câu trả lời của ChatGPT bằng phương pháp

đánh giá sử dụng GPT-4.

*“_ Xây dựng ứng dụng chatbot trên nền web cho phép người dùng tương tác, hỏi đáp

với các mô hình trên Áp dụng thêm kỹ thuật truy xuất tăng cường tạo sinh (Retrieval Augment Generation - RAG) cho phép mô hình có thể truy xuất thêm

dữ của người dùng mà không cần phải huấn luyện lại nhằm tăng sự tiện lợi cho

Trang 12

Dé tai đóng góp hai bộ dữ liệu chỉ dan (instruction datasets) với hơn ba trăm ngàn

mẫu gồm chỉ dẫn và trả lời cho mô hình đa tác vụ và hỏi đáp về y tế.

Đề xuất phương pháp đánh giá và bộ đữ liệu đánh giá kết quả từ mô hình sau khi được huấn luyện cũng như so sánh với kết quả từ mô hình gốc.

Thử nghiệm việc xây dựng ứng dụng thực tế cho phép người dùng tương tác với

các mô hình trên.

Luận văn có một công bố khoa học đã được chấp nhận ở hội nghị quốc tế MAPR

2023 như sau: Vu-Thuan Doan, Quoc-Truong Truong, Duc-Vu Nguyen, Tiep Nguyen, and Thuy-Ngan Nguyen Luu, “Efficient Finetuning Large

Vinh-Language Models For Vietnamese Chatbot”, Proceedings of the 2023 International Conference on Multimedia Analysis and Pattern Recognition (MAPR)

Trang 13

Chương 2: CÁC CễNG TRèNH NGHIấN CỨU LIấN QUAN

2.1 Mụ hỡnh ngụn ngữ lớn (LLM)

Trong những năm gan đõy, mụ hỡnh ngụn ngữ lớn (Large Language Models — LLMs) đó

trở thành một trong những cụng nghệ quan trọng và đột phỏ trong lĩnh vực Trớ tuệ nhõn

tạo (AD và xử lý ngụn ngữ tự nhiờn (NLP).

pes G cshara Publicly Available

⁄ ==——== l

— aa, â ats % PanGua & Ernie 3.0

cra@ ơ14 ————= #2 PLUG Cải Jurassic-1

T0 @ 9-10 —— LANG LaMDA

=.- Yuan 1.0 õ

Anthropic _ HyperCLOVANAVER kỡ _ le) AlphaCode (OC) Pythia

werorT @ ỏc â cuncnnna con) Vieuna Tễ IernLM ][ Baichuan2

Ernie 3.0 Titan oe InstructGPT S Z2 ⁄ RWKV se PanGu-> ÍẹWẦ MPT Z2 QWEN

Gopher@) CodeGen â —_— * G uw â Sparrow G Bara Jj, Baichuan FLM

:

PaLM ¿

MT-NLG OPT @ Nự ⁄ \ G FlanT5 0Q LLaMA PaLM2 23M Aquila?

Ee ơ YaLM F

' gprneox.208 (0) xỏ đằ ễ main â CodeGen2 + suywork

TET Ai› > < # XC Luminous StarCoder XVERSE

e : OO NLLB

5 Cohere Đ a 1-12 ° om am

wei C3 “mm mm |

| | ~ 9.11 —>

OPT-IML 0 ChatGPT GP14 Ồ 00 LIaMA2

Hỡnh 2.1 Tiến trỡnh phỏt triờn cỏc mụ hỡnh ngụn ngữ lớn

2.1.1 Kiến trỳc

LLM thường được xõy dựng trờn cỏc kiến trỳc học sõu, với vi dụ nổi bật nhất là kiến trỳc

Transformer Mụ hỡnh Transformer [4], được giới thiệu trong bai bỏo năm 2017 mang

tiờu đề "Attention Is All You Need" của Vaswani và đồng nghiệp, đó trở thành cơ sở chonhiều LLM Chỳng được huấn luyện trờn một lượng lớn dữ liệu văn bản dộ học và hiểu

ngụn ngữ như con người LLMs đặc biệt nổi tiếng với khả năng tạo ra văn bản tự nhiờn,

thụng qua việc phõn tớch và tổng hợp thụng tin từ dữ liệu đầu vào

Trang 14

2.1.2 Ứng dụng

LLM có một loạt ứng dụng, bao gồm:

* Hiểu ngôn ngữ tự nhiên: LLM có thé phân tích và hiểu văn ban, cho phép các

nhiệm vụ như phân tích tâm trạng, phân loại văn bản và nhận dạng thực thé

Y Tạo van ban: Chúng giỏi trong việc tao ra văn bản mạch lac và liên quan ngữ

cảnh, giúp cho việc tạo nội dung, chatbot va viết sang tao

wx Dich máy, tóm tắt văn bản: LLM đã được sử dụng để cải thiện các hệ thống dịch

máy cũng như các tác vụ về tóm tắt văn bản

w Trả lời câu hỏi, đối thoại: LLM được ứng dụng rất nhiều vào các hệ thống hỏi dap,

cũng như các ứng dụng hội thoạt như hỗ trợ khách 15ang, trợ lý ảo

2.1.3 Thách Thức

Tuy nhiên, cùng với sự phát triển và tiềm năng của LLMs, cũng xuất hiện những thách

thức liên quan đến đạo đức, quyền riêng tư, định kiến và an ninh thông tin Vì khả năng

tạo ra văn bản tự động một cách nhanh chóng và rộng rãi, mô hình này có thé được sử

dụng dé tạo ra thông tin sai lệch, tiêu cực hoặc lừa dối Ngoài ra việc huấn luyện va triển

khai LLM cũng đòi hỏi rất lớn về mặt phần cứng và tiêu thụ năng lượng Do đó sự hiểu

biết và kiểm soát về cách sử dụng và giám sát LLMs là rất quan trong trong quá trình

phát triển và triển khai mô hình này

2.1.4 LLM cho Tiếng Việt

Sự phát triển các mô hình ngôn ngữ lớn (Large Language Models - LLMs) cho tiếng Việt

đã trở thành một xu hướng quan trọng trong lĩnh vực Trí tuệ nhân tạo (AI) và xử lý ngôn

ngữ tự nhiên (NLP) trong vài năm gần đây Các mô hình như PhoBERT [5], BARTpho

[6] VITS [7] đã đặt nền móng cho sự phát triển LLM cho tiếng Việt và được ứng dụng

rộng rãi trong nhiều lĩnh vực Tuy nhiên những mô hình này cần phải được tỉnh chỉnh chocác tác vụ cụ thể (downstream tasks) trước khi được áp dụng

2.2 Instruction Fine-tuning ( Huấn luyện theo chỉ dẫn )

Trang 15

Cộng đồng NLP gan đây đã chứng kiến nhiều công trình nghiên cứu việc huấn luyện, tinhchỉnh các mô hình ngôn ngữ lớn dé làm theo hướng dan (instruction) tốt hơn và hữu ich

hon [8] [9] [10].

Các mô hình ngôn ngữ “điều chỉnh theo hướng dẫn” (instruction tuned) (được tinh chỉnh

dé đáp ứng các hướng dẫn) đã chứng tỏ khả năng vượt trội trong việc thực các tác vụ mới

với zero-shot.

The picture appeared on the wall of a

Poundland store on Whymark Avenue [ ] How

would you rephrase that in a few words?

Graffiti artist Banksy

is believed to be

behind [ ]

Sentiment Analysis

Review: We came here on a Saturday night

and luckily it wasn't as packed as I

thought it would be [ ] On a scale of 1

to 5, I would give this a

Question Answering

I know that the answer to “What team did

the Panthers defeat?” is in “The Panthers

finished the regular season [ ]” Can

you tell me what it is?

Arizona Cardinals

Multi-task training

Zero-shot generalization

Natural Language Inference

Suppose “The banker contacted the professors and the athlete” Can we infer that "The

banker contacted the professors"?

Hình 2.2 Huấn luyện theo chi dẫn

Những nỗ lực ban đầu huấn luyện các mô hình ngôn ngữ theo hướng dẫn dựa trên một

tập các bộ dit liệu trên các tác vụ NLP khác nhau, trong đó gồm một tập hợp các hướng

dẫn do con người chú thích (human-annotated) kèm theo mỗi tác vụ

Những kết quả có được nhờ sự hỗ trợ bởi hai thành phần quan trọng: các mô hình ngôn

ngữ được dao tạo trước lớn (large pre-trained language models) và dit liệu hướng dan do

con người viet.

Một sô lợi ích của instruction fine-tuning:

Trang 16

Y Cho phép dé dàng kiểm soát câu trả lời của mô hình LLM: việc chỉ định cách trả

lời trong các mẫu dữ liệu huấn luyện dễ kiểm soát hơn cách ứng xử của mô hình

Y Giảm lượng dit liệu yêu cầu: cách huấn luyện này thậm chi vẫn làm việc tốt trong

trường hợp không có quá nhiều đữ liệu huấn luyệnTuy nhiên, phương pháp này cũng có một số hạn chế:

Y Để tạo một bộ dit liệu chỉ dẫn tốn thường mất khá nhiều thời gian

Y Nếu không huấn luyện khéo hoặc dữ liệu quá ít sẽ dé dẫn tới thường hợp

overfitting (quá khớp)

Tuy nhiên sự ra đời của phương pháp Self-Instruct, một phương thức tăng cường khả

năng làm theo hướng dẫn của các large pre-trained language models bằng cách tự tăng

cường khả năng tạo sinh của chính nó đã phần nào giải quyết được những thách thức về

yêu câu về lượng dữ liệu lớn trên một loạt các tác vụ khác nhau.

2.3 Self-Instruct

Các mô hình ngôn ngữ “điều chỉnh theo hướng dẫn” lớn (Large “instruction-tuned”

language models) đã chứng tỏ khả năng vượt trội trong việc thực hiện các tác vụ mới chỉ

với thiết lập zero-shot Tuy nhiên chúng lại phụ thuộc rất nhiều vào bộ đữ liệu chỉ dẫn

được gan nhãn bởi con người (human written instruction data) Và việc tạo bộ dữ liệu

theo chỉ dẫn (instruction data) cho một loạt các tác vụ NLP khác nhau tốn rất nhiều côngsức và thời gian Gần đây cộng đồng xuất hiện kĩ thuật mới được gọi là self-instruct (tựhướng dẫn) — một kỹ thuật tự tạo dữ liệu tăng cường bằng cách cung cấp một lượng dit

liệu nhỏ ban đâu cho mô hình sau đó mô hình sẽ tạo ra thêm nhiêu mau dir liệu mới.

Trang 17

Seed Initial Instructions

Prompt

New Instruction Outputs

Hinh 2.3 Cach hoat dong cua Self-Instruct

Self-Instruct là một thuật toán khởi động lặp lại bắt đầu bang một tập hợp các hướng dẫn được viết thủ công bởi con người và sử dụng chúng để môi cho mô hình ngôn ngữ tạo racác hướng dẫn mới và các phiên bản đầu vào-đầu ra tương ứng Sau đó, các câu trả lời từ

mô hình được lọc dé loại bỏ những câu trả lời có chất lượng thấp và những câu có kết qua

tốt sẽ được đưa trở lại tập sinh Quá trình này có thể được lặp lại nhiều lần, tạo ra một bộ

dữ liệu chỉ dẫn lớn và được sử dụng dé tinh chỉnh, huấn luyện mô hình ngôn ngữ.

2.4 Parameter-Efficient Tuning với LoRA

LoRA (Low-Rank Adaptation of Large Language Models) [2] là một kỹ thuật thích ứng

(adapt) các mô hình ngôn ngữ lớn (LLM) với các tác vụ cu thé ma không cần phải huấn

luyện lại toàn bộ mô hình Điều này rất quan trọng vì việc huấn luyện lại LLM có thể tốnkém va mat nhiều thời gian

h = WOx + AWx = WOx + BAx

Trang 18

Hình 2.4 Cơ chế của LoRA

LoRA hoạt động bằng cách thêm một số ít ma trận phân tích bậc

thấp(rank-decomposition) có thé huấn luyện được vào mỗi lớp của LLM Các ma trận này được sửdụng dé điều chỉnh trọng số của LLM theo cách cụ thể cho tác vụ hoặc miền mà mô hình

đang được thích ứng.

LoRA có một số ưu điểm so với các phương pháp huấn luyện LLM khác.

Y Đầu tiên, LoRA hiệu quả hơn nhiều về số lượng tham sé có thé huấn luyện được

Điều này có nghĩa là các mô hình LoRA có thê được huấn luyện và triển khai

nhanh chong và dé dang hơn các fine-tuned models (mô hình được tinh chỉnh)

v Thứ hai, các mô hình LoRA ít bị ảnh hưởng bởi hiện tượng catastrophic forgetting

(quên thảm khốc) Catastrophic forgetting là một hiện tượng xảy ra khi một mô

hình học cách thực hiện một tac vụ mới nhưng quên cách thực hiện các tác vụ ban

đầu của nó Các mô hình LoRA ít gặp phải hiện tượng quên thảm khốc hơn vì

chúng chỉ điều chỉnh trọng số của LLM theo cách cụ thê cho tác vụ mới

v Thứ ba, các mô hình LoRA không gây ra bất kỳ độ trong quá trình chạy mô hình

Điều này có nghĩa là các mô hình LoRA có thê được sử dụng đề tạo văn bản theothời gian thực, giống như các fine-tuned models

Trang 19

Nhìn chung, LoRA là một kỹ thuật mới triển vọng dé huấn luyện LLM với các tác vụ

hoặc miền cụ thé Nó hiệu quả hơn, có kha năng chống lại hiện tượng quên thảm khốc tốt

hơn và chính xác hơn so với các phương pháp thích ứng LLM khác.

2.5 Language model (mô hình ngôn ngữ )

Mô hình ngôn ngữ trong khoa học máy tính là một loại hệ thống trí tuệ nhân tạo (AI)

được thiết kế để hiểu và tạo ra ngôn ngữ của con người Về cơ bản, nó là một mô hình

thống kê hoặc mạng lưới thần kinh học các mẫu và mối quan hệ trong một tập dữ liệu văn

bản lớn, cho phép nó thực hiện các tác vụ xử lý ngôn ngữ tự nhiên (NLP) khác nhau.

Các giai đoạn phát triển của language model:

2.5.1 Statistical Language Model — SLM (Mô hình ngôn ngữ thong kê)

SLM được phát triển dựa trên các phương pháp học thống kê đã phát triển trong những

năm 1990 Ý tưởng cơ bản là xây dung dự đoán từ mô hình dựa trên giả định Markov, vi dụ: dự đoán từ tiếp theo dựa trên ngữ cảnh gần đây nhất Các SLM với độ dài ngữ cảnh

có định n còn được gọi là n-gram language models, ví dụ: mô hình ngôn ngữ bigram và

trigram.

SLM đã được áp dụng rộng rãi để nâng cao hiệu suất công việc trong truy xuất thông tin

(IR) và ngôn ngữ tự nhiên xử lý (NLP) Tuy nhiên, họ thường phải gặp vẫn đề về nhập

nhằng ngữ nghĩa của từ cũng như thứ tự sự phụ thuộc giữa các từ trong đoạn văn

Trang 20

Pars 1033, 10„) = p(w )p(we|wy )p(w3|wy, 002) p(tU„ [tU, tU2, Wn—-1)

2.5.2 Neural Language Model — NLM (Mô hình ngôn ngữ than kinh)

NLM mô tả xác suất của chuỗi từ bằng mạng nơ-ron, ví dụ: Recurrent Neuron Network —RNN (mạng thần kinh tái phát), điển hình nhất là GRU và LSTM Một số công trình đã

đưa ra khái niệm về biéu diễn phân tán của các từ và xây dựng chức năng dự đoán từ dựatrên các đặc điểm ngữ cảnh tông hợp (tức là các vectơ từ (word vector) được phân phối).Băng cách đó các mạng nơ-ron tông quát được phát triển đê xây dựng một giải pháp tổng thé cho các tác vụ NLP khác nhau Hơn nữa, word2vec đã được đề xuất dé xây dựng mộtmạng lưới thần kinh nông (shallow neural network) để học các cách biểu diễn từ (word

representations) phân tán, được chứng minh là rất hiệu quả trên một loạt các tác vụ NLP.Những nghiên cứu này đã khởi xướng sử dụng các mô hình ngôn ngữ cho việc học biểu

diễn (ngoài mô hình chuỗi từ), có tác động quan trọng đến lĩnh vực NLP

2.5.3 Pre-trained language models (PLM) (Mô hình ngôn ngữ huấn luyện trước)

Dựa trên kiến trúc Transformer có khả năng tính toán song song hóa cao với cơ chế

self-attention, BERT được đề xuất bằng cách huấn luyện trên bidirectional language models

(các mô hình ngôn ngữ hai chiêu) với các nhiệm vụ huân luyện được thiệt kê đặc biệt trên

Trang 21

dữ liệu không được gắn nhãn quy mô lớn (large-scale unlabeled corpora) Cách biểu diễn

từ nhận biết ngữ cảnh được huấn luyện trước này (pre-trained context-aware word

representation) là rất hiệu quả, đóng vai trò như là đặc tính về ngữ nghĩa, phần lớn đã

nâng cao mức hiệu suất của các nhiệm vụ NLP Cái này nghiên cứu đã truyền cảm hứngcho một số lượng lớn các công việc tiếp theo, trong đó thiết lập ra cơ chế “pre-training

and fine-tuning (huấn luyện trước và tinh chỉnh)” Theo mô hình này, một loạt các nghiêncứu về PLM đã được phát triển, giới thiệu các mô hình kiến trúc khác nhau như: BART,

RoBERTa, DeBER Ta.

2.5.4 Large language models - LLM (Mô hình ngôn ngữ lon)

Thực nghiệm chứng minh rằng khi tăng kích thước của các mô hình PLM (tăng kích

thước mô hình và kích thước dữ liệu) thường dẫn đến năng lực mô hình được cải thiện

đối với các nhiệm vụ cấp thấp (downstream tasks).

Điền hình nhất là GPT-3, đã chứng minh rằng các autoregressive language

models(LLMs) có thé dự đoán tốt với co chế few-shot, trong đó mô hình chỉ được cung

cấp mô tả nhiệm vụ băng ngôn ngữ tự nhiên và một số ví dụ minh họa cách hoàn thành

nhiệm vụ Lớp mô hình này được huấn luyện với kiến trúc decoder-only và mục tiêu môhình hóa ngôn ngữ tiêu chuẩn từ trái sang phải (left-to-right language model objective)

trên một kho văn bản lớn, trong đó mục tiêu là dự đoán token tiếp theo dựa trên các token

trước đó Các lần đánh giá đã được chứng minh được răng chúng đạt được kết quả rất tốt

mà không cân phải huân luyện mô hình trên các tập dữ liệu cho các tác vụ cụ thê.

2.6 Transformer

Kiến trúc Transformer là một kiến trúc học sâu đã cách mạng hóa xử lý ngôn ngữ tự

nhiên (NLP) Nó được giới thiệu trong bai báo "Attention is All You Need" của Vaswani

et al vào năm 2017 và kê từ đó đã trở thành kiến tric tiêu chuẩn dé huấn luyện các mô

hình ngôn ngữ lớn (LLM).

Kiến trúc Transformer dựa trên cơ chế tự chú ý (self-attention), cho phép mô hình học

các phụ thuộc tam xa trong các chuỗi mà không cần dựa vào các kết nối tuần hoàn Điều

Trang 22

này làm cho Transformers hiệu quả và có khả năng mở rộng hơn nhiều so với các kiến

trúc NLP trước đây, chăng hạn như RNN và LSTM

Một ưu điểm quan trọng khác của kiến trúc Transformer là nó có thé parallelizable (songsong hóa) Điều này có nghĩa là các phần khác nhau của mô hình có thê được huấn luyệnđồng thời, giúp giảm đáng kế thời gian huấn luyện cho LLM

Nx

LAdd & Norm ]

Nx Add & Norm

Kiến trúc Transformer đã được sử dụng dé huấn luyện nhiều LLM mạnh mẽ nhất trên thé

giới, bao gồm GPT-3, BERT và RoBERTa Cac LLM này đã đạt được kết quả tiên tiến

nhất trên một loạt các nhiệm vụ NLP, chăng hạn như dịch máy, tom tắt văn bản và trả lời

câu hỏi.

Trang 23

Dưới đây là tông quan đơn giản về kiên trúc Transformer:

VY Văn bản đầu vào trước tiên được chia thành các token và nhúng vào các vector

dày đặc.

Y Bộ mã hóa sau đó xử lý các token song song, sử dung sự tự chú ý dé học các phụ

thuộc tầm xa

Vv Bộ giải mã sau đó tạo văn bản đầu ra, từng token một, sử dụng sự tự chú ý dé chú

ý đến kết quả của bộ mã hóa

Kiến trúc Transformer là một chủ đề phức tạp, nhưng tổng quan đơn giản này sẽ cung cấp

cho bạn một hiệu biệt cơ bản về cách hoạt động của nó.

Dưới đây là một số lợi ích chính của việc sử dụng kiến trúc Transformer trong các mô

hình ngôn ngữ lớn:

Y Hiệu quả và khả năng mở rộng: Transformers hiệu quả và mở rộng hơn nhiều so

với các kiến trúc NLP trước đây, chăng hạn như RNN và LSTM Điều này làmcho chúng trở nên lý tưởng đề huấn luyện LLM trên các bộ đữ liệu khổng lồ

Y Parallelism (Song song hóa): Transformers có thé song song hóa, nghĩa là các

phần khác nhau của mô hình có thê được huấn luyện đồng thời Điều này giúpgiảm đáng ké thời gian huấn luyện cho LLM

Y State-of-the-art (Kết qua tién tién nhất): Cac LLM dựa trên Transformer đã đạt

được kết quả tiên tiễn nhất trên một loạt các nhiệm vụ NLP

Nhìn chung, kiến trúc Transformer là một công cụ mạnh mẽ va linh hoạt để huấn luyện

các mô hình ngôn ngữ lớn Nó đã cách mạng hóa lĩnh vực NLP và cho phép phát triển

LLM có thể thực hiện nhiều loại nhiệm vụ ở cấp độ cao

2.6.1 Cơ chế Self-attention

Attention là một cơ chế được sử dụng trong mạng nơ-ron nhân tạo trong việc thiết kế các

mô hình trí tuệ nhân tạo như xử lý ảnh hay xử lý ngôn ngữ tự nhiên Trong mô hình ngôn

ngữ, cơ chế Attention cho phép mô hình học cách tập trung vào các phần có liên quan đặcbiệt của chuỗi đầu vào trong mỗi bước xử lý thông qua quá trình huấn luyện và đưa ra dự

Trang 24

đoán [35, 36] Cơ chế này cho phép mô hình gán các trọng số biểu thị mức độ quan trọngkhác nhau cho các yếu tố khác nhau của chuỗi đầu vào, dựa trên mức độ phù hợp của

chúng với ngữ cảnh hiện tại Trong nhiều trường hợp đặc biệt, chuỗi đầu vào có độ dài rất

lớn và phức tạp, các mô hình thường gặp khó khăn trong việc xử lý và rút trích các đặc

trưng Cơ chế Attention cho phép mô hình tập trung có chọn lọc vào các phần quan trọngnhất của chuỗi đầu vào đề đưa ra dự đoán và bỏ qua các phần ít liên quan hơn Điều này

có thé giúp mô hình đưa ra dự đoán chính xác hơn và do đó hiệu suất trên các tác vụ xử

lý ngôn ngữ tự nhiên cũng được cải thiện.

Cơ chế Self-attention được phát triển từ Attention, là một trong những thành phan cốt lõicủa mạng Transformers Cơ chế Self-attention có nhiệm vụ giúp cho mô hình xử lý chuỗiđầu vào một cách hiệu quả hơn thông qua việc sử dụng Attention trên chính các thông tin

từ chuỗi đầu vào Y tưởng chính dang sau Self-attention là mỗi token trong chuỗi đầu vàotương tác với tất cả các token khác và mức độ liên quan hoặc tầm quan trọng khác nhau Ảnh hưởng của từng token trên toàn bộ chuỗi đầu vào sẽ được xác định bởi mô hình

thông quá quá trình huấn luyện

Trang 25

Hình 8 mô tả toàn bộ cơ chế Self-attention Hàm Self-attention nhận đầu vào là chuỗi có

độ đài L token được thé hiện qua 3 ma trận đặc trưng: Query (Q), Key (K) và

Value (V); Q,K,V € IR“*$; d là số chiều của đặc trưng mô hình

Y Key: mỗi Key được liên kết với một giá tri thé hiện mức độ phù hợp hoặc tầm

quan trọng của nó đối với từng phan tử Query

Y Query : đại diện cho một phần tử tại vị trí nhất định mà mô hình muốn tính toán

mức độ quan trọng Nó được sử dụng dé so sánh với các phần tử khác trong chuỗiđầu vào

Y Value: được sử dụng để tính toán đầu ra của cơ chế Self-attention, nó đại điện cho

các thông tin được liên kết với mỗi giá tri Key thé hiện qua giá trị của các trọng

số Các giá tri của trọng số được xác định bởi một hàm tính trọng số dựa trên giá

trị của Query va Key tương ứng.

* Hàm tính trong số: Hàm này nhận vào một cặp Query - Key và được sử dụng dé

xếp hang độ liên quan của từng phan tử trong Key với Value Thông thường, hamtính trọng số sẽ được tính thông qua tích vô hướng giữa hai vector hay thông quamột mạng nơ-ron nhằm đánh giá độ liên quan giữa hai phần tử đầu vào

Y Mỗi token trong cùng một câu sẽ có độ quan trọng khác nhau ứng với các token

khác Chúng sẽ có hai giá tri Query va Key tương ứng Query của token sẽ được

so sánh với tất cả các Key khác thông qua hàm tính trọng số

QxKI Attention(Q,K,V) = softmax xV

Ja

Phép tích vô hướng Q x K' cho ra một ma trận có dang IR# X, thé hiện cho độ quan

trọng của từng token với các token còn lại Cụ thé hơn, độ quan trọng đ;; của token tai vitrí i với từng token tai vị trí j được thê hiện thông qua tích vô hướng của q¡, kj € R? làhai véc-tơ hang trong hai ma tran Query va Key S; là tập các vị trí trong chuỗi đầu vào

Trang 26

Các giá tri Attention được điều chỉnh với một hệ số tỉ lệ (scaling factor) FR Hệ số này =

được áp dụng như một hệ số chuẩn hóa khi tính toán tích vô hướng giữa véc-tơ Query vàvéc-tơ Key, với nhiệm vụ chính là điều chỉnh phương sai thích hợp cho các giá trị

Attention Khi khởi tạo mô hình Transformers, các giá tri trọng SỐ thường được khởi tạo

từ phân phối chuẩn với phương sai bang nhau, bao gồm cả các giá trị K và Q Tuy nhiên,khi thực hiện phép tích vô hướng giữa hai véc-tơ có phương sai băng nhau, kết quả sẽ cho

ra giá trị có phương sai gấp dự lần

2.6.2 Multi-head Self-attention

Multi-Head Attention

Scaled Dot-Product }

—

Hình 2.8 Kiến trúc Multi-Head Attention

Multi-head Self-attetion là phiên bản mở rộng của cơ chế Self-attention, và là thành phan

chính trong mạng Transformers Mặc dù cơ chế Self-attention đã cho phép các mô hình

nắm bắt các yếu tố phụ thuộc lẫn nhau trong chuỗi đầu vào, nhưng với cơ chế Multi-head

Self-attention sẽ nâng cao hơn nữa khả năng xử lý của mô hình thông qua việc tập trung

vào các khía cạnh khác nhau của biểu diễn đầu vào Trong Multi-head Self-attention, co

Trang 27

chế Self-attention được áp dụng song song nhiêu lần, với mỗi “head” học các biểu diễn

có trọng sô khác nhau trên một nhóm đặc trưng dau vào.

Mỗi ma trận Query, Key và Value được chia thành h ma trận con Sau khi thực hiện cơ

chế Self-attention độc lập trên các ma trân con này, đầu ra được tạo ra bằng cách ghép

nối đầu ra của các attention head và đưa qua phép chuyền đổi tuyến tính, thông qua đó

mô hình có thé nắm bắt được nhiều thông tin đa dang và hữu ích trong quá trình huấn

luyện.

2.6.3 Kiến trúc

Kiên trúc của mô hình Transformers vê cơ bản sẽ có hai thành phân chính: bộ mã hoá

(encoder) và bộ giải mã (decoder) Kiên trúc này được sử dụng chủ yêu trong các bài toán tạo văn bản, trong đó mô hình nhận dau vào là một chuỗi và dau ra là một chuỗi khác.

Bộ mã hóa

Add & Norm

Feed Forward

Nx Add & Norm

Trang 28

-gồm cơ chế Self-attention và mạng nơ-ron truyền thăng Cơ chế Self-attention cho phép

bộ mã hóa năm bắt các mối quan hệ phụ thuộc giữa các token khác nhau từ chuỗi đầu

vào, trong khi các mạng nơ-ron truyền thắng thực hiện các biến đổi tuyến tính cho từngphan tử trong chuỗi Mỗi khối trong bộ mã hoá đều có sử dụng các kết nối Residual vàlớp Layer norm Bộ mã hoá nhận đầu vào là x, sau đó nó được đưa qua lớp Multi-headSelf-attention Đầu ra của bước này sẽ được kết hợp trực tiếp với đầu vào thông qua kếtnối Residual và đưa qua lớp Layer norm

Bộ giải mã

Multi-Head Attention

ak.

Output Embedding

Outputs

(shifted right)

Hình 2.10 Kiến trúc bộ giải mã

Trang 29

Chức năng của bộ giải mã là nhận vào các thông tin từ bộ mã hoá và sử dụng các thông

tin này cho việc xây dựng đầu ra Bộ giải mã có kiến trúc gần giống như bộ mã hoá, baogom N khối Transformers xếp chồng lên nhau Tuy nhiên, điểm khác biệt là tại mỗi khối

Transformers, bộ giải mã chứa hai lớp Multi-head Self-attention thay vì một như ở bộ mã

hoá Lớp Multi-head Self-attention thứ nhất có chức năng nắm bắt các quan hệ phụ thuộctrong chuỗi đầu ra được tạo và lớp thứ hai cho phép bộ giải mã khai thác các thông tin

quan trọng từ biểu diễn đầu vào do bộ mã hóa tạo ra Cơ chế này tạo điều kiện cho việc

kết hợp các thông tin từ bộ mã hóa và bộ giải mã, giúp mô hình tạo ra các chuỗi đầu ra

đầu vào Thông thường, hàm mã hóa vị trí là các hàm sin và cos có tần số và biên độ

khác nhau, cho phép mô hình phân biệt giữa các token dựa trên vị trí tương đối của

c0s (s559090=n tno) gược lại

Trong đó ma trận PE đại diện cho véc-tơ nhúng tại vị trí pos trong chuỗi Bằng cách kết

hop mã hóa vi trí, Transformers có thé phân biệt giữa các token có nội dung tương tự

nhưng vi trí khác nhau, cho phép mô hình tận dụng ngữ cảnh tuần tự của đầu vào Thôngtin về vị trí này rất cần thiết trong việc nắm bắt các phụ thuộc và hiểu cấu trúc của chuỗi

đâu vào.

Trang 30

In-Context Learning (ICL) (học tập trong ngữ cảnh) là một kỹ thuật sử dụng các mô hình

ngôn ngữ lớn (LLM) dé thực hiện các tác vụ mà không cần phải tinh chỉnh Nó hoạt độngbang cách cung cấp cho LLM một vai vi dụ về hành vi mong muốn trong lời nhắc đầu

vào (prompt) Sau đó, LLM sử dụng các vi dụ nay đề học cách thực hiện tác vụ trên dữ

liệu mới.

ICL là một kỹ thuật rất hiệu quả vì nó cho phép LLMs được sử dụng cho nhiều loại tác

vụ khác nhau, ngay cả khi không có sẵn dữ liệu huấn luyện được gắn nhãn Ví dụ, ICL cóthể được sử dụng để dạy LLMs trả lời các câu hỏi trong một lĩnh vực mới, tạo ra các định

dạng văn bản sáng tạo khác nhau hoặc dịch ngôn ngữ.

Một số cách được sử dụng trong ICL:

¥ Zero-shot: mô hình đưa ra câu trả lời chỉ dựa vào mô tả của tac vụ mà không có

bất kỳ ví dụ nào

Y One-shot: ngoài mô ta của tác vụ, thì đưa thêm vào prompt một ví dụ minh hoa về

cách trả lời, mô hình sẽ dựa vào đó đề đưa ra câu trả lời

Y Few-shots: ngoài mô tả của tác vụ, thì đưa thêm vào prompt vai vi dụ minh họa về

cách trả lời, mô hình sẽ dựa vào đó đề đưa ra câu trả lời

ICL vẫn đang trong giai đoạn phát triển, nhưng nó có khả năng cách mạng hóa cách sử

dụng LLM Bằng cách làm cho có thể sử dụng LLM cho các tác vụ mà không cần phải

huấn luyện (finetune), ICL giúp LLM dễ tiếp cận hơn với nhiều người dùng hơn

Dưới đây là một số lợi ích tiềm năng của việc sử dụng ICL trong LLM:

¥ Giảm nhu cầu về dữ liệu huấn luyện có nhãn: ICL cho phép LLM được sử dụng

cho các tác vụ ngay cả khi không có sẵn dữ liệu huấn luyện có nhãn Điều này rấtquan trọng vì dữ liệu huấn luyện có nhãn có thé tốn kém và tốn thời gian để thu

thập.

v Cải thiện tính linh hoạt: ICL làm cho LLM linh hoạt và thích ứng hơn với các tác

vụ mới Điều này là do LLM có thé được huấn luyện dé thực hiện các tác vụ mớichỉ đơn giản bằng cách cung cấp cho chúng một vài ví dụ.

Trang 31

*_ Tăng khả năng tiếp cận: ICL làm cho LLM dễ tiếp cận hơn với nhiều người dùng

hon, bao gồm những người không có quyền truy cập vào nhiều dữ liệu huấn luyện

có nhãn hoặc chuyên môn trong việc tinh chỉnh LLM.

Nhìn chung, ICL là một kỹ thuật mới đầy hứa hẹn dé sử dụng LLM Nó có khả năng làm

cho LLM linh hoạt hơn, thích ứng hơn và dễ tiếp cận hơn với nhiều người dùng hơn

2.8 Chatbot

Chatbot là một ứng dụng phần mềm hoặc giao diện web nhằm mô phỏng cuộc trò chuyện

của con người thông qua các tương tác văn bản hoặc giọng nói Các chatbot hiện đại

thường trực tuyến và sử dụng các hệ thống trí tuệ nhân tạo (AI) có khả năng duy trì cuộctrò chuyện với người ding bằng ngôn ngữ tự nhiên và mô phỏng cách con người cư xử

như một đối tác trò chuyện Các công nghệ như vậy thường sử dụng các khía cạnh của

học sâu và xử lý ngôn ngữ tự nhiên (NLP), nhưng các chatbot đơn giản hơn đã tổn tại từnhiều thập kỷ trước

Các loại Chatbot:

Y Chatbot Dựa trên Quy tắc (rule-based): Các chatbot này tuân theo các quy tắc

(rules) và cây quyết định (decision tree) được xác định trước Chúng có thể xử lý

các tương tác đơn giản và trực quan, nhưng có thê gặp khó khăn trong các cuộc tròchuyện phức tạp hoặc không có cấu trúc

Y Chatbot Dựa trên Trí Tuệ Nhân Tao (AI): Các chatbot nay sử dụng hoc máy va

thuật toán AI đề cải thiện các phản hồi của họ theo thời gian Chúng có thể xử lýcác cuộc trò chuyện phức tạp hơn và thích nghỉ với các đầu vào khác nhau của

người dùng.

Chatbot có thé được tìm thấy trên gần như mọi kênh giao tiếp, từ hệ thống tổng đài điện

thoại đến mạng xã hội đến các ứng dụng và trang web cụ thé Chúng được sử dung cho

nhiêu mục đích khác nhau, bao gôm:

Y Dịch vụ khách hàng: Chatbot có thể cung cấp hỗ trợ 24/7 cho khách hàng, trả lời

Trang 32

*_ Bán hàng và tiếp thị: Chatbot có thé được sử dụng dé tạo khách hàng tiềm năng,

đánh giá chất lượng khách hàng tiềm năng và thậm chí là chốt giao dịch

Y Giáo dục: Chatbot có thé được sử dụng dé cung cap trải nghiệm học tập được cá

nhân hóa cho học sinh, cung cấp phản hồi và trả lời câu hỏi

Y Giải trí: Chatbot có thể được sử dụng dé tạo trò chơi, câu chuyện và các trải

nghiệm tương tác khác.

Chatbot mang lại một số lợi ích, bao gồm:

v Tiện lợi: có sẵn 24/7 và có thé truy cập từ bat cứ đâu có kết nối internet

Y Hiệu quả: có thé xử lý nhiều cuộc trò chuyện đồng thời, giải phóng nhân viên con

người tập trung vào các nhiệm vụ phức tạp hơn.

Y Cá nhân hóa: có thé cung cấp cho họ những phản hồi được cá nhân hóa

v_ Tiết kiệm chi phí: có thé tự động hóa các tác vụ giúp doanh nghiệp tiết kiệm tiền

chi phí nhân công.

Tuy nhiên, chatbot cũng có một số hạn chế Ví dụ, đôi khi chúng có thé khó hiểu hoặc

phản hồi theo cách tự nhiên Ngoài ra, chúng có thê không thể xử lý tất cả các loại câu

hỏi hoặc yêu cầu, đặc biệt là những câu hỏi hoặc yêu cầu phức tạp hoặc yêu cầu kiến thức

chuyên môn.

Nhìn chung, chatbot là một công cụ mạnh mẽ có thể được sử dụng cho nhiều mục đích

khác nhau Khi AI ngày càng phát triển, chatbot cũng ngày càng trở nên thông minh hơn

va giao tiép như con người.

2.9 Retrieval Augment Generation

Retrieval Augment Generation - RAG (truy xuất tăng cường tao sinh) là một kỹ thuật cảithiện hiệu suất của các mô hình ngôn ngữ lớn (LLM) băng cách cung cap cho chúng

quyên truy cập vào các nguồn kiến thức bên ngoài LLM được huấn luyện trên các bộ ditliệu không lồ về văn bản và mã, nhưng chúng vẫn có thể mắc lỗi, đặc biệt là khi tạo vănbản yêu cầu kiến thức thực tế RAG giúp giải quyết van dé này bằng cách cho phép LLM

Trang 33

truy xuất và sử dụng thông tin có liên quan từ các nguồn bên ngoài, chang hạn như

Wikipedia, co sở dữ liệu hoặc các tải liệu khác.

Query | Texts

Hình 2.115 Quy trình các luồng xử lý với RAG

RAG hoạt động bằng cách đầu tiên truy xuất một bộ tài liệu có liên quan từ nguồn kiếnthức bên ngoài, dựa trên lời nhắc đầu vào (input prompt) Các tài liệu được truy xuất sau

đó được nối với input prompt và đưa vào LLM Từ đó, LLM tạo ra câu trả lời có liên

quan tới câu hỏi và các thông tin được truy xuất

RAG đã được chứng minh là có thể cải thiện hiệu suất của LLM trên nhiều loại nhiệm

vụ, bao gồm trả lời câu hỏi, tóm tắt và dịch thuật Ví dụ, trong một nghiên cứu của

Google AI, RAG đã có thể cải thiện độ chính xác của một hệ thống trả lời câu hỏi lên

10%.

Dưới đây là một số lợi ích của việc sử dụng RAG:

Y Độ chính xác được cải thiện: RAG giúp LLM tạo ra các phản hồi chính xác và

thông tin hơn, đặc biệt là khi tạo văn bản yêu cầu kiến thức thực tế

_ Giảm ảo tưởng(hallucinations): RAG giúp giảm khả năng LLM tao ảo tưởng hoặc

thông tin sai.

v Tăng tính đa dang: RAG có thé giúp LLM tao ra các phản hồi da dang hon, bang

cách cung cấp cho chúng quyên truy cập vào nhiều thông tin hơn

Trang 34

* Khả năng thích ứng: RAG cho phép LLM thích ứng với những thay đổi của thé

giới mà không cần phải huấn luyện lại

Y RAG là một kỹ thuật mạnh mẽ có thé được sử dụng dé cải thiện hiệu suất của

LLM trên nhiều loại nhiệm vụ Nó vẫn đang được phát triển, nhưng nó có tiềm

năng cách mạng hóa cách chúng ta sử dụng LLM.

Trang 35

Chương 3: PHƯƠNG PHÁP

3.1 Giới thiệu về phương pháp.

Phương pháp tinh chỉnh theo chỉ dẫn (instruction fine-tuning) cho mô hình ngôn ngữ lớn

đã cho thấy được sự hiệu quả trong việc cải thiện khả năng của mô hình trong các tác vụhiểu yêu cầu và trả lời cho người dùng Tuy nhiên dé đạt được điều đó, mô hình cần đượctinh chỉnh, huấn luyện với lượng lớn dữ liệu có nhãn trải dài trên các tác vụ, yêu cầu khácnhau từ người dùng Hơn nữa việc huấn luyện mô hình LLM đòi hỏi chỉ phí tính toán rấtlớn Những tiến bộ gần đây trong việc áp dụng các kĩ thuật tăng cường dữ liệu dựa vào

như Self-Instruct, và các kỹ thuật tối ưu huấn luyện (parameter fine-tuning), nén mô hình

(quantization) đã giúp cho việc tinh chỉnh theo chỉ dẫn trở nên dễ dàng hơn.

Giải pháp mong muốn thử nghiệm việc tinh chỉnh, huấn luyện theo chỉ dan mô hình LLM

cho tiếng Việt trên hai lĩnh vực, lĩnh vực rộng với nhiều loại tác vụ khác nhau và một lĩnhvực hẹp hơn, cụ thê là về y tế sức khỏe Giải pháp gồm hai bước

Bước một giải pháp bắt đầu với một mô hình nền tang (baseline model) có sẵn từ đó tinh

chỉnh (finetune) mô hình với bộ dit liệu lớn theo chỉ dẫn (instruction-following dataset)

trải rộng trên một loạt các tác vụ khác nhau về xử lý ngôn ngữ tự nhiên nhằm tăng khả

năng giao tiếp cho mô hình cũng như có thé thực hiện theo chi dan cho người dùng với

nhiêu loại yêu câu khác nhau.

Bước hai tiếp tục finetune mô hình với bộ dữ liệu trên một lĩnh vực cụ thé là về y tẾ, strckhỏe nhằm tăng cường khả năng của mô hình cho riêng lĩnh vực này nhằm xây dựng ứngdụng trợ lý về y khoa

Trang 36

GPTJ-Chat

Huan luyén chi dan

Mo hinh goc > — Huấn luyện chi dan Bloor Doctor

LoRA + quantization ie Chat * | GPTI-Doctor

LoRA + quantization

Mô hình y khoa

200k mâu ví dụ

-100k mâu ví dụ

Dữ liệu chỉ dân đa tác vụ _ ,

Dữ liệu chỉ dân y tê, sức khỏe

Hình 3.1 Quá trình huấn luyện của các mô hình

Chúng ta sẽ lần lượt đi qua các phương pháp về việc thu thập dữ liệu, chọn lựa mô hình

cơ sở, huân luyện mô hình, triên khai và chạy mô hình.

3.2 Thu thập dữ liệu

Việc tạo bộ dữ liệu theo chi dan (instruction data) cho một loạt các tác vu NLP khác nhau

tốn rất nhiều công sức và thời gian Gần đây các phương pháp tăng cường dữ liệu huấn

luyện dựa vào các mô hình tạo sinh ngày càng phố biến Và trong xử lý ngôn ngữ tự

nhiên (NLP) kỹ thuật Self-Instruct (tự chỉ dẫn) hiện nay đang phô biến và được áp dụng

Trang 37

3.2.1 Bộ dữ liệu da tác vụ

Lay ý tưởng từ du án cua nhóm nghiên cứu từ dai hoc Standford tên là Alpaca [11] bằngviệc sử dụng kĩ thuật Self-Instruct dé tạo bộ dữ liệu huấn luyện theo chỉ dẫn, học viên đã

áp dụng dé tạo bộ dữ liệu cho đề tài với quy trình tạo dữ liệu như sau:

Self-Instruct Dich 52k chi dan

x ————* 52k chỉ dẫn _

dau LLaMA OpenAl

Instruction: đưa ra 3 mẹo

giữ sức khỏe

Instruction: brainstorm a list of Instruction: give 3 ideas to

possible New Year’s resolutions keep healthy

Output: Output: Output:

- Tập thể dục thường xuyên

- Chế độ ăn uống cân bằng

- Ngủ ngon

Hình 3.3 Quá trình tao dữ liệu cho mô hình đa tac vu

Quy trình bắt đầu với 175 mau dữ liệu chi dan được đánh nhãn bởi con người bao gồm

nhiều tác vụ khác nhau được đưa vào danh sách khởi tạo Sau đó với mỗi bước bang viéc

ap dung ki thuat Self-Instruct két hop mô hình ngôn ngữ lớn LLaMA [12], từ bộ dữ liệuban đầu quá trình sẽ tổng hợp ra nhiều mẫu dữ liệu hơn Các mẫu dữ liệu mới sẽ được

chọn lọc và đưa thêm vào danh sách khởi tạo để tiếp tục quá trình tổng hợp mới Quá

trình kết thúc bằng việc tổng hợp ra được 52000 mẫu đữ liệu theo chỉ dẫn mới.

Bước tiếp theo từ bộ dữ liệu được tạo ra ở bước trên, học viên tiếp tục sử dụng OpenAI

dé dịch toàn bộ bộ dữ liệu Sang tiếng Việt

Trang 38

Cho lời khuyên

mViết mCho =Tim =Tạo mMôTả mGiảithích mThiếtkế mKhác m

Hình 3.4 Bộ dữ liệu đa tác vụ

Bộ dữ liệu đa tác vụ cho tiếng Việt cũng có sự đa dạng với 52000 chỉ dẫn khác nhau và

trải dài trong các tác vụ phô biến của một chatbot, trợ lý ảo Biéu đồ trên minh hoạ một

số tác vụ phố biến cùng với tỉ lệ của chúng Chúng bao gồm các tác vụ như soạn thảo văn

bản, việt email, cho vi dụ, tìm kiêm, mô tả, giải thích, phân loại

Bộ dữ liệu sau khi được tạo sẽ lưu dưới dang json Cau trúc mỗi mau đữ liệu khá don

giản chỉ gôm hai trường prompt cho dau vai và response cho câu trả lời dau ra với định

dạng sau

{"prompt": "đưa ra 3 mẹo giữ sức khỏe”, "response": "1 An một chê độ ăn

cân băng và dam bao bao gốm nhiêu trai "} {"prompt": "Ba màu chính là

gi?", "response": "Ba màu chính la màu đỏ, xanh và vàng "}

a OD lÀ

Trang 39

Ngoài ra nhằm tăng cường khả năng hội thoại của mô hình, học viên còn sử dụng thêm

bộ dữ liệu từ GPT4AII [12] với hơn 150 ngàn đoạn hội thoại g1ữa người dùng với

healthcaremagic OpenAI 90k mau 100k mau

Dữ liệu chi dan y khoa

Tông hợp và tạo ra i Bai bao OpenAI a 3k mau

Hình 3.5 Quá trình tạo bộ dữ liệu cho mô hình y khoa

Bộ dữ liệu về y tế sức khỏe của đề tài được thu thập từ những nguồn sau:

Y ChatDoctor: cũng tương tự như dự án Alpaca, dự án ChatDoctor [13] bắt đầu với

700 loại bệnh và phương pháp điều trị được dán nhãn bởi con người Sau đó dùng

kỹ thuật Self-Instruct dé tăng lên thành 5000 mẫu Học viên tiếp tục sử dụngopenAI dé dịch sang tiếng Việt

VY Healcaremagic: [14] học viên thu thập hơn 90 ngàn mẫu đối thoại giữa bác sĩ và

bệnh nhân từ website va dùng openAI dé dịch sang tiếng Việt

Trang 40

Bài báo: học viên thu thập hơn 600 bài viết về các loại bệnh khác nhau từ bệnhviện Tâm Anh Sau đó prompt (hướng dẫn) cho openAI để tạo ra hơn 1000 câu hỏi

và câu trả lời từ đó Mẫu prompt như sau:

Bạn sẽ được cung cấp VĂN BẢN từ bài báo

VĂN BẢN sẽ được phân cách bang ký tự {delimiter}

Xuất ra danh sách python gồm 5 đối tượng dict, trong đó mỗi đối tượng là một câu

hỏi có liên quan tới VĂN BẢN đã cho kèm với câu trả lời tương ứng Định dạng

như sau:

question': <câu hỏi trên dựa trên VĂN BAN>

‘answer': <câu trả lời>

Định dạng bộ dữ liệu đề huấn luyện cho y khoa cũng tương tự như bài toán mô hình cho

đa tác vụ Dữ liệu cũng được định dạng json và ứng với mỗi mẫu dữ liệu cùng gồm hai

trường prompt va response.

"response": "Phương pháp điều trị hẹp môn vị phổ biến nhất là một thủ thuật

phẩu thuật được gọi là phẫu thuật cắt bỏ môn vị Điều này liên quan đến cắt và

niêm phong cơ xung quanh lỗ mở của môn vị, mở rộng nó và cho phép thức ăn di

qua dễ dàng hơn Tuy nhiên cũng có một số thuốc có thể giúp giảm các triệu

chứng như metoclopramide hoặc cisapride Bạn thích cái nào hon?"}

Thống kê về toàn bộ dữ liệu thu thập được

Bộ dữ liệu Số mẫu TB số token trên Tổng số token

mẫu

Dữ liệu chỉ dẫn đa tác vụ 200k 365 80M

Tiêu đề	Xây Dựng Chatbot Tiếng Việt Với Mô Hình Ngôn Ngữ Lớn
Tác giả	Đoàn Vũ Thuận
Người hướng dẫn	PGS.TS. Nguyễn Lưu Thùy Ngân, TS. Nguyễn Vinh Tiệp
Trường học	Trường Đại Học Công Nghệ Thông Tin
Chuyên ngành	Khoa Học Máy Tính
Thể loại	luận văn
Năm xuất bản	2023
Thành phố	Thành Phố Hồ Chí Minh

Định dạng
Số trang	82
Dung lượng	49,88 MB