Đặc biệt hơn các mô hình mô hình ngôn ngữ tự hồi quy lớn large autoregressive language models, điển hình như GPT-3 [1], đã cho thay được rằng chúng có thé được sử dụng cho bat ki tác vụ
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHÓ HÒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
ĐOÀN VŨ THUẬN
VỚI MÔ HÌNH NGÔN NGỮ LỚN
LUẬN VĂN THẠC SĨ, KHÓA LUẬN CAO HỌC
NGÀNH KHOA HỌC MÁY TÍNH
MÃ SÓ: 8480101
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS NGUYÊN LƯU THÙY NGÂN
TS NGUYEN VINH TIỆP
Trang 2LỜI CAM ĐOAN
Tôi xin cam đoan dé tài “Xây dựng chatbot tiếng Việt với mô hình ngôn ngữ lớn” hoàn
toàn là công trình nghiên cứu của cá nhân tôi do tôi thực hiện dưới sự hướng dẫn của TS Nguyễn Lưu Thùy Ngân và TS.Nguyễn Vinh Tiệp.
Các số liệu và những kết quả trong khóa luận là trung thực và chưa được công bồ trong
bat kỳ một công trình nào khác Moi tham khảo trong đề tài luận văn đều được trích dẫn
rõ ràng tên tác giả, tên công trình và thời gian công bố.
Tôi xin chịu trách nhiệm theo quy định của nhà trường với các hình thức sao chép không
hợp lệ và vi phạm quy chế đào tạo sau đại học.
Tp Hồ Chí Minh, tháng 11 năm 2023
Học viên
Đoàn Vũ Thuận
Trang 3LỜI CẢM ƠN
Đầu tiên, tôi xin gửi lời cảm ơn sâu sắc đến PGS.TS Nguyễn Lưu Thùy Ngân Tôi đã
được học rất nhiều kiến thức từ cô qua các khóa học trên lớp cũng như các chia sẻ từ cô
qua các cuộc gặp gỡ Cô đã giúp tôi rất nhiều về các kiến thức chuyên môn, cũng như
định hướng và truyền cảm hứng cho tôi theo con đường nghiên cứu nhờ đó tôi có thêm
động lực làm đề tài này.
Tiếp theo, tôi xin cảm ơn thầy TS Nguyễn Vinh Tiệp đã đồng hành, hỗ trợ và có rất
nhiều đóng góp quý báu trong quá trình thực hiện bài báo khoa học và đề tài luận văn.
Nếu không có sự giúp đỡ của thầy có lẽ tôi còn chưa thể tốt nghiệp trong năm nay.
Tiếp nữa, tôi cũng vô cùng biết ơn Quý Thầy Cô giảng viên Trường Đại Học Công Nghệ
Thông Tin — Đại Học Quốc Gia Thành Phố Hồ Chí Minh Các thay cô thật sự đã giúp đỡ
tôi rất nhiều trong quá trình học thạc sĩ của tôi Đặc biệt hai thầy PGS TS Lê Đình Duy
và Nguyễn Tan Tran Minh Khang đã truyền động lực cho tôi rat lớn dé bắt đầu con
đường học thạc sĩ.
Cuối cùng, tôi xin gửi lời tri ân tới gia đình và người thân đã luôn ủng hộ, dù trong những
hoàn cảnh khó khăn nhất, hoặc những lúc chán nản muốn nghỉ học nhưng họ luôn động
viên và tạo động lực dé tôi tiếp tục con đường học tập và nghiên cứu.
Trang 4Danh mục các ký hiệu và chữ việt tặt - ¿+ + St E12 2 1212121 11111101 1111 re 8
Danh mục các hình vẽ, đồ thị, - 2-52 s£+EE2EE2EE12E11271127112711211121112112112111 11C 9
Danh mục các bảng - ¿+5 + EESkEk2EE E112 111111141111 1111 010011111 tt grưn 10
Chương 1: MO ĐẢẦU 2 222222222222222221112222111122221112271111271111 111 2221111 e 11
1.2 Mục tiêu và phạm vi nghiÊn CỨU - - +56 St E2 EEEEEEESEEkekrkEkEkrrrkrkrkek 12
1.3 Đóng góp của đề tài - 222222 vn 2,221 1 re 13 Chương 2: CÁC CÔNG TRÌNH NGHIÊN CUU LIÊN QUAN - 14
2.1 Mô hình ngôn ngữ lớn (LJLÌM) ¿2-5-5 5252 S+2E‡xx#Etzeekekekerrrerrree 14
2.1.2 Ứng dụng “6 ⁄ À 15
bu na nh °(-(ÄÂäÂÄäậậH,)H.)
2.1.4LLM cho Tiếng Việ
2.2 Instruction Fine-tuning ( Huấn luyện theo chỉ dẫn ) 15
2.3 Self-Instruct 17 2.4 Parameter-Efficient Tuning với LoRA 18 2.5 Language model (mô hình ngôn ngữ ) 20
2.5.1 Statistical Language Model — SLM (Mô hình ngôn ngữ thống kê), 20 2.5.2 Neural Language Model — NLM (Mô hình ngôn ngữ thần kinh)
2.5.3 Pre-trained language models (PLM) (Mô hình ngôn ngữ huấn luyện trước) 2l
2.5.4 Large language models — LLM (Mô hình ngôn ngữ lớn) -. -« 22
2.6 TTAIISÍOTINT - 552 2 t2E2E2E93 3 12121211311 111111111 1111111111111 xe 2
2.6.1 Cơ chế Self-attention :::++ccc222222122,11.-1 Em 24
Trang 5Chương 3: PHƯƠNG PHÁP 22: ©2222222EES29222111222221112221112271112221111 2211Xe 36
3.1 Giới thiệu về phương pháp -: -©222++++22EEEEE2+rtEEEEEEEErrrrrrrrrrrrrrrrrrrer 36
3.2 Thu thap ốỐố ố 37 3.2.1 BO dit liGu da cà na 38
4.1 Thiết lập môi trường
4.2 Prompt template (Mẫu lời nhắc) -+222222222+c+z+ttt22vvvzrrrrrrrrrvsee 46 4.3 Thực hiện huấn luyện . -222¿+222222+222EE221222112222211112272112227111 21111 ceEExe 41 4.3.1 Nap mô hình và Tokenizer - - t1 2191212121 1212121 121 1711171111111 1 xe 47 4.3.2 Nap dit ng ẽ.ẽ 48 4.3.3 Tokenize dữ liệu
4.3.4 Câu hình tham số LoR
4.3.5 Khởi tạo bộ huấn luyện (trainer)
4.4 Chạy mô hình kết quả 2+:222++2VV+2++22EE+++EEEEEEvtEEEEEErrtEEEvrrttrkkrrrrrrrrree 51
4.5 Xây dựng ứng dụng chaf(bOt eee cece k 2E TT 111101 01101 gà 52
4.6 Áp dung RAG vào chatbot 22222222222 2222212E22131122221122221112 22111222 52
4.6.1 Mô hình RAG +: 2 2222222,,,,.122212 0.11121.0 0111 00 0r 53
4.6.2 Giao diện nhập liệu
Chương 5: ĐÁNH GIÁ KÉT QUẢ
5.1 Phương pháp đánh giá
Trang 65.3.2 Tập dữ liệu đánh giá c 9922221111111221 tt E21 cccee 58
5.3.3 Một số kết quả từ mô hình - 2-2 ¿+ ++EESEE+EEE£EEEEEEEEEEEEE271211711271221 21 xe 58
5.4 Kết quả đánh giá - 2-55: ©222SE 2 2E 2212211211271121121121111121121111211 11 1xx 59Chương 6: KET LUẬN VA HƯỚNG PHAT TRIEN 2-2 2£ ++£x+zxezes 62
6.1 KẾt luận - 22 52-©52+SE2EE9E1221192112117112117112117111171111711 1111.11.1111 626.2 Hạn chẾ + 2 %+S<+EE9EEEEEEEEEEEEEE12112112112112111121111111 1111111111111 11 11 c0 626.3 Hướng phát triỂn -. - ¿2 2 ©E+EE+E£EE£+E£EEEE12E12212112212171717171.11 1.1.1 xe 63
Tài Liệu Tham KKhảoO - - - G E1 2101111211111931 112911111 1111 011110 11110 1111 kg vn kg 64
Trang 7Danh mục các ký hiệu va chữ việt tat
TT | Chữ viết tắt Y nghĩa
1 AI Artificial Intelligence
2 LLM Large Language Model
3 NLP Natural Language Processing
4 BERT Bidirectional Encoder Representations from Transformers
5 RNN Recurrent Neuron Network
6 LSTM Long Short-term Memory Networks
7 GRU Gated Recurrent Unit
8 LoRA Low-Rank Adaptation of Large Language Models
9 RAG Retrieval Augment Generation
10 | ICL In-Context Learning
11 | SLM Statistical Language Model
12 |NLM Neural Language Model
13 | PLM Pretrained Language Model
14 | PEFT Parameter-Efficent Fine-Tuning
15 | GPT Generative Pre-trained Transformer
Trang 8Danh mục các hình vẽ, đồ thị
Hình 2.1 Tiến trình phát triển các mô hình ngôn ngữ lớn - ¿52522222252 14Hình 2.2 Huan luyện theo chỉ dẫn 2- 2° £+S£+E£2E£2EE+EE+EE+EEEEESEEEEEEEEEEerEerrerrkee 16
Hình 2.3 Cách hoạt động của Self-Imstruct - 5-2132 * 321191 9E Ekrrrrrn 18
Hình 2.4 Cơ chế của LoRA -. -225c¿222v+ttEE tt rreeg 19
Hình 2.5 Mô hình ngôn ngữ là gì - Ă 1S SH HH HH HH HH 21
Hình 2.6 Kiến trúc Transformer ccccscsssessesssessssssessssssecsssssecsueesesssessecssessesssecsesseeseeeseess 23Hình 2.7 Cơ chế self-attention -cc:2c2xttttEEkttrttEktrrttttrrrrrttrrirrrtrrirrrrrirrrrrrre 25Hình 2.8 Kiến trúc Multi-Head Attention cccccscccsscsssesseessesssessesssessesssessesssessessseeseeseess 27Hình 2.9 Kiến trúc bộ mã hóa -222+¿++222+++tttEEELEE re 28Hình 2.10 Kiến trúc bộ giải mã 4 2 6NE tG A 29Hình 2.11 Quy trình các luồng xử lý với R.AQ, -¿- 2 ++c£+k+Ex+EEeEEerkerkerrerrerreee 34Hình 3.1 Quá trình huấn luyện của các mô hình - 2 ¿+ £++£+z++xz+zxzxzzzxzzsz 37
Hình 3.2 Xây dựng dữ liệu với Self-Instruct và OpenA Ï - +++s«++xx+se+seesee 37 Hình 3.3 Quá trình tạo dữ liệu cho mô hình đa tac vụ - -. 55555 +‡++<<‡++sss+ssexss 38 Hình 3.4 Quá trình tạo bộ dữ liệu cho mô hình y khoa . - ¿+ 5+ ++<‡+++sx++sex+eex+sex 40
Hình 3.5 Kiến trúc mô hình BLOOMM ¿- 2£ ©2+22++2EE+2EE+2EEE+EEEerErerrxrrrrrrrree 43
Hình 3.5 Phương pháp tinh chỉnh với LORA - 5c 5c 32+ S< E3 +sEEseEeereerseereerse 44 Hình 4 1 Chương trình nạp mô hình và tOk€T01Z€T - - - 6 5+ £+2£*+EE+s+seeseeeseeeee 47 Hinh 4 2 Nap dit GU oo eee 48 Hinh 4 3 Ham tokemize ose 48 Hình 4 4 Khởi tạo LORA woo eee cecsesseeseeseescesesscseceeesecsessessessessessesaseaseeessessessesseeaeeaes 49
Hình 4 5 Khởi tạo bộ huấn luyện -¿- 22 ©2£22+2E+t2EE+2EE+SEEEtEEEerxrrrrrrrrrrrrvee 50
Hình 4 6 Giao diện ứng dụng chafbOI - <5 << E211 E930 19111 911g ngư 52
Hình 4 7 Mô hình RAG cho quá trình nhập dữ liệu và truy vấn . - 2+: 53
Hình 4 8 Giao diện man hình nhập liệu cho mô hình RA - 5 +55 <<+<<<<<+ 54
Trang 9Danh mục các bảng
Bang 1: Thong kê bộ dữ liệu thu thập QUOC 2 ccc esceeeteeseeeseeeeceseeseceeeeseeeeeeseeseeeaeesees 42Bang 2: Chi tiết quá trình huan 1Uy6n eee ceceecessesessessessessessessessessssseesesesestessesseesen 51Bảng 3: Kết qua từ mô hình - 2-2 2 S£2SE£EE2EE£EEEEEEEEEEEEEE2EEE71211712211712 2212 xe 59Bang 4: Kết quả đánh giá mô hình BlOOMZ 2 2 2 5£ E££E+£E£EE£EE£EzEzzEezreee 60Bang 5: Kết quả đánh giá mô hình GP TJ - ¿22 £+S£+S££EE£EE+EE£EEEEEEEEEEEerErrerrerrree 60
Trang 10Chương 1: MỞ ĐẦU
1.1 Đặt vấn đề
Trong những năm gần đây, các công nghệ trí tuệ nhân tao (AI) như Generative AI (AI tạo sinh), chatbot, và trợ lý ảo đã trở nên rất phổ biến và xuất hiện mọi nơi, đặc biệt là
ChatGPT đã và đang tạo ra hiệu ứng rất lớn trong cộng đồng Các ứng dụng của chúng đã
thực sự trở nên hữu ích và giúp đỡ con người rất nhiều trong công việc hằng ngày Từ trợ
lý hỏi đáp, viết email tới sáng tạo nội dung quảng cáo-marketing, viết báo, viết truyện.
Đăng sau sự thành công của chúng là các mô hình ngôn ngữ lớn (Large Language Model
- LLM) Đặc biệt hơn các mô hình mô hình ngôn ngữ tự hồi quy lớn (large autoregressive
language models), điển hình như GPT-3 [1], đã cho thay được rằng chúng có thé được sử dụng cho bat ki tác vụ nào chỉ bởi việc cung cấp vài mẫu ví dụ trong chỉ dẫn đầu vào
(prompt), hay còn gọi là few-shots learning Những tiến bộ gần đây trong việc tinh chỉnh
theo chỉ dẫn (instruction fine-tuning) mang lại cho LLM khả năng hiểu và thực hiện theo yêu cầu mà không cần đưa ra bat ki ví dụ mẫu nào (zero-shot) Điều nay giúp cho các mô
hình LLM có khả năng trả lời một cách tự nhiên và có thê thay thế các mô hình chatbot
truyền thống von phan lớn dựa vào bộ luật (rules) phức tạp và không linh động Tuy
nhiên, việc huấn luyện theo chỉ dẫn đòi hỏi một lượng lớn dữ liệu chi dẫn (instruction
dataset) đa dạng trên tat cả các tác vụ từ người dùng Ngoài ra việc huắn luyện và triển khai LLM rất tốn kém về mặt tài nguyên tính toán.
Những tiến bộ gần đây trong việc áp dụng các kĩ thuật tối ưu huấn luyện
(parameter-efficient fine-tuning, PEFT) [2] và nén mô hình (quantization) đã giúp giải quyết phần
nào các van đề về tài nguyên phần cứng cho việc huấn luyện, tinh chỉnh các mô hình
ngôn ngữ lớn Chúng giúp cho quá trình huấn luyện mô hình tiết kiệm thời gian, tài
nguyên tính toán và năng lực tính toán Ngoài ra sự phổ biến của các kĩ thuật tăng cường
dữ liệu dựa với openAI và các mô hình như GPT-3.5, GPT-4 đã giải quyết phần nào về
Trang 11nhãn bởi con người Tuy vậy những công trình nghiên cứu về việc áp dụng các kĩ thuật
trên cho mô hình ngôn ngữ tiếng Việt còn rất hạn chế.
1.2 Mục tiêu và phạm vi nghiên cứu
Với mong muốn xây dựng trợ lý ảo cho tiếng Việt, học viên áp dụng các phương pháp tỉnh chỉnh theo chỉ dẫn cho các mô hình LLM tiếng Việt, từ đó nâng cao khả năng các mô
hình này trong việc hiểu và thực hiện các yêu cầu khác nhau từ người dùng Cụ thể học
viên sẽ huấn luyện, tinh chỉnh mô hình cho hai lĩnh vực: đa tác vụ trên lĩnh vực rộng (open domain) và hỏi đáp trên lĩnh vực hẹp (close domain) là về y tế, sức khỏe Đề tài này sẽ thực hiện cho tiếng Việt với mô hình ngôn ngữ lớn trong điều kiện giới hạn về tài
nguyên và đữ liệu Để đạt được mục tiêu này, để tài sẽ thực hiện các nội dung như sau:
* Áp dụng kỹ thuật huấn luyện với chi dẫn (instruction fine-tuning) kết hợp các
phương pháp tối ưu tham số huấn luyện, cụ thể là LoRA [2], nén mô hình
(quantization) để huấn luyện tinh chỉnh mô hình tiếng Việt cho các tác vụ trên lĩnh
vực rộng và cho lĩnh vực cụ thể là y tế, sức khỏe.
v Thu thập và áp dụng các phương pháp về tăng cường dữ liệu sử dụng OpenAI
(Self-Instruct) nhằm xây dựng bộ dữ liệu tinh chỉnh theo chỉ dẫn cho mô hình đa
tác vụ gồm khoảng hai trăm ngàn mẫu gồm chi dẫn và tra lời Xây dựng bộ đữ liệu instruction tuning cho lĩnh vực y tế, sức khỏe gồm khoảng một trăm ngàn ví dụ
gồm chỉ dẫn và trả lời.
vx Thử nghiệm, phân tích, đánh giá sự hiệu quả của việc áp dụng các phương pháp
trên so với mô hình gốc, và so với câu trả lời của ChatGPT bằng phương pháp
đánh giá sử dụng GPT-4.
*“_ Xây dựng ứng dụng chatbot trên nền web cho phép người dùng tương tác, hỏi đáp
với các mô hình trên Áp dụng thêm kỹ thuật truy xuất tăng cường tạo sinh (Retrieval Augment Generation - RAG) cho phép mô hình có thể truy xuất thêm
dữ của người dùng mà không cần phải huấn luyện lại nhằm tăng sự tiện lợi cho
Trang 12Dé tai đóng góp hai bộ dữ liệu chỉ dan (instruction datasets) với hơn ba trăm ngàn
mẫu gồm chỉ dẫn và trả lời cho mô hình đa tác vụ và hỏi đáp về y tế.
Đề xuất phương pháp đánh giá và bộ đữ liệu đánh giá kết quả từ mô hình sau khi được huấn luyện cũng như so sánh với kết quả từ mô hình gốc.
Thử nghiệm việc xây dựng ứng dụng thực tế cho phép người dùng tương tác với
các mô hình trên.
Luận văn có một công bố khoa học đã được chấp nhận ở hội nghị quốc tế MAPR
2023 như sau: Vu-Thuan Doan, Quoc-Truong Truong, Duc-Vu Nguyen, Tiep Nguyen, and Thuy-Ngan Nguyen Luu, “Efficient Finetuning Large
Vinh-Language Models For Vietnamese Chatbot”, Proceedings of the 2023 International Conference on Multimedia Analysis and Pattern Recognition (MAPR)
Trang 13Chương 2: CÁC CễNG TRèNH NGHIấN CỨU LIấN QUAN
2.1 Mụ hỡnh ngụn ngữ lớn (LLM)
Trong những năm gan đõy, mụ hỡnh ngụn ngữ lớn (Large Language Models — LLMs) đó
trở thành một trong những cụng nghệ quan trọng và đột phỏ trong lĩnh vực Trớ tuệ nhõn
tạo (AD và xử lý ngụn ngữ tự nhiờn (NLP).
pes G cshara Publicly Available
⁄ ==——== l
— aa, â ats % PanGua & Ernie 3.0
cra@ ơ14 ————= #2 PLUG Cải Jurassic-1
T0 @ 9-10 —— LANG LaMDA
=.- Yuan 1.0 õ
Anthropic _ HyperCLOVANAVER kỡ _ le) AlphaCode (OC) Pythia
werorT @ ỏc â cuncnnna con) Vieuna Tễ IernLM ][ Baichuan2
Ernie 3.0 Titan oe InstructGPT S Z2 ⁄ RWKV se PanGu-> ÍẹWẦ MPT Z2 QWEN
Gopher@) CodeGen â —_— * G uw â Sparrow G Bara Jj, Baichuan FLM
:
PaLM ¿
MT-NLG OPT @ Nự ⁄ \ G FlanT5 0Q LLaMA PaLM2 23M Aquila?
Ee ơ YaLM F
' gprneox.208 (0) xỏ đằ ễ main â CodeGen2 + suywork
TET Ai› > < # XC Luminous StarCoder XVERSE
e : OO NLLB
5 Cohere Đ a 1-12 ° om am
wei C3 “mm mm |
| | ~ 9.11 —>
OPT-IML 0 ChatGPT GP14 Ồ 00 LIaMA2
Hỡnh 2.1 Tiến trỡnh phỏt triờn cỏc mụ hỡnh ngụn ngữ lớn
2.1.1 Kiến trỳc
LLM thường được xõy dựng trờn cỏc kiến trỳc học sõu, với vi dụ nổi bật nhất là kiến trỳc
Transformer Mụ hỡnh Transformer [4], được giới thiệu trong bai bỏo năm 2017 mang
tiờu đề "Attention Is All You Need" của Vaswani và đồng nghiệp, đó trở thành cơ sở chonhiều LLM Chỳng được huấn luyện trờn một lượng lớn dữ liệu văn bản dộ học và hiểu
ngụn ngữ như con người LLMs đặc biệt nổi tiếng với khả năng tạo ra văn bản tự nhiờn,
thụng qua việc phõn tớch và tổng hợp thụng tin từ dữ liệu đầu vào
Trang 142.1.2 Ứng dụng
LLM có một loạt ứng dụng, bao gồm:
* Hiểu ngôn ngữ tự nhiên: LLM có thé phân tích và hiểu văn ban, cho phép các
nhiệm vụ như phân tích tâm trạng, phân loại văn bản và nhận dạng thực thé
Y Tạo van ban: Chúng giỏi trong việc tao ra văn bản mạch lac và liên quan ngữ
cảnh, giúp cho việc tạo nội dung, chatbot va viết sang tao
wx Dich máy, tóm tắt văn bản: LLM đã được sử dụng để cải thiện các hệ thống dịch
máy cũng như các tác vụ về tóm tắt văn bản
w Trả lời câu hỏi, đối thoại: LLM được ứng dụng rất nhiều vào các hệ thống hỏi dap,
cũng như các ứng dụng hội thoạt như hỗ trợ khách 15ang, trợ lý ảo
2.1.3 Thách Thức
Tuy nhiên, cùng với sự phát triển và tiềm năng của LLMs, cũng xuất hiện những thách
thức liên quan đến đạo đức, quyền riêng tư, định kiến và an ninh thông tin Vì khả năng
tạo ra văn bản tự động một cách nhanh chóng và rộng rãi, mô hình này có thé được sử
dụng dé tạo ra thông tin sai lệch, tiêu cực hoặc lừa dối Ngoài ra việc huấn luyện va triển
khai LLM cũng đòi hỏi rất lớn về mặt phần cứng và tiêu thụ năng lượng Do đó sự hiểu
biết và kiểm soát về cách sử dụng và giám sát LLMs là rất quan trong trong quá trình
phát triển và triển khai mô hình này
2.1.4 LLM cho Tiếng Việt
Sự phát triển các mô hình ngôn ngữ lớn (Large Language Models - LLMs) cho tiếng Việt
đã trở thành một xu hướng quan trọng trong lĩnh vực Trí tuệ nhân tạo (AI) và xử lý ngôn
ngữ tự nhiên (NLP) trong vài năm gần đây Các mô hình như PhoBERT [5], BARTpho
[6] VITS [7] đã đặt nền móng cho sự phát triển LLM cho tiếng Việt và được ứng dụng
rộng rãi trong nhiều lĩnh vực Tuy nhiên những mô hình này cần phải được tỉnh chỉnh chocác tác vụ cụ thể (downstream tasks) trước khi được áp dụng
2.2 Instruction Fine-tuning ( Huấn luyện theo chỉ dẫn )
Trang 15Cộng đồng NLP gan đây đã chứng kiến nhiều công trình nghiên cứu việc huấn luyện, tinhchỉnh các mô hình ngôn ngữ lớn dé làm theo hướng dan (instruction) tốt hơn và hữu ich
hon [8] [9] [10].
Các mô hình ngôn ngữ “điều chỉnh theo hướng dẫn” (instruction tuned) (được tinh chỉnh
dé đáp ứng các hướng dẫn) đã chứng tỏ khả năng vượt trội trong việc thực các tác vụ mới
với zero-shot.
The picture appeared on the wall of a
Poundland store on Whymark Avenue [ ] How
would you rephrase that in a few words?
Graffiti artist Banksy
is believed to be
behind [ ]
Sentiment Analysis
Review: We came here on a Saturday night
and luckily it wasn't as packed as I
thought it would be [ ] On a scale of 1
to 5, I would give this a
Question Answering
I know that the answer to “What team did
the Panthers defeat?” is in “The Panthers
finished the regular season [ ]” Can
you tell me what it is?
Arizona Cardinals
Multi-task training
Zero-shot generalization
Natural Language Inference
Suppose “The banker contacted the professors and the athlete” Can we infer that "The
banker contacted the professors"?
Hình 2.2 Huấn luyện theo chi dẫn
Những nỗ lực ban đầu huấn luyện các mô hình ngôn ngữ theo hướng dẫn dựa trên một
tập các bộ dit liệu trên các tác vụ NLP khác nhau, trong đó gồm một tập hợp các hướng
dẫn do con người chú thích (human-annotated) kèm theo mỗi tác vụ
Những kết quả có được nhờ sự hỗ trợ bởi hai thành phần quan trọng: các mô hình ngôn
ngữ được dao tạo trước lớn (large pre-trained language models) và dit liệu hướng dan do
con người viet.
Một sô lợi ích của instruction fine-tuning:
Trang 16Y Cho phép dé dàng kiểm soát câu trả lời của mô hình LLM: việc chỉ định cách trả
lời trong các mẫu dữ liệu huấn luyện dễ kiểm soát hơn cách ứng xử của mô hình
Y Giảm lượng dit liệu yêu cầu: cách huấn luyện này thậm chi vẫn làm việc tốt trong
trường hợp không có quá nhiều đữ liệu huấn luyệnTuy nhiên, phương pháp này cũng có một số hạn chế:
Y Để tạo một bộ dit liệu chỉ dẫn tốn thường mất khá nhiều thời gian
Y Nếu không huấn luyện khéo hoặc dữ liệu quá ít sẽ dé dẫn tới thường hợp
overfitting (quá khớp)
Tuy nhiên sự ra đời của phương pháp Self-Instruct, một phương thức tăng cường khả
năng làm theo hướng dẫn của các large pre-trained language models bằng cách tự tăng
cường khả năng tạo sinh của chính nó đã phần nào giải quyết được những thách thức về
yêu câu về lượng dữ liệu lớn trên một loạt các tác vụ khác nhau.
2.3 Self-Instruct
Các mô hình ngôn ngữ “điều chỉnh theo hướng dẫn” lớn (Large “instruction-tuned”
language models) đã chứng tỏ khả năng vượt trội trong việc thực hiện các tác vụ mới chỉ
với thiết lập zero-shot Tuy nhiên chúng lại phụ thuộc rất nhiều vào bộ đữ liệu chỉ dẫn
được gan nhãn bởi con người (human written instruction data) Và việc tạo bộ dữ liệu
theo chỉ dẫn (instruction data) cho một loạt các tác vụ NLP khác nhau tốn rất nhiều côngsức và thời gian Gần đây cộng đồng xuất hiện kĩ thuật mới được gọi là self-instruct (tựhướng dẫn) — một kỹ thuật tự tạo dữ liệu tăng cường bằng cách cung cấp một lượng dit
liệu nhỏ ban đâu cho mô hình sau đó mô hình sẽ tạo ra thêm nhiêu mau dir liệu mới.
Trang 17Seed Initial Instructions
Prompt
New Instruction Outputs
Hinh 2.3 Cach hoat dong cua Self-Instruct
Self-Instruct là một thuật toán khởi động lặp lại bắt đầu bang một tập hợp các hướng dẫn được viết thủ công bởi con người và sử dụng chúng để môi cho mô hình ngôn ngữ tạo racác hướng dẫn mới và các phiên bản đầu vào-đầu ra tương ứng Sau đó, các câu trả lời từ
mô hình được lọc dé loại bỏ những câu trả lời có chất lượng thấp và những câu có kết qua
tốt sẽ được đưa trở lại tập sinh Quá trình này có thể được lặp lại nhiều lần, tạo ra một bộ
dữ liệu chỉ dẫn lớn và được sử dụng dé tinh chỉnh, huấn luyện mô hình ngôn ngữ.
2.4 Parameter-Efficient Tuning với LoRA
LoRA (Low-Rank Adaptation of Large Language Models) [2] là một kỹ thuật thích ứng
(adapt) các mô hình ngôn ngữ lớn (LLM) với các tác vụ cu thé ma không cần phải huấn
luyện lại toàn bộ mô hình Điều này rất quan trọng vì việc huấn luyện lại LLM có thể tốnkém va mat nhiều thời gian
h = WOx + AWx = WOx + BAx
Trang 18Hình 2.4 Cơ chế của LoRA
LoRA hoạt động bằng cách thêm một số ít ma trận phân tích bậc
thấp(rank-decomposition) có thé huấn luyện được vào mỗi lớp của LLM Các ma trận này được sửdụng dé điều chỉnh trọng số của LLM theo cách cụ thể cho tác vụ hoặc miền mà mô hình
đang được thích ứng.
LoRA có một số ưu điểm so với các phương pháp huấn luyện LLM khác.
Y Đầu tiên, LoRA hiệu quả hơn nhiều về số lượng tham sé có thé huấn luyện được
Điều này có nghĩa là các mô hình LoRA có thê được huấn luyện và triển khai
nhanh chong và dé dang hơn các fine-tuned models (mô hình được tinh chỉnh)
v Thứ hai, các mô hình LoRA ít bị ảnh hưởng bởi hiện tượng catastrophic forgetting
(quên thảm khốc) Catastrophic forgetting là một hiện tượng xảy ra khi một mô
hình học cách thực hiện một tac vụ mới nhưng quên cách thực hiện các tác vụ ban
đầu của nó Các mô hình LoRA ít gặp phải hiện tượng quên thảm khốc hơn vì
chúng chỉ điều chỉnh trọng số của LLM theo cách cụ thê cho tác vụ mới
v Thứ ba, các mô hình LoRA không gây ra bất kỳ độ trong quá trình chạy mô hình
Điều này có nghĩa là các mô hình LoRA có thê được sử dụng đề tạo văn bản theothời gian thực, giống như các fine-tuned models
Trang 19Nhìn chung, LoRA là một kỹ thuật mới triển vọng dé huấn luyện LLM với các tác vụ
hoặc miền cụ thé Nó hiệu quả hơn, có kha năng chống lại hiện tượng quên thảm khốc tốt
hơn và chính xác hơn so với các phương pháp thích ứng LLM khác.
2.5 Language model (mô hình ngôn ngữ )
Mô hình ngôn ngữ trong khoa học máy tính là một loại hệ thống trí tuệ nhân tạo (AI)
được thiết kế để hiểu và tạo ra ngôn ngữ của con người Về cơ bản, nó là một mô hình
thống kê hoặc mạng lưới thần kinh học các mẫu và mối quan hệ trong một tập dữ liệu văn
bản lớn, cho phép nó thực hiện các tác vụ xử lý ngôn ngữ tự nhiên (NLP) khác nhau.
Các giai đoạn phát triển của language model:
2.5.1 Statistical Language Model — SLM (Mô hình ngôn ngữ thong kê)
SLM được phát triển dựa trên các phương pháp học thống kê đã phát triển trong những
năm 1990 Ý tưởng cơ bản là xây dung dự đoán từ mô hình dựa trên giả định Markov, vi dụ: dự đoán từ tiếp theo dựa trên ngữ cảnh gần đây nhất Các SLM với độ dài ngữ cảnh
có định n còn được gọi là n-gram language models, ví dụ: mô hình ngôn ngữ bigram và
trigram.
SLM đã được áp dụng rộng rãi để nâng cao hiệu suất công việc trong truy xuất thông tin
(IR) và ngôn ngữ tự nhiên xử lý (NLP) Tuy nhiên, họ thường phải gặp vẫn đề về nhập
nhằng ngữ nghĩa của từ cũng như thứ tự sự phụ thuộc giữa các từ trong đoạn văn
Trang 20Pars 1033, 10„) = p(w )p(we|wy )p(w3|wy, 002) p(tU„ [tU, tU2, Wn—-1)
2.5.2 Neural Language Model — NLM (Mô hình ngôn ngữ than kinh)
NLM mô tả xác suất của chuỗi từ bằng mạng nơ-ron, ví dụ: Recurrent Neuron Network —RNN (mạng thần kinh tái phát), điển hình nhất là GRU và LSTM Một số công trình đã
đưa ra khái niệm về biéu diễn phân tán của các từ và xây dựng chức năng dự đoán từ dựatrên các đặc điểm ngữ cảnh tông hợp (tức là các vectơ từ (word vector) được phân phối).Băng cách đó các mạng nơ-ron tông quát được phát triển đê xây dựng một giải pháp tổng thé cho các tác vụ NLP khác nhau Hơn nữa, word2vec đã được đề xuất dé xây dựng mộtmạng lưới thần kinh nông (shallow neural network) để học các cách biểu diễn từ (word
representations) phân tán, được chứng minh là rất hiệu quả trên một loạt các tác vụ NLP.Những nghiên cứu này đã khởi xướng sử dụng các mô hình ngôn ngữ cho việc học biểu
diễn (ngoài mô hình chuỗi từ), có tác động quan trọng đến lĩnh vực NLP
2.5.3 Pre-trained language models (PLM) (Mô hình ngôn ngữ huấn luyện trước)
Dựa trên kiến trúc Transformer có khả năng tính toán song song hóa cao với cơ chế
self-attention, BERT được đề xuất bằng cách huấn luyện trên bidirectional language models
(các mô hình ngôn ngữ hai chiêu) với các nhiệm vụ huân luyện được thiệt kê đặc biệt trên
Trang 21dữ liệu không được gắn nhãn quy mô lớn (large-scale unlabeled corpora) Cách biểu diễn
từ nhận biết ngữ cảnh được huấn luyện trước này (pre-trained context-aware word
representation) là rất hiệu quả, đóng vai trò như là đặc tính về ngữ nghĩa, phần lớn đã
nâng cao mức hiệu suất của các nhiệm vụ NLP Cái này nghiên cứu đã truyền cảm hứngcho một số lượng lớn các công việc tiếp theo, trong đó thiết lập ra cơ chế “pre-training
and fine-tuning (huấn luyện trước và tinh chỉnh)” Theo mô hình này, một loạt các nghiêncứu về PLM đã được phát triển, giới thiệu các mô hình kiến trúc khác nhau như: BART,
RoBERTa, DeBER Ta.
2.5.4 Large language models - LLM (Mô hình ngôn ngữ lon)
Thực nghiệm chứng minh rằng khi tăng kích thước của các mô hình PLM (tăng kích
thước mô hình và kích thước dữ liệu) thường dẫn đến năng lực mô hình được cải thiện
đối với các nhiệm vụ cấp thấp (downstream tasks).
Điền hình nhất là GPT-3, đã chứng minh rằng các autoregressive language
models(LLMs) có thé dự đoán tốt với co chế few-shot, trong đó mô hình chỉ được cung
cấp mô tả nhiệm vụ băng ngôn ngữ tự nhiên và một số ví dụ minh họa cách hoàn thành
nhiệm vụ Lớp mô hình này được huấn luyện với kiến trúc decoder-only và mục tiêu môhình hóa ngôn ngữ tiêu chuẩn từ trái sang phải (left-to-right language model objective)
trên một kho văn bản lớn, trong đó mục tiêu là dự đoán token tiếp theo dựa trên các token
trước đó Các lần đánh giá đã được chứng minh được răng chúng đạt được kết quả rất tốt
mà không cân phải huân luyện mô hình trên các tập dữ liệu cho các tác vụ cụ thê.
2.6 Transformer
Kiến trúc Transformer là một kiến trúc học sâu đã cách mạng hóa xử lý ngôn ngữ tự
nhiên (NLP) Nó được giới thiệu trong bai báo "Attention is All You Need" của Vaswani
et al vào năm 2017 và kê từ đó đã trở thành kiến tric tiêu chuẩn dé huấn luyện các mô
hình ngôn ngữ lớn (LLM).
Kiến trúc Transformer dựa trên cơ chế tự chú ý (self-attention), cho phép mô hình học
các phụ thuộc tam xa trong các chuỗi mà không cần dựa vào các kết nối tuần hoàn Điều
Trang 22này làm cho Transformers hiệu quả và có khả năng mở rộng hơn nhiều so với các kiến
trúc NLP trước đây, chăng hạn như RNN và LSTM
Một ưu điểm quan trọng khác của kiến trúc Transformer là nó có thé parallelizable (songsong hóa) Điều này có nghĩa là các phần khác nhau của mô hình có thê được huấn luyệnđồng thời, giúp giảm đáng kế thời gian huấn luyện cho LLM
Nx
LAdd & Norm ]
Nx Add & Norm
Kiến trúc Transformer đã được sử dụng dé huấn luyện nhiều LLM mạnh mẽ nhất trên thé
giới, bao gồm GPT-3, BERT và RoBERTa Cac LLM này đã đạt được kết quả tiên tiến
nhất trên một loạt các nhiệm vụ NLP, chăng hạn như dịch máy, tom tắt văn bản và trả lời
câu hỏi.
Trang 23Dưới đây là tông quan đơn giản về kiên trúc Transformer:
VY Văn bản đầu vào trước tiên được chia thành các token và nhúng vào các vector
dày đặc.
Y Bộ mã hóa sau đó xử lý các token song song, sử dung sự tự chú ý dé học các phụ
thuộc tầm xa
Vv Bộ giải mã sau đó tạo văn bản đầu ra, từng token một, sử dụng sự tự chú ý dé chú
ý đến kết quả của bộ mã hóa
Kiến trúc Transformer là một chủ đề phức tạp, nhưng tổng quan đơn giản này sẽ cung cấp
cho bạn một hiệu biệt cơ bản về cách hoạt động của nó.
Dưới đây là một số lợi ích chính của việc sử dụng kiến trúc Transformer trong các mô
hình ngôn ngữ lớn:
Y Hiệu quả và khả năng mở rộng: Transformers hiệu quả và mở rộng hơn nhiều so
với các kiến trúc NLP trước đây, chăng hạn như RNN và LSTM Điều này làmcho chúng trở nên lý tưởng đề huấn luyện LLM trên các bộ đữ liệu khổng lồ
Y Parallelism (Song song hóa): Transformers có thé song song hóa, nghĩa là các
phần khác nhau của mô hình có thê được huấn luyện đồng thời Điều này giúpgiảm đáng ké thời gian huấn luyện cho LLM
Y State-of-the-art (Kết qua tién tién nhất): Cac LLM dựa trên Transformer đã đạt
được kết quả tiên tiễn nhất trên một loạt các nhiệm vụ NLP
Nhìn chung, kiến trúc Transformer là một công cụ mạnh mẽ va linh hoạt để huấn luyện
các mô hình ngôn ngữ lớn Nó đã cách mạng hóa lĩnh vực NLP và cho phép phát triển
LLM có thể thực hiện nhiều loại nhiệm vụ ở cấp độ cao
2.6.1 Cơ chế Self-attention
Attention là một cơ chế được sử dụng trong mạng nơ-ron nhân tạo trong việc thiết kế các
mô hình trí tuệ nhân tạo như xử lý ảnh hay xử lý ngôn ngữ tự nhiên Trong mô hình ngôn
ngữ, cơ chế Attention cho phép mô hình học cách tập trung vào các phần có liên quan đặcbiệt của chuỗi đầu vào trong mỗi bước xử lý thông qua quá trình huấn luyện và đưa ra dự
Trang 24đoán [35, 36] Cơ chế này cho phép mô hình gán các trọng số biểu thị mức độ quan trọngkhác nhau cho các yếu tố khác nhau của chuỗi đầu vào, dựa trên mức độ phù hợp của
chúng với ngữ cảnh hiện tại Trong nhiều trường hợp đặc biệt, chuỗi đầu vào có độ dài rất
lớn và phức tạp, các mô hình thường gặp khó khăn trong việc xử lý và rút trích các đặc
trưng Cơ chế Attention cho phép mô hình tập trung có chọn lọc vào các phần quan trọngnhất của chuỗi đầu vào đề đưa ra dự đoán và bỏ qua các phần ít liên quan hơn Điều này
có thé giúp mô hình đưa ra dự đoán chính xác hơn và do đó hiệu suất trên các tác vụ xử
lý ngôn ngữ tự nhiên cũng được cải thiện.
Cơ chế Self-attention được phát triển từ Attention, là một trong những thành phan cốt lõicủa mạng Transformers Cơ chế Self-attention có nhiệm vụ giúp cho mô hình xử lý chuỗiđầu vào một cách hiệu quả hơn thông qua việc sử dụng Attention trên chính các thông tin
từ chuỗi đầu vào Y tưởng chính dang sau Self-attention là mỗi token trong chuỗi đầu vàotương tác với tất cả các token khác và mức độ liên quan hoặc tầm quan trọng khác nhau Ảnh hưởng của từng token trên toàn bộ chuỗi đầu vào sẽ được xác định bởi mô hình
thông quá quá trình huấn luyện
Trang 25Hình 8 mô tả toàn bộ cơ chế Self-attention Hàm Self-attention nhận đầu vào là chuỗi có
độ đài L token được thé hiện qua 3 ma trận đặc trưng: Query (Q), Key (K) và
Value (V); Q,K,V € IR“*$; d là số chiều của đặc trưng mô hình
Y Key: mỗi Key được liên kết với một giá tri thé hiện mức độ phù hợp hoặc tầm
quan trọng của nó đối với từng phan tử Query
Y Query : đại diện cho một phần tử tại vị trí nhất định mà mô hình muốn tính toán
mức độ quan trọng Nó được sử dụng dé so sánh với các phần tử khác trong chuỗiđầu vào
Y Value: được sử dụng để tính toán đầu ra của cơ chế Self-attention, nó đại điện cho
các thông tin được liên kết với mỗi giá tri Key thé hiện qua giá trị của các trọng
số Các giá tri của trọng số được xác định bởi một hàm tính trọng số dựa trên giá
trị của Query va Key tương ứng.
* Hàm tính trong số: Hàm này nhận vào một cặp Query - Key và được sử dụng dé
xếp hang độ liên quan của từng phan tử trong Key với Value Thông thường, hamtính trọng số sẽ được tính thông qua tích vô hướng giữa hai vector hay thông quamột mạng nơ-ron nhằm đánh giá độ liên quan giữa hai phần tử đầu vào
Y Mỗi token trong cùng một câu sẽ có độ quan trọng khác nhau ứng với các token
khác Chúng sẽ có hai giá tri Query va Key tương ứng Query của token sẽ được
so sánh với tất cả các Key khác thông qua hàm tính trọng số
QxKI Attention(Q,K,V) = softmax xV
Ja
Phép tích vô hướng Q x K' cho ra một ma trận có dang IR# X, thé hiện cho độ quan
trọng của từng token với các token còn lại Cụ thé hơn, độ quan trọng đ;; của token tai vitrí i với từng token tai vị trí j được thê hiện thông qua tích vô hướng của q¡, kj € R? làhai véc-tơ hang trong hai ma tran Query va Key S; là tập các vị trí trong chuỗi đầu vào
Trang 26Các giá tri Attention được điều chỉnh với một hệ số tỉ lệ (scaling factor) FR Hệ số này =
được áp dụng như một hệ số chuẩn hóa khi tính toán tích vô hướng giữa véc-tơ Query vàvéc-tơ Key, với nhiệm vụ chính là điều chỉnh phương sai thích hợp cho các giá trị
Attention Khi khởi tạo mô hình Transformers, các giá tri trọng SỐ thường được khởi tạo
từ phân phối chuẩn với phương sai bang nhau, bao gồm cả các giá trị K và Q Tuy nhiên,khi thực hiện phép tích vô hướng giữa hai véc-tơ có phương sai băng nhau, kết quả sẽ cho
ra giá trị có phương sai gấp dự lần
2.6.2 Multi-head Self-attention
Multi-Head Attention
Scaled Dot-Product }
—
Hình 2.8 Kiến trúc Multi-Head Attention
Multi-head Self-attetion là phiên bản mở rộng của cơ chế Self-attention, và là thành phan
chính trong mạng Transformers Mặc dù cơ chế Self-attention đã cho phép các mô hình
nắm bắt các yếu tố phụ thuộc lẫn nhau trong chuỗi đầu vào, nhưng với cơ chế Multi-head
Self-attention sẽ nâng cao hơn nữa khả năng xử lý của mô hình thông qua việc tập trung
vào các khía cạnh khác nhau của biểu diễn đầu vào Trong Multi-head Self-attention, co
Trang 27chế Self-attention được áp dụng song song nhiêu lần, với mỗi “head” học các biểu diễn
có trọng sô khác nhau trên một nhóm đặc trưng dau vào.
Mỗi ma trận Query, Key và Value được chia thành h ma trận con Sau khi thực hiện cơ
chế Self-attention độc lập trên các ma trân con này, đầu ra được tạo ra bằng cách ghép
nối đầu ra của các attention head và đưa qua phép chuyền đổi tuyến tính, thông qua đó
mô hình có thé nắm bắt được nhiều thông tin đa dang và hữu ích trong quá trình huấn
luyện.
2.6.3 Kiến trúc
Kiên trúc của mô hình Transformers vê cơ bản sẽ có hai thành phân chính: bộ mã hoá
(encoder) và bộ giải mã (decoder) Kiên trúc này được sử dụng chủ yêu trong các bài toán tạo văn bản, trong đó mô hình nhận dau vào là một chuỗi và dau ra là một chuỗi khác.
Bộ mã hóa
Add & Norm
Feed Forward
Nx Add & Norm
Trang 28-gồm cơ chế Self-attention và mạng nơ-ron truyền thăng Cơ chế Self-attention cho phép
bộ mã hóa năm bắt các mối quan hệ phụ thuộc giữa các token khác nhau từ chuỗi đầu
vào, trong khi các mạng nơ-ron truyền thắng thực hiện các biến đổi tuyến tính cho từngphan tử trong chuỗi Mỗi khối trong bộ mã hoá đều có sử dụng các kết nối Residual vàlớp Layer norm Bộ mã hoá nhận đầu vào là x, sau đó nó được đưa qua lớp Multi-headSelf-attention Đầu ra của bước này sẽ được kết hợp trực tiếp với đầu vào thông qua kếtnối Residual và đưa qua lớp Layer norm
Bộ giải mã
Multi-Head Attention
ak.
Output Embedding
Outputs
(shifted right)
Hình 2.10 Kiến trúc bộ giải mã
Trang 29Chức năng của bộ giải mã là nhận vào các thông tin từ bộ mã hoá và sử dụng các thông
tin này cho việc xây dựng đầu ra Bộ giải mã có kiến trúc gần giống như bộ mã hoá, baogom N khối Transformers xếp chồng lên nhau Tuy nhiên, điểm khác biệt là tại mỗi khối
Transformers, bộ giải mã chứa hai lớp Multi-head Self-attention thay vì một như ở bộ mã
hoá Lớp Multi-head Self-attention thứ nhất có chức năng nắm bắt các quan hệ phụ thuộctrong chuỗi đầu ra được tạo và lớp thứ hai cho phép bộ giải mã khai thác các thông tin
quan trọng từ biểu diễn đầu vào do bộ mã hóa tạo ra Cơ chế này tạo điều kiện cho việc
kết hợp các thông tin từ bộ mã hóa và bộ giải mã, giúp mô hình tạo ra các chuỗi đầu ra
đầu vào Thông thường, hàm mã hóa vị trí là các hàm sin và cos có tần số và biên độ
khác nhau, cho phép mô hình phân biệt giữa các token dựa trên vị trí tương đối của
c0s (s559090=n tno) gược lại
Trong đó ma trận PE đại diện cho véc-tơ nhúng tại vị trí pos trong chuỗi Bằng cách kết
hop mã hóa vi trí, Transformers có thé phân biệt giữa các token có nội dung tương tự
nhưng vi trí khác nhau, cho phép mô hình tận dụng ngữ cảnh tuần tự của đầu vào Thôngtin về vị trí này rất cần thiết trong việc nắm bắt các phụ thuộc và hiểu cấu trúc của chuỗi
đâu vào.
Trang 30In-Context Learning (ICL) (học tập trong ngữ cảnh) là một kỹ thuật sử dụng các mô hình
ngôn ngữ lớn (LLM) dé thực hiện các tác vụ mà không cần phải tinh chỉnh Nó hoạt độngbang cách cung cấp cho LLM một vai vi dụ về hành vi mong muốn trong lời nhắc đầu
vào (prompt) Sau đó, LLM sử dụng các vi dụ nay đề học cách thực hiện tác vụ trên dữ
liệu mới.
ICL là một kỹ thuật rất hiệu quả vì nó cho phép LLMs được sử dụng cho nhiều loại tác
vụ khác nhau, ngay cả khi không có sẵn dữ liệu huấn luyện được gắn nhãn Ví dụ, ICL cóthể được sử dụng để dạy LLMs trả lời các câu hỏi trong một lĩnh vực mới, tạo ra các định
dạng văn bản sáng tạo khác nhau hoặc dịch ngôn ngữ.
Một số cách được sử dụng trong ICL:
¥ Zero-shot: mô hình đưa ra câu trả lời chỉ dựa vào mô tả của tac vụ mà không có
bất kỳ ví dụ nào
Y One-shot: ngoài mô ta của tác vụ, thì đưa thêm vào prompt một ví dụ minh hoa về
cách trả lời, mô hình sẽ dựa vào đó đề đưa ra câu trả lời
Y Few-shots: ngoài mô tả của tác vụ, thì đưa thêm vào prompt vai vi dụ minh họa về
cách trả lời, mô hình sẽ dựa vào đó đề đưa ra câu trả lời
ICL vẫn đang trong giai đoạn phát triển, nhưng nó có khả năng cách mạng hóa cách sử
dụng LLM Bằng cách làm cho có thể sử dụng LLM cho các tác vụ mà không cần phải
huấn luyện (finetune), ICL giúp LLM dễ tiếp cận hơn với nhiều người dùng hơn
Dưới đây là một số lợi ích tiềm năng của việc sử dụng ICL trong LLM:
¥ Giảm nhu cầu về dữ liệu huấn luyện có nhãn: ICL cho phép LLM được sử dụng
cho các tác vụ ngay cả khi không có sẵn dữ liệu huấn luyện có nhãn Điều này rấtquan trọng vì dữ liệu huấn luyện có nhãn có thé tốn kém và tốn thời gian để thu
thập.
v Cải thiện tính linh hoạt: ICL làm cho LLM linh hoạt và thích ứng hơn với các tác
vụ mới Điều này là do LLM có thé được huấn luyện dé thực hiện các tác vụ mớichỉ đơn giản bằng cách cung cấp cho chúng một vài ví dụ.
Trang 31*_ Tăng khả năng tiếp cận: ICL làm cho LLM dễ tiếp cận hơn với nhiều người dùng
hon, bao gồm những người không có quyền truy cập vào nhiều dữ liệu huấn luyện
có nhãn hoặc chuyên môn trong việc tinh chỉnh LLM.
Nhìn chung, ICL là một kỹ thuật mới đầy hứa hẹn dé sử dụng LLM Nó có khả năng làm
cho LLM linh hoạt hơn, thích ứng hơn và dễ tiếp cận hơn với nhiều người dùng hơn
2.8 Chatbot
Chatbot là một ứng dụng phần mềm hoặc giao diện web nhằm mô phỏng cuộc trò chuyện
của con người thông qua các tương tác văn bản hoặc giọng nói Các chatbot hiện đại
thường trực tuyến và sử dụng các hệ thống trí tuệ nhân tạo (AI) có khả năng duy trì cuộctrò chuyện với người ding bằng ngôn ngữ tự nhiên và mô phỏng cách con người cư xử
như một đối tác trò chuyện Các công nghệ như vậy thường sử dụng các khía cạnh của
học sâu và xử lý ngôn ngữ tự nhiên (NLP), nhưng các chatbot đơn giản hơn đã tổn tại từnhiều thập kỷ trước
Các loại Chatbot:
Y Chatbot Dựa trên Quy tắc (rule-based): Các chatbot này tuân theo các quy tắc
(rules) và cây quyết định (decision tree) được xác định trước Chúng có thể xử lý
các tương tác đơn giản và trực quan, nhưng có thê gặp khó khăn trong các cuộc tròchuyện phức tạp hoặc không có cấu trúc
Y Chatbot Dựa trên Trí Tuệ Nhân Tao (AI): Các chatbot nay sử dụng hoc máy va
thuật toán AI đề cải thiện các phản hồi của họ theo thời gian Chúng có thể xử lýcác cuộc trò chuyện phức tạp hơn và thích nghỉ với các đầu vào khác nhau của
người dùng.
Chatbot có thé được tìm thấy trên gần như mọi kênh giao tiếp, từ hệ thống tổng đài điện
thoại đến mạng xã hội đến các ứng dụng và trang web cụ thé Chúng được sử dung cho
nhiêu mục đích khác nhau, bao gôm:
Y Dịch vụ khách hàng: Chatbot có thể cung cấp hỗ trợ 24/7 cho khách hàng, trả lời
Trang 32*_ Bán hàng và tiếp thị: Chatbot có thé được sử dụng dé tạo khách hàng tiềm năng,
đánh giá chất lượng khách hàng tiềm năng và thậm chí là chốt giao dịch
Y Giáo dục: Chatbot có thé được sử dụng dé cung cap trải nghiệm học tập được cá
nhân hóa cho học sinh, cung cấp phản hồi và trả lời câu hỏi
Y Giải trí: Chatbot có thể được sử dụng dé tạo trò chơi, câu chuyện và các trải
nghiệm tương tác khác.
Chatbot mang lại một số lợi ích, bao gồm:
v Tiện lợi: có sẵn 24/7 và có thé truy cập từ bat cứ đâu có kết nối internet
Y Hiệu quả: có thé xử lý nhiều cuộc trò chuyện đồng thời, giải phóng nhân viên con
người tập trung vào các nhiệm vụ phức tạp hơn.
Y Cá nhân hóa: có thé cung cấp cho họ những phản hồi được cá nhân hóa
v_ Tiết kiệm chi phí: có thé tự động hóa các tác vụ giúp doanh nghiệp tiết kiệm tiền
chi phí nhân công.
Tuy nhiên, chatbot cũng có một số hạn chế Ví dụ, đôi khi chúng có thé khó hiểu hoặc
phản hồi theo cách tự nhiên Ngoài ra, chúng có thê không thể xử lý tất cả các loại câu
hỏi hoặc yêu cầu, đặc biệt là những câu hỏi hoặc yêu cầu phức tạp hoặc yêu cầu kiến thức
chuyên môn.
Nhìn chung, chatbot là một công cụ mạnh mẽ có thể được sử dụng cho nhiều mục đích
khác nhau Khi AI ngày càng phát triển, chatbot cũng ngày càng trở nên thông minh hơn
va giao tiép như con người.
2.9 Retrieval Augment Generation
Retrieval Augment Generation - RAG (truy xuất tăng cường tao sinh) là một kỹ thuật cảithiện hiệu suất của các mô hình ngôn ngữ lớn (LLM) băng cách cung cap cho chúng
quyên truy cập vào các nguồn kiến thức bên ngoài LLM được huấn luyện trên các bộ ditliệu không lồ về văn bản và mã, nhưng chúng vẫn có thể mắc lỗi, đặc biệt là khi tạo vănbản yêu cầu kiến thức thực tế RAG giúp giải quyết van dé này bằng cách cho phép LLM
Trang 33truy xuất và sử dụng thông tin có liên quan từ các nguồn bên ngoài, chang hạn như
Wikipedia, co sở dữ liệu hoặc các tải liệu khác.
Query | Texts
Hình 2.115 Quy trình các luồng xử lý với RAG
RAG hoạt động bằng cách đầu tiên truy xuất một bộ tài liệu có liên quan từ nguồn kiếnthức bên ngoài, dựa trên lời nhắc đầu vào (input prompt) Các tài liệu được truy xuất sau
đó được nối với input prompt và đưa vào LLM Từ đó, LLM tạo ra câu trả lời có liên
quan tới câu hỏi và các thông tin được truy xuất
RAG đã được chứng minh là có thể cải thiện hiệu suất của LLM trên nhiều loại nhiệm
vụ, bao gồm trả lời câu hỏi, tóm tắt và dịch thuật Ví dụ, trong một nghiên cứu của
Google AI, RAG đã có thể cải thiện độ chính xác của một hệ thống trả lời câu hỏi lên
10%.
Dưới đây là một số lợi ích của việc sử dụng RAG:
Y Độ chính xác được cải thiện: RAG giúp LLM tạo ra các phản hồi chính xác và
thông tin hơn, đặc biệt là khi tạo văn bản yêu cầu kiến thức thực tế
_ Giảm ảo tưởng(hallucinations): RAG giúp giảm khả năng LLM tao ảo tưởng hoặc
thông tin sai.
v Tăng tính đa dang: RAG có thé giúp LLM tao ra các phản hồi da dang hon, bang
cách cung cấp cho chúng quyên truy cập vào nhiều thông tin hơn
Trang 34* Khả năng thích ứng: RAG cho phép LLM thích ứng với những thay đổi của thé
giới mà không cần phải huấn luyện lại
Y RAG là một kỹ thuật mạnh mẽ có thé được sử dụng dé cải thiện hiệu suất của
LLM trên nhiều loại nhiệm vụ Nó vẫn đang được phát triển, nhưng nó có tiềm
năng cách mạng hóa cách chúng ta sử dụng LLM.
Trang 35Chương 3: PHƯƠNG PHÁP
3.1 Giới thiệu về phương pháp.
Phương pháp tinh chỉnh theo chỉ dẫn (instruction fine-tuning) cho mô hình ngôn ngữ lớn
đã cho thấy được sự hiệu quả trong việc cải thiện khả năng của mô hình trong các tác vụhiểu yêu cầu và trả lời cho người dùng Tuy nhiên dé đạt được điều đó, mô hình cần đượctinh chỉnh, huấn luyện với lượng lớn dữ liệu có nhãn trải dài trên các tác vụ, yêu cầu khácnhau từ người dùng Hơn nữa việc huấn luyện mô hình LLM đòi hỏi chỉ phí tính toán rấtlớn Những tiến bộ gần đây trong việc áp dụng các kĩ thuật tăng cường dữ liệu dựa vào
như Self-Instruct, và các kỹ thuật tối ưu huấn luyện (parameter fine-tuning), nén mô hình
(quantization) đã giúp cho việc tinh chỉnh theo chỉ dẫn trở nên dễ dàng hơn.
Giải pháp mong muốn thử nghiệm việc tinh chỉnh, huấn luyện theo chỉ dan mô hình LLM
cho tiếng Việt trên hai lĩnh vực, lĩnh vực rộng với nhiều loại tác vụ khác nhau và một lĩnhvực hẹp hơn, cụ thê là về y tế sức khỏe Giải pháp gồm hai bước
Bước một giải pháp bắt đầu với một mô hình nền tang (baseline model) có sẵn từ đó tinh
chỉnh (finetune) mô hình với bộ dit liệu lớn theo chỉ dẫn (instruction-following dataset)
trải rộng trên một loạt các tác vụ khác nhau về xử lý ngôn ngữ tự nhiên nhằm tăng khả
năng giao tiếp cho mô hình cũng như có thé thực hiện theo chi dan cho người dùng với
nhiêu loại yêu câu khác nhau.
Bước hai tiếp tục finetune mô hình với bộ dữ liệu trên một lĩnh vực cụ thé là về y tẾ, strckhỏe nhằm tăng cường khả năng của mô hình cho riêng lĩnh vực này nhằm xây dựng ứngdụng trợ lý về y khoa
Trang 36GPTJ-Chat
Huan luyén chi dan
Mo hinh goc > — Huấn luyện chi dan Bloor Doctor
LoRA + quantization ie Chat * | GPTI-Doctor
LoRA + quantization
Mô hình y khoa
200k mâu ví dụ
-100k mâu ví dụ
Dữ liệu chỉ dân đa tác vụ _ ,
Dữ liệu chỉ dân y tê, sức khỏe
Hình 3.1 Quá trình huấn luyện của các mô hình
Chúng ta sẽ lần lượt đi qua các phương pháp về việc thu thập dữ liệu, chọn lựa mô hình
cơ sở, huân luyện mô hình, triên khai và chạy mô hình.
3.2 Thu thập dữ liệu
Việc tạo bộ dữ liệu theo chi dan (instruction data) cho một loạt các tác vu NLP khác nhau
tốn rất nhiều công sức và thời gian Gần đây các phương pháp tăng cường dữ liệu huấn
luyện dựa vào các mô hình tạo sinh ngày càng phố biến Và trong xử lý ngôn ngữ tự
nhiên (NLP) kỹ thuật Self-Instruct (tự chỉ dẫn) hiện nay đang phô biến và được áp dụng
Trang 373.2.1 Bộ dữ liệu da tác vụ
Lay ý tưởng từ du án cua nhóm nghiên cứu từ dai hoc Standford tên là Alpaca [11] bằngviệc sử dụng kĩ thuật Self-Instruct dé tạo bộ dữ liệu huấn luyện theo chỉ dẫn, học viên đã
áp dụng dé tạo bộ dữ liệu cho đề tài với quy trình tạo dữ liệu như sau:
Self-Instruct Dich 52k chi dan
x ————* 52k chỉ dẫn _
dau LLaMA OpenAl
Instruction: đưa ra 3 mẹo
giữ sức khỏe
Instruction: brainstorm a list of Instruction: give 3 ideas to
possible New Year’s resolutions keep healthy
Output: Output: Output:
- Tập thể dục thường xuyên
- Chế độ ăn uống cân bằng
- Ngủ ngon
Hình 3.3 Quá trình tao dữ liệu cho mô hình đa tac vu
Quy trình bắt đầu với 175 mau dữ liệu chi dan được đánh nhãn bởi con người bao gồm
nhiều tác vụ khác nhau được đưa vào danh sách khởi tạo Sau đó với mỗi bước bang viéc
ap dung ki thuat Self-Instruct két hop mô hình ngôn ngữ lớn LLaMA [12], từ bộ dữ liệuban đầu quá trình sẽ tổng hợp ra nhiều mẫu dữ liệu hơn Các mẫu dữ liệu mới sẽ được
chọn lọc và đưa thêm vào danh sách khởi tạo để tiếp tục quá trình tổng hợp mới Quá
trình kết thúc bằng việc tổng hợp ra được 52000 mẫu đữ liệu theo chỉ dẫn mới.
Bước tiếp theo từ bộ dữ liệu được tạo ra ở bước trên, học viên tiếp tục sử dụng OpenAI
dé dịch toàn bộ bộ dữ liệu Sang tiếng Việt
Trang 38Cho lời khuyên
mViết mCho =Tim =Tạo mMôTả mGiảithích mThiếtkế mKhác m
Hình 3.4 Bộ dữ liệu đa tác vụ
Bộ dữ liệu đa tác vụ cho tiếng Việt cũng có sự đa dạng với 52000 chỉ dẫn khác nhau và
trải dài trong các tác vụ phô biến của một chatbot, trợ lý ảo Biéu đồ trên minh hoạ một
số tác vụ phố biến cùng với tỉ lệ của chúng Chúng bao gồm các tác vụ như soạn thảo văn
bản, việt email, cho vi dụ, tìm kiêm, mô tả, giải thích, phân loại
Bộ dữ liệu sau khi được tạo sẽ lưu dưới dang json Cau trúc mỗi mau đữ liệu khá don
giản chỉ gôm hai trường prompt cho dau vai và response cho câu trả lời dau ra với định
dạng sau
{"prompt": "đưa ra 3 mẹo giữ sức khỏe”, "response": "1 An một chê độ ăn
cân băng và dam bao bao gốm nhiêu trai "} {"prompt": "Ba màu chính là
gi?", "response": "Ba màu chính la màu đỏ, xanh và vàng "}
a OD lÀ
Trang 39Ngoài ra nhằm tăng cường khả năng hội thoại của mô hình, học viên còn sử dụng thêm
bộ dữ liệu từ GPT4AII [12] với hơn 150 ngàn đoạn hội thoại g1ữa người dùng với
healthcaremagic OpenAI 90k mau 100k mau
Dữ liệu chi dan y khoa
Tông hợp và tạo ra i Bai bao OpenAI a 3k mau
Hình 3.5 Quá trình tạo bộ dữ liệu cho mô hình y khoa
Bộ dữ liệu về y tế sức khỏe của đề tài được thu thập từ những nguồn sau:
Y ChatDoctor: cũng tương tự như dự án Alpaca, dự án ChatDoctor [13] bắt đầu với
700 loại bệnh và phương pháp điều trị được dán nhãn bởi con người Sau đó dùng
kỹ thuật Self-Instruct dé tăng lên thành 5000 mẫu Học viên tiếp tục sử dụngopenAI dé dịch sang tiếng Việt
VY Healcaremagic: [14] học viên thu thập hơn 90 ngàn mẫu đối thoại giữa bác sĩ và
bệnh nhân từ website va dùng openAI dé dịch sang tiếng Việt
Trang 40Bài báo: học viên thu thập hơn 600 bài viết về các loại bệnh khác nhau từ bệnhviện Tâm Anh Sau đó prompt (hướng dẫn) cho openAI để tạo ra hơn 1000 câu hỏi
và câu trả lời từ đó Mẫu prompt như sau:
Bạn sẽ được cung cấp VĂN BẢN từ bài báo
VĂN BẢN sẽ được phân cách bang ký tự {delimiter}
Xuất ra danh sách python gồm 5 đối tượng dict, trong đó mỗi đối tượng là một câu
hỏi có liên quan tới VĂN BẢN đã cho kèm với câu trả lời tương ứng Định dạng
như sau:
question': <câu hỏi trên dựa trên VĂN BAN>
‘answer': <câu trả lời>
Định dạng bộ dữ liệu đề huấn luyện cho y khoa cũng tương tự như bài toán mô hình cho
đa tác vụ Dữ liệu cũng được định dạng json và ứng với mỗi mẫu dữ liệu cùng gồm hai
trường prompt va response.
"response": "Phương pháp điều trị hẹp môn vị phổ biến nhất là một thủ thuật
phẩu thuật được gọi là phẫu thuật cắt bỏ môn vị Điều này liên quan đến cắt và
niêm phong cơ xung quanh lỗ mở của môn vị, mở rộng nó và cho phép thức ăn di
qua dễ dàng hơn Tuy nhiên cũng có một số thuốc có thể giúp giảm các triệu
chứng như metoclopramide hoặc cisapride Bạn thích cái nào hon?"}
Thống kê về toàn bộ dữ liệu thu thập được
Bộ dữ liệu Số mẫu TB số token trên Tổng số token
mẫu
Dữ liệu chỉ dẫn đa tác vụ 200k 365 80M