NHIỆM VỤ VÀ NỘI DUNG: - Tìm hiểu các hướng tiếp cận phù hợp cho bài toán trả lời câu hỏi trực quan với mục tiêu tối ưu tài nguyên tính toán nhưng vẫn đạt độ chính xác tương dương các mô
Trang 1ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
——————-NGUYỄN DUY VIỆT TOÀN
TRẢ LỜI CÂU HỎI TRỰC QUAN ĐA NGÔN NGỮ
LUẬN VĂN THẠC SĨ
TP HỒ CHÍ MINH, tháng 06 năm 2024
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG-HCM
Cán bộ hướng dẫn khoa học: Tiến sĩ Nguyễn Tiến Thịnh
(Ghi rõ họ, tên, học hàm, học vị và chữ ký) Phó giáo sư Tiến sĩ Quản Thành Thơ
Cán bộ chấm nhận xét 1: Tiến sĩ Trương Tuấn Anh
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
1 Chủ tịch: Phó giáo sư Tiến sĩ Võ Thị Ngọc Châu
2 Thư ký: Tiến sĩ Phan Trọng Nhân
3 Phản biện 1: Tiến sĩ Trương Tuấn Anh
4 Phản biện 2: Tiến sĩ Trần Thanh Tùng
5 Uỷ viên: Tiến sĩ Lê Thị Thủy
Xác nhận của Chủ tịch Hội đồng đánh giá luận văn và Trưởng Khoa quản lý
chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)
CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA
KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
Trang 3ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
I TÊN ĐỀ TÀI: TRẢ LỜI CÂU HỎI TRỰC QUAN ĐA NGÔN NGỮ
II NHIỆM VỤ VÀ NỘI DUNG:
- Tìm hiểu các hướng tiếp cận phù hợp cho bài toán trả lời câu hỏi trực quan với mục tiêu tối ưu tài nguyên tính toán nhưng vẫn đạt độ chính xác tương dương các mô hình SOTA
- Phân tích giải pháp và đưa ra đề xuất mô hình trả lời câu hỏi trực quan với mục tiêu nêu trên
- Hiện thực và huấn luyện mô hình đề xuất
- Tiến hành thí nghiệm và đánh giá các kết quả đạt được
- Viết một bài báo khoa học theo mục tiêu nghiên cứu
III NGÀY GIAO NHIỆM VỤ : 04/09/2023
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 10/05/2024
V CÁN BỘ HƯỚNG DẪN (Ghi rõ học hàm, học vị, họ, tên): Tiến sĩ Nguyễn Tiến
Thịnh, Phó giáo sư Tiến sĩ Quản Thành Thơ.
TS Nguyễn Tiến Thịnh PGS TS Quản Thành Thơ
TRƯỞNG KHOA KHOA HỌC VÀ KÌ THUẬT MÁY TÍNH
(Họ tên và chữ ký)
Ghi chú: Học viên phải đóng tờ nhiệm vụ này vào trang đầu tiên của tập thuyết minh LV
Trang 4Lời cảm ơn
Để hoàn thành luận văn tốt nghiệp này, học viên đã nhận được sự hỗ trợ tích cực từ rất nhiềuphía Đầu tiên và quan trọng nhất, em xin gửi lời cảm ơn chân thành đến giảng viên hướng dẫn
trực tiếp của em, thầy Phó giáo sư Tiến sĩ Quản Thành Thơ Thầy là người định hướng chính,
cung cấp tài liệu cũng như theo dõi quá trình thực hiện đề tài và hỗ trợ khi em gặp khó khăn.Hơn hết thầy đã truyền cảm hứng cho em từ khi còn là sinh viên của Đại học Bách Khoa vềniềm đam mê với học máy, học sâu, xử lí ngôn ngữ tự nhiên và nhiều vấn đề khác trong lĩnh vựcKhoa học Máy tính
Em xin được gửi lời cảm ơn đến thầy Tiến sĩ Nguyễn Tiến Thịnh, thầy đã định hướng, hỗ trợ
em từ giai đoạn Đề cương luận văn, cũng như đưa ra những góp ý quý báu để em hoàn thiện hơnLuận văn tốt nghiệp này
Em xin được tỏ lòng biết ơn sự tận tình dạy dỗ, giúp đỡ của quý thầy cô trong khoa Khoa học và
Kỹ thuật Máy tính nói riêng cũng như trường Đại học Bách khoa TP Hồ Chí Minh nói chung.Những kiến thức nhận được từ quý thầy cô là vô cũng quý giá và bổ ích, hỗ trợ rất lớn cho em
có thể hoàn thành luận văn tốt nghiệp này
Cuối cùng, em muốn gửi lời cảm ơn đến gia đình, người thân, bạn bè, những người đã quan tâm,động viên, giúp đỡ cả về thể chất lẫn tinh thần để em có đủ nghị lực, sức khỏe hoàn thành tốtluận văn tốt nghiệp này Với lòng biết ơn chân thành, em xin gửi lời chúc sức khỏe cũng nhưnhững lời chúc tốt đẹp nhất đến các quý thầy cô trong Khoa Khoa học và Kỹ thuật Máy tính -Trường Đại Học Bách Khoa Đại Học Quốc Gia Thành phố Hồ Chí Minh
Trang 5Tóm tắt luận văn
Trả lời câu hỏi trực quan là một nhiệm vụ quan trọng trong lĩnh vực thị giác máy tính và xử lýngôn ngữ tự nhiên, nhằm giải quyết các câu hỏi liên quan đến hình ảnh Điều này đặt ra mụctiêu tạo ra câu trả lời chính xác và phù hợp với câu hỏi từ một hình ảnh và một câu hỏi tươngứng được đặt bằng ngôn ngữ tự nhiên Ngoài việc phải đối mặt với thách thức của việc trả lờicâu hỏi chính xác, ứng dụng này còn phải đối mặt với các vấn đề như đa ngôn ngữ, tính thânthiện, sáng tạo và hạn chế về tài nguyên tính toán Để giải quyết những thách thức này, học viêntập trung vào việc xây dựng mô hình dựa trên kiến trúc Transformer Học viên cũng đã thamkhảo và nghiên cứu các công trình thành công trước đó trong lĩnh vực này Dựa trên nền tảngnày, học viên đã đề xuất một mô hình đề xuất để giải quyết các vấn đề trong bài toán trả lời câuhỏi trực quan Sau đó, học viên đã tiến hành đánh giá mô hình đề xuất của mình trên hai tác vụmiêu tả hình ảnh và trả lời câu hỏi trực quan, đồng thời kiểm tra so sánh kết quả với các phươngpháp hiện tại trên các bộ dữ liệu đa ngôn ngữ bao gồm Tiếng Anh, Tiếng Việt và Tiếng Nhật.Cuối cùng, học viên rút ra kết luận từ nghiên cứu của mình, chỉ ra những thành tựu đạt được,những hạn chế và đề xuất hướng phát triển tiếp theo cho đề tài này
Trang 6Visual Question Answering (VQA) is a task in the field of computer vision and natural languageprocessing (NLP) that involves answering questions about an image Given an image and a cor-responding question in natural language, the goal of Visual Question Answering is to generate
an accurate and relevant answer to the question In addition to the challenge of providing cise answers, this application also faces issues such as multilingualism, user-friendliness, andcomputational resource constraints
pre-To tackle these challenges, we focus on building models based on Transformer-based ture We also consult and study previous successful research works in this field Based on thisfoundation, we propose a model to address the issues in the task of Visual Questions Answer-ing Subsequently, we evaluate our proposed model on two tasks: Image Captioning and VisualQuestion Answering, while comparing the results with the existing methods on multilingualdatasets including English, Vietnamese, and Japanese Finally, we draw conclusions from theresearch, highlighting achievements, limitations, and suggesting further directions for this topic
Trang 7architec-Lời cam đoan
Chúng tôi cam đoan rằng công trình nghiên cứu này là kết quả của riêng chúng tôi dưới sự chỉdẫn của Phó giáo sư Tiến sĩ Quản Thành Thơ Mọi thông tin và kết quả trình bày đều được đảmbảo là chính xác và chưa hề được công bố trong bất kỳ hội nghị nào trước đây Dữ liệu dùng đểphân tích và đánh giá được chúng tôi tự mình thu thập từ nhiều nguồn đa dạng và sẽ được trìnhbày cụ thể trong phần tham khảo
Ngoài ra, chúng tôi cũng đã tham khảo và sử dụng các ý kiến, phân tích và dữ liệu từ các tácgiả, tổ chức khác, đều đã được dẫn nguồn một cách cẩn thận Chúng tôi sẵn sàng nhận mọi tráchnhiệm về tính chính xác và trung thực của luận văn này nếu có bất kỳ phát hiện gian lận nào.Đại học Bách Khoa - Đại học Quốc gia TP Hồ Chí Minh không chịu trách nhiệm về các vấn đề
vi phạm tác quyền hay bản quyền mà công trình này có thể gây ra
Người cam đoan
Nguyễn Duy Việt Toàn
Trang 8Mục lục
1.1 Giới thiệu đề tài 1
1.2 Tổng quan về bài toán trả lời câu hỏi trực quan 2
1.3 Mục tiêu và nhiệm vụ của luận văn 3
1.4 Cấu trúc luận văn 4
2 CƠ SỞ LÝ THUYẾT 6 2.1 Kiến trúc Transformer 6
2.1.1 Kiến trúc Self-attention 6
2.1.2 Kiến trúc Cross-attention 8
2.1.3 Kiến trúc Vision Transformer 10
2.2 Mô hình ngôn ngữ 13
2.2.1 Mô hình ngôn ngữ Encoder 13
2.2.2 Mô hình ngôn ngữ Decoder 14
2.3 Kỹ thuật huấn luyện Low Rank Adaptation 16
3 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN 19 3.1 Tổng quan các tác vụ hình ảnh - ngôn ngữ 19
3.1.1 Tiền huấn luyện 19
3.1.2 Huấn luyện tinh chỉnh 21
3.2 Hướng tiếp cận thêm tiền tố cho mô hình ngôn ngữ 22
3.3 Hướng tiếp cận kết hợp đặc trưng kiến trúc Fusion 23
3.4 Hướng tiếp cận theo mô hình ngôn ngữ lớn 24
4 MÔ HÌNH ĐỀ XUẤT 26 4.1 Mô hình tham khảo 26
4.2 Động lực và ý tưởng 28
4.3 Mô tả mô hình 30
4.4 Chiến lược huấn luyện 32
4.4.1 Tiền huấn luyện 32
Trang 9MỤC LỤC MỤC LỤC
4.4.2 Huấn luyện tinh chỉnh 34
4.5 Hàm huấn luyện mất mát 34
5 KẾT QUẢ THỰC NGHIỆM 36 5.1 Hiện thực mô hình đề xuất 36
5.2 Tập dữ liệu đánh giá 37
5.3 Phương pháp đánh giá 39
5.4 Kết quả đánh giá 40
6 KẾT LUẬN 44 6.1 Kết quả đạt được 44
6.2 Hạn chế và vấn đề tồn đọng 44
6.3 Hướng phát triển 45
Trang 10Danh sách bảng
2.1 Hiệu suất của LoRA và các phương pháp huấn luyện tinh chỉnh khác nhau trên
mô hình GPT-3 175B 174.1 Kết quả thực nghiệm trên tác vụ tìm kiếm hình ảnh - ngôn ngữ của mô hìnhtham khảo CCLM so sánh với các phương pháp hiện có 284.2 Thông số hàm mất mát trong quá trình huấn luyện với nhiều cấu hình khác nhaucủa mô hình TinyGPT-V 304.3 Số lượng trọng số của các mô hình hình ảnh - ngôn ngữ dựa trên mô hình ngônngữ so sánh với mô hình đề xuất 325.1 Dữ liệu huấn luyện dùng cho mô hình đề xuất được chia thành hai phần Phần
dữ liệu tiền huấn luyện hồm hai phiên bản ngôn ngữ chia sẻ chung bộ nguồnhình ảnh Phần dữ liệu tinh chỉnh bao gồm ba ngôn ngữ: Tiếng Anh, Tiếng Việt
và Tiếng Nhật 365.2 Cấu hình của mô hình đề xuất cho hai tác vụ trong quá trình thực nghiệm 405.3 Kết quả thực nghiệm trên các bộ dữ liệu miêu tả hình ảnh bằng Tiếng Anh 415.4 Kết quả thực nghiệm tác vụ trả lời câu hỏi trực quan trên các bộ dữ liệu đa ngônngữ 41
Trang 11Danh sách hình vẽ
1.1 Các thiết bị trợ lí 22.1 Cơ chế Attention trong bài toán dịch câu tiếng Việt sang câu tiếng Anh 72.2 Hai cơ chế Scaled Dot-Product Attention và Multi-Head Attention 82.3 Cơ chế Cross-attention được giới thiệu trong kiến trúc Transformer Decoder 92.4 Chi tiết cơ chế Cross-attention 92.5 Kiến trúc mô hình Swin Transformer 112.6 Hai Swin Transformer Block với cơ chế W-MSA và SW-MSA xen kẽ liên tiếp 122.7 Bên trái là cấu trúc Transformer của mô hình GPT và hàm mục tiêu đào tạođược sử dụng trong tác vụ này Bên phải là đầu vào và các phép biến đổi để tinhchỉnh các nhiệm vụ khác nhau 142.8 Mô tả cách huấn luyện của LoRA, chỉ huấn luyện trên ma trận phân rã A và B 163.1 Mô hình hình ảnh - ngôn ngữ ViLBERT 193.2 Taxonomy về kiến trúc và các tác vụ huấn luyện cho mô hình hình ảnh - ngôn ngữ 203.3 Taxonomy các tác vụ tinh chỉnh cho mô hình hình ảnh - ngôn ngữ 213.4 Dòng thời gian phát triển của các mô hình ngôn ngữ đa phương thức, chúng tađang chứng kiến sự phát triển nhanh chóng trong thời gian ngắn của lĩnh vực này 244.1 Mô tả mô hình CCLM ở mức độ ngữ nghĩa CCLM cho hai góc nhìn (a) hìnhảnh và văn bản và (b) văn bản và văn bản dịch 274.2 Kiến trúc mô hình Flamingo khi cố định cả hai mô hình mã hoá ngôn ngữ và
mô hình ngôn ngữ trong quá trình huấn luyện 294.3 Kiến trúc của mô hình đề xuất Mô hình đề xuất thừa kế ý tưởng chủ yếu từ hainghiên cứu CCLM và Flamingo 315.1 Kết quả của mô hình đề xuất trên những mẫu dữ liệu Tiếng Anh tập kiểm thử
của bộ dữ liệu COCO Caption Q, A, và R thể hiện lần lượt cho câu hỏi, câu trả
lời và nhãn tham chiếu 415.2 Kết quả của mô hình đề xuất trên những mẫu dữ liệu Tiếng Anh tập kiểm thử
của bộ dữ liệu VQAv2 Q, A, và R thể hiện lần lượt cho câu hỏi, câu trả lời và
nhãn tham chiếu 42
Trang 12DANH SÁCH HÌNH VẼ DANH SÁCH HÌNH VẼ
5.3 Kết quả của mô hình đề xuất trên những mẫu dữ liệu Tiếng Anh tập kiểm thử
của bộ dữ liệu Vizwiz VQA Q, A, và R thể hiện lần lượt cho câu hỏi, câu trả
lời và nhãn tham chiếu 425.4 Kết quả của mô hình đề xuất trên tập kiểm thử của bộ dữ liệu ViVQA Q, A, và
R thể hiện lần lượt cho câu hỏi, câu trả lời và nhãn tham chiếu . 425.5 Kết quả của mô hình đề xuất trên những mẫu dữ liệu Tiếng Anh và Tiếng Việt
có độ dài trung bình trong bộ dữ liệu EVJ-VQA Q, A, và R thể hiện lần lượt
cho câu hỏi, câu trả lời và nhãn tham chiếu 43
Trang 13GIỚI THIỆU
Chương 1
GIỚI THIỆU
1.1 Giới thiệu đề tài
Trong những năm gần đây, cùng với sự tiến bộ và phát triển nhanh chóng của khoa học và côngnghệ, các thiết bị trợ lí - thiết bị phần cứng có cài phầm mềm trợ lí đang trở thành một phầnkhông thể thiếu trong cuộc sống của con người Các thiết bị này giúp con người thực hiện cácnhiệm vụ hàng ngày một cách thông minh, nhanh chóng và thậm chí là thực hiện các tác vụphức tạp như điều khiển trong công nghiệp
Tính phổ biến của các thiết bị trợ lí đã tăng đáng kể trong những năm gần đây, khi công nghệ
và tính năng của chúng ngày càng được cải tiến và nâng cao Các thiết bị trợ lí hiện đã trở thànhmột phần không thể thiếu của cuộc sống hàng ngày của mọi người, từ các gia đình cho đếndoanh nghiệp và tổ chức Theo một nghiên cứu của Gartner1, số lượng thiết bị trợ lí sử dụngtrên toàn cầu đã tăng lên gấp đôi trong vòng hai năm, từ 2,5 tỷ vào năm 2018 lên 4,2 tỷ vào năm
2020 Thiết bị trợ lí cũng có nhiều loại từ điện thoại thông minh, loa thông minh, đồng hồ thôngminh, máy tính cá nhân đến các thiết bị Internet of thing (IoT)
Phần mềm trợ lí có thể thực hiện nhiều tác vụ khác nhau để hỗ trợ người dùng Dưới đây là một
Trang 14GIỚI THIỆU
Hình 1.1: Các thiết bị trợ lí
• Điều khiển thiết bị: Trợ lí có thể giúp người dùng điều khiển các thiết bị điện tử như tivi,đèn chiếu sáng, máy điều hòa,
• Giải trí: Trợ lí có thể đưa ra các trò chơi và câu đố cho người dùng giải trí
• Ngoài ra, trợ lí có thể thực hiện nhiều tác vụ khác nhau như đặt hàng trực tuyến, dịch vănbản, tính toán, Tùy thuộc vào tính năng và ứng dụng của từng trợ lí ảo cụ thể
Các thông tin đầu vào của công cụ trợ lí thường là ngôn ngữ, được nhập ở dạng văn bản hoặcgiọng nói Nhưng hiện nay, các thiết bị trợ lí đã có các phần cứng để giao tiếp với người dùngtiện lợi hơn như camera, cảm biến Từ đó, trợ lí có thể nhận nhiều loại thông tin đầu vào củangười dùng Khi kết hợp với các thông tin hay truy vấn của người dùng từ văn bản và giọng nói,trợ lí ảo có thể làm được nhiều tác vụ phức tạp hơn Hình ảnh là một thông tin quan trọng màtrợ lí có thể khai thác, một bức ảnh ẩn chứa nhiều thông tin, ví dụ như cảnh quang ngoài trời,
số lượng sự vật đến hoạt động của con người Chủ đề này còn được biết đến với tên gọi là trảlời câu hỏi bằng hình ảnh hay trả lời câu hỏi trực quan (Visual Question Answering) là một bàitoán trong lĩnh vực xử lí ngôn ngữ tự nhiên Gần đây, chủ đề này trở nên phổ biến và được quantâm nhiều hơn do sự ra đời của kiến trúc Transformer, mô hình ngôn ngữ (Language Model)hay thậm chí là mô hình ngôn ngữ lớn (Large Language Model) đã đạt được nhiều thành tựu nổibật Đó là lý do tôi chọn thực hiện đề tài "Trả lời câu hỏi trực quan đa ngôn ngữ theo tiếp cậnhiện đại", chủ yếu tập trung vào kiến trúc Transformer và mô hình ngôn ngữ, với mục tiêu khaiphá sức mạnh của chúng trên các ngôn ngữ ít tài nguyên, đặc biệt là Tiếng Việt Ngoài ra còn
là thách thức giảm tài nguyên tiếp cận đến với các nhà nghiên cứu và triển khai trong ứng dụngthực tế
1.2 Tổng quan về bài toán trả lời câu hỏi trực quan
Trả lời câu hỏi trực quan hay Visual Question Answering (VQA) là một nhiệm vụ trong lĩnh
vực thị giác máy tính và xử lý ngôn ngữ tự nhiên liên quan đến việc trả lời các câu hỏi về một
Trang 15GIỚI THIỆU
hình ảnh Đưa ra một hình ảnh và một câu hỏi tương ứng bằng ngôn ngữ tự nhiên, mục tiêu củaVQA là tạo ra một câu trả lời chính xác và phù hợp cho câu hỏi Ngoài thách thức trả lời chínhxác câu hỏi đặt ra, ứng dụng VQA còn đối mặt với một số thách thức khác như vấn đề đa ngônngữ, tính thân thiện và tài nguyên
Thách thức đa ngôn ngữ trong trả lời câu hỏi trực quan là một vấn đề quan trọng trong lĩnh vựcnày, vì các mô hình cần có khả năng hiểu và trả lời các câu hỏi bằng nhiều ngôn ngữ Tháchthức này đặc biệt quan trọng đối với các ứng dụng mà người dùng đa dạng và nói các ngôn ngữkhác nhau Các ngôn ngữ khác nhau có cấu trúc và ngữ pháp riêng, khiến việc tạo ra một môhình duy nhất có thể hiểu và xử lý tất cả chúng là một thách thức Một cách tiếp cận là sử dụngcác mô hình ngôn ngữ tiền đào tạo Các mô hình này được đào tạo trước trên hàng triệu khốivăn bản lớn bằng nhiều ngôn ngữ và có thể học cách hiểu những điểm tương đồng và khác biệtgiữa các ngôn ngữ khác nhau
Tính thân thiện với người dùng là một thách thức quan trọng trong việc trả lời câu hỏi trực quan,
vì hệ thống phải dễ sử dụng và dễ hiểu đối với người dùng có trình độ chuyên môn kỹ thuật khácnhau Điều này đòi hỏi phải thiết kế hệ thống để xử lý các loại câu hỏi khác nhau, chẳng hạnnhư câu hỏi dựa trên thực tế, mô tả và lý luận, đồng thời cung cấp câu trả lời ngắn gọn và phùhợp Hệ thống cũng có thể xử lý các câu hỏi mơ hồ hoặc không đầy đủ và cung cấp phản hồithích hợp cho người dùng Hơn nữa, các hệ thống VQA nên được thiết kế để cung cấp phản hồicho người dùng về chất lượng và mức độ phù hợp của câu trả lời Ví dụ: Nếu hệ thống khôngchắc chắn về câu trả lời, hệ thống sẽ cung cấp điểm tin cậy hoặc đề xuất thông tin bổ sung đểgiúp người dùng tinh chỉnh câu hỏi của họ Hệ thống cũng có thể xử lý phản hồi từ người dùng,chẳng hạn như làm rõ hoặc chỉnh sửa câu hỏi hoặc câu trả lời
Cuối cùng là về tài nguyên và sức mạnh tính toán cần thiết để đào tạo và chạy các mô hìnhVQA Các ứng dụng VQA nhận vào hai luồng thông tin hình ảnh và văn bản, và đưa ra một câutrả lời ở dạng văn bản Điều này làm tăng khối lượng tính toán và chi phí tài nguyên lên nhiềulần Thách thức này làm khó khăn ở cả hai mặt tiếp cận nghiên cứu và triển khai ứng dụng Ởmặt tiếp cận nghiên cứu, thách thức này bao gồm về bộ dữ liệu được chú thích lớn, tài nguyêntính toán đáng kể, điều này có thể là một rào cản đáng kể đối với nhà nghiên cứu và tổ chức cótài nguyên hạn chế, gây cản trở khả năng phát triển và triển khai các mô hình VQA Ở mặt triểnkhai ứng dụng, khi các thiết bị trợ lí thường có tài nguyên tính toán vừa phải, nên một ứng dụngVQA cần được tối ưu hóa việc sử dụng tài nguyên, đảm bảo hiệu suất và độ ổn định của thiết bị
Với sự hấp dẫn bởi tính đa dạng và các thách thức đặt ra kể trên đối với bài toán trả lời câu hỏi
trực quan, tác giả quyết định thực hiện luận văn tốt nghiệp thạc sĩ về đề tài: "Trả lời câu hỏi
trực quan đa ngôn ngữ bằng tiếp cận hiện đại" Trong đề tài này, tác giả trình bày các kiến
Trang 16GIỚI THIỆU
thức nền tảng, công trình nghiên cứu liên quan, các phương pháp hiện đại ngày nay thường được
sử dụng để xây dựng một mô hình trả lời ngôn ngữ trực quan đa ngôn ngữ một cách hiệu quả, từ
đó đi vào giải quyết các thách thức của đề tài Để chi tiết hơn, tác giả sẽ lần lượt giải quyết cácvấn đề sau:
• Nắm được các kiến thức nền tảng về kiến trúc Transformer, mô hình ngôn ngữ và kỹ thuậthuấn luyện hiện đại
• Tìm hiểu bài toán trả lời câu hỏi trực quan nói chung, các dạng bài toán thường gặp
• Tập trung giải quyết bài toán bài toán trả lời câu hỏi trực quan đa ngôn ngữ, tìm hiểu, hiệnthực lại phương pháp hiện đại đã công bố
• Tìm kiếm và thực nghiệm trên các tập dữ liệu phù hợp
• Nghiên cứu, phát triển phương pháp mới để giải quyết thách thức về vấn đề tài nguyêncủa bài toán Hiện thực, thực nghiệm lại để đánh giá phương pháp mới đó so sánh với cácphương pháp hiện đại đã công bố
Luận văn "Trả lời câu hỏi trực quan bằng tiếp cận hiện đại" bao gồm sáu chương với các nộidung chính sau đây:
• Chương 1, GIỚI THIỆU: Trình bày tổng quan về đề tài, lý do thực hiện đề tài và ý nghĩa
thực tiễn của bài toán, cũng như giới hạn và phạm vi của đề tài Cuối cùng là nhiệm vụ vàcấu trúc của luận văn
• Chương 2, CƠ SỞ LÝ THUYẾT: Tổng hợp những vấn đề học thuật liên quan nhất sẽ áp
dụng để giải quyết bài toán, tập trung chủ yếu vào nội dung của kiến trúc Transformer, từcác cơ chế Self-Attention, Cross-attention tới mô hình ngôn ngữ, và kỹ thuật huấn luyệnLow Rank Adaptation
• Chương 3, CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN: Trình bày một cách tổng
quát về những nghiên cứu liên quan đã và đang được thực hiện, cũng như xu hướng chunghiện nay trong việc giải quyết bài toán Phần này cũng đưa ra những bàn luận và đánh giácho các phương pháp kể trên vì đó là cơ sở quan trọng cho những nghiên cứu của học viêntrong quá trình thực hiện luận văn
• Chương 4, MÔ HÌNH ĐỀ XUẤT: Giới thiệu mô hình cơ sở cho Bài toán trả lời câu hỏi
trực quan Đồng thời đưa ra các cải tiến và động lực cho các đề xuất đó
• Chương 5, KẾT QUẢ THỰC NGHIỆM: Học viên trình bày các bước tiến hành thí
nghiệm trên những tập dữ liệu khác nhau và đánh giá kết quả của những cải tiến so với mô
Trang 17GIỚI THIỆUhình cơ sở.
• Chương 6, KẾT LUẬN: Tổng hợp các kết quả đạt được trong quá trình thực hiện luận
văn từ bước nghiên cứu và xây dựng giả thuyết đến triển khai thực nghiệm Phần này cũngtrình bày những hạn chế và vấn đề tồn đọng, cuối cùng đề xuất các giải pháp cải tiến trongtương lai
Mục lục, Danh sách hình vẽ, Danh sách bảng được cung cấp ở đầu luận văn Tài liệu tham khảo sẽ được trình bày ở cuối luận văn.
Trang 18Trước khi đi vào tìm hiểu Self-attention, tác giả sẽ nhắc lại định nghĩa về cơ chế Attention Cơ
chế Attention được đề xuất lần đầu tiên bởi Bahdanau và cộng sự [1] vào năm 2015 với mụcđích cải tiến hiệu quả của bài toán dịch máy Mục tiêu của Bahdanau và cộng sự là xây dựng
mô hình dịch máy gồm hai phần Encoder và Decoder, trong đó Encoder là phần học và rút tríchthông tin từng từ trong câu ngôn ngữ gốc bằng mô hình RNN [2] Decoder là phần học cáchdịch những thông tin đã học được trong phần Encoder
Bahdanau và cộng sự đã nhận thấy rằng trong từng bước xử lý của phần Decoder chỉ cần dùngmột phần liên quan trong vector ngữ cảnh, kết quả của quá trình Encoder là đủ thông tin để dự
đoán từ tiếp theo trong câu ngôn ngữ dịch Phương pháp này được đặt tên là Attention là cơ chế
tạo sự chú ý đến những phần thông tin liên quan đến việc dự đoán trong Encoder thay vì là tất
cả thông tin như hầu hết các công trình nghiên cứu về học máy trước đó Các bước áp dụng cơchế Attention trong bài toán dịch máy được mô tả trong hình 2.1 và liệt kê các bước chi tiết nhưsau:
1 Nhận vector trạng thái ẩn của Decoder ht và tất cả các vector trạng thái ẩn của Encoder hs
2 Tính Attention score từng trạng thái ẩn s của Encoder bằng thực hiện phép tính nhân vô
hướng giữa ht và hs Sau đó đưa tất cả giá trị này qua hàm softmax để nhận được Attention
distribution:
α (t, s) = softmax(ht.hs)
3 Cuối cùng tạo ra Attention vector bằng tích vô hướng của Attention distribution và tất cả
Trang 19CƠ SỞ LÝ THUYẾTvector trạng thái ẩn của Encoder hs:
ct=∑
s
α (t, s).hs
Hình 2.1: Cơ chế Attention trong bài toán dịch câu tiếng Việt sang câu tiếng Anh
Self-attention được nhắc tới lần đầu tiên ở [3] Có một yếu tố then chốt để phân biệt giữaAttention và Self-attention, trong khi Attention đánh giá sự liên kết của một trạng thái chonhững trạng thái đã được tính toán ở trước đó thì Self-attention liên kết đến tất cả các trạng tháitrong chuỗi hiện tại, tạo khả năng xử lý song song Đặc biệt, đối với tất cả các key, query vàvalue được đóng gói vào các ma trận K, Q và V Cách tính toán của Self-attention cho phépdùng tích vô hướng tính toán các ma trận này Sau đó chia kết quả cho √
dk và áp dụng hàmsoftmax để xác định Attention distribution và Attention vector:
Attention(Q, K,V ) = softmax(QK
T
√
dk)V
Trang 20CƠ SỞ LÝ THUYẾT
Hệ số tỉ lệ √
dk dùng để làm giảm ảnh hưởng của chiều dữ liệu của kết quả cuối cùng Cóhai hàm Attention phổ biến đó là Addition Attention và Dot-Product Attention Cả hai hàmAttention này đều giống nhau về mặt lý thuyết, thì Dot-Product Attention nhanh hơn và hiệuquả hơn ở thực tế
Thêm một điều nữa trong kiến trúc Transformer mà các nhà nghiên cứu tìm ra là lợi ích khi
tiến hành Attention nhiều lần Multi-Head Attention cho phép mô hình tham gia vào nhiều khía
cạnh đại diện tại các góc độ khác nhau Khi sử dụng một Attention duy nhất, mô hình sẽ họctrung bình tất cả các khía cạnh, không chi tiết Multi-Head Attention được mô tả trong hình 2.2
và định nghĩa như sau:
Multi-Head(Q, K,V ) = concat(head1, , headh)WO,với headi= Attention(QWiQ, KWiK,VWiV),
chú ý rằng WiQ∈ Rd model ×d k, WiK∈ Rd model ×d k, WiV ∈ Rd model ×d k là các ma trận tham số cho phépchiếu các query, key, value Đặc biệt, dk= dv= dmodel/h với h là số lượng phép Attention
Hình 2.2: Hai cơ chế Scaled Dot-Product Attention và Multi-Head Attention
2.1.2 Kiến trúc Cross-attention
Cross-attentionđã được giới thiệu trong kiến trúc Transformer [3] như trong hình 2.4 Tronglớp Transformer Decoder, vector đầu ra của Encoder đã cung cấp key và value cho cơ chế Multi-Head Self-attention trong lớp Decoder, còn query được lấy từ vector đặc trưng từ đầu vào củaDecoder, từ đó Decoder đoán được mã token tiếp theo cho đầu ra, quá trình này được lặp đi lặplại đến khi token EOS được sinh ra, kết thúc câu đầu ra
Trang 21CƠ SỞ LÝ THUYẾT
Hình 2.3: Cơ chế Cross-attention được giới thiệu trong kiến trúc Transformer Decoder
Hình 2.4: Chi tiết cơ chế Cross-attention
Cross-attention là một cơ chế rất giống Self-attention, ngoại trừ việc chúng ta dùng hai chuỗiđầu vào một cách đồng thời Một chuỗi cung cấp được cung cấp query, còn chuỗi kia cung cấpkey và value Công thức tính Cross-attention của hai chuỗi đầu vào S1, S2được tính như sau:
Cross-attention(QS2, KS1,VS1) = Attention(QS2WS2
Q , KS1WS1
K ,VS1WS1
V )
Với công thức trên, ta có thể liệt kê các đặc điểm của Cross-attention sau đây:
• Cross-attention là một cơ chế Attention trong kiến trúc Transformer khi kết hợp hai chuỗivector đặc trưng khác nhau
Trang 22CƠ SỞ LÝ THUYẾT
• Hai chuỗi vector đặc trưng phải có cùng chiều
• Hai chuỗi vector đặc trưng có thể được mã hóa từ các loại dữ liệu đầu vào khác nhau: hìnhảnh, âm thanh, văn bản,
• Một chuỗi vector đặc trưng cung cấp query và định nghĩa luôn độ dài đầu ra, còn chuỗivector đặc trưng còn lại lại cung cấp key và value
2.1.3 Kiến trúc Vision Transformer
Khái niệm Vision Transformer hay ViT, lần đầu tiên được trình bày ở [4] là một mô hình phân
loại ảnh sử dụng kiến trúc Transformer trên từng mảnh (patch) của hình ảnh Một hình ảnh
được chia thành các mảnh có kích thước cố định, mỗi mảnh trong đó được làm phẳng thành cácvector đặc trưng tuyến tính thêm vào là vector thông tin vị trí, và chuỗi vector đó được cho vào
bộ Encoder của một kiến trúc Transformer Với mục tiêu thực hiện nhiệm vụ phân loại thì mộttoken [CLS] được thêm vào chuỗi
Với mục tiêu cấu trúc hình ảnh đầu vào tương tự theo cách cấu trúc một đầu vào của ngôn ngữ
tự nhiên (một chuỗi của các từ đơn lẻ) thì hình ảnh đầu vào có chiều cao H, chiều rộng W , và
số lượng kênh (channel) C, được cắt nhỏ ra thành các mảnh hai chiều nhỏ hơn Kết quả sẽ tạo
thành N = HW
P 2 số mảnh, với mỗi mảnh có độ phân giải (P, P) Trước khi cho dữ liệu vào môhình Transformer, các bước tiếp theo được ứng dụng:
1 Mỗi mảnh được làm phẳng thành một vector, xnp, có độ dài P2×C, với n = 1, , N
2 Một chuỗi của các mảnh được sinh ra bằng cách ánh xạ các chuỗi được làm phẳng thành
Dchiều, với một phép chiều tuyến tính có thể huấn luyện, E
3 Một lớp trích xuất đặc trưng xclassđược thêm vào chuỗi đặc trưng Giá trị của xclasssẽ đạidiện cho giá trị đầu ra y của nhiệm vụ phân lớp
4 Cuối cùng, chuỗi đặc trưng được tăng cường khi gắn thêm vào một vector một chiều mangthông tin vị trí, Epos
Chuỗi của các vector đặc trưng là kết quả của các bước ở trên:
z0= [xclass; x1pE; , xNpE] + Epos
Với mục đích phân loại, các tác giả cho chuỗi đầu vào bộ Encoder của kiến trúc Transformer,gồm L lớp Sau đó, họ lấy giá trị trong đầu ra của xclasstại lớp thứ Lth, và bỏ nó vào bộ phânloại
Shifted windows Transformer (Swin Transformer) [5] có thể được coi là bản nâng cấp củaVision Transformer, những điểm mới của kiến trúc này có thể kể đến như:
Trang 23CƠ SỞ LÝ THUYẾT
• Kiến trúc Transformer phân cấp, tại các layer sau, các mảnh gần nhau sẽ dần dần được hợpnhất lại
• Sử dụng Self-attention trên một vùng cục bộ thay vì toàn bộ ảnh
• Sử dụng cửa sổ trượt giúp các mảnh không bị bó cứng khi phải Seft-attention trong mộtcửa sổ cục bộ mà sẽ có cơ hội được tính Self-attention cùng với các mảnh khác trong mộtcửa sổ mới
• Cho nhiều tỉ lệ đầu ra khác nhau, đây là một tính chất khá quan trọng của convolutionneutral network (CNN) cũng như là một yếu tố để giải quyết các bài toán về hình ảnh
Hình 2.5: Kiến trúc mô hình Swin Transformer
Hình 2.5 biểu diễn cấu trúc tổng quát của Swin Transformer Đầu tiên, ảnh đầu RGB vào được
chia nhỏ thành mỗi mảnh (patch) giống như ViT Mỗi mảnh có kích thước 4 × 4 được chuyển
thành vector có kích thước 4 × 4 × 3 = 48 Mỗi mảnh này được coi như một token
• Tại Stage 1, lớp ánh xạ tuyến tính biến không gian vector gốc (48 chiều) thành một khônggian vector khác có số chiều là C, sau đó được đưa qua một vài Swin Transformer Block,lúc này số lượng token (mảnh) là H4 ×W4 và và độ dài của một token là C
• Ở mỗi Stage tiếp theo, số lượng token sẽ bị giảm đi khi lớp Patch Merging có nhiệm vụ
làm giảm số lượng các token bằng cách gộp nhóm các mảnh có kích thước 2 × 2 thànhmột mảnh duy nhất Do đó, số lượng token sẽ bị giảm đi 2 × 2 = 4 lần và số chiều sẽ tănglên thành 2 lần Như vậy số lượng token khi đi qua Stage 2 sẽ là H8 ×W8 và độ dài của mộttoken là 2C Tương tự ở Stage 3, số lượng token là 16H ×W16 và độ dài của một token là 4C
• Swin Transformer Block vẫn là một lớp Transformer dựa vào cơ chế Self-attention Tuy
nhiên, Swin Transformer Block thay thế Multi-Head Self-attention (MSA) bằng ShiftedWindow based Self-Attention
• Shifted Window based Self-Attention, việc ViT sử dụng Self-attention trên toàn bộ vùng
trong ảnh khiến độ phức tạp của thuật toán gia tăng theo số lượng token, khiến bài toán
về hình ảnh của ViT có khối lượng tính toán rất lớn Để giải quyết vấn đề này, SwinTransformer chỉ tính toán Self-attention trên một khu vực cửa sổ cục bộ, cơ chế W-MSA
Trang 24CƠ SỞ LÝ THUYẾT
Hình 2.6: Hai Swin Transformer Block với cơ chế W-MSA và SW-MSA xen kẽ liên tiếp
và SW-MSA được thiết kế để giải quyết vấn đề đó Theo hình 2.6, tác giả đề xuất cách tiếpcận thay đổi phân vùng cửa sổ xen kẽ giữa hai Swin Transformer Block liên tiếp
• W-MSA: Swin Transformer chỉ tính toán Self-attention trên một khu vực cửa sổ cục bộ.
Giả sử cửa sổ có kích thước M × M mảnh, độ phức tạp tính toán của một MSA tiêu chuẩn
• SW-MSA: Nếu chỉ dùng Self-attention trên một cửa sổ có vị trí cố định sẽ làm thiếu đi
tính liên kết thông tin với các vùng khác trong ảnh, do vậy có thể ảnh hưởng tới hiệu năngcủa mô hình Cơ chế SW-MSA sẽ dịch cửa sổ đi một đoạn và Swin Transformer Block sẽthực hiện tính toán Self-attention trên các vị trí cửa sổ mới đó Hình 2.6 miêu tả cơ chếhai Swin Transformer Block liên tiếp, với cơ chế của W-MSA và SW-MSA, thì hai SwinTransformer Block được tính như sau:
ˆzl= W-MSA(LN(zl−1)) + zl−1,
zl= MLP(LN(ˆzl)) + ˆzl,
ˆzl+1= SW-MSA(LN(zl)) + zl,
zl+1= MLP(LN(ˆzl+1)) + ˆzl+1,với ˆzl và zl kí hiệu cho đầu ra của (S)W-MSA và MLP của Swin Transformer Block l
• Việc tính toán Self-attention của Swin Transformer cũng khác so với ViT khi sử dụng thêm
Trang 25Mô hình Transformer đã phát triển tạo ra nhiều mô hình ngôn ngữ tiền đào tạo, ví dụ như BERT[7] sử dụng Transformer Encoder layer, hay GPT [8] sử dụng các lớp Transformer Decoder layer.
2.2.1 Mô hình ngôn ngữ Encoder
Sử dụng phổ biến nhất hiện nay trong xử lí ngôn ngữ tự nhiên là BERT [7] được viết tắt của
Bidirectional Encoder Representations from Transformers, BERT sử dụng hai tác vụ huấn luyệntrong quá trình tiền đào tạo của mình, được trình bày chi tiết dưới đây:
• Masked Language Model (MLM): Che đi ngẫu nhiên 15% số từ trong câu văn đầu vào
bằng token [MASK], sau đó đưa câu qua bộ Encoder dựa trên cấu trúc Self-attention.Nhiệm vụ chỉ cần dự đoán các từ bị che đi bởi [MASK] dựa trên ngữ cảnh của các từkhông bị che đem lại Chiến lược khá đơn giản nhưng có lỗ hổng mô hình chỉ cố gắng dựđoán các token chính xác khi token [MASK] xuất hiện trong mô hình, nhưng chúng ta cần
mô hình dự đoán đúng dù có [MASK] token hay không Để giải quyết vấn đề này, 15%token được chọn để che đi được xử lí:
– 80% token thực sự bị che đi bởi [MASK].
– 10% token bị thay thế các token ngẫu nhiên.
– 10% token không bị thay đổi.
• Next Sentence Prediction (NSP), quá trình huấn luyện BERT dùng tác vụ đoán câu tiếp
theo để mô hình hiểu được mối liên hệ giữa hai câu Với những tác vụ như trả lời câu hỏi,thì loại tri thức này rất hữu dụng cho mô hình tiền đào tạo Trong quá hình huấn luyện,một cặp câu văn được sử dụng như đầu vào, mô hình cần được học để xem câu thứ hai có
Trang 26CƠ SỞ LÝ THUYẾT
phải là câu văn tiếp theo của câu đầu BERT dùng token [SEP] để chia tách hai câu Môhình được nhận hai câu đầu vào trong quá trình huấn luyện như sau:
– 50% câu thứ hai là câu liền kề sau câu thứ nhất.
– 50% là câu văn ngẫu nhiên trong từ điển.
Mô hình BERT được yêu cầu dự đoán câu thứ hai là câu liền kề hay không Để xác định,
cả hai câu sẽ được đưa vào mô hình Transformer Lớp ẩn cuối cùng của token [CLS] đượcchuyển qua lớp phân loại đơn giản, và phân phối xác xuất được tính bởi hàm softmax.Hai tác vụ Masked Language Model và Next Sentence Predict đều được dùng để huấn luyện
mô hình, và sau đó BERT được tiếp tục dùng cho các tác vụ cụ thể trong lĩnh vực xử lí ngônngữ tự nhiên
2.2.2 Mô hình ngôn ngữ Decoder
Với mô hình Generative Pre-Training (GPT) [8] sử dụng các lớp Transformer Decoder layer Đểhuấn luyện mô hình GPT sẽ gồm hai bước: Tiền huấn luyện không giám sát và tinh chỉnh cógiám sát Bước tiền huấn luyện sẽ huấn luyện mô hình ngôn ngữ trên một tập dữ liệu lớn vănbản Tiếp theo bước tinh chỉnh sẽ huấn luyện mô hình trên một tập dữ liệu có nhãn với tác vụ cụthể
Hình 2.7: Bên trái là cấu trúc Transformer của mô hình GPT và hàm mục tiêu đào tạo được sửdụng trong tác vụ này Bên phải là đầu vào và các phép biến đổi để tinh chỉnh các nhiệm vụkhác nhau
Ở bước tiền huấn luyện, mô hình ngôn ngữ GPT sẽ tối ưu xác suất có điều kiện
∑mi log P(ui| u1, , ui−1) trên tập token u1, , um của văn bản Mô hình áp dụng một cơ chếMulti-Headed Self-attention cho ngữ cảnh của các mã token đầu vào, và các lớp để xử lí cho vị
Trang 27CƠ SỞ LÝ THUYẾTtrí của mã token đầu vào để tạo ra một phân phối đầu ra qua các mã token mục tiêu:
h0= UWe+Wp
hl= transformer_block (hl−1)) ∀i ∈ [1, n] (2)P(u) = softmax hnWeT
với U = (u−k, , u−1) là ma trận mã token ngữ cảnh đầu vào, n là số lượng lớp TransformerDecoder, Welà ma trận đặc trưng mã token đầu vào, Wplà ma trận đặc trưng vị trí của token
Ở bước tinh chỉnh, các nhà nghiên cứu sẽ huấn luyện mô hình trên các tác vụ có nhãn cụ thể.Giả định một tập dữ liệu được gán nhãnC , trong đó mỗi mẫu bao gồm một chuỗi các mã tokenđầu vào x1, , xmtương ứng với một nhãn y Các mã token đầu vào được truyền qua mô hình
đã được tiền huấn luyện để thu được vector trạng thái của khối Transformer Decoder hml , sau đóđược đưa vào một lớp mạng tuyến tính với các tham số Wyđể dự đoán y:
Các nhà nghiên cứu cũng nhận ra rằng việc huấn luyện mô hình ngôn ngữ không giám sát nhưmột hàm mục tiêu nhỏ trong quá trình huấn luyện tinh chỉnh đã giúp việc huấn luyện bằng cảithiện khả năng tổng quát hóa của mô hình, và tăng tốc quá trình hội tụ Điều này tương thích vớicác nghiên cứu trước đó, những nghiên cứu cũng chứng mình được sự cải thiện của hiệu suấtvới một mục tiêu phụ như vậy Cụ thể, các nhà nghiên cứu đã có phương trình tối ưu hóa mụctiêu tổng quát sau đây (với trọng số λ ):
L3(C ) = L2(C ) + λ ∗ L1(C ) (5)
Hình 2.7 biểu diễn các tác vụ mà GPT huấn luyện ở phần tinh chỉnh Các nhà nghiên cứu đãchuyển đổi tất cả các dữ liệu đầu vào có cấu trúc thành mã token theo trình tự sẽ được xử lýbằng mô hình ngôn ngữ đã được tiền huấn luyện, theo sau là lớp tuyến tính và hàm softmax.Các tác vụ trong quá trình huấn luyện tinh chỉnh bao gồm:
• Phân loại văn bản (text classification): Các nhà nghiên cứu đã huấn luyện mô hình trên
hai loại dữ liệu văn bản phân loại Bộ dữ liệu đầu tiên Corpusof Linguistic Acceptability(CoLA) là đánh giá của các chuyên gia một câu có đúng ngữ pháp hay không và kiểm tra
xu hướng ngôn ngữ của các mô hình Mặt khác, Stanford Sentiment Treebank (SST-2) là
Trang 28CƠ SỞ LÝ THUYẾTmột tác vụ phân loại nhị phân tiêu chuẩn.
• Suy luận văn bản (textual entailment): Nhiệm vụ của suy luận ngôn ngữ tự nhiên, còn
được gọi là nhận biết tương quan, liên quan đến việc đọc một cặp câu và đánh giá mối
quan hệ giữa chúng theo một trong những lữa chọn câu kéo theo tương quan (entailment), mâu thuẫn (contradiction) hoặc trung lập (neutral) trên năm bộ dữ liệu.
• Tương đồng văn bản (text similarity): Tác vụ tương đồng về mặt ngữ nghĩa liên quan đến
việc dự đoán liệu hai câu có tương đương về mặt ngữ nghĩa hay không Những thách thứcnằm ở việc nhận ra cách diễn đạt lại các khái niệm, hiểu sự phủ định và xử lý sự mơ hồ vềmặt cú pháp
• Trả lời câu hỏi nhiều lựa chọn (multiple choice): Một nhiệm vụ khác nữa là trả lời câu hỏi
với nhiều sự lựa chọn, tác vụ đưa ra một câu hỏi và một tập câu trả lời, nhiệm vụ của môhình là lựa chọn câu trả lời đúng nhất trong tập câu trả lời có sẵn
Phương pháp Low Rank Adaptation (LoRA) [9] cho phép huấn luyện một số lượng rất lớn lớptrong một mạng nơ-ron một cách gián tiếp bằng cách tối ưu hóa các ma trận phân rã của các lớptrong quá trình điều chỉnh thay vì tối ưu cho các trọng số được tiền huấn luyện của mô hình,như được thể hiện trong Hình 2.8
Hình 2.8: Mô tả cách huấn luyện của LoRA, chỉ huấn luyện trên ma trận phân rã A và B
Để diễn tả chi tiết cách LoRA hoạt động, tác giả sẽ đi vào cách LoRA hoạt động trên mạngnơ-ron và cách ứng dụng LoRA vào kiến trúc Transformer
Một mạng nơ-ron chứa nhiều lớp dày đặc thực hiện phép nhân ma trận Các ma trận trọng sốtrong những lớp này thường có hạng đầy đủ Khi huấn luyện tinh chỉnh với một tác vụ cụ thể,Aghajanyan và cộng sự [10] đã chỉ ra rằng các mô hình ngôn ngữ được tiền huấn luyện cómột "chiều số nội tại" thấp và vẫn có thể học một cách hiệu quả mặc dù có một phép chiếu
Trang 29CƠ SỞ LÝ THUYẾT
biến đổi vào một không gian con nhỏ hơn Lấy cảm hứng từ điều này, các nhà nghiên cứu giảthuyết rằng các cập nhật cho các trọng số cũng có một "hạng nội tại" thấp trong quá trình huấnluyện tinh chỉnh Đối với một ma trận trọng số được tiền huấn luyện W0∈ Rd×k, các tác giảràng buộc cập nhật của nó bằng cách biểu diễn phần sau với một ma trận phân rã hạng thấp
W0+ ∆W = W0+ BA, trong đó B ∈ Rd×r, A ∈ Rr×k, và hạng r ≪ min(d, k) Trong quá trìnhhuấn luyện, W0 được đóng băng và không nhận cập nhật trọng số, trong khi A và B chứa cáctham số có thể huấn luyện Lưu ý rằng cả W0và ∆W = BA đều được nhận với cùng một đầu vào,
và các ma trận đầu ra của họ tương ứng được tổng hợp theo từng đầu vào Đối với h = W0x, quátrình huấn luyện tinh chỉnh cho ra:
Minh họa lại việc biểu diễn lại của các nhà nghiên cứu như trong Hình 2.8 Sử dụng một khởitạo ngẫu nhiên theo phân phối Gaussian cho A và khởi tạo 0 cho B, vì vậy ∆W = BA bằng 0 ởđầu quá trình huấn luyện Sau đó, nhà nghiên cứu tỉ lệ ∆W x bằng α
r, trong đó α là một hằng sốtrong r tỉ lệ một cách thích hợp
Bảng 2.1: Hiệu suất của LoRA và các phương pháp huấn luyện tinh chỉnh khác nhau trên môhình GPT-3 175B
Mô hình&Phương pháp #Trọng số
huấn luyện
WikiSQLAcc(%)
MNLI-mAcc(%)
SAMSumR1/R2/RL
hội tụ, trong khi các phương pháp khác dựa trên bộ chuyển đổi (adapter base) vào một mạng nơ-ron hay các phương pháp dựa trên tiền tố (prefix tuning) vào một mô hình không thể xử lý
các chuỗi đầu vào quá dài
LoRA không có độ trễ tính toán Khi triển khai trong thực tế, chúng ta có thể tính toán và lưutrữ một cách rõ ràng W = W0+ BA và thực hiện tính toán như thông thường Lưu ý rằng cả W0
và BA đều ở trong Rd×k Khi chúng ta cần chuyển sang một nhiệm vụ cụ thể khác, chúng ta có
Trang 30CƠ SỞ LÝ THUYẾT
thể khôi phục W0bằng cách trừ BA và sau đó thêm một B′A′khác, một cách nhanh chóng với rất
ít chi phí bộ nhớ Quan trọng nhất là điều này đảm bảo rằng LoRA không tạo ra bất kỳ độ trễ bổsung nào trong quá trình tính toán so với một mô hình được huấn luyện tinh chỉnh hoàn toàn.LoRA cũng có những hạn chế của nó Ví dụ, không dễ dàng khi gom nhóm đầu vào của các tác
vụ khác nhau với các A và B khác nhau trong một lần tính toán duy nhất, nếu chúng ta chọn hợpnhất A và B vào W để loại bỏ độ trễ suy luận bổ sung
Trang 31CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
Chương 3
CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
3.1.1 Tiền huấn luyện
Transfer learning[11] là một trong những ứng dụng của phương pháp máy học, trong đó một
mô hình thu được từ tiền huấn luyện với các tác vụ chung giúp mô hình học được các thông tinchung của ngôn ngữ, và sau đó được sử dụng lại trong các tác vụ tiếp theo để giúp mô hình họcmột cách hiệu quả và hội tụ nhanh hơn
Hình 3.1: Mô hình hình ảnh - ngôn ngữ ViLBERT
Hình 3.1 là ví dụ của một mô hình hình ảnh - ngôn ngữ Mô hình mã hóa hai đầu vào làhình ảnh và văn bản là bước đầu tiên trong quá trình huấn luyện một mô hình tiền huấnluyện Tác giả định nghĩa một tập dữ liệu cho quá trình tiền huấn luyện là D = {(W,V )}Ni=1với W và V được kí hiệu cho văn bản và hình ảnh, còn N là số cặp hình ảnh - ngôn ngữ
có trong tập dữ liệu Cụ thể, ở mô hình ViLBERT [12] mỗi văn bản W sẽ được mã hóadưới dạng vector W = ([CLS], w1, w2, , wn, [SEP]), còn mỗi hình ảnh sẽ được mã hóa thành
V = ([IMG], v1, v2, , vn) Sau đó các lớp trong các kiến trúc Transformer sẽ tiếp tục mã hóa
hai vector đặc trưng của W và V thành vector trạng thái ẩn (hidden state vector) Tùy vào nhiệm