Trong đề tài này, chúng tôi nghiên cứu tổng quan các phương pháp State-of-the-art SOTA để rút trích đặc trưng thị giác cho tác vụ Hỏi đáp trực quan như Vision Trans-former ViT, Vision-a
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHO HO CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC & KY THUẬT THONG TIN
o0o
THAI MINH TRIẾT ~ 19522397
KHOA LUAN TOT NGHIEP
TICH HGP DAC TRUNG ANH VAO MO HINH
MANG CONVOLUTIONAL SEQUENCE-TO-SEQUENCE
INTEGRATING IMAGE FEATURES WITH
CONVOLUTIONAL SEQUENCE-TO-SEQUENCE NETWORK
FOR MULTILINGUAL VISUAL QUESTION ANSWERING
CU NHAN NGANH KHOA HOC DU LIEU
GIANG VIEN HUGNG DAN
ThS LƯU THANH SƠN
ThS PHAM THE SƠN
TP HỒ CHÍ MINH, 07/2023
Trang 2LỜI CẢM ƠN
Để có thể hoàn thành được khóa luận này, ngoài những nỗ lực và cố gắng không
ngừng nghỉ của tôi thì không thể không nhắc đến sự hỗ trợ và giúp đỡ tận tình củaQuý Thầy Cô Trường Đại học Công nghệ Thông tin - Đại học Quốc gia Thành phố
Hồ Chí Minh
Tôi xin gửi lời cảm ơn chân thành nhất đến ThS Lưu Thanh Sơn và Th§ Phạm
Thế Sơn, là hai giảng viên hướng dẫn của tôi Các Thầy đã hỗ trợ và giúp đỡ tôi rất
nhiều trong quá trình thực hiện đề tài nghiên cứu này, cũng như đưa ra những nhận
xét, góp ý nhiều giá trị để tôi chỉnh sửa báo cáo khóa luận một cách hoàn thiện hơn.Các Thầy cũng đã động viên tôi vào những thời điểm khó khăn nhất để tôi có thể hoànthành đề tài khóa luận tốt nghiệp này
Tôi cũng xin gửi lời cảm ơn chân thành đến các Quý Thầy Cô Trường Đại học
Công nghệ Thông tin - Dai học Quốc gia Thành phô Hồ Chi Minh nói chung và QuýThầy Cô Khoa Khoa học và Kỹ thuật Thông tin nói riêng đã tận tình giảng dạy, truyềnđạt những kiến thức và kinh nghiệm quý báu cho tôi trong những năm tháng học tập
tại trường, cũng như tạo ra một môi trường học tập, nghiên cứu giàu tính học thuật để
tôi có cơ hội tham gia, thực hiện và hoàn thành đề tài nghiên cứu của khóa luận này
Trong quá trình thực hiện đề tài, mặc dù đã nỗ lực tìm hiểu, nghiên cứu, thựcnghiệm và bước đầu đã đạt được một số kết quả khả quan, nhưng do kiến thức và kinh
nghiệm bản thân còn nhiều hạn chế nên không thể tránh khỏi những thiếu sót nhất
định Tôi rất mong nhận được sự góp ý từ Quý Thầy Cô để khóa luận được chỉnh sửa
và hoàn thiện một cách tốt hơn.
TP Hồ Chí Minh, tháng 07 năm 2023
Sinh viên thực hiện
Thái Minh Triết
Trang 3MỤC LỤC
TÓM TẮT KHÓA LUẬN
1 MỞ ĐẦU
12 Mục tiêu và phạm vinghincứu
13 Đối tượng nghiêncứu
14 Dong góp của khóa luận
1.5 Cấutrúckhóaluận
TỔNG QUAN ĐỀ TÀI 2.1 Bài toán Hỏi đáp trực quan eee 2.2 Tinh hình nghiên cứu trén thé gidi
2.3 Tình hình nghiên cứu tại Việ Nam
QUÁ TRÌNH THỰC NGHIÊM 3.1 Phátbiểubàitoán ẶẶSQẶ ẶQẺ So 3.2 Giới thiệu bộ dữ liệu UIT-EVIVOA
3.3 Tổ chức và tiền xử lý dữliệu
-3.4 Phương pháp dé xuất cho tác vụ hỏi đáp trực quan đa ngôn ngữ
3.4.1 3.4.2 3.4.3 3.4.4 3.4.5 3.4.6 Tổng quan phương pháp
-Kiến trúc mang Convolutional Sequence-to-Sequence
Kiến trúc Vision Transformer
-Kiến trúc đa thể thức kết hợp thị giác và ngôn ngữ
Trích xuất gợi ý từ hình ảnh và câu hỏi
Tích hợp đặc trưng đa thể thức và tạo sinh câu trả lời
11
11 lãi 13
15
15
16
22 23 25
26
Trang 43.5 Thiết lập và cài đặt
3.5.1 Mô hình mang Convolutional Sequence-to-Sequence
3.5.2 Mô hình pre-trained đathểthức
3.53 Thiết lậpthựcnghệm
3.5.4 Công cụ sử dụng và cấu hình phần cứng
4.1 Độ do đánh gia KET QUA THỰC NGHIỆM 4.2 Đánh giá kết quả thựcnghệm
4.2.1 Kết quả đánh giá sơ bộ các gợi ý được trích xuất
4.2.2 Kết quả đánh giá trên tập Public Test
4.2.3 Kết quả đánh giá trên tập Private Test
4.3 Phân tích kết quảthựenghệm
43.1 Phântíchđịnhlượng
43.2 Phântchđimnhtnh
5 CHƯƠNG TRÌNH MINH HỌA 6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 61 Kétluan
6.2 Hướng phát triển
6.3 Công bố khoa học
TÀI LIỆU THAM KHẢO
29
29
29
30 31
32
32
34 34 35
36
37 37 40
46
51 51 52 53
54
Trang 5Thống kê trên tập Training va Public Test từ bộ dữ liệu UIT-EVJVQA.
Kết quả đánh giá sơ bộ hiệu suất các mô hình pre-trained SOTA
kết hợp thị giác-ngôn ngữ trên tap Public Test
Kết quả đánh giá hiệu suất của mô hình ConvS2S tích hợp đặc
trưng thị giác và gợi ý trên tap Public Tlest
Kết quả đánh giá hiệu suất các phương pháp trên tập Private Test
So sánh hiệu suất với các đội thi khác tại cuộc thi
36
39
Trang 6DANH MỤC HINH VE
1.1
3.1 3.2
3.3
3.4 3.5 3.6
Mot số ví dụ về ứng dụng của hỏi đáp trực quan trong thực tiễn
Một số mẫu câu hỏi đáp trực quan đa ngữ từ bộ dữ liệu UIT-EVIVQA
Mô tả tổng quan phương pháp dé xuất cho bài toán Hỏi đáp
trực quan trên bộ dữ liệu UIT-EVJVQA
Tổng quan kiến trúc mô hình Sequence-to-Sequence dựa trên
mạng tích chập -
ConvS2S[2] -Tổng quan kiến trúc bộ mã hóa của mạng ConvS2S [2]
Kiến trúc của khối tích chập trong bộ mã hóa mạng ConvS2S [2]
Tổng quan kiến trúc bộ giải mã của mạng ConvS2S [2]
Kiến trúc của khối tích chập trong bộ giải mã mang ConvS2S [2]
Tổng quan các thành phần trong kiến trúc Vision Transformer
-VIT[3] so
Tổng quan kiến trúc Vision-and-Language Transformer ViLT [4] .Tổng quan về các tác vụ đa thể thức được hỗ trợ bởi mô hình
OFA [5] Q2
Ví dụ minh họa về phương thức kết hợp câu hỏi và các gợi ý
ViLT va OFA để tạo ra chuỗi đại diện
So sánh đồ thị hàm mất mát trên tập Training và tap Public Testcủa mô hình ConvS2S khi được tích hợp các đặc trưng kết hợp
19
20 21
22 23
24
28
38
40
Trang 7Một số mẫu đối chiếu về sự thay đổi trọng số Attention trên mô
hình ConvS2S khi sử dụng đặc trưng từ OFA và ViT .
Một số trường hợp lỗi thường gặp ở câu trả lời dự đoán
Giao diện chính của chương trình minh họa cho hệ thống hỏi
đáp trực quan đa ngữ Ặ.ẶẶ.Ặ Ặ eee
Một số mẫu hỏi đáp trực quan trên tiếng Việt ở chương trình
Trang 8DANH MỤC TU VIET TAT
STT | Từ viết tat Ý nghĩa
Artificial Intelligence —
0I AI Trí tuệ nhân tạo
Bilingual Evaluation Understudy —
02 BLEU Độ do đánh giá song ngữ BLEU
Convolutional Neural Network —
0 CNN Mô hình mạng nơ ron tích chập
Recurrent Neural Network—
07 và Mô hình mạng nơ ron hồi quy
10 ViLT Mô hình thống nhất thị giác-ngôn ngữ
dựa trên Transformer
ll VịT ¬ Vision Transformer —
Mô hình thị giác dựa trên Transformer
Visual Question Answering —
12 VỌA Hỏi đáp trực quan /
Hỏi đáp dựa trên nội dung ảnh
Trang 9TÓM TẮT KHÓA LUẬN
Trong những năm gan đây, Hỏi đáp trực quan là một chủ đề nghiên cứu nhận được
nhiều sự quan tâm trong cộng đồng nghiên cứu về trí tuệ nhân tạo ở Việt Nam và trênthế giới Tác vụ này trong trí tuệ nhân tạo cho phép máy tính có thể hiểu được đặc
trưng ngữ nghĩa từ hình ảnh và đưa ra câu trả lời liền mạch với lối diễn đạt tự nhiên
cho câu hỏi liên quan một cách tự động.
Trong đề tài này, chúng tôi nghiên cứu tổng quan các phương pháp State-of-the-art
(SOTA) để rút trích đặc trưng thị giác cho tác vụ Hỏi đáp trực quan như Vision
Trans-former (ViT), Vision-and-Language TransTrans-former (ViLT) hay OFA, và dé xuất mộthướng tiếp cận nhằm tích hợp đặc trưng ảnh vào mô hình tạo sinh văn bản Sequence-
to-Sequence dựa trên mạng tích chập (ConvS2S) cho bài toán Hoi đáp trực quan da
ngôn ngữ Chúng tôi cũng đã cài đặt, thực nghiệm và đánh giá phương pháp dé xuất
trên bộ dữ liệu UIT-EVJVQA công bồ tại cuộc thi VLSP2022-EVJVQA.
Thông qua quá trình thực nghiệm, nghiên cứu đã cho thấy sự hiệu quả của phương
pháp dé xuất, khi hiệu suất của mô hình ConvS2S có tích hợp thêm các đặc trưng
gợi ý từ hình ảnh cải thiện ít nhất 2.89% điểm F1 trên tập Public Test so với mô
hình cơ sở Tổ hợp tốt nhất, ConvS2S + ViT + OFA, cho kết quả 0.3442 F1 trên tập
Public Test và 0.4210 F1 trên tập Private Test, qua đó đạt vi trí thứ ba tại cuộc thi
VLSP2022-EVJVQA.
Thông qua các bước phân tích định tính và định lượng, nghiên cứu cũng đã làm rõ
những mặt tích cực và hạn chế của phương pháp dé xuất, từ đó làm cơ sở để đưa racác hướng phát triển tiếp theo Khóa luận cũng đã triển khai một chương trình minhhọa dựa trên phương pháp đề xuất cho tác vụ Hỏi đáp trực quan đa ngôn ngữ
Trang 10một câu hỏi bất kỳ được diễn đạt tự nhiên liên quan đến một hình ảnh cụ thể Ứng
dụng này của trí tuệ nhân tạo đòi hỏi sự kết hợp những kỹ thuật, công nghệ từ hai lĩnh
vực nghiên cứu quan trọng trong Học máy là Thị giác máy tính (CV) và Xử lý ngôn
ngữ tự nhiên (NLP) để đưa ra câu trả lời chính xác và phù hợp với ngữ cảnh được đề
cập.
Các hệ thống hỏi đáp trực quan đã và đang cho thấy nhiều ứng dụng quan trọng
để hỗ trợ con người trong đa lĩnh vực về y tế, giáo dục, giao thông vận tải và các vấn
đề xã hội Một số ví dụ về ứng dụng thực tế của hỏi đáp trực quan được thể hiện ởHình 1.1 Hệ thống hỏi đáp trực quan trên ảnh y tế cho phép các bác sĩ có thể nắmbắt tốt hơn thông tin các tác nhân, dấu hiệu bat thường trên ảnh từ đó đưa ra nhữngchẩn đoán chính xác mà không mất quá nhiều thời gian Ví dụ, nhận vào một hìnhảnh nội soi đại trang cùng câu truy vấn "Có bat thường nào trong ảnh không", một
hệ thống VQA y khoa điển hình sẽ xác định và đưa ra tình trạng bệnh lý phù hợp dựa
trên nội dung ảnh, như "bình thường”, "polyp" hoặc "viêm loét đại tràng" Trong giáo
dục, hỏi đáp trực quan hỗ trợ cá nhân hóa việc học ở trẻ nhỏ để nhận biết tốt hơn về
Trang 11thế giới xung quanh mình, cũng như đánh giá khả năng nhận thức của trẻ thông qua
hỏi đáp Trong giao thông vận tải, hệ thống VQA có thể định vi và trích xuất thông
tin từ camera hành trình theo yêu cầu của tài xế, như "Phía trước có đang tắc đường
hay không?" hay "Rẽ sang trái ở ngã tư phía trước sẽ dẫn đến đâu?", và là nhân tố cầnthiết để phát triển các hệ thống xe tự hành Do mang tính phổ quát của quá trình hiểungôn ngữ và hình ảnh, nhiều vấn đề khoa học-xã hội khác cho thấy tiềm năng đa dạngcủa VQA như truy vết tội phạm, thuyết minh du lịch hay phát triển robot
Q: Có bat thường nào trong ảnh không? Q: Các phương tiện trên đường dang di chuyển về hướng nào 2
A: Polyp A: Hướng từ trai sang phải
| “te Sau 4
Me T6 la thé đấy!
Người dich: Nguyễn Toàn Thing
Q: Cô bé này đang vẽ gì thé? Q: Những người này đang trộm thứ gi?
A: Cô bé đang vẽ hình trái tim A: Tivi va xe máy
Hình 1.1: Một số ví du về ứng dụng của hỏi đáp trực quan trong thực tiễn
Bên cạnh vấn đề kết hợp đa thể thức (multimodal) về thị giác và ngôn ngữ, các khíacạnh về mặt đa ngữ của dữ liệu cũng là một van dé nghiên cứu đáng được quan tâm.Theo đó, hệ thống hỏi đáp cần đưa ra câu trả lời chính xác cả về nội dung lẫn ngônngữ trình bày tương ứng cho câu hỏi Việc áp dụng yếu tố đa ngữ trong hỏi đáp trực
quan là cần thiết nhằm đáp ứng với nhu cau truy van ngày càng da dạng và phù hợp
với xu hướng toàn cầu hóa hiện nay ở những môi trường đa ngôn ngữ như công ty,trường học hay du lịch lữ hành Đề tài nghiên cứu này đề xuất một hướng tiếp cận hiệu
3
Trang 12quả cho bài toán Hỏi đáp trực quan da ngôn ngữ, trong đó có tiếng Việt Đây là một
ngôn ngữ ít tài nguyên (low-resource) trong lĩnh vực trí tuệ nhân tạo và khoa học dữ
liệu, nên kết quả nghiên cứu của chúng tôi có những đóng góp giá trị cho cộng đồngnghiên cứu trong nước và quốc tế, làm cơ sở phát triển các thuật toán, phương pháp
mới trên ngôn ngữ này Khi những hệ thống hỏi đáp trực quan đạt hiệu suất tốt có thể
áp dụng rộng rãi nhằm phục vụ cộng đồng trong nhiều lĩnh vực khác nhau như y tế,
giáo dục, giao thông và ở những môi trường đa ngôn ngữ như doanh nghiệp, trường
học, bệnh viện tại Việt Nam và các cộng đồng sử dụng tiếng Việt trên thế giới
1.2 Mục tiêu và phạm vi nghiên cứu
Nghiên cứu đề xuất một hướng tiếp cận hiệu quả dựa trên những kỹ thuật học sâutiên tiến cho bài toán Hoi đáp trực quan đa ngôn ngữ Các van đề nghiên cứu chính
trong phạm vi dé tài này bao gồm:
* Nghiên cứu tổng quan về bài toán Hoi đáp trực quan đa ngôn ngữ, khảo sát
những bộ dữ liệu đã công bồ và các công trình nghiên cứu liên quan
* Nghiên cứu tổng quan về bộ dữ liệu hỏi đáp trực quan UTT-EVJVQA công bồ tai
cuộc thi VLSP2022-EVJVQA với ba ngôn ngữ Anh, Việt, Nhat.
» Nghiên cứu tổng quan các mô hình SOTA kết hợp đa thể thức (multimodal) về
thị giác — ngôn ngữ gồm Vision-and-Language Transformer (ViLT) và OFA, mô
hình thị giác Vision Transformer (ViT), kiến trúc và nguyên lý hoạt động của mô
hình mang Convolutional Sequence-to-Sequence (ConvS2S) và các độ đo đánh
giá hiệu suất hệ thống hỏi đáp gồm F1 và BLEU
* Xây dựng phương pháp đề xuất nhằm tích hợp đặc trưng hình anh từ các mô hìnhpre-trained SOTA gồm ViT, ViLT va OFA vào mô hình ConvS2S cho bài toán
đặt ra Hướng tiếp cận đề xuất cần mang tính hiệu quả trong việc tối ưu hóa tài
nguyên tính toán và giảm thời gian huấn luyện cho tác vụ VQA
* Thực nghiệm phương pháp dé xuất trên các điều kiện thực nghiệm khác nhautrên bộ dữ liệu UIT-EVJVQA Đánh giá kết quả thực nghiệm Phân tích lỗi Dua
ra kết luận và hướng phát triển.
Trang 131.3 Đối tượng nghiên cứu
Phương pháp tiếp cận của đề tài này được thực nghiệm, đánh giá trên các đối tượng
nghiên cứu chính sau đây:
¢ Bài toán Hỏi đáp trực quan da ngôn ngữ (mVQA) Dựa nội dung ảnh và câu hỏi,
các hệ thống hỏi đáp cần dự đoán câu trả lời một cách chính xác và phù hợp với
ngôn ngữ tương ứng Mặc dù tác vụ này có thể dễ dàng thực hiện bởi con người,
vẫn còn nhiều thách thức để máy tính đưa ra câu trả lời một cách tự động Cáccâu hỏi có thể tập trung vào những phần thông tin khác nhau của bức ảnh như
đối tượng, màu sắc hoặc hành động nên một hệ thống VQA tối ưu cần phải có
khả năng phát hiện, nhận biết được các đối tượng, chỉ tiết trong ảnh, sau đó tính
toán mối liên hệ với câu hỏi và suy luận ra câu trả lời
* Bộ dữ liệu UIT-EVJVQA [1] Đây là bộ dữ liệu hỏi đáp trực quan đầu tiên xây
dựng dựa trên ba ngôn ngữ: tiếng Anh, tiếng Việt và tiếng Nhật, được công bố
cho cuộc thi Hỏi đáp trực quan da ngôn ngữ tại hội thao VLSP 2022 Câu hỏi
đáp của bộ dữ liệu được tạo bởi con người trên các bức ảnh lấy bối cảnh tại ViệtNam Để đạt được hiệu suất tốt trên bộ dữ liệu, các mô hình VQA cần có khả
năng xác định và đưa ra câu trả lời với ngôn ngữ tương ứng cho câu hỏi đa ngữ
đầu vào Ngoài ra, UIT-EVJVQA còn chứa những câu trả lời được diễn đạt một
cách tự nhiên với độ dài không cô định Cau hình đặc trưng này tạo nên sự khác
biệt so với những bộ dif liệu lớn về VQA trước đây và đặt ra thách thức cho việc
xây dựng các hệ thống VQA phù hợp với đặc tính dữ liệu
1.4 Dong góp của khóa luận
Đề tài nghiên cứu của khóa luận có bốn đóng góp chính như sau:
1 Đề xuất một phương pháp tích hợp đặc trưng ảnh vào mô hình sinh ngôn ngữ để
tạo ra câu trả lời với cầu trúc mở và được diễn đạt tự nhiên cho ba ngôn ngữ Anh,
Việt, Nhật.
2 Nghiên cứu áp dụng các mô hình pre-trained thị giác và đa thể thức tiên tiến
hiện nay gồm Vision Transformer, Vision-and-Language Transformer và OFA
Trang 14để trích xuất đặc trưng thị giác và sự tương tác giữa hình ảnh-câu hỏi.
3 Phương pháp đề xuất được thực nghiệm và đánh giá tại cuộc thi
VLSP2022-EVJVQA ! ~ Hoi đáp trực quan da ngôn ngữ trên hình ảnh Việt Nam và đạt vịtrí thứ Ba về hiệu suất thực nghiệm trong các phương pháp SOTA được áp dụng
1.5 Cấu trúc khóa luận
Cấu trúc khóa luận gồm 6 chương với các nội dung chính được trình bày như sau:
¢ Chương 1: Mở đầu Trình bày lí do chọn dé tài, mục tiêu, đối tượng và phạm vi
nghiên cứu cùng những đóng góp chính của khóa luận.
* Chương 2: Tổng quan dé tài Tìm hiểu tổng quan về bài toán hỏi đáp dựa trên
nội dung hình ảnh (VQA) Phân tích và đánh giá các hướng nghiên cứu liên quan
trong nước và quốc tế, nêu những vấn đề còn tồn tại mà đề tài khóa luận tập trungnghiên cứu và giải quyết
« Chương 3: Quá trình thực nghiệm Định nghĩa bài toán, giới thiệu về bộ dữ
liệu thực nghiệm, trình bày cơ sở lý thuyết các mô hình học sâu cơ sở, và cuốicùng phát biểu và cài đặt phương pháp đề xuất cho tác vụ Hỏi đáp trực quan đa
ngôn ngữ.
* Chương 4: Kết quả thực nghiệm Trình bày kết quả đánh giá hiệu suất của các
phương pháp đề xuất trên bộ dữ liệu thực nghiệm Phân tích kết quả thực nghiệmnhằm chỉ ra những mặt tích cực và hạn chế của hướng tiếp cận
« Chương 5: Chương trình minh hoa Trình bày về việc triển khai chương trìnhminh họa cho hệ thống hỏi đáp trực quan đa ngữ
* Chương 6: Kết luận và hướng phát triển Trình bay các kết quả đạt được và
những đóng góp chính của khóa luận Bàn luận về kết quả của hướng tiếp cận và
đề xuất các hướng nghiên cứu tiếp theo
! Đã được báo cáo tại Hội thảo VLSP 2022 diễn ra tại Hà Nội.
6
Trang 15Chương 2
TỔNG QUAN ĐỀ TÀI
2.1 Bài toán Hoi đáp trực quan
Bài toán Hỏi đáp trực quan hay Hỏi đáp dựa trên nội dung ảnh (tiéng Anh: Visual
Question Answering - VQA) là một chủ đề nghiên cứu nhận được nhiều sự quan tâm
trong cộng đồng nghiên cứu trí tuệ nhân tạo (AI) trên thé giới và gần đây có một số
bước tiến nổi bật trong công đồng nghiên cứu AI và khoa hoc dif liệu tại Việt Nam
Tác vụ này của trí tuệ nhân tạo áp dụng các kỹ thuật tiêu biểu trong Thị giác máy
tính (CV) và Xử lý ngôn ngữ tự nhiên(NLP) nhằm cho phép những chiếc máy tính có
thể hiểu được được đặc trưng ngữ nghĩa từ hình ảnh và đưa ra câu trả lời cho câu hỏi
liên quan một cách tự động Hỏi đáp trực quan có những ứng dụng quan trọng vào
thực tiễn đời sống, như ứng dụng trong các hệ thống chatbot nơi công cộng, trong các
hệ thống hỗ trợ ra quyết định (DSS) giúp các chuyên gia y tế trong việc chuẩn đoánhình ảnh y khoa, hay hỗ trợ cho người mắc khiếm khuyết về thị giác nhận thức rõ hơn
về sự vật, hiện tượng đang xảy ra xung quanh họ
ee
2.2 Tình hình nghiên cứu trên thé giới
Trong lĩnh vực thị giác máy tính, mục tiêu của các nghiên cứu trên tác vụ VỌA tập
trung vào phát triển các bộ dữ liệu và các phương pháp đề xuất nhằm giúp cho máy
tính hiểu được nội dung và ngữ cảnh của hình ảnh Sự ra đời của bộ dữ liệu Microsoft
Trang 16COCO [6], một cơ sở dữ liệu khổng lồ với hơn 1,5 triệu ảnh, đã tạo nên sức ảnh hưởnglớn trong cộng đồng nghiên cứu về AI va đẩy mạnh công tác nghiên cứu ở phạm vitoàn cầu trên các tác vụ thị giác máy tính như Phát hiện đối tượng, Phân loại ảnh, Phânđoạn ảnh, Mô tả ảnh và Hỏi đáp trực quan Đã có nhiều công trình nghiên cứu trênthế giới công bố các bộ dữ liệu phục vụ cho tác vụ VQA được xây dựng trên hình ảnhlấy từ bộ dữ liệu COCO với các câu hỏi đáp được biên soạn ở các thứ tiếng khác nhau.Như bộ dữ liệu VQA [7], VQAv2 [§] cho tiếng Anh, EM-IQA [9] cho tiếng Trung hayJapanese VQA [10] cho tiếng Nhật Ngoài ra còn có hai bộ dữ liệu benchmark choviệc phát triển các phương pháp VQA gồm Visual Genome (VG-QA) [11] và GQA
[12] VG-QA là một bộ dữ liệu VQA gồm các bức ảnh được chụp trong thế giới thực,
và được thiết kế để nhấn mạnh sự tương tác giữa các câu hỏi tự nhiên và những vùngnhất định trên ảnh Sự ra đời của VG-QA làm nền tảng xây dựng nên GQA, một bộ
dữ liệu đề xuất cho bài toán hỏi đáp thành phần và luận giải thế giới thực
Bên cạnh những công trình liên quan về thị giác máy tính, trong lĩnh vực xử lý ngônngữ tự nhiên (NLP) không thể không nhắc đến bộ dữ liệu SQuAD [13] đã đẩy mạnhquá trình nghiên cứu về các hệ thống hỏi đáp và giúp máy tính hiểu được ngôn ngữ tự
nhiên Dựa trên SQuAD, nhiều bộ dữ liệu tương tự đã được xây dựng với nhiều ngôn
ngữ khác nhau như DuReader [14] cho tiếng Trung, JaQuAD [15] cho tiếng Nhật hay
KorQuAD [16] cho tiếng Hàn.
Bên cạnh các bộ dữ liệu chất lượng về thị giác và ngôn ngữ, các kiến trúc cũng
đóng vai trò quan trọng việc xây dựng các hệ thống thông minh Tận dụng các thành
tựu của NLP, trên thế giới đã có nhiều mô hình mạnh mẽ cho tác vụ học tập
Sequence-to-Sequence (Seq2Seq) như mạng Long-short Term Memory (LSTM) [17],
Convo-lutional Neural Networks dạng Sequence-to-sequence (ConvS2S) [18], Transformer
[19] va mT5 [20] Trong thi giác máy tính, đã có nhiều mô hình State-of-the-art được
dé xuất cho việc rút trích thông tin từ hình ảnh như YOLO [21], VGG [22] và Vision
Transformer (ViT) [3] Su đa dạng và không ngừng tăng lên của dữ liệu đi kèm với
nhu cầu giải quyết các tác vụ đa thể thức ngoài thực tế dựa trên đặc trưng thị giác vàngôn ngữ Những hướng tiếp cận gần đây tập trung vào việc phát triển các phươngpháp mô hình hóa sự tương tác đa thể thức này như kiến trúc Vision-and-Language
Transformer (ViLT) [4] va OFA [5].
Trang 172.3 Tình hình nghiên cứu tại Việt Nam
Hiện nay, các nghiên cứu về bài toán Hởi đáp (QA) nói chung, Hỏi đáp trực quan
(VOA) nói riêng nhận được sự quan tâm lớn trong cộng đồng NLP tại Việt Nam Đối
với một ngôn ngữ ít tài nguyên (low-resource) như tiếng Việt, các nghiên cứu trên
ngôn ngữ này mang ý nghĩa lớn và có những đóng góp quan trong, làm nên tang cho
sự phát triển những hệ thống thông minh hỗ trợ giải quyết các van dé thực tế mang
tính đặc thù về mặt ngôn ngữ tại các địa phương ở Việt Nam và các khu vực sử dụng
ngôn ngữ Việt trên thế giới.
Các nghiên cứu về QA trên tiếng Việt đã đạt được một số thành tựu nổi bật trong
những năm gần đây, với nhiều bộ dữ liệu phục vụ cho các tác vụ QA đặc thù được
công bó, như các bộ dữ liệu ViQuAD [23, 24], UIT-ViQuAD [25], UIT-ViNewsQA
[26], ViMMRC [27] cho hỏi đáp dựa trên văn bản ngữ cảnh, ViCoQA [28] cho hỏi
đáp đàm thoại, hay UIT-ViCoV19QA [29] cho hỏi đáp dựa trên cộng đồng về chủ đề
COVID-19.
Tuy thé giới dang bước vào ky nguyên mới của chuyển đổi số với những thành
tựu của trí tuệ nhân tạo (AI) được ứng dụng vào cuộc sống, việc phát triển các hệ
thống hỏi đáp tự động dựa trên nội dung ảnh vẫn còn là một chủ dé nghiên cứu mới
mẻ tại Việt Nam Trên tác vụ VQA ở nước ta hiện nay đã có nghiên cứu xây dựng
bộ dữ liệu ViVQA [30] được xem là bộ dữ liệu VQA đầu tiên cho tiếng Việt Bộ dữ
liệu được xây dựng với 10,328 hình ảnh từ cơ sở dữ liệu ảnh MS COCO và 15,000
cặp câu hỏi đáp về nội dung hình ảnh Nghiên cứu cũng đã thử nghiệm nhiều phương
pháp học sâu khác nhau trên bộ dữ liệu như LSTM, Bi-LSTM kết hợp với pre-trained
word embedding như W2V, PhoW2Vec, Fasflext, ELMO, và kiến trúc Hierarchical
Co-Attention.
Bên cạnh xây dung bộ dif liệu, các nghiên cứu về QA nói chung cũng đã thiết lập
các phương pháp khác nhau để thẩm định chất lượng các bộ dữ liệu, như BERT [31],
PhoBERT [32] hay các biến thể mạng hồi quy (RNN) như LSTM, Bi-LSTM, và mở ra
những hướng phát triển mới cho các tác vụ hỏi đáp liên quan Tuy đã đạt được những
thành tựu nhất định, vẫn còn một số điểm hạn chế tổn tại trong nghiên cứu hỏi đáp
trực quan trên tiếng Việt hiện nay như:
Trang 18« Các phương pháp hỏi đáp trực quan trên tiếng Việt chưa thể tạo được câu trả lờidiễn đạt tự nhiên với cấu trúc mở do tiếp cận bài toán VQA dưới tác vụ phân lớp.
* Các phương pháp xây dựng dựa vào mạng RNN truyền thống chưa tối ưu chi phítính toán cho tác vụ hỏi đáp trực quan trên tiếng Việt
¢ Nghiên cứu chưa áp dụng các mô hình pre-trained thị giác tiên tiến như Vision
Transformer - ViT để trích xuất đặc trưng từ ảnh.
* Do được huấn luyện trên bộ dữ liệu ViVQA chỉ mang tinh đơn ngữ và hình ảnhtrích xuất từ MS COCO nên các hệ thống VQA đề xuất chưa thể áp dụng tại môitrường đa ngôn ngữ và chưa thể đưa ra câu trả lời phù hợp cho hình ảnh có bối
cảnh đặc thù tại Việt Nam.
Trước những khó khăn và thách thức đó, cuộc thi VLSP2022-EVJVQA [1] đã được
tổ chức với chủ đề Hỏi đáp trực quan đa ngôn ngữ nhằm tạo một không gian cho các
cá nhân, tổ chức trong cộng đồng NLP Việt Nam nghiên cứu và trình bày giải pháp
của mình cho bài toán còn nhiều mới mẻ này Bộ dữ liệu công bố cho cuộc thi được
xây dựng dựa trên hình ảnh lấy bối cảnh tại Việt Nam với câu trả lời theo cấu trúc mở,
cho thấy cuộc thi mang ý nghĩa lớn trong việc phát triển các hệ thống VQA phù hợp
nhằm phục vụ cộng đồng trong nước Trong nghiên cứu này chúng tôi đề xuất một
phương pháp hiệu quả cho bài toán dat ra và dat vị trí thứ Ba tai VLSP2022-EVJVQA,
qua đó có những đóng góp tích cực cho cộng đồng nghiên cứu trong nước về bài toán
Hỏi đáp, Hỏi đáp trực quan nói chung, và Hỏi đáp trực quan đa ngôn ngữ nói riêng.
10
Trang 19Chương 3
QUÁ TRÌNH THỰC NGHIỆM
3.1 Phát biểu bài toán
Hỏi đáp trực quan da ngôn ngữ (mVQA) là dạng mỏ rộng của tác vụ Hỏi đáp trực
quan cho phép máy tính có thể hiểu được nội dung của hình ảnh và trả lời cho câu hỏi
liên quan ở nhiều ngôn ngữ khác nhau được nhập liệu từ người dùng Bài toán được
định nghĩa như sau:
« Đầu vào: Một bức ảnh cho trước và một câu hỏi có thể trả lời được liên quan đến
nội dung bức ảnh.
* Đầu ra: Một câu trả lời chứa phần thông tin liên quan đến nội dung hình ảnh.
Trong đó, ba ngôn ngữ chính dự kiến áp dụng cho nghiên cứu này gồm tiếng Anh,
tiếng Việt và tiếng Nhật, cùng hình ảnh lấy bối cảnh tại Việt Nam.
3.2 Giới thiệu bộ dư liệu UIT-EVJVQA
Để hoàn thành những mục tiêu đã dé cập, chúng tôi tham gia, thực nghiệm va đưa
ra giải pháp tối ưu cho việc đánh giá kết quả tại cuộc thi Hỏi đáp trực quan da ngôn
ngữ VLSP2022-EVJVQA Bộ dữ liệu chính phục vụ quá trình thực nghiệm trong
nghiên cứu này, UIT-EVJVQA [1], được công bố lần đầu tại cuộc thi và là bộ dữ liệuhỏi đáp trực quan đầu tiên mang yếu tố đa ngữ với tiếng Anh (en), tiếng Việt (vi) và
II
Trang 20tiếng Nhật (ja) Bộ dữ liệu gồm 33,790 cặp câu hỏi đáp đa ngữ trên 4,909 hình ảnh lay
bối cảnh tại Việt Nam, mang nét đặc trưng gắn liền với nếp sống thường ngày, cảnh
vật và con người nơi đây Trong đó, các câu trả lời được soạn thảo dựa trên nội dung
của hình ảnh được câu hỏi dé cập đến Bên cạnh yếu tố đa ngữ và bối cảnh hình ảnh,
một điểm khác biệt nữa của bộ dữ liệu so với bộ ViVQA đã có nằm ở cấu trúc mở
(free-form) của văn bản, với câu trả lời được diễn đạt đa dạng và tự nhiên, khiến cho
việc phát triển hệ thống hỏi đáp trực quan phù hợp gặp rất nhiều thách thức Để đạt
được hiệu suất tốt trên bộ dữ liệu UIT-EVJVQA, một hệ thống VQA điển hình cần có
khả năng xác định và dự đoán chính xác câu trả lời với lỗi diễn đạt một cách tự nhiên
tương ứng cho câu hỏi đa ngữ đầu vào Một số mẫu hỏi đáp trực quan đa ngữ từ bộ dữ
liệu UTT-EVJVQA được thể hiện ở Hình 3.1.
Q: how many people are using their phones to
take pictures on the boat?
A: just one
Q: người dan ông mặc áo xanh lá đang lam gi? = QQ: ROFISAKICOFEANTIETD?
A: dang quét don A: DENEFEKOPICANET
Hình 3.1: Một số mẫu câu hỏi đáp trực quan da ngữ từ bộ dữ liệu UIT-EVJVQA
Có thể nhận thấy sự đa dạng về chủ đề của câu hỏi, như hỏi về số lượng ở mẫu ví
dụ tiếng Anh hay hỏi về hành động ở mẫu ví dụ tiếng Việt Ngoài ra còn có các chủ
đề khác về màu sắc, vị trí, vật thể hay trang phục, cho thấy sự bao quát và phong phú
của nguồn dữ liệu thực nghiệm Trong nhiều trường hợp, câu hỏi đề cập đến những
12
Trang 21chi tiết rất nhỏ trong ảnh, như chiếc điện thoại ("phones") ở ví dụ tiếng Anh, hoặchướng đến các đối tượng bị che khuất hoặc dễ nhầm lẫn với các chủ thể khác, như ở ví
dụ tiếng Việt, người đàn ông mặc áo xanh lá bị che bởi sạp hàng nên máy tính có thể
gặp trở ngại trong việc định vi và nhận diện hành động cụ thể của người đàn ông này.
Điều này tạo nên thách thức rất lớn cho các hệ thống hỏi đáp trực quan để xác định vàđưa ra câu trả lời tương ứng cho hình ảnh và câu hỏi đầu vào trong thực tế Bên cạnh
đó, mẫu ví dụ tiếng Nhật còn thể hiện một bối cảnh độc đáo khi đưa ra truy vấn cónội dung "Cô gái đang đưa tay nào xuống nước?" khiến cho không chỉ máy tính màngay cả con người cũng gặp thách thức lớn để đưa ra câu trả lời phù hợp với bối cảnh
hình ảnh.
3.3 Tổ chức và tiền xử lý dữ liệu
Bộ dữ liệu UIT-EVJVQA công bồ tại VLSP2022-EVJVQA gồm ba tập dữ liệu
chính: Tập Training cho việc huấn luyện và phát triển phương pháp đề xuất, tập Public
Test dùng để thẩm định sơ bộ hiệu suất phương pháp và tập Private Test dùng để kiểmtra hiệu suất phương pháp trên dữ liệu ngoài thực tế Trong ba tập dữ liệu được cungcấp, tap Training và tap Public Test có sẵn câu trả lời mẫu để các đội thi có thể pháttriển các phương pháp, kỹ thuật VQA đề xuất, từ đó chọn ra những hướng tiếp cận tối
ưu nhất để đưa ra dự đoán trên tập Private Test của cuộc thi Mỗi tập dữ liệu bao gồmmột tập hình ảnh và một file json chứa thông tin về câu hỏi đáp dựa trên nội dung ảnhvới mỗi điểm dữ liệu bao gồm: mã định danh hình ảnh, câu hỏi và câu trả lời tương
4,
ung.
Do bộ dif liệu không có sẵn thông tin về ngôn ngữ của các cặp câu hỏi đáp, để cóthể phát triển hệ thống hỏi đáp trực quan đa ngữ, chúng tôi cần xác định ngôn ngữthể hiện cho từng mẫu dữ liệu Ngoài ra, hướng tiếp cận VQA dé xuất dựa trên việctạo sinh câu trả lời, do đó chất lượng của từ vựng trong tập huấn luyện cần được đảm
bảo nhằm những tránh ảnh hưởng của các yếu tô ngoại lai đến việc dự đoán câu trả
lời đầu ra Để đạt được kết quả mong muốn trên bộ dữ liệu UIT-EVJVQA, trước tiênchúng tôi tiến hành bước tiền xử lý và làm sạch các câu hỏi đáp để chuẩn bị cho quá
trình thực nghiệm Các bước xử lý dữ liệu văn bản được thực hiện như sau:
* Lọc bỏ dấu câu và các ký tự đặc biệt Đặc tính của dữ liệu gồm các câu hỏi đáp
13
Trang 22dưới dạng câu đơn và không chứa đựng yếu tố cảm xúc nên dấu câu không mangnhiều ý nghĩa Do đó, chúng tôi xử lý loại bỏ chúng ra khỏi câu hỏi và câu trảlời Sau khi xử lý, tất cả từ trong câu được chuyển đổi về chữ thường.
» Nhận diện ngôn ngữ của cặp câu hỏi đáp Có sự khác nhau cơ bản về bang chữcái ở ba ngôn ngữ Tiếng Anh có 26 chữ cái theo mẫu tự Latin, tiếng Việt gồm
29 chữ cái Latin có thêm dấu âm tiết, trong khi hệ thống chữ viết tiếng Nhật gồm
ba loại chữ là Hiragana, Katakana và Kanji Chúng tôi dựa vào đặc điểm này để
phân các điểm dữ liệu về ngôn ngữ tương ứng
° Kiểm tra và sửa lỗi từ vựng Sau khi thu được câu hỏi đáp với ngôn ngữ tương
ứng, chúng tôi thực hiện các bước kiểm tra để xác định và xử lý các mẫu có ngôn
ngữ sai khác Một số lỗi mang tính hệ thống dẫn đến sai khác gồm lỗi gõ Unicodenhư "ưhat", "thê man" hay lỗi sai dấu câu tiếng Việt như "làm gi", "mau gi" Day
là bước xử lý quan trọng nhằm giải quyết các nhập nhằng trong việc xác địnhngôn ngữ và đảm bảo chất lượng của nguồn từ vựng
Sau khi thực hiện bước làm sạch và xác định ngôn ngữ trên các tập dữ liệu, chúng
tôi thực hiện một vài thông kê sơ bộ nhằm hiểu hơn về đặc tính của câu hỏi đáp ở mỗingôn ngữ Các thống kê về số mẫu, độ dài và kích thước tập từ vựng trên tập Training
và tập Public Test sau khi tiền xử lý được thể hiện ở Bảng 3.1 Độ dài của câu hỏi đápđược tính toán trên cấp độ từ, với thư viện Underthesea’ và Trankit [33] được áp dụngcho việc tách từ lần lượt ở tiếng Việt và tiếng Nhật
Tổng số mẫu sau khi xử lý ở tập huấn luyện là 23,774 và ở tập kiểm thử là 5,015.Một cách tổng quát, phân bố dữ liệu ở ba ngôn ngữ có sự đồng đều trên cả hai tập Tuynhiên, tiếng Anh có ít mẫu dữ liệu hơn hai tiếng còn lại và điều này có thể làm giảmhiệu suất hỏi đáp trực quan trên ngôn ngữ này Độ dài của câu hỏi thường lớn hơn độdài câu trả lời ở cả ba ngôn ngữ Với hệ thống chữ viết đa dạng, tiếng Nhật cho thấy
độ dài câu hỏi đáp và kích thước tập từ vựng lớn hơn đáng kể so với hai ngôn ngữ còn
lại Các câu trả lời có độ dài tối thiểu là một từ nhưng độ dài trung bình lại gồm từ bađến bốn từ trở lên thể hiện cho cấu trúc mở và đa dạng của bộ dữ liệu Như vậy, mỗingôn ngữ đều có những đặc điểm, đặc trưng khác nhau về cấu trúc và từ vựng, do đótạo nên những thách thức đáng kể cho việc phát triển hệ thống hỏi đáp trực quan đa
?https : //github com/underthesean1p/underthesea
14
Trang 23Tập Training Tập Public Test
Anh Việt Nhật Anh Việt Nhật
học tập Seq2Seq, tức tạo sinh văn ban, thay vì các phương pháp phân lớp trên tác vụ
VQA truyền thống Nghiên cứu này cũng giới thiệu và thực nghiệm một hướng tiếp
cận hiệu quả cho bài toán Hoi đáp trực quan da ngôn ngữ tại cuộc thi
VLSP2022-EVJVQA lay ý tưởng từ các câu dé thường ngày Bối cảnh đặt ra là khi gặp một câuhỏi khó, người được hỏi có thể yêu cầu người hỏi đưa ra thêm một vài thông tin liên
quan hay gợi ý nhằm giúp họ có thêm cơ sở để suy luận ra câu trả lời phù hợp Áp
dụng vào hỏi đáp trực quan đa ngôn ngữ, chúng tôi tìm cách tạo ra những gợi ý với
ngôn ngữ phù hợp cho câu hỏi và hình ảnh, sau đó tích hợp chúng cùng các đặc trưng
15
Trang 24thị giác vào một mô hình tạo sinh văn bản để đưa ra câu trả lời tự nhiên, qua đó cải
thiện hiệu suất hỏi đáp trực quan trên bộ dữ liệu Tổng quan phương pháp đề xuất củanghiên cứu này được mô tả ở Hình 3.2 bao gồm hai giai đoạn chính được thực hiện
Dataset [ TT TT mm mẽ TTS TT TT TT TT nh nan nan epee se se eee esse
| IPHASE2 ` {English =———— English
——— F—] G —=—+ Vietnamese : Concatenate Vietnamese
1
1 1
trích xuất ra câu trả lời ngắn gọn sơ khởi Sau đó các gợi ý này được kết hợp cùng đặc
trưng hình ảnh từ Vision Transformer (ViT) làm đầu vào cho quá trình thực nghiệm
mô hình chính Convolutional Sequence-to-Sequence (ConvS2S) nhằm sinh ra câu trảlời cuối cùng Các phần tiếp theo sẽ trình bày về các kiến trúc mô hình và các phương
pháp thực hiện ở hai giai đoạn này.
3.42 Kiến trúc mang Convolutional Sequence-to-Sequence
Mang Convolutional Sequence-to-Sequence (ConvS2S) [18] là một mô hình tạo
sinh van bản dựa trên kiến trúc mạng tích chập được dé xuất cho tác vu Dịch máy,
nhưng cũng có thể áp dụng trên các tác vụ đòi hỏi việc tạo sinh chuỗi đầu ra từ chuỗi
đầu vào, như Tóm tắt văn bản hay Hỏi đáp Là một mô hình dạng Seq2Seq, ConvS2S
16
Trang 25được cấu tạo bởi một bộ mã hóa (Encoder) và một bộ giải mã (Decoder) có cấu trúcchuyên biệt Bộ mã hóa xử lý chuỗi đầu vào biểu diễn dưới dạng X = (x1,x2, -,Xm)
và trả về vector ngữ cảnh biểu diễn bởi z = (z1,za, ,z„), sau đó bộ giải mã thực hiện
diễn giải vector ngữ cảnh z này và trả về chuỗi đầu ra y = (y4, y2, , Yn) bằng cách tao
sinh các từ lần lượt lần lượt theo chiéu từ trái sang phải cho đến khi gặp token kết thúc(<eos>) Khác với kiến trúc Seq2Seq dựa trên mạng RNN truyền thống, ConvS2S áp
dụng các lớp tích chập thường dùng trong tác vụ xử lý ảnh để tính toán các trạng thái
ẩn một cách song song mà không cần sử dụng thành phần hồi quy nào, từ đó giúp tối
ưu thời gian huấn luyện và tài nguyên tính toán Một cách tổng quát, các lớp tích chập
sẽ sử dụng vô số filter với kích thước cô định để trượt trên toàn bộ văn bản nhằm rút
trích đặc trưng từ dữ kiện đầu vào, sau đó tổng hợp và sử dụng chúng để dự đoán vănbản đầu ra Kiến trúc tổng quát dạng Encoder-Decoder của mô hình ConvS2S được
linear layer f fi i i linear layer
hid dim > emb dim 4 i _ 4 : hid dim > emb dim
Nx conv “blocks” ị M Nx conv “blocks”
encoder conve d
linear layer | | i ị linear layer
emb dim -> hid dim z a>) fs : ị : : emb dim -> hid dim
elementwise sum — | ~ wd ảm i Ì + + ~~ elementwise sum
3.4.2.1 Cấu hình bộ mã hóa ConvS2S
Bộ mã hóa của mô hình ConvS2S§ có sự khác biệt so với mô hình RNN khi đầu
ra gồm hai loại vector ngữ cảnh: vector tích chập và vector kết hợp Vector tích chập
là vector thu được sau khi truyền các trạng thái ẩn qua một khối gồm nhiều lớp tíchchập Vector kết hợp là tổng tuyến tính của các vector tích chập với vector embedding
của các token Cả hai vector ngữ cảnh này đều sẽ được truyền vào bộ giải mã nhằm
phục vụ cho việc dự đoán đầu ra Hình 3.4 mô tả tổng quan về kiến trúc bộ mã hóa
17
Trang 26<sos> 0 zwei 1 menschen2 fechten 3 4 <eos> 5
Hình 3.4: Tổng quan kiến trúc bộ mã hóa của mang ConvS2S [2].
Đầu tiên, chuỗi đầu vào được truyền vào các lớp Embeding để thu được các vector
embedding đại diện cho token và vị trí tương ứng Hai vector này được kết hợp bằng
cách cộng tuyến tính để thu được một vector embedding tổng hợp với mỗi phần tử
sẽ biểu diễn ngữ nghĩa và vị trí của từ tương ứng trong câu Vector này tiếp tục đượctruyền vào một lớp Linear để chuyển đổi thành một vector có số chiều phù hợp với
số chiều của trạng thái ẩn Sau đó, các vector ẩn trên được truyền vào nhiều khối tíchchập để tiến hành trích xuất đặc trưng
Khối kiến trúc tích chập là đặc trưng tiêu biểu nhất của mô hình Convs2S và được
mô tả ở Hình 3.5 Đầu tiên, vector đầu vào cần được áp dụng padding Do các lớp tích
chập sẽ cắt giảm độ dài của văn bản đầu vào và chúng tôi muốn độ dài văn bản trước
và sau khi đưa vào khối tích tích chập là không đổi Nếu không áp dụng padding, độ
dài của chuỗi sau khi đi qua mỗi lớp tích chập sẽ ngắn hơn một đoạn bằng kích thước
filter — 1 so với chuỗi ban đầu Trong nghiên cứu này, nếu kích thước filter được đặt là
3 thì sau mỗi lớp tích chập, chiều dài chuỗi sẽ bị cắt ngắn đi hai phần tử Những filterđược thiết kế để số chiều của lớp đầu ra luôn bằng gap đôi số chiều của lớp đầu vào
Bởi vì trong mô hình này sử dụng một hàm kích hoạt đặc biệt là Gated Linear Units
(GLU)[34] GLU có các cơ chế gating (tương tự với LSTM hay GRU) mang tinh phi
tuyến chứa bên trong hàm kích hoạt va có kích thước bằng nửa số chiều trang thái ẩn.Sau khi được truyền qua hàm GLU, số chiều trạng thái ẩn của mỗi token sẽ bằng kích
18
Trang 27Hình 3.5: Kiến trúc của khối tích chập trong bộ mã hóa mang ConvS2S [2].
thước của chúng trước khi đưa vào khối tích chập, và do đó chúng tôi có thể tính tổngtuyến tính giữa vector ẩn với vector embedding của chúng trước khi truyền vào lớptích chập tiếp theo Hình 3.5 cho thấy mô tả tổng quan của một khối tích chập đơn lẻ
và mô hình có thể có nhiều khối tích chập như vậy với tham số khác nhau Kết quảđầu ra của khối tích chập sau cùng sẽ đưa trở ra bộ mã hóa, truyền qua một lớp Linearkhác để chuyển đổi số chiều của trạng thái ẩn trở về số chiều của lớp Embedding banđầu Kết quả thu được chính là vector tích chập Tiến hành cộng tuyến tính vector tíchchập với vector embedding tổng hợp để thu được vector kết hợp cho mỗi token Haivector ngữ cảnh này làm đầu vào cho bộ giải mã để thực hiện việc tạo sinh văn bản
đầu ra.
3.4.2.2 Cấu hình bộ giải mã ConvS2S
Khác với mạng RNN, bộ giải mã của mô hình ConvS2S sẽ thực hiện dự đoán đồng
thời cho tất cả token truyền vào từ văn bản đầu ra Không có các xử lý tuần tự hay cácbước mã hóa lặp lại nào được sử dụng Hình 3.6 mô tả tổng quan kiến trúc của bộ giải
19
Trang 28mã của mạng ConvS2S.
linear layer emb dim -> out dim
<sos> 0 two 1 people 2 fencing 3
Hình 3.6: Tổng quan kiến trúc bộ giải mã của mang ConvS2S [2]
Tương tự như ở bộ mã hóa, các token và vị trí của văn bản đầu ra được truyền qua
các lớp Embedding, cộng tuyến tính để thu được vector embedding tổng hợp Bộ giải
mã sử dụng vector embedding tổng hợp truyền qua một lớp Linear và đưa kết quả vào
các khối tích chập Ngoài ra còn có hai vector ngữ cảnh từ bộ mã hóa cũng sẽ được
truyền vào khối tích chập để phục vụ cho việc tính toán Cuối cùng, đầu ra sẽ được
truyền qua các lớp Linear để chuyển đổi các các chiều về số chiều embedding banđầu, từ đó phục vụ cho việc thực hiện dự đoán từ tiếp theo Về tổng quát, kiến trúccủa khối tích chập trong bộ giải mã tương tự với bộ mã hóa nhưng có thực hiện một
số thay đổi nhỏ và được thể hiện ở Hình 3.7
Đầu tiên, thay vì thực hiện padding ở đầu và cuối câu như ở bộ mã hóa thì ở đâychỉ padding ở vị trí đầu câu Do các token đầu ra được xử lý đồng thời theo hướngsong song, không phải tuần tự, nên cần có một kỹ thuật padding cho phép các filterđang tạo một token thứ i chỉ được nhìn vào các token đứng trước token đó Nếu chúngđược cho phép nhìn thấy token thứ ¡ 1, mô hình chỉ đơn giản trả về từ tiếp theo trong
chuỗi bằng cách sao chép thay vì học để đưa ra dự đoán Sau khi truyền qua hàm
GLU, khối tích chập sẽ tính toán và áp dụng cơ chế Attention trước khi truyền vào lớpResidual Các thành phần để tính toán trọng số Attention hay sự chú ý cho mỗi token
20
Trang 29calculate and apply ' ' ' ' ig h encoder "combined”
attention =—— ¡: ELrT | Eˆ lites eel lie ent ¡ kèm]
<sos> two people fencing
Hình 3.7: Kiến trúc của khối tích chập trong bộ giải mã mang ConvS2S [2]
gồm các vector embedding tổng hợp từ văn bản dau ra cùng hai vector ngữ cảnh từ bộ
mã hóa Sau đó các vector Attention tính được sẽ được kết hợp với vector embeddingcủa tokens đầu ra ở lớp Residual và đưa ra khỏi khối tích chập để dự đoán token tiếp
theo.
3.4.2.3 Cơ chế Multi-step Attention
Mỗi lớp giải mã của mô hình ConvS2S được áp dụng một bước tinh toán Attention
riêng biệt Tổng hợp của các bước này được gọi là quá trình chú ý đa bước (Multi-step
Attention) trên chuỗi đầu vào, khác với các hướng tiếp cận đơn bước trước đó ở mạngRNN [35] [36] Một cách cụ thể, trọng số chú ý ở lớp giải mã đầu tiên tập trung vàocác thông tin quan trọng trong chuỗi đầu vào, và tiếp tục được sử dụng trong bướctính toán sự chú ý ở các lớp tiếp theo trong bộ giải mã Ngoài ra, bộ giải mã còn được
thiết lập để có thể truy xuất tới các trọng số chú ý trong lịch sử ở k— 1 time step trước
đó Điều này giúp cho mô hình dễ dàng xác định được các phần tử nào trong chuỗi đã
nhận được sự chú ý từ trước trong quá trình thực hiện tính toán chú ý đa bước cho mỗi
time step huấn luyện
21
Trang 303.4.3 Kiến trúc Vision Transformer
Vision Transformer (ViT) [3] là một mô hình thi giác tiên tiến được xây dung trên
nên tảng kiến trúc Transformer [19], và được đề xuất cho các tác vụ khác nhau trong
lĩnh vực CV và xử lý ảnh ViT mang đến hiệu suất cạnh tranh so với các mạng CNN
trước đây và hiện tại đã đạt được hiệu suất SOTA trên một số tác vụ trong Nhận dạnghình ảnh (Image recognition), với sự cải thiện cả về độ chính xác lẫn chi phí tính toán
so với kết quả tốt nhất trước đó từ các mô hình mạng CNN Kiến trúc của mô hình ViT được mô tả tổng quan ở Hình 3.8.
Vision Transformer (ViT)
Điểm đặc trưng của mô hình là áp dụng bộ mã hóa Transformer [19], vốn là kiến
trúc được dé xuất cho các tác vụ NLP, để thực hiện việc mã hóa và trích xuất đặctrưng hình ảnh Ý tưởng chính là mô hình xem hình ảnh như một văn bản có độ dài
16x16 từ, và áp dụng các bước trích xuất đặc trưng của mô hình ngôn ngữ trên dữliệu đại diện này Kiến trúc Transformer truyền thống nhận đầu vào là một chuỗi tokenembedding có số chiều là 1 Do đó để thực hiện mã hóa trên dữ liệu hai chiều, môhình chia hình ảnh đầu vào thành các patch với kích thước cô định, sau đó các patchnày được trải ra và truyền vào một phép chiếu tuyến tính để thu được vector patchembedding Patch embedding sau đó được kết hợp với một vector embedding khác để
mã hóa vị trí của các patch trong ảnh làm đầu vào cho bộ giải mã điển hình của kiếntrúc Transformer Như vậy, ViT có thể tận dụng thế mạnh sẵn có của Transformer như
cơ chế Self-attention và giảm chi phí tính toán trên chính dữ liệu hình ảnh, va cho
22
Trang 31hiệu suất vượt trội trên các tác vụ xử lý ảnh tương đương với những ảnh hưởng của
Transformer trên tac vụ NLP.
3.4.4 Kiến trúc da thể thức kết hop thị giác và ngôn ngữ
3.4.4.1 Kiến trúc Vision-and-Language Transformer
Sự ra đời của mô hình ViT đã tạo nên bước tiến lớn trong lĩnh vực AI và khoahọc dữ liệu, khi không chỉ thay thế mạng CNN trên tác vụ xử lý ảnh mà còn giúpgiải quyết những nhập nhằng trong việc tích hợp đặc trưng ngôn ngữ và thị giác ở cácphương pháp mã hóa trước đây Cùng với khả năng tối ưu tài nguyên và chi phí tínhtoán, ViT đã đẩy mạnh các nghiên cứu về kỹ thuật Học tập đa thể thức (Mutimodallearning) để có những ứng dụng vào bài toán thực tiễn cần sự kết hợp yếu tố về thị
giác và ngôn ngữ, như tác vụ Hỏi đáp trực quan (VQA) hay Mô tả hình ảnh (Image
captioning), mà điển hình là kiến trúc Vision-and-Languge Transformer (ViLT) [4]
0 Patch position embedding
Linear a of Flattened Patches
Word Embedding
a stone statue near an [MASK] 7 a v tị aig
Hình 3.9: Tổng quan kiến trúc Vision-and-Language Transformer ViLT [4]
=
So với các kiến trúc da thể thức trước đây, mô hình ViLT được xem là mô hình đầutiên kết hợp dữ kiện thị giác và ngôn ngữ với lớp Embedding mã hóa pixel ảnh đượctỉnh giản và tối ưu hóa chỉ phí tính toán như ở dữ liệu văn bản Với đặc trưng kiến trúcnày, ViLT có thể tập trung phần lớn tài nguyên tính toán còn lại vào việc mô hình hóamối liên hệ và tương tác lẫn nhau giữa các thể thức trong quá trình huấn luyện
Để tiết kiệm tài nguyên tính toán, ViLT áp dụng hướng tiếp cận mã hóa hình ảnh
từ mô hình ViT, khi hình ảnh đầu vào được chia nhỏ và biểu diễn dưới dang patch
23
Trang 32embedding Đối với dữ kiện ngôn ngữ, mô hình thực hiện bước mã hóa tương tự
BERT [31] để thu được vector word embedding cho văn bản đầu vào Các vectorword embedding và patch embedding được kết hợp cùng các vector mã hóa vị trí
và loại thể thức, và được kết nối với nhau để tạo thành một chuỗi tổng hợp đa thểthức đại diện Sau đó, vector ngữ cảnh này được truyền qua các lớp của bộ mã hóa
Transformer nhằm học được sự tương tác qua lại giữa các thành phần thuộc hai thể
thức và thực hiện các tác vụ tương ứng đầu ra, như Image Text Maching, Masked
Language Modeling và Word Patch Alighment.
3.4.4.2 Mô hình OFA
Mô hình OFA [5] là một mô hình thống nhất đa thể thức dựa trên hướng tiếp cận
Seq2Seq, với tên gọi được viết tat từ cum từ "One For All" mang ý nghĩa là một kiếntrúc thống nhất cho tất cả tác vụ mang yếu tố ngôn ngữ và thị giác Tổng quan về các
tác vụ đa thể thức được thực hiện bởi mô hình OFA được thể hiện ở hình 3.10
‘VG: Which region does the text “Man in) white shirt” describe?
|<amgB192>
Text vocab Image vocab Location vocab.
‘GC: What does the region describe? region
<loc299> <loc {26> <loc2ö2> <loc159>
TTM: Does the image describe “Two boys
playing frisbee on the grass” 2
'VOA: How many people are there in the
“A <mask> woman” ? H Text Infiling
Vision & Language Tasks Vision Tasks Language Tasks
Hình 3.10: Tổng quan về các tác vu đa thé thức được hỗ trợ bởi mô hình OFA [5]
Mô hình được dé xuất cho việc học tập Seq2Seq thống nhất trong huấn luyện, tinh
chỉnh và suy luận trên đa tác vụ va da thể thức Khác với ViLT, OFA tận dụng sự
đơn giản nhưng hiệu quả của kiến trúc ResNet [37] để trích xuất đặc trưng từ hình
ảnh và áp dụng kỹ thuật mã hóa BPE (Byte-Pair Encoding) [38] để hiện thực các
mô hình GPT [39] và BART [40] cho việc tiền xử lý và mã hóa văn bản đầu vào.Với hướng tiếp cận theo dạng Encoder-Decoder đặc trưng, OFA sử dung Transformerlàm backbone và là nền tảng cho sự thống nhất kiến trúc cho quá trình huấn luyện,
24
Trang 33tinh chỉnh va dự đoán zero-shot trên các tác vụ đa thể thức Các lớp trong bộ mã hóa
Transformer sử dụng cơ chế Self-attention và các mạng nơ ron truyền thắng để trích
xuất đặc trưng từ chuỗi đầu vào, trong khi bộ giải mã có thêm cơ chế Cross-attention
để kết nối bộ giải mã với vector đầu ra từ bộ mã hóa Dé học tập tương tác đa thể thức,OFA được huấn luyện sẵn trên một số tác vụ chính như: Nhận diện đối tượng theotruy van (Visual Grounding - VG), Mô tả đối tượng trong ảnh (Grounded Captioning
- GC), Kết nối hình ảnh-văn bản (Image-text Machine - ITM), Mô tả anh, và Hỏi đáp
trực quan (VQA) Vốn tận dụng kiến trúc Transformer mạnh mẽ cùng các mô hình
thị giác và ngôn ngữ pre-trained trên những dữ liệu lớn đa thể thức, OFA đã đạt được
hiệu suất SOTA trên một số tác vụ kết hợp thị giác và ngôn ngữ như VQA, Visual
Entailment hay Mô tả ảnh.
3.4.5 Trích xuất gợi ý từ hình ảnh và câu hỏi
Ở giai đoạn một của hướng tiếp cận đề xuất, chúng tôi tập trung vào quá trình trích
xuất các câu trả lời gợi ý cho câu hỏi dựa trên nội dung hình ảnh Cụ thể hơn, các mô
hình pre-trained SOTA đa thể thức gồm Vision-and-Language Transformer (ViLT) và OFA được chúng tôi lựa chọn va áp dụng trên bộ dữ liệu để đưa ra các dự đoán ban đầu Do các mô hình này được huấn luyện và tinh chỉnh trước trên các bộ dữ liệu đặc
thù cho tác vụ VQA, chúng cho thấy tiềm năng quan trọng trong việc đưa ra câu trả
lời phù hợp và hỗ trợ làm giàu thông tin về mối liên hệ giữa câu hỏi và hình ảnh.
Được thực nghiệm trước trên các bộ dif liệu sẵn có như VQAv2, VG-QA và GQA với ngôn ngữ chính là tiếng Anh nên ViLT va OFA chỉ hỗ trợ đưa ra các dự đoán trên
ngôn ngữ này mà không hỗ trợ cho tiếng Việt và tiếng Nhật Để thu được gợi ý cho
hai ngôn ngữ còn lại, một quá trình phiên dịch được đề xuất để chuyển đổi các câu
hỏi sang tiếng Anh và dịch ngược về ngôn ngữ ban đầu cho câu trả lời gợi ý đượctrích xuất Chúng tôi tiến hành bằng cách xây dựng một module dịch máy sử dụng
API từ Google Translate*, một dịch vụ dịch thuật phát triển bởi Google, để chuyển
đổi câu hỏi tiếng Việt và tiếng Nhật sang tiếng Anh trước khi truyền chúng vào mô
hình pre-trained đa thể thức để dự đoán câu trả lời Việc sử dụng API dịch máy có
sẵn là một hướng tiếp cận tương đối hiệu quả với văn bản có độ dài vừa phải từ bộ dữliệu, tuy nhiên vẫn tiềm ẩn nguy cơ về sai lệch ngữ nghĩa và mat đi thông tin trong quá
3https ://cloud google com/translate
25
Trang 34trình phiên dịch Sau khi trích xuất được các câu trả lời gợi ý, chúng tôi thực hiện bướctương tự để chuyển đổi gợi ý về ngôn ngữ ban đầu phục vụ quá trình thực nghiệm ởgiai đoạn sau của phương pháp đề xuất.
Sau khi được trích xuất, đầu ra của ViLT gồm nhiều câu trả lời với xác suất tươngứng, khác với câu trả lời có độ dài liên tục tạo bởi mô hình OFA Sự khác biệt nằm ởkiến trúc hai mô hình dé xuất, với hướng tiếp cận phân lớp ở ViLT và giải pháp tao
sinh câu trả lời ở OFA Đối với các dự đoán từ mô hình ViLT, chúng tôi chọn ra tối đa
năm gợi ý có xác suất cao nhất để thực hiện các thử nghiệm ở giai đoạn sau Việc sử
dụng nhiều hơn năm gợi ý là khả thi, tuy nhiên sẽ gây áp lực lên tài nguyên tính toán
ở giai đoạn sau do chúng tôi tiến hành tạo một chuỗi đại diện dựa trên xác suất của
các câu trả lời ngắn này Các gợi ý thu được từ ViLT và OFA về bản chất là một dạng
thể hiện của đặc trưng hình ảnh khi các yếu tố thị giác ban đầu được ánh xạ và biểu
diễn dưới hình thức của ngôn ngữ tự nhiên Do đó, chúng không chỉ mang ý nghĩa
đơn thuần là trả lời câu hỏi mà còn giúp các mô hình ngôn ngữ nắm được bối cảnh
của hình ảnh tốt hơn thông qua các đặc trưng từ vựng Mặt khác, nếu gợi ý bị sai lệch
ý nghĩa sẽ gây ảnh hưởng đến quá trình thực nghiệm phương pháp và làm giảm hiệusuất trên tác vụ hỏi đáp trực quan Nhận thấy được những tác động đa dạng này, một
bước đánh giá sơ bộ được thực hiện để khảo sát độ tin cậy của các đặc trưng gợi ý tạo
bởi ViLT và OFA Kết quả của quá trình đánh giá hai mô hình được trình bày ở Phần
4.2.1.
3.4.6 Tích hợp đặc trưng da thể thức và tao sinh câu trả lời
Giai đoạn hai của phương pháp để xuất tập trung vào quá trình kết hợp đặc trưng
hình ảnh và gợi ý, sau đó tích hợp chúng vào quá trình thực nghiệm của mô hình
Seq2Seq cơ sở là mạng Convolutional Sequence-to-Sequence (ConvS2S) nhằm tao
sinh câu trả lời chính xác và đây đủ cho câu hỏi đầu vào.
So với các mô hình Seq2Seq đã có dựa trên mạng RNN truyền thống hay kiến trúcTransformers với cơ chế self-attention, mạng ConvS2S có những ưu điểm nổi bat ma
theo chúng tôi đánh gia là phù hợp với đặc trưng của bộ dữ liệu UIT-EVJVQA và giúp
chúng tôi tối ưu tài nguyên tính toán vốn còn nhiều hạn chế Tổng quan về kiến trúc
mô hình, ConvS2S được thiết kế dựa trên mạng tích chập (CNN) thường dùng trong
26