Khóa luận tốt nghiệp Khoa học dữ liệu: Tích hợp đặc trưng ảnh vào mô hình mạng Convolutional Sequence-to-Sequence cho bài toán hỏi đáp trực quan đa ngôn ngữ

Trong đề tài này, chúng tôi nghiên cứu tổng quan các phương pháp State-of-the-art SOTA để rút trích đặc trưng thị giác cho tác vụ Hỏi đáp trực quan như Vision Trans-former ViT, Vision-a

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHO HO CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC & KY THUẬT THONG TIN

o0o

THAI MINH TRIẾT ~ 19522397

KHOA LUAN TOT NGHIEP

TICH HGP DAC TRUNG ANH VAO MO HINH

MANG CONVOLUTIONAL SEQUENCE-TO-SEQUENCE

INTEGRATING IMAGE FEATURES WITH

CONVOLUTIONAL SEQUENCE-TO-SEQUENCE NETWORK

FOR MULTILINGUAL VISUAL QUESTION ANSWERING

CU NHAN NGANH KHOA HOC DU LIEU

GIANG VIEN HUGNG DAN

ThS LƯU THANH SƠN

ThS PHAM THE SƠN

TP HỒ CHÍ MINH, 07/2023

Trang 2

LỜI CẢM ƠN

Để có thể hoàn thành được khóa luận này, ngoài những nỗ lực và cố gắng không

ngừng nghỉ của tôi thì không thể không nhắc đến sự hỗ trợ và giúp đỡ tận tình củaQuý Thầy Cô Trường Đại học Công nghệ Thông tin - Đại học Quốc gia Thành phố

Hồ Chí Minh

Tôi xin gửi lời cảm ơn chân thành nhất đến ThS Lưu Thanh Sơn và Th§ Phạm

Thế Sơn, là hai giảng viên hướng dẫn của tôi Các Thầy đã hỗ trợ và giúp đỡ tôi rất

nhiều trong quá trình thực hiện đề tài nghiên cứu này, cũng như đưa ra những nhận

xét, góp ý nhiều giá trị để tôi chỉnh sửa báo cáo khóa luận một cách hoàn thiện hơn.Các Thầy cũng đã động viên tôi vào những thời điểm khó khăn nhất để tôi có thể hoànthành đề tài khóa luận tốt nghiệp này

Tôi cũng xin gửi lời cảm ơn chân thành đến các Quý Thầy Cô Trường Đại học

Công nghệ Thông tin - Dai học Quốc gia Thành phô Hồ Chi Minh nói chung và QuýThầy Cô Khoa Khoa học và Kỹ thuật Thông tin nói riêng đã tận tình giảng dạy, truyềnđạt những kiến thức và kinh nghiệm quý báu cho tôi trong những năm tháng học tập

tại trường, cũng như tạo ra một môi trường học tập, nghiên cứu giàu tính học thuật để

tôi có cơ hội tham gia, thực hiện và hoàn thành đề tài nghiên cứu của khóa luận này

Trong quá trình thực hiện đề tài, mặc dù đã nỗ lực tìm hiểu, nghiên cứu, thựcnghiệm và bước đầu đã đạt được một số kết quả khả quan, nhưng do kiến thức và kinh

nghiệm bản thân còn nhiều hạn chế nên không thể tránh khỏi những thiếu sót nhất

định Tôi rất mong nhận được sự góp ý từ Quý Thầy Cô để khóa luận được chỉnh sửa

và hoàn thiện một cách tốt hơn.

TP Hồ Chí Minh, tháng 07 năm 2023

Sinh viên thực hiện

Thái Minh Triết

Trang 3

MỤC LỤC

TÓM TẮT KHÓA LUẬN

1 MỞ ĐẦU

12 Mục tiêu và phạm vinghincứu

13 Đối tượng nghiêncứu

14 Dong góp của khóa luận

1.5 Cấutrúckhóaluận

TỔNG QUAN ĐỀ TÀI 2.1 Bài toán Hỏi đáp trực quan eee 2.2 Tinh hình nghiên cứu trén thé gidi

2.3 Tình hình nghiên cứu tại Việ Nam

QUÁ TRÌNH THỰC NGHIÊM 3.1 Phátbiểubàitoán ẶẶSQẶ ẶQẺ So 3.2 Giới thiệu bộ dữ liệu UIT-EVIVOA

3.3 Tổ chức và tiền xử lý dữliệu

-3.4 Phương pháp dé xuất cho tác vụ hỏi đáp trực quan đa ngôn ngữ

3.4.1 3.4.2 3.4.3 3.4.4 3.4.5 3.4.6 Tổng quan phương pháp

-Kiến trúc mang Convolutional Sequence-to-Sequence

Kiến trúc Vision Transformer

-Kiến trúc đa thể thức kết hợp thị giác và ngôn ngữ

Trích xuất gợi ý từ hình ảnh và câu hỏi

Tích hợp đặc trưng đa thể thức và tạo sinh câu trả lời

11

11 lãi 13

15

16

22 23 25

26

Trang 4

3.5 Thiết lập và cài đặt

3.5.1 Mô hình mang Convolutional Sequence-to-Sequence

3.5.2 Mô hình pre-trained đathểthức

3.53 Thiết lậpthựcnghệm

3.5.4 Công cụ sử dụng và cấu hình phần cứng

4.1 Độ do đánh gia KET QUA THỰC NGHIỆM 4.2 Đánh giá kết quả thựcnghệm

4.2.1 Kết quả đánh giá sơ bộ các gợi ý được trích xuất

4.2.2 Kết quả đánh giá trên tập Public Test

4.2.3 Kết quả đánh giá trên tập Private Test

4.3 Phân tích kết quảthựenghệm

43.1 Phântíchđịnhlượng

43.2 Phântchđimnhtnh

5 CHƯƠNG TRÌNH MINH HỌA 6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 61 Kétluan

6.2 Hướng phát triển

6.3 Công bố khoa học

TÀI LIỆU THAM KHẢO

29

30 31

32

34 34 35

36

37 37 40

46

51 51 52 53

54

Trang 5

Thống kê trên tập Training va Public Test từ bộ dữ liệu UIT-EVJVQA.

Kết quả đánh giá sơ bộ hiệu suất các mô hình pre-trained SOTA

kết hợp thị giác-ngôn ngữ trên tap Public Test

Kết quả đánh giá hiệu suất của mô hình ConvS2S tích hợp đặc

trưng thị giác và gợi ý trên tap Public Tlest

Kết quả đánh giá hiệu suất các phương pháp trên tập Private Test

So sánh hiệu suất với các đội thi khác tại cuộc thi

36

39

Trang 6

DANH MỤC HINH VE

1.1

3.1 3.2

3.3

3.4 3.5 3.6

Mot số ví dụ về ứng dụng của hỏi đáp trực quan trong thực tiễn

Một số mẫu câu hỏi đáp trực quan đa ngữ từ bộ dữ liệu UIT-EVIVQA

Mô tả tổng quan phương pháp dé xuất cho bài toán Hỏi đáp

trực quan trên bộ dữ liệu UIT-EVJVQA

Tổng quan kiến trúc mô hình Sequence-to-Sequence dựa trên

mạng tích chập -

ConvS2S[2] -Tổng quan kiến trúc bộ mã hóa của mạng ConvS2S [2]

Kiến trúc của khối tích chập trong bộ mã hóa mạng ConvS2S [2]

Tổng quan kiến trúc bộ giải mã của mạng ConvS2S [2]

Kiến trúc của khối tích chập trong bộ giải mã mang ConvS2S [2]

Tổng quan các thành phần trong kiến trúc Vision Transformer

-VIT[3] so

Tổng quan kiến trúc Vision-and-Language Transformer ViLT [4] .Tổng quan về các tác vụ đa thể thức được hỗ trợ bởi mô hình

OFA [5] Q2

Ví dụ minh họa về phương thức kết hợp câu hỏi và các gợi ý

ViLT va OFA để tạo ra chuỗi đại diện

So sánh đồ thị hàm mất mát trên tập Training và tap Public Testcủa mô hình ConvS2S khi được tích hợp các đặc trưng kết hợp

19

20 21

22 23

24

28

38

40

Trang 7

Một số mẫu đối chiếu về sự thay đổi trọng số Attention trên mô

hình ConvS2S khi sử dụng đặc trưng từ OFA và ViT .

Một số trường hợp lỗi thường gặp ở câu trả lời dự đoán

Giao diện chính của chương trình minh họa cho hệ thống hỏi

đáp trực quan đa ngữ Ặ.ẶẶ.Ặ Ặ eee

Một số mẫu hỏi đáp trực quan trên tiếng Việt ở chương trình

Trang 8

DANH MỤC TU VIET TAT

STT | Từ viết tat Ý nghĩa

Artificial Intelligence —

0I AI Trí tuệ nhân tạo

Bilingual Evaluation Understudy —

02 BLEU Độ do đánh giá song ngữ BLEU

Convolutional Neural Network —

0 CNN Mô hình mạng nơ ron tích chập

Recurrent Neural Network—

07 và Mô hình mạng nơ ron hồi quy

10 ViLT Mô hình thống nhất thị giác-ngôn ngữ

dựa trên Transformer

ll VịT ¬ Vision Transformer —

Mô hình thị giác dựa trên Transformer

Visual Question Answering —

12 VỌA Hỏi đáp trực quan /

Hỏi đáp dựa trên nội dung ảnh

Trang 9

TÓM TẮT KHÓA LUẬN

Trong những năm gan đây, Hỏi đáp trực quan là một chủ đề nghiên cứu nhận được

nhiều sự quan tâm trong cộng đồng nghiên cứu về trí tuệ nhân tạo ở Việt Nam và trênthế giới Tác vụ này trong trí tuệ nhân tạo cho phép máy tính có thể hiểu được đặc

trưng ngữ nghĩa từ hình ảnh và đưa ra câu trả lời liền mạch với lối diễn đạt tự nhiên

cho câu hỏi liên quan một cách tự động.

Trong đề tài này, chúng tôi nghiên cứu tổng quan các phương pháp State-of-the-art

(SOTA) để rút trích đặc trưng thị giác cho tác vụ Hỏi đáp trực quan như Vision

Trans-former (ViT), Vision-and-Language TransTrans-former (ViLT) hay OFA, và dé xuất mộthướng tiếp cận nhằm tích hợp đặc trưng ảnh vào mô hình tạo sinh văn bản Sequence-

to-Sequence dựa trên mạng tích chập (ConvS2S) cho bài toán Hoi đáp trực quan da

ngôn ngữ Chúng tôi cũng đã cài đặt, thực nghiệm và đánh giá phương pháp dé xuất

trên bộ dữ liệu UIT-EVJVQA công bồ tại cuộc thi VLSP2022-EVJVQA.

Thông qua quá trình thực nghiệm, nghiên cứu đã cho thấy sự hiệu quả của phương

pháp dé xuất, khi hiệu suất của mô hình ConvS2S có tích hợp thêm các đặc trưng

gợi ý từ hình ảnh cải thiện ít nhất 2.89% điểm F1 trên tập Public Test so với mô

hình cơ sở Tổ hợp tốt nhất, ConvS2S + ViT + OFA, cho kết quả 0.3442 F1 trên tập

Public Test và 0.4210 F1 trên tập Private Test, qua đó đạt vi trí thứ ba tại cuộc thi

VLSP2022-EVJVQA.

Thông qua các bước phân tích định tính và định lượng, nghiên cứu cũng đã làm rõ

những mặt tích cực và hạn chế của phương pháp dé xuất, từ đó làm cơ sở để đưa racác hướng phát triển tiếp theo Khóa luận cũng đã triển khai một chương trình minhhọa dựa trên phương pháp đề xuất cho tác vụ Hỏi đáp trực quan đa ngôn ngữ

Trang 10

một câu hỏi bất kỳ được diễn đạt tự nhiên liên quan đến một hình ảnh cụ thể Ứng

dụng này của trí tuệ nhân tạo đòi hỏi sự kết hợp những kỹ thuật, công nghệ từ hai lĩnh

vực nghiên cứu quan trọng trong Học máy là Thị giác máy tính (CV) và Xử lý ngôn

ngữ tự nhiên (NLP) để đưa ra câu trả lời chính xác và phù hợp với ngữ cảnh được đề

cập.

Các hệ thống hỏi đáp trực quan đã và đang cho thấy nhiều ứng dụng quan trọng

để hỗ trợ con người trong đa lĩnh vực về y tế, giáo dục, giao thông vận tải và các vấn

đề xã hội Một số ví dụ về ứng dụng thực tế của hỏi đáp trực quan được thể hiện ởHình 1.1 Hệ thống hỏi đáp trực quan trên ảnh y tế cho phép các bác sĩ có thể nắmbắt tốt hơn thông tin các tác nhân, dấu hiệu bat thường trên ảnh từ đó đưa ra nhữngchẩn đoán chính xác mà không mất quá nhiều thời gian Ví dụ, nhận vào một hìnhảnh nội soi đại trang cùng câu truy vấn "Có bat thường nào trong ảnh không", một

hệ thống VQA y khoa điển hình sẽ xác định và đưa ra tình trạng bệnh lý phù hợp dựa

trên nội dung ảnh, như "bình thường”, "polyp" hoặc "viêm loét đại tràng" Trong giáo

dục, hỏi đáp trực quan hỗ trợ cá nhân hóa việc học ở trẻ nhỏ để nhận biết tốt hơn về

Trang 11

thế giới xung quanh mình, cũng như đánh giá khả năng nhận thức của trẻ thông qua

hỏi đáp Trong giao thông vận tải, hệ thống VQA có thể định vi và trích xuất thông

tin từ camera hành trình theo yêu cầu của tài xế, như "Phía trước có đang tắc đường

hay không?" hay "Rẽ sang trái ở ngã tư phía trước sẽ dẫn đến đâu?", và là nhân tố cầnthiết để phát triển các hệ thống xe tự hành Do mang tính phổ quát của quá trình hiểungôn ngữ và hình ảnh, nhiều vấn đề khoa học-xã hội khác cho thấy tiềm năng đa dạngcủa VQA như truy vết tội phạm, thuyết minh du lịch hay phát triển robot

Q: Có bat thường nào trong ảnh không? Q: Các phương tiện trên đường dang di chuyển về hướng nào 2

A: Polyp A: Hướng từ trai sang phải

| “te Sau 4

Me T6 la thé đấy!

Người dich: Nguyễn Toàn Thing

Q: Cô bé này đang vẽ gì thé? Q: Những người này đang trộm thứ gi?

A: Cô bé đang vẽ hình trái tim A: Tivi va xe máy

Hình 1.1: Một số ví du về ứng dụng của hỏi đáp trực quan trong thực tiễn

Bên cạnh vấn đề kết hợp đa thể thức (multimodal) về thị giác và ngôn ngữ, các khíacạnh về mặt đa ngữ của dữ liệu cũng là một van dé nghiên cứu đáng được quan tâm.Theo đó, hệ thống hỏi đáp cần đưa ra câu trả lời chính xác cả về nội dung lẫn ngônngữ trình bày tương ứng cho câu hỏi Việc áp dụng yếu tố đa ngữ trong hỏi đáp trực

quan là cần thiết nhằm đáp ứng với nhu cau truy van ngày càng da dạng và phù hợp

với xu hướng toàn cầu hóa hiện nay ở những môi trường đa ngôn ngữ như công ty,trường học hay du lịch lữ hành Đề tài nghiên cứu này đề xuất một hướng tiếp cận hiệu

3

Trang 12

quả cho bài toán Hỏi đáp trực quan da ngôn ngữ, trong đó có tiếng Việt Đây là một

ngôn ngữ ít tài nguyên (low-resource) trong lĩnh vực trí tuệ nhân tạo và khoa học dữ

liệu, nên kết quả nghiên cứu của chúng tôi có những đóng góp giá trị cho cộng đồngnghiên cứu trong nước và quốc tế, làm cơ sở phát triển các thuật toán, phương pháp

mới trên ngôn ngữ này Khi những hệ thống hỏi đáp trực quan đạt hiệu suất tốt có thể

áp dụng rộng rãi nhằm phục vụ cộng đồng trong nhiều lĩnh vực khác nhau như y tế,

giáo dục, giao thông và ở những môi trường đa ngôn ngữ như doanh nghiệp, trường

học, bệnh viện tại Việt Nam và các cộng đồng sử dụng tiếng Việt trên thế giới

1.2 Mục tiêu và phạm vi nghiên cứu

Nghiên cứu đề xuất một hướng tiếp cận hiệu quả dựa trên những kỹ thuật học sâutiên tiến cho bài toán Hoi đáp trực quan đa ngôn ngữ Các van đề nghiên cứu chính

trong phạm vi dé tài này bao gồm:

* Nghiên cứu tổng quan về bài toán Hoi đáp trực quan đa ngôn ngữ, khảo sát

những bộ dữ liệu đã công bồ và các công trình nghiên cứu liên quan

* Nghiên cứu tổng quan về bộ dữ liệu hỏi đáp trực quan UTT-EVJVQA công bồ tai

cuộc thi VLSP2022-EVJVQA với ba ngôn ngữ Anh, Việt, Nhat.

» Nghiên cứu tổng quan các mô hình SOTA kết hợp đa thể thức (multimodal) về

thị giác — ngôn ngữ gồm Vision-and-Language Transformer (ViLT) và OFA, mô

hình thị giác Vision Transformer (ViT), kiến trúc và nguyên lý hoạt động của mô

hình mang Convolutional Sequence-to-Sequence (ConvS2S) và các độ đo đánh

giá hiệu suất hệ thống hỏi đáp gồm F1 và BLEU

* Xây dựng phương pháp đề xuất nhằm tích hợp đặc trưng hình anh từ các mô hìnhpre-trained SOTA gồm ViT, ViLT va OFA vào mô hình ConvS2S cho bài toán

đặt ra Hướng tiếp cận đề xuất cần mang tính hiệu quả trong việc tối ưu hóa tài

nguyên tính toán và giảm thời gian huấn luyện cho tác vụ VQA

* Thực nghiệm phương pháp dé xuất trên các điều kiện thực nghiệm khác nhautrên bộ dữ liệu UIT-EVJVQA Đánh giá kết quả thực nghiệm Phân tích lỗi Dua

ra kết luận và hướng phát triển.

Trang 13

1.3 Đối tượng nghiên cứu

Phương pháp tiếp cận của đề tài này được thực nghiệm, đánh giá trên các đối tượng

nghiên cứu chính sau đây:

¢ Bài toán Hỏi đáp trực quan da ngôn ngữ (mVQA) Dựa nội dung ảnh và câu hỏi,

các hệ thống hỏi đáp cần dự đoán câu trả lời một cách chính xác và phù hợp với

ngôn ngữ tương ứng Mặc dù tác vụ này có thể dễ dàng thực hiện bởi con người,

vẫn còn nhiều thách thức để máy tính đưa ra câu trả lời một cách tự động Cáccâu hỏi có thể tập trung vào những phần thông tin khác nhau của bức ảnh như

đối tượng, màu sắc hoặc hành động nên một hệ thống VQA tối ưu cần phải có

khả năng phát hiện, nhận biết được các đối tượng, chỉ tiết trong ảnh, sau đó tính

toán mối liên hệ với câu hỏi và suy luận ra câu trả lời

* Bộ dữ liệu UIT-EVJVQA [1] Đây là bộ dữ liệu hỏi đáp trực quan đầu tiên xây

dựng dựa trên ba ngôn ngữ: tiếng Anh, tiếng Việt và tiếng Nhật, được công bố

cho cuộc thi Hỏi đáp trực quan da ngôn ngữ tại hội thao VLSP 2022 Câu hỏi

đáp của bộ dữ liệu được tạo bởi con người trên các bức ảnh lấy bối cảnh tại ViệtNam Để đạt được hiệu suất tốt trên bộ dữ liệu, các mô hình VQA cần có khả

năng xác định và đưa ra câu trả lời với ngôn ngữ tương ứng cho câu hỏi đa ngữ

đầu vào Ngoài ra, UIT-EVJVQA còn chứa những câu trả lời được diễn đạt một

cách tự nhiên với độ dài không cô định Cau hình đặc trưng này tạo nên sự khác

biệt so với những bộ dif liệu lớn về VQA trước đây và đặt ra thách thức cho việc

xây dựng các hệ thống VQA phù hợp với đặc tính dữ liệu

1.4 Dong góp của khóa luận

Đề tài nghiên cứu của khóa luận có bốn đóng góp chính như sau:

1 Đề xuất một phương pháp tích hợp đặc trưng ảnh vào mô hình sinh ngôn ngữ để

tạo ra câu trả lời với cầu trúc mở và được diễn đạt tự nhiên cho ba ngôn ngữ Anh,

Việt, Nhật.

2 Nghiên cứu áp dụng các mô hình pre-trained thị giác và đa thể thức tiên tiến

hiện nay gồm Vision Transformer, Vision-and-Language Transformer và OFA

Trang 14

để trích xuất đặc trưng thị giác và sự tương tác giữa hình ảnh-câu hỏi.

3 Phương pháp đề xuất được thực nghiệm và đánh giá tại cuộc thi

VLSP2022-EVJVQA ! ~ Hoi đáp trực quan da ngôn ngữ trên hình ảnh Việt Nam và đạt vịtrí thứ Ba về hiệu suất thực nghiệm trong các phương pháp SOTA được áp dụng

1.5 Cấu trúc khóa luận

Cấu trúc khóa luận gồm 6 chương với các nội dung chính được trình bày như sau:

¢ Chương 1: Mở đầu Trình bày lí do chọn dé tài, mục tiêu, đối tượng và phạm vi

nghiên cứu cùng những đóng góp chính của khóa luận.

* Chương 2: Tổng quan dé tài Tìm hiểu tổng quan về bài toán hỏi đáp dựa trên

nội dung hình ảnh (VQA) Phân tích và đánh giá các hướng nghiên cứu liên quan

trong nước và quốc tế, nêu những vấn đề còn tồn tại mà đề tài khóa luận tập trungnghiên cứu và giải quyết

« Chương 3: Quá trình thực nghiệm Định nghĩa bài toán, giới thiệu về bộ dữ

liệu thực nghiệm, trình bày cơ sở lý thuyết các mô hình học sâu cơ sở, và cuốicùng phát biểu và cài đặt phương pháp đề xuất cho tác vụ Hỏi đáp trực quan đa

ngôn ngữ.

* Chương 4: Kết quả thực nghiệm Trình bày kết quả đánh giá hiệu suất của các

phương pháp đề xuất trên bộ dữ liệu thực nghiệm Phân tích kết quả thực nghiệmnhằm chỉ ra những mặt tích cực và hạn chế của hướng tiếp cận

« Chương 5: Chương trình minh hoa Trình bày về việc triển khai chương trìnhminh họa cho hệ thống hỏi đáp trực quan đa ngữ

* Chương 6: Kết luận và hướng phát triển Trình bay các kết quả đạt được và

những đóng góp chính của khóa luận Bàn luận về kết quả của hướng tiếp cận và

đề xuất các hướng nghiên cứu tiếp theo

! Đã được báo cáo tại Hội thảo VLSP 2022 diễn ra tại Hà Nội.

6

Trang 15

Chương 2

TỔNG QUAN ĐỀ TÀI

2.1 Bài toán Hoi đáp trực quan

Bài toán Hỏi đáp trực quan hay Hỏi đáp dựa trên nội dung ảnh (tiéng Anh: Visual

Question Answering - VQA) là một chủ đề nghiên cứu nhận được nhiều sự quan tâm

trong cộng đồng nghiên cứu trí tuệ nhân tạo (AI) trên thé giới và gần đây có một số

bước tiến nổi bật trong công đồng nghiên cứu AI và khoa hoc dif liệu tại Việt Nam

Tác vụ này của trí tuệ nhân tạo áp dụng các kỹ thuật tiêu biểu trong Thị giác máy

tính (CV) và Xử lý ngôn ngữ tự nhiên(NLP) nhằm cho phép những chiếc máy tính có

thể hiểu được được đặc trưng ngữ nghĩa từ hình ảnh và đưa ra câu trả lời cho câu hỏi

liên quan một cách tự động Hỏi đáp trực quan có những ứng dụng quan trọng vào

thực tiễn đời sống, như ứng dụng trong các hệ thống chatbot nơi công cộng, trong các

hệ thống hỗ trợ ra quyết định (DSS) giúp các chuyên gia y tế trong việc chuẩn đoánhình ảnh y khoa, hay hỗ trợ cho người mắc khiếm khuyết về thị giác nhận thức rõ hơn

về sự vật, hiện tượng đang xảy ra xung quanh họ

ee

2.2 Tình hình nghiên cứu trên thé giới

Trong lĩnh vực thị giác máy tính, mục tiêu của các nghiên cứu trên tác vụ VỌA tập

trung vào phát triển các bộ dữ liệu và các phương pháp đề xuất nhằm giúp cho máy

tính hiểu được nội dung và ngữ cảnh của hình ảnh Sự ra đời của bộ dữ liệu Microsoft

Trang 16

COCO [6], một cơ sở dữ liệu khổng lồ với hơn 1,5 triệu ảnh, đã tạo nên sức ảnh hưởnglớn trong cộng đồng nghiên cứu về AI va đẩy mạnh công tác nghiên cứu ở phạm vitoàn cầu trên các tác vụ thị giác máy tính như Phát hiện đối tượng, Phân loại ảnh, Phânđoạn ảnh, Mô tả ảnh và Hỏi đáp trực quan Đã có nhiều công trình nghiên cứu trênthế giới công bố các bộ dữ liệu phục vụ cho tác vụ VQA được xây dựng trên hình ảnhlấy từ bộ dữ liệu COCO với các câu hỏi đáp được biên soạn ở các thứ tiếng khác nhau.Như bộ dữ liệu VQA [7], VQAv2 [§] cho tiếng Anh, EM-IQA [9] cho tiếng Trung hayJapanese VQA [10] cho tiếng Nhật Ngoài ra còn có hai bộ dữ liệu benchmark choviệc phát triển các phương pháp VQA gồm Visual Genome (VG-QA) [11] và GQA

[12] VG-QA là một bộ dữ liệu VQA gồm các bức ảnh được chụp trong thế giới thực,

và được thiết kế để nhấn mạnh sự tương tác giữa các câu hỏi tự nhiên và những vùngnhất định trên ảnh Sự ra đời của VG-QA làm nền tảng xây dựng nên GQA, một bộ

dữ liệu đề xuất cho bài toán hỏi đáp thành phần và luận giải thế giới thực

Bên cạnh những công trình liên quan về thị giác máy tính, trong lĩnh vực xử lý ngônngữ tự nhiên (NLP) không thể không nhắc đến bộ dữ liệu SQuAD [13] đã đẩy mạnhquá trình nghiên cứu về các hệ thống hỏi đáp và giúp máy tính hiểu được ngôn ngữ tự

nhiên Dựa trên SQuAD, nhiều bộ dữ liệu tương tự đã được xây dựng với nhiều ngôn

ngữ khác nhau như DuReader [14] cho tiếng Trung, JaQuAD [15] cho tiếng Nhật hay

KorQuAD [16] cho tiếng Hàn.

Bên cạnh các bộ dữ liệu chất lượng về thị giác và ngôn ngữ, các kiến trúc cũng

đóng vai trò quan trọng việc xây dựng các hệ thống thông minh Tận dụng các thành

tựu của NLP, trên thế giới đã có nhiều mô hình mạnh mẽ cho tác vụ học tập

Sequence-to-Sequence (Seq2Seq) như mạng Long-short Term Memory (LSTM) [17],

Convo-lutional Neural Networks dạng Sequence-to-sequence (ConvS2S) [18], Transformer

[19] va mT5 [20] Trong thi giác máy tính, đã có nhiều mô hình State-of-the-art được

dé xuất cho việc rút trích thông tin từ hình ảnh như YOLO [21], VGG [22] và Vision

Transformer (ViT) [3] Su đa dạng và không ngừng tăng lên của dữ liệu đi kèm với

nhu cầu giải quyết các tác vụ đa thể thức ngoài thực tế dựa trên đặc trưng thị giác vàngôn ngữ Những hướng tiếp cận gần đây tập trung vào việc phát triển các phươngpháp mô hình hóa sự tương tác đa thể thức này như kiến trúc Vision-and-Language

Transformer (ViLT) [4] va OFA [5].

Trang 17

2.3 Tình hình nghiên cứu tại Việt Nam

Hiện nay, các nghiên cứu về bài toán Hởi đáp (QA) nói chung, Hỏi đáp trực quan

(VOA) nói riêng nhận được sự quan tâm lớn trong cộng đồng NLP tại Việt Nam Đối

với một ngôn ngữ ít tài nguyên (low-resource) như tiếng Việt, các nghiên cứu trên

ngôn ngữ này mang ý nghĩa lớn và có những đóng góp quan trong, làm nên tang cho

sự phát triển những hệ thống thông minh hỗ trợ giải quyết các van dé thực tế mang

tính đặc thù về mặt ngôn ngữ tại các địa phương ở Việt Nam và các khu vực sử dụng

ngôn ngữ Việt trên thế giới.

Các nghiên cứu về QA trên tiếng Việt đã đạt được một số thành tựu nổi bật trong

những năm gần đây, với nhiều bộ dữ liệu phục vụ cho các tác vụ QA đặc thù được

công bó, như các bộ dữ liệu ViQuAD [23, 24], UIT-ViQuAD [25], UIT-ViNewsQA

[26], ViMMRC [27] cho hỏi đáp dựa trên văn bản ngữ cảnh, ViCoQA [28] cho hỏi

đáp đàm thoại, hay UIT-ViCoV19QA [29] cho hỏi đáp dựa trên cộng đồng về chủ đề

COVID-19.

Tuy thé giới dang bước vào ky nguyên mới của chuyển đổi số với những thành

tựu của trí tuệ nhân tạo (AI) được ứng dụng vào cuộc sống, việc phát triển các hệ

thống hỏi đáp tự động dựa trên nội dung ảnh vẫn còn là một chủ dé nghiên cứu mới

mẻ tại Việt Nam Trên tác vụ VQA ở nước ta hiện nay đã có nghiên cứu xây dựng

bộ dữ liệu ViVQA [30] được xem là bộ dữ liệu VQA đầu tiên cho tiếng Việt Bộ dữ

liệu được xây dựng với 10,328 hình ảnh từ cơ sở dữ liệu ảnh MS COCO và 15,000

cặp câu hỏi đáp về nội dung hình ảnh Nghiên cứu cũng đã thử nghiệm nhiều phương

pháp học sâu khác nhau trên bộ dữ liệu như LSTM, Bi-LSTM kết hợp với pre-trained

word embedding như W2V, PhoW2Vec, Fasflext, ELMO, và kiến trúc Hierarchical

Co-Attention.

Bên cạnh xây dung bộ dif liệu, các nghiên cứu về QA nói chung cũng đã thiết lập

các phương pháp khác nhau để thẩm định chất lượng các bộ dữ liệu, như BERT [31],

PhoBERT [32] hay các biến thể mạng hồi quy (RNN) như LSTM, Bi-LSTM, và mở ra

những hướng phát triển mới cho các tác vụ hỏi đáp liên quan Tuy đã đạt được những

thành tựu nhất định, vẫn còn một số điểm hạn chế tổn tại trong nghiên cứu hỏi đáp

trực quan trên tiếng Việt hiện nay như:

Trang 18

« Các phương pháp hỏi đáp trực quan trên tiếng Việt chưa thể tạo được câu trả lờidiễn đạt tự nhiên với cấu trúc mở do tiếp cận bài toán VQA dưới tác vụ phân lớp.

* Các phương pháp xây dựng dựa vào mạng RNN truyền thống chưa tối ưu chi phítính toán cho tác vụ hỏi đáp trực quan trên tiếng Việt

¢ Nghiên cứu chưa áp dụng các mô hình pre-trained thị giác tiên tiến như Vision

Transformer - ViT để trích xuất đặc trưng từ ảnh.

* Do được huấn luyện trên bộ dữ liệu ViVQA chỉ mang tinh đơn ngữ và hình ảnhtrích xuất từ MS COCO nên các hệ thống VQA đề xuất chưa thể áp dụng tại môitrường đa ngôn ngữ và chưa thể đưa ra câu trả lời phù hợp cho hình ảnh có bối

cảnh đặc thù tại Việt Nam.

Trước những khó khăn và thách thức đó, cuộc thi VLSP2022-EVJVQA [1] đã được

tổ chức với chủ đề Hỏi đáp trực quan đa ngôn ngữ nhằm tạo một không gian cho các

cá nhân, tổ chức trong cộng đồng NLP Việt Nam nghiên cứu và trình bày giải pháp

của mình cho bài toán còn nhiều mới mẻ này Bộ dữ liệu công bố cho cuộc thi được

xây dựng dựa trên hình ảnh lấy bối cảnh tại Việt Nam với câu trả lời theo cấu trúc mở,

cho thấy cuộc thi mang ý nghĩa lớn trong việc phát triển các hệ thống VQA phù hợp

nhằm phục vụ cộng đồng trong nước Trong nghiên cứu này chúng tôi đề xuất một

phương pháp hiệu quả cho bài toán dat ra và dat vị trí thứ Ba tai VLSP2022-EVJVQA,

qua đó có những đóng góp tích cực cho cộng đồng nghiên cứu trong nước về bài toán

Hỏi đáp, Hỏi đáp trực quan nói chung, và Hỏi đáp trực quan đa ngôn ngữ nói riêng.

10

Trang 19

Chương 3

QUÁ TRÌNH THỰC NGHIỆM

3.1 Phát biểu bài toán

Hỏi đáp trực quan da ngôn ngữ (mVQA) là dạng mỏ rộng của tác vụ Hỏi đáp trực

quan cho phép máy tính có thể hiểu được nội dung của hình ảnh và trả lời cho câu hỏi

liên quan ở nhiều ngôn ngữ khác nhau được nhập liệu từ người dùng Bài toán được

định nghĩa như sau:

« Đầu vào: Một bức ảnh cho trước và một câu hỏi có thể trả lời được liên quan đến

nội dung bức ảnh.

* Đầu ra: Một câu trả lời chứa phần thông tin liên quan đến nội dung hình ảnh.

Trong đó, ba ngôn ngữ chính dự kiến áp dụng cho nghiên cứu này gồm tiếng Anh,

tiếng Việt và tiếng Nhật, cùng hình ảnh lấy bối cảnh tại Việt Nam.

3.2 Giới thiệu bộ dư liệu UIT-EVJVQA

Để hoàn thành những mục tiêu đã dé cập, chúng tôi tham gia, thực nghiệm va đưa

ra giải pháp tối ưu cho việc đánh giá kết quả tại cuộc thi Hỏi đáp trực quan da ngôn

ngữ VLSP2022-EVJVQA Bộ dữ liệu chính phục vụ quá trình thực nghiệm trong

nghiên cứu này, UIT-EVJVQA [1], được công bố lần đầu tại cuộc thi và là bộ dữ liệuhỏi đáp trực quan đầu tiên mang yếu tố đa ngữ với tiếng Anh (en), tiếng Việt (vi) và

II

Trang 20

tiếng Nhật (ja) Bộ dữ liệu gồm 33,790 cặp câu hỏi đáp đa ngữ trên 4,909 hình ảnh lay

bối cảnh tại Việt Nam, mang nét đặc trưng gắn liền với nếp sống thường ngày, cảnh

vật và con người nơi đây Trong đó, các câu trả lời được soạn thảo dựa trên nội dung

của hình ảnh được câu hỏi dé cập đến Bên cạnh yếu tố đa ngữ và bối cảnh hình ảnh,

một điểm khác biệt nữa của bộ dữ liệu so với bộ ViVQA đã có nằm ở cấu trúc mở

(free-form) của văn bản, với câu trả lời được diễn đạt đa dạng và tự nhiên, khiến cho

việc phát triển hệ thống hỏi đáp trực quan phù hợp gặp rất nhiều thách thức Để đạt

được hiệu suất tốt trên bộ dữ liệu UIT-EVJVQA, một hệ thống VQA điển hình cần có

khả năng xác định và dự đoán chính xác câu trả lời với lỗi diễn đạt một cách tự nhiên

tương ứng cho câu hỏi đa ngữ đầu vào Một số mẫu hỏi đáp trực quan đa ngữ từ bộ dữ

liệu UTT-EVJVQA được thể hiện ở Hình 3.1.

Q: how many people are using their phones to

take pictures on the boat?

A: just one

Q: người dan ông mặc áo xanh lá đang lam gi? = QQ: ROFISAKICOFEANTIETD?

A: dang quét don A: DENEFEKOPICANET

Hình 3.1: Một số mẫu câu hỏi đáp trực quan da ngữ từ bộ dữ liệu UIT-EVJVQA

Có thể nhận thấy sự đa dạng về chủ đề của câu hỏi, như hỏi về số lượng ở mẫu ví

dụ tiếng Anh hay hỏi về hành động ở mẫu ví dụ tiếng Việt Ngoài ra còn có các chủ

đề khác về màu sắc, vị trí, vật thể hay trang phục, cho thấy sự bao quát và phong phú

của nguồn dữ liệu thực nghiệm Trong nhiều trường hợp, câu hỏi đề cập đến những

12

Trang 21

chi tiết rất nhỏ trong ảnh, như chiếc điện thoại ("phones") ở ví dụ tiếng Anh, hoặchướng đến các đối tượng bị che khuất hoặc dễ nhầm lẫn với các chủ thể khác, như ở ví

dụ tiếng Việt, người đàn ông mặc áo xanh lá bị che bởi sạp hàng nên máy tính có thể

gặp trở ngại trong việc định vi và nhận diện hành động cụ thể của người đàn ông này.

Điều này tạo nên thách thức rất lớn cho các hệ thống hỏi đáp trực quan để xác định vàđưa ra câu trả lời tương ứng cho hình ảnh và câu hỏi đầu vào trong thực tế Bên cạnh

đó, mẫu ví dụ tiếng Nhật còn thể hiện một bối cảnh độc đáo khi đưa ra truy vấn cónội dung "Cô gái đang đưa tay nào xuống nước?" khiến cho không chỉ máy tính màngay cả con người cũng gặp thách thức lớn để đưa ra câu trả lời phù hợp với bối cảnh

hình ảnh.

3.3 Tổ chức và tiền xử lý dữ liệu

Bộ dữ liệu UIT-EVJVQA công bồ tại VLSP2022-EVJVQA gồm ba tập dữ liệu

chính: Tập Training cho việc huấn luyện và phát triển phương pháp đề xuất, tập Public

Test dùng để thẩm định sơ bộ hiệu suất phương pháp và tập Private Test dùng để kiểmtra hiệu suất phương pháp trên dữ liệu ngoài thực tế Trong ba tập dữ liệu được cungcấp, tap Training và tap Public Test có sẵn câu trả lời mẫu để các đội thi có thể pháttriển các phương pháp, kỹ thuật VQA đề xuất, từ đó chọn ra những hướng tiếp cận tối

ưu nhất để đưa ra dự đoán trên tập Private Test của cuộc thi Mỗi tập dữ liệu bao gồmmột tập hình ảnh và một file json chứa thông tin về câu hỏi đáp dựa trên nội dung ảnhvới mỗi điểm dữ liệu bao gồm: mã định danh hình ảnh, câu hỏi và câu trả lời tương

4,

ung.

Do bộ dif liệu không có sẵn thông tin về ngôn ngữ của các cặp câu hỏi đáp, để cóthể phát triển hệ thống hỏi đáp trực quan đa ngữ, chúng tôi cần xác định ngôn ngữthể hiện cho từng mẫu dữ liệu Ngoài ra, hướng tiếp cận VQA dé xuất dựa trên việctạo sinh câu trả lời, do đó chất lượng của từ vựng trong tập huấn luyện cần được đảm

bảo nhằm những tránh ảnh hưởng của các yếu tô ngoại lai đến việc dự đoán câu trả

lời đầu ra Để đạt được kết quả mong muốn trên bộ dữ liệu UIT-EVJVQA, trước tiênchúng tôi tiến hành bước tiền xử lý và làm sạch các câu hỏi đáp để chuẩn bị cho quá

trình thực nghiệm Các bước xử lý dữ liệu văn bản được thực hiện như sau:

* Lọc bỏ dấu câu và các ký tự đặc biệt Đặc tính của dữ liệu gồm các câu hỏi đáp

13

Trang 22

dưới dạng câu đơn và không chứa đựng yếu tố cảm xúc nên dấu câu không mangnhiều ý nghĩa Do đó, chúng tôi xử lý loại bỏ chúng ra khỏi câu hỏi và câu trảlời Sau khi xử lý, tất cả từ trong câu được chuyển đổi về chữ thường.

» Nhận diện ngôn ngữ của cặp câu hỏi đáp Có sự khác nhau cơ bản về bang chữcái ở ba ngôn ngữ Tiếng Anh có 26 chữ cái theo mẫu tự Latin, tiếng Việt gồm

29 chữ cái Latin có thêm dấu âm tiết, trong khi hệ thống chữ viết tiếng Nhật gồm

ba loại chữ là Hiragana, Katakana và Kanji Chúng tôi dựa vào đặc điểm này để

phân các điểm dữ liệu về ngôn ngữ tương ứng

° Kiểm tra và sửa lỗi từ vựng Sau khi thu được câu hỏi đáp với ngôn ngữ tương

ứng, chúng tôi thực hiện các bước kiểm tra để xác định và xử lý các mẫu có ngôn

ngữ sai khác Một số lỗi mang tính hệ thống dẫn đến sai khác gồm lỗi gõ Unicodenhư "ưhat", "thê man" hay lỗi sai dấu câu tiếng Việt như "làm gi", "mau gi" Day

là bước xử lý quan trọng nhằm giải quyết các nhập nhằng trong việc xác địnhngôn ngữ và đảm bảo chất lượng của nguồn từ vựng

Sau khi thực hiện bước làm sạch và xác định ngôn ngữ trên các tập dữ liệu, chúng

tôi thực hiện một vài thông kê sơ bộ nhằm hiểu hơn về đặc tính của câu hỏi đáp ở mỗingôn ngữ Các thống kê về số mẫu, độ dài và kích thước tập từ vựng trên tập Training

và tập Public Test sau khi tiền xử lý được thể hiện ở Bảng 3.1 Độ dài của câu hỏi đápđược tính toán trên cấp độ từ, với thư viện Underthesea’ và Trankit [33] được áp dụngcho việc tách từ lần lượt ở tiếng Việt và tiếng Nhật

Tổng số mẫu sau khi xử lý ở tập huấn luyện là 23,774 và ở tập kiểm thử là 5,015.Một cách tổng quát, phân bố dữ liệu ở ba ngôn ngữ có sự đồng đều trên cả hai tập Tuynhiên, tiếng Anh có ít mẫu dữ liệu hơn hai tiếng còn lại và điều này có thể làm giảmhiệu suất hỏi đáp trực quan trên ngôn ngữ này Độ dài của câu hỏi thường lớn hơn độdài câu trả lời ở cả ba ngôn ngữ Với hệ thống chữ viết đa dạng, tiếng Nhật cho thấy

độ dài câu hỏi đáp và kích thước tập từ vựng lớn hơn đáng kể so với hai ngôn ngữ còn

lại Các câu trả lời có độ dài tối thiểu là một từ nhưng độ dài trung bình lại gồm từ bađến bốn từ trở lên thể hiện cho cấu trúc mở và đa dạng của bộ dữ liệu Như vậy, mỗingôn ngữ đều có những đặc điểm, đặc trưng khác nhau về cấu trúc và từ vựng, do đótạo nên những thách thức đáng kể cho việc phát triển hệ thống hỏi đáp trực quan đa

?https : //github com/underthesean1p/underthesea

14

Trang 23

Tập Training Tập Public Test

Anh Việt Nhật Anh Việt Nhật

học tập Seq2Seq, tức tạo sinh văn ban, thay vì các phương pháp phân lớp trên tác vụ

VQA truyền thống Nghiên cứu này cũng giới thiệu và thực nghiệm một hướng tiếp

cận hiệu quả cho bài toán Hoi đáp trực quan da ngôn ngữ tại cuộc thi

VLSP2022-EVJVQA lay ý tưởng từ các câu dé thường ngày Bối cảnh đặt ra là khi gặp một câuhỏi khó, người được hỏi có thể yêu cầu người hỏi đưa ra thêm một vài thông tin liên

quan hay gợi ý nhằm giúp họ có thêm cơ sở để suy luận ra câu trả lời phù hợp Áp

dụng vào hỏi đáp trực quan đa ngôn ngữ, chúng tôi tìm cách tạo ra những gợi ý với

ngôn ngữ phù hợp cho câu hỏi và hình ảnh, sau đó tích hợp chúng cùng các đặc trưng

15

Trang 24

thị giác vào một mô hình tạo sinh văn bản để đưa ra câu trả lời tự nhiên, qua đó cải

thiện hiệu suất hỏi đáp trực quan trên bộ dữ liệu Tổng quan phương pháp đề xuất củanghiên cứu này được mô tả ở Hình 3.2 bao gồm hai giai đoạn chính được thực hiện

Dataset [ TT TT mm mẽ TTS TT TT TT TT nh nan nan epee se se eee esse

| IPHASE2 ` {English =———— English

——— F—] G —=—+ Vietnamese : Concatenate Vietnamese

1

1 1

trích xuất ra câu trả lời ngắn gọn sơ khởi Sau đó các gợi ý này được kết hợp cùng đặc

trưng hình ảnh từ Vision Transformer (ViT) làm đầu vào cho quá trình thực nghiệm

mô hình chính Convolutional Sequence-to-Sequence (ConvS2S) nhằm sinh ra câu trảlời cuối cùng Các phần tiếp theo sẽ trình bày về các kiến trúc mô hình và các phương

pháp thực hiện ở hai giai đoạn này.

3.42 Kiến trúc mang Convolutional Sequence-to-Sequence

Mang Convolutional Sequence-to-Sequence (ConvS2S) [18] là một mô hình tạo

sinh van bản dựa trên kiến trúc mạng tích chập được dé xuất cho tác vu Dịch máy,

nhưng cũng có thể áp dụng trên các tác vụ đòi hỏi việc tạo sinh chuỗi đầu ra từ chuỗi

đầu vào, như Tóm tắt văn bản hay Hỏi đáp Là một mô hình dạng Seq2Seq, ConvS2S

16

Trang 25

được cấu tạo bởi một bộ mã hóa (Encoder) và một bộ giải mã (Decoder) có cấu trúcchuyên biệt Bộ mã hóa xử lý chuỗi đầu vào biểu diễn dưới dạng X = (x1,x2, -,Xm)

và trả về vector ngữ cảnh biểu diễn bởi z = (z1,za, ,z„), sau đó bộ giải mã thực hiện

diễn giải vector ngữ cảnh z này và trả về chuỗi đầu ra y = (y4, y2, , Yn) bằng cách tao

sinh các từ lần lượt lần lượt theo chiéu từ trái sang phải cho đến khi gặp token kết thúc(<eos>) Khác với kiến trúc Seq2Seq dựa trên mạng RNN truyền thống, ConvS2S áp

dụng các lớp tích chập thường dùng trong tác vụ xử lý ảnh để tính toán các trạng thái

ẩn một cách song song mà không cần sử dụng thành phần hồi quy nào, từ đó giúp tối

ưu thời gian huấn luyện và tài nguyên tính toán Một cách tổng quát, các lớp tích chập

sẽ sử dụng vô số filter với kích thước cô định để trượt trên toàn bộ văn bản nhằm rút

trích đặc trưng từ dữ kiện đầu vào, sau đó tổng hợp và sử dụng chúng để dự đoán vănbản đầu ra Kiến trúc tổng quát dạng Encoder-Decoder của mô hình ConvS2S được

linear layer f fi i i linear layer

hid dim > emb dim 4 i _ 4 : hid dim > emb dim

Nx conv “blocks” ị M Nx conv “blocks”

encoder conve d

linear layer | | i ị linear layer

emb dim -> hid dim z a>) fs : ị : : emb dim -> hid dim

elementwise sum — | ~ wd ảm i Ì + + ~~ elementwise sum

3.4.2.1 Cấu hình bộ mã hóa ConvS2S

Bộ mã hóa của mô hình ConvS2S§ có sự khác biệt so với mô hình RNN khi đầu

ra gồm hai loại vector ngữ cảnh: vector tích chập và vector kết hợp Vector tích chập

là vector thu được sau khi truyền các trạng thái ẩn qua một khối gồm nhiều lớp tíchchập Vector kết hợp là tổng tuyến tính của các vector tích chập với vector embedding

của các token Cả hai vector ngữ cảnh này đều sẽ được truyền vào bộ giải mã nhằm

phục vụ cho việc dự đoán đầu ra Hình 3.4 mô tả tổng quan về kiến trúc bộ mã hóa

17

Trang 26

<sos> 0 zwei 1 menschen2 fechten 3 4 <eos> 5

Hình 3.4: Tổng quan kiến trúc bộ mã hóa của mang ConvS2S [2].

Đầu tiên, chuỗi đầu vào được truyền vào các lớp Embeding để thu được các vector

embedding đại diện cho token và vị trí tương ứng Hai vector này được kết hợp bằng

cách cộng tuyến tính để thu được một vector embedding tổng hợp với mỗi phần tử

sẽ biểu diễn ngữ nghĩa và vị trí của từ tương ứng trong câu Vector này tiếp tục đượctruyền vào một lớp Linear để chuyển đổi thành một vector có số chiều phù hợp với

số chiều của trạng thái ẩn Sau đó, các vector ẩn trên được truyền vào nhiều khối tíchchập để tiến hành trích xuất đặc trưng

Khối kiến trúc tích chập là đặc trưng tiêu biểu nhất của mô hình Convs2S và được

mô tả ở Hình 3.5 Đầu tiên, vector đầu vào cần được áp dụng padding Do các lớp tích

chập sẽ cắt giảm độ dài của văn bản đầu vào và chúng tôi muốn độ dài văn bản trước

và sau khi đưa vào khối tích tích chập là không đổi Nếu không áp dụng padding, độ

dài của chuỗi sau khi đi qua mỗi lớp tích chập sẽ ngắn hơn một đoạn bằng kích thước

filter — 1 so với chuỗi ban đầu Trong nghiên cứu này, nếu kích thước filter được đặt là

3 thì sau mỗi lớp tích chập, chiều dài chuỗi sẽ bị cắt ngắn đi hai phần tử Những filterđược thiết kế để số chiều của lớp đầu ra luôn bằng gap đôi số chiều của lớp đầu vào

Bởi vì trong mô hình này sử dụng một hàm kích hoạt đặc biệt là Gated Linear Units

(GLU)[34] GLU có các cơ chế gating (tương tự với LSTM hay GRU) mang tinh phi

tuyến chứa bên trong hàm kích hoạt va có kích thước bằng nửa số chiều trang thái ẩn.Sau khi được truyền qua hàm GLU, số chiều trạng thái ẩn của mỗi token sẽ bằng kích

18

Trang 27

Hình 3.5: Kiến trúc của khối tích chập trong bộ mã hóa mang ConvS2S [2].

thước của chúng trước khi đưa vào khối tích chập, và do đó chúng tôi có thể tính tổngtuyến tính giữa vector ẩn với vector embedding của chúng trước khi truyền vào lớptích chập tiếp theo Hình 3.5 cho thấy mô tả tổng quan của một khối tích chập đơn lẻ

và mô hình có thể có nhiều khối tích chập như vậy với tham số khác nhau Kết quảđầu ra của khối tích chập sau cùng sẽ đưa trở ra bộ mã hóa, truyền qua một lớp Linearkhác để chuyển đổi số chiều của trạng thái ẩn trở về số chiều của lớp Embedding banđầu Kết quả thu được chính là vector tích chập Tiến hành cộng tuyến tính vector tíchchập với vector embedding tổng hợp để thu được vector kết hợp cho mỗi token Haivector ngữ cảnh này làm đầu vào cho bộ giải mã để thực hiện việc tạo sinh văn bản

đầu ra.

3.4.2.2 Cấu hình bộ giải mã ConvS2S

Khác với mạng RNN, bộ giải mã của mô hình ConvS2S sẽ thực hiện dự đoán đồng

thời cho tất cả token truyền vào từ văn bản đầu ra Không có các xử lý tuần tự hay cácbước mã hóa lặp lại nào được sử dụng Hình 3.6 mô tả tổng quan kiến trúc của bộ giải

19

Trang 28

mã của mạng ConvS2S.

linear layer emb dim -> out dim

<sos> 0 two 1 people 2 fencing 3

Hình 3.6: Tổng quan kiến trúc bộ giải mã của mang ConvS2S [2]

Tương tự như ở bộ mã hóa, các token và vị trí của văn bản đầu ra được truyền qua

các lớp Embedding, cộng tuyến tính để thu được vector embedding tổng hợp Bộ giải

mã sử dụng vector embedding tổng hợp truyền qua một lớp Linear và đưa kết quả vào

các khối tích chập Ngoài ra còn có hai vector ngữ cảnh từ bộ mã hóa cũng sẽ được

truyền vào khối tích chập để phục vụ cho việc tính toán Cuối cùng, đầu ra sẽ được

truyền qua các lớp Linear để chuyển đổi các các chiều về số chiều embedding banđầu, từ đó phục vụ cho việc thực hiện dự đoán từ tiếp theo Về tổng quát, kiến trúccủa khối tích chập trong bộ giải mã tương tự với bộ mã hóa nhưng có thực hiện một

số thay đổi nhỏ và được thể hiện ở Hình 3.7

Đầu tiên, thay vì thực hiện padding ở đầu và cuối câu như ở bộ mã hóa thì ở đâychỉ padding ở vị trí đầu câu Do các token đầu ra được xử lý đồng thời theo hướngsong song, không phải tuần tự, nên cần có một kỹ thuật padding cho phép các filterđang tạo một token thứ i chỉ được nhìn vào các token đứng trước token đó Nếu chúngđược cho phép nhìn thấy token thứ ¡ 1, mô hình chỉ đơn giản trả về từ tiếp theo trong

chuỗi bằng cách sao chép thay vì học để đưa ra dự đoán Sau khi truyền qua hàm

GLU, khối tích chập sẽ tính toán và áp dụng cơ chế Attention trước khi truyền vào lớpResidual Các thành phần để tính toán trọng số Attention hay sự chú ý cho mỗi token

20

Trang 29

calculate and apply ' ' ' ' ig h encoder "combined”

attention =—— ¡: ELrT | Eˆ lites eel lie ent ¡ kèm]

<sos> two people fencing

Hình 3.7: Kiến trúc của khối tích chập trong bộ giải mã mang ConvS2S [2]

gồm các vector embedding tổng hợp từ văn bản dau ra cùng hai vector ngữ cảnh từ bộ

mã hóa Sau đó các vector Attention tính được sẽ được kết hợp với vector embeddingcủa tokens đầu ra ở lớp Residual và đưa ra khỏi khối tích chập để dự đoán token tiếp

theo.

3.4.2.3 Cơ chế Multi-step Attention

Mỗi lớp giải mã của mô hình ConvS2S được áp dụng một bước tinh toán Attention

riêng biệt Tổng hợp của các bước này được gọi là quá trình chú ý đa bước (Multi-step

Attention) trên chuỗi đầu vào, khác với các hướng tiếp cận đơn bước trước đó ở mạngRNN [35] [36] Một cách cụ thể, trọng số chú ý ở lớp giải mã đầu tiên tập trung vàocác thông tin quan trọng trong chuỗi đầu vào, và tiếp tục được sử dụng trong bướctính toán sự chú ý ở các lớp tiếp theo trong bộ giải mã Ngoài ra, bộ giải mã còn được

thiết lập để có thể truy xuất tới các trọng số chú ý trong lịch sử ở k— 1 time step trước

đó Điều này giúp cho mô hình dễ dàng xác định được các phần tử nào trong chuỗi đã

nhận được sự chú ý từ trước trong quá trình thực hiện tính toán chú ý đa bước cho mỗi

time step huấn luyện

21

Trang 30

3.4.3 Kiến trúc Vision Transformer

Vision Transformer (ViT) [3] là một mô hình thi giác tiên tiến được xây dung trên

nên tảng kiến trúc Transformer [19], và được đề xuất cho các tác vụ khác nhau trong

lĩnh vực CV và xử lý ảnh ViT mang đến hiệu suất cạnh tranh so với các mạng CNN

trước đây và hiện tại đã đạt được hiệu suất SOTA trên một số tác vụ trong Nhận dạnghình ảnh (Image recognition), với sự cải thiện cả về độ chính xác lẫn chi phí tính toán

so với kết quả tốt nhất trước đó từ các mô hình mạng CNN Kiến trúc của mô hình ViT được mô tả tổng quan ở Hình 3.8.

Vision Transformer (ViT)

Điểm đặc trưng của mô hình là áp dụng bộ mã hóa Transformer [19], vốn là kiến

trúc được dé xuất cho các tác vụ NLP, để thực hiện việc mã hóa và trích xuất đặctrưng hình ảnh Ý tưởng chính là mô hình xem hình ảnh như một văn bản có độ dài

16x16 từ, và áp dụng các bước trích xuất đặc trưng của mô hình ngôn ngữ trên dữliệu đại diện này Kiến trúc Transformer truyền thống nhận đầu vào là một chuỗi tokenembedding có số chiều là 1 Do đó để thực hiện mã hóa trên dữ liệu hai chiều, môhình chia hình ảnh đầu vào thành các patch với kích thước cô định, sau đó các patchnày được trải ra và truyền vào một phép chiếu tuyến tính để thu được vector patchembedding Patch embedding sau đó được kết hợp với một vector embedding khác để

mã hóa vị trí của các patch trong ảnh làm đầu vào cho bộ giải mã điển hình của kiếntrúc Transformer Như vậy, ViT có thể tận dụng thế mạnh sẵn có của Transformer như

cơ chế Self-attention và giảm chi phí tính toán trên chính dữ liệu hình ảnh, va cho

22

Trang 31

hiệu suất vượt trội trên các tác vụ xử lý ảnh tương đương với những ảnh hưởng của

Transformer trên tac vụ NLP.

3.4.4 Kiến trúc da thể thức kết hop thị giác và ngôn ngữ

3.4.4.1 Kiến trúc Vision-and-Language Transformer

Sự ra đời của mô hình ViT đã tạo nên bước tiến lớn trong lĩnh vực AI và khoahọc dữ liệu, khi không chỉ thay thế mạng CNN trên tác vụ xử lý ảnh mà còn giúpgiải quyết những nhập nhằng trong việc tích hợp đặc trưng ngôn ngữ và thị giác ở cácphương pháp mã hóa trước đây Cùng với khả năng tối ưu tài nguyên và chi phí tínhtoán, ViT đã đẩy mạnh các nghiên cứu về kỹ thuật Học tập đa thể thức (Mutimodallearning) để có những ứng dụng vào bài toán thực tiễn cần sự kết hợp yếu tố về thị

giác và ngôn ngữ, như tác vụ Hỏi đáp trực quan (VQA) hay Mô tả hình ảnh (Image

captioning), mà điển hình là kiến trúc Vision-and-Languge Transformer (ViLT) [4]

0 Patch position embedding

Linear a of Flattened Patches

Word Embedding

a stone statue near an [MASK] 7 a v tị aig

Hình 3.9: Tổng quan kiến trúc Vision-and-Language Transformer ViLT [4]

=

So với các kiến trúc da thể thức trước đây, mô hình ViLT được xem là mô hình đầutiên kết hợp dữ kiện thị giác và ngôn ngữ với lớp Embedding mã hóa pixel ảnh đượctỉnh giản và tối ưu hóa chỉ phí tính toán như ở dữ liệu văn bản Với đặc trưng kiến trúcnày, ViLT có thể tập trung phần lớn tài nguyên tính toán còn lại vào việc mô hình hóamối liên hệ và tương tác lẫn nhau giữa các thể thức trong quá trình huấn luyện

Để tiết kiệm tài nguyên tính toán, ViLT áp dụng hướng tiếp cận mã hóa hình ảnh

từ mô hình ViT, khi hình ảnh đầu vào được chia nhỏ và biểu diễn dưới dang patch

23

Trang 32

embedding Đối với dữ kiện ngôn ngữ, mô hình thực hiện bước mã hóa tương tự

BERT [31] để thu được vector word embedding cho văn bản đầu vào Các vectorword embedding và patch embedding được kết hợp cùng các vector mã hóa vị trí

và loại thể thức, và được kết nối với nhau để tạo thành một chuỗi tổng hợp đa thểthức đại diện Sau đó, vector ngữ cảnh này được truyền qua các lớp của bộ mã hóa

Transformer nhằm học được sự tương tác qua lại giữa các thành phần thuộc hai thể

thức và thực hiện các tác vụ tương ứng đầu ra, như Image Text Maching, Masked

Language Modeling và Word Patch Alighment.

3.4.4.2 Mô hình OFA

Mô hình OFA [5] là một mô hình thống nhất đa thể thức dựa trên hướng tiếp cận

Seq2Seq, với tên gọi được viết tat từ cum từ "One For All" mang ý nghĩa là một kiếntrúc thống nhất cho tất cả tác vụ mang yếu tố ngôn ngữ và thị giác Tổng quan về các

tác vụ đa thể thức được thực hiện bởi mô hình OFA được thể hiện ở hình 3.10

‘VG: Which region does the text “Man in) white shirt” describe?

|<amgB192>

Text vocab Image vocab Location vocab.

‘GC: What does the region describe? region

TTM: Does the image describe “Two boys

playing frisbee on the grass” 2

'VOA: How many people are there in the

“A <mask> woman” ? H Text Infiling

Vision & Language Tasks Vision Tasks Language Tasks

Hình 3.10: Tổng quan về các tác vu đa thé thức được hỗ trợ bởi mô hình OFA [5]

Mô hình được dé xuất cho việc học tập Seq2Seq thống nhất trong huấn luyện, tinh

chỉnh và suy luận trên đa tác vụ va da thể thức Khác với ViLT, OFA tận dụng sự

đơn giản nhưng hiệu quả của kiến trúc ResNet [37] để trích xuất đặc trưng từ hình

ảnh và áp dụng kỹ thuật mã hóa BPE (Byte-Pair Encoding) [38] để hiện thực các

mô hình GPT [39] và BART [40] cho việc tiền xử lý và mã hóa văn bản đầu vào.Với hướng tiếp cận theo dạng Encoder-Decoder đặc trưng, OFA sử dung Transformerlàm backbone và là nền tảng cho sự thống nhất kiến trúc cho quá trình huấn luyện,

24

Trang 33

tinh chỉnh va dự đoán zero-shot trên các tác vụ đa thể thức Các lớp trong bộ mã hóa

Transformer sử dụng cơ chế Self-attention và các mạng nơ ron truyền thắng để trích

xuất đặc trưng từ chuỗi đầu vào, trong khi bộ giải mã có thêm cơ chế Cross-attention

để kết nối bộ giải mã với vector đầu ra từ bộ mã hóa Dé học tập tương tác đa thể thức,OFA được huấn luyện sẵn trên một số tác vụ chính như: Nhận diện đối tượng theotruy van (Visual Grounding - VG), Mô tả đối tượng trong ảnh (Grounded Captioning

- GC), Kết nối hình ảnh-văn bản (Image-text Machine - ITM), Mô tả anh, và Hỏi đáp

trực quan (VQA) Vốn tận dụng kiến trúc Transformer mạnh mẽ cùng các mô hình

thị giác và ngôn ngữ pre-trained trên những dữ liệu lớn đa thể thức, OFA đã đạt được

hiệu suất SOTA trên một số tác vụ kết hợp thị giác và ngôn ngữ như VQA, Visual

Entailment hay Mô tả ảnh.

3.4.5 Trích xuất gợi ý từ hình ảnh và câu hỏi

Ở giai đoạn một của hướng tiếp cận đề xuất, chúng tôi tập trung vào quá trình trích

xuất các câu trả lời gợi ý cho câu hỏi dựa trên nội dung hình ảnh Cụ thể hơn, các mô

hình pre-trained SOTA đa thể thức gồm Vision-and-Language Transformer (ViLT) và OFA được chúng tôi lựa chọn va áp dụng trên bộ dữ liệu để đưa ra các dự đoán ban đầu Do các mô hình này được huấn luyện và tinh chỉnh trước trên các bộ dữ liệu đặc

thù cho tác vụ VQA, chúng cho thấy tiềm năng quan trọng trong việc đưa ra câu trả

lời phù hợp và hỗ trợ làm giàu thông tin về mối liên hệ giữa câu hỏi và hình ảnh.

Được thực nghiệm trước trên các bộ dif liệu sẵn có như VQAv2, VG-QA và GQA với ngôn ngữ chính là tiếng Anh nên ViLT va OFA chỉ hỗ trợ đưa ra các dự đoán trên

ngôn ngữ này mà không hỗ trợ cho tiếng Việt và tiếng Nhật Để thu được gợi ý cho

hai ngôn ngữ còn lại, một quá trình phiên dịch được đề xuất để chuyển đổi các câu

hỏi sang tiếng Anh và dịch ngược về ngôn ngữ ban đầu cho câu trả lời gợi ý đượctrích xuất Chúng tôi tiến hành bằng cách xây dựng một module dịch máy sử dụng

API từ Google Translate*, một dịch vụ dịch thuật phát triển bởi Google, để chuyển

đổi câu hỏi tiếng Việt và tiếng Nhật sang tiếng Anh trước khi truyền chúng vào mô

hình pre-trained đa thể thức để dự đoán câu trả lời Việc sử dụng API dịch máy có

sẵn là một hướng tiếp cận tương đối hiệu quả với văn bản có độ dài vừa phải từ bộ dữliệu, tuy nhiên vẫn tiềm ẩn nguy cơ về sai lệch ngữ nghĩa và mat đi thông tin trong quá

3https ://cloud google com/translate

25

Trang 34

trình phiên dịch Sau khi trích xuất được các câu trả lời gợi ý, chúng tôi thực hiện bướctương tự để chuyển đổi gợi ý về ngôn ngữ ban đầu phục vụ quá trình thực nghiệm ởgiai đoạn sau của phương pháp đề xuất.

Sau khi được trích xuất, đầu ra của ViLT gồm nhiều câu trả lời với xác suất tươngứng, khác với câu trả lời có độ dài liên tục tạo bởi mô hình OFA Sự khác biệt nằm ởkiến trúc hai mô hình dé xuất, với hướng tiếp cận phân lớp ở ViLT và giải pháp tao

sinh câu trả lời ở OFA Đối với các dự đoán từ mô hình ViLT, chúng tôi chọn ra tối đa

năm gợi ý có xác suất cao nhất để thực hiện các thử nghiệm ở giai đoạn sau Việc sử

dụng nhiều hơn năm gợi ý là khả thi, tuy nhiên sẽ gây áp lực lên tài nguyên tính toán

ở giai đoạn sau do chúng tôi tiến hành tạo một chuỗi đại diện dựa trên xác suất của

các câu trả lời ngắn này Các gợi ý thu được từ ViLT và OFA về bản chất là một dạng

thể hiện của đặc trưng hình ảnh khi các yếu tố thị giác ban đầu được ánh xạ và biểu

diễn dưới hình thức của ngôn ngữ tự nhiên Do đó, chúng không chỉ mang ý nghĩa

đơn thuần là trả lời câu hỏi mà còn giúp các mô hình ngôn ngữ nắm được bối cảnh

của hình ảnh tốt hơn thông qua các đặc trưng từ vựng Mặt khác, nếu gợi ý bị sai lệch

ý nghĩa sẽ gây ảnh hưởng đến quá trình thực nghiệm phương pháp và làm giảm hiệusuất trên tác vụ hỏi đáp trực quan Nhận thấy được những tác động đa dạng này, một

bước đánh giá sơ bộ được thực hiện để khảo sát độ tin cậy của các đặc trưng gợi ý tạo

bởi ViLT và OFA Kết quả của quá trình đánh giá hai mô hình được trình bày ở Phần

4.2.1.

3.4.6 Tích hợp đặc trưng da thể thức và tao sinh câu trả lời

Giai đoạn hai của phương pháp để xuất tập trung vào quá trình kết hợp đặc trưng

hình ảnh và gợi ý, sau đó tích hợp chúng vào quá trình thực nghiệm của mô hình

Seq2Seq cơ sở là mạng Convolutional Sequence-to-Sequence (ConvS2S) nhằm tao

sinh câu trả lời chính xác và đây đủ cho câu hỏi đầu vào.

So với các mô hình Seq2Seq đã có dựa trên mạng RNN truyền thống hay kiến trúcTransformers với cơ chế self-attention, mạng ConvS2S có những ưu điểm nổi bat ma

theo chúng tôi đánh gia là phù hợp với đặc trưng của bộ dữ liệu UIT-EVJVQA và giúp

chúng tôi tối ưu tài nguyên tính toán vốn còn nhiều hạn chế Tổng quan về kiến trúc

mô hình, ConvS2S được thiết kế dựa trên mạng tích chập (CNN) thường dùng trong

26

Tiêu đề	Tích hợp đặc trưng ảnh vào mô hình mạng Convolutional Sequence-to-Sequence cho bài toán hỏi đáp trực quan đa ngôn ngữ
Tác giả	Thái Minh Triết
Người hướng dẫn	ThS. Lưu Thanh Sơn, ThS. Phạm Thế Sơn
Trường học	Trường Đại học Công nghệ Thông tin - Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành	Khoa học dữ liệu
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2023
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	68
Dung lượng	44,27 MB