Gần đây, có nhiều bộ đữ liệu và mô hình hỏi đáp trực quan được đưa ra nhưng hau hết đều trên các loại ngôn ngữ phổ biến như tiếng Anh và tiếngTrung.. Trong khóa luận này, chúng tôi xây d
Trang 1ĐẠI HỌC QUÓC GIA TP HO CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THONG TIN KHOA KHOA HỌC - KỸ THUẬT THÔNG TIN
NGUYÊN ĐỨC HUY LONG
THÁI VĨNH ĐỨC
KHÓA LUẬN TÓT NGHIỆP
BUILDING DATASET AND METHOD FOR MULTILINGUAL
VISUAL QUESTION ANSWERING
CU NHAN NGANH CONG NGHE THONG TIN
TP HO CHÍ MINH, 2022
Trang 2NGUYEN ĐỨC HUY LONG- 18521034
THÁI VĨNH ĐỨC - 18520623
KHÓA LUẬN TÓT NGHIỆP
NGHIÊN CỨU BO DU LIEU VA PHAT TRIEN PHUONG PHAP CHO HOI DAP TRUC QUAN DA
NGON NGU
BUILDING DATASET AND METHOD FOR MULTILINGUAL
VISUAL QUESTION ANSWERING
CU NHAN NGANH CONG NGHE THONG TIN
GIANG VIEN HUONG DAN THS NGUYEN VAN KIET
TS NGUYEN LUU THUY NGAN
TP HO CHi MINH, 2022
Trang 3THÔNG TIN HỘI ĐÒNG CHÁM KHÓA LUẬN TÓT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
T8àY của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
Trang 4LOICAM ON
Trong suốt thời gian từ khi bat đầu hoc tập ở giảng đường đại học đến nay, chúng
tôi đã nhận được rất nhiều sự quan tâm, giúp đỡ của quý Thầy Cô, gia đình và bạn bè
Với lòng biết ơn sâu sắc nhất, chúng tôi xin gửi đến quý Thầy Cô ở Khoa Khoa Học
-Kỹ Thuật Thông Tin — Trường Dai Hoc Công Nghệ Thông Tin, đặc biệt gửi lời cảm ơn
sâu sắc và chân thành đến Thầy ThS Nguyễn Văn Kiệt, TS Nguyễn Lưu Thùy Ngân là
những người đã tận tình hướng dẫn chúng tôi trước, trong và sau khoảng thời gian thực
hiện đề tài
Chúng tôi chân thành gửi lời cảm ơn đến toàn thể quý Thầy/Cô trong và ngoài
trường Đại học Công nghệ Thông tin — Dai học Quốc gia Thành phố Hồ Chí Minh đãgiảng dạy tận tình và giúp đỡ chúng tôi trong suốt 04 năm học tập dưới mái trường này
Dù đã nỗ lực có gắng hoàn thiện Khóa luận Tốt nghiệp này, song chắc chắn sẽ
không tránh khỏi những thiếu sót Chúng tôi rất mong nhận được những ý kiến đóng góp
quý báu của quý Thay Cô và các bạn học cùng lớp đề kiến thức của mình trong lĩnh vực
này được hoàn thiện hơn.
Sau cùng, chúng tôi xin kính chúc quý Thầy Cô trong Khoa Khoa Học - Kỹ ThuậtThông Tin thật dồi dào sức khỏe, niềm tin dé tiếp tục thực hiện sứ mệnh cao đẹp củamình là truyền đạt kiến thức cho thế hệ tương lai
TP.Hồ Chi Minh, tháng 06 năm 2022
Sinh viên thực hiện
Nguyễn Đức Huy Long Thái Vĩnh Đức
Trang 5MỤC LỤC
TOM TAT KHÓA LUẬN - 22-25 +s=+EEE9EEESEEE9E11211127112711711 111.1111111 11E 1e 11x xe 1
Chương 1: MO DAU wieeesscessssssessssseesssssesssssesssssssssssseessssuscssssecssssusssssivesssssesessivesessuesssssessssieeeeess 2Chương 2: TONG QUAN oiceeeessscsssseessssesssseessssessseesssescsssscsssvcssssesssecssssessseecssscsssecssseessseesaseess 4
2.1 GiGi thigu Dal tOAN 4
2.2 Huong tip Can cceccccccscsssessssssessssssssssssescsssessssssesssssussesssssssssssssssuesessseesessieecessecessseeces 5
2.3 Các công trình 6n Quan oo ee eesseeeeeseeeeseseeesescseeesseseseecescsesaceeeeessseeeeaeseneeeeas 7
2.3.1 9 I5) 9v 7
PP 2N n9 9 2.3.3 ‹ 9v 10
2.4 Khó khăn và thách thỨcC - + +%+t+t + xe kg rrkp 11 2.5 Hướng nghién CỨU - -.- %1 k9 919191 v12 1x ng ghe 12
2.5.1 [U00 071707177 12 2.5.2 Dịch tht, cÔng sscS+ se k1 1111 kiệt 13 2.5.3 IĐ[UNo.00nint00i1 517171070777 13
Chương 3: CƠ SỞ LÝ THUYÊTT 22 2=S2£2EEE2EEE£SEEEEEEEEEEEEEEEEEEEEEEEEEEkrrrrkerrrked 15
3.1 Artificial Neural Network (ANN) - SĂL SH SH HH HH HH Hệ, 15
3.2 Convolutional Neural Network (CNN) -Ặ Ăn St HH, 16
3.2.1 Một số lớp thường xuất hiện trong mang CNN -ccccccs+ 16
3.2.2 Một số mang CNN nỗi tiếng 22+ 22E+22+2EEEEEEEEEerEEEEkrrrrrerrre 19
3.3 Các mô hình dịch chuỗi - + 2 + +E+EE+EE+EEEESEEEEEEEEEEEEESEEEEEEEEEEzEerkerkerkrree 21
3.3.1 Recurrent Neural Network (RNN) - - -Ă SG St rey 21
3.3.2 _ Long Short — Term Memory (LSTM|) -cccssseesersrrsrrrrsrrre 22
3.3.3 Hierarchical Co-Attention 0 cc eesseeecessseeeeseeeecesceeseesceeeeeseaeeeeesseeesaeseeees 25
3.3.4 § ý 500i 200 26
Churong 4: THUC NGHIEM tng 32
4.1 Kay dung bO dit nh 32
4.1.1 Bộ dữ liệu multi-VQA occ ceescneseseseseseseseseseeenenseenesseasacseaeaeneaeas 32
Trang 64.1.2 _ Phân tích bộ dữ liệu - + + S+StStx HHHHHg grrkg 35 4.2 Môi trường va ngôn ngữ cài Ổặt - t2 21 2111011111 tư, 37
4.3 Mô hình tiếp cận -++2++e+2E+E22EE1227112711127112711.2711E.11E711E 1 E11 xe 37
4.3.1 Mô hình baseline VGG+LSTM 5555 S+ 2 srsrsrerererererrrree 39
4.3.2 Mô hình VGG+Hierarchical Co- Atfention - 5s «+c+<<<cc++eces 39
4.3.3 Mô hình dé xuất BERT -cccccccccrrrrrrrrtrtrrrrtrrrrrirrirrrrrie 40
AA Tham số huấn luyỆn -2£V++++E++£+2EE+E+2EEEEEEEEEEEE222112127112227112 2221 41Chương 5: ĐÁNH GIA VA KET QUA oecessssssssssesssssseesssssessssseessssecsessiessssseessssiecsssieesesseee 42
5.1 D6 do dank gia nha 42
5.1.1 Độ chính xác (ACCUTACY), «Sàn #22211 re 42 5.1.2 WuPalmer Similarity(WUPS) cà t2 HH gi, 42 53.2 Mô hình 6 2 ciệ: ^, NIEN Ắ Lee 43
Chương 6: KET LUẬN -. 22-222 2EE+2£EEEEEEEEEE11122211122211112721122711122111 E1 re 50
6.1 Kết Ua 8010122112117 50
6.2 Những hạn chế gặp phải 22+©222+E+2EE+2EEEEEEEEECEEEEEEEEEEEEEErrrrkrrrrkrrrk 51Chương 7: HƯỚNG PHAT TRIỂN 22-©22222E+2£EEEEEEEEEEEEEEEEEECEEEEEEEEELrrrrrrrcrer 52TÀI LIEU THAM KHẢO -222222222222222222222222222222222222E222E t.ee 53
Trang 7DANH MỤC HÌNH
Hình 1.1: Minh họa cơng dụng của hỏi đáp trực quan s5 + sssc+x+xsxeveveveeeeree 2
Hình 2.1: Một số ví dụ về hỏi đáp trực quan đa ngơn ngữ - 2-2 4Hình 2 2: Quy trình xử lý theo hướng tiếp cận attention -¿-c¿©cxcc+ccxeee 5Hình 2.3: Sơ đồ xây dựng bộ dit liệu UIT-Vi VQA 22¿222scc2ccvecserrxererrrved 7Hình 2.4: Vi dụ về lỗi của bộ dữ liệu UIT-Vi VQA -2-©2¿©2222+2E+zezcrsesrrsere 8Hình 2.5: Một số cặp câu hỏi trả lời trong bộ dữ liệu FM-IQA - - 8Hình 2.6: Mơ hình CNN-LSTM được đề xuất bởi Gao và các cộng sự 9
Hình 2.7: Ví dụ cho bộ dữ liệu xGQA với 8 loại ngơn ngữ khác nhau - 10
Hình 2.8: Ví dụ cho bộ dữ liệu xGQA với 8 loại ngơn ngữ khác nhau.
https://en.wikipedia.org/wiki/List_of_languages_by_total_number_of_speakers 11
Hình 2.9: Quy trình xây dựng bộ dữ liệu tự động - 5c 5c+cscssxsserererererses 12
Hình 2.10: Quy trình xây dựng bộ dữ liệu thủ cơng -+¿+c+c+c+xexexexsrsrsree 13
Hình 2.11: Quy trình xây dựng bộ dữ liệu bán tự động - -5+5+c<csxersrsrsree 13
Hình 3.1: Minh họa mơ hình AINN 5c c5: 22+ 22222 xxx 15 Hình 3.2: Minh họa bộ filter trong mơ hình CNN 5-5552 5+ sxzszsxsxererersee 17 Hình 3.3: Lop pooling với phương thức max poOÌIng - - s+++++e++exexexexszeree 18 Hình 3.4: Lớp pooling với phương thức average poỌInØ ¿55s 5s s+s+s+x+xsesxsss 18
Hình 3.5: Sơ đồ kiến trúc VGG-16 và VG-l9 cccccccc+ctttttrkkrrtrrrrrrrrrrrrrrre 19
Hình 3.6: Sơ đồ kiến trúc ResNete csscccssssssseessssssssessssssuesssesssuesessssssesesesssesecsssseeseesssneeseeen 20
Hình 3.7: Một block ResNet (bên trái) Một block ResNeXt với cardinality = 32 (kích
thước của tập hợp các phép biến đổi) (bên phải) -2¿-©2¿++£+2+z£+zeecvzesrrscee 20
Hinh 3.8: RNN 66 4001:0011 21 Hình 3.9: RNN đã được trải ra cccccccccccscscssesesscsscseesesscsccscsscsesssseescssesscsesessesecsecsesecseeeeees 22
Hình 3.10: Module lặp trong RNN chuẩn chứa một lớp tanh duy nhất 23
Hình 3.11: Module lặp trong LSTM chứa 4 lớp tương tác . -c+c+c+csxse2 23
Hình 3.12: Dây chuyền C trong LSTM 2¿-©2++22++++2EEE+ttEExertrrkrrrrrkerrre 24
Hình 3.13: (bên trái) cơ chế scaled-product attention gồm bộ truy van Q, bộ khĩa K và
bộ giá trị V (bên phải) multi-head attention gồm h thành phan bên trái kết hợp lại 27
Hình 3.14: Minh họa cách hoạt động của self-attention Giá trị được biểu thị bằng mau
xanh va gia tri âm được biéu thi bang MAU CAM 0 28Hình 3.15: Mơ hình Transformer được đề xuất bới Vaswani và cộng sự 29Hình 3.16: Minh họa đầu vào của mơ hình BERT với 2 câu riêng biỆt - 30
Trang 8Biểu đồ phân bố các câu hỏi theo loại .2 2¿©+zz22xszeccvxeerrrecee 35
Biéu đồ phân bố loại câu hỏi trên các tập dữ liệu - -c ccee 35Biéu đồ phân bố các số lượng từ trong câu hỏi tiếng Nhật 36
Số lượng cặp câu trên mức 9(0% 2¿++++2++++tEE++++22E++tttEExrrrrxerrrrrex 36Quy trình huấn luyện chung của các mô hình -¿¿cz+2cse+ 37
Luông huấn luyện của mô hình cho bai toán hỏi đáp trực quan đa ngôn ngữ
—— Ô 38
Luéng xử lý của mô hình VGG+LSTM 22- 2 +£+2E+£22EE+z+EExe+rrscee 39Luéng xử lý của mô hình VGG+Hierarchical Co-aftention 40Luồng xử lý của mô hình BERLT 2 ++£+2EE+£2EE+EetEEE+zerrrxxerrrrrcee 40
Vi dụ về độ tương đồng Wu-Palmer với WordNet tiếng Anh 43Cấu trúc của bộ dữ liệu -+t921EE2EEE 11T 43
Trang 9DANH MỤC BANG
Bang 4.1: Bảng các quy tắc xây đựng bộ dit liệu -¿ 2¿c522+ce+ccvxererrxeerr 34
Bảng 4.2: Thông số các tham số được sử dụng khi huấn luyện các mô hình 41
Bang 5.1: Kết quả đánh giá của mô hình CNN+LSTM trên 3 thang đo 44
Bảng 5.2: Kết quả đánh giá của mô hình VGG+Hierarchical Co-Attention trên 3 thang h1 44
Bảng 5.3: Kết quả đánh giá của mô hình BERT trên 3 thang đo -¿ 45
Bang 5.4: Kết quả kiểm thử của mô hình VGG+LSTM trên từng ngôn ngữ 45
Bảng 5.5: Kết quả kiêm thử của mô hình VGG+Hierarchical Co- Attention 46
Bang 5.6: Kết quả kiểm thử của mô hình BERT trên từng ngôn ngữ 47
Bang 5.7: Kết quả đánh giá của mô hình đơn ngôn ngữ VGG+LSTM 47
Bang 5.8: Kết quả đánh giá của mô hình đơn ngôn ngữ VGG+Hierarchical Co -A€TẨIOH Ấn ẾO ẤT TT ẰN HH TH Ho TH TH TL HH Hư 48 Bang 5.9: Kết quả đánh giá của mô hình đơn ngôn ngữ BERT - 49
Trang 10DANH MỤC TỪ VIẾT TẮT
VỌA Visual Question Answering
WUPS WuPalmer Similarity
RNN Recurrent Neural Network
Vietnamese (Tiéng Viét)
10 English (Tiéng Anh)
11 Japanese (Tiéng Nhat)
Trang 11TÓM TẮT KHÓA LUẬN
Hỏi đáp trực quan (VQA) là một lĩnh vực mới đang dần tạo được sức hút và có những
tiễn bộ đáng kể trong những năm gần đây Đây thực sự là một nhiệm vụ day thách thức
vì nó đòi hỏi sự tương tác và bổ sung giữa xử lý ảnh và xử lý ngôn ngữ tự nhiên Hệ
thống Hỏi đáp trực quan có thể trích xuất câu trả lời phù hợp cho một câu hỏi dựa trênmột hình ảnh cho trước Mặc dù nhiệm vụ đơn giản đối với con người, nhưng nó là một
thách thức đối với máy tính Gần đây, có nhiều bộ đữ liệu và mô hình hỏi đáp trực quan
được đưa ra nhưng hau hết đều trên các loại ngôn ngữ phổ biến như tiếng Anh và tiếngTrung Hiện tại chưa có bộ dữ liệu đa ngôn ngữ nào vừa chứa tiếng Việt và tiếng Nhậtnên chúng tôi muốn xây dung bộ dit liệu đa ngôn ngữ trên 3 thứ tiếng đó là tiếng Anh,
tiếng Việt và tiếng Nhật dé đóng góp vào cộng đồng xử lý ngôn ngữ tự nhiên tại Việt
Nam.
Trong khóa luận này, chúng tôi xây dựng bộ dữ liệu hỏi đáp trực quan đa ngôn ngữ trên
tiếng Việt, tiếng Anh và tiếng Nhật Dữ liệu tiếng Anh và tiếng Việt được xây dựng vàchỉnh sửa dựa trên bộ dữ liệu UIT-ViVQA của Khánh và các cộng sự [1] Đối với tiếng
Nhật, chúng tôi sử dụng phương pháp kết hợp giữa công cụ dich và người dịch dé xây
dựng bộ dữ liệu phù hợp với thời gian thực hiện khóa luận Bộ dữ liệu được xây dựng
bao gồm khoảng 12000 cho từng loại ngôn ngữ và có 4 loại câu hỏi chính, đó là câu hỏi
về số lượng, vật thé, địa điểm và màu sắc Ngoài ra chúng tôi còn thực nghiệm trên các
mô hình khác nhau như LSTM [2], Hierarchical Co-attention [10] và BERT dé tim ra
mô hình thích hợp cho bộ dữ liệu đã xây dung cũng như cho bài toán hỏi dap trực quan
đa ngôn ngữ.
Trang 12Chương 1: MỞ ĐẦU
Hệ thống trả lời câu hỏi trực quan cần thiết cho nhiều tình huống thực tế như là hỗ trợ,
dé xuất, trả lời câu hỏi cho khách hàng hay tìm kiếm hình ảnh Ngoài ra, hỏi đáp trực
quan còn có thê tích hợp vào các hệ thống chatbot Các hệ thống hỏi đáp trực quan làcông cụ rất hữu ích cho những người khiếm thị, nó có thể giúp họ nhận biết được cảnh
vật hay tình huống xung quanh, làm giảm thiểu tai nạn không mong muốn
ls there anyone on the right?
Hình 1.1: Minh họa công dụng của hỏi đáp trực quan.
Việc xây dựng mô hình đa ngôn ngữ sẽ làm giảm chỉ phí xây dựng, và nâng cấp so với
xây dựng riêng từng mô hình cho từng loại ngôn ngữ.
Gần đây, có nhiều bộ di liệu và mô hình hỏi dap trực quan được đưa ra nhưng hầu hếtđều trên các loại ngôn ngữ phổ biến như tiếng Anh và tiếng Trung Hiện tại chưa có bộ
dữ liệu đa ngôn ngữ nào vừa chứa tiếng Việt và tiếng Nhật nên chúng tôi muốn xây dựng
bộ dit liệu đa ngôn ngữ trên 3 thứ tiếng đó là tiếng Anh, tiếng Việt và tiếng Nhật dé đóng
góp vào cộng đồng xử lý ngôn ngữ tự nhiên tại Việt Nam Chúng tôi quyết định xây
Trang 13dựng bộ liệu hỏi đáp trực quan đa ngôn ngữ được xây dựng trên 3 ngôn ngữ là tiếng Việt,tiếng Nhật và tiếng Anh thông qua các bộ dữ liệu có sẵn là ViVQA [1], VQA [2] So với
chỉ sử dụng một ngữ thì việc áp dụng đa ngôn vào bài toán này sẽ tránh được trường hợp phải đào tạo một mô hình đơn ngữ cho mọi ngôn ngữ Ngoài ra, mô hình đa ngôn ngữ
có thê đạt được hiệu suất tốt hơn so với các mô hình đơn ngữ, đặc biệt là đối với các
ngôn ngữ ít tài nguyên Tuy nhiên, dé có thé cho ra một mô hình đa ngôn có kết quả khảquan, thì cần một bộ dữ liệu có độ chính xác nhất định cho từng ngôn ngữ Một bộ dữ
liệu đa ngôn ngữ sẽ cần nhiều nguồn lực dé xây dựng và kiểm tra dit liệu trên mỗi loại
ngôn ngữ, điều đó dẫn đến việc xây dựng trở nên khó khăn và tốn kém hơn Vì vậy,
chúng tôi quyết định chỉ thực hiện xây dựng bộ dữ liệu trên 3 ngôn ngữ Và sau đó,
nghiên cứu các mô hình, thuật toán phù hợp với bộ dữ liệu đã tạo.
Trang 14Chuong 2: TONG QUAN
2.1 Giới thiệu bài toán
Visual question answering (VQA) hay hỏi đáp trực quan là bài toán nhằm mục đích
tìm ra câu trả lời đúng cho một câu hỏi nhất định phù hợp với nội dung trực quan của
một hình ảnh nhất định Mục tiêu đích của bài toán nảy là tạo ra các hệ thống có théhiểu nội dung của một hình ảnh giống như cách mà con người làm và giao tiếp hiệuquả về hình ảnh đó bằng ngôn ngữ tự nhiên Đây thực sự là một nhiệm vụ đầy thách
thức vì nó đòi hỏi sự tương tác và bé sung của cả trình trích xuất tinh năng hình anh
và trình xử lý ngôn ngữ tự nhiên.
Question Answer
EN what parked next to the sidewalk bus
VI _ những gi đỗ bên cạnh via hè xe buýt
EN how many sheep grazingin agrassy bus
field near a wire fence?
VI có bao nhiêu con cừu dang chan thả xe buýt
trên đồng cỏ gần hàng rào dây thép
JA FAR HS a YAO
Hình 2.1: Một số vi dụ về hỏi dap trực quan da ngôn ngữ
Trang 152.2 Hướng tiếp cận
Một trong các hướng tiếp cận tốt nhất hiện nay cho bài toán hỏi đáp trực quan đó là
dựa trên cơ chế attention Phương pháp này cô găng tìm hiểu sự tương tác giữa các
đặc trưng trong ảnh và các đặc trưng trong câu hỏi thông qua một mô-đun gọi là
attention Sau đó, các tính năng chung có được từ mô-đun đó được tận dung dé trảlời câu hỏi tương ứng Hướng tiếp cận này có 4 bước chính:
Image: = CNN
| (2
Visual | _Representation | |
Joint Answer ` | Answer:
KoitoboiictdiebcTlZ61g0gi600/3(4:3:3:470-3'08 Representation | prediction ! Baseball bat
' Question: h > J ~S” Va, ỐC ỐỒỘỐ ` ộo °¬
'j {Textual |
| What is the girl holding ——> á
+ in her hand? | Representation
Các thuộc tính hoặc khía cạnh cơ bảnrõ ràng giúp chúng ta nhận ra một đối tượng,
hình ảnh hoặc một cái gì đó cụ thé được gọi là các đặc trưng Các đặc điểm phân
biệt là các thuộc tính khác biệt Khi thao tác trên tập dữ liệu VQA, chúng ta phải
trích xuất các đặc điểm của các hình ảnh khác nhau dé tách các hình ảnh dựa trên
các tinh năng hoặc khía cạnh cụ thé Đặc điểm hình ảnh là một trong những phan
thông tin quan trọng nhất dé hệ thống VQA đưa ra câu trả lời chính xác
Trang 16e Textual Representation
Textual Representation có thé được cung cấp theo nhiều cách khác nhau Các kỹ
thuật dựa trên số lượng và tần số như count vectoization và TF-IDF là những vi
dụ về các phương pháp tiếp cận cũ hơn Ngoài ra còn có các cách tiếp cận dựa
trên dự đoán như bag of words va skip grams, pre-trained Word2Vec.
Embeddings cũng có thé được tao bằng cách sử dụng kiến trúc học sâu như RNN,
LSTM, GRU và 1-D CNN LSTM là một trong những cách thường được sử dung
trong tài liệu VỌA Đối với nhúng câu hỏi trong VQA, Glove hoặc BERT được
sử dụng rộng rãi dé nam bắt sự biểu diễn của các từ và câu trong các ngữ cảnh
Gan day, cac dac diém chung nhận được từ co chế attention sau đó được chuyền
qua bộ phân loại dé đưa ra câu trả lời dự đoán Tuy nhiên, nhiều mô-đun hơn cũng
có thể được áp dụng đề tạo ra kiến thức bên ngoài và giải quyết các câu hỏi khó
Trang 172.3 Các công trình liên quan
Hình 2.3: Sơ đồ xây dựng bộ dữ liệu UIT-ViVQA
UIT-ViVQA là bộ dữ liệu hỏi đáp trực quan trên tiến ø Việt được dựa trên dữ liệutiếng Anh COCO-QA UIT-ViVQA bao gồm 15000 cặp câu hỏi tiếng Việt và
được chia thành 4 loại câu hỏi, đó là câu hỏi về số lượng, câu hỏi về địa điểm, câu
hỏi về mau sac và câu hỏi vê màu sắc.
Trong quá trình xây dựng bộ dữ liệu này, Khánh và các cộng sự sử dụng phương
pháp kết hợp giữa các công cụ dịch (Google translate và Microsoft translate) vàngười dịch Các bản dịch tiếng Việt từ bộ dữ liệu tiếng Anh sẽ được tính độ tươngđồng Cosine và chỉnh sửa các câu có độ tương đồng thấp trước khi đưa vào sửdụng Khánh và các cộng sự sử dụng giới hạn cho độ tương đồng la 80% nhưng
qua xem xét, chúng tôi còn phát hiện một sô cặp câu hỏi chưa chính xác.
Trang 18What is the color of the sign?
Microsoft: Mau của dau hiệu là gi?
Google: Mau của biên bao là gi?
|
cosine: 89%
Hình 2.4: Ví dụ về lỗi của bộ dữ liệu UIT-ViVQA
Trong hình vi dụ phía trên, khi dịch câu hỏi “What is the color of the sign?” sang
tiếng Việt, các công cụ dịch đưa ra các bản dịch khác nhau Từ “the sign” có thể
dich sang “dau hiệu” hoặc “biên báo” nhưng trong trường hợp này nó nên đượcdịch ra là “biên báo” Ngoài ra, độ tương đồng cho 2 bản dịch là 89%, nó đã vượt
qua giới hạn độ tương đồng của bộ dit liệu UIT-ViVQA do đó bản dịch này đượcchấp nhận
Image
Anwe AJƑUEEIMM aR.
The bus is red Bananas.
Hình 2.5: Một số cặp câu hỏi trả lời trong bộ dữ liệu FM-IQA
Trang 192.3.2 FM-IQA
FM-IQA [3] là một trong những bộ dữ liệu đa ngôn ngữ đầu tiên do Gao và các
cộng sự dé xuất FM-IQA có khoảng 300000 cặp câu hỏi và câu trả lời tiếng Anh
và tiếng Trung Xây dựng bộ dữ liệu FM-IQA được bắt đầu từ việc thu thập hình
ảnh từ bộ dữ liệu ảnh MS COCO [9] Các câu hỏi và câu trả lời sẽ được thu thập
từ các cộng đồng online Baidu Các annotator được tự đo hỏi bất kỳ loại câu hỏi
nao liên quan đến hình ảnh Do đó, FM-IQA là một bộ dữ liệu hỏi đáp trực quan
đa ngôn ngữ freestyle.
Đối với phần dir liệu tiếng Anh, Gao và các cộng sự chọn hướng sử dụng dịch
máy dé tự động dịch từ tiếng Trung sang tiếng Anh Tuy nhiên, sử dụng dịch máy
vẫn còn nhiều bat cập, chưa có tính tự nhiên như các bản dịch của con người
Trong công trình nay, mô hình mà Gao và các cộng sự dé xuất là mô hình
CNN-LSTM LSTM là một mô hình khá cũ so với hiện tại Do thực hiện vào năm 2015
nên các tác giả chưa thể tiếp cận với các mô hình sau này hiện đại hơn như
Hierarchical Co-attention hay BERT.
What is the cat doing ? <BOA> Sitting on the umbrella
® @ ew, & Shared C)
embedding TCI CIC ICICI
LSTM
Softmax C) O k2 L2) %
Sitting on the umbrella <EOA>
Hình 2.6: Mô hình CNN-LSTM được đề xuất bởi Gao và các cộng sự
Trang 202.3.3 xGQA
Skateboarder KTo neTraeT no He6y?
EEA tit ?
SI oss 3 US?
Siapa yang sedang terbang melintasi langit?
Hình 2.7: Vi du cho bộ dữ liệu xGQA với 8 loại ngôn ngữ khác nhau.
Nam 2022, Jonas và các cộng sự [4] đã xuất bản một bộ đữ liệu hỏi đáp trực quan
đa ngôn ngữ với số lượng ngôn ngữ khác nhau lên đến 8 loại Đó là tiếng Anh,
tiếng Đức, tiếng Bồ Đào Nha, tiếng Nga, Tiếng Indo, tiếng Bengal, tiếng Hàn,
tiếng Trung xGQA được phát triển dựa trên bộ dit liệu thuần tiếng Anh GQA[11] Khoảng 12000 cặp câu hỏi câu trả lời tiếng Anh sẽ được dịch thủ công sang
7 loại ngôn ngữ còn lại.
Qua các công trình liên quan chúng tôi nhận thấy các công trình có chứa tiếng
Việt hay tiếng Nhật còn ít Đặc biệt chưa có bộ dữ liệu đa ngôn ngữ nào có cảtiếng Nhật và tiếng Việt trong đó Do đó chúng tôi quyết định lựa chọn đề tài này
10
Trang 212.4 Khó khăn và thách thức
Gần đây, bài toán hỏi đáp trực quan đang được nhiều sự quan tâm, đặc biệt là hỏi đáp
trực quan đa ngôn ngữ Tuy nhiên do lượng người dùng của từng loại ngôn ngữ là
khác nhau nên số lượng các công trình xử lý ngôn ngữ tự nhiên liên quan đến ngôn
ngữ đó cũng khác nhau.
Hỏi đáp trực quan đa ngôn ngữ cũng như vậy, hiện nay có nhiều bộ đữ liệu trên các
thứ tiếng phổ biến như tiếng Anh và tiếng Trung Dé lại các ngôn ngữ khác ít quan
Mandarin Chinese (1120 million) a? a
Hindi (excl Urdu) (600 million) [i
Spanish (543 million) BĐS
Standard Arabic (274 million) i
Bengali (268 million) French (267 million) [i
Russian (258 million) %GG%S%%%%
Portuguese (258 million) SG Urdu (excl Hindi) (230 million) ĐS%%%S Indonesian (excl Malay) (199 million) ĐO
Standard German (135 million) ĐO
Japanese (126.425 million) BH
0 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300
Hình 2.8: Vi dụ cho bộ dữ liệu xGQA với 8 loại ngôn ngữ khác nhau.
https://en.wikipedia.org/wiki/List_of_languages_by_total_number_of_speakers
Một thách thức lớn cho bai toán hoi dap trực quan da ngôn ngữ nói riêng hay các bai
toán đa ngôn ngữ nói chung đó là chất lượng của bộ dữ liệu Việc xây dựng được một
bộ dữ liệu tốt cần phải có đội ngũ annotator tốt cho từng loại ngôn ngữ Nhưng nếu
11
Trang 22như sử dụng các công cụ dịch tự động thì kết quả thu được từ bộ dữ liệu sẽ khôngđược tự nhiên, ảnh hưởng đến chat lượng của bộ dữ liệu Do đó, chi phí để xây dựng
được một bộ dữ liệu đa ngôn ngữ sẽ tôn nhiêu công sức và nhiêu chi phí hơn.
Việc xây dựng mô hình đơn ngôn ngữ cho từng loại ngôn ngữ sẽ tốn nhiều thời gianxây dựng, tinh chỉnh hay cũng như nâng cấp Do đó, việc lựa chọn các mô hình đa
ngôn ngữ sẽ làm giảm thiêu thời gian và công sức huấn luyện đi nhiều lần
2.5 Hướng nghiên cứu
Có một số cách xây dựng bộ dữ liệu đa ngôn ngữ:
Hình 2.9: Quy trình xây dựng bộ dữ liệu tự động
Đầu tiên là cách làm tự động dịch hoàn toàn như trong bộ dữ liệu FM-IQA của
Gao và các cộng sự Họ ban đầu xây dựng một bộ dữ liệu tiếng Trung với 300000
cặp câu hỏi và câu trả lời Sau đó sử dung dich máy dé dịch sang tiếng Anh Việc
làm này không tốn nhiều công sức dé xây dựng bộ đữ liệu Tuy nhiên tính chính
xác của bản dịch không được đảm bảo và không có tính tự nhiên như bản dịch Của con người.
12
Trang 23Hình 2.10: Quy trình xây dựng bộ dữ liệu thủ công
Dịch thủ công là phương pháp tốn nhiều thời gian, công sức và chỉ phí Việc dịch
thủ công cần phải có đội ngũ annotator có trình độ hoặc người bản địa để có kếtquả dịch thuật tốt Trong bộ dữ liệu xGQA của Jonas và các cộng sự, họ đã thuê
các annotator người ban dia từ là các sinh viên trường đại học dé xây dựng bộ dữ
liệu trên 8 loại ngôn ngữ khác nhau.
Với các tính chất như thế chúng tôi thấy phương pháp dịch thủ công không phù
hợp với thời gian cũng như công sức thực hiện trong kỳ khóa luận này.
Trang 24So với 2 hướng xây dựng bộ dữ liệu kế trên, phương pháp dịch kết hợp (semi) sẽ
làm giảm bớt chỉ phí so với phương pháp dịch thủ công và cho kết quả tốt hơn so
với dịch tự động Trong bộ dữ liệu UIT-ViVQA của Khánh và các cộng sự, ho sử
dụng bộ dữ liệu gốc tiếng Anh với 15000 cặp câu hỏi và câu trả lời để dịch kết
hợp sang tiếng Việt Các câu hỏi và câu trả lời ban đầu sẽ được dịch tự động sang
tiếng Việt với 2 công cụ dich đó là Google translate và Microsoft translate Sau
đó sẽ được kiểm tra và chỉnh sửa bởi các annotator có trình độ Việc chỉ kiểm tra
và chỉnh sửa đã tiêt kiệm khá nhiêu công sức so với việc dịch thủ công hoàn toàn.
Sau khi xem xét và đánh giá cả 3 phương pháp xây dựng bộ dữ liệu, chúng tôi quyết
định chọn phương pháp dịch kết hợp để xây dựng bộ dữ liệu UIT-mVQA
14
Trang 25Chương3: CƠ SỞ LÝ THUYET
3.1 Artificial Neural Network (ANN)
Mạng nơ-ron nhân tao, Artificial Neural Network (ANN) gọi tắt là mạng nơ-ron, làmột mô hình xử lý thông tin được mô phỏng dựa trên cơ chế hoạt động của các hệnơ-ron sinh học Nó được tạo nên từ một số lượng lớn các phần tử (gọi là phần tử xử
lý hay nơ-ron) kết nối với nhau thông qua các liên kết (gọi là trọng số liên kết) làmviệc như một thé thống nhất dé giải quyết một van dé cụ thể nào đó
Tương tự như nơ-ron sinh học, nơ-ron nhân tao cũng nhận các tín hiệu dau vào, xử
lý (nhân các tín hiệu này với trọng số liên kết, tính tổng các tích thu được rồi gửi kết
quả tới hàm truyền), và cho một tín hiệu đầu ra (là kết quả của hàm truyền)
Kiến trúc chung của một mạng nơ-ron nhân tạo gồm 3 thành phần đó là: Input Layer,
Hidden Layer va Output Layer.
Input layer ; Hidden layers : Output layer
Hình 3.1: Minh hoa mô hình ANN
15
Trang 26Có hai loại mang ANN chính: FeedForward Network (Mạng truyền thang) và
Recurrent Network (Mạng hồi quy)
3.2 Convolutional Neural Network (CNN)
Convolutional Neural Network (CNN hoặc ConvNet) được tam dich là: Mang
nơ-ron tích chập, là một mô hình học sâu phổ biến và tiên tién nhất hiện nay Hau hết
các hệ thống nhận diện và xử lý ảnh hiện nay đều sử dụng mạng nơ-ron tích chập vì
rút trích các đặc trưng bức ảnh trên từng khía cạnh tùy vào kernel nhập vào.
Các lớp convolutional áp dụng một phép toán tích chập cho đầu vào và chuyểnkết quả cho lớp tiếp theo Nếu như áp dụng lớp tích chập vào một tắm ảnh, nó
sẽ làm giảm kích thước tắm ảnh xuống Kết quả của phép tích chập giữa ma
trận hình ảnh và kernel được gọi là Features Map Đầu ra cuối cùng của lớp
tích chập là một vectơ.
Tầng convolution có chức năng chính là phát hiện đặc trưng cụ thể của bức
ảnh Những đặc trưng này bao gồm đặc trưng cơ bản là góc,cạnh, màu sắc,
hoặc đặc trưng phức tạp hơn như texture của ảnh Vì bộ filter quét qua toàn
bộ bức ảnh, nên những đặc trưng này có thé nằm ở vị trí bất kì trong bức ảnh,
cho dù ảnh bị xoáy trái/phải thì những đặc trưng này vẫn bị phát hiện.
16
Trang 27‘ot
ba > SN FmH « I¬- ra.
Các lớp pooling được sử dung dé giảm kích thước của các feature map Do
đó, nó được dùng dé làm giảm số lượng các tham số cần tìm hiểu (chỉ giảmchiều dài và chiều rộng nhưng chiều sâu không thay đôi) và số lượng tính toán
được thực hiện trong mạng Lớp pooling tóm tắt các đặc trưng có trong
features map đầu ra của lớp tích chập Điều này làm cho mô hình dễ thích ứng
hơn đối với các biến thể về vị trí của các đối tượng trong hình ảnh đầu vào.Một số các lớp pooling thường được dùng:
e Max Pooling: là lớp chọn ra phan tử lớn nhất trong một phạm vi nhất định
của một feature map Do đó, đầu ra của lớp max pooling sẽ là một feature
map chứa các đặc trưng nôi bật nhât của feature map trước đó.
17
Trang 28Max Pool
—>
Filter - (2 x 2) Stride - (2, 2)
Hình 3.3: Lớp pooling với phương thức max pooling
e Average pooling: là lớp tinh giá trị trung bình của các phan tử trong phạm
vi một vùng của Features map được filter bao phủ Do đó, trong khi max
pooling trả về các đăng trưng nồi bật nhất thì average pooling sẽ tổng hợp
các đặc trưng có mức độ trung bình.
e Global pooling: là lớp sẽ làm giảm số lượng mỗi kênh trong feature map
xuống một giá trị duy nhất Ví dụ như feature map có kích thước nụ x nw X
Ne sẽ được rút gon về kích thước 1 x 1 x ne
18
Trang 29nơ-ron Tâng này có chức năng chuyên ma trận đặc trưng ở tâng trước thành
vecto chứa xác suat của các đôi tượng cân được dự đoán Cuôi cùng sử dụng
softmax hoặc sigmoid đề phân loại đầu ra
3.2.2 Một số mạng CNN nỗi tiếng
3.2.2.1 VGG Net
Mang VGG là một kiến trúc mạng nơ-ron phô biến được đề xuất bởi Karen
Simonyan & Andrew Zisserman từ Dai hoc Oxford [12] Nó cũng dựa trên CNN va đã được áp dụng cho ImageNet Challenge Mang VGG dat độ chính
xác trong bài kiểm tra top 5 là 92,7% trên tap dữ liệu ImageNet Những cảitiến lớn của mạng VGG khi so sánh với AlexNet đó là việc sử dụng các filter
có kích thước kernel lớn (kích thước 11 và 5 trong lớp chập đầu tiên và thứhai, tương ứng) với nhiều filter có kích thước kernel (3 x 3)
F—1F¬ oe —¬ ¬=¬ar¬n ¬"rrrrar¬ 1F—TT I1
a ” — là) vs Í Iniiniinsic
o| $313 |8§ Sis 8/8 8 s °I|E|Ellk- ä là lä (5 $28 :
si im ch oi) 3 ope | | a Baa eile iia FIFI E
= | ° |i a) a minim a mm na 2 m|m¿eĐ poll ell all &
El| |ElI|Ellxli | Sl ess) |z|| Se x Sih | >| x >l|>l|l|>l|l|lx +.
=l|siisiié §'§ 2 § Š5§ $ SIE cls Ệ § § £ èellElltlls
8//8|/2) |§I[BIŠS LájLzlI§|Lš Š Si㊠5 5 5Š 5155 8
l0 o là mh a là lá là a a là mii mim) a ô ha la ti) allezl|z SP ¬ II ~
E|lEllEllsl [zl|Ellsi IllrllellElls| [zllEllEllEllsl IzllEllEllE >l|glÌE
Mạng ResNet là kiến trúc đã giành chiến thắng trong cuộc thi ILSVC 2015
[13] được phát triển bởi Kaiming He và cộng sự Đây là mạng CNN sâu với
152 lớp Mô hình này còn thống trị trong các bai toán detection, localization,
segmentation của cả hai cuộc thi ILSVRC và COCO Challenge.
19
Trang 30ResNeXt [14] là một kiến trúc mạng đơn giản, được mô-đun hóa cao dé phân
loại hình ảnh ResNeXt được xây dựng bằng cách lặp lại một khối xây dựng
tập hợp một tập hợp các phép biến đôi có cùng một cấu trúc liên kết Thiết kếđơn giản dẫn đến một kiến trúc đồng nhất, nhiều nhánh chỉ có một vài siêu
Hình 3.7: Một block ResNet (bên trái) Một block ResNeXt với cardinality = 32 (kích
thước của tập hợp các phép biên đôn) (bên phai).
20
Trang 313.3 Các mô hình dịch chuỗi
3.3.1 Recurrent Neural Network (RNN)
Con người hiểu biết và giải quyết van dé dựa trên sự hiểu biết của mình từ trước
đó Mạng lưới thần kinh truyền thống khó có thé làm được điều nay, và nó có vẻ
như là một thiếu sót lớn Ví dụ, hãy tưởng tượng bạn muốn phân loại loại sự kiệnnào đang diễn ra tại mọi thời điểm trong phim Nó không rõ làm thế nào một
mạng lưới thần kinh truyền thống có thể sử dụng lý lẽ của nó về các sự kiện trước
đó trong phim đề thông báo cho những sự kiện sau này
RNN giải quyết vấn đề này Chúng là các mạng có các vòng lặp trong đó, cho
phép thông tin tồn tại
(h)
©)
Hinh 3.8: RNN co vong lap
Trong so đồ trên, một đoạn của mạng thần kinh, A, xem xét một số xạ đầu vào và
xuất ra một giá tri h Một vòng lập cho phép thông tin được truyền từ một bước
của mạng sang bước tiếp theo Những vòng lập này làm cho RNN có vẻ như bị
án Tuy nhiên, nếu bạn suy nghĩ nhiều hơn một chút, hóa ra họ không phải là một
mạng lưới thần kinh bình thường RNN có thê được coi là nhiều bản sao của cùng
một mạng mỗi bản tin truyền cho một người kế nhiệm Xem xét những gì xảy ra
nếu chúng ta bỏ vòng lặp
21
Trang 32Bản chat giống như chuỗi này cho thấy các RNN có liên quan mật thiết đến các
chuỗi và danh sách Nó sử dụng kiến trúc tự nhiên của mạng neuron dé sử dụngcho dữ liệu do Và chúng được sử dụng nhiều trong các dữ liệu kiểu chuỗi và
danh sách Trong vai năm qua, đã có những thành công ngoài mong đợi khi áp
dụng RNN cho nhiều vấn đề khác nhau: nhận dạng giọng nói, mô hình ngôn ngữ,dịch thuật, chú thích hình ảnh Điều cần thiết cho những thành công này là việc
sử dụng LSTM, một loại RNN rat đặc biệt, hoạt động, cho nhiều tác vụ, tốt hơn
nhiều so với phiên bản tiêu chuẩn Hầu như tat cả các kết quả thú vị dựa trên RNNđều đạt được với chúng
3.3.2 Long Short — Term Memory (LSTM)
Long Shon Term Memory (mang bộ nhỏ dai ngắn hạn) - thường được gọi là
LSTM là một loại RNN đặc biệt, có khả năng học các phụ thuộc xa Chúng được
giới thiệu bởi Hochreiter & Schmidhuber (1997) [8], và được nhiều người tinhchỉnh và phố biến Chúng hoạt động rất tốt trong nhiều van đề lớn, và hiện đang
được sử dụng rộng rãi.
22