1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học máy tính: Nghiên cứu phương pháp hỏi đáp trực quan đa ngôn ngữ với các mô hình thị giác - ngôn ngữ được huấn luyện sẵn

75 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu phương pháp hỏi đáp trực quan đa ngôn ngữ với các mô hình thị giác - ngôn ngữ được huấn luyện sẵn
Tác giả Phạm Quang Vinh, Trương Xuân Linh
Người hướng dẫn THS. Nguyễn Văn Kiệt, THS. Võ Duy Nguyên
Trường học Trường Đại học Công nghệ Thông tin
Chuyên ngành Khoa học máy tính
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2022
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 75
Dung lượng 40,16 MB

Cấu trúc

  • 2.3.1.4 Cơ chế tự chú ý (Self-attention) (30)
  • 2.3.2 Biểu diễn đặc trưng Ngônngữ (31)
    • 2.3.2.1 Biểu diễn đặc trưng ngôn ngữ với mô hình RNN và (32)
    • 2.3.2.2 Biểu diễn đặc trưng ngôn ngữ với mô hình Trans- (33)
  • 2.3.3 Hợp nhất đặc trưng ngôn ngữ và hình ảnh (33)
    • 2.3.3.1 Hợp nhất nông - Shallow Fusion (34)
    • 2.3.3.2. Mã hóa hợp nhất -Fusionencoder (0)
  • 2.3.4 Mô hình sinh câu trảlời (35)
  • 2.4 Hướng tiếp cận chung cho bài toán Trả lời câu hỏi trực quan Da ngôn nữ...... <i gn ‹ (36)
  • 24.1 Tiếp cận dựa trên mô hình dich may (36)
  • 3.1 Mô hình Biểu diễn đặc trưng Hìnhảnh (37)
    • 3.1.1 ResNetqm S (37)
  • 3.12 VIT-VisionTransformer (38)
    • 3.1.3. BEIT - Bidirectional Encoder representation from Image Trans- (40)
    • 3.1.4 Detectron2 - Phuong pháp đề xuất Bag-of-object (0)
  • 3.2 Mô hình Biểu diễn đặc trưng Ngônngữ (42)
    • 3.2.1 BERT - Bidirectional Encoder Representation from Trans- former... 2. ee 31 (42)
    • 3.2.2 T5 - Text-To-Text Transfer Transformer (44)
  • 3.3 Phương pháp hợp nhất đặc trưng và sinh câu trả lời (45)
    • 4.1.1 Bộ dữ liệu UIT-EVJVQA (47)
  • 4.12 Bộ dữ liệu UIT-mVQA (48)
  • 42.1 Fl-score.. 2... 2... Q.0 Q HQ ee 38 (49)
    • 4.2.2 BLEU - Bilingual Evaluation Understudy (50)
  • 43.1 Phương pháp trích xuất đặc trưng thị giác (53)
  • 43.11 Dựa trênmô hìnhResNet (53)
  • 43.12 Dựa trênmôhìnhBET (54)
    • 43.1.3 Dựa trênmôhìnhVÍT (56)
      • 4.3.1.4. Biểu diễn ảnh tăng cường thông tin đối tượng - Bag (59)
    • 4.3.2 Phương pháp trích xuất đặc trưng cAuhoi (60)
      • 4.3.2.1 Dựa trênmôhìnhhmBERT (60)
  • 4.4. Hướng tiếp cận dựa trên Mã hóa hợp nhất đơn luồng (63)
    • 4.4.1 Dựa trên huấn luyện từ đầu mô hình Transformer cơ sở (63)
    • 4.4.2 Dựa trên việc học chuyền giao mô hình mT5 encoder-decoder 53 (64)
  • 4.5 Tổng quanđánhgiá................ Ốc. 54 (65)
    • 4.5.1 Trên bộ dữ liệu UIT-EVJVQA (66)
    • 4.5.2 Morong đánh giá trên bộ dữ liệu UIT-mVQA (0)
  • 4.10 Vi dụ về một bộ câu hỏi về hình ảnh với phương pháp đề xuất tại phần 4.3.1.3... 000000000 ee ee eee 47 (0)
  • 4.12 Vi dụ về một bộ câu hỏi về hình ảnh với phương pháp đề xuất tại phần 4.3.1.4........... Ốc ee eee 48 (0)
  • 4.14 Vi dụ về một bộ câu hỏi về hình ảnh với phương pháp đề xuất tại phần 4.3.2.2........... Q2 ee ee 51 (0)
  • 4.15 M6 hình tổng quan hướng tiếp cận dựa trên Mã hóa hop nhất donluéng .. . đ“ ZZ/.“N (0)
  • 4.16 Vi dụ về một bộ câu hỏi về hình ảnh với phương pháp đề xuất tại phần 4.4.1.0 ee 33 (0)

Nội dung

1.1 Động lực nghiên cứu Bài toán Trả lời câu hỏi trực quan VQA - Visual question answering là một trong những hướng nghiên cứu đa tác vụ kết hợp giữa thị giác và ngôn ngữ, là điểm giao c

Cơ chế tự chú ý (Self-attention)

Như được trình bài ở phần 2.2 cơ chế cực kỳ quan trọng của kiến trúc Trans- former là cơ chế tự chú ý (self-attention) nó giúp cho các phan tử trong một tập có được các kết nối với nhau từ đó biểu diễn thông tin giữa chúng mang thông tin ngữ nghĩa tốt hơn, ngoài việc sử dụng trong lĩnh vực ngôn ngữ cơ chế self-attention còn góp phan rất lớn cho việc biéu diễn mối tương quan đặc trưng của các đối tượng trong ảnh thông qua bộ phát hiện đối tượng hoặc thông qua các vùng trong ảnh.

Chương 2 CƠ SỞ LÝ THUYET VA CAC HƯỚNG NGHIÊN CUU LIÊN QUAN

Biểu diễn đặc trưng Ngônngữ

Biểu diễn đặc trưng ngôn ngữ với mô hình RNN và

Hình 2.6 RNN Unit và LSTM Unit

Mang nơ-ron hồi quy RNN[29] đóng vai trò cực kỳ quan trong trong bước đầu giải quyết các bài toán xử lý thông tin dạng chuỗi, RNN được ứng dụng trong nhiều bài toán của NLP như dịch máy, hỏi đáp, hay dùng làm mô hình mã hóa đặc trưng văn bản Với việc xử lý dit liệu tuần tự khối mã hóa của mô hình RRN cho phép tuần tự đưa vào từng từ trong câu văn và nhận được vector mã hóa đặc trưng cho câu văn đó Tuy nhiên việc đưa tuần tự các từ vào mô hình dẫn dé không tận dụng được khả năng tính toán đa luồng của của máy tính khiến tiêu tốn nhiều thời gian cho việc huấn luyện sử dụng RNN, hơn thế mô hình RNN không qua nhiều bước đạo hàm khi tuần tự đưa các chuỗi vào các bước thời gian (time step) khiến cho mô hình không thê học tốt những phụ thuộc xa của các từ trong câu và đề dẫn đến các trường hợp Triệt tiêu Đạo hàm (Vanishing gradient) hoặc Bùng nỗ Đạo hàm (Exploding Gradient)

LSTM (Long short term memory)[30] là một mạng hồi quy đặc biệt được thiết kế cho các bài toán xử lý thông tin dạng chuỗi (sequences / time series) LSTM được cho là có kết quả cao hơn rất nhiều so với RNN Khác với RNN, LSTM chứa một sỐ đơn vị đặc biệt gọi là các khối nhớ (memory blocks) trong các lớp ân hồi quy Các khối nhớ này sẽ chứa các ô nhớ được kết nói lẫn nhau để lưu thông tin trạng thái Bên cạnh đó, một số đơn vị đặc biệt khác gọi là các công (gates) sẽ có nhiệm vụ kiểm soát các dòng thông tin Mỗi khối nhớ bao gồm ba loại công: cổng đầu vào, công dau ra và cổng quên Nhờ các cải tiến như thế mà LSTM đã có khả năng nắm bắt được thông tin phụ thuốc xa của các phần tử trong chuỗi Với sự cái tiến của mình so với RNN, LSTM được dùng nhiều cho các nỗ lực ban đầu của việc biểu diễn đặc trưng văn bản cho bài toán VQA có thé ké đến một số công trình [37], [38], [39], Tuy nhiên LSTM vẫn tồn đọng một hạn chế của RNN khi chưa tận dụng tốt tài nguyên tính toán.

Chương 2 CƠ SỞ LÝ THUYET VA CAC HƯỚNG NGHIÊN CUU LIÊN QUAN

Biểu diễn đặc trưng ngôn ngữ với mô hình Trans-

Như đã đề cập ở mục 2.2, với hiệu quả vô cùng mạnh mẽ của cơ chế tự tập trung cùng khả năng xử lý đữ liệu chuỗi một cách đồng thời Transformer nhanh chóng chứng tỏ hiệu quả vượt bật của mình trong việc mô biểu diễn đặc trưng thị giác cho bải toán VQA mang lại một vector đặc trưng cho câu hỏi chứa đựng nhiều thông tin ngữ nghĩa về quan hệ giữa các từ với nhau trong câu giải quyết được van đề mat mát thông tin phụ thuộc xa của RNN hay LSTM, hơn thế Transformer còn tận dụng tốt tài nguyên khi xử lý đa luồng tạo điều thuận lợi cho việc huấn luyện mô hình trên các bộ dữ liệu ngôn ngữ không 16 - một xu hướng của AI trong thời gian gần đây.

Các mô hình ngôn ngữ lớn kế thừa từ thành công của Transformer tiêu biéu có thê ké đến là BERT (Bidirectional Encoder Representations from Transformers) với việc tận dụng kiến trúc khối Encoder từ Transformer, kiến trúc của mô hình BERT là một kiến trúc đa tầng gồm nhiều lớp Bidirectional Transformer encoder xếp lên nhau được huấn luyện trên các tập dữ liệu ngôn ngữ không lồ kết hợp với các tác vụ ngôn ngữ phố quát từ đó BERT nhanh chóng trở thành mô hình biểu diễn đặc trưng ngôn ngữ vượt trội nhất (SOTA) trong nhiều tác vụ ngôn ngữ đặc thù trong đó có VQA tại thời diém BERT ra mắt, nhiều công trình sử dụng BERT đề biểu diễn câu hỏi cho bài toán VQA đạt hiệu quả cao có thé kê đến [40], [41], [42] Bên cạnh BERT một số mô hình tận dụng hoàn toàn kiến trúc Transformer với một chút tinh chỉnh và phóng to kích thước đến hàng chục tỉ tham số dé huấn luyện trên một tập dữ liệu đa ngôn ngữ không lồ đã trở thành SOTA tại thời điểm hiện tại có thể nói đến đó là mô hình

T5 (Text-To-Text Transfer Transformer)[43].

Hợp nhất đặc trưng ngôn ngữ và hình ảnh

Hợp nhất nông - Shallow Fusion

Đây là cách cách kết hợp đặc trưng ở mức độ nông, khi các vector đặc trưng cho ngôn ngữ và hình ảnh được kết hợp trực tiếp với nhau bằng các phương pháp xếp chồng vector (stacking), nối hai vector (Concatenation) hay nhân hai vector lại với nhau Mặc dù phương pháp kết hợp đơn giản này được ứng dụng trong một số mô hình như CLIP[45] đã cho thấy thời gian huấn luyện và hiệu suất đáng ngạc nhiên đối với các tác vụ truy xuất văn bản hình anh, nhưng lại không mang lại kết quả không cao trong các tác vụ thấu hiểu thị giác - ngôn ngữ (V-L understanding) như VQA Điều nay có thé dé dang lý giải là bởi sự tương tác nông giữa hai miền đặc trưng Một số mô hình song tuyến nỗ lực giải quyết van đề trên với việc kết hợp phương pháp chú ý soft attention như MLB[46], MCB[47], BLOCK[48]

2.3.3.2 Ma hóa hợp nhất - Fusion encoder

Bộ mã hóa hop nhất nhận đầu vào là những vector nhúng của hai miền đặc trưng sau khi được trích xuất bởi các VLPMs và được thiết kế với các phương pháp hợp nhất mã hóa khác nhau dé hợp nhất chúng lại Da số dựa trên ý tưởng của khối

Transformer encoder, sau các thao tác tự chú ý (self-attention) hay chú ý chéo (cross- attention) các trạng thái ân của các layer cuối sẻ được xem như là biểu diễn hợp nhất của hai miền đữ liệu Dựa vào sự tương tác của hai miền đữ liệu ta có thé chia Mã hóa hợp nhất thành: Mã hóa luồng đơn (single stream) và luồng kép (dual stream).

- Mã hóa luồng đơn: Kiến trúc mã hóa luồng đơn giả định rang mối tương quan tiềm năng và sự liên kết giữa hai miền đặc trưng là đơn giản, có thể học được bằng một bộ encoder duy nhất Do đó, các vector nhúng văn bản và các đặc trưng hình ảnh được nối (concatenate) với nhau, thêm một số thành phần nhúng đặc biệt dé biểu thị vi tri và phương thức, sau đó đồng thời được đưa vào bộ Transformer encoder. Mặc dù các tác vụ V-L khác nhau yêu cầu các định dạng đầu vào khác nhau (ví dụ: hcaption, imagei cho chú thích hình ảnh, hquestion, imagei cho VQA), kiến trúc luồng đơn có thê xử lý các đầu vào khác nhau này trong một khung thống nhất do tính chất biểu dién không theo thứ tự của Transformer attention Do kiến trúc luồng đơn thực hiện cơ chế tự chú y trực tiếp trên hai miền đặc trưng nên chúng có thé bỏ qua tương tác nội bộ giữa từng miền Do đó, một số công trình đề xuất sử dụng kiến trúc luồng kép để mô hình hóa tương tác V-L.

Mã hóa hợp nhất -Fusionencoder

- Mã hóa luồng kép: Kiến trúc mã hóa luồng kép giả định răng tương tác nội bộ giữa các miền đặc trưng và tương tác chéo giữa chúng với nhau cần được tách biệt dé có được các biểu dién tốt hơn Nên, khác với hoạt động tự chú ý trong kiến trúc luồng đơn, kiến trúc luồng kép áp dụng cơ chế chú ý chéo dé mô hình hóa tương tác V-L, trong đó vectơ query là từ một miền đặc trưng trong khi vectơ key và value là từ miền đặc trưng khác Một lớp chú ý chéo thường chứa hai lớp phụ chú ý chéo một chiều: một lớp từ ngôn ngữ đến hình ảnh và một lớp khác từ hình ảnh đến ngôn ngữ. Chúng chịu trách nhiệm trao đổi thông tin và ngữ nghĩa giữa hai miền đặc trưng.

Hình 2.7 Mô hình mã hóa hợp nhất luồng don (a) và luồng kép (b)

Mô hình sinh câu trảlời

Tuy vào cau trúc bộ đữ liệu và mục tiêu của bài toán mà việc sinh câu trả lời có sự khác nhau Chủ yếu các phương pháp dựa trên 2 mô hình là Phân lớp (Classifier) và

Giải mã (Decoder) Các câu hỏi nhị phân (đúng/sa1) mô hình sinh câu trả lời thường sử dụng một lớp sigmoid ở cuối Các biểu diễn đặc trưng sau khi kết hợp sẽ được chuyển qua một hoặc hai lớp được kết nối day đủ (fully-connected) Dau ra được truyền qua một lớp noron duy nhất có chức năng như lớp phân loại Đối với câu hỏi nhiều lựa chọn thì lớp cuối cùng là lớp phân loại đa lớp (multi-class) với hàm kích hoạt softmax. Đối với các câu hỏi dạng tự do, các câu hỏi mở, các biểu diễn đặc trưng thường được chuyền đổi thành câu trả lời thông qua các mô hình sinh chuỗi như các mô hình hồi quy, LSTM hay hiện đại hơn ta có Transformer với kiến trúc decoder.

Chương 2 CƠ SỞ LÝ THUYET VA CAC HƯỚNG NGHIÊN CUU LIÊN QUAN

Hướng tiếp cận chung cho bài toán Trả lời câu hỏi trực quan Da ngôn nữ <i gn ‹

Đối với thử thách đa ngôn ngữ cho bài toán VQA các nỗ lực đa phần tập trung vào khía cạnh Biểu diễn ngôn ngữ và cải tiến mô hình sinh câu trả lời, có thể chia các hướng tiếp cận cho bài toán đa ngôn ngữ thành hai dạng: 1) Tiếp cận dựa trên mô hình dịch máy (Machine Translation-based) và 2) Tiếp cận dựa trên phát triển mô hình đa ngôn ngữ (Multilingual Language model)

Tiếp cận dựa trên mô hình dich may

Các hướng tiếp cận đầu tiên cho bài toán là xây dựng các mô hình VQA khác nhau cho từng ngôn ngữ và phát triển một mô hình phát hiện ngôn ngữ đề phân loại ngôn ngữ của câu hỏi để đưa vào từng mô hình, điều này khiến tiêu tốn rất nhiều tài nguyên dé huấn luyện và vận hành nhiều mô hình cùng lúc Một giải pháp cho vấn đề nay là xây dựng một mô hình cho một ngôn ngữ thật tốt rồi phát triển một mô hình dịch máy để dịch các ngôn ngữ khác nhau của câu hỏi về cùng một ngôn ngữ của mô hình Hướng tiếp cận này lại gặp phải một vấn đề lớn về độ chính xác của mô hình dich máy, việc dịch có thé dẫn đến thay đổi ngữ nghĩa của câu dẫn đến sai khác trong việc đưa ra câu trả lời, chưa kể việc dich còn dẫn đến mat tự nhiên khiến câu trả lời trở nên gượng gạo.

2.4.2 Tiếp cận dựa trên phát triển mô hình đa ngôn ngữ lớn

Với sự phát triển của Transformer trong NLP ngày càng nhiều các mô hình ngôn ngữ được huấn luyện trên bộ dữ liệu đa ngôn ngữ khong 16 ra đời như mBERT[10] hay mT5[49] với hàng tỉ tham số được huấn luyện trên hàng trăm ngôn ngữ khác nhau giúp việc xây dựng mô hình VQA đa ngôn ngữ trở nên đễ dàng và ít tiêu tốn tài nguyên hơn việc sử dụng mô hình dịch máy.

Chương 3 TONG QUAN CÁC MÔ HÌNH TIẾP CAN

Dựa trên cơ sở lý thuyết và các khảo sát ở Chương 2 Trong chương này chúng tôi trình bày tổng quan các mô hình mà chúng tôi đã thử nghiệm để giải quyết bài toán

Trả lời câu hỏi trực quan đa ngôn ngữ.

Mô hình Biểu diễn đặc trưng Hìnhảnh

ResNetqm S

Được giới thiệu lần đầu bởi Kaiming He và cộng sự trong bài báo Deep Resid- ual Learning for Image Recognition [25] vào năm 2015 Mạng Resnet được thiết kế với số lượng lớp lớn và đạt được nhiều thành tích đáng ké như vị trí thứ 1 trong cuộc thi ILSVRC 2015, cuộc thi ILSVRC and COCO 2015 với ImageNet Detection, Im- ageNet localization, Coco detection va Coco segmentation Trong khi đó, việc xây dựng một mang thần kinh tích chập (CNN) với sỐ lượng lớn lớp tích chập đang là vấn đề trong cộng đồng thị giác máy tính thời bấy giờ, khi số lượng lớp mạng tích chập lớn, dẫn đến hiện tượng Vanishing Gradient - là hiện tượng không thể cập nhật các trọng số trong mạng khi số lượng lớp quá lớn, dẫn đến các giá trị đạo hàm trong quá trình lan truyền ngược vô cùng nhỏ khiến các trọng số này không thể cập nhật.

Chương 3 TÔNG QUAN CÁC MÔ HÌNH TIẾP CẬN

Hình 3.1 Minh hoa khối dư của mô hình ResNet

Theo đó, ý tưởng chính của ResNet là thay vì một kiến trúc nhận đầu vào và truyền thang từ những lớp đầu tiên đến lớp cuối cùng, Resnet sử dụng một kết nối tắt để xuyên qua các lớp phía sau được minh họa như hình 4.5 với mỗi khối tắt như vậy được gọi là một khối du (residual block) Như vậy, đầu vào x của khối dư sẽ được tái sử dụng va cộng cho đầu ra F(x) của khối dư đó Như vậy sẽ tránh được việc đạo hàm băng 0 do đã được cộng với dau vào x

VIT-VisionTransformer

BEIT - Bidirectional Encoder representation from Image Trans-

BEIT được giới thiệu vào năm 2021 bởi Hangbo Bao và cộng sự trong bai báo

BEIT: BERT Pre-Training of Image Transformers [51] bởi Hangbo Bao va cộng sự. Được lay cam hứng từ BERT, BEIT là bài báo đầu tiên khiến cho mô hình đào tạo trước ViT huấn luyện theo hướng học không giám sát vượt trội hơn so với mô hình đào tạo trước ViT huấn luyện theo hướng học có giám sát Theo đó, thay vì dự đoán lớp của các ảnh như bài báo ViT sốc, BEIT dự đoán và tái tạo lại các phần được che đi của hình ảnh gốc.

Quá trình huấn luyện của mô hình BEiT có thé chia thành 3 giai đoạn sau:

1 Chia nhỏ ảnh, duỗi thăng, tách ảnh và nhúng vị trí: Theo đó, phần chia nhỏ ảnh, duỗi thang và nhúng vi trí sẽ gần tương tự như mô hình ViT gốc mà chúng tôi đã đề cập tại 3.1.2, khác biệt trong quá trình này đó chính là thay vì sử dụng toàn bộ ảnh đã chia nhỏ và mã hóa chúng cùng với vi trí, BEiT sẽ che đi một số ảnh đã được chia nhỏ này một cách ngẫu nhiên và sau đó mới tiến hành kết hợp với vị trí và sử dụng trở thành đầu vào cho khối Encoder Điểm đặc biệt là ảnh gốc không chỉ được sử dụng như mô hình ViT gốc mà chúng sẽ được trải qua quá trình '””Tokenizer”tương tự như trong các bai toán ngôn ngữ tự nhiên tạo thành các ”Visual token”và mục đích cuối của mô hình BEIT là cố gang du đoán được các Token bi che đi tương ứng với ảnh đã được che di, từ đó tai tao lại được ảnh ban đầu.

2 Mã hóa: Phần mã hóa của mô hình BEiT được dựa trên mô hình ViT gốc như chúng tôi đã đề cập tại phần 3.1.2

3 Đầu ra Masked Image Modeling: Theo đó, thay vì đầu ra phân loại như bài báo gốc ViT - tương ứng với quá trình học tập có giám sát, tác giả BEiT đã đề xuất nhiệm vụ masked image modeling với đầu ra chính là dự đoán các token tương ứng với phần ảnh chia nhỏ đã bị che đi - tương ứng với quá trình học tập không giám sát.

Chương 3 TÔNG QUAN CÁC MÔ HÌNH TIẾP CẬN

3.1.4 Detectron2 - Phương pháp đề xuất Bag-of-object Được giới thiệu lần đầu vào năm 2018, Detectron [52] là một thư viện được viết bởi Python và được hỗ trợ mạnh mẽ bởi Caffee2 giúp thực hiện các tác vụ phát hiện đối tượng tiên tiễn và bao gồm cả Mask R-CNN Ngay sau đó một năm, vào năm 2019, Detectron2 [53] ra đời với trọng trách là thư viện thế hệ tiếp theo nối tiếp Detectron của Facebook AI cung cấp các thuật toán hiện đại về phát hiện cũng như phân đoạn đối tượng trong ảnh Theo đó, chúng tôi tận dụng mô hình Mask-RCNN được tích hợp sẵn trong Detectron2 và sử dụng mô hình được đảo tạo trước này cho nhiệm vụ Panoptic Segmentation được cung cấp bởi Detectron2 Cụ thé, Panoptic là nhiệm vụ kết hợp giữa hai nhiệm vụ là Instance Segmentation và Semantic Segmentation với

Instance Segmentation có nhiệm vụ xác định các đối riêng biệt trong một bức ảnh và tìm ra các pixel thuộc về đối tượng riêng biệt đó và Semantic Segmentation có nhiệm vụ xác định các đối tượng chung trong một bức ảnh, cũng như các pixel ma đối tượng đó thuộc về Cuối cùng, khi kết hợp hai nhiệm vụ này ta sẽ được Panoptic

Segmentation, giúp xác định được từng pixel trong ảnh thuộc về lớp chung và thuộc về đối tượng riêng biệt nào Ví dụ về sự khác biệt này được mô tả trong hình 3.2 Từ đó, chúng tôi lay ra được day đủ nhất những đối tượng trong một bức anh.

Hình 3.2 Sự khác nhau giữa các nhiệm vu phân đoạn hình ảnh

Mô hình Biểu diễn đặc trưng Ngônngữ

BERT - Bidirectional Encoder Representation from Trans- former 2 ee 31

BERT[10] là viết tắt của cum từ Bidirectional Encoder Representation from Transformer, có nghĩa là mô hình biểu diễn mã hóa từ hai chiều ứng dụng kỹ thuật Transformer BERT được đề xuất bởi Jacob Devlin cùng các cộng sự ở Google AI vào năm 2018 như một mô hình biểu diễn từ được đào tạo trước (pre-trained word embedding model) và được coi như một bước nhảy vọt lớn trong lĩnh vực xử lý ngôn ngữ tự nhiên, nhanh chóng đứng đầu ở nhiều tác vụ ngôn ngữ khác nhau về độ hiệu quả Từ tên gọi, ta có thé thay được điểm đặc biệt của BERT là nhờ vào co chế attention của khối encoder trong kiến trúc Transformer mà BERT có khả năng biểu diễn ngữ cảnh của từ ở cả hai chiều trái và phải, khác với các phương pháp sử dụng mạng hồi quy khi từ phía sau được biéu diễn phụ thuộc vào từ phía trước Đặc điểm này khiến BERT biểu diễn được đặc trưng về tương quan ngữ cảnh của từ trong câu và với các từ còn lại.

Như đã đề cập ở phần 2.2.1, trong kiến trúc của Transformer các khối encoder có vai trò mã hóa dữ liệu đầu vào sau đó các khối decoder có vai trò giải mã các vector mã hóa dé sinh ra kết qua đầu ra Với vai trò chính là mã hóa biểu diễn của từ nên kiến trúc của BERT là một kiến trúc nhiều tầng sử các khối mã hóa hai chiều (Bidirectional encoder) từ kiến trúc Transformer Nhờ kỹ thuật chú ý trong các khối mã hóa này mà BERT có thé mô hình hóa từ với sự tương quan về ngữ cảnh giữa chúng, điều này là đặc biệt quan trọng đối với các bài toán đa ngôn ngữ khi ở các ngôn ngữ khác nhau cách tổ chức cau trúc câu cũng khác nhau dẫn đến các kiến trúc mã hóa đơn chiều không thé giải quyết được Băng việc huấn luyện BERT trên một tập dữ liệu lớn với những tác vụ ngôn ngữ mang tính phổ quát cao nên ta có thé ứng dụng pre-trained model của BERT như một mô hình dé trích xuất đặc trưng ngôn ngữ hoặc có thê tinh chỉnh (fine tuning) BERT cho các tac vụ ngôn ngữ chuyên biệt.

Mô hình BERT trong lần đầu được đề xuất trên tiếng Anh với hai phiên bản được đào tạo trước khác nhau Các phiên bản này chủ yếu khác nhau về kiến trúc Transformer với sự khác biệt ở: số lượng các khối encoder, số lượng các lớp an (hidden layer) tương đương với kích thước của vector mã hóa và cuối cùng là số dau (head) của các lớp chú ý đa đầu (multi-head attention layer) Cụ thể ta có 2 phiên bản kích

Chương 3 TÔNG QUAN CÁC MÔ HÌNH TIẾP CẬN thước nhau sau:

* BERTpasp : L, Hv8, A, tong tham số = 110 triệu.

* BERT ARGE : L$, H24, A, tổng tham số = 340 triệu.

* H: kích thước các lớp an.

* A: số đầu của các lớp attention.

Cả hai phiên bản trên đều được huấn luyện trên các bộ dữ liệu lớn với cấp độ

“đoạn văn” là BookCorpus với 800 triệu từ và bộ dữ liệu từ Wikipedia tiếng Anh với hon 2,500 triệu từ Các pretrained model này được train đồng thời trên hai tác vụ là MLM - Masked language modeling (Dự đoán các từ còn thiếu trong câu) va NSP - Next sentence prediction (Dự đoán câu tiếp theo) Với tác vụ MLM, BERT được huấn luyện với bộ dữ liệu là các câu bị che đi 15% số từ và huấn luyện dé mô hình dự đoán ra các từ bị che đó, hay cụ thể hơn là thêm một lớp classification lên trên khối encoder cao nhất, đưa các vector output cua encoder vé vector bang với vocab size, sau đó softmax để chon ra từ tương ứng tại mỗi vị trí trong câu; tác vụ này góp phần rất lớn giúp mô hình hiểu được mối quan hệ giữa các từ trong câu Đối với tác vụ NSP, mô hình BERT được huấn luyện để hiểu thêm về mối quan hệ giữa các câu văn trong đoạn, bằng việc huấn luyện mô hình thực hiện tác vụ phân lớp nhi phan với đầu vào là một cặp câu và mô hình phải dự đoán xem câu thứ hai có phải là câu sau của câu thứ nhất không Với sự huấn luyện kết hợp giữa hai tác vụ Masked language modeling và Next sentence prediction BERT có thé đọc hiểu ngôn ngữ một cách chính xác. Đối với bài toán trả lời câu hỏi trực quan, BERT nhanh chóng trở thành mô hình biểu diễn ngôn ngữ được sử dụng ở nhiều công trình nghiên cứu và mang lại sự thay đổi tích cực về độ hiệu quả của mô hình VQA.

Với sự đột phá của mình, đến nay nhiều biến thể khác nhau của BERT với các cách tinh chỉnh và huấn luyện khác nhau dựa trên nền tảng mô hình BERT nhằm tăng cường hiệu qua và thời gian huấn luyện trên các tác vụ cụ thé ta có thé kế đến RoBERTa, AIBERT, DistiIBERT, SPANBERT, ; các biển thé của BERT cho các tác vụ thị giác - ngôn ngữ như VideoBERT, ViLBERT, VisualBERT, BEIT, ; đối với khía cạnh đa dạng ngôn ngữ mô hình BERT được huấn luyện riêng biệt cho từ

Chương 3 TÔNG QUAN CÁC MÔ HÌNH TIẾP CẬN ngôn ngữ khác nhau như PhoBERT cho tiếng Việt, TohokuBERT cho tiếng Nhật hay nồi bật hơn cả là mBERT - Multlingual BERT được huấn luyện trên tập dữ liệu

Wikipedia với 104 ngôn ngữ khác nhau phục vụ rất tốt cho các tác vụ đa ngôn ngữ.

T5 - Text-To-Text Transfer Transformer

Năm 2020, các nhà khoa học Google AI đã trình bày một cuộc khảo sát thực nghiệm quy mô lớn dé xác định kỹ thuật học chuyền giao nào hoạt động tốt nhất va áp dụng những hiểu biết này trên quy mô lớn dé tạo ra một mô hình mới mà họ gọi là mô hình chuyên giao Transformer trong tác vụ chuyên văn bản thành văn bản (T5 - Text-To-Text Transfer Transformer)[43] Họ cũng giới thiệu tập đữ liệu tiền đào tạo mã nguồn mở mới có kích thước lớn với độ “sạch” và chất lượng cao, được gọi là C4

- Colossal Clean Crawled Corpus Mô hình T5 được huấn luyện trước trên C4 nhanh chóng mang lại kết quả cao trên nhiều benchmarks khác nhau với khả năng linh hoạt tùy chỉnh cho các tác vụ ngôn ngữ riêng biệt.

Kiến trúc của T5 tương tự như cấu trúc mã hóa - giải mã (encoder - decoder) của các mô hình Transformer thông thường Nó bao gồm 12 cặp mã hóa - giải mã. Mỗi khối bao gồm các lớp self-attention, a feed-forward network, và optional encoder- decoder attention Với việc tận dụng kiến trúc Transformer T5 thừa hưởng được khả năng biểu diễn ngữ cảnh 2 chiều của từ Điểm nổi bật và mạng lại hiệu quả cao cho T5 là sự tái định dạng lại các tác vu NLP và bộ dữ liệu huấn luyện C4.

Với T5, các nhà khoa học Google đã tái định dạng lại tất cả các tác vụ xử lý ngôn ngữ thành một định dang thống nhất đó là “chuyển đổi văn bản thành văn bản” (text-to-text) trong đó đầu vào và đầu ra của mô hình luôn là chuỗi văn bản, khác với các mô hình dạng BERT khi output là một phân lớp nhị phân (Next sentence prediction) hoặc từ còn thiếu (bị che) của input (Masked language modeling) Việc tái định nghĩa này kết hợp với việc phát triển một framework text-to-text chung cho phép chúng ta có thé huấn luyện và sử dung cùng một mô hình, một hàm mat mát và các siêu tham số cho bat kỳ các tác vụ NLP nào.

Yếu tổ không thé thiếu góp phan cho sự thành công của T5 là bộ dữ liệu C4. C4 là một kho văn bản tiếng Anh sạch có dung lượng 750GB được lấy từ Internet Tập dữ liệu này được thu thập từ Common Crawl, một kho lưu trữ web công khai Sau khi trích xuât từ Common Crawl, các tác gia đã tiên hành loại bỏ các từ xúc phạm, các giả

Chương 3 TÔNG QUAN CÁC MÔ HÌNH TIẾP CẬN văn bản (Lorem Ipsum), dấu ngoặc nhọn “{”, các từ trùng lặp và các câu không kết thúc bằng dau chấm câu Day là một tap dir liệu lớn và rõ ràng, điều này có nghĩa là mô hình có thể được đảo tạo trên tập dữ liệu mà không bao giờ bị lặp lại.

Mô hình pretrained của T5 cũng được huấn luyện trên tác vụ Masked language modeling tuy nhiên, khác với BERT thay vi che đi một vài từ thì cách huấn luyện trên T5 là che đi một khoản nhiều từ trong câu input đầu vào, điều này khiến mô hình có khả năng hiểu và sinh ra một cụm từ hoặc một chuỗi ngắn để tái tạo lại khoảng trống của input Ngoài ra, T5 còn có một yếu tô đặc biệt đó là “quy mô” của nó, với kích thước đa dạng của các mô hình được dao tạo trước từ 60 triệu đến 11 tỷ tham số giúp linh hoạt trong quá trình tinh chỉnh ở các tác vụ có quy mô khác nhau Hơn thế, du khác nhau về kích thước nhưng những mô hình này đã được đào tạo trước trên 1 nghìn tỷ điểm dữ liệu dạng token.

Với cải tiến của mình T5 mang lại hiệu quả cao trong các bài toán về ngôn ngữ trong đó có Trả lời câu hỏi trực quan, và đặc biệt hơn là tương tự như BERT, T5 cũng có một biết thé đa ngôn ngữ đó là mT5 được dao tạo trên bộ dit liệu với hơn 101 ngôn ngữ và chứa từ 300 triệu đến 13 tỷ tham số tùy kích cỡ kiến trúc Với việc giải quyết được vấn đề đa ngôn ngữ, mô hình mT5 mang lại tiềm năng cao cho các tác vụ đa ngôn ngữ trong đó có bài toán MVQA.

Phương pháp hợp nhất đặc trưng và sinh câu trả lời

Bộ dữ liệu UIT-EVJVQA

Bộ dữ liệu chính mà chúng tôi sử dụng để đánh giá mô hình là UIT-EVJVQA

[54], được công bồ tại cuộc thi EVJVQA challenge tô chức bởi Câu lạc bộ xử lý ngôn ngữ và tín hiệu tiếng Việt (Vietnamese Language and Signal Processing club) vào năm 2022 Đây là bộ dit liệu Trả lời câu hỏi trực quan đa ngôn ngữ đầu tiên với 3 ngôn ngữ: Tiếng Anh, Tiếng Việt và Tiếng Nhật, bao gồm hơn 38,800 cập câu hỏi - câu trả lời, với gần 5,000 anh được chụp tại Việt Nam, trong đó có hơn 23,700 cập câu hỏi - câu trả lời được công bố công khai (public train set), hơn 5,000 cập cho kiểm thử công khai (public test set) và 10,000 cập đề xếp hạng giải pháp Các câu hỏi trong bộ dữ liệu đa phan là câu hỏi mở ở dạng tự do, các câu trả lời cũng rất đa dang và thường dưới dang một câu hoàn chỉnh nên gần với giao tiếp đời thường Thống kê cụ thé bộ dữ liệu được thé hiện ở bảng 4.1, hình 4.2 là một số ví dụ minh họa của bộ dữ liệu.

Se fs oo Jp ; Vietnamese: ¢ Question: những người này dang làm gi? s Answer: đang đi mua sắm

English: ¢ Question: what are these people doing? e Answer: shopping

Japanese: ¢ Question: COA l#ff[#U CL\&3#\? ¢ Answer: Ä\\2|c{r>&+ở.

Hình 4.2 Vi dụ minh họa bộ dữ liệu UTT-EVJVQA

Số lượng ảnh Số cặp câu hỏi - tra lời Tỉ lệ câu hói / hình ánh

Bảng 4.1 Bang thống kê bộ dữ liệu UIT-EVJVQA

Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ

Bộ dữ liệu UIT-mVQA

Bên cạnh việc đánh giá trên bộ dữ liệu chính là UIT-EVJVQA, chúng tôi thực hiện mở rộng đánh giá mô hình đề xuất dựa trên bộ dữ liệu UIT-mVQA [55] của nhóm tác giả Nguyễn Đức Huy Long và Thái Vĩnh Đức Tuy nhiên, đây là bộ dữ liệu chưa được công bố mà chỉ là bộ đữ liệu mà nhóm tác giả tạo trong khóa luận tốt nghiệp của mình Vì vậy, chúng tôi đã liên hệ với nhóm tác giả và xin phép sử dụng bộ dữ liệu để đánh giá cũng như các kết quả thử nghiệm của nhóm tác giả để phục vụ trong quá trình so sánh Theo đó, bộ đữ liệu này cũng bao gồm ba ngôn ngữ là Tiếng Anh, Tiếng Việt và Tiếng Nhật với 12,823 cặp câu hỏi câu trả lời cho từng loại ngôn ngữ và 9,162 hình ảnh Tổng cộng, bộ dữ liệu có đến 38,469 cặp câu hỏi câu trả lời Trong đó, các cặp câu hỏi câu trả lời tiếng Anh được trích từ bộ dữ liệu Toronto COCO-QA

[56], còn các cặp câu hỏi câu trả lời tiếng Việt và tiếng Nhật được dịch từ tiếng Anh theo phương pháp bán tự động Thống kê cụ thê bộ dữ liệu được thé hiện ở bảng 4.2, hình 4.3 là một số ví dụ minh họa của bộ dữ liệu

EN what parked next to the sidewalk bus

VI những gì đỗ bên cạnh via hè xe buýt

Hình 4.3 Vi dụ minh họa bộ dữ liệu UIT-mVQA

Số lượng ảnh Số cặp câu hỏi - trả lời Ti lệ câu hoi / hình anh

Bảng 4.2 Bang thống kê bộ dữ liệu UIT-mVQA Lưu ý rằng các ảnh có thé trùng lặp giữa các tap train, validation và test nên sô lượng ảnh tat cả sẽ nhỏ hơn tông sô lượng anh trong tập train, validation và test

Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ

Có nhiều thang đo cho bài toán VQA tuy nhiên với khuôn khổ bộ dit liệu cùng cuộc thi EVJVQA challenge chúng tôi quyết định kiểm định độ hiệu quả của các phương pháp dé xuất với hai độ đo là điểm F1-score và BLUE như được sử dụng ở cuộc thi với mục đích so sánh với các hướng tiếp cận của các đội thi khác với bộ dữ liệu UIT-EVJVQA Bên cạnh đó, để mở rộng đánh giá trên bộ dữ liệu UIT-mVQA,chúng tôi sử dụng độ do Accuracy (Accuracy = số câu trả lời du đoán đúng hoàn toàn/ tổng số câu trả lời ground truth) dé dé dang so sánh với kết quả của tác giả gốc.

Fl-score 2 2 Q.0 Q HQ ee 38

BLEU - Bilingual Evaluation Understudy

BLEU (Bilingual evaluation understudy) là phương pháp đánh giá thường được sử dụng trong bài toán dịch máy (Machine Translation) nhằm so sánh độ chính xác của ban dich từ mô hình so với ground truth, trong bài toán VQA BLEU dùng dé do độ chính xác của câu trả lời từ mô hình với câu trả lời chính xác Độ đo BLEU được tính bằng phương pháp đếm số matching n-grams của câu trả lời dy đoán va câu trả lời ground-truth (hoặc match trên bat kỳ câu dự đoán nào nếu như có nhiều dự đoán), kết quả sẽ là số các mẫu khớp chia cho số từ của câu trả lời dự đoán Các trùng khớp này không phụ thuộc vào vi trí, do vậy BLEU không sử dụng yếu tố thứ tự của từ. Càng khớp nhiều tức là càng tốt.

Một điểm quang trọng là khi đếm các n-grams khớp cần chú ý cả số lần xuất hiện của từ trong câu ground-truth, một từ trong ground-truth khi được cho là khớp rồi thì không xét nữa. Điểm Precision à độ đo tính bằng số lượng từ xuất hiện đồng thời ở cả trong câu dự đoán lẫn câu ground truth.

Số từ được dự đoán đúng

Tông sô được từ dự đoán

— (4.5) —: 7 dc! € {Tap câu dự đoán } ”n gram/ eC! Countcli, (n— gram’)

Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ

Với độ đo Avg BLEU 4 (N = 4) ta cần tính 4 Precision n-gram với n = 1, 2,

3, 4 Sau đó các Precision score nay sẽ được tính trung bình theo Geometric Average Precision Score với công thức.

Geometric Average Precision (N) = exp (> Wn log ns) N n=1

Tiếp theo dé tránh mô hình sinh ra các câu ngắn (do dé khớp nên precision cao) Brevity Penalty ra đời như một điểm phạt dé xử phat các câu trả lời quá ngăn theo công thức sau:

Trong đó, c là số lượng từ có trong câu dự đoán và r là số lượng từ có trong câu ground truth Công thức nay đảm bảo rang Brevity Penalty không thé lớn hơn 1, cho dù câu dự đoán ngắn hơn nhiều so với câu ground truth Và néu model predict rất it từ, gia tri nay sẽ cảng nhỏ.

Cuối cùng, độ đo Avg BLEU 4 được tính bằng tích của Brevity Penalty với

BLEU(N) = Brevity Penalty - Geometric Average Precision Scores (N) (4.8)

Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.3 Hướng tiếp cận dựa trên Hợp nhất đặc trưng nông (Shallow Fusion)

Hình 4.4 Mô hình tổng quan phương pháp cho bai toán Trả lời câu hỏi trực quan đa ngôn ngữ dựa trên Hợp nhât đặc trưng nông (Shallow Fusion)

Phương pháp đề xuất đầu tiên chúng tôi thực hiện sử dụng Phương pháp hợp nhất nông và được trình bày như hình 4.4 Theo đó, với phương pháp này chúng tôi mong muốn tận dụng ưu điểm thời gian huấn luyện nhanh chóng của việc kết hợp nông để có thê thử nghiệm nhiều mô hình biểu diễn thị giác và ngôn ngữ khác nhau.

Cụ thé, chúng tôi chỉ thực hiện concat hai đặc trưng lại với nhau sau bước biểu diễn đặc trưng rồi đưa qua mô hình sinh câu trả lời Trong quá trình thử nghiệm các phương pháp khác nhau dé tìm ra mô hình cho ra kết quả tốt nhất, chúng tôi thực hiện chiến lược thử nghiệm và huân luyện như sau:

1 Quá trình trích xuất đặc trưng thị giác: Đề tìm ra phương pháp phù hợp nhất.

Chúng tôi thực hiện cố định phan trích xuất đặc trưng ngôn ngữ băng mô hình mBERT Sau đó, chúng tôi lần lượt thay thế, kết hợp các mô hình khác nhau dé trích xuất đặc trưng thị giác bao gồm: ResNet, BEiT, ViT và Bag-of-object dé có thê xác định mô hình và cách kết hợp phù hợp cho ra kết quả tốt nhất.

2 Quá trình trích xuất đặc trưng câu hỏi: Sau khi có được cách kết hợp phù hợp dé trích xuất đặc trưng thị giác từ quá trình trên Chúng tôi thực hiện cố định phần trích xuất đặc trưng thị giác lại và tiếp tục thay thế và kết hợp các mô hình khác nhau dé trích xuất đặc trưng câu hỏi bao gồm: mT5 và mBERT dé tìm ra mô hình phù hợp.

Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ

Dựa trênmô hìnhResNet

Đầu tiên, chúng tôi sử dụng ResNet - một mạng CNN rất nồi tiếng và được nghiên cứu áp dụng vào rất nhiều bài toán VQA Theo đó, chúng tôi sử dụng mô hình đã huấn luyện trước ResNet-152 dé trích xuất đặc trưng cho phan thị giác Chúng tôi tiến hành bỏ các lớp đầu ra phân loại của mô hình này và chi sử dụng phan trích xuất đặc trưng ở lớp cuối cùng Lưu ý rằng, đầu ra của mô hình trích xuất thị giác là

1 x 60 x 768 nên sau đó, chúng tôi định hình lại các đặc trưng ở lớp cuối này về hai chiều và đưa qua một lớp mang Feed Forward dé chuẩn hóa độ dai vector đầu ra dé có thê đễ dàng kết hợp với các đặc trưng của câu hỏi như tông quan hóa bởi hình 4.5.

Cụ thé, từ một bức ảnh đầu vào X € R224*224*3 | sau khi đưa qua mô hình ResNet được đảo tạo trước, chúng tôi thu được một vector đặc trưng đại diện cho hình ảnh

Xr € RĩXxTx?0“Š, tiếp theo khi định hình lại, chúng tôi thu được vector mới với kích thước JRlX50X204Š, Cuối cùng, chúng tôi đưa qua một lớp mang Feed Forward và thu được một vector mã hóa đại diện cuối cùng cho hình ảnh với kích thước RIx137x768,

Vector cuối cùng này sẽ kết hợp chung với vector trích xuất đặc trưng được từ mô hình ngôn ngữ và đưa vào phần Decoder để sinh ra câu trả lời.

Vì đữ liệu của phần private test vẫn chưa được công bố, nên chúng tôi sẽ tiến hành đánh giá kết quả đạt được của hướng tiếp cận này theo bộ dữ liệu public test trên hai độ do là F1 score và BLEU như bảng 4.3

Thị giác Ngônngữ BLEU FI

Bang 4.3 Kết quả F1 score va BLEU khi sử dụng ResNet dé trích xuất đặc trưng thị giác, mT5 đê trích xuât đặc trưng câu hỏi.

Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ

Q: what color is her handbag? Q: túi xách cô gái dang deo có màu gi?

G: it is black G: túi xách có màu đen

Q: on which side of her is the bicycle parked? Q: chiếc xe dap được dựng phía bên nao của cô gái?

G: the bicycle is parked on her right side G: chiếc xe đạp được dựng phía bên phải cô gái

P: the bicycle P: chiéc xe dap

Q: how many lanterns are hung on the column? Q: có bao nhiêu chiếc đèn lồng được treo lên cây cột?

G: there are three lanterns G: có ba chiéc đèn lông

P: there are two lanterns hanging P: đèn lông bên trái

OQ: BEATS COANY EX y FB CT A?

P: 2š 7 lagRU (cái túi màu đỏ)

G: BER HED £ 5 ORI š †vcL` $3 22 G: QHO AIC BRB SATE

P: 22 DIBITA.S 5 RAS 1) =F (có hai chiếc đèn lồng được treo)

Hình 4.6 Ví dụ về một bộ câu hỏi về hình anh với phương pháp đề xuất tại phần 4.3.1.1.

Nhận xét: Như vậy, với mô hình đề xuất sử dụng ResNet dé trích xuất đặc trưng hình anh, mBERT đẻ trích xuất đặc trưng câu hỏi, chúng tôi thu được kết qua với F1 score là: 0.2764, BLEU là: 0.1709 Tuy nhiên, như vi dụ tại hình 4.6, mô hình

ResNet với khả nang biểu diễn hình ảnh cục bộ vẫn chưa trả lời đúng các câu hỏi liên quan đến chỉ tiết của ảnh, dé giải quyết hạn chế này và tận dụng tính mạnh mẽ của mô hình Transformer chúng tôi quyết định thay thế mô hình ResNet với các mô hình biểu diễn đặc trưng mang nhiều thông tin cục bộ hơn như VIT, BEIT,

Dựa trênmôhìnhBET

Dựa trênmôhìnhVÍT

Như mô hình hóa tại hình 4.9, có thé dé dàng nhận thấy răng quá trình trích xuất đặc trưng của mô hình ViT va BEIT 4.7 là giống hệt nhau như phan 4.3.1.2 nên chúng tôi sẽ không đề cập lại quá trình trích xuất đặc trưng của mô hình ViT nữa, điểm khác nhau duy nhất là đầu ra thay vì là một vector có kích thước 1 x 197 x 768 như BEIT, ViT cho ra một vector đại diện cho hình anh có kích thước 1 x 50 x 768.

Như vậy, kích thước này khá tương đồng với kích thước đầu ra của mô hình trích xuất đặc trưng câu hỏi là 1 x 60 x 768 và kết quả chúng tôi thu được như bảng 4.5 đã minh chứng rằng, khi sử dụng thay thế ViT cho BEiT với kích thước của các đặc trưng cân bằng hơn thì hiện tượng mat cân bang đặc trưng sẽ được hạn chế và giúp cho kết qua cao hơn.

Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ

Thị giác Ngônngữ BLEU FI VỊT mBERT 0.2062 0.3166

Bảng 4.5 Kết quả F1 score và BLEU khi sử dụng ViT dé trích xuất đặc trưng thị giác, mBERT để trích xuất đặc trưng câu hỏi.

Nhận xét: Như bảng 4.5 và ví dụ như hình 4.10 đã minh chứng rằng, khi sử dụng thay thé ViT cho BEiT với kích thước của các đặc trưng cân bằng hon thì hiện tượng mất cân bằng đặc trưng sẽ được hạn chế và giúp cho mô hình đạt kết quả cao hơn Tuy nhiên, như hình 4.10, những câu trả lời về sỐ lượng hay đối tượng trong ảnh, mô hình vẫn có xu hướng trả lời sai về ”hai”hay ”bên trái” Điều nay có thé lý giải rằng, ViT trích xuất đặc trưng thị giác bằng cách chia nhỏ hình thành nhiều khối khác nhau mà chưa trích xuất được đặc trưng đối tượng có trong ảnh trong khi trong bộ dữ liệu có rất nhiều câu hỏi liên quan đến van đề xác định số lượng và đối tượng trong ảnh Vì vậy, sau khi đạt được kết quả tốt khi sử dụng VIT trích xuất đặc trưng hình ảnh, chúng tôi đề xuất kết hợp thêm một mô-đun được huấn luyện trước để trích xuất đặc trưng đối tượng trong ảnh giúp tăng cường thông tin về đối tượng trong ảnh.

Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ

Q: what color is her handbag? Q: túi xách cô gái dang deo có mau gi?

G: it is black G: túi xách có màu den

P: it is black P: túi xách có màu đỏ

Q: on which side of her is the bicycle parked? Q: chiéc xe dap được dựng phía bên nào của cô gái?

G: the bicycle is parked on her right side G: chiéc xe đạp được dựng phía bên phải cô gái

P: the bicycle is to the left of the bicycle P: chiêc xe đạp bên trái xe đạp

Q: how many lanterns are hung on the column? Q: có bao nhiêu chiếc đèn lồng được treo lên cây cột?

G: there are three lanterns G: có ba chiéc đèn lông

P: there are two lanterns hanging P: có hai chiéc đèn lông

Q: SHEA FR a c\`22\⁄ FRY FSB CTD?

Q: B12 |#tO Cb OMICS NTO ETD?

P: Hệz2Z#ÊBẽ (bờn trỏi chiếc xe đạp)

G: ET 153 {fl P: fEXT ARS š †L€L# 3 (có một chiếc đèn lồng được treo)

Hình 4.10 Ví dụ về một bộ câu hỏi về hình ảnh với phương pháp đề xuất tại phần

Hình 4.11 Tổng quan quá trình trích xuất đặc trưng đối tượng thị giác sử dụng Detec- tron2.

Như cơ sở lý thuyết chúng tôi đã trình bày tại phần 3.1.4, chúng tôi sử dụng mô hình được huấn luyện trước về bài toán Panoptic Segmentation được tích hợp sẵn trong thư viện Detectron2 dé xác định các đối tượng có trong một bức ảnh Quá trình trích xuất đặc trưng từ thư viện Detectron2 được mô hình hóa tại hình 4.11

Cu thé, sau khi xác định được đầy đủ các đối tượng trong bức ảnh, dựa trên ý tưởng của Bag of Word, chúng tôi đề xuất sử dụng phương pháp mang tên Bag of

Object dé mã hóa các đối tượng cụ thé này dưới dang vector Theo đó, chúng tôi khởi tạo một vector không một chiều X € RN, với N là tổng số lượng đối tượng tối đa được phát hiện bởi nhiệm vụ Semantic Segmentation va từng vi trí i trong vector X mang ý nghĩa đại diện cho một đối tượng thứ i cố định Tiếp đó, với từng đối tượng thứ i được

Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ phát hiện trong ảnh, chúng tôi đếm số lượng c mà đối tượng này xuất hiện và thay thé X; = c Tiếp theo, vector X này sẽ được đưa vào một lớp Linear Projection với bản chất là một lớp mạng neural giúp mã hóa vector X đồng thời tăng số chiều của vector từ 134 lên 768 dé có thé dé dàng kết hợp với các đặc trưng được trích xuất từ mô hình thị giác và câu hỏi.

Cuối cùng, sau khi có được các đặc trưng Xpte trích xuất từ mô hình ViT - mô hình phù hợp nhất qua quá trình thử nghiệm, Xopj trích xuất thông qua Detectron2, chúng tôi tiên hành nôi liên hai đặc trưng nay lại với nhau va tao ra một vector Xys €

R°!*768 là đại điện đặc trưng cuối cùng của hình ảnh mà chúng tôi sẽ đưa vào khối

Encoder Và kết quả sau khi chúng tôi kết hợp giữa ViT và Detectron2 được thé hiện lại như bảng 4.6

Thị giác Ngôn ngữ BLEU FI ViT và Bag-of-obJect mBERT 0.2103 0.3233

Bang 4.6 Kết qua Fl score và BLEU khi su dung ViT, Bag-of-object để trích xuất đặc trưng thị giác, mBERT đê trích xuât đặc trưng câu hỏi.

Q: what color is her handbag?

Q: túi xách cô gái đang deo có màu gi?

G: túi xách có màu đen P: túi xách có màu đỏ

Q: on which side of her is the bicycle parked? Q: chiéc xe đạp được dựng phía bên nao cua cô gái?

G: the bicycle is parked on her right side G: chiếc xe đạp được dựng phía bên phải cô gái

P: the bicycle is to the left of the bicycle P: chiéc xe đạp bên trái xe đạp

Q: how many lanterns are hung on the column? Q: có bao nhiêu chiếc đèn léng được treo lên cây cột?

P: there are three lanterns hanging

G: có ba chiéc đèn lông P: có hai chiéc đèn lông

G: ZED Ah < BRR AGES CUE P: H#z::Zfl (bên trái chiếc xe dap)

G: JRJTI42{EI P: jEKJI2`32f84 FS #L€L`# 3 (có ba chiếc đèn lồng được treo)

Hình 4.12 Ví dụ về một bộ câu hỏi về hình ảnh với phương pháp đề xuất tại phần

Nhận xét: Như kết quả tại bảng 4.6 và minh họa 4.12 với việc sử dụng kết hợp ViT kết hợp với phương pháp đề xuất Bag-of-object, chúng tôi đã phan nao tránh được vấn đề mat cân bang đặc trưng cũng như đã tan dụng được các đặc trưng đối tượng có trong hình, từ đó đạt được kết quả cao nhất trong số các thử nghiệm mà chúng tôi đã thử qua với F1 score: 0.2103 và BLEU: 0.3233.

Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ

Phương pháp trích xuất đặc trưng cAuhoi

Trong phan nay, sau khi thu được kết quả cao nhất với sự kết hợp giữa mô hình ViT và Bag-of-object, chúng tôi có định phan trích xuất đặc trưng thị giác và tiễn hành thử nghiệm các phương pháp trích xuất đặc trưng câu hỏi khác nhau dé tìm ra phương pháp giúp cho mô hình đạt được kết quả cao nhất.

4.3.2.1 Dựa trên mô hình mBERT

Hình 4.13 Tổng quan quá trình trích xuất đặc trưng câu hỏi dựa trên mô hình được đào tạo trước mBERT

Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ

Như đã đề cập tại 4.3, bước đầu chúng tôi có định phần trích xuất đặc trưng câu hỏi bằng mô hình mBERT dé tìm ra phương pháp trích xuất đặc trưng thị giác phù hợp nhất Theo đó, quá trình trích xuất đặc trưng câu hỏi dựa trên mô hình được dao tạo trước mBERT được khái quát hóa như hình 4.13 Theo đó, mỗi câu hỏi sẽ được chúng tôi tiền xử lý đơn giản trước khi đưa vào mô hình như: chuyền các từ viết hoa về chung cau trúc viết thường, loại bỏ các ký tự đặc biệt không cần thiết ra khỏi câu. Tiếp theo, từng từ trong câu sẽ được mã hóa dựa trên bộ dữ liệu Những từ sau khi được mã hóa sẽ được kết hợp tiếp tục với các vector mã hóa vi tri của từ trong câu. Vector mã hóa kết hợp cuối cùng này sẽ được đưa vào khối encoder như được dé cập tại chương 2 đề có thể trích xuất ra được vector đặc trưng đại diện cuối cùng cho câu hỏi.

Trong phạm vi phương pháp đề xuất của khóa luận, chúng tôi giới hạn có định số số lượng các vector mã hóa các từ trong câu là 60, đối với những câu hỏi không đủ số lượng này, chúng tôi đơn giản thêm một số lượng ma trận 0 đề số lương đủ 60, sau đó tạo một ma trận mặt nạ đề giúp cho mô hình không trích xuất duoc bat kỳ đặc trưng nào từ các ma trận 0 này Như vậy, cuối cùng từ một câu hỏi bất kỳ, thông qua mô hình mBERT, chúng tôi thu được một vector đại diện cuối cùng cho câu hỏi có kích thước Xạ € R!60%75Š, Và kết quả khi kết hợp sử dụng mBERT đề trích xuất đặc trưng câu hỏi và ViT, Bag-of-object như chúng tôi đã trình bày tại bang 4.6

Bên cạnh việc sử dụng nBỗERT để trích xuất đặc trưng câu hỏi, trong quá trình tìm hiểu, chúng tôi biết tới mT5 với nhiều điểm vượt trội hơn mBERT như cơ sở lý thuyết chúng tôi đã đề cập tại 3.2.2 Vì vậy, chúng tôi tiếp tục thử nghiệm tính hiệu quả của mô hình này bằng cách thay thế mBERT bằng mT5 - một mô hình trích xuất đặc trưng trong lĩnh vực xử lý ngôn ngữ tự nhiên ra đời sau MBERT dé so sánh.

4.3.2.2 Dựa trên mô hình mT5 Encoder

Quá trình trích xuất đặc trưng câu hỏi dựa trên mô hình được dao tạo trước mT5 Encoder và mBERT là tương tự như nhau vì về cơ bản, chúng đều dựa trên mô hình Transformer Encoder gốc Điểm khác nhau duy nhất giữa hai mô hình này sự khác nhau giữa dir liệu, khi mBERT huấn luyện trên bộ dữ liệu đa ngôn ngữ từ Wikipedia thì mT5 được huấn luyện trên bộ dữ liệu Common Crawl-based với các cách xử lý đầu vào khác nhau Vì vậy, quá trình chúng tôi sử dụng mô hình mT5 và mBERT trích

Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ xuất đặc trưng câu hỏi là tương tự nhau, nên chúng tôi sẽ không đề cập lại quá trình trích xuất của mBERT như phan trên nữa Và kết quả khi chúng tôi sử dụng mT5 thay thế cho mBERT được thê hiện như bảng 4.7

Thị giác Ngônngữ BLEU FI ViT và Bag-of-object mT5 0.2317 0.3364

Bang 4.7 Kết quả F1 score va BLEU khi sử dụng ViT va Bag-of-object dé trích xuất đặc trưng thi giác, mT5 dé trích xuât đặc trưng cau hỏi.

Q: what color is her handbag? Q: túi xách cô gái dang deo có mau gi?

G: it is black G: túi xách có màu đen

P: it is black P: túi xách có màu đen

G: the bicycle is parked on her right side G: chiếc xe dap được dựng phía bên phải cô gái

P: the bicycle is to the left P: chiéc xe đạp bên trái cô gái

Q: on which side of her is the bicycle parked? | Q: chiéc xe dap được dựng phía bên nào của cô gái?

Q: how many lanterns are hung on the column? Q: có bao nhiêu chiéc đèn lông được treo lên cây cột?

G: there are three lanterns G: có ba chiéc đèn lông

P: there are three lanterns hanging on the column P: có hai chiéc đèn lông

Q: BER HO C5 SAIC š NTO ETD?

G: HO Al — BH AER ANTE

P: Bix OFA (bên trái chiếc xe dap)

P: FEIT 23282 ENTE 3 (có ba chiếc đèn lồng được treo)

Hình 4.14 Ví dụ về một bộ câu hỏi về hình ảnh với phương pháp đề xuất tại phần

Nhận xét: Như vậy, với việc thay thế mBERT bởi mT5 đã giúp mô hình đạt kết quả tốt hơn trên bộ đữ liệu với kết quả F1 là: 0.2317 và BLEU là: 0.3364 Cũng như phan minh họa tại 4.14 có thé thấy một số câu trả lời đã tự nhiên hơn so với phan trước Điều này có thê lý giải đơn giản rằng vì mT5 là mô hình ra đời sau, nên đã tận dụng được những điểm mạnh và điểm yếu của mBERT khi huấn luyện trên một bộ dữ liệu sạch hơn với sự kết hợp của nhiều tác vụ trong lĩnh vực NLP hơn là mBERT.

Bên cạnh đó, như đã đề cập tại đầu Chương 4, sau khi tận dụng tốc độ xử ly của phương pháp hợp nhất đặc trưng nông dé tim ra được mô hình biểu diễn thị giác và ngôn ngữ tốt nhất chúng tôi tiến hành cải tiễn giai đoạn hợp nhất đặc trưng băng cách thay thé phương pháp nông băng phương pháp Mã hóa hợp nhất đơn luồng cho việc hợp nhất đặc trưng từ các mô hình biéu diễn đặc trưng ngôn ngữ và hình ảnh tốt nhât vừa tìm được

Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ

Hướng tiếp cận dựa trên Mã hóa hợp nhất đơn luồng

Dựa trên huấn luyện từ đầu mô hình Transformer cơ sở

Sau khi trích xuất đặc trưng thị giác thông qua sự kết hợp giữa ViT, Bag-of- object và trích xuất đặc trưng câu hỏi thông qua mô hình mT5 và kết hợp chúng lại như đã đề cập tại phần trên, chúng tôi xem vector kết hợp này là đầu vào của khối Mã hóa, từ đó đưa qua mô hình Transformer cơ sở với các tham số được khởi tạo từ đầu dé huấn luyện và sinh ra câu trả lời với cơ sở lý thuyết như chương 2.2 Với hướng tiếp cận này, chúng tôi thu được kết quả như bảng 4.8.

Thị giác Ngôn ngữ PPKẾthợp Sinh câu trảlời BLEU FI

ViT Bag-of-object mT5 Encoder Decoder 0.2104 0.3223

Bang 4.8 Kết quả khi sử dung ViT và Bag-of-object + mT5 va sinh câu dựa trên mô hình Transformer cơ sở

Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ

Q: what color is her handbag? Q: túi xách cô gai đang deo có mau gi?

G: it is black G: tui xach co mau den

Q: on which side of her is the bicycle parked? Q: chiéc xe đạp được dựng phía bên nào của cô gái?

G: the bicycle is parked on her right side G: chiếc xe đạp được dựng phía bên phải cô gái

P: the bicycle parked P: cô gái cùng chiéc xe dap

|Q: how many lanterns are hung on the column? @: có bao nhiêu chiếc đèn lồng được treo lên cây cột?

G: there are three lanterns G: có ba chiéc đèn lông

P: there are three hanging P: co ba chiéc

Q: HEA 2 TH SONY FRY FE €3 22

P: Sy Z1#4ZKv` (cái túi mau đỏ)

Q: BER ISEHED CS OBIE EN TOE TA?

G: EO FAI- BE ORE SN THE

Hình 4.16 Vi du về một bộ câu hỏi về hình ảnh với phương pháp dé xuất tai phan

Nhận xét: Từ bảng 4.8 và câu trả lời minh họa tại 4.16 cho thấy rằng kết quả khi huấn luyện từ đầu mô hình Mã hóa - Giải mã dựa trên mô hình Transformer cơ sở cho ra kết quả không cao bằng việc không sử dụng khối mã Mã hóa Điều này có thé dé dang lí giải bởi khi thêm khối Mã hóa, mô hình trở nên phức tạp hơn, với số lượng đữ liệu hiện tại là không đủ để huấn luyện được mô hình phức tạp này cho kết quả cao Vì vậy, chúng tôi sử dụng phương pháp Transfer learning, tận dụng mô hình được huấn luyện trước mT5 dé thử nghiệm tiếp tục.

Dựa trên việc học chuyền giao mô hình mT5 encoder-decoder 53

Quá trình huấn luyện dựa trên mô hình Mã hóa - Giải mã dựa trên mô hình mT5 tương tự như quá trình chúng tôi huấn luyện mô hình Mã hóa - Giải mã dựa trên mô hình Transformer cơ sở Điều khác biệt duy nhất là các trọng số trong mô hình

Mã hóa - Giải mã chúng tôi không khởi tạo từ đầu mà huấn luyện tiếp tục trên mô hình mT5 Với cách huấn luyện này, chúng tôi đạt được kết quả như bảng 4.9.

Thị giác Ngônngữ PPKéthop Sinhcâutrảlời BLEU FI vit mT5 mTS5 Encoder mT5 Decoder 0.2304 0.3397

Bang 4.9 Kết quả F1 score va BLEU khi sử dụng Mã hóa don luồng với ViT Bag- of-obJect + mT5

Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ

'G: what color is her handbag? (Q: túi xách cô gái đang đeo có màu gi?

G: itis black G: túi xách có mau đen

P: itis black P: túi xách có mau den

(Q on which side of her is the bicycle parked (Q: chiếc xe đạp được dựng phía bên nào của cô gai?

'G: the bicycle is parked on her right side G: chiếc xe đạp được dựng phía bên phải cô gái

P: the bicycle is to the left side : chiếc xe dap bên trái cô gái

'G: how many lanterns are hung on the column? (Q: có bao nhiều chiếc đèn lồng được treo lên cây cột?

'G: there are three lanterns G: có ba chiếc đèn lông

P: there are three lanterns hanging on the column P: có ba chiếc đèn lỏng được treo.

G: EO Gil aes RES TE

P: E2520 Arif (bên trái chiếc xe dap)

P:JÊT2'32f82 ENT OE F (có ba chiếc đèn lồng được treo)

Hình 4.17 Ví dụ về một bộ câu hỏi về hình ảnh với phương pháp đề xuất tại 4.4.2.

Nhận xét: Từ bảng 4.9 và minh họa 4.17 với việc huấn luyện tiếp trên mô hình được đào tạo trước mT5, chúng tôi đã khắc phục được một phần những điểm yếu của các thử nghiệm trước, tận dụng được kiến thức khổng lồ của mô hình đề giảm thiểu thời gian huấn luyện và thiếu hụt dữ liệu từ đó đạt được kết quả cao nhất trong các lần thực nghiệm với F1-score: 0.2304, BLEU: 0.3397.

Tổng quanđánhgiá Ốc 54

Trên bộ dữ liệu UIT-EVJVQA

STT Tênđộithi BLEU FI STT Tênđộith BLEU FI

Bảng 4.10 Kết quả trên tập Public Bang 4.11 Kết quả trên tập Private

Test của bộ UIT-EVJVQA Test của bộ UIT-EVJVQA

Kết quả của phương pháp đề xuất so với kết quả của các đội thi tham dự cuộc thi được thể hiện lại như bảng 4.10 và 4.11 Có thé thấy rằng, phương pháp đề xuất của chúng tôi có tính cạnh tranh đói với đội thi ở vị trí thứ ba Ngoài ra, do phương pháp mà các đội thi sử dụng vẫn chưa được công bố nên chúng tôi vẫn chưa có cơ sở để so sánh với phương pháp của các đội thi khác mà chỉ so sánh về mặt kết quả.

4.5.2 Mở rộng đánh giá trên bộ dữ liệu UIT-mVQA

Như đề cập tại phần 4.1.2, chúng tôi đã xin phép nhóm tác giả và thực hiện mở rộng đánh giá trên bộ dữ liệu mVQA bởi phương pháp đề xuất như tại phần 4.4.2 và kết quả được thể hiện như bảng 4.12 Lưu ý rằng nhóm tác giả đánh giá dựa trên độ đo accuracy nên chúng tôi cũng thực hiện đánh giá trên độ đo này Trong đó,

VGG+Hierarchical Co-Attention là phương pháp đạt kết quả cao nhất của nhóm tác giả với việc sử dụng VGG trích xuất đặc trưng hình ảnh và kết hợp với đặc trưng câu hỏi thông qua phương pháp Hierarchical Co-Attention [57] ViT + BERT sử dụng ViT để trích xuất đặc trưng hình ảnh và BERT để trích xuất đặc trưng câu hỏi Như vậy, với việc thử nghiệm phương pháp đề xuất trên bộ dữ liệu UIT-mVQA, chúng tôi đã cho ra kết quả tốt hơn phương pháp đề xuất mà nhóm tác giả gốc đã thực nghiệm.

3 Hướng tiép cận của chúng tôi 0.5038

Bảng 4.12 Kết qua accuracy trên bộ UIT-mVQA khi so sánh với nhóm tác giả gốc.

Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ uựn[ eQ 1A weyd SuoN 1equ o2 enb 193 LOA quị QU ưenb 800 [, BT U1H

Chương 5 KET LUẬN VA HƯỚNG PHAT TRIEN

Tổng kết lai, qua tất cả những thử nghiệm, dé giải quyết bài toán trả lời câu hỏi trực quan đa ngôn ngữ, chúng tôi đề xuất phương pháp với việc sử dụng ViT dựa trên cau trúc Transformer nổi tiếng kết hợp Detectron2 cùng với phương pháp đề xuất Bag of ObJect để trích xuất các đặc trưng đại diện cho hình ảnh, sử dụng khối Mã hóa của mô hình mT5 dé trích xuất đặc trưng câu hỏi đa ngôn ngữ, sau đó kết hợp các đặc trưng nay lại và huấn luyện tiếp trên mô hình được đào tạo trước mT5§ (bao gồm cả khối Mã hóa và Giải mã) từ đó sinh ra câu trả lời Với những đề xuất trên, với sự ánh xạ kết quả sau khi cuộc thi EVJVQA Challenge kết thúc và kết quả đạt được hiện tại, chúng tôi đã đạt được vi tri thứ 4 trong các đội tham gia Theo đó, trong lần cải tiền này, chúng tôi đã tăng một hạng so với hạng mà chúng tôi đạt được trong quá trình cuộc thi diễn ra.

Trong định hướng tương lai, chúng tôi sẽ áp dụng và thử nghiệm các mô hình

OCR [58] để trích xuất đặc trưng chữ trong hình, kết hợp BART [59] dé tái tạo ra các câu hỏi tương đồng về mặt ngữ nghĩa với câu hỏi gốc và các phương pháp tăng cường dữ liệu hình ảnh đề có thể tăng sỐ lượng đữ liệu huấn luyện cho mô hình Thêm vào đó, chúng tôi sẽ sử dụng beam search [60] thay thế cho greedy search hiện tại để có thể sinh ra câu trả lời tốt nhất.

M Stefanini, M Cornia, L Baraldi, S Cascianelli, G Fiameni, and

R Cucchiara, “From show to tell: A survey on image captioning,” CoRR, vol. abs/2107.06912, 2021 [Online] Available: https://arxiv.org/abs/2107.06912

J P Bigham, C Jayant, H Ji, G Little, A Miller, R C Miller, R Miller,

A Tatarowicz, B White, S White, and T Yeh, “Vizwiz: Nearly real-time answers to visual questions,” in Proceedings of the 23nd Annual ACM Symposium on User Interface Software and Technology, ser UIST ’10 New York, NY, USA: Association for Computing Machinery, 2010, p 333-342. [Online] Available: https://doi.org/10.1145/1866029.1866080

B Liu, L Zhan, L Xu, L Ma, Y Yang, and X Wu, “SLAKE: A semantically-labeled knowledge-enhanced dataset for medical visual question answering,” CoRR, vol abs/2102.09542, 2021 [Online] Available: https: //arxiv.org/abs/2102.09542

P Prabhakar, N Kulkarni, and L Zhang, “Question relevance in visual question answering,” CoRR, vol abs/1807.08435, 2018 [Online] Available: http://arxiv.org/abs/1807.08435

A Das, H Agrawal, C L Zitnick, D Parikh, and D Batra, “Human attention in visual question answering: Do humans and deep networks look at the same regions?” CoRR, vol abs/1606.03556, 2016 [Online] Available: http://arxiv.org/abs/1606.03556

B He, M Xia, X Yu, P Jian, H Meng, and Z Chen, “An educational robot system of visual question answering for preschoolers,” in 2017 2nd Interna- tional Conference on Robotics and Automation Engineering (ICRAE), 2017, pp. 441-445.

P Bongini, F Becattini, A D Bagdanov, and A D Bimbo, “Visual question answering for cultural heritage,” CoRR, vol abs/2003.09853, 2020 [Online].

Available: https://arxiv.org/abs/2003.09853

K Simonyan and A Zisserman, “Very deep convolutional networks for large-scale image recognition,” in 3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, May 7-9, 2015, Conference Track Proceedings, Y Bengio and Y LeCun, Eds., 2015 [Online] Available: http://arxiv.org/abs/1409.1556

A Vaswani, N Shazeer, N Parmar, J Uszkoreit, L Jones, A N Gomez,

L Kaiser, and I Polosukhin, “Attention is all you need,” CoRR, vol. abs/1706.03762, 2017 [Online] Available: http://arxiv.org/abs/1706.03762

J Devlin, M Chang, K Lee, and K Toutanova, “BERT: pre-training of deep bidirectional transformers for language understanding,” CoRR, vol. abs/1810.04805, 2018 [Online] Available: http://arxiv.org/abs/1810.04805

S Antol, A Agrawal, J Lu, M Mitchell, D Batra, C L Zitnick, and D Parikh,

“VQA: visual question answering,” CoRR, vol abs/1505.00468, 2015 [Online]. Available: http://arxiv.org/abs/1505.00468

K Marino, M Rastegari, A Farhadi, and R Mottaghi, “Ok-vqa: A visual ques- tion answering benchmark requiring external knowledge,” in Conference on Computer Vision and Pattern Recognition (CVPR), 2019.

D A Hudson and C D Manning, “Gqa: A new dataset for real-world visual rea- soning and compositional question answering,” Conference on Computer Vision and Pattern Recognition (CVPR), 2019.

H Gao, J Mao, J Zhou, Z Huang, L Wang, and W Xu, “Are you talking to a machine? dataset and methods for multilingual image question answering,” CoRR, vol abs/1505.05612, 2015 [Online] Available: http: //arxiv.org/abs/1505.05612

W He, K Liu, Y Lyu, S Zhao, X Xiao, Y Liu, Y Wang, H Wu,

Q She, X Liu, T Wu, and H Wang, “Dureader: a chinese machine reading comprehension dataset from real-world applications,” CoRR, vol. abs/1711.05073, 2017 [Online] Available: http://arxiv.org/abs/1711.05073

B Wang, F Lv, T Yao, J Ma, Y Luo, and H Liang, “Chiqa: A large scale image-based real-world question answering dataset for multi-modal

[24] understanding,” in Proceedings of the 31st ACM International Conference on Information Knowledge Management, ser CIKM ’22 New York, NY, USA: Association for Computing Machinery, 2022, p 1996-2006 [Online]. Available: https://doi.org/10.1145/3511808.3557258

T Khanh, A Nguyen, L T An, and K Nguyen, “Vivda: Vietnamese visual question answering,” 11 2021.

J Pfeiffer, G Geigle, A Kamath, J O Steitz, S Roth, I Vulic, and I Gurevych,

“xgqa: Cross-lingual visual question answering,” CoRR, vol abs/2109.06082,

2021 [Online] Available: https://arxiv.org/abs/2109.06082

E Vivoli, A F Biten, A Mafla, D Karatzas, and L Gomez, “Must-vqa: Multi- lingual scene-text vqa,” in Computer Vision — ECCV 2022 Workshops, L Kar- linsky, T Michaeli, and K Nishino, Eds Cham: Springer Nature Switzerland,

H R Khan, D Gupta, and A Ekbal, “Towards developing a multilingual and code-mixed visual question answering system by knowledge distillation,” CoRR, vol abs/2109.04653, 2021 [Online] Available: https://arxiv.org/abs/

J Deng, W Dong, R Socher, L.-J Li, K Li, and L Fei-Fei, “Imagenet: A large- scale hierarchical image database,” in 2009 IEEE Conference on Computer Vi- sion and Pattern Recognition, 2009, pp 248-255.

T Lin, M Maire, S J Belongie, L D Bourdev, R B Girshick, J Hays,

P Perona, D Ramanan, P Dollar, and C L Zitnick, “Microsoft COCO: common objects in context,” CoRR, vol abs/1405.0312, 2014 [Online]. Available: http://arxiv.org/abs/1405.0312

O Bojar, C Buck, C Federmann, B Haddow, P Koehn, J Leveling, C Monz,

P Pecina, M Post, H Saint-Amand, R Soricut, L Specia, and A Tamchyna,

“Findings of the 2014 workshop on statistical machine translation,” in Proceedings of the Ninth Workshop on Statistical Machine Translation. Baltimore, Maryland, USA: Association for Computational Linguistics, Jun.

2014, pp 12-58 [Online] Available: https://aclanthology.org/W 14-3302

A Radford, K Narasimhan, T Salimans, and I Sutskever, “Improving language

[33] understanding by generative pre-training,” 2018.

K He, X Zhang, S Ren, and J Sun, “Deep residual learning for image recognition,” CoRR, vol abs/1512.03385, 2015 [Online] Available: http://arxiv.org/abs/1512.03385

A Krizhevsky, I Sutskever, and G E Hinton, “Imagenet classification with deep convolutional neural networks,” in Advances in Neural Information Processing Systems, F Pereira, C Burges, L Bottou, and K Weinberger, Eds., vol 25 Curran Associates, Inc., 2012 [Online] Available: https://proceedings. neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf

J Pennington, R Socher, and C Manning, “GloVe: Global vectors for word representation,” in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP) Doha, Qatar: Association for Computational Linguistics, Oct 2014, pp 1532-1543 [Online] Available: https://aclanthology.org/D14-1162

T Mikolov, K Chen, G Corrado, and J Dean, “Efficient estimation of word representations in vector space,” Proceedings of Workshop at ICLR, vol 2013,

A Sherstinsky, “Fundamentals of recurrent neural network (RNN) and long short-term memory (LSTM) network,” CoRR, vol abs/1808.03314, 2018. [Online] Available: http://arxiv.org/abs/1808.033 14

S Hochreiter and J Schmidhuber, “Long short-term memory,” Neural compu- tation, vol 9, no 8, pp 1735-1780, 1997.

J Chung, C Gũlcehre, K Cho, and Y Bengio, “Empirical evaluation of gated recurrent neural networks on sequence modeling,” CoRR, vol abs/1412.3555,

2014 [Online] Available: http://arxiv.org/abs/1412.3555

M Tan and Q V Le, “Efficientnet: Rethinking model scaling for convolutional neural networks,” CoRR, vol abs/1905.11946, 2019 [Online] Available: http://arxiv.org/abs/1905.11946

H Jiang, I Misra, M Rohrbach, E G Learned-Miller, and X Chen, “In defense of grid features for visual question answering,” CoRR, vol abs/2001.03615,

2020 [Online] Available: https://arxiv.org/abs/2001.03615

B Liu, Z Huang, Z Zeng, Z Chen, and J Fu, “Learning rich image region representation for visual question answering,’ CoRR, vol abs/1910.13077,

2019 [Online] Available: http://arxiv.org/abs/1910.13077

Z Yang, J Yu, C Yang, Z Qin, and Y Hu, “Multi-modal learning with prior visual relation reasoning,” CoRR, vol abs/1812.09681, 2018 [Online]. Available: http://arxiv.org/abs/1812.09681

Y Xi, Y Zhang, S Ding, and S Wan, “Visual question answering model based on visual relationship detection,” Signal Processing: Image Communication, vol 80, p 115648, 2020 [Online] Available: https://www.sciencedirect.com/ science/article/pii/S09235965 19305077

K Chen, J Wang, L Chen, H Gao, W Xu, and R Nevatia, “ABC- CNN: an attention based convolutional neural network for visual question answering,” CoRR, vol abs/1511.05960, 2015 [Online] Available: http: //arxiv.org/abs/1511.05960

A Jiang, F Wang, F Porikli, and Y Li, “Compositional memory for visual question answering,” 11 2015.

S Ren, K He, R B Girshick, and J Sun, “Faster R-CNN: towards real-time object detection with region proposal networks,” CoRR, vol abs/1506.01497,

2015 [Online] Available: http://arxiv.org/abs/1506.01497

Z Yang, N Garcia, C Chu, M Otani, Y Nakashima, and H Takemura, “Bert representations for video question answering,” in 2020 IEEE Winter Conference on Applications of Computer Vision (WACV), 2020, pp 1545-1554.

Y Khare, V Bagal, M Mathew, A Devi, U D Priyakumar, and C V. Jawahar, “MMBERT: multimodal BERT pretraining for improved medical VQA,” CoRR, vol abs/2104.01394, 2021 [Online] Available: https://arxiv. org/abs/2104.01394

M Dias, H Aloj, N Ninan, and D Koshti, “Bert based multiple parallel co- attention model for visual question answering,” in 2022 6th International Con- ference on Intelligent Computing and Control Systems (ICICCS), 2022, pp. 1531-1537.

C Raffel, N Shazeer, A Roberts, K Lee, S Narang, M Matena, Y Zhou,

W Li, and P J Liu, “Exploring the limits of transfer learning with a unified text-to-text transformer,” CoRR, vol abs/1910.10683, 2019 [Online]. Available: http://arxiv.org/abs/1910.10683

Y Du, Z Liu, J Li, and W X Zhao, “A survey of vision-language pre-trained models,” 2022 [Online] Available: https://arxiv.org/abs/2202.10936

A Radford, J W Kim, C Hallacy, A Ramesh, G Goh, S Agarwal, G Sastry,

A Askell, P Mishkin, J Clark, G Krueger, and I Sutskever, “Learning transferable visual models from natural language supervision,’ CoRR, vol. abs/2103.00020, 2021 [Online] Available: https://arxiv.org/abs/2103.00020

S Kong and C C Fowlkes, “Low-rank bilinear pooling for fine-grained classification,” CoRR, vol abs/1611.05109, 2016 [Online] Available: http: //arxiv.org/abs/1611.05109

A Fukui, D H Park, D Yang, A Rohrbach, T Darrell, and M Rohrbach,

“Multimodal compact bilinear pooling for visual question answering and visual grounding,’ CoRR, vol abs/1606.01847, 2016 [Online] Available: http://arxiv.org/abs/1606.01847

H Ben-Younes, R Cadéne, N Thome, and M Cord, “BLOCK: bilinear superdiagonal fusion for visual question answering and visual relationship detection,” CoRR, vol abs/1902.00038, 2019 [Online] Available: http: //arxiv.org/abs/1902.00038

L Xue, N Constant, A Roberts, M Kale, R Al-Rfou, A Siddhant,

A Barua, and C Raffel, “mt5: A massively multilingual pre-trained text- to-text transformer,” CoRR, vol abs/2010.11934, 2020 [Online] Available: https://arxiv.org/abs/2010.11934

A Dosovitskiy, L Beyer, A Kolesnikov, D Weissenborn, X Zhai, T Un- terthiner, M Dehghani, M Minderer, G Heigold, S Gelly, J Uszkoreit, and N Houlsby, “An image is worth 16x16 words: Transformers for image recognition at scale,” CoRR, vol abs/2010.11929, 2020 [Online] Available: https://arxiv.org/abs/2010.11929

H Bao, L Dong, and F Wei, “Beit: BERT pre-training of image transformers,” CoRR, vol abs/2106.08254, 2021 [Online] Available: https://arxiv.org/abs/

Ngày đăng: 23/10/2024, 01:10

HÌNH ẢNH LIÊN QUAN

Bảng 4.5 Kết quả F1 score va BLEU khi sử dụng ViT để trích xuất đặc - Khóa luận tốt nghiệp Khoa học máy tính: Nghiên cứu phương pháp hỏi đáp trực quan đa ngôn ngữ với các mô hình thị giác - ngôn ngữ được huấn luyện sẵn
Bảng 4.5 Kết quả F1 score va BLEU khi sử dụng ViT để trích xuất đặc (Trang 10)
Hình ảnh Cô ấy mặc áo khoác i - Khóa luận tốt nghiệp Khoa học máy tính: Nghiên cứu phương pháp hỏi đáp trực quan đa ngôn ngữ với các mô hình thị giác - ngôn ngữ được huấn luyện sẵn
nh ảnh Cô ấy mặc áo khoác i (Trang 17)
Hình này vẫn bị giới hạn bởi kích thước và độ sâu của mô hình. - Khóa luận tốt nghiệp Khoa học máy tính: Nghiên cứu phương pháp hỏi đáp trực quan đa ngôn ngữ với các mô hình thị giác - ngôn ngữ được huấn luyện sẵn
Hình n ày vẫn bị giới hạn bởi kích thước và độ sâu của mô hình (Trang 23)
Hình ảnh &gt; Hợp Nhất Dac Trung - Khóa luận tốt nghiệp Khoa học máy tính: Nghiên cứu phương pháp hỏi đáp trực quan đa ngôn ngữ với các mô hình thị giác - ngôn ngữ được huấn luyện sẵn
nh ảnh &gt; Hợp Nhất Dac Trung (Trang 27)
Hình 2.3 Trực quan hóa các hướng tiếp cận Biểu diễn đặc trưng ảnh.[1] a) Biéu diễn - Khóa luận tốt nghiệp Khoa học máy tính: Nghiên cứu phương pháp hỏi đáp trực quan đa ngôn ngữ với các mô hình thị giác - ngôn ngữ được huấn luyện sẵn
Hình 2.3 Trực quan hóa các hướng tiếp cận Biểu diễn đặc trưng ảnh.[1] a) Biéu diễn (Trang 28)
Hình linh hoạt (ResNet[25], EfficientNet[32], ...) phù hợp cho kích thước bộ đữ liệu - Khóa luận tốt nghiệp Khoa học máy tính: Nghiên cứu phương pháp hỏi đáp trực quan đa ngôn ngữ với các mô hình thị giác - ngôn ngữ được huấn luyện sẵn
Hình linh hoạt (ResNet[25], EfficientNet[32], ...) phù hợp cho kích thước bộ đữ liệu (Trang 29)
Hình 2.6 RNN Unit và LSTM Unit - Khóa luận tốt nghiệp Khoa học máy tính: Nghiên cứu phương pháp hỏi đáp trực quan đa ngôn ngữ với các mô hình thị giác - ngôn ngữ được huấn luyện sẵn
Hình 2.6 RNN Unit và LSTM Unit (Trang 32)
Hình 2.7 Mô hình mã hóa hợp nhất luồng don (a) và luồng kép (b) - Khóa luận tốt nghiệp Khoa học máy tính: Nghiên cứu phương pháp hỏi đáp trực quan đa ngôn ngữ với các mô hình thị giác - ngôn ngữ được huấn luyện sẵn
Hình 2.7 Mô hình mã hóa hợp nhất luồng don (a) và luồng kép (b) (Trang 35)
Hình 3.1 Minh hoa khối dư của mô hình ResNet - Khóa luận tốt nghiệp Khoa học máy tính: Nghiên cứu phương pháp hỏi đáp trực quan đa ngôn ngữ với các mô hình thị giác - ngôn ngữ được huấn luyện sẵn
Hình 3.1 Minh hoa khối dư của mô hình ResNet (Trang 38)
Hình 3.2 Sự khác nhau giữa các nhiệm vu phân đoạn hình ảnh - Khóa luận tốt nghiệp Khoa học máy tính: Nghiên cứu phương pháp hỏi đáp trực quan đa ngôn ngữ với các mô hình thị giác - ngôn ngữ được huấn luyện sẵn
Hình 3.2 Sự khác nhau giữa các nhiệm vu phân đoạn hình ảnh (Trang 41)
Hình 4.1 nhự một vi dụ trực quan về các câu trả lời được sinh ra bởi các mô hình. - Khóa luận tốt nghiệp Khoa học máy tính: Nghiên cứu phương pháp hỏi đáp trực quan đa ngôn ngữ với các mô hình thị giác - ngôn ngữ được huấn luyện sẵn
Hình 4.1 nhự một vi dụ trực quan về các câu trả lời được sinh ra bởi các mô hình (Trang 46)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN