Khóa luận tốt nghiệp Khoa học máy tính: Sinh câu mô tả tiếng Việt cho ảnh dựa trên các mô hình transformer

Hình ảnh này có thể được biểu diễn dưới dạng một tập hợp các pixel hoặc một tập hợp các đặc trưng trừutượng tạo ra từ hình ảnh bằng cách sử dụng các mô hình trích xuất đặc trưng thị giác

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

NGUYEN VĂN TOÀN - 20522028

LE TRONG HẢO - 20520178

KHÓA LUẬN TÓT NGHIỆP

Transformer

Vietnamese Image Caption Using Transformer Based Models

CU NHÂN NGANH KHOA HỌC MAY TÍNH

GIANG VIEN HUONG DAN

ThS V6 Duy Nguyén

TS Nguyén Tan Tran Minh Khang

TP HO CHÍ MINH, 2024

Trang 2

THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số

ngảy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

Trang 3

LỜI CẢM ƠNBắt đầu bằng lòng biết ơn sâu sắc, chúng tôi muốn gửi lời tri ân đặc biệt đếnhai thầy TS Nguyễn Tan Trần Minh Khang và ThS Võ Duy Nguyên với tình cảm,

sự quan tâm, và sự hướng dẫn tận tình mà họ đã dành cho chúng tôi trong suốt quá

trình thực hiện khóa luận Qua sự hỗ trợ chân thành của hai thầy, chúng tôi không chỉtích luỹ được kiến thức chuyên môn sâu rộng mà còn phát triển nhiều kỹ năng quantrọng và nhận thức sâu sắc về ý nghĩa của nghiên cứu khoa học và cách truyền tải

hiệu quả những kiên thức đó đên mọi người.

Thêm vào đó, chúng tôi muốn tỏ lòng biết ơn đối với nhóm nghiên cứu Together với sự đóng góp tích cực từ các thầy, các anh chị và các bạn trong nhóm

UIT-Sự chia sẻ ý kiến và góp ý mang lại cho nhóm chúng tôi không chỉ nhiều góc nhìn

mới mẻ mà còn cung cấp ý tưởng đa dạng đề thử nghiệm trong quá trình nghiên cứu.Khoảng thời gian làm việc cùng nhóm không chỉ là những kỷ niệm đáng nhớ nhấttrong quá trình học tập của chúng tôi, mà còn là cơ hội dé tạo nên một đội ngũ nghiêncứu UIT-Together thống nhất, sẵn sàng hỗ trợ lẫn nhau

Bên cạnh đó, chúng tôi cũng muốn bày tỏ lòng biết ơn đến ngôi nhàKHMT2020 Sự ủng hộ và chia sẻ từ các bạn đã không ngừng là nguồn động viên

quan trọng, giúp chúng tôi vượt qua những khó khăn và tận hưởng những niềm vui

trong hành trình học tập và cuộc song Su hién dién va đồng lòng của họ tạo điều kiện

thuận lợi, giúp chúng tôi bước di mạnh mẽ hơn trên con đường hướng đến việc đạt

được những ước mơ của chúng tdi.

Lời cuối cùng, chúng tôi muốn bày tỏ lòng biết ơn sâu sắc đến tất cả mọi người.Gửi những lời chúc tốt đẹp nhất đến tất cả và hy vọng được duy trì mối quan hệ gắn

bó, tiếp tục hành trình phát triển hơn nữa cùng nhau Cuối cùng, lời cảm ơn đặc biệtnhất dành cho thầy ThS Võ Duy Nguyên Chân thành cảm ơn thầy đã dẫn dắt chúng

tôi từ những ngày đầu đến tận thời điểm hiện tại Xin phép cảm ơn thầy và tất cả mọi

người rat nhiêu, chúc mọi người những điêu tot đẹp nhat.

Trang 4

ĐẠI HỌC QUOC GIA TP HO CHÍ CỘNG HÒA XÃ HỘI CHỦ NGHĨA

MINH VIỆT NAM

TRƯỜNG ĐẠI HỌC , Độc Lap - Tự Do - Hanh Phúc

` CONG NGHỆ THONG TIN

ĐÈ CUONG CHI TIẾT

TEN DE TAI: SINH CAU MO TA TIENG VIET CHO ANH DUA TREN CAC MO

HINH TRANSFORMER

TEN DE TAI TIENG ANH: VIETNAMESE IMAGE CAPTIONING USING

TRANSFORMER BASED MODELS

Cán bộ hướng dẫn: TS NGUYEN TAN TRAN MINH KHANG

Thời gian thực hiện: Từ ngày 11/09/2023 đến ngày 30/12/2023

Sinh viên thực hiện:

NGUYEN VĂN TOÀN - 20522028 Lớp: KHMT2020

Email: 20522028 @ gm.uit.edu.vn Dién thoai: 0888723135

LE TRONG HAO - 20520178 Lớp: KHMT2020

Email: 20520178 @ gm.uit.edu.vn Dién thoai: 0398936741

Nội dung đề tài:

1 Giới thiệu

Mô tả anh (image caption) là bài toán biến đổi thông tin từ dạng hình ảnh sang dạng ngôn

ngữ tự nhiên, giúp máy tính hiéu và mô tả nội dung của hình ảnh băng các câu hoặc đoạn

Trang 5

văn mô tả Bài toán mô tả ảnh đòi hỏi sự kết hợp giữa thị giác máy tinh (đề hiéu hình ảnh)

và xử lý ngôn ngữ tự nhiên (để tạo ra văn bản mô tả) Đây là một trong những lĩnh vựcnghiên cứu quan trọng trong lĩnh vực AI và có rất nhiều ứng dụng thú vị, chăng hạn nhưcải thiện khả năng hiểu hình ảnh của máy tính, tạo mô tả cho ảnh trên mạng xã hội, hỗ trợ

trong y tế, robotics, và nhiều lĩnh vực khác Mục tiêu của bài toán mô tả ảnh là tạo ra một

mô tả tự động và có ý nghĩa về nội dung của một hình ảnh Điều này có thé được thực hiện

bang cách sử dụng các thuật toán và mô hình máy học dé tự động phân tích hình ảnh vatạo ra mô ta văn bản liên quan đến nó Mô ta ảnh có thé chứa thông tin về các phan tửtrong hình ảnh, như các đối tượng, môi trường, hoạt động, màu sắc, vị trí, và nhiều khía

cạnh khác Bai toán mô tả anh được hiểu như là một bài toán image-to-sequence, bién déi

chuỗi các pixel của anh mã hóa thành một hay nhiều vector đặc trưng

Trong những năm gần đây được bước các chuyên gia nghiên cứu kết hợp mô hình BERT(Bidirectional Encoder Representations from Transformers) Ban đầu được phát triển cho

xử lý ngôn ngữ tự nhiên, vào bai toán mô tả anh Điều này cải thiện hiệu suất của các hệthống mô tả ảnh băng cách sử dụng thông tin ngôn ngữ đề tạo ra mô tả chính xác hơn Bàitoán này cũng đã cho thấy kết quả tương đối cao trên bộ dữ liệu MS-COCO Sau đây lànhững bước phát triển của bài toán qua những năm gần đây:

— _ Show and Tell: A Neural Image Caption Generator (2015)[1]: Nghiên cứu này của

Google Research đã đề xuất mô hình đầu tiên sử dụng mạng nơ-ron học sâu (DeepNeural Networks) dé tạo ra mô tả cho hình ảnh Đây là một bước đột phá quan trọng

trong lĩnh vực Image Captioning.

— Neural Image Caption Generation with Visual Attention (2015)[2]: Day là một

trong những nghiên cứu dau tiên sử dung cơ chế attention trong Image Captioning

Mô hình tập trung vào các vùng quan trong của hình anh khi tao ra mô ta.

— Bottom-Up and Top-Down Attention for Image Captioning and Visual Question

Answering (2018)[3]: Nghiên cứu này giới thiệu mô hình sử dụng cơ chế attentionphía dưới và phía trên cho Image Captioning Cơ chế này giúp mô hình tập trung

vào các phân quan trọng của hình ảnh và tạo ra mô tả chi tiệt hơn.

Trang 6

— Diversity-Decomposition Trade-off in Image Captioning (2018)[4]: Nghiên cứu

này xem xét van đề về đa dạng mô tả hình ảnh và cách giải quyết mâu thuẫn giữa

việc tạo ra mô tả chỉ tiết và mô tả đa dạng cho cùng một hình ảnh

— Image Captioning with Transformer (2018)[5]: Mô hình Transformer đã được áp

dụng vào bài toán Image Captioning, mở ra khả năng tận dụng cơ chế self-attention

để tạo ra mô tả hình ảnh

— VLP (Vision-Language Pre-training) Models (2020)[6]: Các mô hình VLP như

CLIP và UNITER đã xuất hiện, kết hợp giữa học sâu và xử lý ngôn ngữ tự nhiên

để thực hiện nhiệm vụ liên quan đến hình ảnh và văn bản, bao gồm Image

Captioning.

— _ GPT-3 for Image Captioning [7]: Một trong những biến thé của GPT-3, một mô

hình học sâu cho xử ly ngôn ngữ tự nhiên, đã được áp dụng vào bài toán Image

Captioning và thê hiện hiệu suất ấn tượng

Nhận thấy được tiềm năng của bài toán trên Những lợi ích to lớn mà bài toán này manglại cho xã hội Do đó nhóm chúng em quyết định lựa chọn bài toán này để thực hiện nghiêncứu, tìm hiểu và phục vụ cho thực hiện khóa luận tốt nghiệp Với mục tiêu mang đến mộtcách tiếp cận tốt hơn và mong muốn đạt được kết quả cao hơn trên bai toán này

2 Phat biểu bài toán

Bài toán mô tả ảnh được biểu diễn qua từng pixel trong hình ảnh đầu vào Đầu vào va

dau ra của bài toán có thê được mô tả như sau:

— _ Đầu vào: Đầu vào của bài toán mô ta ảnh (Image Captioning) là một hình ảnh,

thường là một ma trận số học biểu diễn cho hình ảnh Hình ảnh này có thể được

biểu diễn dưới dạng một tập hợp các pixel hoặc một tập hợp các đặc trưng trừutượng tạo ra từ hình ảnh bằng cách sử dụng các mô hình trích xuất đặc trưng thị

giác (ví dụ: mạng nơ-ron tích chập)

— _ Đầu ra: Một câu mô tả bằng tiếng Việt về nội dung, ngữ nghĩa của bức anh đầu

`

vao.

Trang 7

4.

Nội dung nghiên cứu của đề tài chia làm 3 phần:

Hình 1.1 Đầu vào và đầu ra của bai toán

Mục tiêu của đề tàiMục tiêu của đề tài là khảo sát hiệu quả các phương pháp về mô tả ảnh tiếng Việt

cho các đối tượng trong bức ảnh dựa trên phương pháp cơ sở Transformer Qua đó

đề xuất một số phương pháp biểu diễn mới đạt hiệu quả cao trên các bộ dit liệu

được chọn

Ae on r > A gre Nội dung nghiên cứu của đề tài

Tìm hiểu về các cách tiếp cận cho bai toán sinh câu mô tả ảnh truyền thống

Nghiên cứu, đề xuất cải tiến biểu diễn ảnh trong không gian mô hình Transformer,

giúp cải thiện độ chính xác.

Nghiên cứu, thử nghiệm một cách tiếp cận kết hợp đặc trưng ngôn ngữ Tiếng Việtvào không gian mô hình, giúp cải thiện độ chính xác trên các bộ dữ liệu Tiếng Việt

Phương pháp thực hiện

Đọc và tóm tắt các cách tiếp cận cho bài toán mô tả ảnh truyền thống Khảo sát các

bộ dit liệu hiện có về bai toán mô tả ảnh trên thé giới cũng như tại Việt nam

Nghiên cứu, đề xuất một cách tiếp cận cải tiến biểu diễn ảnh trong không gian mô

hình, giúp tăng độ chính xác.

Trang 8

— Khao sát, tìm hiểu các phương pháp biểu diễn ảnh hiện có: Bottom-Up [2], Grid

features [10], Scene Graph [11], UnifiedVLP [8], VinVL [9] Thử nghiệm các biểu

diễn ảnh hiện có.

6 Kết quả dự kiến

— _ Báo cáo tổng hợp khảo sát về bài toán, bộ dir liệu, phương pháp sinh câu mô tả

— Báo cáo tổng hợp phương pháp cải tiến đặc trưng anh

— _ Chương trình minh họa bang webapp cho bài toán sinh chú thích anh

Tài liệu tham khảo

[1] Vinyals, Oriol, et al "Show and tell: A neural image caption generator." Proceedings

of the IEEE conference on computer vision and pattern recognition 2015.

[2] Xu, Kelvin, et al "Neural image caption generation with visual attention." Proc ICML 2015.

[3] Anderson, Peter, et al "Bottom-up and top-down attention for image captioning and

visual question answering." Proceedings of the IEEE conference on computer vision and

pattern recognition 2018.

[4] Villa, Pedro Manuel "Ecological drivers of tree diversity and ecosystem functioning

during succession in Amazon: forest resilience after indigenous shifting cultivation."

(2018).

[5] Li, Guang, et al "Entangled transformer for image captioning." Proceedings of the

IEEE/CVF international conference on computer vision 2019.

[6] Zhou, Luowei, et al "Unified vision-language pre-training for image captioning and

vga." Proceedings of the AAAI conference on artificial intelligence Vol 34 No 07 2020.

[7] Yang, Zhengyuan, et al "An empirical study of gpt-3 for few-shot knowledge-based

vqa." Proceedings of the AAAI Conference on Artificial Intelligence Vol 36 No 3 2022.

Trang 9

[8J Zhou, Luowei, et al "Unified vision-language pre-training for image captioning

and vqa." Proceedings of the AAAI Conference on Artificial Intelligence Vol 34 No 07.

2020.

[9] Zhang, Pengchuan, et al "Vinvl: Revisiting visual representations in

vision-language models." Proceedings of the IEEE/CVF Conference on Computer Vision and

Pattern Recognition 2021.

[10] H Jiang, I Misra, M Rohrbach, E Learned-Miller and X Chen, "In Defense of

Grid Features for Visual Question Answering," 2020 IEEE/CVF Conference on Computer

Vision and Pattern Recognition (CVPR), 2020, pp 10264-10273, doi:

10.1109/CVPR42600.2020.01028.

[II] Nguyen, Dat Quoc, and Anh Tuan Nguyen "PhoBERT: Pre-trained language

models for Vietnamese." arXiv preprint arXiv:2003.00744 (2020).

Kế hoạch thực hiện:

+ Tuần 1 - 3: Khảo sát các nghiên cứu cho bài toán mô tả ảnh truyền thống và mô ta

ảnh dựa trên văn bản.

+ Tuần 3 — 5: Cài đặt được phương pháp Bottom-Up [2], Grid features [10], Scene

Graph [11], Unified VLP [8], VinVL [9].

+ Tuần 5 — 10: Tiến hành trích xuất các đặc trưng, chạy thử nghiệm ghi nhận kết qua

các tô hợp thử nghiệm trên các bộ dữ liệu được chon

+ Tuần 10 — 18: Phân tích, đánh giá và thực nghiệm thêm dé xuất một cách tiếp cận cảitiến biểu diễn ảnh trong không gian mô hình, giúp tăng độ chính xác

+ Tuần 18 — Phần còn lại: Tổng kết, xây dựng webapp demo, hoàn thiện báo cáo, hoànthiện kết quả nghiên cứu dé thực hiện công bố khoa học

Trang 10

Xác nhận của CBHD TP HCM, ngày 11 tháng 9 nam 2023

Sinh viên

Nguyễn Văn Toàn

Lê Trọng Hảo

Trang 11

MỤC LỤC

2)559919)/6895)001500222

TOM M.v00.9:/9.000.)0117 .Chương l MO ĐẦU -¿ 2¿©2+¿©2++2S+2EEt2EEEEEESEECEEkerErerkrerkrrrvee 1

1.1 Dong lure nghién Cvru c 35 1

1.2 Phát biểu bai todn eeseeccceeeccsssesessseeeesseecessneecssneccesnneeesnneecssneessnecesnneeesneess 2

1.3 Cac thách thỨC Ghi ng 3

1.3.1 _ Các yếu tố đến từ ngoại cảnh - 2-52 2+E++EczEerkerkerxersrrerree 3

1.3.2 Các yếu tố đến từ bên trong -¿-+¿©7++2+++2x+rksrxerrrerkesree 4

1.3.3 Tổng quát về các thách thức -. -+-++-x++cx+zxeerxesree 5

1.4 Mục tiêu và phạm vi của khóa luận .- 55-5 +3 **++sEx+seseeereeeereeess 5

1.5 Dong góp của khóa luận - c1 S11 1S HH ng ng 6

1.6 Bố cục của khóa luận -i-c- 5c tt 1E SE EEEEEEEEEEEEEESEEEEEEEEEEkrkskerrrkrkee 7Chương2 CƠ SỞ LÝ THUYET VA CÁC NGHIÊN CỨU LIÊN QUAN 8

2.1 Hướng tiếp cận trích xuất đặc trưng ảnh - ¿22s s+£++zs++ze+zxsrxez 8

2.1.1 Hướng tiếp cận đặc trưng cấp thấp -s+cs+cxsrxsrrrrserseres 8

2.1.2 Hướng tiếp cận đặc trưng cấp cao ¿-::©c++cxc2zxcrxerxrerkesree 92.2 Hướng tiếp cận dựa trên đặc trưng ảnh tạo ra văn bản ‹ - 12

2.2.1 _ Biểu diễn đặc trưng ngôn ngữ - 2c++c+kcrterkerkerxererree 12

2.2.2 Sử dụng mô hình học máy - - - 6+ k* + Ekkkeksekrekke 13

2.2.3 Su dụng mô hình Transformer 5 + + ++++£++*£++eexeee+eeess 14

2.3 Các hướng tiếp cận khác - 2 2+ +keEkeEEEEESEE2E12112112121 2111 2xx, 16

2.3.1 Hudng tiếp cận dựa theo bài toán phát hiện đối tượng tông quat 16

2.3.2 Các phương pháp tăng cường dữ liỆu - 5-55 <<<<+s+s+2 17

Trang 12

2.4 Kiến trúc TransfOrmer -¿- ¿set t3 +ESESEEEEEEEEEESEEESEEESEEEEEEEEEErErrrrsre 18

2.4.1 _ Tổng quan kiến trice ceeccccccccscsssessessessseesssessessesssecssscseessecssecstesseessecs 192.4.2 Cơ chế chú ý (S€]fÍ- Af€TIOT)) Ăn HH ng rệt 202.4.3 Mạng truyền thắng vị trí (Point-wise Feed Forward Network) 22

2.4.4 Mã hóa vị trí (Postional Encoding) -. - + ss«sssexsexeeersss 23

2.4.5 Kết nối dài ngắn (Residual Connection§) - -<<<<<++ +: 23

Chương 3 PHƯƠNG PHAP THỰC NGHIỆM SINH CÂU MÔ TẢ TIENG

VIỆT CHO ANH DUA TREN CÁC MÔ HÌNH TRANSFORMER 25

3.1 Tổng quan phương pháp thực nghiệm 2 2 2+ £+E+zx+£xe£xerxveee 253.2 Trích xuất đặc trưng ảnh c¿-+c©¿©+++x++EEtEEESEkSrkrrreerkeerkerrrees 26

3.21 VIN VL QE xøấcc s Ộ c.neeeeeeice 26

3.2.1.1 Khái quát về mô hình VinVI, -¿s+++z++z+++£e+zx+zxzes 263.2.1.2 Cơ chế của mô hình VinVI ¿- s-¿+2+++£++£xzEzEe+rxerxeres 28

3.2.2 CURR =mm mmm ì e 31

3.2.2.1 Khái quát về mô hình CLIP - + +2 £+E£+E££E+£E+EszE+zxs 32

3.2.2.2 Hiệu suất vượt trội của mô hình CLIP << «<< <+++<+s<+ 34

3.3 Tăng cường dữ liệu thông qua đa nguÖn - 2-2 2 2+x+zx+£xerxerxsreee 36

3.4 Phương pháp MDSAINGI Án nn HH HH HH TH HH iệt 37

3.4.1 Tu chú ý khoảng cách (Distance-sensitive Self-Attention) 38

3.4.2 _ Tự chú ý đa nhánh (Multi-branch Self-Attention) - 39

Chuong 4 THỰC NGHIEM VÀ ĐÁNH GIA 2-2 5c+cz+cs+cxsrxcrez 42

nga n 42

4.1.1 Khảo sát dữ liệu trên thé giới -©¿+-+++zxccx+vrxesrxrsrxeee 42

4.1.2 Khảo sát các bộ dữ liệu mô tả tiếng Việt -z s+ 43

Trang 13

4.1.3 Dữ liệu thực nghiỆm - -.- -G G E2311911 1113 119 1 911 v1 nrưy 44

4.2 Các tiêu chí đánh giá - xxx Hàng nh Hy 48

4.2.1 Cumulative Index of Distributional Similarity for Dialogue

(CIDEr-D) 48

4.2.2 Recall-Oriented Understudy for Gisting Evaluation (ROUGE-L) 49

4.2.3 Metric for Evaluation of Translation with Explicit Ordering

(METEOR) cscssessssssessessucsssssessecsussusssscsecsussusssessessussussuessessessusssessessecsussseesecses 50

4.2.4 Bilingual Evaluation Understudy (BLEU) - - 5< «+5 51

4.3 Cài đặt chỉ tiẾt 2c ct 2t 2 ET2122112110112111211211 011111 errre 53

4.3.1 ResNeXt-152 backbone c1 11111121 vn ng vn 53

4.3.2 Huấn luyện và triển khai mô hình 2-2 2+2+s+zxzx+zszxsee 56

4.4 Kết quả thực nghiệm, đánh giá và bàn luận ¿- + +<+++ss+<x>+++ 574.5 Triển khai ứng dụng ¿22 ++SE+EES2EESEEEEEEEEEEEEEEEEEEEEEEEErkrrkrres 64Chuong 5 | KETLUAN VA HƯỚNG PHAT TRIÉN -5z=5+ 66

Car) «| tl / 4 665.2 Hướng phat trie .cccccccccccccccccssscsssesssesssssssesscssesssssssessecssecsssssecssecsuecsseseeasecs 67TÀI LIEU THAM KHAO Qu csccssessssssessessssssessesssssssssessecsecsussseesessussussseesessesssseseeseess 69

s06 9 1 74

Trang 14

DANH MỤC HÌNH

Hình 1.1 Đầu vào và đâu ra của Đài ÍOd4 c3 6611k S931EEEEkEsxkkkkeeerzs 3

Hình 1.2 Minh họa về một hình ảnh có chất lượng ánh sáng kém và những vật thể

[210/17.0//28108/:/.-200nn ố 4

Hình 2.1 Minh họa quá trình trích xuất đặc trưng ảnh của CNN - 10

Hình 2.2 Minh họa trích xuất đặc trưng bằng Mô hình Transƒormer - 11

Hinh 2.3 Thanh phan chính trong mô hình TTranS[OTI©F sec SSSS<Ss++sx 16 Hình 2.4 Mô tả kiến trúc của †FdHISƒOIMEL - 5+5 St2SE+SE+E£+E+EeEEeEEerterkerssrkee 20 Hình 2.5 Minh họa về cơ chế Self-Attention ccccecsessssssessessessssssessessesssessessessesssessesses 21 Hình 3.1 Tổng quan phương pháp được chon sử AUng ceccccecceccesveseesesseeseevessesvesvesee 25 Hình 3.2 Minh họa trích xuất đặc trưng bằng VinVL -©-z©-e+-se-sz©5e+ 31 Hình 3.3 Bước tiền huấn luyện của mô hình CLIP - + ©cz+ce+cs+cxecse+ 32 Hình 3.4 Sử dụng CLIP như một bộ phân loại zerO-SÌOl -.«~-«<<s<++s++ex++ 33 Hình 3.5 Minh họa tổng quan phương pháp MDSAINeI - 555 5cccs+ccsss 38 Hình 4.1 Minh họa hình ảnh trong bộ dit liệu VieCap4H -s<+-s<++ 45 Hình 4.2 Minh họa hình ảnh trong bộ dit liệu UIT-UIT-OpenViIC 46

Hình 4.3 Minh họa hình anh trong bộ dữ liệu UJILT- VIÏC, «<< << «<+<ss++ 47 Hình 4.4 Minh họa phép tính CD ET-Ì) - c- c Stk+E+kESekEEeksseksekskkeeree 49 Hình 4.5 Minh họa phép tính BLE 5c SSc EE+eEESEeEEeeersreeessseeesee 52 Hình 4.6 Kiến trúc mô hình ResN€Š[ cccccccccccccveerrrrtrrtirrrrrrrrrii 53 Hình 4.7 Minh họa don giản về mang neuron trong ANN -cccccscce: 54 Hình 4.8 Mô hình ResNeXt sử dung các function phi tuyến tính - - 55

Hình 4.9 Kết quả minh họa trên tap public test của bộ dữ liệu VieCap4H 58

Hinh 4.10 Két qua minh họa trên tập private test cua bộ dữ liệu VieCap4H 59

Hình 4.11 Kế qua minh họa trên tập thử nghiệm của bộ đữ liệu UIT-VIIC 61

Hinh 4.12 Két qua minh họa trên tập thứ nghiệm cua bộ đữ liệu UIT-OpenVIIC 63

Hình 4.13 Kết quả minh họa không tốt trên tập thử nghiệm khi thực hiện phương D)Gp MDSANE PP 7nPẼ0Ẽ7Ẻ8e 64

Hình 4.14 Hình minh họa giao diện ứng Aung icceccecccecccescessceseesccessceseeeseesseeseeeseesees 65

Trang 15

Hình 4.15 Hình mình họa kết quả tạo câu mô tả của mô hình trên ứng dụng

Trang 16

DANH MỤC BANG

Bảng 4.1 So sánh kết qua của phương pháp MDSANet trên bộ dữ liệu VieCap4H

Bảng 4.2 Bảng kết quả thực nghiệm của các phương pháp trước đây và phương

pháp MSDANet chạy được trên bộ dit liệu LJIT- ViÏC ‹e<<ceexeeexeeerexxeee 60

Bảng 4.3 Bảng kết quả thực nghiệm của các phương pháp trước đây và phương

pháp MSDANet chạy được trên bộ dit liệu UUITI-Open ViÏC -‹ -««<‹««- 62

Trang 17

DANH MỤC TU VIET TAT

SACT Show, Attend and Tell

GPT-3 Generative Pre-trained Transformer 3

CNN Convolutional Neural Network

Mask RCNN Mask Region-based Convolutional Neural Network

CLIP Contrastive Language Image Pretraining

LSTM Long Short-Term Memory

GRU Gated Recurrent Unit

BERT Bidirectional Encoder Representations from Transformers

GPT Generative Pre-trained Transformer

RPNs Region proposal networks

Faster R-CNNs Faster Region-based Convolutional Neural Networks

GANs Generative Adversarial Networks

FFN Feed Forward Network

Multi-Branch Distance-Sensitive SelfAttention Network for

MDSANet

Image Captioning

VinVL VinAI Vision Language

MS COCO Microsoft Common Objects in Context

CIDEr-D Cumulative Index of Distributional Similarity for Dialogue

ROUGE Recall-Oriented Understudy for Gisting Evaluation

Trang 18

METEOR Metric for Evaluation of Translation with Explicit Ordering

BLEU Bilingual Evaluation Understudy

Trang 19

TÓM TAT KHÓA LUẬN

Khóa luận này tập trung vào việc giải quyết bai toán sinh câu mô tả ảnh bằngtiếng Việt (image captioning) Nhận thấy tiềm năng to lớn mà bài toán này mang lạinhư: giúp người khiếm thị biết được những thứ xung quanh, tạo chú thích cho mạng

xã hội và truyền thông, robots và xe tự lái Nội dung mà chúng tôi tập trung nghiên

cứu gồm: trích xuất đặc trưng ảnh và sinh câu mô tả ảnh bằng tiếng Việt Bài toán mô

tả ảnh không còn quá xa lạ trên thế giới, nhưng với tiếng Việt thì đây là một bài toáncòn mới và thú vị, nhận được rất nhiều sự quan tâm, nhưng nghiên cứu trên tiếng Việt

van con rat nhiêu diém hạn chê về việc sô lượng dữ liệu đê thực hiện.

Trong bài toán mô tả ảnh băng tiếng Việt thì thách thức lớn nhất xuất phát từ

sự phong phú và đa dạng của ngôn ngữ tự nhiên trong tiếng Việt Việc hiểu rõ và sử

dụng ngôn ngữ một cách tự nhiên và chính xác trong việc mô tả hình ảnh đòi hỏi mô

hình phải có khả năng xử lý sự đa dạng của ngôn ngữ.

Từ những tìm hiểu về nghiên cứu liên quan thi chúng tôi nhận thấy việc dựatrên những cải tiễn từ Transformer vẫn cho ra kết quả tốt hơn Khóa luận này nhằm

giải quyết những thách thức đã nêu ở trên Bộ dữ liệu mà chúng tôi chọn dé thực

nghiệm là VieCap4H, UIT-VilC và UIT-OpenViIC và thực hiện trên phương pháp

MDSANGt Cụ thé, chúng tôi thực hiện trích xuất đặc trưng anh bang 2 phương pháp

là VinVL va CLIP Từ đặc trưng trích xuất được, đưa vào phương pháp MDSANet

dé huấn luyện và đưa ra được model tốt nhất có thê Chúng tôi sử dụng 04 độ đo làCIDEr, ROUGE, METEOR, BLUE Kết quả trên bộ đữ liệu VieCap4H với 2 đặctrưng VinVL và CLIP vẫn chưa được tốt Nhưng với 2 bộ dữ liệu UTT-VIIC và UIT-

OpenVIIC thì lại cho được một kết quả tốt hơn rất nhiều Nhìn chung khi thực hiện

trích xuất đặc trưng bằng CLIP vẫn cho ra kết quả tốt hơn VinVL

Cuối cùng kết quả khóa luận chúng tôi thu được cũng đã cho thay MDSANet

thật sự có hiệu quả với bài toán trên Khi 02 bộ dữ liệu là UTT-VIIC và UIT-OpenVIIC

đã có kết quả tốt hơn trước đây Kết quả chỉ tiết được chúng tôi trình bày ở phần kết

quả thực nghiệm

Trang 20

Chương 1 MO ĐẦU

1.1 Động lực nghiên cứu

Bài toán mô tả ảnh trong ảnh chụp bối cảnh thế giới thực là một thách thứctrong lĩnh vực thị giác máy tính và xử lý ngôn ngữ tự nhiên Bài toán này yêu cầu mô

hình máy học có khả năng hiểu, mô tả nội dung hình ảnh một cách tự nhiên và chính

xác trong tiếng Việt Cùng với sự phát triển của trí tuệ nhân tạo và học máy, nhữngtiễn bộ trong lĩnh vực xử lý ngôn ngữ tự nhiên đã làm cho việc mô tả ảnh trở nên khả

thi và hiệu quả hơn Cac mô hình ngôn ngữ mạnh mẽ và bộ dữ liệu ngôn ngữ lớn đã

làm tăng độ chính xác và đa dạng của mô hình mô tả ảnh, tạo ra động lực mạnh mẽ

dé nghiên cứu thêm trong ngữ cảnh tiếng Việt Thách thức này mở ra những cơ hội

to lớn trong việc tăng cường giao tiếp giữa máy và người, cung cấp trải nghiệm tương

tác nâng cao trong nhiều lĩnh vực, từ giáo dục đến truyền thông xã hội Mục tiêu củbài toán là xây dựng và phát triển một hệ thống thông minh có khả năng hiểu và diễnđạt nội dung hình ảnh một cách tự nhiên trong ngôn ngữ tiếng Việt Qua việc tích hợp

giữa xử lý hình ảnh và ngôn ngữ tự nhiên, tạo ra một công cụ mô tả ảnh linh hoạt và

hiệu quả, đáp ứng đa dạng nhu cầu trong giao tiếp máy-người và hỗ trợ người sửdụng Có thé ứng dụng rộng rãi trong nhiều lĩnh vực, từ giáo duc và truyền thông xã

hội đến các ứng dụng thực tế hỗ trợ cuộc sống hàng ngày Bằng cách này, bài toánkhông chỉ hướng tới sự tiện lợi mà còn góp phần vào sự phát triển toàn diện của trítuệ nhân tạo và ứng dụng công nghệ trong cộng đồng sử dụng tiếng Việt Tuy nhiên,vẫn còn nhiều thách thức cần được giải quyết, chăng hạn như khả năng mô tả nội

dung của các bức ảnh chụp trong điều kiện ánh sáng yếu, hoặc khả năng mô tả nội

dung của các bức ảnh chụp cảnh vật hoặc hoạt động phức tạp.

Bài toán mô ta anh băng tiếng Việt đã trai qua sự phát triển đáng kế nhờ vào

những tiến bộ đáng chú ý trong lĩnh vực xử lý ngôn ngữ tự nhiên và học máy Mộttrong những yếu tố quan trọng là sự xuất hiện của các mô hình ngôn ngữ mạnh mẽnhư BERT, GPT, và RoBERTa, giúp tăng cường khả năng xử lý ngôn ngữ cho tiếng

Trang 21

Việt Sự tiến bộ của các mô hình này đã mang lại hiệu suất mô tả ảnh ngảy càng chính

xác và tự nhiên Các thuật toán mô ta ảnh hiện dai dựa trên học sâu đã có thé mô ta

nội dung của một bức ảnh một cách chính xác và đầy đủ, ngay cả trong những trường

hợp phức tạp Sự phát triển của các mô hình học sâu có khả năng học các mối quan

hệ phức tạp giữa các đặc trưng của hình ảnh và nội dung của bức ảnh Điều này đãgiúp các thuật toán mô tả ảnh có thé mô tả nội dung của một bức ảnh một cách chi

tiết và đầy đủ hơn Sự phát triển của các kỹ thuật xử lý ngôn ngữ tự nhiên tiên tiến.Các kỹ thuật này đã giúp các thuật toán mô tả ảnh có thé tạo ra các mô tả bang van

bản rõ ràng và dé hiểu hơn Sự phát triển của các dữ liệu huấn luyện lớn Các dữ liệuhuấn luyện lớn đã giúp các thuật toán mô tả ảnh có thể học hỏi từ nhiều ví dụ khácnhau và cải thiện hiệu suất của chúng Những mô hình học sâu phổ biến được sử dụngphô biến trong giải quyết bài toán mô tả anh là ‘Show, Attend and Tell (SACT)’,

‘Attention is All You Need (Attention)’, ‘Generative Pre-trained Transformer 3

(GPT-3)’ Mô hình Show, Attend and Tell (SACT) sử dung một mô hình transformer

dé hoc các mối quan hệ giữa các đặc trưng của hình anh và các từ trong mô tả Môhình Attention is All You Need (Attention) sử dụng một mô hình transformer dé họccác mối quan hệ giữa các đặc trưng của hình anh và các từ trong mô ta Mô hình

Generative Pre-trained Transformer 3 (GPT-3) được đào tạo trên một tập dữ liệu

không lồ gồm văn bản và mã Mô hình này có thể được sử dụng để tạo văn bản, dịch

ngôn ngữ, và việt các loại nội dung sáng tạo khác nhau.

1.2 Phát biểu bài toán

Bài toán mô tả ảnh được biểu diễn qua từng pixel trong hình ảnh đầu vào Đầu

vào và đâu ra của bài toán có thê được mô tả như sau:

— Đầu vào: Đầu vào của bài toán mô tả anh (Image Captioning) là một hình anh,

thường là một ma trận số học biểu diễn cho hình ảnh Hình ảnh nay có thể

được biểu dién dưới dạng một tập hợp các pixel hoặc một tập hợp các đặc

trưng trừu tượng tạo ra từ hình ảnh băng cách sử dụng các mô hình trích xuất

đặc trưng thị giác (ví dụ: mạng nơ-ron tích chập)

Trang 22

— Dau ra: Một câu mô tả băng tiêng Việt về nội dung, ngữ nghĩa của bức anh

dau vào.

Hình 1.1 Dau vào và đâu ra của bài toán

1.3 Các thách thức

1.3.1 Các yếu tố đến từ ngoại cảnh

Yếu tố ngoại cảnh là những yêu tố nằm bên ngoài ảnh, bao gồm các yếu tố

môi trường, thời tiết, góc chụp, ánh sáng, Những yếu tô này có thé gây ra nhiềuthách thức cho bài toán phát hiện đối tượng khác trong môi trường tự nhiên, trong bàitoán “mô tả ảnh” Các yếu tô này tác động một cách rõ rệt đến hiệu năng phát hiện

của các mô hình học máy, khiến mô hình mô tả không chính xác hoặc không day đủ

Yếu tố ngoại cảnh đầu tiên có thé kể đến đó là môi rường Môi trường xungquanh ảnh có thê ảnh hưởng đến chất lượng hình ảnh, khiến mô hình khó nhận diệncác vật thể hoặc hoạt động trong ảnh Ví dụ, một bức ảnh chụp trong một buổi hòa

nhạc có nhiều ánh sáng và âm thanh sẽ khó mô tả hơn một bức ảnh chụp trong một

khu vườn yên tĩnh.

Yếu tố ngoại cảnh tiếp theo có thé ké đến đó là thoi tiét Thời tiết cũng có théảnh hưởng đến chất lượng hình ảnh, khiến mô hình khó nhận diện các vật thể hoặc

Trang 23

hoạt động trong ảnh Ví dụ, một bức ảnh chụp trong một ngày mưa bão sẽ khó mô tả

hơn một bức ảnh chụp trong một ngày nắng đẹp

Yếu tổ ngoại cảnh tiếp theo có thê kế đến đó là góc chụp Góc chụp ảnh có théảnh hưởng đến cách mô hình nhìn thấy các vật thé trong ảnh Ví dụ, một bức ảnh

chụp từ trên cao sẽ khó mô tả hơn một bức ảnh chụp ngang tam mắt

Yếu tố ngoại cảnh cuối cùng có thé kế đến đó là ánh sáng Anh sáng cũng có

thể ảnh hưởng đến cách mô hình nhìn thay cac vat thé trong anh Vi du, một bức anhchụp trong điều kiện ánh sáng yếu sẽ khó mô ta hơn một bức ảnh chụp trong điềukiện ánh sáng day đủ

1.3.2 Các yếu tố đến từ bên trong

Yếu tô đến từ bên trong là những yếu tố nằm bên trong ảnh, bao gồm các yếu

tố như chất lượng hình ảnh, độ phức tạp của cảnh, các vật thể hoặc hoạt động không

Trang 24

1.3.3 Tổng quát về các thách thức

Bài toán mô tả ảnh đặt ra nhiều thách thức do sự tương tác phức tạp giữa yếu

tố môi trường bên ngoài và van đề bên trong Dé giải quyết hiệu quả, các phươngpháp thường sử dụng kết hợp linh hoạt giữa xử lý ảnh, học máy và trí tuệ nhân tạo

Trong giai đoạn xử lý ảnh, việc chuẩn hóa và tiền xử lý giúp giảm ảnh hưởng

của biến động môi trường như thay đôi về đèn, độ tương phản, và nhiễu Phương pháp

này kết hợp với việc phân đoạn ảnh dé xác định vị tri và định ra vùng quan trọng

trong ảnh.

Các mô hình học máy, bao gồm cả mạng nơ-ron học sâu, sau đó được áp dụng

để tự động rút trích đặc trưng và tạo ra mô tả chính xác cho ảnh Đồng thời, sự tươngtác giữa yếu tô ngoại cảnh và nội dung hình ảnh được tích hợp thông qua các phươngpháp kết hợp thông tin, như mô hình bi-đặc trưng hoặc mô hình học kết hợp

Đối mặt với sự đa dạng của môi trường, các kỹ thuật chống nhiễu được ápdụng để làm sạch và tối ưu hóa ảnh Việc này nhằm tăng cường khả năng của mô

hình trong việc xử lý ảnh trong môi trường biến động Tổng cộng, sự tích hợp linh

hoạt giữa các phương pháp nảy giúp cải thiện khả năng mô tả ảnh, đồng thời đối mặt

một cách hiệu quả với sự phức tạp của cả yếu tố môi trường bên ngoài và vấn đề bên

trong.

1.4 Mục tiêu và phạm vỉ của khóa luận

Trong phạm vi của một đề tài khóa luận tốt nghiệp, mục tiêu chính của khóa luận

này là:

— _ Tìm hiểu về các cách tiếp cận cho bài toán sinh câu mô ta ảnh truyền thống

— Nghiên cứu, đề xuất cải tiến biểu diễn ảnh trong không gian mô hình

Transformer, giúp cải thiện độ chính xác.

— Nghiên cứu, thử nghiệm một cách tiếp cận kết hợp đặc trưng ngôn ngữ Tiếng

Việt vào không gian mô hình, giúp cải thiện độ chính xác trên các bộ dữ liệu

Tiếng Việt.

Trang 25

1.5 Đóng góp của khóa luận.

Khóa luận tập trung vào việc nghiên cứu chủ yếu về việc áp dụng mô hình

Transformer va đồng thời tiền hành khảo sát, đánh giá hiệu suất của một số bộ trích

xuất đặc trưng tiền huấn luyện, trong đó bao gồm cả bộ trích xuất đặc trưng trên ảnh

và ảnh-ngôn ngữ, mang lại cái nhìn toàn diện về khả năng học và trích xuất đặc trưng

của mô hình.

Kết quả của khóa luận đề nghị sử dụng phương pháp MDSANet kết hợp với

bộ trích xuất đặc trưng CLIP, VinVL mang lại hiệu suất đáng chú ý Cụ thể, trên hai

bộ dit liệu tiếng Việt UIT-ViIC và UIT-OpenViIC, đạt được kết qua khả quan so vớicác nghiên cứu trước đây trên cùng bộ dữ liệu Điều này chứng minh rằng phươngpháp và kết hợp cụ thể này không chỉ có khả năng đưa ra kết quả tốt hơn mà còn nâng

cao hiệu suất trích xuất đặc trưng so với các phương pháp khác

Tóm lại, đóng góp của khóa luận là cung cấp một hướng tiếp cận sử dụng môhình Transformer và bộ trích xuất đặc trưng tiền huấn luyện, đồng thời chứng minhtính hiệu quả của phương pháp MDSANet và trích xuất đặc trưng ảnh bang CLIP,VinVL trên các bộ dữ liệu tiếng Việt cho bài toán sinh câu mô tả tiếng Việt cho ảnh

Trang 26

1.6 Bồ cục của khóa luận

Phần còn lại của khóa luận được trình bày theo bố cục như sau:

CHƯƠNG 2 - CÁC NGHIÊN CỨU LIEN QUAN: trình bày một khảo sát về các

cách tiếp cận ở các công trình trước đây trên bài toán mô tả ảnh

CHƯƠNG 3 - PHƯƠNG PHÁP THUC NGHIEM: Trinh bày về các bước thực

hiện một bài toán như trên và từ đó tìm ra được phương pháp phù hợp.

CHƯƠNG 4 - THỰC NGHIEM VÀ ĐÁNH GIÁ: trình bày tổng quan về các bộ

dữ liệu của bai toán trên, các độ đo được sử dụng dé đánh giá bài toán Cách cài đặt

và những kệt quả đạt được.

CHƯƠNG 5 - KET LUẬN VA HƯỚNG PHAT TRIEN: tổng quát lại một số nội

dung chính trong toàn bộ nội dung nghiên cứu và đề xuất hướng phát triển trong

tương lai.

Trang 27

Chương2 CƠ SỞ LÝ THUYET VA CÁC NGHIÊN CUU LIÊN QUAN

Trong những năm gần đây, bài toán mô tả ảnh đã đạt được sự tiến triển đáng

kể, với nhiều phương pháp đa dạng Hiện nay, quá trình tiếp cận chủ yếu của bài toán

có thé được phân thành hai bước chính: trích xuất đặc trưng từ ảnh và mô tả lại ảnh

bằng văn bản Việc này được thực hiện thông qua hai hướng tiếp cận quan trọng.Hướng tiếp cận dựa trên biểu diễn vị trí của đối tượng nhằm tao ra biểu diễn chatlượng về vị trí của các đối tượng trong ảnh, đóng vai trò quan trọng trong quá trình

mô tả chỉ tiết và chính xác Hướng tiếp cận dựa trên cấp độ của văn bản nhằm tạo ra

mô tả tong quan và thông tin ngữ cảnh, với sự tập trung vào cấp độ và mối liên kếtgiữa các thành phần văn bản

2.1 Hướng tiếp cận trích xuất đặc trưng ảnh

2.1.1 Hướng tiếp cận đặc trưng cấp thấp

Các phương pháp đặc trưng cấp thấp sử dụng các đặc trưng mô tả các thuộctính cơ bản của ảnh, chắng hạn như màu sắc, hình dạng, kết câu, hoặc ngữ nghĩa Cácđặc trưng này được trích xuất từ ảnh bằng các kỹ thuật xử lý ảnh

Các đặc trưng màu sắc: Các đặc trưng màu sắc mô tả màu sắc của các điêm ảnh trong ảnh Các đặc trưng nay có thé được sử dụng đê mô tả các đặc diém vê mau

sắc của vật thê trong anh, chang hạn như mau sac của quân áo, màu sắc của hoa, hoặc

mau sac cua bau trời.

Các đặc trưng hình dạng: Các đặc trưng hình dang mô ta hình dạng của các

vật thể trong ảnh Các đặc trưng này có thể được sử dụng dé mô tả các đặc điểm vềhình dạng của vật thê trong ảnh, chăng hạn như hình dạng của con người, hình dạng

của xe cộ, hoặc hình dạng của đô vật.

Các đặc trưng kêt câu: Các đặc trưng kêt câu mô tả kêt câu của các vật thê trong ảnh Các đặc trưng này có thê được sử dụng dé mô tả các đặc điêm về kêt câu của vật thê trong ảnh, chăng hạn như kêt cau của da người, két câu của vải, hoặc kêt

câu của go.

Trang 28

Các đặc trưng ngữ nghĩa: Các đặc trưng ngữ nghĩa mô tả ý nghĩa của các vật

thê trong ảnh Các đặc trưng này có thể được sử dụng đề mô tả các đặc điểm về ngữ

nghĩa của vật thể trong ảnh, chăng hạn như loại vật thể, nhãn hiệu, hoặc thương hiệu

của vật thể đó

2.1.2 Hướng tiếp cận đặc trưng cấp cao

Hướng tiếp cận đặc trưng cấp cao trong trích xuất đặc trưng ảnh tập trung vào

việc rút trích các đặc trưng anh phức tap và trừu tượng từ các tầng an của các mô hìnhhoc máy sâu, đặc biệt là các mô hình CNN[6] và Transformer[7] Các đặc trưng cấpcao này thường mang tính chất trừu tượng hóa thông tin từ ảnh và thường được sửdụng dé biểu diễn các khái niệm phức tạp như đối tượng, ngữ cảnh, và mối quan hệ

giữa các đôi tượng.

Phương pháp trích xuất đặc trưng cấp cao là một phương pháp quan trọngtrong lĩnh vực thị giác máy tính, nhằm mục đích rút trích các đặc trưng ảnh phức tạp

và trừu tượng từ các tầng ân của các mô hình học máy sâu Các mô hình chủ yếu sử

dụng bao gồm mạng nơ-ron tích chập (CNN) va Transformer, tap trung vào việc hiểubiết sâu sắc về nội dung và ngữ cảnh của hình ảnh Trong bài toán “mô tả ảnh”, khinhắc đến cách tiếp cận trích xuất đặc trưng cấp cao thì không thé không nói về phươngpháp Mạng Nơ-ron Tích Chập (CNN), Các tầng tích chập đầu tiên (Convolutional)của mạng CNN thường nhận diện các đặc trưng cấp thấp như cạnh biên, màu sắc, vàhình dạng cơ bản Tầng pooling giúp giảm kích thước không gian của đặc trưng, tạo

ra sự trừu tượng hóa và giữ lại thông tin quan trọng Các tầng sau cùng của CNN chứacác tầng tích chập sâu hơn, có khả năng học các đặc trưng cấp cao hơn, như các phần

tử của đôi tượng, đặc diém ngữ cảnh, và môi quan hệ giữa các đôi tượng.

Trang 29

A Typical Convolutional Neural Network (CNN

- Output

Convolution Pooling Convolution Pooling = m £

Kernel

Input Image Featured Pooled Featured Pooled Flatten

maps Featured maps maps Featured maps layer

st = +——*

Feature Maps Fully connected layer

Feature Extraction | Classification | Probabilistic ,

\ |

distribution

Hình 2.1 Minh họa quá trình trích xuất đặc trưng anh của CNN

Phương pháp Transfomers có thê coi là truyền cảm hứng cho tất cả các phương

pháp trích xuất đặc trưng ảnh trong bài toán mô tả ảnh sau này Đặc biệt trong bốicảnh của việc trích xuất đặc trưng ảnh cấp cao cho bài toán mô tả ảnh, đã chứng minh

sự hiệu quả vượt trội và linh hoạt Đầu tiên, hình ảnh được biểu diễn dưới dang vector

embedding dé tạo ra biéu diễn số hoc cho mỗi pixel Positional encoding được thêmvào dé bé sung thông tin về vị trí của các pixel trong không gian ảnh Các tang của

mô hình Transformer gồm encoder được áp dụng cho biêu diễn hình ảnh Mỗi tang

bao gôm các module chính sau:

e Multi-Head Self-Attention Mechanism: Cơ chế này giúp mô hình tập

trung vào các phần quan trọng của hình ảnh, tự đồng thời học được các

mối quan hệ giữa các vùng không gian của ảnh

e Layer Normalization và Feedforward Network: Sau cùng, đầu ra của

cơ chế attention được chuẩn hóa theo lớp và được truyền qua mạngfeedforward đề tạo ra biêu diễn đặc trưng cấp cao

e Residual Connection va Layer Normalization: Mỗi tầng kết hợp

residual connection va layer normalization đê tôi ưu hóa quá trình học.

10

Trang 30

Transformer có khả năng hiểu biết thông tin từ hình ảnh ở mức độ trừu tượngcao Nhờ cơ chế attention, mô hình có khả năng tập trung vào các đặc trưng quan

trọng và biểu diễn mối quan hệ phức tạp trong ảnh Sau khi thông tin đã được trích

xuất từ các tầng Transformer, nó có thể được sử dụng cho nhiều mục đích, bao gồmviệc tao mô tả cho hình ảnh Các biéu diễn này có thé đóng vai trò là "bản tóm tắt"

cho nội dung quan trọng của hình ảnh Mô hình Transformer thường được đảo tạo

trước trên tập dữ liệu lớn, chứa các hình ảnh thực tế Sau đó, nó có thể được fine-tune

hoặc truyền tải kiến thức cho nhiệm vụ cụ thẻ, giúp nó học được thông tin từ dt liệu

cụ thê của bài toán mô tả ảnh

(36x 1024)

Convolutional Feature Maps

(6x6x1024)

Learned Positional Encoding

Output Embedding

Trang 31

2.2 Hướng tiếp cận dựa trên đặc trưng ảnh tạo ra văn bản

Khi quá trình trích xuất đặc trưng ảnh đã được thực hiện thành công trong bàitoán mô tả ảnh, bước tiếp theo là sử dụng các phương pháp học máy hoặc mô hình

ngôn ngữ dé tao ra mô tả văn bản phan ánh đầy đủ và ý nghĩa về nội dung của hìnhảnh Đầu tiên, thông qua việc trích xuất đặc trưng, chúng ta đã có được biểu diễn số

học của hình ảnh, nơi chứa các thông tin quan trọng về đối tượng, ngữ cảnh, và cácđặc điểm nổi bật khác Điều quan trọng ở đây là tạo ra một kết nối hợp lý giữa cácđặc trưng ảnh này và văn bản mô tả, dé mô tả có thé phản ánh chính xác và sâu sắc

về hình ảnh Bằng cách sử dụng mô hình ngôn ngữ, chăng hạn như mô hình học máy

có khả năng sinh văn bản tự động, chúng ta có thê kết hợp thông tin từ đặc trưng ảnhvới kiến thức ngôn ngữ để tạo ra mô tả văn bản Mô hình này có khả năng học đượccấu trúc ngôn ngữ, từ vựng phù hợp, và mối quan hệ giữa các từ, giúp mô tả trở nên

tự nhiên và có ý nghĩa Một cách tiếp cận khác là sử dụng mô hình học máy, nơichúng ta huấn luyện mô hình dựa trên dữ liệu mô tả ảnh Mô hình này sẽ học đượcmối liên kết giữa đặc trưng ảnh và nội dung mô tả, cũng như là cách tạo ra mô tả phùhợp cho các đặc trưng cụ thé Một phương pháp mạnh mẽ khác là sử dụng mô hìnhTransformer, đặc biệt là tầng encoder của nó, dé xử lý đặc trưng ảnh và tạo ra biểudiễn cấp cao cho mô ta Transformer có khả năng hiểu biết sâu sắc về mối quan hệgiữa các đặc trưng ảnh, cung cấp một phương tiện mạnh mẽ để tạo ra mô tả văn bảnphức tạp và chất lượng Điều này tạo ra một quy trình tích hợp giữa thông tin hình

ảnh và ngôn ngữ, giúp tạo ra mô tả văn bản có ý nghĩa và phản ánh đầy đủ về nội

dung của hình ảnh Tùy thuộc vào mục tiêu cụ thể của ứng dụng, việc này có thê đượcđiều chỉnh và tinh chỉnh để đạt được sự linh hoạt và đa dạng trong mô tả

2.2.1 Biểu diễn đặc trưng ngôn ngữ

Bước biéu diễn đặc trưng ngôn ngữ là một phan quan trọng trong việc xử lýthông tin ngôn ngữ và tạo ra mô tả cho hình ảnh Một số mô hình phổ biến được sửdụng trong việc biểu diễn đặc trưng ngôn ngữ như sau: Word embeddings[25] là kỹthuật biểu diễn từng từ đưới dạng vecto số thực trong không gian nhiều chiều Các từ

12

Trang 32

tương đồng về mặt ngữ nghĩa thường gần nhau trong không gian vectơ LSTM[11] là

một loại mang neural có khả năng duy trì va sử dụng thông tin từ quá khứ trong quá

trình dao tạo Nó thích hợp cho việc xử lý dữ liệu trình tự GRU[9] (Gated Recurrent

Unit) là một biến thé của LSTM, giữ lại một số lợi ích của LSTM nhưng có số lượngtham số ít hơn Transformer là một kiến trúc không sử dụng các lớp recurrent, thay

vào đó sử dụng cơ chế tự chú ý dé hiểu cau trúc trình tự BERT[12] (BidirectionalEncoder Representations from Transformers) là một mô hình ngôn ngữ được huấn

luyện trước trên lượng lớn dữ liệu ngôn ngữ Nó biéu diễn từng từ trong ngữ cảnh

của cả câu thông qua việc sử dụng mô hình transformer GPT[8] (Generative

Pre-trained Transformer) là một dòng mô hình sử dụng transformer và được huấn luyện

trước trên nhiêu nhiệm vụ ngôn ngữ Nó có khả năng sinh văn bản và hiêu ngữ cảnh.

Lua chọn mô hình phụ thuộc vào yêu cầu cụ thể của bài toán và nguồn di liệu

Ví dụ, trong bài toán mô tả hình ảnh, có thé sử dụng LSTM hoặc Transformer để hiểumối quan hệ giữa các từ trong câu mô tả và đặc trưng hình ảnh Trong trường hợp

muốn sử dụng mô hình đã được huấn luyện trước, BERT hoặc GPT có thé là lựa chọn

tốt để học ngữ cảnh phức tạp

2.2.2 Sử dụng mô hình học máy

Sử dụng đặc trưng ảnh đã được trích xuất từ một mô hình CNN, chăng hạn

như ResNet[26] hoặc Inception[27] Đặc trưng này thường có kích thước có định và

chứa thông tin quan trọng về nội dung hình ảnh Chọn kiến trúc mô hình học máy

phù hợp cho nhiệm vụ mô tả ảnh Một số kiến trúc thông dụng bao gồm mô hìnhSeq2Seq[28], mô hình có kiến trúc Attention[29], hay mô hình Transformer Mô hìnhyêu cầu dữ liệu dưới dạng chuỗi token Mỗi mô tả văn bản được chia thành các token

và được thêm padding dé dam bảo đồng nhất về kích thước Ánh xạ token thành cácvector embedding dé có thể sử dụng trong mô hình Mô hình có thé sử dung lớp

embedding riêng hoặc sử dụng embedding được chia sẻ với các mô hình ngôn ngữ

khác Xây dựng mô hình, sử dụng tang embedding dé chuyền đổi token thành cácvector embedding Xây dựng mô hình học máy với kiến trúc được chọn Các tầng

13

Trang 33

như LSTM, GRU, hay Transformer encoder được sử dụng đề xử lý đặc trưng ảnh vàvector embedding của mô tả văn bản Tầng cuối cùng của mô hình sẽ tạo ra dự đoán

cho từng từ tiếp theo trong mô tả văn bản Sử dụng hàm mắt mát như cross-entropy

loss giữa dự đoán của mô hình và mô tả thực tế Áp dụng thuật toán tối ưu hóa, chănghạn như Adam, đề điều chỉnh trọng số của mô hình và giảm thiểu hàm mắt mát trêntập huấn luyện Nếu cần, có thé thêm các kỹ thuật như scheduled sampling dé kiêm

soát sự đa dang trong mô tả văn ban Sử dụng tập dữ liệu kiểm thử dé đánh giá hiệusuất của mô hình trên các mô tả mới Các tiêu chí đánh giá có thể bao gồm BLEU

score, METEOR score, ROUGE score, CIDEr score, và nhiều tiêu chí khác Nếu cầnthiết, thực hiện fine-tuning trên tập dữ liệu cụ thé của bài toán dé cải thiện khả năng

dự đoán của mô hình Tinh chỉnh các tham số của mô hình dựa trên kết quả đánh giá,

đê đảm bao rang nó phan ánh chính xác và sâu sac vê nội dung của hình anh.

Quá trình này kết hợp giữa thông tin hình ảnh và ngôn ngữ, giúp tạo ra mô tảvăn bản phản ánh đầy đủ và ý nghĩa về nội dung của hình ảnh, làm cho quá trình tạo

mô tả tự động trở nên linh hoạt và hiệu quả.

2.2.3 Sử dụng mô hình Transformer

Bước su dung mô hình Transformer trong bài toán mô tả ảnh là một quá trình

quan trọng để tận dụng sức mạnh của cơ chế tự chú ý và khả năng hiểu biết sâu sắc

về mối quan hệ trong dữ liệu đặc trưng ảnh Mô hình sử dụng tầng encoder của kiến

trúc Transformer dé xử lý đặc trưng ảnh Tang encoder này có thé được áp dụng trực

tiếp cho các vùng của hình ảnh hoặc các biéu diễn đặc trưng đã được trích xuất từ môhình xử lý ảnh (chăng hạn ResNet) Hình ảnh được chia thành các đối tượng cụ thể(ví dụ: vật thể, ngữ cảnh) để được xử lý bởi tầng encoder của Transformer.Embedding được sử dụng dé chuyên đổi thông tin từ đặc trưng ảnh thành các vector

số học, làm cho chúng phù hợp với đầu vào của tầng encoder Vector embedding từ

đặc trưng ảnh được kết hợp với các vector embedding của từng từ trong mô tả văn

ban, tạo ra input chuẩn bi cho mô hình Transformer Tang encoder su dung co ché tuchú ý dé tập trung vào các đối tượng cụ thé va tạo ra biểu diễn cấp cao cho chúng Co

14

Trang 34

chế này giúp mô hình tập trung vào các phần quan trọng của hình ảnh Transformer

có khả năng học mối quan hệ phi tuyến tính giữa các phần khác nhau của đặc trưng

ảnh, giúp nó hiểu biết sâu sắc về thông tin không gian và ngữ cảnh Tang encoder đầu

ra một biéu diễn cấp cao của hình ảnh, là sự kết hợp thông tin từ đặc trưng ảnh vàngôn ngữ Biểu diễn cấp cao từ tang encoder được kết hợp với biểu diễn từ mô hìnhngôn ngữ, tạo ra một biéu diễn tích hợp của hình ảnh và văn bản Mô tả văn bản được

tạo ra bởi tầng decoder của Transformer, sử dụng biểu diễn tích hợp như một biểudiễn đầu vào Cơ chế tự chú ý của tầng decoder giúp mô hình tạo ra mô tả có tính

tương quan cao với cả đặc trưng ảnh và các từ trước đó trong mô tả Sử dụng hàm

mat mát như cross-entropy loss giữa mô tả dự đoán và mô tả thực tế Áp dụng thuậttoán tối ưu hóa dé điều chỉnh trọng số của tầng encoder và decoder Tinh chỉnh cáctham số dé cải thiện hiệu suất của mô hình trên tập huấn luyện và kiểm thử Kiểm

soát sự đa dạng của mô tả, nếu cần, dé tạo ra những mô tả phong phú và đa dạng Sử

dụng các tiêu chí đánh giá như BLEU score, METEOR score, ROUGE score, và

CIDEr score dé đánh giá hiệu suất của mô hình trên tập kiêm thử Khi đã hoàn thànhquá trình huấn luyện và đánh giá, mô hình có thê được triển khai để tạo mô tả chohình ảnh mới trong môi trường thực tế

15

Trang 35

,> Add & Normalize

XỊ x i

Thinking Machines

Hình 2.3 Thanh phan chính trong mô hình Transformer

Quá trình này kêt hợp sức mạnh cua Transformer đê hiéu biệt sâu sắc vê môi

quan hệ và ngữ cảnh trong dữ liệu đặc trưng ảnh, giúp tạo ra mô tả văn bản chât lượng

cao và có ý nghĩa về nội dung của hình ảnh

2.3 Các hướng tiếp cận khác

2.3.1 Hướng tiếp cận dựa theo bài toán phát hiện đối tượng tổng quát

Nhìn một cách khái quát, bài toán mô tả ảnh cũng có thể được xem như một

đề nhánh đề tài nằm trong khối bài toán phát hiện đối tượng nói chung Vì vậy, các

mô hình hiện đại trong bài toán phát hiện đối tượng cũng có thể được ứng dụng cho

16

Trang 36

việc phát hiện đối tượng trong ảnh có bối cảnh Phát hiện đối tượng tông quát trongbài toán mô tả ảnh đóng vai trò không thể phủ nhận trong việc hiểu và mô tả nội dung

của hình ảnh Đây là một quá trình phức tạp và quan trọng, đòi hỏi mô hình không

chỉ phải xác định vị trí đối tượng mà còn phải nhận biết đối tượng đó là gì Kỹ thuậtphát hiện đối tượng thường sử dụng trong lĩnh vực này là Convolutional NeuralNetworks (CNNs), một loại mô hình học sâu có khả năng học cách trích xuất đặc

trưng thị giác từ dữ liệu Quá trình phát hiện đối tượng thường bắt đầu bằng bước

định vị, trong đó mô hình xác định vị trí của các đối tượng trong ảnh Các phương

pháp như region proposal networks (RPNs) hoặc Faster R-CNNs[13] thường được sử

dụng để tạo ra các vùng đề xuất chứa đối tượng Điều này giúp giảm độ phức tạp củaảnh và tập trung vào các vùng chứa thông tin quan trọng Tiếp theo là bước phân loại,nơi mà mô hình xác định danh tính của các đối tượng trong các vùng đã được định

vị Các tang fully connected và softmax thường được tích hợp dé tạo ra xác suất của

từng loại đối tượng trong vùng quan tâm Mô hình có khả năng xác định liệu đối

tượng đó có thé là con người, động vật, hay vật thể khác Phát hiện đối tượng khôngchỉ cung cấp thông tin về sự xuất hiện của các đối tượng mà còn là yếu tố quan trọngtrong việc sinh mô tả tự nhiên cho ảnh Khi kết hợp với thông tin từ phân khúc ngônngữ, mô hình có thé tao ra mô tả phong phú và chi tiết, thể hiện mối quan hệ phức tap

giữa các đối tượng và ngữ cảnh xung quanh chúng Điều này giúp tăng cường khảnăng hiểu sâu rộng về nội dung của ảnh, tạo ra một kết quả mô tả tự nhiên và sinh

động

2.3.2 Các phương pháp tăng cường dữ liệu

Sử dụng kỹ thuật tăng cường ảnh đã trở thành một phương pháp phổ biến déngăn chặn vấn đề quá khớp trong thị giác máy tính Các phương pháp tăng cường dữ

liệu trong bài toán mô tả ảnh đã trải qua sự phát triển và đa dạng theo thời gian, nhằm

cải thiện hiệu suất và đồng thời giảm thiểu nguy cơ quá mức đào tạo mô hình trên tập

dữ liệu hạn chế Ban đầu, những phương pháp đơn giản như xoay, lật và phóng to đối

với anh đã được áp dụng dé tăng cường dữ liệu Những biến đổi nhỏ này không chỉ

17

Trang 37

giúp mô hình học được sự đa dạng của dữ liệu mà còn giảm thiêu tình trạng quá mức,

sự quá mức đào tạo trên tập dữ liệu có săn.

Tiếp theo, phương pháp data augmentation ngày càng trở nên phức tạp hơn

với sự xuất hiện của các kỹ thuật tăng cường dữ liệu da model Điều này bao gồmviệc kết hợp thông tin từ nhiều nguồn, như anh và văn ban, dé tạo ra những đặc trưng

đa dạng và phong phú hơn Sự kết hợp giữa hình ảnh và mô tả ngôn ngữ tự nhiên làm

tăng sự hiêu biét về môi quan hệ giữa nội dung hình ảnh và ngữ cảnh.

Mô hình học chuyền giao (transfer learning) cũng trở thành một phương pháptăng cường dữ liệu quan trọng Việc sử dụng các mô hình đã được huấn luyện trước

đó trên tập dữ liệu lớn giúp mô hình mới học được các đặc trưng chung và thông tin

sâu sắc từ tập dữ liệu rộng lớn, từ đó cải thiện khả năng tổng quát hóa của mô hình

Cuối cùng, các phương pháp tăng cường dữ liệu tiên tiến hơn như GenerativeAdversarial Networks (GANs)[14] được tích hợp để tạo ra dữ liệu mới và thậm chí

có thể tạo ra ảnh mô phỏng Điều này không chỉ giúp cải thiện sự đa dạng của dữ liệu

mà còn giúp mô hình làm quen với các tình huống mới và không có sẵn trong tập ditliệu gốc

Tóm lại, qua thời gian, các phương pháp tăng cường đữ liệu trong bài toán mô

tả ảnh đã trải qua sự phát trién từ những biến đồi cơ bản đến những kỹ thuật đa dạng

và phức tạp, nhăm nâng cao hiệu suât và khả năng tông quát hóa của mô hình.

2.4 Kiên trúc Transformer

Transformer được sử dụng dé học các mối quan hệ giữa các pixel trong ảnh.Transformer sẽ học cách xác định các mối quan hệ phức tạp giữa các đối tượng trongảnh Cu thé, trong phương pháp MDSANet thi Transformer sẽ được sử dung dé tínhtoán các trọng số self-attention Các trọng số self-attention này sẽ cho biết mức độquan trọng của mỗi pixel đối với việc mô tả ảnh Tiếp theo Transformer sẽ được sửdụng dé tính toán các trọng số distance-sensitive self-attention Các trọng số distance-

18

Trang 38

sensitive self-attention này sẽ cho biết mức độ quan trọng của mối quan hệ giữa các

pixel dựa trên khoảng cách giữa chúng Nhờ sử dung transformer, MDSANet có thé

học các mối quan hệ giữa các pixel trong ảnh một cách hiệu quả Điều này giúp

MDSANet có thé mô tả các đối tượng và hoạt động trong ảnh một cách chính xác vàchỉ tiết hơn

2.4.1 Tổng quan kiến trúc

Transformer là một kiến trúc cực kỳ mạnh mẽ và linh hoạt, được giới thiệuban đầu cho xử lý ngôn ngữ tự nhiên, nhưng đã được mở rộng cho nhiều ứng dụngkhác, bao gồm cả thị giác máy tính Điều đặc biệt quan trọng là Transformer không

sử dụng các lớp RNN hay CNN như các mô hình truyền thống Thay vào đó, nó chútrọng vào cơ chế chú ý dé hiểu và biéu diễn dữ liệu Kiến trúc Transformer bao gồmhai khối chính là khối encoder chịu trách nhiệm xử lý đầu vào của Transformer vàkhối decoder chịu trách nhiệm tạo ra đầu ra của transformer Mỗi khối encoder vàdecoder bao gồm nhiều lớp self-attention và feed-forward network

Kiên trúc transformer có bôn thành phân chính:

mạng nơ-ron tập trung vào các phần quan trọng của dữ liệu

e_ Mạng truyền thang vị trí (Point-wise Feed Forward Network): Mạng truyền

thắng vị trí là một mạng nơ-ron đơn giản có hai lớp tuyến tính

e Mã hóa vị trí (Postional Encoding): Mã hóa vi trí là một kỹ thuật được sử dụng

để thêm thông tin về vị trí của các token trong một chuỗi

e Kếtnối dài ngăn (Residual Connections): Kết nối dài ngắn được thêm vào giữa

các lớp trong các "Transformer block" dé tránh vấn đề biến mat gradient vàgiúp mô hình học được biéu diễn phức tạp hơn

19

Trang 39

Hình 2.4 Mô tả kiến trúc của transfomer

2.4.2 Cơ chế chú ý (Self-Attention)

Self-Attention là cơ chế giúp Transformer "hiểu" được sự liên quan giữa các

từ trong một câu Ví dụ: ‘Con mèo đã không đuổi theo con chuột, vì nó không đói"

O trong câu này có thê thay răng 'nó' đang dé cập dén con mẻo, nhưng việc hiệu được

20

Trang 40

sự liên quan này nó không hề đơn giản đối với một thuật toán Khi mô hình đang xử

lý từ 'nó', Self-Attention cho phép nó liên kết từ 'nó' với 'mèo' Vậy Self-Attention

trích xuât những sự “liên quan” này như thê nào?

Quay trở lại với kiến trúc tông thé ở (Hình 3.5) , có thé thấy đầu vào của các

module Multi-head Attention (bản chất là Self- Attention) có 3 mii tên, đó chính là 3

vectors Querys (Q), Keys (K) và Values (V) Từ 3 vectors này, ta sẽ tính vector

attention Z cho một từ theo công thức sau:

Input Thinking Machines

ưu oad eT MA Bias

lạ fee

|

Ke “oO “oO +H we

Vaue »[ET] OOO cw

Hinh 2.5 Minh hoa vé co ché Self-Attention

Vector K đóng vai tro như một khóa đại diện cho từ, và Q sẽ truy van đến các

vector K của các từ trong câu băng cách nhân chập với những vector này.

21

Tiêu đề	Sinh câu mô tả tiếng Việt cho ảnh dựa trên các mô hình transformer
Tác giả	Nguyen Van Toan, Le Trong Hao
Người hướng dẫn	TS. Nguyen Tan Tran Minh Khang, ThS. Vo Duy Nguyen
Trường học	Trường Đại học Công nghệ Thông tin
Chuyên ngành	Khoa học máy tính
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2024
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	93
Dung lượng	60,46 MB