Hình ảnh này có thể được biểu diễn dưới dạng một tập hợp các pixel hoặc một tập hợp các đặc trưng trừutượng tạo ra từ hình ảnh bằng cách sử dụng các mô hình trích xuất đặc trưng thị giác
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
NGUYEN VĂN TOÀN - 20522028
LE TRONG HẢO - 20520178
KHÓA LUẬN TÓT NGHIỆP
Transformer
Vietnamese Image Caption Using Transformer Based Models
CU NHÂN NGANH KHOA HỌC MAY TÍNH
GIANG VIEN HUONG DAN
ThS V6 Duy Nguyén
TS Nguyén Tan Tran Minh Khang
TP HO CHÍ MINH, 2024
Trang 2THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
ngảy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
Trang 3LỜI CẢM ƠNBắt đầu bằng lòng biết ơn sâu sắc, chúng tôi muốn gửi lời tri ân đặc biệt đếnhai thầy TS Nguyễn Tan Trần Minh Khang và ThS Võ Duy Nguyên với tình cảm,
sự quan tâm, và sự hướng dẫn tận tình mà họ đã dành cho chúng tôi trong suốt quá
trình thực hiện khóa luận Qua sự hỗ trợ chân thành của hai thầy, chúng tôi không chỉtích luỹ được kiến thức chuyên môn sâu rộng mà còn phát triển nhiều kỹ năng quantrọng và nhận thức sâu sắc về ý nghĩa của nghiên cứu khoa học và cách truyền tải
hiệu quả những kiên thức đó đên mọi người.
Thêm vào đó, chúng tôi muốn tỏ lòng biết ơn đối với nhóm nghiên cứu Together với sự đóng góp tích cực từ các thầy, các anh chị và các bạn trong nhóm
UIT-Sự chia sẻ ý kiến và góp ý mang lại cho nhóm chúng tôi không chỉ nhiều góc nhìn
mới mẻ mà còn cung cấp ý tưởng đa dạng đề thử nghiệm trong quá trình nghiên cứu.Khoảng thời gian làm việc cùng nhóm không chỉ là những kỷ niệm đáng nhớ nhấttrong quá trình học tập của chúng tôi, mà còn là cơ hội dé tạo nên một đội ngũ nghiêncứu UIT-Together thống nhất, sẵn sàng hỗ trợ lẫn nhau
Bên cạnh đó, chúng tôi cũng muốn bày tỏ lòng biết ơn đến ngôi nhàKHMT2020 Sự ủng hộ và chia sẻ từ các bạn đã không ngừng là nguồn động viên
quan trọng, giúp chúng tôi vượt qua những khó khăn và tận hưởng những niềm vui
trong hành trình học tập và cuộc song Su hién dién va đồng lòng của họ tạo điều kiện
thuận lợi, giúp chúng tôi bước di mạnh mẽ hơn trên con đường hướng đến việc đạt
được những ước mơ của chúng tdi.
Lời cuối cùng, chúng tôi muốn bày tỏ lòng biết ơn sâu sắc đến tất cả mọi người.Gửi những lời chúc tốt đẹp nhất đến tất cả và hy vọng được duy trì mối quan hệ gắn
bó, tiếp tục hành trình phát triển hơn nữa cùng nhau Cuối cùng, lời cảm ơn đặc biệtnhất dành cho thầy ThS Võ Duy Nguyên Chân thành cảm ơn thầy đã dẫn dắt chúng
tôi từ những ngày đầu đến tận thời điểm hiện tại Xin phép cảm ơn thầy và tất cả mọi
người rat nhiêu, chúc mọi người những điêu tot đẹp nhat.
Trang 4ĐẠI HỌC QUOC GIA TP HO CHÍ CỘNG HÒA XÃ HỘI CHỦ NGHĨA
MINH VIỆT NAM
TRƯỜNG ĐẠI HỌC , Độc Lap - Tự Do - Hanh Phúc
` CONG NGHỆ THONG TIN
ĐÈ CUONG CHI TIẾT
TEN DE TAI: SINH CAU MO TA TIENG VIET CHO ANH DUA TREN CAC MO
HINH TRANSFORMER
TEN DE TAI TIENG ANH: VIETNAMESE IMAGE CAPTIONING USING
TRANSFORMER BASED MODELS
Cán bộ hướng dẫn: TS NGUYEN TAN TRAN MINH KHANG
Thời gian thực hiện: Từ ngày 11/09/2023 đến ngày 30/12/2023
Sinh viên thực hiện:
NGUYEN VĂN TOÀN - 20522028 Lớp: KHMT2020
Email: 20522028 @ gm.uit.edu.vn Dién thoai: 0888723135
LE TRONG HAO - 20520178 Lớp: KHMT2020
Email: 20520178 @ gm.uit.edu.vn Dién thoai: 0398936741
Nội dung đề tài:
1 Giới thiệu
Mô tả anh (image caption) là bài toán biến đổi thông tin từ dạng hình ảnh sang dạng ngôn
ngữ tự nhiên, giúp máy tính hiéu và mô tả nội dung của hình ảnh băng các câu hoặc đoạn
Trang 5văn mô tả Bài toán mô tả ảnh đòi hỏi sự kết hợp giữa thị giác máy tinh (đề hiéu hình ảnh)
và xử lý ngôn ngữ tự nhiên (để tạo ra văn bản mô tả) Đây là một trong những lĩnh vựcnghiên cứu quan trọng trong lĩnh vực AI và có rất nhiều ứng dụng thú vị, chăng hạn nhưcải thiện khả năng hiểu hình ảnh của máy tính, tạo mô tả cho ảnh trên mạng xã hội, hỗ trợ
trong y tế, robotics, và nhiều lĩnh vực khác Mục tiêu của bài toán mô tả ảnh là tạo ra một
mô tả tự động và có ý nghĩa về nội dung của một hình ảnh Điều này có thé được thực hiện
bang cách sử dụng các thuật toán và mô hình máy học dé tự động phân tích hình ảnh vatạo ra mô ta văn bản liên quan đến nó Mô ta ảnh có thé chứa thông tin về các phan tửtrong hình ảnh, như các đối tượng, môi trường, hoạt động, màu sắc, vị trí, và nhiều khía
cạnh khác Bai toán mô tả anh được hiểu như là một bài toán image-to-sequence, bién déi
chuỗi các pixel của anh mã hóa thành một hay nhiều vector đặc trưng
Trong những năm gần đây được bước các chuyên gia nghiên cứu kết hợp mô hình BERT(Bidirectional Encoder Representations from Transformers) Ban đầu được phát triển cho
xử lý ngôn ngữ tự nhiên, vào bai toán mô tả anh Điều này cải thiện hiệu suất của các hệthống mô tả ảnh băng cách sử dụng thông tin ngôn ngữ đề tạo ra mô tả chính xác hơn Bàitoán này cũng đã cho thấy kết quả tương đối cao trên bộ dữ liệu MS-COCO Sau đây lànhững bước phát triển của bài toán qua những năm gần đây:
— _ Show and Tell: A Neural Image Caption Generator (2015)[1]: Nghiên cứu này của
Google Research đã đề xuất mô hình đầu tiên sử dụng mạng nơ-ron học sâu (DeepNeural Networks) dé tạo ra mô tả cho hình ảnh Đây là một bước đột phá quan trọng
trong lĩnh vực Image Captioning.
— Neural Image Caption Generation with Visual Attention (2015)[2]: Day là một
trong những nghiên cứu dau tiên sử dung cơ chế attention trong Image Captioning
Mô hình tập trung vào các vùng quan trong của hình anh khi tao ra mô ta.
— Bottom-Up and Top-Down Attention for Image Captioning and Visual Question
Answering (2018)[3]: Nghiên cứu này giới thiệu mô hình sử dụng cơ chế attentionphía dưới và phía trên cho Image Captioning Cơ chế này giúp mô hình tập trung
vào các phân quan trọng của hình ảnh và tạo ra mô tả chi tiệt hơn.
Trang 6— Diversity-Decomposition Trade-off in Image Captioning (2018)[4]: Nghiên cứu
này xem xét van đề về đa dạng mô tả hình ảnh và cách giải quyết mâu thuẫn giữa
việc tạo ra mô tả chỉ tiết và mô tả đa dạng cho cùng một hình ảnh
— Image Captioning with Transformer (2018)[5]: Mô hình Transformer đã được áp
dụng vào bài toán Image Captioning, mở ra khả năng tận dụng cơ chế self-attention
để tạo ra mô tả hình ảnh
— VLP (Vision-Language Pre-training) Models (2020)[6]: Các mô hình VLP như
CLIP và UNITER đã xuất hiện, kết hợp giữa học sâu và xử lý ngôn ngữ tự nhiên
để thực hiện nhiệm vụ liên quan đến hình ảnh và văn bản, bao gồm Image
Captioning.
— _ GPT-3 for Image Captioning [7]: Một trong những biến thé của GPT-3, một mô
hình học sâu cho xử ly ngôn ngữ tự nhiên, đã được áp dụng vào bài toán Image
Captioning và thê hiện hiệu suất ấn tượng
Nhận thấy được tiềm năng của bài toán trên Những lợi ích to lớn mà bài toán này manglại cho xã hội Do đó nhóm chúng em quyết định lựa chọn bài toán này để thực hiện nghiêncứu, tìm hiểu và phục vụ cho thực hiện khóa luận tốt nghiệp Với mục tiêu mang đến mộtcách tiếp cận tốt hơn và mong muốn đạt được kết quả cao hơn trên bai toán này
2 Phat biểu bài toán
Bài toán mô tả ảnh được biểu diễn qua từng pixel trong hình ảnh đầu vào Đầu vào va
dau ra của bài toán có thê được mô tả như sau:
— _ Đầu vào: Đầu vào của bài toán mô ta ảnh (Image Captioning) là một hình ảnh,
thường là một ma trận số học biểu diễn cho hình ảnh Hình ảnh này có thể được
biểu diễn dưới dạng một tập hợp các pixel hoặc một tập hợp các đặc trưng trừutượng tạo ra từ hình ảnh bằng cách sử dụng các mô hình trích xuất đặc trưng thị
giác (ví dụ: mạng nơ-ron tích chập)
— _ Đầu ra: Một câu mô tả bằng tiếng Việt về nội dung, ngữ nghĩa của bức anh đầu
`
vao.
Trang 74.
Nội dung nghiên cứu của đề tài chia làm 3 phần:
Hình 1.1 Đầu vào và đầu ra của bai toán
Mục tiêu của đề tàiMục tiêu của đề tài là khảo sát hiệu quả các phương pháp về mô tả ảnh tiếng Việt
cho các đối tượng trong bức ảnh dựa trên phương pháp cơ sở Transformer Qua đó
đề xuất một số phương pháp biểu diễn mới đạt hiệu quả cao trên các bộ dit liệu
được chọn
Ae on r > A gre Nội dung nghiên cứu của đề tài
Tìm hiểu về các cách tiếp cận cho bai toán sinh câu mô tả ảnh truyền thống
Nghiên cứu, đề xuất cải tiến biểu diễn ảnh trong không gian mô hình Transformer,
giúp cải thiện độ chính xác.
Nghiên cứu, thử nghiệm một cách tiếp cận kết hợp đặc trưng ngôn ngữ Tiếng Việtvào không gian mô hình, giúp cải thiện độ chính xác trên các bộ dữ liệu Tiếng Việt
Phương pháp thực hiện
Đọc và tóm tắt các cách tiếp cận cho bài toán mô tả ảnh truyền thống Khảo sát các
bộ dit liệu hiện có về bai toán mô tả ảnh trên thé giới cũng như tại Việt nam
Nghiên cứu, đề xuất một cách tiếp cận cải tiến biểu diễn ảnh trong không gian mô
hình, giúp tăng độ chính xác.
Trang 8— Khao sát, tìm hiểu các phương pháp biểu diễn ảnh hiện có: Bottom-Up [2], Grid
features [10], Scene Graph [11], UnifiedVLP [8], VinVL [9] Thử nghiệm các biểu
diễn ảnh hiện có.
6 Kết quả dự kiến
— _ Báo cáo tổng hợp khảo sát về bài toán, bộ dir liệu, phương pháp sinh câu mô tả
— Báo cáo tổng hợp phương pháp cải tiến đặc trưng anh
— _ Chương trình minh họa bang webapp cho bài toán sinh chú thích anh
Tài liệu tham khảo
[1] Vinyals, Oriol, et al "Show and tell: A neural image caption generator." Proceedings
of the IEEE conference on computer vision and pattern recognition 2015.
[2] Xu, Kelvin, et al "Neural image caption generation with visual attention." Proc ICML 2015.
[3] Anderson, Peter, et al "Bottom-up and top-down attention for image captioning and
visual question answering." Proceedings of the IEEE conference on computer vision and
pattern recognition 2018.
[4] Villa, Pedro Manuel "Ecological drivers of tree diversity and ecosystem functioning
during succession in Amazon: forest resilience after indigenous shifting cultivation."
(2018).
[5] Li, Guang, et al "Entangled transformer for image captioning." Proceedings of the
IEEE/CVF international conference on computer vision 2019.
[6] Zhou, Luowei, et al "Unified vision-language pre-training for image captioning and
vga." Proceedings of the AAAI conference on artificial intelligence Vol 34 No 07 2020.
[7] Yang, Zhengyuan, et al "An empirical study of gpt-3 for few-shot knowledge-based
vqa." Proceedings of the AAAI Conference on Artificial Intelligence Vol 36 No 3 2022.
Trang 9[8J Zhou, Luowei, et al "Unified vision-language pre-training for image captioning
and vqa." Proceedings of the AAAI Conference on Artificial Intelligence Vol 34 No 07.
2020.
[9] Zhang, Pengchuan, et al "Vinvl: Revisiting visual representations in
vision-language models." Proceedings of the IEEE/CVF Conference on Computer Vision and
Pattern Recognition 2021.
[10] H Jiang, I Misra, M Rohrbach, E Learned-Miller and X Chen, "In Defense of
Grid Features for Visual Question Answering," 2020 IEEE/CVF Conference on Computer
Vision and Pattern Recognition (CVPR), 2020, pp 10264-10273, doi:
10.1109/CVPR42600.2020.01028.
[II] Nguyen, Dat Quoc, and Anh Tuan Nguyen "PhoBERT: Pre-trained language
models for Vietnamese." arXiv preprint arXiv:2003.00744 (2020).
Kế hoạch thực hiện:
+ Tuần 1 - 3: Khảo sát các nghiên cứu cho bài toán mô tả ảnh truyền thống và mô ta
ảnh dựa trên văn bản.
+ Tuần 3 — 5: Cài đặt được phương pháp Bottom-Up [2], Grid features [10], Scene
Graph [11], Unified VLP [8], VinVL [9].
+ Tuần 5 — 10: Tiến hành trích xuất các đặc trưng, chạy thử nghiệm ghi nhận kết qua
các tô hợp thử nghiệm trên các bộ dữ liệu được chon
+ Tuần 10 — 18: Phân tích, đánh giá và thực nghiệm thêm dé xuất một cách tiếp cận cảitiến biểu diễn ảnh trong không gian mô hình, giúp tăng độ chính xác
+ Tuần 18 — Phần còn lại: Tổng kết, xây dựng webapp demo, hoàn thiện báo cáo, hoànthiện kết quả nghiên cứu dé thực hiện công bố khoa học
Trang 10Xác nhận của CBHD TP HCM, ngày 11 tháng 9 nam 2023
Sinh viên
Nguyễn Văn Toàn
Lê Trọng Hảo
Trang 11MỤC LỤC
2)559919)/6895)001500222
TOM M.v00.9:/9.000.)0117 .Chương l MO ĐẦU -¿ 2¿©2+¿©2++2S+2EEt2EEEEEESEECEEkerErerkrerkrrrvee 1
1.1 Dong lure nghién Cvru c 35 1
1.2 Phát biểu bai todn eeseeccceeeccsssesessseeeesseecessneecssneccesnneeesnneecssneessnecesnneeesneess 2
1.3 Cac thách thỨC Ghi ng 3
1.3.1 _ Các yếu tố đến từ ngoại cảnh - 2-52 2+E++EczEerkerkerxersrrerree 3
1.3.2 Các yếu tố đến từ bên trong -¿-+¿©7++2+++2x+rksrxerrrerkesree 4
1.3.3 Tổng quát về các thách thức -. -+-++-x++cx+zxeerxesree 5
1.4 Mục tiêu và phạm vi của khóa luận .- 55-5 +3 **++sEx+seseeereeeereeess 5
1.5 Dong góp của khóa luận - c1 S11 1S HH ng ng 6
1.6 Bố cục của khóa luận -i-c- 5c tt 1E SE EEEEEEEEEEEEEESEEEEEEEEEEkrkskerrrkrkee 7Chương2 CƠ SỞ LÝ THUYET VA CÁC NGHIÊN CỨU LIÊN QUAN 8
2.1 Hướng tiếp cận trích xuất đặc trưng ảnh - ¿22s s+£++zs++ze+zxsrxez 8
2.1.1 Hướng tiếp cận đặc trưng cấp thấp -s+cs+cxsrxsrrrrserseres 8
2.1.2 Hướng tiếp cận đặc trưng cấp cao ¿-::©c++cxc2zxcrxerxrerkesree 92.2 Hướng tiếp cận dựa trên đặc trưng ảnh tạo ra văn bản ‹ - 12
2.2.1 _ Biểu diễn đặc trưng ngôn ngữ - 2c++c+kcrterkerkerxererree 12
2.2.2 Sử dụng mô hình học máy - - - 6+ k* + Ekkkeksekrekke 13
2.2.3 Su dụng mô hình Transformer 5 + + ++++£++*£++eexeee+eeess 14
2.3 Các hướng tiếp cận khác - 2 2+ +keEkeEEEEESEE2E12112112121 2111 2xx, 16
2.3.1 Hudng tiếp cận dựa theo bài toán phát hiện đối tượng tông quat 16
2.3.2 Các phương pháp tăng cường dữ liỆu - 5-55 <<<<+s+s+2 17
Trang 122.4 Kiến trúc TransfOrmer -¿- ¿set t3 +ESESEEEEEEEEEESEEESEEESEEEEEEEEEErErrrrsre 18
2.4.1 _ Tổng quan kiến trice ceeccccccccscsssessessessseesssessessesssecssscseessecssecstesseessecs 192.4.2 Cơ chế chú ý (S€]fÍ- Af€TIOT)) Ăn HH ng rệt 202.4.3 Mạng truyền thắng vị trí (Point-wise Feed Forward Network) 22
2.4.4 Mã hóa vị trí (Postional Encoding) -. - + ss«sssexsexeeersss 23
2.4.5 Kết nối dài ngắn (Residual Connection§) - -<<<<<++ +: 23
Chương 3 PHƯƠNG PHAP THỰC NGHIỆM SINH CÂU MÔ TẢ TIENG
VIỆT CHO ANH DUA TREN CÁC MÔ HÌNH TRANSFORMER 25
3.1 Tổng quan phương pháp thực nghiệm 2 2 2+ £+E+zx+£xe£xerxveee 253.2 Trích xuất đặc trưng ảnh c¿-+c©¿©+++x++EEtEEESEkSrkrrreerkeerkerrrees 26
3.21 VIN VL QE xøấcc s Ộ c.neeeeeeice 26
3.2.1.1 Khái quát về mô hình VinVI, -¿s+++z++z+++£e+zx+zxzes 263.2.1.2 Cơ chế của mô hình VinVI ¿- s-¿+2+++£++£xzEzEe+rxerxeres 28
3.2.2 CURR =mm mmm ì e 31
3.2.2.1 Khái quát về mô hình CLIP - + +2 £+E£+E££E+£E+EszE+zxs 32
3.2.2.2 Hiệu suất vượt trội của mô hình CLIP << «<< <+++<+s<+ 34
3.3 Tăng cường dữ liệu thông qua đa nguÖn - 2-2 2 2+x+zx+£xerxerxsreee 36
3.4 Phương pháp MDSAINGI Án nn HH HH HH TH HH iệt 37
3.4.1 Tu chú ý khoảng cách (Distance-sensitive Self-Attention) 38
3.4.2 _ Tự chú ý đa nhánh (Multi-branch Self-Attention) - 39
Chuong 4 THỰC NGHIEM VÀ ĐÁNH GIA 2-2 5c+cz+cs+cxsrxcrez 42
nga n 42
4.1.1 Khảo sát dữ liệu trên thé giới -©¿+-+++zxccx+vrxesrxrsrxeee 42
4.1.2 Khảo sát các bộ dữ liệu mô tả tiếng Việt -z s+ 43
Trang 134.1.3 Dữ liệu thực nghiỆm - -.- -G G E2311911 1113 119 1 911 v1 nrưy 44
4.2 Các tiêu chí đánh giá - xxx Hàng nh Hy 48
4.2.1 Cumulative Index of Distributional Similarity for Dialogue
(CIDEr-D) 48
4.2.2 Recall-Oriented Understudy for Gisting Evaluation (ROUGE-L) 49
4.2.3 Metric for Evaluation of Translation with Explicit Ordering
(METEOR) cscssessssssessessucsssssessecsussusssscsecsussusssessessussussuessessessusssessessecsussseesecses 50
4.2.4 Bilingual Evaluation Understudy (BLEU) - - 5< «+5 51
4.3 Cài đặt chỉ tiẾt 2c ct 2t 2 ET2122112110112111211211 011111 errre 53
4.3.1 ResNeXt-152 backbone c1 11111121 vn ng vn 53
4.3.2 Huấn luyện và triển khai mô hình 2-2 2+2+s+zxzx+zszxsee 56
4.4 Kết quả thực nghiệm, đánh giá và bàn luận ¿- + +<+++ss+<x>+++ 574.5 Triển khai ứng dụng ¿22 ++SE+EES2EESEEEEEEEEEEEEEEEEEEEEEEEErkrrkrres 64Chuong 5 | KETLUAN VA HƯỚNG PHAT TRIÉN -5z=5+ 66
Car) «| tl / 4 665.2 Hướng phat trie .cccccccccccccccccssscsssesssesssssssesscssesssssssessecssecsssssecssecsuecsseseeasecs 67TÀI LIEU THAM KHAO Qu csccssessssssessessssssessesssssssssessecsecsussseesessussussseesessesssseseeseess 69
s06 9 1 74
Trang 14DANH MỤC HÌNH
Hình 1.1 Đầu vào và đâu ra của Đài ÍOd4 c3 6611k S931EEEEkEsxkkkkeeerzs 3
Hình 1.2 Minh họa về một hình ảnh có chất lượng ánh sáng kém và những vật thể
[210/17.0//28108/:/.-200nn ố 4
Hình 2.1 Minh họa quá trình trích xuất đặc trưng ảnh của CNN - 10
Hình 2.2 Minh họa trích xuất đặc trưng bằng Mô hình Transƒormer - 11
Hinh 2.3 Thanh phan chính trong mô hình TTranS[OTI©F sec SSSS<Ss++sx 16 Hình 2.4 Mô tả kiến trúc của †FdHISƒOIMEL - 5+5 St2SE+SE+E£+E+EeEEeEEerterkerssrkee 20 Hình 2.5 Minh họa về cơ chế Self-Attention ccccecsessssssessessessssssessessesssessessessesssessesses 21 Hình 3.1 Tổng quan phương pháp được chon sử AUng ceccccecceccesveseesesseeseevessesvesvesee 25 Hình 3.2 Minh họa trích xuất đặc trưng bằng VinVL -©-z©-e+-se-sz©5e+ 31 Hình 3.3 Bước tiền huấn luyện của mô hình CLIP - + ©cz+ce+cs+cxecse+ 32 Hình 3.4 Sử dụng CLIP như một bộ phân loại zerO-SÌOl -.«~-«<<s<++s++ex++ 33 Hình 3.5 Minh họa tổng quan phương pháp MDSAINeI - 555 5cccs+ccsss 38 Hình 4.1 Minh họa hình ảnh trong bộ dit liệu VieCap4H -s<+-s<++ 45 Hình 4.2 Minh họa hình ảnh trong bộ dit liệu UIT-UIT-OpenViIC 46
Hình 4.3 Minh họa hình anh trong bộ dữ liệu UJILT- VIÏC, «<< << «<+<ss++ 47 Hình 4.4 Minh họa phép tính CD ET-Ì) - c- c Stk+E+kESekEEeksseksekskkeeree 49 Hình 4.5 Minh họa phép tính BLE 5c SSc EE+eEESEeEEeeersreeessseeesee 52 Hình 4.6 Kiến trúc mô hình ResN€Š[ cccccccccccccveerrrrtrrtirrrrrrrrrii 53 Hình 4.7 Minh họa don giản về mang neuron trong ANN -cccccscce: 54 Hình 4.8 Mô hình ResNeXt sử dung các function phi tuyến tính - - 55
Hình 4.9 Kết quả minh họa trên tap public test của bộ dữ liệu VieCap4H 58
Hinh 4.10 Két qua minh họa trên tập private test cua bộ dữ liệu VieCap4H 59
Hình 4.11 Kế qua minh họa trên tập thử nghiệm của bộ đữ liệu UIT-VIIC 61
Hinh 4.12 Két qua minh họa trên tập thứ nghiệm cua bộ đữ liệu UIT-OpenVIIC 63
Hình 4.13 Kết quả minh họa không tốt trên tập thử nghiệm khi thực hiện phương D)Gp MDSANE PP 7nPẼ0Ẽ7Ẻ8e 64
Hình 4.14 Hình minh họa giao diện ứng Aung icceccecccecccescessceseesccessceseeeseesseeseeeseesees 65
Trang 15Hình 4.15 Hình mình họa kết quả tạo câu mô tả của mô hình trên ứng dụng
Trang 16DANH MỤC BANG
Bảng 4.1 So sánh kết qua của phương pháp MDSANet trên bộ dữ liệu VieCap4H
Bảng 4.2 Bảng kết quả thực nghiệm của các phương pháp trước đây và phương
pháp MSDANet chạy được trên bộ dit liệu LJIT- ViÏC ‹e<<ceexeeexeeerexxeee 60
Bảng 4.3 Bảng kết quả thực nghiệm của các phương pháp trước đây và phương
pháp MSDANet chạy được trên bộ dit liệu UUITI-Open ViÏC -‹ -««<‹««- 62
Trang 17DANH MỤC TU VIET TAT
SACT Show, Attend and Tell
GPT-3 Generative Pre-trained Transformer 3
CNN Convolutional Neural Network
Mask RCNN Mask Region-based Convolutional Neural Network
CLIP Contrastive Language Image Pretraining
LSTM Long Short-Term Memory
GRU Gated Recurrent Unit
BERT Bidirectional Encoder Representations from Transformers
GPT Generative Pre-trained Transformer
RPNs Region proposal networks
Faster R-CNNs Faster Region-based Convolutional Neural Networks
GANs Generative Adversarial Networks
FFN Feed Forward Network
Multi-Branch Distance-Sensitive SelfAttention Network for
MDSANet
Image Captioning
VinVL VinAI Vision Language
MS COCO Microsoft Common Objects in Context
CIDEr-D Cumulative Index of Distributional Similarity for Dialogue
ROUGE Recall-Oriented Understudy for Gisting Evaluation
Trang 18METEOR Metric for Evaluation of Translation with Explicit Ordering
BLEU Bilingual Evaluation Understudy
Trang 19TÓM TAT KHÓA LUẬN
Khóa luận này tập trung vào việc giải quyết bai toán sinh câu mô tả ảnh bằngtiếng Việt (image captioning) Nhận thấy tiềm năng to lớn mà bài toán này mang lạinhư: giúp người khiếm thị biết được những thứ xung quanh, tạo chú thích cho mạng
xã hội và truyền thông, robots và xe tự lái Nội dung mà chúng tôi tập trung nghiên
cứu gồm: trích xuất đặc trưng ảnh và sinh câu mô tả ảnh bằng tiếng Việt Bài toán mô
tả ảnh không còn quá xa lạ trên thế giới, nhưng với tiếng Việt thì đây là một bài toáncòn mới và thú vị, nhận được rất nhiều sự quan tâm, nhưng nghiên cứu trên tiếng Việt
van con rat nhiêu diém hạn chê về việc sô lượng dữ liệu đê thực hiện.
Trong bài toán mô tả ảnh băng tiếng Việt thì thách thức lớn nhất xuất phát từ
sự phong phú và đa dạng của ngôn ngữ tự nhiên trong tiếng Việt Việc hiểu rõ và sử
dụng ngôn ngữ một cách tự nhiên và chính xác trong việc mô tả hình ảnh đòi hỏi mô
hình phải có khả năng xử lý sự đa dạng của ngôn ngữ.
Từ những tìm hiểu về nghiên cứu liên quan thi chúng tôi nhận thấy việc dựatrên những cải tiễn từ Transformer vẫn cho ra kết quả tốt hơn Khóa luận này nhằm
giải quyết những thách thức đã nêu ở trên Bộ dữ liệu mà chúng tôi chọn dé thực
nghiệm là VieCap4H, UIT-VilC và UIT-OpenViIC và thực hiện trên phương pháp
MDSANGt Cụ thé, chúng tôi thực hiện trích xuất đặc trưng anh bang 2 phương pháp
là VinVL va CLIP Từ đặc trưng trích xuất được, đưa vào phương pháp MDSANet
dé huấn luyện và đưa ra được model tốt nhất có thê Chúng tôi sử dụng 04 độ đo làCIDEr, ROUGE, METEOR, BLUE Kết quả trên bộ đữ liệu VieCap4H với 2 đặctrưng VinVL và CLIP vẫn chưa được tốt Nhưng với 2 bộ dữ liệu UTT-VIIC và UIT-
OpenVIIC thì lại cho được một kết quả tốt hơn rất nhiều Nhìn chung khi thực hiện
trích xuất đặc trưng bằng CLIP vẫn cho ra kết quả tốt hơn VinVL
Cuối cùng kết quả khóa luận chúng tôi thu được cũng đã cho thay MDSANet
thật sự có hiệu quả với bài toán trên Khi 02 bộ dữ liệu là UTT-VIIC và UIT-OpenVIIC
đã có kết quả tốt hơn trước đây Kết quả chỉ tiết được chúng tôi trình bày ở phần kết
quả thực nghiệm
Trang 20Chương 1 MO ĐẦU
1.1 Động lực nghiên cứu
Bài toán mô tả ảnh trong ảnh chụp bối cảnh thế giới thực là một thách thứctrong lĩnh vực thị giác máy tính và xử lý ngôn ngữ tự nhiên Bài toán này yêu cầu mô
hình máy học có khả năng hiểu, mô tả nội dung hình ảnh một cách tự nhiên và chính
xác trong tiếng Việt Cùng với sự phát triển của trí tuệ nhân tạo và học máy, nhữngtiễn bộ trong lĩnh vực xử lý ngôn ngữ tự nhiên đã làm cho việc mô tả ảnh trở nên khả
thi và hiệu quả hơn Cac mô hình ngôn ngữ mạnh mẽ và bộ dữ liệu ngôn ngữ lớn đã
làm tăng độ chính xác và đa dạng của mô hình mô tả ảnh, tạo ra động lực mạnh mẽ
dé nghiên cứu thêm trong ngữ cảnh tiếng Việt Thách thức này mở ra những cơ hội
to lớn trong việc tăng cường giao tiếp giữa máy và người, cung cấp trải nghiệm tương
tác nâng cao trong nhiều lĩnh vực, từ giáo dục đến truyền thông xã hội Mục tiêu củbài toán là xây dựng và phát triển một hệ thống thông minh có khả năng hiểu và diễnđạt nội dung hình ảnh một cách tự nhiên trong ngôn ngữ tiếng Việt Qua việc tích hợp
giữa xử lý hình ảnh và ngôn ngữ tự nhiên, tạo ra một công cụ mô tả ảnh linh hoạt và
hiệu quả, đáp ứng đa dạng nhu cầu trong giao tiếp máy-người và hỗ trợ người sửdụng Có thé ứng dụng rộng rãi trong nhiều lĩnh vực, từ giáo duc và truyền thông xã
hội đến các ứng dụng thực tế hỗ trợ cuộc sống hàng ngày Bằng cách này, bài toánkhông chỉ hướng tới sự tiện lợi mà còn góp phần vào sự phát triển toàn diện của trítuệ nhân tạo và ứng dụng công nghệ trong cộng đồng sử dụng tiếng Việt Tuy nhiên,vẫn còn nhiều thách thức cần được giải quyết, chăng hạn như khả năng mô tả nội
dung của các bức ảnh chụp trong điều kiện ánh sáng yếu, hoặc khả năng mô tả nội
dung của các bức ảnh chụp cảnh vật hoặc hoạt động phức tạp.
Bài toán mô ta anh băng tiếng Việt đã trai qua sự phát triển đáng kế nhờ vào
những tiến bộ đáng chú ý trong lĩnh vực xử lý ngôn ngữ tự nhiên và học máy Mộttrong những yếu tố quan trọng là sự xuất hiện của các mô hình ngôn ngữ mạnh mẽnhư BERT, GPT, và RoBERTa, giúp tăng cường khả năng xử lý ngôn ngữ cho tiếng
Trang 21Việt Sự tiến bộ của các mô hình này đã mang lại hiệu suất mô tả ảnh ngảy càng chính
xác và tự nhiên Các thuật toán mô ta ảnh hiện dai dựa trên học sâu đã có thé mô ta
nội dung của một bức ảnh một cách chính xác và đầy đủ, ngay cả trong những trường
hợp phức tạp Sự phát triển của các mô hình học sâu có khả năng học các mối quan
hệ phức tạp giữa các đặc trưng của hình ảnh và nội dung của bức ảnh Điều này đãgiúp các thuật toán mô tả ảnh có thé mô tả nội dung của một bức ảnh một cách chi
tiết và đầy đủ hơn Sự phát triển của các kỹ thuật xử lý ngôn ngữ tự nhiên tiên tiến.Các kỹ thuật này đã giúp các thuật toán mô tả ảnh có thé tạo ra các mô tả bang van
bản rõ ràng và dé hiểu hơn Sự phát triển của các dữ liệu huấn luyện lớn Các dữ liệuhuấn luyện lớn đã giúp các thuật toán mô tả ảnh có thể học hỏi từ nhiều ví dụ khácnhau và cải thiện hiệu suất của chúng Những mô hình học sâu phổ biến được sử dụngphô biến trong giải quyết bài toán mô tả anh là ‘Show, Attend and Tell (SACT)’,
‘Attention is All You Need (Attention)’, ‘Generative Pre-trained Transformer 3
(GPT-3)’ Mô hình Show, Attend and Tell (SACT) sử dung một mô hình transformer
dé hoc các mối quan hệ giữa các đặc trưng của hình anh và các từ trong mô tả Môhình Attention is All You Need (Attention) sử dụng một mô hình transformer dé họccác mối quan hệ giữa các đặc trưng của hình anh và các từ trong mô ta Mô hình
Generative Pre-trained Transformer 3 (GPT-3) được đào tạo trên một tập dữ liệu
không lồ gồm văn bản và mã Mô hình này có thể được sử dụng để tạo văn bản, dịch
ngôn ngữ, và việt các loại nội dung sáng tạo khác nhau.
1.2 Phát biểu bài toán
Bài toán mô tả ảnh được biểu diễn qua từng pixel trong hình ảnh đầu vào Đầu
vào và đâu ra của bài toán có thê được mô tả như sau:
— Đầu vào: Đầu vào của bài toán mô tả anh (Image Captioning) là một hình anh,
thường là một ma trận số học biểu diễn cho hình ảnh Hình ảnh nay có thể
được biểu dién dưới dạng một tập hợp các pixel hoặc một tập hợp các đặc
trưng trừu tượng tạo ra từ hình ảnh băng cách sử dụng các mô hình trích xuất
đặc trưng thị giác (ví dụ: mạng nơ-ron tích chập)
Trang 22— Dau ra: Một câu mô tả băng tiêng Việt về nội dung, ngữ nghĩa của bức anh
dau vào.
Hình 1.1 Dau vào và đâu ra của bài toán
1.3 Các thách thức
1.3.1 Các yếu tố đến từ ngoại cảnh
Yếu tố ngoại cảnh là những yêu tố nằm bên ngoài ảnh, bao gồm các yếu tố
môi trường, thời tiết, góc chụp, ánh sáng, Những yếu tô này có thé gây ra nhiềuthách thức cho bài toán phát hiện đối tượng khác trong môi trường tự nhiên, trong bàitoán “mô tả ảnh” Các yếu tô này tác động một cách rõ rệt đến hiệu năng phát hiện
của các mô hình học máy, khiến mô hình mô tả không chính xác hoặc không day đủ
Yếu tố ngoại cảnh đầu tiên có thé kể đến đó là môi rường Môi trường xungquanh ảnh có thê ảnh hưởng đến chất lượng hình ảnh, khiến mô hình khó nhận diệncác vật thể hoặc hoạt động trong ảnh Ví dụ, một bức ảnh chụp trong một buổi hòa
nhạc có nhiều ánh sáng và âm thanh sẽ khó mô tả hơn một bức ảnh chụp trong một
khu vườn yên tĩnh.
Yếu tố ngoại cảnh tiếp theo có thé ké đến đó là thoi tiét Thời tiết cũng có théảnh hưởng đến chất lượng hình ảnh, khiến mô hình khó nhận diện các vật thể hoặc
Trang 23hoạt động trong ảnh Ví dụ, một bức ảnh chụp trong một ngày mưa bão sẽ khó mô tả
hơn một bức ảnh chụp trong một ngày nắng đẹp
Yếu tổ ngoại cảnh tiếp theo có thê kế đến đó là góc chụp Góc chụp ảnh có théảnh hưởng đến cách mô hình nhìn thấy các vật thé trong ảnh Ví dụ, một bức ảnh
chụp từ trên cao sẽ khó mô tả hơn một bức ảnh chụp ngang tam mắt
Yếu tố ngoại cảnh cuối cùng có thé kế đến đó là ánh sáng Anh sáng cũng có
thể ảnh hưởng đến cách mô hình nhìn thay cac vat thé trong anh Vi du, một bức anhchụp trong điều kiện ánh sáng yếu sẽ khó mô ta hơn một bức ảnh chụp trong điềukiện ánh sáng day đủ
1.3.2 Các yếu tố đến từ bên trong
Yếu tô đến từ bên trong là những yếu tố nằm bên trong ảnh, bao gồm các yếu
tố như chất lượng hình ảnh, độ phức tạp của cảnh, các vật thể hoặc hoạt động không
Trang 241.3.3 Tổng quát về các thách thức
Bài toán mô tả ảnh đặt ra nhiều thách thức do sự tương tác phức tạp giữa yếu
tố môi trường bên ngoài và van đề bên trong Dé giải quyết hiệu quả, các phươngpháp thường sử dụng kết hợp linh hoạt giữa xử lý ảnh, học máy và trí tuệ nhân tạo
Trong giai đoạn xử lý ảnh, việc chuẩn hóa và tiền xử lý giúp giảm ảnh hưởng
của biến động môi trường như thay đôi về đèn, độ tương phản, và nhiễu Phương pháp
này kết hợp với việc phân đoạn ảnh dé xác định vị tri và định ra vùng quan trọng
trong ảnh.
Các mô hình học máy, bao gồm cả mạng nơ-ron học sâu, sau đó được áp dụng
để tự động rút trích đặc trưng và tạo ra mô tả chính xác cho ảnh Đồng thời, sự tươngtác giữa yếu tô ngoại cảnh và nội dung hình ảnh được tích hợp thông qua các phươngpháp kết hợp thông tin, như mô hình bi-đặc trưng hoặc mô hình học kết hợp
Đối mặt với sự đa dạng của môi trường, các kỹ thuật chống nhiễu được ápdụng để làm sạch và tối ưu hóa ảnh Việc này nhằm tăng cường khả năng của mô
hình trong việc xử lý ảnh trong môi trường biến động Tổng cộng, sự tích hợp linh
hoạt giữa các phương pháp nảy giúp cải thiện khả năng mô tả ảnh, đồng thời đối mặt
một cách hiệu quả với sự phức tạp của cả yếu tố môi trường bên ngoài và vấn đề bên
trong.
1.4 Mục tiêu và phạm vỉ của khóa luận
Trong phạm vi của một đề tài khóa luận tốt nghiệp, mục tiêu chính của khóa luận
này là:
— _ Tìm hiểu về các cách tiếp cận cho bài toán sinh câu mô ta ảnh truyền thống
— Nghiên cứu, đề xuất cải tiến biểu diễn ảnh trong không gian mô hình
Transformer, giúp cải thiện độ chính xác.
— Nghiên cứu, thử nghiệm một cách tiếp cận kết hợp đặc trưng ngôn ngữ Tiếng
Việt vào không gian mô hình, giúp cải thiện độ chính xác trên các bộ dữ liệu
Tiếng Việt.
Trang 251.5 Đóng góp của khóa luận.
Khóa luận tập trung vào việc nghiên cứu chủ yếu về việc áp dụng mô hình
Transformer va đồng thời tiền hành khảo sát, đánh giá hiệu suất của một số bộ trích
xuất đặc trưng tiền huấn luyện, trong đó bao gồm cả bộ trích xuất đặc trưng trên ảnh
và ảnh-ngôn ngữ, mang lại cái nhìn toàn diện về khả năng học và trích xuất đặc trưng
của mô hình.
Kết quả của khóa luận đề nghị sử dụng phương pháp MDSANet kết hợp với
bộ trích xuất đặc trưng CLIP, VinVL mang lại hiệu suất đáng chú ý Cụ thể, trên hai
bộ dit liệu tiếng Việt UIT-ViIC và UIT-OpenViIC, đạt được kết qua khả quan so vớicác nghiên cứu trước đây trên cùng bộ dữ liệu Điều này chứng minh rằng phươngpháp và kết hợp cụ thể này không chỉ có khả năng đưa ra kết quả tốt hơn mà còn nâng
cao hiệu suất trích xuất đặc trưng so với các phương pháp khác
Tóm lại, đóng góp của khóa luận là cung cấp một hướng tiếp cận sử dụng môhình Transformer và bộ trích xuất đặc trưng tiền huấn luyện, đồng thời chứng minhtính hiệu quả của phương pháp MDSANet và trích xuất đặc trưng ảnh bang CLIP,VinVL trên các bộ dữ liệu tiếng Việt cho bài toán sinh câu mô tả tiếng Việt cho ảnh
Trang 261.6 Bồ cục của khóa luận
Phần còn lại của khóa luận được trình bày theo bố cục như sau:
CHƯƠNG 2 - CÁC NGHIÊN CỨU LIEN QUAN: trình bày một khảo sát về các
cách tiếp cận ở các công trình trước đây trên bài toán mô tả ảnh
CHƯƠNG 3 - PHƯƠNG PHÁP THUC NGHIEM: Trinh bày về các bước thực
hiện một bài toán như trên và từ đó tìm ra được phương pháp phù hợp.
CHƯƠNG 4 - THỰC NGHIEM VÀ ĐÁNH GIÁ: trình bày tổng quan về các bộ
dữ liệu của bai toán trên, các độ đo được sử dụng dé đánh giá bài toán Cách cài đặt
và những kệt quả đạt được.
CHƯƠNG 5 - KET LUẬN VA HƯỚNG PHAT TRIEN: tổng quát lại một số nội
dung chính trong toàn bộ nội dung nghiên cứu và đề xuất hướng phát triển trong
tương lai.
Trang 27Chương2 CƠ SỞ LÝ THUYET VA CÁC NGHIÊN CUU LIÊN QUAN
Trong những năm gần đây, bài toán mô tả ảnh đã đạt được sự tiến triển đáng
kể, với nhiều phương pháp đa dạng Hiện nay, quá trình tiếp cận chủ yếu của bài toán
có thé được phân thành hai bước chính: trích xuất đặc trưng từ ảnh và mô tả lại ảnh
bằng văn bản Việc này được thực hiện thông qua hai hướng tiếp cận quan trọng.Hướng tiếp cận dựa trên biểu diễn vị trí của đối tượng nhằm tao ra biểu diễn chatlượng về vị trí của các đối tượng trong ảnh, đóng vai trò quan trọng trong quá trình
mô tả chỉ tiết và chính xác Hướng tiếp cận dựa trên cấp độ của văn bản nhằm tạo ra
mô tả tong quan và thông tin ngữ cảnh, với sự tập trung vào cấp độ và mối liên kếtgiữa các thành phần văn bản
2.1 Hướng tiếp cận trích xuất đặc trưng ảnh
2.1.1 Hướng tiếp cận đặc trưng cấp thấp
Các phương pháp đặc trưng cấp thấp sử dụng các đặc trưng mô tả các thuộctính cơ bản của ảnh, chắng hạn như màu sắc, hình dạng, kết câu, hoặc ngữ nghĩa Cácđặc trưng này được trích xuất từ ảnh bằng các kỹ thuật xử lý ảnh
Các đặc trưng màu sắc: Các đặc trưng màu sắc mô tả màu sắc của các điêm ảnh trong ảnh Các đặc trưng nay có thé được sử dụng đê mô tả các đặc diém vê mau
sắc của vật thê trong anh, chang hạn như mau sac của quân áo, màu sắc của hoa, hoặc
mau sac cua bau trời.
Các đặc trưng hình dạng: Các đặc trưng hình dang mô ta hình dạng của các
vật thể trong ảnh Các đặc trưng này có thể được sử dụng dé mô tả các đặc điểm vềhình dạng của vật thê trong ảnh, chăng hạn như hình dạng của con người, hình dạng
của xe cộ, hoặc hình dạng của đô vật.
Các đặc trưng kêt câu: Các đặc trưng kêt câu mô tả kêt câu của các vật thê trong ảnh Các đặc trưng này có thê được sử dụng dé mô tả các đặc điêm về kêt câu của vật thê trong ảnh, chăng hạn như kêt cau của da người, két câu của vải, hoặc kêt
câu của go.
Trang 28Các đặc trưng ngữ nghĩa: Các đặc trưng ngữ nghĩa mô tả ý nghĩa của các vật
thê trong ảnh Các đặc trưng này có thể được sử dụng đề mô tả các đặc điểm về ngữ
nghĩa của vật thể trong ảnh, chăng hạn như loại vật thể, nhãn hiệu, hoặc thương hiệu
của vật thể đó
2.1.2 Hướng tiếp cận đặc trưng cấp cao
Hướng tiếp cận đặc trưng cấp cao trong trích xuất đặc trưng ảnh tập trung vào
việc rút trích các đặc trưng anh phức tap và trừu tượng từ các tầng an của các mô hìnhhoc máy sâu, đặc biệt là các mô hình CNN[6] và Transformer[7] Các đặc trưng cấpcao này thường mang tính chất trừu tượng hóa thông tin từ ảnh và thường được sửdụng dé biểu diễn các khái niệm phức tạp như đối tượng, ngữ cảnh, và mối quan hệ
giữa các đôi tượng.
Phương pháp trích xuất đặc trưng cấp cao là một phương pháp quan trọngtrong lĩnh vực thị giác máy tính, nhằm mục đích rút trích các đặc trưng ảnh phức tạp
và trừu tượng từ các tầng ân của các mô hình học máy sâu Các mô hình chủ yếu sử
dụng bao gồm mạng nơ-ron tích chập (CNN) va Transformer, tap trung vào việc hiểubiết sâu sắc về nội dung và ngữ cảnh của hình ảnh Trong bài toán “mô tả ảnh”, khinhắc đến cách tiếp cận trích xuất đặc trưng cấp cao thì không thé không nói về phươngpháp Mạng Nơ-ron Tích Chập (CNN), Các tầng tích chập đầu tiên (Convolutional)của mạng CNN thường nhận diện các đặc trưng cấp thấp như cạnh biên, màu sắc, vàhình dạng cơ bản Tầng pooling giúp giảm kích thước không gian của đặc trưng, tạo
ra sự trừu tượng hóa và giữ lại thông tin quan trọng Các tầng sau cùng của CNN chứacác tầng tích chập sâu hơn, có khả năng học các đặc trưng cấp cao hơn, như các phần
tử của đôi tượng, đặc diém ngữ cảnh, và môi quan hệ giữa các đôi tượng.
Trang 29A Typical Convolutional Neural Network (CNN
- Output
Convolution Pooling Convolution Pooling = m £
Kernel
Input Image Featured Pooled Featured Pooled Flatten
maps Featured maps maps Featured maps layer
st = +——*
Feature Maps Fully connected layer
Feature Extraction | Classification | Probabilistic ,
\ |
distribution
Hình 2.1 Minh họa quá trình trích xuất đặc trưng anh của CNN
Phương pháp Transfomers có thê coi là truyền cảm hứng cho tất cả các phương
pháp trích xuất đặc trưng ảnh trong bài toán mô tả ảnh sau này Đặc biệt trong bốicảnh của việc trích xuất đặc trưng ảnh cấp cao cho bài toán mô tả ảnh, đã chứng minh
sự hiệu quả vượt trội và linh hoạt Đầu tiên, hình ảnh được biểu diễn dưới dang vector
embedding dé tạo ra biéu diễn số hoc cho mỗi pixel Positional encoding được thêmvào dé bé sung thông tin về vị trí của các pixel trong không gian ảnh Các tang của
mô hình Transformer gồm encoder được áp dụng cho biêu diễn hình ảnh Mỗi tang
bao gôm các module chính sau:
e Multi-Head Self-Attention Mechanism: Cơ chế này giúp mô hình tập
trung vào các phần quan trọng của hình ảnh, tự đồng thời học được các
mối quan hệ giữa các vùng không gian của ảnh
e Layer Normalization và Feedforward Network: Sau cùng, đầu ra của
cơ chế attention được chuẩn hóa theo lớp và được truyền qua mạngfeedforward đề tạo ra biêu diễn đặc trưng cấp cao
e Residual Connection va Layer Normalization: Mỗi tầng kết hợp
residual connection va layer normalization đê tôi ưu hóa quá trình học.
10
Trang 30Transformer có khả năng hiểu biết thông tin từ hình ảnh ở mức độ trừu tượngcao Nhờ cơ chế attention, mô hình có khả năng tập trung vào các đặc trưng quan
trọng và biểu diễn mối quan hệ phức tạp trong ảnh Sau khi thông tin đã được trích
xuất từ các tầng Transformer, nó có thể được sử dụng cho nhiều mục đích, bao gồmviệc tao mô tả cho hình ảnh Các biéu diễn này có thé đóng vai trò là "bản tóm tắt"
cho nội dung quan trọng của hình ảnh Mô hình Transformer thường được đảo tạo
trước trên tập dữ liệu lớn, chứa các hình ảnh thực tế Sau đó, nó có thể được fine-tune
hoặc truyền tải kiến thức cho nhiệm vụ cụ thẻ, giúp nó học được thông tin từ dt liệu
cụ thê của bài toán mô tả ảnh
(36x 1024)
Convolutional Feature Maps
(6x6x1024)
Learned Positional Encoding
Output Embedding
Trang 312.2 Hướng tiếp cận dựa trên đặc trưng ảnh tạo ra văn bản
Khi quá trình trích xuất đặc trưng ảnh đã được thực hiện thành công trong bàitoán mô tả ảnh, bước tiếp theo là sử dụng các phương pháp học máy hoặc mô hình
ngôn ngữ dé tao ra mô tả văn bản phan ánh đầy đủ và ý nghĩa về nội dung của hìnhảnh Đầu tiên, thông qua việc trích xuất đặc trưng, chúng ta đã có được biểu diễn số
học của hình ảnh, nơi chứa các thông tin quan trọng về đối tượng, ngữ cảnh, và cácđặc điểm nổi bật khác Điều quan trọng ở đây là tạo ra một kết nối hợp lý giữa cácđặc trưng ảnh này và văn bản mô tả, dé mô tả có thé phản ánh chính xác và sâu sắc
về hình ảnh Bằng cách sử dụng mô hình ngôn ngữ, chăng hạn như mô hình học máy
có khả năng sinh văn bản tự động, chúng ta có thê kết hợp thông tin từ đặc trưng ảnhvới kiến thức ngôn ngữ để tạo ra mô tả văn bản Mô hình này có khả năng học đượccấu trúc ngôn ngữ, từ vựng phù hợp, và mối quan hệ giữa các từ, giúp mô tả trở nên
tự nhiên và có ý nghĩa Một cách tiếp cận khác là sử dụng mô hình học máy, nơichúng ta huấn luyện mô hình dựa trên dữ liệu mô tả ảnh Mô hình này sẽ học đượcmối liên kết giữa đặc trưng ảnh và nội dung mô tả, cũng như là cách tạo ra mô tả phùhợp cho các đặc trưng cụ thé Một phương pháp mạnh mẽ khác là sử dụng mô hìnhTransformer, đặc biệt là tầng encoder của nó, dé xử lý đặc trưng ảnh và tạo ra biểudiễn cấp cao cho mô ta Transformer có khả năng hiểu biết sâu sắc về mối quan hệgiữa các đặc trưng ảnh, cung cấp một phương tiện mạnh mẽ để tạo ra mô tả văn bảnphức tạp và chất lượng Điều này tạo ra một quy trình tích hợp giữa thông tin hình
ảnh và ngôn ngữ, giúp tạo ra mô tả văn bản có ý nghĩa và phản ánh đầy đủ về nội
dung của hình ảnh Tùy thuộc vào mục tiêu cụ thể của ứng dụng, việc này có thê đượcđiều chỉnh và tinh chỉnh để đạt được sự linh hoạt và đa dạng trong mô tả
2.2.1 Biểu diễn đặc trưng ngôn ngữ
Bước biéu diễn đặc trưng ngôn ngữ là một phan quan trọng trong việc xử lýthông tin ngôn ngữ và tạo ra mô tả cho hình ảnh Một số mô hình phổ biến được sửdụng trong việc biểu diễn đặc trưng ngôn ngữ như sau: Word embeddings[25] là kỹthuật biểu diễn từng từ đưới dạng vecto số thực trong không gian nhiều chiều Các từ
12
Trang 32tương đồng về mặt ngữ nghĩa thường gần nhau trong không gian vectơ LSTM[11] là
một loại mang neural có khả năng duy trì va sử dụng thông tin từ quá khứ trong quá
trình dao tạo Nó thích hợp cho việc xử lý dữ liệu trình tự GRU[9] (Gated Recurrent
Unit) là một biến thé của LSTM, giữ lại một số lợi ích của LSTM nhưng có số lượngtham số ít hơn Transformer là một kiến trúc không sử dụng các lớp recurrent, thay
vào đó sử dụng cơ chế tự chú ý dé hiểu cau trúc trình tự BERT[12] (BidirectionalEncoder Representations from Transformers) là một mô hình ngôn ngữ được huấn
luyện trước trên lượng lớn dữ liệu ngôn ngữ Nó biéu diễn từng từ trong ngữ cảnh
của cả câu thông qua việc sử dụng mô hình transformer GPT[8] (Generative
Pre-trained Transformer) là một dòng mô hình sử dụng transformer và được huấn luyện
trước trên nhiêu nhiệm vụ ngôn ngữ Nó có khả năng sinh văn bản và hiêu ngữ cảnh.
Lua chọn mô hình phụ thuộc vào yêu cầu cụ thể của bài toán và nguồn di liệu
Ví dụ, trong bài toán mô tả hình ảnh, có thé sử dụng LSTM hoặc Transformer để hiểumối quan hệ giữa các từ trong câu mô tả và đặc trưng hình ảnh Trong trường hợp
muốn sử dụng mô hình đã được huấn luyện trước, BERT hoặc GPT có thé là lựa chọn
tốt để học ngữ cảnh phức tạp
2.2.2 Sử dụng mô hình học máy
Sử dụng đặc trưng ảnh đã được trích xuất từ một mô hình CNN, chăng hạn
như ResNet[26] hoặc Inception[27] Đặc trưng này thường có kích thước có định và
chứa thông tin quan trọng về nội dung hình ảnh Chọn kiến trúc mô hình học máy
phù hợp cho nhiệm vụ mô tả ảnh Một số kiến trúc thông dụng bao gồm mô hìnhSeq2Seq[28], mô hình có kiến trúc Attention[29], hay mô hình Transformer Mô hìnhyêu cầu dữ liệu dưới dạng chuỗi token Mỗi mô tả văn bản được chia thành các token
và được thêm padding dé dam bảo đồng nhất về kích thước Ánh xạ token thành cácvector embedding dé có thể sử dụng trong mô hình Mô hình có thé sử dung lớp
embedding riêng hoặc sử dụng embedding được chia sẻ với các mô hình ngôn ngữ
khác Xây dựng mô hình, sử dụng tang embedding dé chuyền đổi token thành cácvector embedding Xây dựng mô hình học máy với kiến trúc được chọn Các tầng
13
Trang 33như LSTM, GRU, hay Transformer encoder được sử dụng đề xử lý đặc trưng ảnh vàvector embedding của mô tả văn bản Tầng cuối cùng của mô hình sẽ tạo ra dự đoán
cho từng từ tiếp theo trong mô tả văn bản Sử dụng hàm mắt mát như cross-entropy
loss giữa dự đoán của mô hình và mô tả thực tế Áp dụng thuật toán tối ưu hóa, chănghạn như Adam, đề điều chỉnh trọng số của mô hình và giảm thiểu hàm mắt mát trêntập huấn luyện Nếu cần, có thé thêm các kỹ thuật như scheduled sampling dé kiêm
soát sự đa dang trong mô tả văn ban Sử dụng tập dữ liệu kiểm thử dé đánh giá hiệusuất của mô hình trên các mô tả mới Các tiêu chí đánh giá có thể bao gồm BLEU
score, METEOR score, ROUGE score, CIDEr score, và nhiều tiêu chí khác Nếu cầnthiết, thực hiện fine-tuning trên tập dữ liệu cụ thé của bài toán dé cải thiện khả năng
dự đoán của mô hình Tinh chỉnh các tham số của mô hình dựa trên kết quả đánh giá,
đê đảm bao rang nó phan ánh chính xác và sâu sac vê nội dung của hình anh.
Quá trình này kết hợp giữa thông tin hình ảnh và ngôn ngữ, giúp tạo ra mô tảvăn bản phản ánh đầy đủ và ý nghĩa về nội dung của hình ảnh, làm cho quá trình tạo
mô tả tự động trở nên linh hoạt và hiệu quả.
2.2.3 Sử dụng mô hình Transformer
Bước su dung mô hình Transformer trong bài toán mô tả ảnh là một quá trình
quan trọng để tận dụng sức mạnh của cơ chế tự chú ý và khả năng hiểu biết sâu sắc
về mối quan hệ trong dữ liệu đặc trưng ảnh Mô hình sử dụng tầng encoder của kiến
trúc Transformer dé xử lý đặc trưng ảnh Tang encoder này có thé được áp dụng trực
tiếp cho các vùng của hình ảnh hoặc các biéu diễn đặc trưng đã được trích xuất từ môhình xử lý ảnh (chăng hạn ResNet) Hình ảnh được chia thành các đối tượng cụ thể(ví dụ: vật thể, ngữ cảnh) để được xử lý bởi tầng encoder của Transformer.Embedding được sử dụng dé chuyên đổi thông tin từ đặc trưng ảnh thành các vector
số học, làm cho chúng phù hợp với đầu vào của tầng encoder Vector embedding từ
đặc trưng ảnh được kết hợp với các vector embedding của từng từ trong mô tả văn
ban, tạo ra input chuẩn bi cho mô hình Transformer Tang encoder su dung co ché tuchú ý dé tập trung vào các đối tượng cụ thé va tạo ra biểu diễn cấp cao cho chúng Co
14
Trang 34chế này giúp mô hình tập trung vào các phần quan trọng của hình ảnh Transformer
có khả năng học mối quan hệ phi tuyến tính giữa các phần khác nhau của đặc trưng
ảnh, giúp nó hiểu biết sâu sắc về thông tin không gian và ngữ cảnh Tang encoder đầu
ra một biéu diễn cấp cao của hình ảnh, là sự kết hợp thông tin từ đặc trưng ảnh vàngôn ngữ Biểu diễn cấp cao từ tang encoder được kết hợp với biểu diễn từ mô hìnhngôn ngữ, tạo ra một biéu diễn tích hợp của hình ảnh và văn bản Mô tả văn bản được
tạo ra bởi tầng decoder của Transformer, sử dụng biểu diễn tích hợp như một biểudiễn đầu vào Cơ chế tự chú ý của tầng decoder giúp mô hình tạo ra mô tả có tính
tương quan cao với cả đặc trưng ảnh và các từ trước đó trong mô tả Sử dụng hàm
mat mát như cross-entropy loss giữa mô tả dự đoán và mô tả thực tế Áp dụng thuậttoán tối ưu hóa dé điều chỉnh trọng số của tầng encoder và decoder Tinh chỉnh cáctham số dé cải thiện hiệu suất của mô hình trên tập huấn luyện và kiểm thử Kiểm
soát sự đa dạng của mô tả, nếu cần, dé tạo ra những mô tả phong phú và đa dạng Sử
dụng các tiêu chí đánh giá như BLEU score, METEOR score, ROUGE score, và
CIDEr score dé đánh giá hiệu suất của mô hình trên tập kiêm thử Khi đã hoàn thànhquá trình huấn luyện và đánh giá, mô hình có thê được triển khai để tạo mô tả chohình ảnh mới trong môi trường thực tế
15
Trang 35,> Add & Normalize
XỊ x i
Thinking Machines
Hình 2.3 Thanh phan chính trong mô hình Transformer
Quá trình này kêt hợp sức mạnh cua Transformer đê hiéu biệt sâu sắc vê môi
quan hệ và ngữ cảnh trong dữ liệu đặc trưng ảnh, giúp tạo ra mô tả văn bản chât lượng
cao và có ý nghĩa về nội dung của hình ảnh
2.3 Các hướng tiếp cận khác
2.3.1 Hướng tiếp cận dựa theo bài toán phát hiện đối tượng tổng quát
Nhìn một cách khái quát, bài toán mô tả ảnh cũng có thể được xem như một
đề nhánh đề tài nằm trong khối bài toán phát hiện đối tượng nói chung Vì vậy, các
mô hình hiện đại trong bài toán phát hiện đối tượng cũng có thể được ứng dụng cho
16
Trang 36việc phát hiện đối tượng trong ảnh có bối cảnh Phát hiện đối tượng tông quát trongbài toán mô tả ảnh đóng vai trò không thể phủ nhận trong việc hiểu và mô tả nội dung
của hình ảnh Đây là một quá trình phức tạp và quan trọng, đòi hỏi mô hình không
chỉ phải xác định vị trí đối tượng mà còn phải nhận biết đối tượng đó là gì Kỹ thuậtphát hiện đối tượng thường sử dụng trong lĩnh vực này là Convolutional NeuralNetworks (CNNs), một loại mô hình học sâu có khả năng học cách trích xuất đặc
trưng thị giác từ dữ liệu Quá trình phát hiện đối tượng thường bắt đầu bằng bước
định vị, trong đó mô hình xác định vị trí của các đối tượng trong ảnh Các phương
pháp như region proposal networks (RPNs) hoặc Faster R-CNNs[13] thường được sử
dụng để tạo ra các vùng đề xuất chứa đối tượng Điều này giúp giảm độ phức tạp củaảnh và tập trung vào các vùng chứa thông tin quan trọng Tiếp theo là bước phân loại,nơi mà mô hình xác định danh tính của các đối tượng trong các vùng đã được định
vị Các tang fully connected và softmax thường được tích hợp dé tạo ra xác suất của
từng loại đối tượng trong vùng quan tâm Mô hình có khả năng xác định liệu đối
tượng đó có thé là con người, động vật, hay vật thể khác Phát hiện đối tượng khôngchỉ cung cấp thông tin về sự xuất hiện của các đối tượng mà còn là yếu tố quan trọngtrong việc sinh mô tả tự nhiên cho ảnh Khi kết hợp với thông tin từ phân khúc ngônngữ, mô hình có thé tao ra mô tả phong phú và chi tiết, thể hiện mối quan hệ phức tap
giữa các đối tượng và ngữ cảnh xung quanh chúng Điều này giúp tăng cường khảnăng hiểu sâu rộng về nội dung của ảnh, tạo ra một kết quả mô tả tự nhiên và sinh
động
2.3.2 Các phương pháp tăng cường dữ liệu
Sử dụng kỹ thuật tăng cường ảnh đã trở thành một phương pháp phổ biến déngăn chặn vấn đề quá khớp trong thị giác máy tính Các phương pháp tăng cường dữ
liệu trong bài toán mô tả ảnh đã trải qua sự phát triển và đa dạng theo thời gian, nhằm
cải thiện hiệu suất và đồng thời giảm thiểu nguy cơ quá mức đào tạo mô hình trên tập
dữ liệu hạn chế Ban đầu, những phương pháp đơn giản như xoay, lật và phóng to đối
với anh đã được áp dụng dé tăng cường dữ liệu Những biến đổi nhỏ này không chỉ
17
Trang 37giúp mô hình học được sự đa dạng của dữ liệu mà còn giảm thiêu tình trạng quá mức,
sự quá mức đào tạo trên tập dữ liệu có săn.
Tiếp theo, phương pháp data augmentation ngày càng trở nên phức tạp hơn
với sự xuất hiện của các kỹ thuật tăng cường dữ liệu da model Điều này bao gồmviệc kết hợp thông tin từ nhiều nguồn, như anh và văn ban, dé tạo ra những đặc trưng
đa dạng và phong phú hơn Sự kết hợp giữa hình ảnh và mô tả ngôn ngữ tự nhiên làm
tăng sự hiêu biét về môi quan hệ giữa nội dung hình ảnh và ngữ cảnh.
Mô hình học chuyền giao (transfer learning) cũng trở thành một phương pháptăng cường dữ liệu quan trọng Việc sử dụng các mô hình đã được huấn luyện trước
đó trên tập dữ liệu lớn giúp mô hình mới học được các đặc trưng chung và thông tin
sâu sắc từ tập dữ liệu rộng lớn, từ đó cải thiện khả năng tổng quát hóa của mô hình
Cuối cùng, các phương pháp tăng cường dữ liệu tiên tiến hơn như GenerativeAdversarial Networks (GANs)[14] được tích hợp để tạo ra dữ liệu mới và thậm chí
có thể tạo ra ảnh mô phỏng Điều này không chỉ giúp cải thiện sự đa dạng của dữ liệu
mà còn giúp mô hình làm quen với các tình huống mới và không có sẵn trong tập ditliệu gốc
Tóm lại, qua thời gian, các phương pháp tăng cường đữ liệu trong bài toán mô
tả ảnh đã trải qua sự phát trién từ những biến đồi cơ bản đến những kỹ thuật đa dạng
và phức tạp, nhăm nâng cao hiệu suât và khả năng tông quát hóa của mô hình.
2.4 Kiên trúc Transformer
Transformer được sử dụng dé học các mối quan hệ giữa các pixel trong ảnh.Transformer sẽ học cách xác định các mối quan hệ phức tạp giữa các đối tượng trongảnh Cu thé, trong phương pháp MDSANet thi Transformer sẽ được sử dung dé tínhtoán các trọng số self-attention Các trọng số self-attention này sẽ cho biết mức độquan trọng của mỗi pixel đối với việc mô tả ảnh Tiếp theo Transformer sẽ được sửdụng dé tính toán các trọng số distance-sensitive self-attention Các trọng số distance-
18
Trang 38sensitive self-attention này sẽ cho biết mức độ quan trọng của mối quan hệ giữa các
pixel dựa trên khoảng cách giữa chúng Nhờ sử dung transformer, MDSANet có thé
học các mối quan hệ giữa các pixel trong ảnh một cách hiệu quả Điều này giúp
MDSANet có thé mô tả các đối tượng và hoạt động trong ảnh một cách chính xác vàchỉ tiết hơn
2.4.1 Tổng quan kiến trúc
Transformer là một kiến trúc cực kỳ mạnh mẽ và linh hoạt, được giới thiệuban đầu cho xử lý ngôn ngữ tự nhiên, nhưng đã được mở rộng cho nhiều ứng dụngkhác, bao gồm cả thị giác máy tính Điều đặc biệt quan trọng là Transformer không
sử dụng các lớp RNN hay CNN như các mô hình truyền thống Thay vào đó, nó chútrọng vào cơ chế chú ý dé hiểu và biéu diễn dữ liệu Kiến trúc Transformer bao gồmhai khối chính là khối encoder chịu trách nhiệm xử lý đầu vào của Transformer vàkhối decoder chịu trách nhiệm tạo ra đầu ra của transformer Mỗi khối encoder vàdecoder bao gồm nhiều lớp self-attention và feed-forward network
Kiên trúc transformer có bôn thành phân chính:
© Cơ chế chú ý (Self-Attention): Cơ chế chú ý là một phương pháp cho phép
mạng nơ-ron tập trung vào các phần quan trọng của dữ liệu
e_ Mạng truyền thang vị trí (Point-wise Feed Forward Network): Mạng truyền
thắng vị trí là một mạng nơ-ron đơn giản có hai lớp tuyến tính
e Mã hóa vị trí (Postional Encoding): Mã hóa vi trí là một kỹ thuật được sử dụng
để thêm thông tin về vị trí của các token trong một chuỗi
e Kếtnối dài ngăn (Residual Connections): Kết nối dài ngắn được thêm vào giữa
các lớp trong các "Transformer block" dé tránh vấn đề biến mat gradient vàgiúp mô hình học được biéu diễn phức tạp hơn
19
Trang 39Hình 2.4 Mô tả kiến trúc của transfomer
2.4.2 Cơ chế chú ý (Self-Attention)
Self-Attention là cơ chế giúp Transformer "hiểu" được sự liên quan giữa các
từ trong một câu Ví dụ: ‘Con mèo đã không đuổi theo con chuột, vì nó không đói"
O trong câu này có thê thay răng 'nó' đang dé cập dén con mẻo, nhưng việc hiệu được
20
Trang 40sự liên quan này nó không hề đơn giản đối với một thuật toán Khi mô hình đang xử
lý từ 'nó', Self-Attention cho phép nó liên kết từ 'nó' với 'mèo' Vậy Self-Attention
trích xuât những sự “liên quan” này như thê nào?
Quay trở lại với kiến trúc tông thé ở (Hình 3.5) , có thé thấy đầu vào của các
module Multi-head Attention (bản chất là Self- Attention) có 3 mii tên, đó chính là 3
vectors Querys (Q), Keys (K) và Values (V) Từ 3 vectors này, ta sẽ tính vector
attention Z cho một từ theo công thức sau:
Input Thinking Machines
ưu oad eT MA Bias
lạ fee
|
Ke “oO “oO +H we
Vaue »[ET] OOO cw
Hinh 2.5 Minh hoa vé co ché Self-Attention
Vector K đóng vai tro như một khóa đại diện cho từ, và Q sẽ truy van đến các
vector K của các từ trong câu băng cách nhân chập với những vector này.
21