Hệ thống này cung cấp những ưu điểm nỗi bật trong việc tự động tạo ra các mô tả chính xác và phong phú cho hình ảnh, sử dụng một biểu diễn trung gian giữa dữ liệu hình ảnh và cấu trúc ng
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRUONG ĐẠI HỌC CONG NGHỆ THONG TIN
BOK CR
Duong Quang Sinh
XAY DUNG MO HINH MANG HOC SAU DE TU
DONG TAO CHU THICH HINH ANH
LUẬN VAN THẠC SĨNGÀNH: CÔNG NGHỆ THÔNG TIN
Mã số: 8480201
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
Trang 3Lời cam đoan
Tôi cam đoan luận văn được thực hiện dưới sự hướng dẫn của TS Cao Thị Nhạn Các
số liệu, kết quả kiểm tra dữ liệu kiểm thử trong luận văn là trung thực và chưa từngđược ai công bố trong bất kỳ công trình nào khác Những tài liệu tham khảo từ cáccông trình liên quan đều được trích dẫn nguồn gốc rõ ràng trong phần tài liệu thamkhảo Tất cả các kết quả thử nghiệm của luận văn đều được thử nghiệm thực tế
Dương Quang Sinh
Trang 4LỜI CẢM ƠN
Lời đầu tiên em xin gửi lời cảm ơn đến toàn thể các giảng viên trong Khoa Khoa học
và Kỹ thuật Thông tin - Trường Đại học Công Nghệ Thông Tin - Đại học Quốc gia
TP Hồ Chí Minh đã truyền đạt kiến thức và định hướng nghiên cứu cho em trong thời
gian em học tập tại Trường.
Em xin gửi lời cảm ơn đến các cán bộ phụ trách thuộc Khoa Khoa học và Kỹ thuật
Thông tin đào tạo sau đại học, những người đã quản lý, tư vấn và hỗ trợ em trong quá
trình học tập cũng như làm luận văn.
Em xin gửi lời cảm ơn sé đến TS Cao Thị Nhạn, Cô đã trực tiếp tận tình hướngdẫn, tạo mọi điều kiện thuận lợi cho em trong suốt thời gian làm luận văn tốt nghiệp
Cuối cùng, Em xin gửi lời cảm ơn đến bạn bè, đồng nghiệp cũng như gia đình luôn tạođiều kiện đê em hoàn thành luận văn
Tuy nhiên, do thời gian hạn hẹp, mặc dù đã nỗ lực hết sức mình nhưng chắc rằng luậnvăn này khó tránh khỏi những thiếu sót Em rất mong nhận được sự chia sẽ, đóng góp
ý kiên của giảng viên và các bạn.
Tp Hồ Chí Minh, Ngày 22 tháng 06 năm 2024
Học viên
2
fie “
|
Trang 51.3 Mục tiêu của luận văn
Chương 2 _ CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN
2.1 Giới thiệu
2.2 Các mô hình chú thích hình ảnh
2.3 Phương pháp chú thích hình ảnh dựa trên Deep Learning
2.3.1 Không gian trực quan so với không gian đa phương thức
2.3.2 Học có giám sát so với học sâu khác
2.3.3 Chú thích chỉ tiết so với chú thích cho toàn cảnh
2.3.4 Kiến trúc bộ mã hóa-giải mã so với kiến trúc thành phẩn
Trang 63.2.3 Quy trình huấn luyện.
3.2.4 Các chỉ số đánh giá được sử dụng dé đo lường hiệu quả mô hình 63
3.3 Thực nghiệm và kết qua
Chương 4 ỨNG DỤNG
4.1 Tích hợp tạo chú ảnh tự động cho Pixelfed
4.2 Ứng dụng trên thiết bị di động Android:
Chương 5 KẾT LUẬN VA HƯỚNG PHÁT TRIỂN
5.1 Kếtluận
5.2 Hướng phát triển
TAI LIEU THAM KHẢO
Trang 7DANH MỤC CÁC Ki HIỆU VÀ CHỮ VIET TAT
LSTM: Long Short Term Memory
CNN: Convolutional Neural Network
NLP: Natural Language Processing
NLU: Natural Language Understanding
RNN: Recurrent neural network
GRU: Gated recurrent unit
BLSTM: Bidirectional Long Short-Term Memory
CBIR: Content-Based Image Retrieval
AI: Artificial intelligence
LBP: Local Binary Pattern
SIFT: Scale-invariant Feature Transform
HOG: Histogram of Oriented Gradients
SVM: Support Vector Machines
GAN: Generative Adversarial Networks
R-CNN: Region-based Convolutional Neural Network
EDA: Encoder-Decoder Architecture
CA: Compositional Architecture
Trang 8Bang 3.3 Ví dụ về chú thích tập dữ liệu Flickr8K - - 68
Bang 3.4 Thời gian huấn luyện trên 3 tập dữ liệu -2 2¿z22zz+c++zc++z+z 69Bảng 3.5 Kết quả của các bộ dữ ligu
Bang 3.6 Bảng so sánh đo lường bộ dữ liệu MSCOCO
Bảng 3.7 Bang so sánh đo lường bộ dữ liệu Flickr8K
Bảng 3.8 Ví dụ kết quả chứ thích :-22:222222S222232222E2222E22EEvvrrrrrrrrrr 72
Bang 3.9 Ví dụ vài chú thích chưa tỐC - 2-22 22¿©5+22++22++2EEt2Exerxrsrxerrrrrrr 73Bang 3.10 Ví dụ về chú thích hình ảnh lấy từ internet ¿ z-cs55z:+ 74
Trang 9DANH MỤC CÁC HÌNH VE
Hình 1.1: Ví dụ về một số hình ảnh có chú thích mẫu -¿- 25+ 7
Hình 1.2: Ứng dụng tạo chú thích cho hình ảnh ¿+5 + 5< sx+sc++xeecsx 8Hình 1.3: Sự hiểu biết về hình anh ceccccseecseesseesssessseessessseessesssessseesseesseesseees 10
Hình 1.4: Sự hiểu biết ngữ nghĩa -cc tt 2 tttrtttrrrrrrrrrrrrrrrrrer 11
Hình 2.1: Phân loại tổng thé về chú thích hình ảnh dựa trên deep learning
Hình 2.2: Sơ đồ khối của chú thích hình ảnh dựa trên không gian đa phương thức 21
Hình 2.3: Sơ đồ khối của các chú thích dựa trên deep learning khác 26
Hình 2.4: Một sơ dé khối của chú thích chỉ tiết
Hình 2.5: Sơ đồ khối của chú thích hình ảnh dựa trên kiến trúc Bộ mã hóa-Giải mã
đơn giản
Hình 2.6: Sơ đồ khối của chú thích dựa trên mạng tổng hợp
Hình 2.7: Sơ đồ khối của phương pháp chú ý ảnh đặc trưng chú thích hình ảnh 38Hình 2.8: Sơ đồ khối của chú thích ảnh dựa trên khái niệm ngữ nghia
Hình 2.9: Sơ đồ khối của chú thích hình ảnh dựa trên đối tượng mới điền hình 45
Hình 2.10: Sơ đồ khối chú thích hình ảnh dựa trên các phương pháp khác nhau 47Hình 3.1: Ví dụ và sơ đồ Mở rộng tĩnh và Mở rộng động tự động hồi quy 59
Hình 3.2: Kiến trúc ExpansionNet v2 cccsssscsssesssseesssnesessecessnecesneeeesnesesnnesesnneees 62
Hình 4.1: Workflow diagram tạo chú thích tích hợp cho Pixelfedss T1 Hình.4.2: Trang chủ ::::.:.::-::::-:c::::::c:c2ccc22<c22221212221222225222221212532312222522s53 78
Trang 11MO DAU
Tao mô tả cho hình ảnh được gọi là chú thích hình ảnh Chú thích hình ảnh là
một nhiệm vụ day thách thức vì nó liên quan đến sự hiểu biết về các thực thé, thuộctính và mối quan hệ của chúng trong một hình ảnh Nó cũng liên quan đến việc tạo ra
các mô tả có ý nghĩa về mặt cú pháp và ngữ nghĩa của hình ảnh bằng ngôn ngữ tựnhiên Quy trình chú thích hình ảnh điền hình bao gồm bộ mã hóa hình ảnh và bộ giải
mã ngôn ngữ Mạng nơ-ron tích chập (CNN) thường được áp dụng như một bộ mã
hóa, trong khi mạng Long Short-Term Memory (LSTM) đóng vai trò bộ giải mã Cả
LSTM và CNN đều tích hợp cơ chế chú ý, giúp sinh ra các chú thích đầy đủ ý nghĩa
và chính xác Luận văn này dé cập đến việc áp dụng các phương pháp tiên tiến trongviệc tạo chú thích cho hình ảnh, nhằm mục tiêu sinh ra những chú thích có giá trị cao
về mặt ngữ nghĩa và vượt trội về chất lượng thông tin
Trang 12Chương 1 GIỚI THIỆU
Hàng ngày chúng ta tiếp xúc với vô số những hình ảnh qua nhiều phương tiệnkhác nhau như: Internet, các bài báo, sơ đồ tài liệu và quảng cáo Con người thường
dễ dàng giải thích những hình ảnh này và diễn giải những hình ảnh này thành ngôn
ngữ văn bản Tuy nhiên, đối với máy móc, việc tạo ra mô tả văn bản cho hình ảnh đòihỏi sự hiểu biết về ngữ nghĩa và ngữ cảnh của hình ảnh Mục tiêu lâu dài trong lĩnh
vực Trí tuệ nhân tạo là cho phép máy móc nhìn và hiểu được hình ảnh xung quanh
chúng ta [11].
1.1 Tổng quan về chú thích hình ảnh
Tạo chú thích hình ảnh là nhiệm vụ tự động tạo mô tả cho hình ảnh Việc này
liên quan đến sự hiểu biết về ngữ nghĩa của hình ảnh, đòi hỏi sự hiểu biết về các đốitượng chính, các thuộc tính, tư thế khác nhau và sự tương tác của chúng trong mộthình ảnh Mô hình tạo chú thích hình ảnh cần suy ra những ý nghĩa ngữ nghĩa cơ bản
để tạo ra những chú thích có ý nghĩa [12] Hình 1.1 hiên thị một vài hình anh với chúthích Những dòng chú thích “Một vài đứa trẻ đi đạo với những chiếc ô đầy màu sắc”,
“Một con chim màu xanh lá cây đậu trên cành cây” và “Một người đàn ông mặc đồng
phục bóng đá đang chơi bóng trên sân” là những chú thích cho các hình ảnh trong Hinh1.1 (a), (b) và (c), tương ứng.
Chú thích hình ảnh rất quan trọng vì nhiều lý do Ví dụ: chú thích hình ảnh tựđộng có thể hữu ich dé hỗ trợ người khiếm thi, phát triển công cụ tìm kiếm hình ảnh.Các nền tảng mạng xã hội như Facebook và Twitter có thể trực tiếp tạo mô tả từ hìnhảnh, nơi chúng ta ở (công viên, bãi biển, nhà hàng, quán cà phê), chúng ta mặc gì và
quan trọng là chúng ta đang làm gì ở đó [13] Chú thích hình ảnh cũng có thể được sử
dụng để tóm tat sự kiện Một số ví dụ về ứng dụng của chú thích ảnh được đưa ratrong Hình 1.2, cho thấy chú thích có thé hữu ích trong (a) mô tả cảnh cho người
khiếm thị, (b) tương tác giữa người và robot và (c) truy xuất hình ảnh dựa trên văn
bản.
Trang 13Chú thích hình ảnh là một lĩnh vực nghiên cứu quan trọng Việc tạo chú thích
hình ảnh tự động yêu cầu cả sự hiểu biết về hình ảnh và mô tả ngôn ngữ cho hình ảnh
đó Hình ảnh là một vấn đề cốt lõi của Thị giác máy tính Mô tả ngôn ngữ là một phầncủa Hiểu ngôn ngữ tự nhiên (NLU) [15] Khung chú thích hình ảnh điền hình bao gồm
bộ mã hóa hình ảnh dé tìm hiéu các tinh năng từ hình ảnh và bộ giải mã ngôn ngữ dé
tạo chú thích cho hình ảnh đó.
(a) Một vài đứa trẻ đi dạo _ (b) Một con chim màu xanh _ (c) Một người đàn ông
với những chiếc ô đầy màu _ lá cây đậu trên cành cây _ mặc đồng phục bóng đá
sắc đang chơi bóng trên sân
Hình 1.1: Ví dụ về một số hình ảnh có chú thích mẫu
1.1.1 Đặc Điểm từ Hình Ảnh
Thi giác máy tính là khả năng của máy móc dé “nhìn” và “hiểu” hình ảnh tương
tự như con người Lĩnh vực này có tắt cả các phương pháp đề trích xuất thông tin cầnthiết từ hình ảnh Một lượng lớn nghiên cứu được thực hiện trong lĩnh vực thị giác máytính; đặc biệt là trong việc nhận diện hình ảnh và hiểu hình ảnh Nhận diện hình ảnhliên quan đến việc xác định, định vị và phân loại các đối tượng của hình ảnh Sự hiểubiết trực quan đòi hỏi phải nhận dạng đối tượng cũng như trích xuất chỉ tiết đầy đủ
của từng đối tượng và mối quan hệ liên quan của chúng Hình 1.3 thể hiện một số ví
dụ về hiểu ảnh Hình 1.3(a) có ba đối tượng chính như Người, Chó, và Ghế, và Hình
1.3(b) chứa các loại hoa quả khác nhau như Cam, Chanh, Nho, Lê, và Chanh xanh.
Một phương pháp chú thích hình ảnh cần nhận diện chính xác nhiều đối tượng
Tính năng là những thuộc tính quan trọng của một đối tượng Một đối tượng
có thể có nhiều đặc điểm thay vì chỉ có một thuộc tính Ví dụ: màu sắc, đường viền,
Trang 14đường hình học hoặc cạnh (độ dốc của cường độ điểm ảnh) là những lựa chọn phôbiến.
Đặc điểm có thể được xác định trước (còn được gọi là tạo bằng tay) hoặcchúng có thể được học Các đặc điểm tạo bằng tay bao gồm LBP [16], HOG [17],SIFT [18], và sự kết hợp của chúng Trong các kỹ thuật này, các tinh năng được tríchxuất từ dữ liệu đầu vào Tuy nhiên, dữ liệu hình ảnh trong thế giới thực rất phức tạp,
dư thừa và có tính biến đồi cao Sự xuất hiện của một đối tượng có thé được thay đổi
từ hình ảnh này sang hình ảnh khác Các tính năng thủ công thường không mạnh mẽ
và đòi hỏi nhiều tính toán Vì vậy, việc trích xuất các đặc trưng thủ công từ một tập
ảnh lớn và phức tạp là không khả thi.
Trong các kỹ thuật dựa trên học sâu, các tính năng sẽ được học tự động Mạng
CNN là các kiến trúc mạng được thiết kế dé làm việc trên hình ảnh, video, âm thanh
trong xử lý giọng nói, chuỗi ký tự trong văn bản, v.v [19] Họ đã làm các nhiệm vụ
dễ dàng hơn rất nhiều so với các kỹ thuật dựa trên các phương pháp thủ công CNNs
đã trở nên có khả năng phân biệt các danh mục hình ảnh với một mức độ chính xác
khá tốt Những tiến bộ này hiện đang được sử dụng rộng rãi cho việc phát hiện vànhận diện khuôn mặt, tìm kiếm ảnh cá nhân, nhận thức trong robot học, xe tự lái vànhiều hơn nữa
agar.
(a) M6 ta canh danh cho (b) Tương tác giữa con (c) Truy xuất hình ảnh
người khiếm thị người và robot dựa trên văn bản
Hình 1.2: Ứng dụng tạo chú thích cho hình ảnh.
Một mạng nơ-ron tích chập bao gồm một hoặc nhiều lớp tích chập Các lớp
này sau đó được tiếp tục bởi một hoặc nhiều lớp kết nối đầy đủ [19] Trong kiến trúcnày, lớp dưới được chia thành một số vùng nhỏ gọi là trường tiếp nhận Mỗi kết nói
Trang 15từ lớp dưới lên lớp trên có một giá trị đặc biệt gọi là trọng số Mỗi trường tiếp nhậnđược ánh xạ với nơron của các lớp trên dé trích xuất các đặc điểm Các kiến trúc
mang thần kinh chuyên đổi phổ biến nhất được mô tả dưới đây:
LeCun Yann [20] đã phát trién kiến trúc đầu tiên của Mang thần kinh chuyểnđổi vào những năm 1990 Được gọi là LeNet Kiến trúc LeNet chủ yếu được sử dụng
dé nhận dang mã zip, chữ số
AlexNet [21] được phát triển bởi Alex Krizhevsky, Ilya Sutskever và Geoff
Hinton vào năm 2012 Kiến trúc của mạng này rất giống với LeNet Tuy nhiên nó sâuhơn và lớn hơn LeNet AlexNet chứa tổng cộng tám lớp Năm lớp đầu tiên là các lớptích chập day đủ, tiếp theo là các lớp được kết nối day đủ
GoogleNet [22] được phát triển bởi Szegedy và cộng sự Đóng góp chính làviệc bổ sung mô-đun khởi động Mô-đun này giúp giảm số lượng tham số trong
mạng.
Karen Simonyan và Andrew Zisserman đã phát trién VGGNet [20] Độ sâucủa mạng là thành phần chính dé có hiệu suất tốt hơn Nó có 16 lớp chập va 3 lớpđược kết nối đầy đủ Nó thực hiện các phép cuộn 3 x 3 và gộp 2 x 2 từ đầu đến cuối
He và cộng sự [23] đã phát triển ResNet Mô hình có tính năng bỏ qua các
kết nối đặc biệt và sử dụng nhiều tính năng chuẩn hóa hàng loạt Mạng này cũngthiếu các lớp được kết nối đầy đủ ở cuối mạng
Trong DenseNet [24], mỗi lớp có kết nói với mọi lớp khác trong mạng theocách thức chuyển tiếp Do đó, L lớp của DenseNet có kết nối trực tiếp LL + 1)/2.Kết quả là, các bản đồ đặc trưng của tat cả các lớp trước đó được sử dung làm đầuvào của lớp hiện tại và các bản đồ đặc trưng của chính nó cũng được sử dụng làmđầu vào cho tất cả các lớp tiếp theo
ExpansionNet v2[1] là một kiến trúc mới được thiết kế dé khai thác hiệu quả
số lượng phan tử tuần tự tùy ý trong việc tao chú thích hình ảnh Mô hình này sử
dụng cơ chế mở rộng, cho phép phân phối và xử lý nội dung tuần tự qua một số
lượng phan tử tăng lên hoặc tùy ý và sau đó khôi phục lại độ dài ban đầu trong quátrình hoạt động ngược lại Điều này giúp mô hình không bị giới hạn bởi số lượng
Trang 16phan tử đầu vào có định, giúp tạo ra các tổ hợp chat lượng cao hơn từ đầu vào.
(a) Hình ảnh của nhiều đối tượng: (b) Hình ảnh các loại trái cây: Cam,
Người, Chó và Ghê chanh, nho, lê và chanh
Hình 1.3: Sự hiểu biết về hình ảnh
1.1.2 Ngôn ngữ tự nhiên
Theo quan điểm của NLU, việc tạo ra văn bản bao gồm một loạt các bước.Đầu tiên, chúng ta phải biết các khía cạnh của đầu vào được gọi là lựa chọn nộidung, sau đó chúng ta cần sắp xếp nội dung phân chia bố cục logic, xác định mốiquan hệ giữa các phần và cuối cùng chúng ta cần diễn đạt nó bằng lời nói, chuyểnđổi thành ngôn ngữ tự nhiên Việc hiện thực hóa bề mặt yêu cầu từ vựng hóa cónghĩa là chọn đúng từ, tạo biểu thức tham chiếu bằng cách sử dụng các đại từ thích
hợp và sau đó kết hợp các thông tin liên quan được gọi là tổng hợp [25]
Mạng thần kinh hồi quy (RNN) [26] và Bộ nhớ dài-ngắn hạn (LSTM) [27] làhai mô hình ngôn ngữ dựa trên deep learning phé biến đã thể hiện hiệu suất tuyệt vời
trong nhiều tác vụ hiểu ngôn ngữ tự nhiên, bao gồm cả chú thích hình ảnh [13]
Trong Chú thích hình ảnh, các đặc điểm hình ảnh được trích xuất từ bộ mã hóa CNN
được cung cấp làm đầu vào cho RNN/LSTM RNN/LSTM sau đó dự đoán xác suất
của mỗi từ dựa trên các từ trước đó
Long Short-Term Memory (LSTM) là một dạng mạng nơ-ron hồi quy đượctối ưu hóa để giải quyết các vấn dé liên quan đến dữ liệu chuỗi hoặc dãy thời gian
Nồi bật với hiệu suất vượt trội so với mạng RNN truyền thống, LSTM tích hợp các
Trang 17đơn vị lưu trữ thông tin phức tạp, gọi là khối nhớ, trong lớp ẩn hồi quy của nó [14].Những khối nhớ này chứa các ô nhớ có khả năng kết nối và duy trì trạng thái thông.
tin qua thời gian Đặc biệt, các công điều khiển thông tin, bao gồm cổng nhập, công
xuất và công quên, đóng vai trò quan trọng trong việc quan lý luồng dữ liệu, giúp mô
hình có khả năng nhớ và quên thông tin một cách linh hoạt.
Một mạng khác, Đơn vị hồi quy có cổng (GRU) [28] có cấu trúc tương tựLSTM nhưng GRU có ít tham số hơn so với LSTM do thiết kế đơn giản hơn Điều
này có thể làm cho GRU dễ huấn luyện hơn trong một số trường hợp, đặc biệt là khi
dữ liệu huấn luyện ít
Chú thích 1: Ô tô
Chú thích 2: Xe nghiêng.
Hình 1.4: Sự hiểu biết ngữ nghĩa.
BLSTM [29] tính toán thông tin theo hai hường: hướng tiến và hướng lùi Chúngkết hợp thông tin bằng hai trạng thái an và có thé lưu giữ cả bối cảnh trước và sau
CNN có thé tìm hiểu cấu trúc phân cấp bên trong của các câu và chúng xử lý
nhanh hơn LSTM Do đó, gần đây, các kiến trúc tích chập được sử dụng theo trình tự
khác để sắp xếp các tác vụ
Trang 18Attention: Cơ chế chú ý [30], [31] là một trong những đột phá có giá trị nhất
trong nghiên cứu học sâu trong thập kỷ qua.
1.2 Những thách thức nghiên cứu chính
Các kỹ thuật dựa trên deep learning, đặc biệt là CNN đã đóng góp đáng kể
vào việc hiệu được hình ảnh Tuy nhiên, việc nhận dạng chính xác và chính xác các
đối tượng có trong ảnh là một trong những yêu cầu quan trọng của việc hiểu ảnh
Mặc dù có nghiên cứu rộng rãi trong lĩnh vực này, việc nhận dạng chính xác và
chính xác nhiều đối tượng vẫn là một van đề day thách thức [32]
Hau hết các phương pháp tạo chú thích hình ảnh hiện có bao gồm các kỹ thuậtdựa trên học sâu chỉ tập trung vào thực tế mô tả của một hình ảnh Trong quá trìnhhọc đặc trưng, các phương pháp này nén toàn bộ cảnh thành một biểu diễn vectơ cốđịnh Kết quả là họ thường làm mất thông tin của các đối tượng liên quan trong hiện
trường [33].
Chú thích hình ảnh vẫn là một nhiệm vụ rất khó khăn vì nó không chỉ đòi hỏiphải hiểu các đối tượng và thuộc tinh mà còn phải suy ra thông tin ngữ nghĩa cơ bản.Hình 1.4 cho thấy một vài ví dụ về sự hiểu biết ngữ nghĩa “Qua bong màu đỏ” vềmặt ngữ nghĩa có ý nghĩa hơn chỉ “Qua bóng” trong Hình1.4a Tương tự, “Tay camcuốn sách” và “Xe nghiêng” về mặt ngữ nghĩa đều đúng và có ý nghĩa đối vớiHình1.4b VàI.4c, tương ứng Bối cảnh của méi quan hệ giữa các đối tượng của hìnhảnh đóng một vai trò quan trọng trong việc hiểu ngữ nghĩa Ước tính bối cảnh phùhợp (ví dụ: quá khứ, tương lai) có thể giảm khoảng cách ngữ nghĩa giữa hình thức
trực quan và mô tả văn bản phù hợp của hình ảnh.
Các kỹ thuật tạo chú thích cho hình ảnh hiện tại sử dụng hình ảnh thực do con
người chú thích đề đào tạo và thử nghiệm, bao gồm một quy trình tốn kém và mắt thờigian Hơn nữa, ngày nay có rất nhiều nội dung bao gồm cả hình ảnh được tạo tự động,
ví dụ: đối với tin tức, minh họa, tác phẩm nghệ thuật, quảng cáo cũng như tương tácgiữa con người với máy tính và thực tế tăng cường Can phải sử dụng những hình
ảnh được tao/téng hợp này dé huấn luyện và thử nghiệm các phương pháp tạo chú
Trang 19thích cho hình ảnh Cũng cần phải tạo chú thích cho những hình ảnh như vậy.
1.3 Mục tiêu của luận văn
— Kết quả so sánh với bai báo “Automatic image caption generation using deep
learning.” [46]
- Mô hình tự tạo chú thích hình ảnh có độ chính xác tốt
~_ Ngoài ra có phần mềm hoặc ứng dụng trực tuyến cho phép người dùng tải lên hìnhảnh và tự động tạo chú thích cho hình ảnh đó Phần mềm trên thiết bị di động tạochú thích hình ảnh kết hợp Google Api text to speech giúp cải thiện nhận biết môitrường xung quanh của những người khiếm thị
Trang 20Chương 2 CƠ SỞ LÝ THUYÉT VÀ CÁC NGHIÊN CỨU LIÊN
QUAN
Chương này trình bày các kỹ thuật tạo chú thích hình ảnh dựa trên học sâu
hiện có, cùng với nền tảng, hiệu suất, điểm mạnh và hạn chế của chúng Các tập dữ
liệu và số liệu đánh giá phổ biến trong lĩnh vực này cũng được trình bày
2.1 Giới thiệu
Hàng ngày, chúng ta bắt gặp một lượng lớn hình ảnh từ nhiều nguồn khácnhau như internet, các bài báo, sơ dé tài liệu và quảng cáo Những nguồn này chứahình ảnh mà người xem sẽ phải tự giải thích Hầu hết các hình ảnh đều không có mô
tả, nhưng con người phần lớn có thể hiểu được chúng nếu không có chú thích chỉtiết Tuy nhiên, máy cần diễn giải một số dạng chú thích ảnh nếu con người cần chú
thích ảnh tự động từ nó.
Chú thích hình ảnh rất quan trọng vì nhiều lý do Ví dụ: chúng có thể được sử
dụng đê lập chỉ mục hình ảnh tự động Lập chỉ mục hình ảnh rất quan trọng đối với
Truy xuất hình ảnh dựa trên nội dung (CBIR) [2] và do đó, có thể được áp dụng chonhiều lĩnh vực, bao gồm y sinh, thương mại, giáo dục, thư viện kỹ thuật số và tìmkiếm trên web Các nền tảng truyền thông xã hội như Facebook và Twitter có thểtrực tiếp tạo mô tả từ hình ảnh Các mô tả có thể bao gồm nơi chúng ta ở (ví dụ: bãi
biên, nhà hàng, công viên, quán cà phê), chúng ta mặc gì và quan trọng là chúng ta đang làm gì ở đó.
Chú thích hình ảnh là một lĩnh vực nghiên cứu phổ biến của Trí tuệ nhân taoliên quan đến việc hiểu hình ảnh và mô tả thành ngôn ngữ tự nhiện cho hình ảnh đó
Sự hiểu biết hình ảnh cần phải phát hiện và nhận biết vật thé trong ảnh Quá trình
này cũng cần hiểu loại cảnh hoặc vị trí, thuộc tính đối tượng và sự tương tác của
chúng Việc tạo ra các câu có cấu trúc phù hợp đòi hỏi cả sự hiểu biết về cú pháp và
ngữ nghĩa của ngôn ngữ tự nhiên [34].
Việc hiéu một hình ảnh phần lớn phụ thuộc vào việc thu được các đặc điểm
Trang 21của hình ảnh Các kỹ thuật được sử dụng cho mục đích này có thể được chia thành
hai loại:
(1) Kỹ thuật dựa trên học máy truyền thống
(2) Kỹ thuật dựa trên học máy sâu.
Trong học máy truyền thống, các tính năng được tạo thủ công như LBP [16],
SIFT [18], HOG [17], và sự két hợp của các tinh năng như vậy được áp dụng mộtcách phổ biến Trong các kỹ thuật này, các tính năng được trích xuất từ đữ liệu đầuvào Sau đó, chúng được chuyển đến một bộ phân loại như SVM [35] để phân loại
một đối tượng Vì các tính năng được tạo thủ công có tính chất cụ thể cho từng
nhiệm vụ nên việc trích xuất các tính năng từ một tập hợp dữ liệu lớn và đa dạng làkhông khả thi Hơn nữa, dữ liệu trong thế giới thực như hình ảnh và video rất phức
tạp và có cách diễn giải ngữ nghĩa khác nhau
Mặt khác, trong các kỹ thuật dựa trên học sâu, các tính năng được học tự động.
từ dữ liệu huấn luyện va chúng có thé xử lý một tập hợp hình ảnh và video lớn và đa
dang Ví dụ: CNN được sử dụng rộng rãi cho việc học tinh năng và một bộ phân loại
như Softmax được sử dụng dé phân loại CNN thường được theo sau bởi Mạng thầnkinh tái phát (RNN) dé tao chú thích
Trong nhiều năm qua, một số lượng lớn các bài viết đã được xuất bản về chúthích hình ảnh với deep machine learning đang được sử dụng phô biến Các thuậttoán học sâu có thê xử lý khá tốt sự phức tạp và thách thức của việc tạo chú thích chohình ảnh Cho đến nay, có các tài liệu khảo sát [15,3,4,9, 10] đã được xuất bản về chủ
đề nghiên cứu này Mặc dù các bài báo đã trình bày một khảo sát tài liệu tốt về chú
thích hình ảnh, nhưng chúng chỉ có thể đề cập đến một số bài báo về học sâu vì phầnlớn chúng được xuất bản sau các bài khảo sát Các tài liệu khảo sát này chủ yếu thảoluận về các mô hình dựa trên mẫu, dựa trên truy xuất và rất ít mô hình tạo chú thíchhình ảnh mới dựa trên học sâu Tuy nhiên, một số lượng lớn công việc đã được thựchiện về chú thích hình ảnh dựa trên học sâu Hơn nữa, sự sẵn có của các bộ dữ liệulớn và mới đã khiến chú thích hình ảnh dựa trên việc học sâu trở thành một lĩnh vựcnghiên cứu thú vị Dé cung cắp tom tắt nội dung của tài liệu, phần này trình bày một
Trang 22cuộc khảo sát chủ yếu tập trung vào các bài viết dựa trên học sâu về chú thích hình
Feature Mapping Visual Space
Hình 2.1: Phân loại tổng thé về chứ thích hình ảnh dựa trên deep learning.[9]
Mục đích chính của phần này là cung cấp một cuộc khảo sát toàn diện về học
sâu cho chú thích hình ảnh Đầu tiên, nhóm các bài viết chú thích hình ảnh hiện có
thành ba loại chính:
(1) Chú thích hình ảnh dựa trên mẫu
(2) Chú thích hình ảnh dựa trên truy xuất
(1) Dựa trên không gian trực quan.
(2) Dựa trên không gian đa phương thức.
Trang 23(3) Học có giám sát.
(4) Học sâu khác.
(5) Chú thích chỉ tiết
(6) Dựa trên toàn cảnh.
(7) Dựa trên kiến trúc bộ mã hóa-giải mã
(8) Dựa trên kiến trúc thành phần
(9) Dựa trên mô hình ngôn ngữ.
(10) Dựa trên mô hình ngôn ngữ khác.
(11) Dựa trên sự chú ý.
(12) Dựa trên khái niệm ngữ nghĩa.
(13) Chú thích cách điệu.
(12) Chú thích hình ảnh dựa trên đối tượng
Chương này trình bày về tat cả các loại trong phần 2.3 Chương này cung cấp
tập dữ liệu và số liệu đánh giá thường được sử dụng dé đothông tin tổng quan về
lường chất lượng chú thích trong Phần 2.4 Chương này cũng trình bày và so sánh kếtquả của các phương pháp khác nhau trong Phần 2.5 Cuối cùng, tóm tắt ngắn gọn vàhướng nghiên cứu tiếp theo trong Phần 2.6 và sau đó là kết luận ở phần 2.7
2.2 _ Các mô hình chú thích hình anh
Phần này đánh giá và mô tả các loại phương pháp tạo chú thích hình ảnh
chính hiện có, bao gồm tạo chú thích dựa trên mẫu, tạo chú thích dựa trên truy xuất
và tạo chú thích mới.
Các phương pháp dựa trên khuôn mẫu sử dụng các khuôn mẫu cố định với
một số lượng ô trống nhất định đề tạo ra các chú thích Trong những cách tiếp cận
này, các đối tượng, thuộc tính, hành động khác nhau được phát hiện đầu tiên, sau đócác khoảng trống trong các khuôn mẫu được lấp đầy Chẳng hạn:
+ Trong nghiên cứu được công bó bởi Farhadi và các cộng sự [36] vào năm 2010,
Trang 24một phương pháp tiếp cận mới trong lĩnh vực Thị giác Máy tính đã được giới thiệu,dựa trên việc sử dụng một bộ ba yếu tố gồm vật thê, hành động và cảnh để tạo ra các
chú thích mô tả cho hình ảnh Các tác giả đã phát triển một hệ thống đánh giá khả
năng liên kết giữa hình ảnh và câu văn, cho phép gắn chú thích mô tả cho hình ảnh
hoặc tim kiếm hình ảnh phù hợp với câu văn đã cho Dé đánh giá hiệu qua của hệthống, hai phép đo được áp dụng:
(1) Tree-FI measure: Do lường độ chính xác và cụ thể của dự đoán dựa trên
cây phân loại.
(2) BLUE Measure: Do lường tính hợp lý logic của các cụm từ được tạo ra.
Hệ thống này cung cấp những ưu điểm nỗi bật trong việc tự động tạo ra các
mô tả chính xác và phong phú cho hình ảnh, sử dụng một biểu diễn trung gian giữa
dữ liệu hình ảnh và cấu trúc ngôn ngữ, đồng thời mở rộng vốn từ vựng thông quaviệc áp dụng ngữ nghĩa phân phối để xử lý các từ không xuất hiện trong từ điển Tuy
nhiên, hệ thông cũng gặp phải một số hạn ché: mô hình ngữ nghĩa được sử dụng cònđơn giản và có thể không thé hiện đầy đủ các ý nghĩa phức tạp trong câu văn Dénâng cao chất lượng, cần phải cải thiện khả năng nhận diện và mô tả chỉ tiết hơn, baogồm việc tích hợp các tính từ và trạng từ vào cầu trúc câu mô tả
+ Trong công trình nghiên cứu mà Li và các cộng sự công bó [37] vào năm 2011 tậptrung vào lĩnh vực Xử lý Ngôn ngữ Tự nhiên và Thị giác Máy tính để tự động tạo mô
tả hình ảnh Phương pháp dé xuất sử dung web-scale n-grams dé chọn và kết hợp cáccụm từ phù hợp, tạo ra câu mô tả hình ảnh tự nhiên Để đánh giá hiệu quả của
phương pháp hai phép đo được sử dụng:
(1) Sử dung BLEU score đê đánh giá tự động, so sánh độ chính xác của các gram trong câu mô tả do máy sinh ra so với mô tả đo con người tạo.
n-(2) Đánh giá bởi con người dựa trên sự sáng tạo, trôi chảy và liên quan của
mô tả.
Nghiên cứu này đề xuất một phương pháp mới cho việc tự động hóa việc tạo
mô tả hình ảnh, với các đặc điểm nổi bật sử dụng Web-scale N-grams để chọn lọc vàkết hợp các cụm từ, cho phép sự sáng tạo trong quá trình mô tả hình ảnh Phương
Trang 25pháp này không chỉ đơn giản mà còn hiệu quả cao, có khả năng tạo ra ngôn ngữ hấpdẫn và có thể trình bày được, đồng thời cũng cho phép viết mô tả một cách sáng tạo.
Tuy nhiên, cũng có những hạn chế như việc phụ thuộc vào dir liệu n-gram có sẵn, có
thé dẫn đến những mô tả không chính xác nếu dữ liệu n-gram không đủ mạnh về mặt
ngữ cảnh hoặc ngữ nghĩa.
Trường ngẫu nhiên có điều kiện (CRF) được Kulkarni và các cộng sự áp dụng
[38] dược công bố vào năm 2013 để suy ra các đối tượng, thuộc tính và giới từ trướckhi điền vào chỗ trống Các phương pháp dựa trên mẫu có thẻ tạo ra chú thích đúngngữ pháp Tuy nhiên, các mẫu được xác định trước và không thẻ tạo chú thích có độdai thay đổi Hơn nữa, sau này, các mô hình ngôn ngữ dựa trên phân tích cú pháp đãđược giới thiệu trong chú thích ảnh [9] mạnh hơn các phương pháp dựa trên mẫu cốđịnh Vì vậy, phần này không tập trung vào các phương pháp dựa trên các mẫu.Chú thích ảnh có thể được trích xuất từ không gian hình ảnh và không gian đaphương thức Các phương pháp dựa trên truy vấn tiếp cận vấn đề này bằng cách sửdụng một kho dữ liệu chú thích sẵn có, từ đó trích xuất chú thích phù hợp cho hìnhảnh đang được phân tích Cụ thé, hệ thống sẽ tìm kiếm trong cơ sở dữ liệu huấn
luyện để xác định các hình ảnh có đặc trưng thị giác tương đồng và lựa chọn nhữngchú thích liên quan, được gọi là “chú thích ứng viên” Chú thích cuối cùng cho hìnhảnh truy vấn sẽ được chọn lọc từ nhóm chú thích ứng viên này [9] Mặc dù cácphương pháp này có khả năng tạo ra chú thích chính xác về mặt cú pháp, chúng lạithiếu khả năng cung cấp chú thích mang tính ngữ nghĩa sâu sắc và cụ thể cho từnghình ảnh cụ thể
Chú thích mới có thể được tạo từ cả không gian trực quan và không gian đaphương thức Cách tiép cận chung của thể loại này là trước tiên phân tích nội dunghình ảnh của hình ảnh, sau đó tạo chú thích hình ảnh từ nội dung hình ảnh bằng môhình ngôn ngữ [9] Các phương pháp này có thể tạo chú thích mới cho mỗi hình ảnhchính xác hơn về mặt ngữ nghĩa so với các phương pháp trước đó Hầu hết cácphương pháp tạo chú thích mới đều sử dụng kỹ thuật dựa trên máy học sâu Do đó,
các phương pháp tạo chú thích hình ảnh mới dựa trên học sâu là trọng tâm chính
Trang 26trong chương này.
“Trong Hình 2.1 mô tả sơ đồ phân loại tổng thé của các phương pháp chú thíchảnh dựa trên học sâu Các phương pháp chú thích ảnh tạo chú thích mới chủ yếu sử
dụng không gian hình ảnh và các kỹ thuật học máy sâu Các phương pháp chú thích
ảnh dựa trên học sâu cũng có thể được phân loại dựa trên kỹ thuật học: Học có giám
sát, Học tăng cường và Học không giám sát Nhóm học tăng cường và học khong
giám sát vào nhóm "Các phương pháp học sâu khác" Thông thường, chú thích được
tạo cho toàn bộ cảnh trong ảnh Tuy nhiên, chú thích cũng có thể được tạo cho cácvùng khác nhau của ảnh (Chú thích chỉ tiết) Các phương pháp chú thích ảnh có thể
sử dụng kiến trúc Mã hóa-Giải mã đơn giản hoặc kiến trúc Thành phần Có nhữngphương pháp sử dụng cơ chế chú ý, khái niệm ngữ nghĩa và các phong cách khácnhau trong mô tả hình ảnh Một số phương pháp cũng có thể tạo ra mô tả cho các đốitượng chưa từng thấy nhóm chúng vào một loại là "Phương pháp khác" Hầu hết các
phương pháp chú thích ảnh sử dụng LSTM làm mô hình ngôn ngữ Tuy nhiên, có
một số phương pháp sử dụng các mô hình ngôn ngữ khác như CNN và RNN Do đó,bao gồm một loại dựa trên mô hình ngôn ngữ là "LSTM so với Các phương pháp
khác".
2.3 Phương pháp chú thích hình ảnh dựa trên Deep Learning
Trong Hình 2.1, Phác thảo một phân loại tông thé cho các phương pháp chúthích ảnh dựa trên học sâu Phân tích những điểm giống và khác nhau của chúngbằng cách nhóm chúng thành các loại: không gian hình ảnh vs không gian đaphương thức, chú thích chỉ tiết vs chú thích toàn cảnh, học có giám sát vs học sâukhác, kiến trúc Encoder-Decoder vs kiến trúc tổ hợp, và một nhóm "Các phươngpháp khác" bao gồm chú thích dựa trên Attention, chú thích dựa trên khái niệm ngữnghĩa, chú thích cách điệu và chú thích dựa trên đối tượng mới Ngoài ra, còn tạo ra
một nhóm phân loại "LSTM vs Các phương pháp khác".
2.3.1 Không gian trực quan so với không gian đa phương thức
Các phương pháp chú thích ảnh dựa trên học sâu có thé tao chú thích từ cả
Trang 27không gian ảnh và không gian đa phương thức Hiểu một cách dễ dàng, các tập dữ
liệu chú thích ảnh có chứa các chú thích tương ứng dưới dạng văn bản Trong các phương pháp dựa trên không gian ảnh, các đặc trưng của ảnh và chú thích tương ứng được đưa độc lập vào bộ giải mã ngôn ngữ Ngược lại, trong trường hợp không gian
đa phương thức, một không gian đa phương thức được học chung từ ảnh và văn bản
chú thích tương ứng Biểu diễn đa phương thức này sau đó được truyền vào bộ giải
Hình 2.2: Sơ đồ khói của chú thích hình anh dựa trên không gian đa phương thức [9].
Không gian thị giác: Hầu hét các phương pháp chú thích ảnh đều sử dụngkhông gian hình ảnh để tạo chú thích Các phương pháp này được trình bày trongPhan 2.3.2 đến Phan 2.3.5
Không gian đa phương thức: Kiến trúc của một phương pháp tiêu biểu dựatrên không gian đa mô thức bao gồm bón thành phần: bộ mã hóa ngôn ngữ (languageEncoder), phần xử lý anh (vision part), không gian đa phương thức (multimodalspace), và bộ giải mã ngôn ngữ (language decoder) Hình 2.2 minh họa sơ đồ tổng
thể của các phương pháp chú thích ảnh dựa trên không gian đa phương thức
Phần xử lý ảnh sử dụng mạng nơ-ron tích chập sâu (deep convolutional neuralnetwork) như một bộ trích chọn đặc trưng để trích xuất các đặc trưng của ảnh Bộ mãhóa ngôn ngữ trích xuất các đặc trưng của từ và học một vector đặc trưng dày đặc
cho mỗi từ Sau đó, nó truyền ngữ cảnh thời gian ngữ nghĩa đến các lớp lặp lại
Không gian đa phương thức ánh xạ các đặc trưng của ảnh vào một không gian chung
với các đặc trưng của từ Bản đồ kết quả sau đó được truyền đến bộ giải mã ngôn
Trang 28ngữ, tạo chú thích bằng cách giải mã bản đồ Bộ giải mã ngôn ngữ giải mã bản đồ
này đê tạo ra chú thích cho ảnh.
Các phương pháp trong danh mục này thực hiện theo các bước sau:
1 Mạng thần kinh mạng sâu và mô hình ngôn ngữ đa phương thức được sửdụng để học cả hình ảnh và văn bản cùng nhau trong một không gian đa phương
thức.
2 Phần sinh văn bản sẽ tạo chú thích bằng cách sử dụng thông tin từ Bước 1
Nghiên cứu ban dau trong lĩnh vực này được Kiros và các cộng sự [9] đề xuấtvào năm 2014, sử dụng mạng CNN để trích xuất đặc trưng hình ảnh cho việc tạo chúthích hình ảnh Công trình này đã phát triển không gian biểu diễn đa phương thứctích hợp cả hình ảnh và văn bản, qua đó biểu diễn đa phương thức và tạo chú thíchhình ảnh mà không cần đến mẫu cấu trúc hay cây cú pháp Các mô hình ngôn ngữ đa
phương thức như Modality-Biased Log-Bilinear (MLBL-B)[9] và Factored 3-way Log-Bilinear (MLBL-F) )[9] cũng được giới thiệu Phương pháp này áp dụng trong
các lĩnh vực như: Mô hình hóa ngôn ngữ tự nhiên kết hợp với dữ liệu hình ảnh, Tìmkiếm hình ảnh dựa trên truy van câu phức tạp và ngược lại, Tạo ra văn bản dựa trênhình ảnh mà không cần sử dụng mẫu cấu trúc hay cây cú pháp Đánh giá hiệu suấtcủa mô hình thông qua độ do perplexity và Bleu score, với các ưu điểm như khảnăng học đồng thời biéu diễn từ vựng và đặc trưng hình ảnh, cải thiện điểm Bleu sovới các phương pháp trước đây, và hiệu suất tốt trong việc tìm kiếm mô tả và hìnhảnh Tuy nhiên, cũng tồn tại hạn chế như sự không tương quan giữa perplexity vađiểm Bleu do biến động cao của perplexity, và khả năng mắc lỗi khi mô tả những chỉ
tiết không chính xác
Kiros và cộng sự đã công bố vào năm 2014 một mô hình ngôn ngữ mới đượcgọi là mô hình Structure-Content Neural Language (SC-NLM) [9] được sử dụng đểsinh ra chú thích hình ảnh Ưu điểm của SC-NLM so với các phương pháp hiện có làkhả năng tách riêng cấu trúc của câu khỏi nội dung do bộ mã hóa tạo ra Điều nàycũng giúp họ đạt được những cải tiến đáng kẻ trong việc tạo ra các chú thích hình
Trang 29ảnh chân thực hơn Tuy nhiên mô hình này có hạn chế về việc không tích hợp thôngtin phát hiện đối tượng dé cải thiện hiệu suất và khả năng giải thích kết qua.
Theo Karpathy va cộng sự đã đề xuất một mô hình đa phương thức sâu đượccông bố vào năm 2014, sử dụng kỹ thuật nhúng (embedding) dữ liệu hình ảnh vàngôn ngữ tự nhiên cho nhiệm vụ truy hồi ảnh và câu theo hai hướng (đáp ứng cả truyvấn từ ảnh tìm câu và truy vấn từ câu tìm ảnh) [9] Các phương pháp dựa trên đa
phương thức trước đây sử dụng một không gian nhúng chung dé trực tiếp ánh xạ
giữa ảnh và câu Tuy nhiên, phương pháp này hoạt động ở cấp độ chỉ tiết hơn, thông
qua việc tích hợp các yếu tố của hình ảnh (các đối tượng) và các thành phần của câu(quan hệ cây phụ thuộc - DTR) Phương pháp này phân tách ảnh thành các đối tượng
và câu thành các quan hệ cây phụ thuộc, sau đó tìm cách liên kết an giấu giữa cácthành phần ở hai phương thức (hình ảnh và ngôn ngữ) Thực nghiệm cho thấyphương pháp này đạt được cải thiện đáng kê trong nhiệm vụ truy hồi so với cácphương pháp trước đó Tuy nhiên, phương pháp này cũng có mội số hạn chế Trong
mô hình hóa bằng cây phụ thuộc, mặc dù các quan hệ có thê dễ đàng được biểu diễn
nhưng chúng không phải lúc nào cũng phù hợp Ví dụ, một thực thê hình ảnh duy
nhất có thể được mô tả bằng một cụm từ phức tạp, có thê được chia thành nhiều phân
đoạn câu Cụm từ "black and white dog" có thê được chia thành hai mối quan hệ
(liên kết - CONI, black, white) và (số tính sở hữu - AMOD, white, dog) Ngoài ra,
đối với nhiều quan hệ phụ thuộc, chúng ta không tìm thấy bat kỳ ánh xạ rõ rang nàotrong ảnh (ví dụ: " each other " không thé được ánh xa tới bat kỳ đối tượng nào) Và
Độ đo đánh giá được sử dụng là Recall@K và Mean rank.
Mao và cộng sự đề xuất một phương pháp Mạng nơ-ron hồi quy đa phươngthức (m-RNN) vào năm 2015 đề tạo chú thích ảnh mới [9] Phương pháp này có haimạng con: một mạng nơ-ron hồi quy sâu cho câu và một mạng tích chập sâu cho
ảnh Hai mạng con này tương tác với nhau trong một lớp đa phương thức dé tạo
thành toàn bộ mô hình m-RNN Phương pháp này nhận cả ảnh và các đoạn của câu
làm đầu vào Nó tính toán phân bó xác suất dé tạo ra từ tiếp theo của chú thích ảnh.Ngoài ra, còn có thêm năm lớp trong mô hình này: hai lớp nhúng từ, một lớp hồi
quy, một lớp đa phương thức và một lớp SoftMax Độ đo đánh giá chính của mô
Trang 30hinh m-RNN là Perplexity và BLEU scores, được sử dụng đề đánh giá mức độ chính
Mô hình m-RNN có những xác của các mô tả được tạo ra so với dit liệu tham chié
ưu điểm là khả năng tạo ra các câu mô tả mới mẻ không trùng lặp với cơ sở dữ liệu
câu văn hiện có, và hiệu suất cao trong việc truy xuất hình ảnh và câu văn Tuy nhiên
hạn chế của nghiên cứu này là dữ liệu hình ảnh và câu mô tả cần phải đủ lớn dé môhình có thể học được các đặc trưng một cách hiệu quả, và việc tỉnh chỉnh mô hìnhvới các tập dữ liệu lớn hơn vẫn còn là một thách thức Mô hình cũng cần được cảithiện bằng cách tích hợp các đặc trưng hình ảnh và câu văn mạnh mẽ hơn
Chen và cộng sự đề xuất một phương pháp khác để chú thích ảnh dựa trên
không gian đa phương thức được công bố vào năm 2015 [9] Mô hình này được áp
dụng trong lĩnh vực thị giác máy tính và xử lý ngôn ngữ tự nhiên, trực tiếp mô hình
hóa phân phối xác suất của việc tạo ra một từ dựa trên các từ trước đó và một hình
ảnh Độ đo đánh giá chính được sử dụng là Perplexity và BLEU scores để đánh giá
mô hình Ưu điểm của m-RNN bao gồm khả năng tạo ra các câu mô tả mới và thựchiện nhiệm vụ truy xuất hình ảnh hoặc câu mô tả với hiệu suất cao hơn các phươngpháp hiện tại Mô hình kết hợp một mạng nơ-ron hồi quy sâu cho câu và một mang
nơ-ron tích chập sâu cho hình ảnh, tương tác với nhau trong một lớp đa phương tiện.
Tuy nhiên, bài báo cũng chỉ ra rằng mô hình m-RNN có thể được cải thiện thêmbằng cách kết hợp các biểu diễn sâu mạnh mẽ hơn cho hình ảnh và câu Ngoài ra,một hạn chế được nhắc đến là việc sử dụng một lớp hồi quy có kích thước tương đối
nhỏ, điều này cho thấy tiềm năng cần khám phá thêm trong việc mở rộng và tối ưu
hóa mô hình.
2.3.2 Học có giám sát so với học sâu khác
Trong học máy có giám sát, dữ liệu huấn luyện đi kèm với kết quả mong muốn
được gọi là nhãn Ngược lai, học máy không giám sát xử ly dit liệu không nhãn Mạng
GAN [9] là một loại kỹ thuật học máy không giám sát Học tăng cường là một cách
tiếp cận học máy khác, nơi mục tiêu của tác nhân là khám phá dữ liệu và/hoặc nhãnthông qua quá trình khám phá và tín hiệu phản hồi Một số phương pháp mô tả hìnhảnh tự động áp dụng học tăng cường và các tiếp cận dựa trên mạng đối kháng sinh
Trang 31Các phương pháp này thuộc danh mục "Các kỹ thuật Học sâu khác”.
+ Chú thích hình ảnh dựa trên học tập được giám sát: [9] Các mạng dựa trên học có
giám sát đã được sử dụng thành công trong nhiều năm cho các tác vụ phân loại, phát
hiện đối tượng và học thuộc tính Những tiến bộ này khiến các nhà nghiên cứu quan
tâm đến việc sử dụng chúng để tự động chú thích ảnh Trong phân này, xác định đượcmột số lượng lớn các phương pháp chú thích ảnh dựa trên học có giám sát và phân
loại chúng thành các nhóm khác nhau:
(i) Kién tric Encoder-Decoder,
đi) Kiến trúc tổ hợp
(iii) Dựa trên chú ý.
(iv) Dựa trên khái niệm ngữ nghĩa
thời gian và công sức Vì vậy, trong khoảng thời gian gần đây, các nhóm nghiên cứu
đã tập trung nhiều hơn vào việc phát triển các kỹ thuật học tăng cường và học không
giám sát trong lĩnh vực chú thích tự động cho dữ liệu hình ảnh.
Một phương pháp học tăng cường được thiết kế bởi một số yếu tố như: tác nhân(agent), trạng thái (state), hành động (action), hàm phản hồi (reward function), chínhsách (policy), và giá trị (value) Tác nhân chọn hành động, nhận giá trị phản hồi và dichuyển đến một trạng thái mới Chính sách được xác định bởi các hành động và giá trịđược xác định bởi hàm phản hồi Thử khả năng cố gắng chọn hành động với kỳ vọng
có được phần phản hồi lâu dài tối đa Nó cần thông tin trạng thái và hành động liên tục
dé đảm bao cho hàm phản hồi hoạt động Các phương pháp học tăng cường truyềnthống phải đối mặt với một số hạn chế như việc thiếu đảm bảo về hàm phản hồi vàthông tin trạng thái-hành động không chắc chắn Phương pháp Policy gradient [9] là
Trang 32một loại học tăng cường có thể chọn một chính sách cụ thể cho một hành động cụ thểbằng cách sử dụng gradient descent và các kỹ thuật tối ưu hóa Chính sách có thể kếthợp kiến thức lĩnh vực cho hành động để đảm bảo hội tụ Do đó, các phương phápPolicy gradient cần ít thông số hơn so với các phương pháp dựa trên hàm phản hồi.
Hình 2.3: Sơ đồ khối của các chú thích dựa trên deep learning khác [9].
Hiện nay, các mô hình chú thích ảnh dựa trên học sâu thường sử dụng các biến
thể của bộ mã hóa hình ảnh để trích xuất đặc trưng ảnh Các đặc điểm này sau đó đượcđưa vào bộ giải mã ngôn ngữ dựa trên mạng nơ-ron dé tạo chú thích Các phươngpháp này có hai van đề chính:
() Chúng được huấn luyện bằng cách sử dụng ước lượng hợp lý tối đa (maximum
likelihood estimation) và phương pháp truyền ngược (back-propagation) [9].Trong trường hợp này, từ tiếp theo được dự đoán dựa trên hình ảnh và tat cả các từthực tế (ground-truth) đã được tạo trước đó Do đó, các chú thích được tạo ra trônggiống như các chú thích thực tế
đi) Các số liệu đánh giá tai thời điểm kiểm tra không thé phân biệt được Lý tưởngnhất, Các mô hình trình tự lý tưởng nhất cho chú thích hình ảnh nên được đào tạo
dé tránh sai lệch exposure bias và tối ưu hóa trực tiếp các số liệu trong thời gian
thực nghiệm.
Trang 33Kiến trúc tiêu biểu của phương pháp mô tả ảnh dựa trên học tăng cường sử
dụng hai mô hình mạng:
(i) mạng chính sách (policy network)
(ii) mang giá tri (value network).
Mang giá trị có thể được sử dung dé ước tính phần phản hồi tương lai dự kiến
để huấn luyện mạng chính sách Các mô hình chú thích ảnh dựa trên học tăng cườnglay mẫu ký hiệu tiếp theo từ mô hình dựa trên phan phản hồi chúng nhận được ở mỗitrạng thái Các phương pháp policy gradient trong học tăng cường có thể tối ưu hóagradient để dự đoán tổng phần phản hồi dài hạn Do đó, có thể giải quyết vấn đềkhông thể phân biệt được của các số liệu đánh giá
Các phương pháp trong nhóm này thực hiện theo các bước sau:
1 Một mạng kết hợp dựa trên CNN và RNN tạo ra chú thích ảnh
2 Một mạng khác dựa trên CNN-RNN đánh giá chú thích và gửi phản hồi đếnmang dau tiên dé tạo ra chú thích chất lượng cao
Biểu đồ khối của một phương pháp tiêu biểu trong nhóm này được trình bày trong
Hình 2.3.
Năm 2017, Ren và cộng sự đã đề xuất một phương pháp mới cho việc chú thíchảnh dựa trên kỹ thuật học tăng cường [9] Kiến trúc của phương pháp này có hai mạnglưới cùng nhau tính toán từ tốt nhất tiếp theo ở mỗi bước thời gian Policy Networkhoạt động như định hướng cục bộ, giúp dự đoán từ tiếp theo dựa trên trạng thái hiện
tại Value Network hoạt động như định hướng toàn cục, đánh giá giá trị phần phản hồi
bằng cách xem xét tắt cả các mở rộng có thể có của trạng thái hiện tại Các độ đo đánh
giá được sử dụng bao gdm BLEU, Meteor, Rouge-L, và CIDEr Kết quả thử nghiệmcho thấy phương pháp này vượt trội so với các phương pháp tiên tiến khác trên bộ dữliệu Microsoft COCO Tuy nhiên, Bài báo không rõ ràng chỉ ra hạn chế cụ thể củaphương pháp, nhưng có thể suy luận rằng việc sử dụng DRL có thể phức tạp và đòihỏi nhiều tài nguyên tính toán Cũng có thể có những thách thức liên quan đến việc tối
ưu hóa và điều chỉnh tham số cho mô hình để đạt được kết quả tốt nhất trên các độ đo
Trang 34đánh giá khác nhau.
Rennie và cộng sự đề xuất một phương pháp khác về chú thích ảnh dựa vào kỹ
thuật học tăng cường vào năm 2017 Phương pháp này sử dụng thuật toán suy luận
thời gian kiểm tra dé chuẩn hóa phan phản hồi thay vì ước tính tín hiệu phan phản hồi
và chuẩn hóa trong thời gian đào tạo Phương pháp cho thấy giải mã thời gian kiểmtra này có hiệu quả cao trong việc tạo chú thích ảnh chất lượng [9] Độ đo đánh giáchính được sử dụng là CIDEr Ưu điểm của phương pháp này là khả năng tối ưu hóa
trực tiếp các chỉ số đánh giá không khả vi (non-differentiable) thông qua việc sử dụng
kỹ thuật từ học tăng cường, phương pháp Self-critical Sequence Training (SCST) giúp
giảm thiểu sự chênh lệch giữa quá trình huấn luyện và thử nghiệm, cung cấp cơ sở để
mô hình có thể tự đánh giá và điều chỉnh dựa trên kết quả của chính mô hình Tuynhiên bài báo không đề cập rõ ràng về các hạn chế cụ thể của phương pháp SCST,nhưng có thể suy đoán rằng như mọi phương pháp học máy, nó có thể phụ thuộc vàochất lượng và đa dạng của dữ liệu huấn luyện và cần thêm nghiên cứu để xác địnhhiệu quả của SCST trên các tập dữ liệu khác ngoài MSCOCO và trong các tình huốngthực tế khác nhau
Zhang và cộng sự đã đề xuất một phương pháp chú thích hình ảnh dựa trên họctập tăng cường actor-critic được công bồ vào năm 2017 Phương pháp nay có thẻ tối
ưu hóa trực tiếp các vấn đề không khác biệt của các số liệu đánh giá hiện có Kiếntrúc của phương pháp actor-critic bao gồm mạng chính sách và mạng giá trị Tác nhân
xử lý công việc như một vấn đề quyết định tuần tự và có thể dự đoán mã thông báotiếp theo của chuỗi Ở mỗi trạng thái của trình tự, mạng sẽ nhận được phần thưởngdành riêng cho nhiệm vụ (trong trường hợp này là điểm số liệu đánh giá) Công việc
của mạng giá trị là dự đoán phan phản hồi Nếu có thé dự đoán phần phản hồi mongđợi, tác nhân sẽ tiếp tục lấy mẫu đầu ra theo phân bố xác suất của nó [9] CIDEr là độ
đo chính được nhấn mạnh trong nghiên cứu Ưu điểm của phương pháp actor-criticcho phép tính toán lợi ích và giá trị cho mỗi token, dẫn đến viéc huấn luyện mô hìnhhiệu quả hơn Bài báo không nêu rõ hạn chế cụ thể của mô hình, nhưng một hạn chếtiềm ẩn có thé là chi phí tinh toán cao do sử dung học tăng cường và khả năng tổngquát hóa khi áp dụng cho các tình huống khác ngoài bộ dữ liệu được hudn luyện
Các phương pháp dựa trên GAN có thê tìm hiêu các tính năng sâu từ dữ liệu
Trang 35chưa được gắn nhãn Họ đạt được biểu diễn này bằng cách áp dụng quy trình cạnh
tranh giữa một cặp mạng: Trình tạo và Trình phân biệt GAN đã được sử dụng thành
công trong nhiều ứng dụng, bao gồm cả chú thích hình ảnh, dịch hình ảnh sang hìnhảnh, tổng hợp văn bản thành hình ảnh và tạo văn bản [9]
Mạng GAN gặp phải hai vấn đề chính Thứ nhất, GAN hoạt động hiệu quảtrong việc tạo ảnh tự nhiên từ ảnh thật vì nó được thiết kế cho dữ liệu có giá trị thực.Tuy nhiên, xử lý văn bản dựa trên các số rời rạc Do đó, các phép toán này không thểtính đạo hàm (non-differentiable), khiến việc áp dụng back-propagation (truyền
ngược) trực tiếp trở nên khó khăn Gradient policy sử dụng một hàm tham số để chophép truyền ngược các gradient Thứ hai, bộ đánh giá (evaluator) gặp phải vấn đề về
gradient biến mat và truyền lan lỗi đối với việc tạo chuỗi Nó cần một giá trị phần phản hồi tương lai có thể xảy ra cho mỗi mô tả một phan Monte Carlo rollouts (Mô
phỏng Monte Carlo) được sử dung để tính toán giá trị phần phản hồi tương lai này [9]
O-Tage Understanding Pat
Hình 2.4: Một so đồ khối của chú thích chi tiét.[9]
Các phương pháp sử dụng GAN trong chú thích ảnh có khả năng sinh ra nhiềubiểu đạt chú thích đa dạng cho một bức ảnh, điều này tương phản với các mô hình chúthích ảnh truyền thống, những mô hình này thường dựa vào Mạng Nơ-ron Tích chập
Sâu (CNN) và Mạng Nơ-ron Hồi quy (RNN) Dai và cộng su cũng đề xuất một
phương pháp chú thích ảnh dựa trên GAN duoc công bố vào năm 2017 Tuy nhiên,phương pháp của họ không tính đến việc tạo ra nhiều chú thích cho cùng một hình
ảnh Shetty và cộng sự đã giới thiệu một phương pháp chú thích ảnh dựa trên GAN
Trang 36mới được công bố vào năm 2017 Phương pháp này có thể tạo ra nhiều chú thích chomột hình ảnh và cho thấy những cải tiến ấn tượng trong việc tạo ra các chú thích đa
đạng [9].
GAN có hạn chế trong việc truyền ngược (backpropagation) dữ liệu rời rạc.Phương pháp lấy mẫu Gumbel được sử dụng dé khắc phục van dé dữ liệu rời rac Haithành phần chính của mạng đối kháng này là bộ tạo (generator) và bộ phân biệt(discriminator) Trong quá trình huấn luyện, bộ tạo học giá trị mat mát từ bộ phân biệt
thay vì học từ các nguồn rõ ràng Bộ phân biệt có phân bé dữ liệu thực và có thể phânbiệt giữa các mẫu do bộ tạo tạo và các mẫu dữ liệu thực Điều này cho phép mạng họcđược phân bố dữ liệu đa dạng Hơn nữa, mạng lưới phân loại các tập chú thích đượctạo ra là thật hoặc giả Do đó, nó có thể tạo ra các chú thích tương tự như chú thích do
con người tạo ra.
2.3.3 Chú thích chỉ tiết so với chú thích cho toàn cảnh
Trong chú thích chỉ tiết, chú thích được tạo cho từng vùng của cảnh Các
phương pháp khác tạo chú thích cho toàn bộ cảnh.
a) Chú thích chỉ tiết
Các phương pháp trước đây dé chú thích hình ảnh chỉ có thé tạo ra một chúthích cho toàn bộ hình ảnh Họ sử dụng các vùng khác nhau của hình ảnh để thu thậpthông tin về các đối tượng khác nhau Tuy nhiên, những phương pháp này không tạo
ra các chú thích theo vùng.
Johnson và cộng sự đã đưa ra một kỹ thuật mô ta ảnh tiên tiến có tên là
DenseCap công bố năm 2016 Phương pháp này định vị tat cả các vùng nổi bật của
một hình ảnh và sau đó tạo ra các mô tả cho những vùng đó [10].
Một phương pháp điển hình của phương pháp này có các bước sau:
(1) Đề xuất vùng được tạo cho các vùng khác nhau của hình ảnh nhất định
(2) CNN được sử dụng để thu được các đặc điêm hình ảnh dựa trên vùng
(3) Kết quả dau ra của Bước 2 được mô hình ngôn ngữ sử dụng dé tao chú thịch
cho mọi khu vực.
Sơ đồ khối của mô hình tạo chú thích chỉ tiết điển hình được đưa ra trong Hình 2.4
Trang 37CNN LSTM Generated
nt Imag: >| › >
inp = Captions
Image Text Generation
Understanding Part Part
Hình 2.5: Sơ đồ khối của chú thích anh dựa trên kiến trúc Bộ mã hóa-Giải ma don gian.[9]
Dense Captioning đề xuất một kiến trúc mạng nơ-ron tích chập đầy đủ, baogồm một mạng tích chập, một lớp vùng chỉ tiết và một mô hình ngôn ngữ LSTM [12].Lớp vùng chỉ tiết xử lý một hình ảnh thông qua một lượt đi chuyển tiếp duy nhất vàhiệu quả, mà ngầm dự đoán một tập hợp các vùng đáng chú ý trong hình ảnh Đặc biệttập trung vào việc phát triển hệ thông có khả năng cả xác định vị trí và mô tả các khuvực quan trọng trong hình ảnh bằng ngôn ngữ tự nhiên Độ đo đánh giá được sử dụng
trong nghiên cứu này bao gồm độ chính xác trung bình (AP) và điểm s6 METEOR déđánh giá cả khả năng định vị và chất lượng mô tả ngôn ngữ Ưu điểm của mô hìnhFCLN (Fully Convolutional Localization Network) là khả năng huấn luyện đầu cuối
và hiệu suất thời gian thực cao, cùng với đó là việc không yêu cầu các đề xuất vùngngoại vi và có thể được tối ưu hóa chỉ với một lần tối ưu hóa Nghiên cứu có nhữnghạn chế nhất định, bao gồm giả định về các khu vực đề xuất hình chữ nhật và việc sửdụng NMS (Non-Maximum Suppression) tại thời điểm kiểm tra thay vì một lớp kiềmchế không gian (spatial suppression layer) có thê huấn luyện được
Yang và cộng sự đã đề xuất một phương pháp mô tả chỉ tiết khác và công bốnăm 2016 [9] Phương pháp này có khả năng giải quyết các thách thức của Dense
Captioning như khi các vùng là dày đặc, một đối tượng có thé có nhiều vùng quan tâmchồng chéo Hơn nữa, rất khó dé nhận diện mỗi vùng mục tiêu cho tat cả các kháiniệm hình ảnh Đầu tiên, nó giải quyết một cơ chế suy luận phụ thuộc vào cùng mộtlúc vào các đặc điểm hình ảnh của vùng và các chú thích dự đoán cho vùng đó Điều
này cho phép mô hình tìm ra một vị trí phù hợp của khu vục giới hạn Thứ hai, họ áp
dụng một phương pháp hợp nhất ngữ cảnh có thể kết hợp các đặc điểm ngữ cảnh với
các đặc điểm hình ảnh của các vùng tương ứng để cung cấp một mô tả ngữ nghĩa
phong phú.
b) Chú thích cho toàn cảnh
Các mô hình tạo chú thích hình ảnh dựa trên mạng CNN như kiến trúc
Trang 38Encoder-Decoder, kiến trúc thành phan, sử dụng Attention, dựa trên khái niệm ngữ
nghĩa, chú thích theo phong cách, chú thích ảnh dựa trên vật thé mới và các phươngpháp khác có thể tạo ra một hoặc nhiều chú thích cho toàn bộ khung cảnh
2.3.4 Kiến trúc bộ mã hóa-giải mã so với kiến trúc thành phan
Một số phương pháp chỉ dùng bộ mã hóa và bộ sgiải mã đơn giản đề tạo chúthích ảnh Tuy nhiên, các phương pháp khác lại sử dụng nhiều mạng lưới cho việc
này.
a) Chú thích hình ảnh dựa trên kiến trúc bộ mã hóa-giải mã
Các phương pháp chú thích ảnh dựa trên mạng nơ-ron hoạt động theo phương
thức đầu cuối đơn giản Chúng rất giống với khung mã hóa-giải mã được sử dụngtrong dịch máy Trong mạng này, các đặc trưng toàn cục của ảnh được trích xuất từcác kích hoạt dn của CNN và sau đó được đưa vào LSTM dé tao ra một chuỗi các từ
[13].
Một phương pháp tiêu biểu của loại này có các bước tổng quát sau:
(1) Sử dụng một mạng CNN đơn giản để trích xuất loại cảnh, nhằm xác địnhcác thực thể và quan hệ tương tác giữa chúng
(2) Đầu ra của Bước | được sử dụng bởi một mô hình ngôn ngữ để chuyểnchúng thành các từ, các cụm từ được kết hợp dé tạo thành chú thích ảnh
Biểu đồ khối đơn giản của loại này được minh họa trong Hình 2.5
Vinyals và cộng sự đã đề xuất một phương pháp gọi là Trình tạo chú thích hìnhảnh thần kinh (Neural Image Caption Generator - NIC) công bố vào năm 2015 [10].Phương pháp này sử dụng CNN dé biểu diễn hình ảnh và LSTM để tạo chú thích chohình ảnh CNN đặc biệt này sử dụng một phương pháp mới đề chuẩn hóa hàng loạt và
đầu ra của lớp CNN ẩn cuối cùng được sử dụng làm đầu vào cho bộ giải mã LSTM.LSTM này có khả năng theo dõi các đối tượng đã được mô tả bằng văn bản NICđược đào tạo dựa trên ước tính khả năng tối đa (maximum likelihood estimation)
Khi tạo chú thích hình ảnh, thông tin hình ảnh được đưa vào trạng thái ban
đầu của LSTM Các từ tiếp theo được tạo dựa trên bước thời gian hiện tại và trạngthái ẩn trước đó Quá trình nay sẽ được duy trì cho đến khi mã thông báo kết thúc câu
Trang 39được xác định Vì thông tin hình ảnh chỉ được cung cấp khi bắt đầu quá trình nên nó
có thể gặp phải vấn đề biến mat độ dốc Vai trò của những từ được tạo ra lúc đầu
cũng ngày càng yếu đi Vì vậy, LSTM van dang gặp khó khăn trong việc tao ra các
câu dài [10] Vì vay, Jia và cộng sự đã dé xuất một phần mở rộng của LSTM được
gọi là LSTM có hướng dẫn (gLSTM) công bố năm 2015 [9] gLSTM này có thể tạo
ra các câu dài Mục tiêu của nghiên cứu là cải thiện khả năng sinh chú thích ảnh sao
cho chặt chẽ hơn với nội dung của ảnh bằng cách thêm thông tin ngữ nghĩa rút ra từảnh vào từng đơn vị của khối LSTM Sử dụng các độ đo như BLEU và METEOR déđánh giá chất lượng của các tựa ảnh được sinh ra, so sánh với tựa ảnh tham chiếu docon người tạo gLSTM đề xuất có khả năng hướng dẫn quá trình sinh chú thích ảnh
bằng cách thêm thông tin ngữ nghĩa, giúp mô hình tập trung hơn vào nội dung của
ảnh Tuy nhiên hạn chế gLSTM là việc mô hình có thể sinh ra các mô tả không chính
xác khi thông tin ngữ nghĩa không hoàn toàn phù hợp với hình ảnh.
Mao và cộng sự đề xuất một loại phương pháp tạo văn bản đặc biệt cho hình ảnhcông bố năm 2016 Phương pháp này có thé tạo ra mô tả cho một đối tượng hoặc vùng
cụ thể được gọi là biểu thức tham chiếu [9] Bang cách sử dung biêu thức nay, nó có
thê suy ra đối tượng hoặc vùng đang được mô tả Do đó, mô tả hoặc biểu thức được
tạo ra khá rõ ràng Đề giải quyết biểu thức giới thiệu, phương pháp này áp dụng một
tập dữ liệu mới mang tên Referlt, được xây dựng dựa trên tập dữ liệu phổ biến MS
COCO [9].
Một số ưu điểm phương pháp này:
(1) Phương pháp này có lợi thế hơn so với việc tạo chú thích hình ảnh chungchung vì nó yêu cầu mô tả chỉ tiết hon và do đó có thé hữu ích hơn
(2) Có khả năng được huấn luyện theo cách bán giám sát, tự động tạo mô tả
cho các khu vực hình ảnh.
(3) Mô hình kết hợp mạng nơ-ron tích chập (CNN) với mạng nơ-ron hồi quy(RNN) để xử lý hình ảnh và văn bản thực tế
Bên cạnh đó, phương pháp này cũng có những hạn chế:
(1) Việc thu thập dữ liệu biểu thức chỉ định có thể tốn kém và thời gian
(2) Mô hình có thể không xử lý tốt khi đối tượng được mô tả không hiện diện
Trang 40trong hình ảnh hoặc quá nhỏ dé phát hiện.
(3) Cần có dữ liệu huấn luyện đủ lớn dé mô hình có thé học cách phân biệt chínhxác giữa các đối tượng tương tự nhau
Các phương pháp tạo chú thích hình ảnh dựa trên CNN-RNN trước đây sử dung
LSTM một chiều và được sử dụng có số lớp tương đối ít, làm hạn chế khả năng họccác đặc trưng phức tạp của ảnh Trong kỹ thuật tạo ngôn ngữ một chiều, từ tiếp theođược dự đoán dựa trên ngữ cảnh trực quan và tat cả ngữ cảnh văn bản trước đó LSTMđơn hướng không thể tạo theo ngữ cảnh chú thích được hình thành tốt Hơn nữa, cácphương pháp phát hiện và phân loại đối tượng gần đây cho thấy rằng các phươngpháp phân cp, sâu có hiệu quả học tập tốt hon các phương pháp nông hơn [9] Vương
và cộng sự đã để xuất một phương pháp dựa trên LSTM hai chiều sâu để tạo chú thíchcho hình ảnh công bố năm 2016 Phương pháp này có khả năng tạo chú thích hình ảnhphong phú về ngữ cảnh và ngữ nghĩa Kiến trúc đề xuất hợp một mạng CNN với hai
mạng LSTM độc lập Có khả năng tích hợp thông tin ngữ cảnh từ quá khứ và tương
lai để phân tích sâu các tương tác kéo dài giữa ngôn ngữ và hình ảnh [9]
b) Chú thích hình ảnh dựa trên kiến trúc bố cục
Phương pháp dựa trên kiến trúc cầu thành gồm một số khói xây dựng chức năngđộc lập: một mang CNN được áp dung dau tiên dé trích xuất thông tin ngữ nghĩa từhình ảnh Sau đó, một mô hình ngôn ngữ được sử dụng để tạo ra một tập hợp các chú
thích ứng viên Mô hình tương đồng đa dạng sâu được áp dụng đề sắp xếp chú thích
ứng viên trong quá trình tạo chú thích cuối cùng
Caption
Input Image | +| L-+} Visual Conss| Là Renddg L | Final Captions
Tage Text
Understanding Part Generation Part
Hình 2.6: Sơ đồ khối của chú thích dựa trên mạng tổng hợp [9].
Một phương pháp điền hình trong loại này bao gồm các bước sau đây:
1 Trích xuất đặc trưng hình ảnh bằng cách sử dụng một mạng CNN