Luận văn thạc sĩ Công nghệ thông tin: Xây dựng mô hình mạng học sâu để tự động tạo chú thích hình ảnh

Hệ thống này cung cấp những ưu điểm nỗi bật trong việc tự động tạo ra các mô tả chính xác và phong phú cho hình ảnh, sử dụng một biểu diễn trung gian giữa dữ liệu hình ảnh và cấu trúc ng

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRUONG ĐẠI HỌC CONG NGHỆ THONG TIN

BOK CR

Duong Quang Sinh

XAY DUNG MO HINH MANG HOC SAU DE TU

DONG TAO CHU THICH HINH ANH

LUẬN VAN THẠC SĨNGÀNH: CÔNG NGHỆ THÔNG TIN

Mã số: 8480201

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

Trang 3

Lời cam đoan

Tôi cam đoan luận văn được thực hiện dưới sự hướng dẫn của TS Cao Thị Nhạn Các

số liệu, kết quả kiểm tra dữ liệu kiểm thử trong luận văn là trung thực và chưa từngđược ai công bố trong bất kỳ công trình nào khác Những tài liệu tham khảo từ cáccông trình liên quan đều được trích dẫn nguồn gốc rõ ràng trong phần tài liệu thamkhảo Tất cả các kết quả thử nghiệm của luận văn đều được thử nghiệm thực tế

Dương Quang Sinh

Trang 4

LỜI CẢM ƠN

Lời đầu tiên em xin gửi lời cảm ơn đến toàn thể các giảng viên trong Khoa Khoa học

và Kỹ thuật Thông tin - Trường Đại học Công Nghệ Thông Tin - Đại học Quốc gia

TP Hồ Chí Minh đã truyền đạt kiến thức và định hướng nghiên cứu cho em trong thời

gian em học tập tại Trường.

Em xin gửi lời cảm ơn đến các cán bộ phụ trách thuộc Khoa Khoa học và Kỹ thuật

Thông tin đào tạo sau đại học, những người đã quản lý, tư vấn và hỗ trợ em trong quá

trình học tập cũng như làm luận văn.

Em xin gửi lời cảm ơn sé đến TS Cao Thị Nhạn, Cô đã trực tiếp tận tình hướngdẫn, tạo mọi điều kiện thuận lợi cho em trong suốt thời gian làm luận văn tốt nghiệp

Cuối cùng, Em xin gửi lời cảm ơn đến bạn bè, đồng nghiệp cũng như gia đình luôn tạođiều kiện đê em hoàn thành luận văn

Tuy nhiên, do thời gian hạn hẹp, mặc dù đã nỗ lực hết sức mình nhưng chắc rằng luậnvăn này khó tránh khỏi những thiếu sót Em rất mong nhận được sự chia sẽ, đóng góp

ý kiên của giảng viên và các bạn.

Tp Hồ Chí Minh, Ngày 22 tháng 06 năm 2024

Học viên

2

fie “

|

Trang 5

1.3 Mục tiêu của luận văn

Chương 2 _ CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

2.1 Giới thiệu

2.2 Các mô hình chú thích hình ảnh

2.3 Phương pháp chú thích hình ảnh dựa trên Deep Learning

2.3.1 Không gian trực quan so với không gian đa phương thức

2.3.2 Học có giám sát so với học sâu khác

2.3.3 Chú thích chỉ tiết so với chú thích cho toàn cảnh

2.3.4 Kiến trúc bộ mã hóa-giải mã so với kiến trúc thành phẩn

Trang 6

3.2.3 Quy trình huấn luyện.

3.2.4 Các chỉ số đánh giá được sử dụng dé đo lường hiệu quả mô hình 63

3.3 Thực nghiệm và kết qua

Chương 4 ỨNG DỤNG

4.1 Tích hợp tạo chú ảnh tự động cho Pixelfed

4.2 Ứng dụng trên thiết bị di động Android:

Chương 5 KẾT LUẬN VA HƯỚNG PHÁT TRIỂN

5.1 Kếtluận

5.2 Hướng phát triển

TAI LIEU THAM KHẢO

Trang 7

DANH MỤC CÁC Ki HIỆU VÀ CHỮ VIET TAT

LSTM: Long Short Term Memory

CNN: Convolutional Neural Network

NLP: Natural Language Processing

NLU: Natural Language Understanding

RNN: Recurrent neural network

GRU: Gated recurrent unit

BLSTM: Bidirectional Long Short-Term Memory

CBIR: Content-Based Image Retrieval

AI: Artificial intelligence

LBP: Local Binary Pattern

SIFT: Scale-invariant Feature Transform

HOG: Histogram of Oriented Gradients

SVM: Support Vector Machines

GAN: Generative Adversarial Networks

R-CNN: Region-based Convolutional Neural Network

EDA: Encoder-Decoder Architecture

CA: Compositional Architecture

Trang 8

Bang 3.3 Ví dụ về chú thích tập dữ liệu Flickr8K - - 68

Bang 3.4 Thời gian huấn luyện trên 3 tập dữ liệu -2 2¿z22zz+c++zc++z+z 69Bảng 3.5 Kết quả của các bộ dữ ligu

Bang 3.6 Bảng so sánh đo lường bộ dữ liệu MSCOCO

Bảng 3.7 Bang so sánh đo lường bộ dữ liệu Flickr8K

Bảng 3.8 Ví dụ kết quả chứ thích :-22:222222S222232222E2222E22EEvvrrrrrrrrrr 72

Bang 3.9 Ví dụ vài chú thích chưa tỐC - 2-22 22¿©5+22++22++2EEt2Exerxrsrxerrrrrrr 73Bang 3.10 Ví dụ về chú thích hình ảnh lấy từ internet ¿ z-cs55z:+ 74

Trang 9

DANH MỤC CÁC HÌNH VE

Hình 1.1: Ví dụ về một số hình ảnh có chú thích mẫu -¿- 25+ 7

Hình 1.2: Ứng dụng tạo chú thích cho hình ảnh ¿+5 + 5< sx+sc++xeecsx 8Hình 1.3: Sự hiểu biết về hình anh ceccccseecseesseesssessseessessseessesssessseesseesseesseees 10

Hình 1.4: Sự hiểu biết ngữ nghĩa -cc tt 2 tttrtttrrrrrrrrrrrrrrrrrer 11

Hình 2.1: Phân loại tổng thé về chú thích hình ảnh dựa trên deep learning

Hình 2.2: Sơ đồ khối của chú thích hình ảnh dựa trên không gian đa phương thức 21

Hình 2.3: Sơ đồ khối của các chú thích dựa trên deep learning khác 26

Hình 2.4: Một sơ dé khối của chú thích chỉ tiết

Hình 2.5: Sơ đồ khối của chú thích hình ảnh dựa trên kiến trúc Bộ mã hóa-Giải mã

đơn giản

Hình 2.6: Sơ đồ khối của chú thích dựa trên mạng tổng hợp

Hình 2.7: Sơ đồ khối của phương pháp chú ý ảnh đặc trưng chú thích hình ảnh 38Hình 2.8: Sơ đồ khối của chú thích ảnh dựa trên khái niệm ngữ nghia

Hình 2.9: Sơ đồ khối của chú thích hình ảnh dựa trên đối tượng mới điền hình 45

Hình 2.10: Sơ đồ khối chú thích hình ảnh dựa trên các phương pháp khác nhau 47Hình 3.1: Ví dụ và sơ đồ Mở rộng tĩnh và Mở rộng động tự động hồi quy 59

Hình 3.2: Kiến trúc ExpansionNet v2 cccsssscsssesssseesssnesessecessnecesneeeesnesesnnesesnneees 62

Hình 4.1: Workflow diagram tạo chú thích tích hợp cho Pixelfedss T1 Hình.4.2: Trang chủ ::::.:.::-::::-:c::::::c:c2ccc22<c22221212221222225222221212532312222522s53 78

Trang 11

MO DAU

Tao mô tả cho hình ảnh được gọi là chú thích hình ảnh Chú thích hình ảnh là

một nhiệm vụ day thách thức vì nó liên quan đến sự hiểu biết về các thực thé, thuộctính và mối quan hệ của chúng trong một hình ảnh Nó cũng liên quan đến việc tạo ra

các mô tả có ý nghĩa về mặt cú pháp và ngữ nghĩa của hình ảnh bằng ngôn ngữ tựnhiên Quy trình chú thích hình ảnh điền hình bao gồm bộ mã hóa hình ảnh và bộ giải

mã ngôn ngữ Mạng nơ-ron tích chập (CNN) thường được áp dụng như một bộ mã

hóa, trong khi mạng Long Short-Term Memory (LSTM) đóng vai trò bộ giải mã Cả

LSTM và CNN đều tích hợp cơ chế chú ý, giúp sinh ra các chú thích đầy đủ ý nghĩa

và chính xác Luận văn này dé cập đến việc áp dụng các phương pháp tiên tiến trongviệc tạo chú thích cho hình ảnh, nhằm mục tiêu sinh ra những chú thích có giá trị cao

về mặt ngữ nghĩa và vượt trội về chất lượng thông tin

Trang 12

Chương 1 GIỚI THIỆU

Hàng ngày chúng ta tiếp xúc với vô số những hình ảnh qua nhiều phương tiệnkhác nhau như: Internet, các bài báo, sơ đồ tài liệu và quảng cáo Con người thường

dễ dàng giải thích những hình ảnh này và diễn giải những hình ảnh này thành ngôn

ngữ văn bản Tuy nhiên, đối với máy móc, việc tạo ra mô tả văn bản cho hình ảnh đòihỏi sự hiểu biết về ngữ nghĩa và ngữ cảnh của hình ảnh Mục tiêu lâu dài trong lĩnh

vực Trí tuệ nhân tạo là cho phép máy móc nhìn và hiểu được hình ảnh xung quanh

chúng ta [11].

1.1 Tổng quan về chú thích hình ảnh

Tạo chú thích hình ảnh là nhiệm vụ tự động tạo mô tả cho hình ảnh Việc này

liên quan đến sự hiểu biết về ngữ nghĩa của hình ảnh, đòi hỏi sự hiểu biết về các đốitượng chính, các thuộc tính, tư thế khác nhau và sự tương tác của chúng trong mộthình ảnh Mô hình tạo chú thích hình ảnh cần suy ra những ý nghĩa ngữ nghĩa cơ bản

để tạo ra những chú thích có ý nghĩa [12] Hình 1.1 hiên thị một vài hình anh với chúthích Những dòng chú thích “Một vài đứa trẻ đi đạo với những chiếc ô đầy màu sắc”,

“Một con chim màu xanh lá cây đậu trên cành cây” và “Một người đàn ông mặc đồng

phục bóng đá đang chơi bóng trên sân” là những chú thích cho các hình ảnh trong Hinh1.1 (a), (b) và (c), tương ứng.

Chú thích hình ảnh rất quan trọng vì nhiều lý do Ví dụ: chú thích hình ảnh tựđộng có thể hữu ich dé hỗ trợ người khiếm thi, phát triển công cụ tìm kiếm hình ảnh.Các nền tảng mạng xã hội như Facebook và Twitter có thể trực tiếp tạo mô tả từ hìnhảnh, nơi chúng ta ở (công viên, bãi biển, nhà hàng, quán cà phê), chúng ta mặc gì và

quan trọng là chúng ta đang làm gì ở đó [13] Chú thích hình ảnh cũng có thể được sử

dụng để tóm tat sự kiện Một số ví dụ về ứng dụng của chú thích ảnh được đưa ratrong Hình 1.2, cho thấy chú thích có thé hữu ích trong (a) mô tả cảnh cho người

khiếm thị, (b) tương tác giữa người và robot và (c) truy xuất hình ảnh dựa trên văn

bản.

Trang 13

Chú thích hình ảnh là một lĩnh vực nghiên cứu quan trọng Việc tạo chú thích

hình ảnh tự động yêu cầu cả sự hiểu biết về hình ảnh và mô tả ngôn ngữ cho hình ảnh

đó Hình ảnh là một vấn đề cốt lõi của Thị giác máy tính Mô tả ngôn ngữ là một phầncủa Hiểu ngôn ngữ tự nhiên (NLU) [15] Khung chú thích hình ảnh điền hình bao gồm

bộ mã hóa hình ảnh dé tìm hiéu các tinh năng từ hình ảnh và bộ giải mã ngôn ngữ dé

tạo chú thích cho hình ảnh đó.

(a) Một vài đứa trẻ đi dạo _ (b) Một con chim màu xanh _ (c) Một người đàn ông

với những chiếc ô đầy màu _ lá cây đậu trên cành cây _ mặc đồng phục bóng đá

sắc đang chơi bóng trên sân

Hình 1.1: Ví dụ về một số hình ảnh có chú thích mẫu

1.1.1 Đặc Điểm từ Hình Ảnh

Thi giác máy tính là khả năng của máy móc dé “nhìn” và “hiểu” hình ảnh tương

tự như con người Lĩnh vực này có tắt cả các phương pháp đề trích xuất thông tin cầnthiết từ hình ảnh Một lượng lớn nghiên cứu được thực hiện trong lĩnh vực thị giác máytính; đặc biệt là trong việc nhận diện hình ảnh và hiểu hình ảnh Nhận diện hình ảnhliên quan đến việc xác định, định vị và phân loại các đối tượng của hình ảnh Sự hiểubiết trực quan đòi hỏi phải nhận dạng đối tượng cũng như trích xuất chỉ tiết đầy đủ

của từng đối tượng và mối quan hệ liên quan của chúng Hình 1.3 thể hiện một số ví

dụ về hiểu ảnh Hình 1.3(a) có ba đối tượng chính như Người, Chó, và Ghế, và Hình

1.3(b) chứa các loại hoa quả khác nhau như Cam, Chanh, Nho, Lê, và Chanh xanh.

Một phương pháp chú thích hình ảnh cần nhận diện chính xác nhiều đối tượng

Tính năng là những thuộc tính quan trọng của một đối tượng Một đối tượng

có thể có nhiều đặc điểm thay vì chỉ có một thuộc tính Ví dụ: màu sắc, đường viền,

Trang 14

đường hình học hoặc cạnh (độ dốc của cường độ điểm ảnh) là những lựa chọn phôbiến.

Đặc điểm có thể được xác định trước (còn được gọi là tạo bằng tay) hoặcchúng có thể được học Các đặc điểm tạo bằng tay bao gồm LBP [16], HOG [17],SIFT [18], và sự kết hợp của chúng Trong các kỹ thuật này, các tinh năng được tríchxuất từ dữ liệu đầu vào Tuy nhiên, dữ liệu hình ảnh trong thế giới thực rất phức tạp,

dư thừa và có tính biến đồi cao Sự xuất hiện của một đối tượng có thé được thay đổi

từ hình ảnh này sang hình ảnh khác Các tính năng thủ công thường không mạnh mẽ

và đòi hỏi nhiều tính toán Vì vậy, việc trích xuất các đặc trưng thủ công từ một tập

ảnh lớn và phức tạp là không khả thi.

Trong các kỹ thuật dựa trên học sâu, các tính năng sẽ được học tự động Mạng

CNN là các kiến trúc mạng được thiết kế dé làm việc trên hình ảnh, video, âm thanh

trong xử lý giọng nói, chuỗi ký tự trong văn bản, v.v [19] Họ đã làm các nhiệm vụ

dễ dàng hơn rất nhiều so với các kỹ thuật dựa trên các phương pháp thủ công CNNs

đã trở nên có khả năng phân biệt các danh mục hình ảnh với một mức độ chính xác

khá tốt Những tiến bộ này hiện đang được sử dụng rộng rãi cho việc phát hiện vànhận diện khuôn mặt, tìm kiếm ảnh cá nhân, nhận thức trong robot học, xe tự lái vànhiều hơn nữa

agar.

(a) M6 ta canh danh cho (b) Tương tác giữa con (c) Truy xuất hình ảnh

người khiếm thị người và robot dựa trên văn bản

Hình 1.2: Ứng dụng tạo chú thích cho hình ảnh.

Một mạng nơ-ron tích chập bao gồm một hoặc nhiều lớp tích chập Các lớp

này sau đó được tiếp tục bởi một hoặc nhiều lớp kết nối đầy đủ [19] Trong kiến trúcnày, lớp dưới được chia thành một số vùng nhỏ gọi là trường tiếp nhận Mỗi kết nói

Trang 15

từ lớp dưới lên lớp trên có một giá trị đặc biệt gọi là trọng số Mỗi trường tiếp nhậnđược ánh xạ với nơron của các lớp trên dé trích xuất các đặc điểm Các kiến trúc

mang thần kinh chuyên đổi phổ biến nhất được mô tả dưới đây:

LeCun Yann [20] đã phát trién kiến trúc đầu tiên của Mang thần kinh chuyểnđổi vào những năm 1990 Được gọi là LeNet Kiến trúc LeNet chủ yếu được sử dụng

dé nhận dang mã zip, chữ số

AlexNet [21] được phát triển bởi Alex Krizhevsky, Ilya Sutskever và Geoff

Hinton vào năm 2012 Kiến trúc của mạng này rất giống với LeNet Tuy nhiên nó sâuhơn và lớn hơn LeNet AlexNet chứa tổng cộng tám lớp Năm lớp đầu tiên là các lớptích chập day đủ, tiếp theo là các lớp được kết nối day đủ

GoogleNet [22] được phát triển bởi Szegedy và cộng sự Đóng góp chính làviệc bổ sung mô-đun khởi động Mô-đun này giúp giảm số lượng tham số trong

mạng.

Karen Simonyan và Andrew Zisserman đã phát trién VGGNet [20] Độ sâucủa mạng là thành phần chính dé có hiệu suất tốt hơn Nó có 16 lớp chập va 3 lớpđược kết nối đầy đủ Nó thực hiện các phép cuộn 3 x 3 và gộp 2 x 2 từ đầu đến cuối

He và cộng sự [23] đã phát triển ResNet Mô hình có tính năng bỏ qua các

kết nối đặc biệt và sử dụng nhiều tính năng chuẩn hóa hàng loạt Mạng này cũngthiếu các lớp được kết nối đầy đủ ở cuối mạng

Trong DenseNet [24], mỗi lớp có kết nói với mọi lớp khác trong mạng theocách thức chuyển tiếp Do đó, L lớp của DenseNet có kết nối trực tiếp LL + 1)/2.Kết quả là, các bản đồ đặc trưng của tat cả các lớp trước đó được sử dung làm đầuvào của lớp hiện tại và các bản đồ đặc trưng của chính nó cũng được sử dụng làmđầu vào cho tất cả các lớp tiếp theo

ExpansionNet v2[1] là một kiến trúc mới được thiết kế dé khai thác hiệu quả

số lượng phan tử tuần tự tùy ý trong việc tao chú thích hình ảnh Mô hình này sử

dụng cơ chế mở rộng, cho phép phân phối và xử lý nội dung tuần tự qua một số

lượng phan tử tăng lên hoặc tùy ý và sau đó khôi phục lại độ dài ban đầu trong quátrình hoạt động ngược lại Điều này giúp mô hình không bị giới hạn bởi số lượng

Trang 16

phan tử đầu vào có định, giúp tạo ra các tổ hợp chat lượng cao hơn từ đầu vào.

(a) Hình ảnh của nhiều đối tượng: (b) Hình ảnh các loại trái cây: Cam,

Người, Chó và Ghê chanh, nho, lê và chanh

Hình 1.3: Sự hiểu biết về hình ảnh

1.1.2 Ngôn ngữ tự nhiên

Theo quan điểm của NLU, việc tạo ra văn bản bao gồm một loạt các bước.Đầu tiên, chúng ta phải biết các khía cạnh của đầu vào được gọi là lựa chọn nộidung, sau đó chúng ta cần sắp xếp nội dung phân chia bố cục logic, xác định mốiquan hệ giữa các phần và cuối cùng chúng ta cần diễn đạt nó bằng lời nói, chuyểnđổi thành ngôn ngữ tự nhiên Việc hiện thực hóa bề mặt yêu cầu từ vựng hóa cónghĩa là chọn đúng từ, tạo biểu thức tham chiếu bằng cách sử dụng các đại từ thích

hợp và sau đó kết hợp các thông tin liên quan được gọi là tổng hợp [25]

Mạng thần kinh hồi quy (RNN) [26] và Bộ nhớ dài-ngắn hạn (LSTM) [27] làhai mô hình ngôn ngữ dựa trên deep learning phé biến đã thể hiện hiệu suất tuyệt vời

trong nhiều tác vụ hiểu ngôn ngữ tự nhiên, bao gồm cả chú thích hình ảnh [13]

Trong Chú thích hình ảnh, các đặc điểm hình ảnh được trích xuất từ bộ mã hóa CNN

được cung cấp làm đầu vào cho RNN/LSTM RNN/LSTM sau đó dự đoán xác suất

của mỗi từ dựa trên các từ trước đó

Long Short-Term Memory (LSTM) là một dạng mạng nơ-ron hồi quy đượctối ưu hóa để giải quyết các vấn dé liên quan đến dữ liệu chuỗi hoặc dãy thời gian

Nồi bật với hiệu suất vượt trội so với mạng RNN truyền thống, LSTM tích hợp các

Trang 17

đơn vị lưu trữ thông tin phức tạp, gọi là khối nhớ, trong lớp ẩn hồi quy của nó [14].Những khối nhớ này chứa các ô nhớ có khả năng kết nối và duy trì trạng thái thông.

tin qua thời gian Đặc biệt, các công điều khiển thông tin, bao gồm cổng nhập, công

xuất và công quên, đóng vai trò quan trọng trong việc quan lý luồng dữ liệu, giúp mô

hình có khả năng nhớ và quên thông tin một cách linh hoạt.

Một mạng khác, Đơn vị hồi quy có cổng (GRU) [28] có cấu trúc tương tựLSTM nhưng GRU có ít tham số hơn so với LSTM do thiết kế đơn giản hơn Điều

này có thể làm cho GRU dễ huấn luyện hơn trong một số trường hợp, đặc biệt là khi

dữ liệu huấn luyện ít

Chú thích 1: Ô tô

Chú thích 2: Xe nghiêng.

Hình 1.4: Sự hiểu biết ngữ nghĩa.

BLSTM [29] tính toán thông tin theo hai hường: hướng tiến và hướng lùi Chúngkết hợp thông tin bằng hai trạng thái an và có thé lưu giữ cả bối cảnh trước và sau

CNN có thé tìm hiểu cấu trúc phân cấp bên trong của các câu và chúng xử lý

nhanh hơn LSTM Do đó, gần đây, các kiến trúc tích chập được sử dụng theo trình tự

khác để sắp xếp các tác vụ

Trang 18

Attention: Cơ chế chú ý [30], [31] là một trong những đột phá có giá trị nhất

trong nghiên cứu học sâu trong thập kỷ qua.

1.2 Những thách thức nghiên cứu chính

Các kỹ thuật dựa trên deep learning, đặc biệt là CNN đã đóng góp đáng kể

vào việc hiệu được hình ảnh Tuy nhiên, việc nhận dạng chính xác và chính xác các

đối tượng có trong ảnh là một trong những yêu cầu quan trọng của việc hiểu ảnh

Mặc dù có nghiên cứu rộng rãi trong lĩnh vực này, việc nhận dạng chính xác và

chính xác nhiều đối tượng vẫn là một van đề day thách thức [32]

Hau hết các phương pháp tạo chú thích hình ảnh hiện có bao gồm các kỹ thuậtdựa trên học sâu chỉ tập trung vào thực tế mô tả của một hình ảnh Trong quá trìnhhọc đặc trưng, các phương pháp này nén toàn bộ cảnh thành một biểu diễn vectơ cốđịnh Kết quả là họ thường làm mất thông tin của các đối tượng liên quan trong hiện

trường [33].

Chú thích hình ảnh vẫn là một nhiệm vụ rất khó khăn vì nó không chỉ đòi hỏiphải hiểu các đối tượng và thuộc tinh mà còn phải suy ra thông tin ngữ nghĩa cơ bản.Hình 1.4 cho thấy một vài ví dụ về sự hiểu biết ngữ nghĩa “Qua bong màu đỏ” vềmặt ngữ nghĩa có ý nghĩa hơn chỉ “Qua bóng” trong Hình1.4a Tương tự, “Tay camcuốn sách” và “Xe nghiêng” về mặt ngữ nghĩa đều đúng và có ý nghĩa đối vớiHình1.4b VàI.4c, tương ứng Bối cảnh của méi quan hệ giữa các đối tượng của hìnhảnh đóng một vai trò quan trọng trong việc hiểu ngữ nghĩa Ước tính bối cảnh phùhợp (ví dụ: quá khứ, tương lai) có thể giảm khoảng cách ngữ nghĩa giữa hình thức

trực quan và mô tả văn bản phù hợp của hình ảnh.

Các kỹ thuật tạo chú thích cho hình ảnh hiện tại sử dụng hình ảnh thực do con

người chú thích đề đào tạo và thử nghiệm, bao gồm một quy trình tốn kém và mắt thờigian Hơn nữa, ngày nay có rất nhiều nội dung bao gồm cả hình ảnh được tạo tự động,

ví dụ: đối với tin tức, minh họa, tác phẩm nghệ thuật, quảng cáo cũng như tương tácgiữa con người với máy tính và thực tế tăng cường Can phải sử dụng những hình

ảnh được tao/téng hợp này dé huấn luyện và thử nghiệm các phương pháp tạo chú

Trang 19

thích cho hình ảnh Cũng cần phải tạo chú thích cho những hình ảnh như vậy.

1.3 Mục tiêu của luận văn

— Kết quả so sánh với bai báo “Automatic image caption generation using deep

learning.” [46]

- Mô hình tự tạo chú thích hình ảnh có độ chính xác tốt

~_ Ngoài ra có phần mềm hoặc ứng dụng trực tuyến cho phép người dùng tải lên hìnhảnh và tự động tạo chú thích cho hình ảnh đó Phần mềm trên thiết bị di động tạochú thích hình ảnh kết hợp Google Api text to speech giúp cải thiện nhận biết môitrường xung quanh của những người khiếm thị

Trang 20

Chương 2 CƠ SỞ LÝ THUYÉT VÀ CÁC NGHIÊN CỨU LIÊN

QUAN

Chương này trình bày các kỹ thuật tạo chú thích hình ảnh dựa trên học sâu

hiện có, cùng với nền tảng, hiệu suất, điểm mạnh và hạn chế của chúng Các tập dữ

liệu và số liệu đánh giá phổ biến trong lĩnh vực này cũng được trình bày

2.1 Giới thiệu

Hàng ngày, chúng ta bắt gặp một lượng lớn hình ảnh từ nhiều nguồn khácnhau như internet, các bài báo, sơ dé tài liệu và quảng cáo Những nguồn này chứahình ảnh mà người xem sẽ phải tự giải thích Hầu hết các hình ảnh đều không có mô

tả, nhưng con người phần lớn có thể hiểu được chúng nếu không có chú thích chỉtiết Tuy nhiên, máy cần diễn giải một số dạng chú thích ảnh nếu con người cần chú

thích ảnh tự động từ nó.

Chú thích hình ảnh rất quan trọng vì nhiều lý do Ví dụ: chúng có thể được sử

dụng đê lập chỉ mục hình ảnh tự động Lập chỉ mục hình ảnh rất quan trọng đối với

Truy xuất hình ảnh dựa trên nội dung (CBIR) [2] và do đó, có thể được áp dụng chonhiều lĩnh vực, bao gồm y sinh, thương mại, giáo dục, thư viện kỹ thuật số và tìmkiếm trên web Các nền tảng truyền thông xã hội như Facebook và Twitter có thểtrực tiếp tạo mô tả từ hình ảnh Các mô tả có thể bao gồm nơi chúng ta ở (ví dụ: bãi

biên, nhà hàng, công viên, quán cà phê), chúng ta mặc gì và quan trọng là chúng ta đang làm gì ở đó.

Chú thích hình ảnh là một lĩnh vực nghiên cứu phổ biến của Trí tuệ nhân taoliên quan đến việc hiểu hình ảnh và mô tả thành ngôn ngữ tự nhiện cho hình ảnh đó

Sự hiểu biết hình ảnh cần phải phát hiện và nhận biết vật thé trong ảnh Quá trình

này cũng cần hiểu loại cảnh hoặc vị trí, thuộc tính đối tượng và sự tương tác của

chúng Việc tạo ra các câu có cấu trúc phù hợp đòi hỏi cả sự hiểu biết về cú pháp và

ngữ nghĩa của ngôn ngữ tự nhiên [34].

Việc hiéu một hình ảnh phần lớn phụ thuộc vào việc thu được các đặc điểm

Trang 21

của hình ảnh Các kỹ thuật được sử dụng cho mục đích này có thể được chia thành

hai loại:

(1) Kỹ thuật dựa trên học máy truyền thống

(2) Kỹ thuật dựa trên học máy sâu.

Trong học máy truyền thống, các tính năng được tạo thủ công như LBP [16],

SIFT [18], HOG [17], và sự két hợp của các tinh năng như vậy được áp dụng mộtcách phổ biến Trong các kỹ thuật này, các tính năng được trích xuất từ đữ liệu đầuvào Sau đó, chúng được chuyển đến một bộ phân loại như SVM [35] để phân loại

một đối tượng Vì các tính năng được tạo thủ công có tính chất cụ thể cho từng

nhiệm vụ nên việc trích xuất các tính năng từ một tập hợp dữ liệu lớn và đa dạng làkhông khả thi Hơn nữa, dữ liệu trong thế giới thực như hình ảnh và video rất phức

tạp và có cách diễn giải ngữ nghĩa khác nhau

Mặt khác, trong các kỹ thuật dựa trên học sâu, các tính năng được học tự động.

từ dữ liệu huấn luyện va chúng có thé xử lý một tập hợp hình ảnh và video lớn và đa

dang Ví dụ: CNN được sử dụng rộng rãi cho việc học tinh năng và một bộ phân loại

như Softmax được sử dụng dé phân loại CNN thường được theo sau bởi Mạng thầnkinh tái phát (RNN) dé tao chú thích

Trong nhiều năm qua, một số lượng lớn các bài viết đã được xuất bản về chúthích hình ảnh với deep machine learning đang được sử dụng phô biến Các thuậttoán học sâu có thê xử lý khá tốt sự phức tạp và thách thức của việc tạo chú thích chohình ảnh Cho đến nay, có các tài liệu khảo sát [15,3,4,9, 10] đã được xuất bản về chủ

đề nghiên cứu này Mặc dù các bài báo đã trình bày một khảo sát tài liệu tốt về chú

thích hình ảnh, nhưng chúng chỉ có thể đề cập đến một số bài báo về học sâu vì phầnlớn chúng được xuất bản sau các bài khảo sát Các tài liệu khảo sát này chủ yếu thảoluận về các mô hình dựa trên mẫu, dựa trên truy xuất và rất ít mô hình tạo chú thíchhình ảnh mới dựa trên học sâu Tuy nhiên, một số lượng lớn công việc đã được thựchiện về chú thích hình ảnh dựa trên học sâu Hơn nữa, sự sẵn có của các bộ dữ liệulớn và mới đã khiến chú thích hình ảnh dựa trên việc học sâu trở thành một lĩnh vựcnghiên cứu thú vị Dé cung cắp tom tắt nội dung của tài liệu, phần này trình bày một

Trang 22

cuộc khảo sát chủ yếu tập trung vào các bài viết dựa trên học sâu về chú thích hình

Feature Mapping Visual Space

Hình 2.1: Phân loại tổng thé về chứ thích hình ảnh dựa trên deep learning.[9]

Mục đích chính của phần này là cung cấp một cuộc khảo sát toàn diện về học

sâu cho chú thích hình ảnh Đầu tiên, nhóm các bài viết chú thích hình ảnh hiện có

thành ba loại chính:

(1) Chú thích hình ảnh dựa trên mẫu

(2) Chú thích hình ảnh dựa trên truy xuất

(1) Dựa trên không gian trực quan.

(2) Dựa trên không gian đa phương thức.

Trang 23

(3) Học có giám sát.

(4) Học sâu khác.

(5) Chú thích chỉ tiết

(6) Dựa trên toàn cảnh.

(7) Dựa trên kiến trúc bộ mã hóa-giải mã

(8) Dựa trên kiến trúc thành phần

(9) Dựa trên mô hình ngôn ngữ.

(10) Dựa trên mô hình ngôn ngữ khác.

(11) Dựa trên sự chú ý.

(12) Dựa trên khái niệm ngữ nghĩa.

(13) Chú thích cách điệu.

(12) Chú thích hình ảnh dựa trên đối tượng

Chương này trình bày về tat cả các loại trong phần 2.3 Chương này cung cấp

tập dữ liệu và số liệu đánh giá thường được sử dụng dé đothông tin tổng quan về

lường chất lượng chú thích trong Phần 2.4 Chương này cũng trình bày và so sánh kếtquả của các phương pháp khác nhau trong Phần 2.5 Cuối cùng, tóm tắt ngắn gọn vàhướng nghiên cứu tiếp theo trong Phần 2.6 và sau đó là kết luận ở phần 2.7

2.2 _ Các mô hình chú thích hình anh

Phần này đánh giá và mô tả các loại phương pháp tạo chú thích hình ảnh

chính hiện có, bao gồm tạo chú thích dựa trên mẫu, tạo chú thích dựa trên truy xuất

và tạo chú thích mới.

Các phương pháp dựa trên khuôn mẫu sử dụng các khuôn mẫu cố định với

một số lượng ô trống nhất định đề tạo ra các chú thích Trong những cách tiếp cận

này, các đối tượng, thuộc tính, hành động khác nhau được phát hiện đầu tiên, sau đócác khoảng trống trong các khuôn mẫu được lấp đầy Chẳng hạn:

+ Trong nghiên cứu được công bó bởi Farhadi và các cộng sự [36] vào năm 2010,

Trang 24

một phương pháp tiếp cận mới trong lĩnh vực Thị giác Máy tính đã được giới thiệu,dựa trên việc sử dụng một bộ ba yếu tố gồm vật thê, hành động và cảnh để tạo ra các

chú thích mô tả cho hình ảnh Các tác giả đã phát triển một hệ thống đánh giá khả

năng liên kết giữa hình ảnh và câu văn, cho phép gắn chú thích mô tả cho hình ảnh

hoặc tim kiếm hình ảnh phù hợp với câu văn đã cho Dé đánh giá hiệu qua của hệthống, hai phép đo được áp dụng:

(1) Tree-FI measure: Do lường độ chính xác và cụ thể của dự đoán dựa trên

cây phân loại.

(2) BLUE Measure: Do lường tính hợp lý logic của các cụm từ được tạo ra.

Hệ thống này cung cấp những ưu điểm nỗi bật trong việc tự động tạo ra các

mô tả chính xác và phong phú cho hình ảnh, sử dụng một biểu diễn trung gian giữa

dữ liệu hình ảnh và cấu trúc ngôn ngữ, đồng thời mở rộng vốn từ vựng thông quaviệc áp dụng ngữ nghĩa phân phối để xử lý các từ không xuất hiện trong từ điển Tuy

nhiên, hệ thông cũng gặp phải một số hạn ché: mô hình ngữ nghĩa được sử dụng cònđơn giản và có thể không thé hiện đầy đủ các ý nghĩa phức tạp trong câu văn Dénâng cao chất lượng, cần phải cải thiện khả năng nhận diện và mô tả chỉ tiết hơn, baogồm việc tích hợp các tính từ và trạng từ vào cầu trúc câu mô tả

+ Trong công trình nghiên cứu mà Li và các cộng sự công bó [37] vào năm 2011 tậptrung vào lĩnh vực Xử lý Ngôn ngữ Tự nhiên và Thị giác Máy tính để tự động tạo mô

tả hình ảnh Phương pháp dé xuất sử dung web-scale n-grams dé chọn và kết hợp cáccụm từ phù hợp, tạo ra câu mô tả hình ảnh tự nhiên Để đánh giá hiệu quả của

phương pháp hai phép đo được sử dụng:

(1) Sử dung BLEU score đê đánh giá tự động, so sánh độ chính xác của các gram trong câu mô tả do máy sinh ra so với mô tả đo con người tạo.

n-(2) Đánh giá bởi con người dựa trên sự sáng tạo, trôi chảy và liên quan của

mô tả.

Nghiên cứu này đề xuất một phương pháp mới cho việc tự động hóa việc tạo

mô tả hình ảnh, với các đặc điểm nổi bật sử dụng Web-scale N-grams để chọn lọc vàkết hợp các cụm từ, cho phép sự sáng tạo trong quá trình mô tả hình ảnh Phương

Trang 25

pháp này không chỉ đơn giản mà còn hiệu quả cao, có khả năng tạo ra ngôn ngữ hấpdẫn và có thể trình bày được, đồng thời cũng cho phép viết mô tả một cách sáng tạo.

Tuy nhiên, cũng có những hạn chế như việc phụ thuộc vào dir liệu n-gram có sẵn, có

thé dẫn đến những mô tả không chính xác nếu dữ liệu n-gram không đủ mạnh về mặt

ngữ cảnh hoặc ngữ nghĩa.

Trường ngẫu nhiên có điều kiện (CRF) được Kulkarni và các cộng sự áp dụng

[38] dược công bố vào năm 2013 để suy ra các đối tượng, thuộc tính và giới từ trướckhi điền vào chỗ trống Các phương pháp dựa trên mẫu có thẻ tạo ra chú thích đúngngữ pháp Tuy nhiên, các mẫu được xác định trước và không thẻ tạo chú thích có độdai thay đổi Hơn nữa, sau này, các mô hình ngôn ngữ dựa trên phân tích cú pháp đãđược giới thiệu trong chú thích ảnh [9] mạnh hơn các phương pháp dựa trên mẫu cốđịnh Vì vậy, phần này không tập trung vào các phương pháp dựa trên các mẫu.Chú thích ảnh có thể được trích xuất từ không gian hình ảnh và không gian đaphương thức Các phương pháp dựa trên truy vấn tiếp cận vấn đề này bằng cách sửdụng một kho dữ liệu chú thích sẵn có, từ đó trích xuất chú thích phù hợp cho hìnhảnh đang được phân tích Cụ thé, hệ thống sẽ tìm kiếm trong cơ sở dữ liệu huấn

luyện để xác định các hình ảnh có đặc trưng thị giác tương đồng và lựa chọn nhữngchú thích liên quan, được gọi là “chú thích ứng viên” Chú thích cuối cùng cho hìnhảnh truy vấn sẽ được chọn lọc từ nhóm chú thích ứng viên này [9] Mặc dù cácphương pháp này có khả năng tạo ra chú thích chính xác về mặt cú pháp, chúng lạithiếu khả năng cung cấp chú thích mang tính ngữ nghĩa sâu sắc và cụ thể cho từnghình ảnh cụ thể

Chú thích mới có thể được tạo từ cả không gian trực quan và không gian đaphương thức Cách tiép cận chung của thể loại này là trước tiên phân tích nội dunghình ảnh của hình ảnh, sau đó tạo chú thích hình ảnh từ nội dung hình ảnh bằng môhình ngôn ngữ [9] Các phương pháp này có thể tạo chú thích mới cho mỗi hình ảnhchính xác hơn về mặt ngữ nghĩa so với các phương pháp trước đó Hầu hết cácphương pháp tạo chú thích mới đều sử dụng kỹ thuật dựa trên máy học sâu Do đó,

các phương pháp tạo chú thích hình ảnh mới dựa trên học sâu là trọng tâm chính

Trang 26

trong chương này.

“Trong Hình 2.1 mô tả sơ đồ phân loại tổng thé của các phương pháp chú thíchảnh dựa trên học sâu Các phương pháp chú thích ảnh tạo chú thích mới chủ yếu sử

dụng không gian hình ảnh và các kỹ thuật học máy sâu Các phương pháp chú thích

ảnh dựa trên học sâu cũng có thể được phân loại dựa trên kỹ thuật học: Học có giám

sát, Học tăng cường và Học không giám sát Nhóm học tăng cường và học khong

giám sát vào nhóm "Các phương pháp học sâu khác" Thông thường, chú thích được

tạo cho toàn bộ cảnh trong ảnh Tuy nhiên, chú thích cũng có thể được tạo cho cácvùng khác nhau của ảnh (Chú thích chỉ tiết) Các phương pháp chú thích ảnh có thể

sử dụng kiến trúc Mã hóa-Giải mã đơn giản hoặc kiến trúc Thành phần Có nhữngphương pháp sử dụng cơ chế chú ý, khái niệm ngữ nghĩa và các phong cách khácnhau trong mô tả hình ảnh Một số phương pháp cũng có thể tạo ra mô tả cho các đốitượng chưa từng thấy nhóm chúng vào một loại là "Phương pháp khác" Hầu hết các

phương pháp chú thích ảnh sử dụng LSTM làm mô hình ngôn ngữ Tuy nhiên, có

một số phương pháp sử dụng các mô hình ngôn ngữ khác như CNN và RNN Do đó,bao gồm một loại dựa trên mô hình ngôn ngữ là "LSTM so với Các phương pháp

khác".

2.3 Phương pháp chú thích hình ảnh dựa trên Deep Learning

Trong Hình 2.1, Phác thảo một phân loại tông thé cho các phương pháp chúthích ảnh dựa trên học sâu Phân tích những điểm giống và khác nhau của chúngbằng cách nhóm chúng thành các loại: không gian hình ảnh vs không gian đaphương thức, chú thích chỉ tiết vs chú thích toàn cảnh, học có giám sát vs học sâukhác, kiến trúc Encoder-Decoder vs kiến trúc tổ hợp, và một nhóm "Các phươngpháp khác" bao gồm chú thích dựa trên Attention, chú thích dựa trên khái niệm ngữnghĩa, chú thích cách điệu và chú thích dựa trên đối tượng mới Ngoài ra, còn tạo ra

một nhóm phân loại "LSTM vs Các phương pháp khác".

2.3.1 Không gian trực quan so với không gian đa phương thức

Các phương pháp chú thích ảnh dựa trên học sâu có thé tao chú thích từ cả

Trang 27

không gian ảnh và không gian đa phương thức Hiểu một cách dễ dàng, các tập dữ

liệu chú thích ảnh có chứa các chú thích tương ứng dưới dạng văn bản Trong các phương pháp dựa trên không gian ảnh, các đặc trưng của ảnh và chú thích tương ứng được đưa độc lập vào bộ giải mã ngôn ngữ Ngược lại, trong trường hợp không gian

đa phương thức, một không gian đa phương thức được học chung từ ảnh và văn bản

chú thích tương ứng Biểu diễn đa phương thức này sau đó được truyền vào bộ giải

Hình 2.2: Sơ đồ khói của chú thích hình anh dựa trên không gian đa phương thức [9].

Không gian thị giác: Hầu hét các phương pháp chú thích ảnh đều sử dụngkhông gian hình ảnh để tạo chú thích Các phương pháp này được trình bày trongPhan 2.3.2 đến Phan 2.3.5

Không gian đa phương thức: Kiến trúc của một phương pháp tiêu biểu dựatrên không gian đa mô thức bao gồm bón thành phần: bộ mã hóa ngôn ngữ (languageEncoder), phần xử lý anh (vision part), không gian đa phương thức (multimodalspace), và bộ giải mã ngôn ngữ (language decoder) Hình 2.2 minh họa sơ đồ tổng

thể của các phương pháp chú thích ảnh dựa trên không gian đa phương thức

Phần xử lý ảnh sử dụng mạng nơ-ron tích chập sâu (deep convolutional neuralnetwork) như một bộ trích chọn đặc trưng để trích xuất các đặc trưng của ảnh Bộ mãhóa ngôn ngữ trích xuất các đặc trưng của từ và học một vector đặc trưng dày đặc

cho mỗi từ Sau đó, nó truyền ngữ cảnh thời gian ngữ nghĩa đến các lớp lặp lại

Không gian đa phương thức ánh xạ các đặc trưng của ảnh vào một không gian chung

với các đặc trưng của từ Bản đồ kết quả sau đó được truyền đến bộ giải mã ngôn

Trang 28

ngữ, tạo chú thích bằng cách giải mã bản đồ Bộ giải mã ngôn ngữ giải mã bản đồ

này đê tạo ra chú thích cho ảnh.

Các phương pháp trong danh mục này thực hiện theo các bước sau:

1 Mạng thần kinh mạng sâu và mô hình ngôn ngữ đa phương thức được sửdụng để học cả hình ảnh và văn bản cùng nhau trong một không gian đa phương

thức.

2 Phần sinh văn bản sẽ tạo chú thích bằng cách sử dụng thông tin từ Bước 1

Nghiên cứu ban dau trong lĩnh vực này được Kiros và các cộng sự [9] đề xuấtvào năm 2014, sử dụng mạng CNN để trích xuất đặc trưng hình ảnh cho việc tạo chúthích hình ảnh Công trình này đã phát triển không gian biểu diễn đa phương thứctích hợp cả hình ảnh và văn bản, qua đó biểu diễn đa phương thức và tạo chú thíchhình ảnh mà không cần đến mẫu cấu trúc hay cây cú pháp Các mô hình ngôn ngữ đa

phương thức như Modality-Biased Log-Bilinear (MLBL-B)[9] và Factored 3-way Log-Bilinear (MLBL-F) )[9] cũng được giới thiệu Phương pháp này áp dụng trong

các lĩnh vực như: Mô hình hóa ngôn ngữ tự nhiên kết hợp với dữ liệu hình ảnh, Tìmkiếm hình ảnh dựa trên truy van câu phức tạp và ngược lại, Tạo ra văn bản dựa trênhình ảnh mà không cần sử dụng mẫu cấu trúc hay cây cú pháp Đánh giá hiệu suấtcủa mô hình thông qua độ do perplexity và Bleu score, với các ưu điểm như khảnăng học đồng thời biéu diễn từ vựng và đặc trưng hình ảnh, cải thiện điểm Bleu sovới các phương pháp trước đây, và hiệu suất tốt trong việc tìm kiếm mô tả và hìnhảnh Tuy nhiên, cũng tồn tại hạn chế như sự không tương quan giữa perplexity vađiểm Bleu do biến động cao của perplexity, và khả năng mắc lỗi khi mô tả những chỉ

tiết không chính xác

Kiros và cộng sự đã công bố vào năm 2014 một mô hình ngôn ngữ mới đượcgọi là mô hình Structure-Content Neural Language (SC-NLM) [9] được sử dụng đểsinh ra chú thích hình ảnh Ưu điểm của SC-NLM so với các phương pháp hiện có làkhả năng tách riêng cấu trúc của câu khỏi nội dung do bộ mã hóa tạo ra Điều nàycũng giúp họ đạt được những cải tiến đáng kẻ trong việc tạo ra các chú thích hình

Trang 29

ảnh chân thực hơn Tuy nhiên mô hình này có hạn chế về việc không tích hợp thôngtin phát hiện đối tượng dé cải thiện hiệu suất và khả năng giải thích kết qua.

Theo Karpathy va cộng sự đã đề xuất một mô hình đa phương thức sâu đượccông bố vào năm 2014, sử dụng kỹ thuật nhúng (embedding) dữ liệu hình ảnh vàngôn ngữ tự nhiên cho nhiệm vụ truy hồi ảnh và câu theo hai hướng (đáp ứng cả truyvấn từ ảnh tìm câu và truy vấn từ câu tìm ảnh) [9] Các phương pháp dựa trên đa

phương thức trước đây sử dụng một không gian nhúng chung dé trực tiếp ánh xạ

giữa ảnh và câu Tuy nhiên, phương pháp này hoạt động ở cấp độ chỉ tiết hơn, thông

qua việc tích hợp các yếu tố của hình ảnh (các đối tượng) và các thành phần của câu(quan hệ cây phụ thuộc - DTR) Phương pháp này phân tách ảnh thành các đối tượng

và câu thành các quan hệ cây phụ thuộc, sau đó tìm cách liên kết an giấu giữa cácthành phần ở hai phương thức (hình ảnh và ngôn ngữ) Thực nghiệm cho thấyphương pháp này đạt được cải thiện đáng kê trong nhiệm vụ truy hồi so với cácphương pháp trước đó Tuy nhiên, phương pháp này cũng có mội số hạn chế Trong

mô hình hóa bằng cây phụ thuộc, mặc dù các quan hệ có thê dễ đàng được biểu diễn

nhưng chúng không phải lúc nào cũng phù hợp Ví dụ, một thực thê hình ảnh duy

nhất có thể được mô tả bằng một cụm từ phức tạp, có thê được chia thành nhiều phân

đoạn câu Cụm từ "black and white dog" có thê được chia thành hai mối quan hệ

(liên kết - CONI, black, white) và (số tính sở hữu - AMOD, white, dog) Ngoài ra,

đối với nhiều quan hệ phụ thuộc, chúng ta không tìm thấy bat kỳ ánh xạ rõ rang nàotrong ảnh (ví dụ: " each other " không thé được ánh xa tới bat kỳ đối tượng nào) Và

Độ đo đánh giá được sử dụng là Recall@K và Mean rank.

Mao và cộng sự đề xuất một phương pháp Mạng nơ-ron hồi quy đa phươngthức (m-RNN) vào năm 2015 đề tạo chú thích ảnh mới [9] Phương pháp này có haimạng con: một mạng nơ-ron hồi quy sâu cho câu và một mạng tích chập sâu cho

ảnh Hai mạng con này tương tác với nhau trong một lớp đa phương thức dé tạo

thành toàn bộ mô hình m-RNN Phương pháp này nhận cả ảnh và các đoạn của câu

làm đầu vào Nó tính toán phân bó xác suất dé tạo ra từ tiếp theo của chú thích ảnh.Ngoài ra, còn có thêm năm lớp trong mô hình này: hai lớp nhúng từ, một lớp hồi

quy, một lớp đa phương thức và một lớp SoftMax Độ đo đánh giá chính của mô

Trang 30

hinh m-RNN là Perplexity và BLEU scores, được sử dụng đề đánh giá mức độ chính

Mô hình m-RNN có những xác của các mô tả được tạo ra so với dit liệu tham chié

ưu điểm là khả năng tạo ra các câu mô tả mới mẻ không trùng lặp với cơ sở dữ liệu

câu văn hiện có, và hiệu suất cao trong việc truy xuất hình ảnh và câu văn Tuy nhiên

hạn chế của nghiên cứu này là dữ liệu hình ảnh và câu mô tả cần phải đủ lớn dé môhình có thể học được các đặc trưng một cách hiệu quả, và việc tỉnh chỉnh mô hìnhvới các tập dữ liệu lớn hơn vẫn còn là một thách thức Mô hình cũng cần được cảithiện bằng cách tích hợp các đặc trưng hình ảnh và câu văn mạnh mẽ hơn

Chen và cộng sự đề xuất một phương pháp khác để chú thích ảnh dựa trên

không gian đa phương thức được công bố vào năm 2015 [9] Mô hình này được áp

dụng trong lĩnh vực thị giác máy tính và xử lý ngôn ngữ tự nhiên, trực tiếp mô hình

hóa phân phối xác suất của việc tạo ra một từ dựa trên các từ trước đó và một hình

ảnh Độ đo đánh giá chính được sử dụng là Perplexity và BLEU scores để đánh giá

mô hình Ưu điểm của m-RNN bao gồm khả năng tạo ra các câu mô tả mới và thựchiện nhiệm vụ truy xuất hình ảnh hoặc câu mô tả với hiệu suất cao hơn các phươngpháp hiện tại Mô hình kết hợp một mạng nơ-ron hồi quy sâu cho câu và một mang

nơ-ron tích chập sâu cho hình ảnh, tương tác với nhau trong một lớp đa phương tiện.

Tuy nhiên, bài báo cũng chỉ ra rằng mô hình m-RNN có thể được cải thiện thêmbằng cách kết hợp các biểu diễn sâu mạnh mẽ hơn cho hình ảnh và câu Ngoài ra,một hạn chế được nhắc đến là việc sử dụng một lớp hồi quy có kích thước tương đối

nhỏ, điều này cho thấy tiềm năng cần khám phá thêm trong việc mở rộng và tối ưu

hóa mô hình.

2.3.2 Học có giám sát so với học sâu khác

Trong học máy có giám sát, dữ liệu huấn luyện đi kèm với kết quả mong muốn

được gọi là nhãn Ngược lai, học máy không giám sát xử ly dit liệu không nhãn Mạng

GAN [9] là một loại kỹ thuật học máy không giám sát Học tăng cường là một cách

tiếp cận học máy khác, nơi mục tiêu của tác nhân là khám phá dữ liệu và/hoặc nhãnthông qua quá trình khám phá và tín hiệu phản hồi Một số phương pháp mô tả hìnhảnh tự động áp dụng học tăng cường và các tiếp cận dựa trên mạng đối kháng sinh

Trang 31

Các phương pháp này thuộc danh mục "Các kỹ thuật Học sâu khác”.

+ Chú thích hình ảnh dựa trên học tập được giám sát: [9] Các mạng dựa trên học có

giám sát đã được sử dụng thành công trong nhiều năm cho các tác vụ phân loại, phát

hiện đối tượng và học thuộc tính Những tiến bộ này khiến các nhà nghiên cứu quan

tâm đến việc sử dụng chúng để tự động chú thích ảnh Trong phân này, xác định đượcmột số lượng lớn các phương pháp chú thích ảnh dựa trên học có giám sát và phân

loại chúng thành các nhóm khác nhau:

(i) Kién tric Encoder-Decoder,

đi) Kiến trúc tổ hợp

(iii) Dựa trên chú ý.

(iv) Dựa trên khái niệm ngữ nghĩa

thời gian và công sức Vì vậy, trong khoảng thời gian gần đây, các nhóm nghiên cứu

đã tập trung nhiều hơn vào việc phát triển các kỹ thuật học tăng cường và học không

giám sát trong lĩnh vực chú thích tự động cho dữ liệu hình ảnh.

Một phương pháp học tăng cường được thiết kế bởi một số yếu tố như: tác nhân(agent), trạng thái (state), hành động (action), hàm phản hồi (reward function), chínhsách (policy), và giá trị (value) Tác nhân chọn hành động, nhận giá trị phản hồi và dichuyển đến một trạng thái mới Chính sách được xác định bởi các hành động và giá trịđược xác định bởi hàm phản hồi Thử khả năng cố gắng chọn hành động với kỳ vọng

có được phần phản hồi lâu dài tối đa Nó cần thông tin trạng thái và hành động liên tục

dé đảm bao cho hàm phản hồi hoạt động Các phương pháp học tăng cường truyềnthống phải đối mặt với một số hạn chế như việc thiếu đảm bảo về hàm phản hồi vàthông tin trạng thái-hành động không chắc chắn Phương pháp Policy gradient [9] là

Trang 32

một loại học tăng cường có thể chọn một chính sách cụ thể cho một hành động cụ thểbằng cách sử dụng gradient descent và các kỹ thuật tối ưu hóa Chính sách có thể kếthợp kiến thức lĩnh vực cho hành động để đảm bảo hội tụ Do đó, các phương phápPolicy gradient cần ít thông số hơn so với các phương pháp dựa trên hàm phản hồi.

Hình 2.3: Sơ đồ khối của các chú thích dựa trên deep learning khác [9].

Hiện nay, các mô hình chú thích ảnh dựa trên học sâu thường sử dụng các biến

thể của bộ mã hóa hình ảnh để trích xuất đặc trưng ảnh Các đặc điểm này sau đó đượcđưa vào bộ giải mã ngôn ngữ dựa trên mạng nơ-ron dé tạo chú thích Các phươngpháp này có hai van đề chính:

() Chúng được huấn luyện bằng cách sử dụng ước lượng hợp lý tối đa (maximum

likelihood estimation) và phương pháp truyền ngược (back-propagation) [9].Trong trường hợp này, từ tiếp theo được dự đoán dựa trên hình ảnh và tat cả các từthực tế (ground-truth) đã được tạo trước đó Do đó, các chú thích được tạo ra trônggiống như các chú thích thực tế

đi) Các số liệu đánh giá tai thời điểm kiểm tra không thé phân biệt được Lý tưởngnhất, Các mô hình trình tự lý tưởng nhất cho chú thích hình ảnh nên được đào tạo

dé tránh sai lệch exposure bias và tối ưu hóa trực tiếp các số liệu trong thời gian

thực nghiệm.

Trang 33

Kiến trúc tiêu biểu của phương pháp mô tả ảnh dựa trên học tăng cường sử

dụng hai mô hình mạng:

(i) mạng chính sách (policy network)

(ii) mang giá tri (value network).

Mang giá trị có thể được sử dung dé ước tính phần phản hồi tương lai dự kiến

để huấn luyện mạng chính sách Các mô hình chú thích ảnh dựa trên học tăng cườnglay mẫu ký hiệu tiếp theo từ mô hình dựa trên phan phản hồi chúng nhận được ở mỗitrạng thái Các phương pháp policy gradient trong học tăng cường có thể tối ưu hóagradient để dự đoán tổng phần phản hồi dài hạn Do đó, có thể giải quyết vấn đềkhông thể phân biệt được của các số liệu đánh giá

Các phương pháp trong nhóm này thực hiện theo các bước sau:

1 Một mạng kết hợp dựa trên CNN và RNN tạo ra chú thích ảnh

2 Một mạng khác dựa trên CNN-RNN đánh giá chú thích và gửi phản hồi đếnmang dau tiên dé tạo ra chú thích chất lượng cao

Biểu đồ khối của một phương pháp tiêu biểu trong nhóm này được trình bày trong

Hình 2.3.

Năm 2017, Ren và cộng sự đã đề xuất một phương pháp mới cho việc chú thíchảnh dựa trên kỹ thuật học tăng cường [9] Kiến trúc của phương pháp này có hai mạnglưới cùng nhau tính toán từ tốt nhất tiếp theo ở mỗi bước thời gian Policy Networkhoạt động như định hướng cục bộ, giúp dự đoán từ tiếp theo dựa trên trạng thái hiện

tại Value Network hoạt động như định hướng toàn cục, đánh giá giá trị phần phản hồi

bằng cách xem xét tắt cả các mở rộng có thể có của trạng thái hiện tại Các độ đo đánh

giá được sử dụng bao gdm BLEU, Meteor, Rouge-L, và CIDEr Kết quả thử nghiệmcho thấy phương pháp này vượt trội so với các phương pháp tiên tiến khác trên bộ dữliệu Microsoft COCO Tuy nhiên, Bài báo không rõ ràng chỉ ra hạn chế cụ thể củaphương pháp, nhưng có thể suy luận rằng việc sử dụng DRL có thể phức tạp và đòihỏi nhiều tài nguyên tính toán Cũng có thể có những thách thức liên quan đến việc tối

ưu hóa và điều chỉnh tham số cho mô hình để đạt được kết quả tốt nhất trên các độ đo

Trang 34

đánh giá khác nhau.

Rennie và cộng sự đề xuất một phương pháp khác về chú thích ảnh dựa vào kỹ

thuật học tăng cường vào năm 2017 Phương pháp này sử dụng thuật toán suy luận

thời gian kiểm tra dé chuẩn hóa phan phản hồi thay vì ước tính tín hiệu phan phản hồi

và chuẩn hóa trong thời gian đào tạo Phương pháp cho thấy giải mã thời gian kiểmtra này có hiệu quả cao trong việc tạo chú thích ảnh chất lượng [9] Độ đo đánh giáchính được sử dụng là CIDEr Ưu điểm của phương pháp này là khả năng tối ưu hóa

trực tiếp các chỉ số đánh giá không khả vi (non-differentiable) thông qua việc sử dụng

kỹ thuật từ học tăng cường, phương pháp Self-critical Sequence Training (SCST) giúp

giảm thiểu sự chênh lệch giữa quá trình huấn luyện và thử nghiệm, cung cấp cơ sở để

mô hình có thể tự đánh giá và điều chỉnh dựa trên kết quả của chính mô hình Tuynhiên bài báo không đề cập rõ ràng về các hạn chế cụ thể của phương pháp SCST,nhưng có thể suy đoán rằng như mọi phương pháp học máy, nó có thể phụ thuộc vàochất lượng và đa dạng của dữ liệu huấn luyện và cần thêm nghiên cứu để xác địnhhiệu quả của SCST trên các tập dữ liệu khác ngoài MSCOCO và trong các tình huốngthực tế khác nhau

Zhang và cộng sự đã đề xuất một phương pháp chú thích hình ảnh dựa trên họctập tăng cường actor-critic được công bồ vào năm 2017 Phương pháp nay có thẻ tối

ưu hóa trực tiếp các vấn đề không khác biệt của các số liệu đánh giá hiện có Kiếntrúc của phương pháp actor-critic bao gồm mạng chính sách và mạng giá trị Tác nhân

xử lý công việc như một vấn đề quyết định tuần tự và có thể dự đoán mã thông báotiếp theo của chuỗi Ở mỗi trạng thái của trình tự, mạng sẽ nhận được phần thưởngdành riêng cho nhiệm vụ (trong trường hợp này là điểm số liệu đánh giá) Công việc

của mạng giá trị là dự đoán phan phản hồi Nếu có thé dự đoán phần phản hồi mongđợi, tác nhân sẽ tiếp tục lấy mẫu đầu ra theo phân bố xác suất của nó [9] CIDEr là độ

đo chính được nhấn mạnh trong nghiên cứu Ưu điểm của phương pháp actor-criticcho phép tính toán lợi ích và giá trị cho mỗi token, dẫn đến viéc huấn luyện mô hìnhhiệu quả hơn Bài báo không nêu rõ hạn chế cụ thể của mô hình, nhưng một hạn chếtiềm ẩn có thé là chi phí tinh toán cao do sử dung học tăng cường và khả năng tổngquát hóa khi áp dụng cho các tình huống khác ngoài bộ dữ liệu được hudn luyện

Các phương pháp dựa trên GAN có thê tìm hiêu các tính năng sâu từ dữ liệu

Trang 35

chưa được gắn nhãn Họ đạt được biểu diễn này bằng cách áp dụng quy trình cạnh

tranh giữa một cặp mạng: Trình tạo và Trình phân biệt GAN đã được sử dụng thành

công trong nhiều ứng dụng, bao gồm cả chú thích hình ảnh, dịch hình ảnh sang hìnhảnh, tổng hợp văn bản thành hình ảnh và tạo văn bản [9]

Mạng GAN gặp phải hai vấn đề chính Thứ nhất, GAN hoạt động hiệu quảtrong việc tạo ảnh tự nhiên từ ảnh thật vì nó được thiết kế cho dữ liệu có giá trị thực.Tuy nhiên, xử lý văn bản dựa trên các số rời rạc Do đó, các phép toán này không thểtính đạo hàm (non-differentiable), khiến việc áp dụng back-propagation (truyền

ngược) trực tiếp trở nên khó khăn Gradient policy sử dụng một hàm tham số để chophép truyền ngược các gradient Thứ hai, bộ đánh giá (evaluator) gặp phải vấn đề về

gradient biến mat và truyền lan lỗi đối với việc tạo chuỗi Nó cần một giá trị phần phản hồi tương lai có thể xảy ra cho mỗi mô tả một phan Monte Carlo rollouts (Mô

phỏng Monte Carlo) được sử dung để tính toán giá trị phần phản hồi tương lai này [9]

O-Tage Understanding Pat

Hình 2.4: Một so đồ khối của chú thích chi tiét.[9]

Các phương pháp sử dụng GAN trong chú thích ảnh có khả năng sinh ra nhiềubiểu đạt chú thích đa dạng cho một bức ảnh, điều này tương phản với các mô hình chúthích ảnh truyền thống, những mô hình này thường dựa vào Mạng Nơ-ron Tích chập

Sâu (CNN) và Mạng Nơ-ron Hồi quy (RNN) Dai và cộng su cũng đề xuất một

phương pháp chú thích ảnh dựa trên GAN duoc công bố vào năm 2017 Tuy nhiên,phương pháp của họ không tính đến việc tạo ra nhiều chú thích cho cùng một hình

ảnh Shetty và cộng sự đã giới thiệu một phương pháp chú thích ảnh dựa trên GAN

Trang 36

mới được công bố vào năm 2017 Phương pháp này có thể tạo ra nhiều chú thích chomột hình ảnh và cho thấy những cải tiến ấn tượng trong việc tạo ra các chú thích đa

đạng [9].

GAN có hạn chế trong việc truyền ngược (backpropagation) dữ liệu rời rạc.Phương pháp lấy mẫu Gumbel được sử dụng dé khắc phục van dé dữ liệu rời rac Haithành phần chính của mạng đối kháng này là bộ tạo (generator) và bộ phân biệt(discriminator) Trong quá trình huấn luyện, bộ tạo học giá trị mat mát từ bộ phân biệt

thay vì học từ các nguồn rõ ràng Bộ phân biệt có phân bé dữ liệu thực và có thể phânbiệt giữa các mẫu do bộ tạo tạo và các mẫu dữ liệu thực Điều này cho phép mạng họcđược phân bố dữ liệu đa dạng Hơn nữa, mạng lưới phân loại các tập chú thích đượctạo ra là thật hoặc giả Do đó, nó có thể tạo ra các chú thích tương tự như chú thích do

con người tạo ra.

2.3.3 Chú thích chỉ tiết so với chú thích cho toàn cảnh

Trong chú thích chỉ tiết, chú thích được tạo cho từng vùng của cảnh Các

phương pháp khác tạo chú thích cho toàn bộ cảnh.

a) Chú thích chỉ tiết

Các phương pháp trước đây dé chú thích hình ảnh chỉ có thé tạo ra một chúthích cho toàn bộ hình ảnh Họ sử dụng các vùng khác nhau của hình ảnh để thu thậpthông tin về các đối tượng khác nhau Tuy nhiên, những phương pháp này không tạo

ra các chú thích theo vùng.

Johnson và cộng sự đã đưa ra một kỹ thuật mô ta ảnh tiên tiến có tên là

DenseCap công bố năm 2016 Phương pháp này định vị tat cả các vùng nổi bật của

một hình ảnh và sau đó tạo ra các mô tả cho những vùng đó [10].

Một phương pháp điển hình của phương pháp này có các bước sau:

(1) Đề xuất vùng được tạo cho các vùng khác nhau của hình ảnh nhất định

(2) CNN được sử dụng để thu được các đặc điêm hình ảnh dựa trên vùng

(3) Kết quả dau ra của Bước 2 được mô hình ngôn ngữ sử dụng dé tao chú thịch

cho mọi khu vực.

Sơ đồ khối của mô hình tạo chú thích chỉ tiết điển hình được đưa ra trong Hình 2.4

Trang 37

CNN LSTM Generated

nt Imag: >| › >

inp = Captions

Image Text Generation

Understanding Part Part

Hình 2.5: Sơ đồ khối của chú thích anh dựa trên kiến trúc Bộ mã hóa-Giải ma don gian.[9]

Dense Captioning đề xuất một kiến trúc mạng nơ-ron tích chập đầy đủ, baogồm một mạng tích chập, một lớp vùng chỉ tiết và một mô hình ngôn ngữ LSTM [12].Lớp vùng chỉ tiết xử lý một hình ảnh thông qua một lượt đi chuyển tiếp duy nhất vàhiệu quả, mà ngầm dự đoán một tập hợp các vùng đáng chú ý trong hình ảnh Đặc biệttập trung vào việc phát triển hệ thông có khả năng cả xác định vị trí và mô tả các khuvực quan trọng trong hình ảnh bằng ngôn ngữ tự nhiên Độ đo đánh giá được sử dụng

trong nghiên cứu này bao gồm độ chính xác trung bình (AP) và điểm s6 METEOR déđánh giá cả khả năng định vị và chất lượng mô tả ngôn ngữ Ưu điểm của mô hìnhFCLN (Fully Convolutional Localization Network) là khả năng huấn luyện đầu cuối

và hiệu suất thời gian thực cao, cùng với đó là việc không yêu cầu các đề xuất vùngngoại vi và có thể được tối ưu hóa chỉ với một lần tối ưu hóa Nghiên cứu có nhữnghạn chế nhất định, bao gồm giả định về các khu vực đề xuất hình chữ nhật và việc sửdụng NMS (Non-Maximum Suppression) tại thời điểm kiểm tra thay vì một lớp kiềmchế không gian (spatial suppression layer) có thê huấn luyện được

Yang và cộng sự đã đề xuất một phương pháp mô tả chỉ tiết khác và công bốnăm 2016 [9] Phương pháp này có khả năng giải quyết các thách thức của Dense

Captioning như khi các vùng là dày đặc, một đối tượng có thé có nhiều vùng quan tâmchồng chéo Hơn nữa, rất khó dé nhận diện mỗi vùng mục tiêu cho tat cả các kháiniệm hình ảnh Đầu tiên, nó giải quyết một cơ chế suy luận phụ thuộc vào cùng mộtlúc vào các đặc điểm hình ảnh của vùng và các chú thích dự đoán cho vùng đó Điều

này cho phép mô hình tìm ra một vị trí phù hợp của khu vục giới hạn Thứ hai, họ áp

dụng một phương pháp hợp nhất ngữ cảnh có thể kết hợp các đặc điểm ngữ cảnh với

các đặc điểm hình ảnh của các vùng tương ứng để cung cấp một mô tả ngữ nghĩa

phong phú.

b) Chú thích cho toàn cảnh

Các mô hình tạo chú thích hình ảnh dựa trên mạng CNN như kiến trúc

Trang 38

Encoder-Decoder, kiến trúc thành phan, sử dụng Attention, dựa trên khái niệm ngữ

nghĩa, chú thích theo phong cách, chú thích ảnh dựa trên vật thé mới và các phươngpháp khác có thể tạo ra một hoặc nhiều chú thích cho toàn bộ khung cảnh

2.3.4 Kiến trúc bộ mã hóa-giải mã so với kiến trúc thành phan

Một số phương pháp chỉ dùng bộ mã hóa và bộ sgiải mã đơn giản đề tạo chúthích ảnh Tuy nhiên, các phương pháp khác lại sử dụng nhiều mạng lưới cho việc

này.

a) Chú thích hình ảnh dựa trên kiến trúc bộ mã hóa-giải mã

Các phương pháp chú thích ảnh dựa trên mạng nơ-ron hoạt động theo phương

thức đầu cuối đơn giản Chúng rất giống với khung mã hóa-giải mã được sử dụngtrong dịch máy Trong mạng này, các đặc trưng toàn cục của ảnh được trích xuất từcác kích hoạt dn của CNN và sau đó được đưa vào LSTM dé tao ra một chuỗi các từ

[13].

Một phương pháp tiêu biểu của loại này có các bước tổng quát sau:

(1) Sử dụng một mạng CNN đơn giản để trích xuất loại cảnh, nhằm xác địnhcác thực thể và quan hệ tương tác giữa chúng

(2) Đầu ra của Bước | được sử dụng bởi một mô hình ngôn ngữ để chuyểnchúng thành các từ, các cụm từ được kết hợp dé tạo thành chú thích ảnh

Biểu đồ khối đơn giản của loại này được minh họa trong Hình 2.5

Vinyals và cộng sự đã đề xuất một phương pháp gọi là Trình tạo chú thích hìnhảnh thần kinh (Neural Image Caption Generator - NIC) công bố vào năm 2015 [10].Phương pháp này sử dụng CNN dé biểu diễn hình ảnh và LSTM để tạo chú thích chohình ảnh CNN đặc biệt này sử dụng một phương pháp mới đề chuẩn hóa hàng loạt và

đầu ra của lớp CNN ẩn cuối cùng được sử dụng làm đầu vào cho bộ giải mã LSTM.LSTM này có khả năng theo dõi các đối tượng đã được mô tả bằng văn bản NICđược đào tạo dựa trên ước tính khả năng tối đa (maximum likelihood estimation)

Khi tạo chú thích hình ảnh, thông tin hình ảnh được đưa vào trạng thái ban

đầu của LSTM Các từ tiếp theo được tạo dựa trên bước thời gian hiện tại và trạngthái ẩn trước đó Quá trình nay sẽ được duy trì cho đến khi mã thông báo kết thúc câu

Trang 39

được xác định Vì thông tin hình ảnh chỉ được cung cấp khi bắt đầu quá trình nên nó

có thể gặp phải vấn đề biến mat độ dốc Vai trò của những từ được tạo ra lúc đầu

cũng ngày càng yếu đi Vì vậy, LSTM van dang gặp khó khăn trong việc tao ra các

câu dài [10] Vì vay, Jia và cộng sự đã dé xuất một phần mở rộng của LSTM được

gọi là LSTM có hướng dẫn (gLSTM) công bố năm 2015 [9] gLSTM này có thể tạo

ra các câu dài Mục tiêu của nghiên cứu là cải thiện khả năng sinh chú thích ảnh sao

cho chặt chẽ hơn với nội dung của ảnh bằng cách thêm thông tin ngữ nghĩa rút ra từảnh vào từng đơn vị của khối LSTM Sử dụng các độ đo như BLEU và METEOR déđánh giá chất lượng của các tựa ảnh được sinh ra, so sánh với tựa ảnh tham chiếu docon người tạo gLSTM đề xuất có khả năng hướng dẫn quá trình sinh chú thích ảnh

bằng cách thêm thông tin ngữ nghĩa, giúp mô hình tập trung hơn vào nội dung của

ảnh Tuy nhiên hạn chế gLSTM là việc mô hình có thể sinh ra các mô tả không chính

xác khi thông tin ngữ nghĩa không hoàn toàn phù hợp với hình ảnh.

Mao và cộng sự đề xuất một loại phương pháp tạo văn bản đặc biệt cho hình ảnhcông bố năm 2016 Phương pháp này có thé tạo ra mô tả cho một đối tượng hoặc vùng

cụ thể được gọi là biểu thức tham chiếu [9] Bang cách sử dung biêu thức nay, nó có

thê suy ra đối tượng hoặc vùng đang được mô tả Do đó, mô tả hoặc biểu thức được

tạo ra khá rõ ràng Đề giải quyết biểu thức giới thiệu, phương pháp này áp dụng một

tập dữ liệu mới mang tên Referlt, được xây dựng dựa trên tập dữ liệu phổ biến MS

COCO [9].

Một số ưu điểm phương pháp này:

(1) Phương pháp này có lợi thế hơn so với việc tạo chú thích hình ảnh chungchung vì nó yêu cầu mô tả chỉ tiết hon và do đó có thé hữu ích hơn

(2) Có khả năng được huấn luyện theo cách bán giám sát, tự động tạo mô tả

cho các khu vực hình ảnh.

(3) Mô hình kết hợp mạng nơ-ron tích chập (CNN) với mạng nơ-ron hồi quy(RNN) để xử lý hình ảnh và văn bản thực tế

Bên cạnh đó, phương pháp này cũng có những hạn chế:

(1) Việc thu thập dữ liệu biểu thức chỉ định có thể tốn kém và thời gian

(2) Mô hình có thể không xử lý tốt khi đối tượng được mô tả không hiện diện

Trang 40

trong hình ảnh hoặc quá nhỏ dé phát hiện.

(3) Cần có dữ liệu huấn luyện đủ lớn dé mô hình có thé học cách phân biệt chínhxác giữa các đối tượng tương tự nhau

Các phương pháp tạo chú thích hình ảnh dựa trên CNN-RNN trước đây sử dung

LSTM một chiều và được sử dụng có số lớp tương đối ít, làm hạn chế khả năng họccác đặc trưng phức tạp của ảnh Trong kỹ thuật tạo ngôn ngữ một chiều, từ tiếp theođược dự đoán dựa trên ngữ cảnh trực quan và tat cả ngữ cảnh văn bản trước đó LSTMđơn hướng không thể tạo theo ngữ cảnh chú thích được hình thành tốt Hơn nữa, cácphương pháp phát hiện và phân loại đối tượng gần đây cho thấy rằng các phươngpháp phân cp, sâu có hiệu quả học tập tốt hon các phương pháp nông hơn [9] Vương

và cộng sự đã để xuất một phương pháp dựa trên LSTM hai chiều sâu để tạo chú thíchcho hình ảnh công bố năm 2016 Phương pháp này có khả năng tạo chú thích hình ảnhphong phú về ngữ cảnh và ngữ nghĩa Kiến trúc đề xuất hợp một mạng CNN với hai

mạng LSTM độc lập Có khả năng tích hợp thông tin ngữ cảnh từ quá khứ và tương

lai để phân tích sâu các tương tác kéo dài giữa ngôn ngữ và hình ảnh [9]

b) Chú thích hình ảnh dựa trên kiến trúc bố cục

Phương pháp dựa trên kiến trúc cầu thành gồm một số khói xây dựng chức năngđộc lập: một mang CNN được áp dung dau tiên dé trích xuất thông tin ngữ nghĩa từhình ảnh Sau đó, một mô hình ngôn ngữ được sử dụng để tạo ra một tập hợp các chú

thích ứng viên Mô hình tương đồng đa dạng sâu được áp dụng đề sắp xếp chú thích

ứng viên trong quá trình tạo chú thích cuối cùng

Caption

Input Image | +| L-+} Visual Conss| Là Renddg L | Final Captions

Tage Text

Understanding Part Generation Part

Hình 2.6: Sơ đồ khối của chú thích dựa trên mạng tổng hợp [9].

Một phương pháp điền hình trong loại này bao gồm các bước sau đây:

1 Trích xuất đặc trưng hình ảnh bằng cách sử dụng một mạng CNN

Tiêu đề	Xây dựng mô hình mạng học sâu để tự động tạo chú thích hình ảnh
Tác giả	Duong Quang Sinh
Người hướng dẫn	TS. Cao Thị Nhạn
Trường học	Trường Đại học Công nghệ Thông tin - Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành	Công nghệ Thông tin
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2024
Thành phố	TP Hồ Chí Minh

Định dạng
Số trang	99
Dung lượng	48,54 MB

Tài liệu tham khảo	Loại	Chi tiết
1] Hu, J. C., Cavicchioli, R., & Capotondi, A. (2023, December). Exploiting Multiple Sequence Lengths in Fast End to End Training for Image Captioning. In 2023 IEEE International Conference on Big Data (BigData) (pp. 2173-2182). IEEE	Khác
2] Li, X., Yang, J., & Ma, J. (2021). Recent developments of content-based image retrieval (CBIR). Neurocomputing, 452, 675-689	Khác
3] Kumar, A., & Goel, S. (2017). A survey of evolution of image captioning techniques. International Journal of Hybrid Intelligent Systems, 14(3), 123-139	Khác
4] Bai, S., & An, S. (2018). A survey on automatic image caption generation. Neurocomputing, 311, 291-304	Khác
9] Hossain, M. Z., Sohel, F., Shiratuddin, M. F., & Laga, H. (2019). A comprehensive survey of deep learning for image captioning. ACM Computing Surveys (CsUR), 51(6), 1-36	Khác
10] Ghandi, T., Pourreza, H., & Mahyar, H. (2023). Deep learning approaches on image captioning: A review. ACM Computing Surveys, 56(3), 1-39	Khác
11] Karpathy, A., & Fei-Fei, L. (2015). Deep visual-semantic alignments for generating image descriptions. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 3128-3137)	Khác
12] Wang, C., Yang, H., & Meinel, C. (2018). Image captioning with deep bidirectional LSTMs and multi-task learning. ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM), 14(2s), 1-20	Khác
13] Sehgal, S., Sharma, J., & Chaudhary, N. (2020, June). Generating image captions based on deep learning and natural language processing. In 2020 8th InternationalConference on Reliability, Infocom Technologies and Optimization (Trends and Future Directions )(ICRITO) (pp. 165-169). TEEE	Khác