Đối tượng và phạm vi nghiên cứu: > Đối tượng nghiên cứu: Hình ảnh và câu mô tả trong Tiếng Việt l > Phạm vi nghiên cứu: Một số phương pháp Image Captioning và hiệu suat của chúng trên bộ
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
TRẦN TRUNG ANH NGUYÊN PHÚ QUỐC
KHÓA LUẬN TỐT NGHIỆP
BÀI TOÁN PHÁT SINH MÔ TẢ CHO ẢNH
TRONG BỘ DỮ LIỆU TIẾNG VIỆT
CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH
TP HỒ CHÍ MINH, 2021
Trang 2TRUONG ĐẠI HỌC CÔNG NGHỆ THONG TIN
KHOA KHOA HỌC MÁY TÍNH
TRAN TRUNG ANH - 18520473 NGUYỄN PHÚ QUỐC - 18520343
KHÓA LUẬN TỐT NGHIỆP
BÀI TOÁN PHÁT SINH MÔ TA CHO ANH
TRONG BỘ DỮ LIỆU TIẾNG VIỆT
CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH
GIẢNG VIÊN HƯỚNG DẪN
TS MAI TIẾN DŨNG
TP HỒ CHÍ MINH, 2021
Trang 3CÔNG NGHỆ THÔNG TIN OT
TP HCM, ngày tháng năm
NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP
(CUA CAN BỘ HUONG DAN/PHAN BIEN)
Tên khóa luận:
BÀI TOÁN PHÁT SINH MÔ TẢ CHO ẢNH TRONG BỘ DỮ LIỆU TIẾNG VIỆT
Nhóm SV thực hiện: Cán bộ hướng dẫn/phản biện:
Trần Trung Anh 18520473 <Họ tên>
Nguyễn Phú Quốc 18520343
Đánh giá Khóa luận
1 Về cuốn báo cáo:
Số trang Số chương
Số bảng số liệu Số hình vẽ
Số tài liệu tham khảo Sản phẩm
Một số nhận xét về hình thức cuốn báo cáo:
<nhận xét về định dạng, cách thức viết báo cáo, phân bố nội dung, chương mục có hợp lý
không >
2 Về nội dung nghiên cứu:
<nhận xét về kiến thức, phương pháp mà sinh viên đã tìm hiểu, nghiên cứu nhận xét wu điểm và
hạn chế>
3 Về chương trình ứng dụng:
<nhận xét về việc xây dựng ứng dụng demo, nhận xét ưu điểm và hạn chế>
4 Về thái độ làm việc của sinh viên:
Trang 4nhân, xếp loại Giỏi/ Khá/ Trung bình
Điểm từng sinh viên:
Người nhận xét
(Ký tên và ghi rõ họ tên)
Trang 5ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRUONG ĐẠI HOC Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN
ĐỀ CƯƠNG CHI TIẾT
TÊN ĐỀ TÀI: BÀI TOÁN PHÁT SINH MÔ TẢ CHO ẢNH TRONG BỘ DỮ LIỆU TIẾNG
VIỆT
Cán bộ hướng dẫn: TS MAI TIẾN DŨNG
Thời gian thực hiện:Từ ngày 9/2021 đến ngày 12/2021
Sinh viên thực hiện:
<Trần Trung Anh - 18520473>
<Nguyễn Phú Quốc - 18520343>
Nội dung đề tài:(Mô tả chỉ tiết mục tiêu, phạm vi, đối tượng, phương pháp thực hiện,
kết quả mong đợi của đề tài)
1 Mô tả bài toán:
> Image Captioning là bài toán phát sinh câu mô tả dang văn bản cho một hình
ảnh bat kì
> Input: một hình anh A bắt ki
> Output: câu mô tả bằng Tiếng Việt cho hình anh A
2 Đối tượng và phạm vi nghiên cứu:
> Đối tượng nghiên cứu: Hình ảnh và câu mô tả trong Tiếng Việt l
> Phạm vi nghiên cứu: Một số phương pháp Image Captioning và hiệu suat của
chúng trên bộ dữ liệu Tiêng Việt
3 Mục tiêu:
Vv Nghiên cứu tổng quan bài toán Image Captioning
Tìm hiểu các phương pháp đã được nghiên cứu và đạt được kết quả cao
Xây dựng bộ dữ liệu Tiếng Việt cho bài toán Image Captioning
Thực nghiệm các phương pháp đã tìm hiểu trên bộ dữ liệu Tiếng Việt
V VY
Trang 6> Nội dung 1: Tìm hiều tổng quan về bài toán Image Captioning
Phương pháp thực hiện:
¢ Tim hiểu phương pháp và kết quả của các nghiên cứu liên quan
e _ Thực nghiệm lại một số phương pháp phù hợp.
e - Đánh giá và lựa chọn các phương pháp phù hợp với mục tiêu của khoá
luận.
Dự kiến kết quả:
¢ anh giá về các nghiên cứu liên quan.
e Dé xuất hướng tiếp cận của khoá luận.
> Nội dung 2: Xây dựng bộ dữ liệu Image Captioning với câu
mô tả Tiếng Việt
Phương pháp thực hiện:
e Tim hiểu cách xây dựng một bộ dữ liệu Image Captioning.
e _ Tiến hành thu thập, gan nhãn dữ liệu.
Dự kiến kết quả:
¢ B6 dữ liệu Image Captioning đã được gan câu tả bằng Tiếng Việt.
> Nội dung 3: Thực nghiệm, đánh giá các phương pháp đã tìm hiéu trên bộ dit
liệu Tiếng Việt
e Phuong pháp hiệu quả cho bai toán.
© Cac kết quả thực nghiệm.
> Nội dung 4: Báo cáo KUTN
Trang 7Giai đoạn I (09/2021 — 10/2021)
e Khao sát các nghiên cứu liên quan.
e_ Tiến hành xây dựng bộ dữ liệu.
Giai đoạn 2 (10/2021 — 11/2021)
¢ Tim hiểu các mô hình đã được nghiên cứu.
e = Thực nghiệm các mô hình trên bộ dữ liệu tiếng Việt.
e Viết báo cáo khóa luận.
Giai đoạn 3 (11/2021 — 12/2021)
¢ Tổng hợp các kết quả thực nghiệm.
e Hoan thiện báo cáo khóa luận.
Xác nhận của CBHD TP HCM, ngày tháng năm
(Ký tên và ghi rõ họ tên) Sinh viên
(Ký tên và ghi rõ họ tên)
Trần Trung Anh
Nguyễn Phú Quốc
Trang 8[TÓM TẮT KHOÁ LUẬN
TONG QUAN
Lee
1.2 Tinhungdung) 2 0.0.02 eee
GOP a
1.3.1 Tínhtổngquáthoá[
1.3.2 Câu mô tả thiếu sự gan gũi và tự nhiên với con người|
1.3.3 Thách thức trong phát sinh câu mô tả khác tiếng {1.3.4 Thách thức trong xây dựng bộ dữ liệu tiếng Việt|
{[[4_ Mục tiêu của khóa luận|
[L5 Cấu trúc của khoá luận|
[L6 Đóng góp chính của khoá luận|
2_ CÁC NGHIÊN CỨU LIÊN QUAN 2.1 Một số phương phá át sinh mô tả cho ảnh|
(2.1.1 MôhìnhCNN-RNN|
2.1.2 Reflective
DecodingNetwork| -¬ 2.2 Một số bộ dữ liệu liên quan|
2.21 Bộ dữ liệu tiếng Anh|
2.2.2 Bộ dữ liệu tiếng
Việt| -[2.2.3 Một số bộ dữ liệu
khác| -3 HƯỚNG TIẾP CAN TRONG KHOA LUẬN 3.1 Quá trình xây dựng dư liệu
3.11 Định dạng bộ dữ
liệu| -13
13
13 15
19
21 21
24
28
Trang 93.2.1 Mô hình Show, Attend and Telll
46
47
51 51 52
55
55
56
57
Trang 101 Hình ảnh và câu mô tả tương ứng| - 2
1.1 Kết quả trả về khi hệ thong 6
[1.2 Thiết bi deo hỗ trợ người khiếm thị của Horus Technology Nguồn:
[22]Ïl - 6 I3 Công nghệ Automatic Alt Text trong ứng, dụng Facebook, câu mô
tả của hình ảnh được hiển thị trong khung màu xanh dưới Detailed Image Description Nguồn: Forbe| 8
1.4 Ví dụ về câu mô tả được dịch bằng Google Translate| 11
E1 Tổng quan hướng tiếp cận của Karpathy et al Bộ dữ liệu gồm hình
ảnh câu mô tả tương ứng (trái) Mô hình suy diễn mối liên hệ giữa
mô tả và một phan hình ảnh (giữa) Mô hình phát sinh ra câu mô
tả mới (phải) Nguồn: [12|Ï -. - 14
[2.2 Kiến trúc mạng CNN-RNN cơ bản Nguôn: [13j|' 15
én: 16
4 Dinh nghĩa về Dense Captioning Nguồn: ñiol| ¬ 19
E5 Kiến trúc mang Fully Convolutional Localization Network| 21
E7 Công cu gan nhãn dữ liệu của MS COCO Captions Ngué BI 23
2.8 So sánh hai câu mô tả bằng tiếng Anh và được dịch bởi Google
Translate Nguôn: [l6|] 25
2.9 Giao diện công cu gan nhãn mô ta của UIT-ViIC Nguồn: IDIỆ 25
[2.10 Vi dụ về Phat sinh mô ta cho ảnh trong bộ dữ liệu VieCap4H.
Nguồn: [17| 27
B.1 Một số hình ảnh trong MS COCO Nguồn: [19]| 333.2 Công cụ gán nhãn dữ liệu| -.- 35
Trang 118.5 Tổng quan kiến trúc mô hình CLIP Nguồn: [21|| 43
¿1 Mô hình tập trung các đặc trưng quan trọng trong ảnh nhờ cơ chế
[L—— Attentfon] Ặ.Ặ QC 49
[42 Một số vi dụ về câu mô tả được phát sinh bởi mô hình ClipCap
huấn luyện trên hai bộ dữ liệu tiếng Việt| 53
Trang 1232
33
38 39
Trang 13CNN Convolutional Neural Network RNN _ Recurrent Neural Network
LSTM Long Short-Term Memory
Trang 14Feature
Image Captioning
Caption Deep learning Annotation
Trang 15Con người có khả năng nhìn thấy một sự vật hoặc một hiện tượng bất kì trongcuộc sống thông qua đôi mắt của chúng ta, bộ não của chúng ta có thể dé dang
và nhanh chóng nhận biết được các sự vật và hiện tượng đó và có thể miêu tả lạicác sự vật và hiện tượng đó bằng một hoặc nhiều câu mô tả khác nhau Vậy liệurằng máy tính của chúng ta có thể làm được điều đó không?
Trong những năm gần đây, thế giới đang chứng kiến sự tiến bộ không ngừng của
cuộc cách mạng công nghiệp 4.0 trong lĩnh vực công nghệ kĩ thuật số Đặc biệt là
lĩnh vực của các thuật toán Học sâu và Trí tuệ nhân tạo, việc áp dụng các kỹ thuật
trong lĩnh vực Học sâu và Trí tuệ nhân tạo đã đạt được nhiều thành tựu và được
ứng dụng nhiều trong cuộc sống Bài toán Phát sinh mô tả cho ảnh là đại điện cho
điều đã nói ở trên Phát sinh mô tả là khả năng của máy tính có thể tự động nhận
biết và phát sinh mô tả cho những bức ảnh Bài toán này đã nhận được nhiều sự
chú ý từ các nhà nghiên cứu trong lĩnh vực Trí tuệ nhân tạo, Thị giác máy tính và
Xử lý ngôn ngữ tự nhiên.
Bởi việc thu hút được rất nhiều nhà khoa học và công đồng, bài toán này đã đượcthé giới nghiên cứu, phát triển và đạt được những thành tựu nhất định trong đốitượng là các câu mô tả được thể hiện trong ngôn ngữ Tiếng Anh Trên thực tế,
đã có các ứng dụng về việc áp dụng bài toán này trong nhiều lĩnh vực như vậnchuyển hàng hóa, thương mại điện tự, cho các người khiếm thị, Tuy nhiên, việc
áp dụng các kỹ thuật phát sinh mô tả cho ảnh là ngôn ngữ tiếng Anh Và áp dụng
lên các ngôn ngữ khác vẫn là một thách thức Bởi vì, mỗi ngôn ngữ khác nhau có
những cách diễn đạt một sự vật hiện tượng khác nhau về mặt ngữ nghĩa hay cúpháp Điều này đặt thách thức cho các kỹ thuật phát sinh mô tả Tiếng Anh trongviệc tạo ra được những câu mô tả chính xác về mặt chính tả và ngữ pháp trong
các ngôn ngữ khác.
Vi thế, trong khoá luận này, chúng tôi sẽ trình bày, giới thiệu một số phương pháp
đã được nghiên cứu của bài toán Phát sinh mô tả cho ảnh Đồng thời chúng tôi
giới thiệu quá trình hình thành của một bộ dữ liệu mới chuyên dụng cho bài toán
Phát sinh mô tả cho ảnh bằng ngôn ngữ tiếng Việt với những câu mô tả được biênsoạn thủ công Sau đó, chúng tôi tiến hành đánh giá độ hiệu quả của một số kỹthuật Phát sinh mô tả cho ảnh hiện có trên bộ dữ liệu này và so sánh với hiệu suất
Trang 16HINH 1: Hình ảnh và câu mô tả tương ứng.
Trang 17TỔNG QUAN
Tóm tắt
Trong chương này, chúng tôi trình bày định nghĩa vẻ bài toán Phát sinh mô tả cho
ảnh, những thành tựu đã đạt được và một số ứng dụng của bài toán này trong
thực tế Mặt khác, bài toán này vẫn còn tồn đọng nhiều thách thức Trong chươngnày, chúng tôi giới thiệu về các phương pháp để giải quyết bài toán và đồng thời
đề xuất hướng giải quyết mà chúng tôi đã nghiên cứu cho những thách thức củabài toán Chúng tôi trình bày cụ thể lý do, mục tiêu, nội dung và phương phápthực hiện Bên cạnh đó, cấu trúc của Khoá luận tốt nghiệp cũng được đề cập trong
chương này.
11 Giới thiệu bài toán
Khi con người quan sát một hình ảnh hoặc một sự việc và não của chúng ta có
thể đễ dàng nhận biết hình ảnh hay sự việc đó Hiện nay với sự phát triển của các
máy tính thông minh, câu hỏi đặt ra là máy tính có thể nhận biết được như con
người hay không? Mặt khác, con người có thể nhìn nhận một sự vật hiện tượng
dưới nhiều góc độ khác nhau, điều này dẫn đến yêu cầu cho hệ thống máy tính
có thể nhận biết được những thông tin quan trọng trong hình ảnh Đây là một
trong những thách thức lớn và đã nhận được nhiều sự chú trọng của cộng đồng
khoa học trong những năm gần đây Trong đó, Phát sinh câu mô tả cho hình ảnh,
là một trong những bài toán quan trọng của lĩnh vực Trí tuệ nhân tạo, đây là quá
trình xử lý của máy tính để tạo ra câu mô tả bằng ngôn ngữ tự nhiên tương ứng
với nội dung của một hình ảnh cho trước Ứng dụng của bài toán này được sử
œ
Trang 18dung trong một phạm vi lớn những lĩnh vực trong đời sóng từ cải thiện độ chínhxác của hệ thống tìm kiếm và truy xuất hình ảnh cho đến hệ thống hỗ trợ nhậnthức thị giác trong Y Khoa, Bảo mật và thậm chí có thể giúp những người mắcchứng suy giảm thị lực nhận biết được môi trường xung quanh.
Một cách cơ bản, bài toán này có:
¢ Đầu vào: Cho trước một hình ảnh bat kì
© Dau ra: Một câu mô tả dạng văn bản
Trang 196 những ky thuật trong lĩnh vực Thi giác máy tính và Xử ly ngôn ngữ tự nhiên
đóng một vai trò quan trọng Bài toán Phát sinh mô tả cho ảnh kết hợp kiến thức
tia hai lĩnh vực trên để phát triển thành những ứng dụng đem lại lợi ích dang
kể cho cuộc sống Một số tác vụ quen thuộc như công cụ tìm kiếm hình ảnh liênuan cho câu truy vấn của người dùng, phân nhóm hình ảnh chia sẻ trên mạng
xã hội hay gán nhãn tự động cho sản phẩm Thương mại điện tử, đều có thể áp
dụng các kỹ thuật Phát sinh mô tả cho ảnh Như vậy, việc ứng dụng công nghệ
Phát sinh mô tả cho ảnh là một giải pháp có tiềm năng và đáng chú trọng Sau
ây chúng tôi giới thiệu một số ứng dụng thực tiễn của bài toán này:
s Thương mại điện tử: Với sự phát triển mạnh của Thuong mại điện tử, những doanh nghiệp sở hữu một số lượng lớn sản phẩm được liên tục đưa
lên hệ thống bán hàng Những hệ thống Phát sinh mô tả cho ảnh có thể
hỗ trợ những sàn Thương mại điện tử trong việc phân tích hình ảnh của
sản phẩm và cung cấp những thông tin hữu ích về sản phẩm Lượng thôngtin này giúp cho quá trình phân loại và để xuất sản phẩm phù hợp cho
từng người mua Chẳng hạn, những hệ thống bán hàng được ứng dụng kỹthuật này có khả năng nhận điện nhãn hàng, thể loại, màu sắc, kiểu đáng,
của sản phẩm Người mua có thể tìm kiếm sản phẩm mong muốn dé dàng,nhanh chóng và tiết kiệm hơn Một số doanh nghiệp đã áp dụng thành công
kỹ thuật này như Asos, eBay và Alibaba[37].
© Thiết bị hỗ trợ cho người khiếm thị: Hệ thống Phát sinh mô tả cho ảnh
cũng có thể được tích hợp trong một số thiết bị hỗ trợ cho cộng đồng ngườikhiếm thị Mặc dù những câu chú thích được được máy tính tạo ra chưathực sự gần gũi như con người nhưng chúng có thể chứa những thông tinquan trọng, chính xác và ngắn gọn Những thiết bị như vậy có thể giúp
những người khiếm thị trong những tác vụ cơ bản như đọc sách, nhận diện
người thân hay thậm chí là tham gia giao thông.
Vào năm 2017, Horus Technology đã bắt đầu quá trình thử nghiệm một
thiết bị đeo hỗ trợ cho người khiếm thị[22] Thiết bị này bao gồm hai bộ
phận chính: một dây đeo quanh đầu được kết nối với một thiết bị xử lý tính
Trang 20toán như trong hình[L.2| Day đeo được tích hợp loa và camera cỡ nhỏ ở haibên tai Thiết bị xử lý được lắp đặt với GPU Nvidia Tegra và nhiều thuật
toán Học sâu cho phép nhận diện nhiều vật thể, một nút bam được kèmtheo để mô tả chỉ tết của khung cảnh khi được kích hoạt Thiết bị này hỗ
HINH 1.2: Thiết bi deo hỗ trợ người khiếm thị của Horus Technology
Nguồn:
trợ chức năng quét hình ảnh của khuôn mặt con người hay vật thể và cho
phép người dùng gán định danh cho từng hình Người đeo thiết bị này sau
đó sẽ được thông báo mỗi khi thiết bị phát hiện gương mặt hay vật thể đãđược lưu trữ Người đeo thiết bị này cũng được hỗ trợ về một số tác vụ nhưmiêu tả ảnh chụp, đọc chữ trên biển báo và tài liệu giấy Bên cạnh đó, thiết
Trang 21bị này có chế độ hỗ trợ định hướng, sử dụng camera được lắp đặt sẵn giúpcho người đeo nhận biết được khoảng cách tới một vật thể xác định và phát
ra tín hiệu điều hướng dựa vào độ lớn âm thanh của hai chiếc loa ở tai bên
trái và bên phải.
¢ Dịch vụ mang xã hội chia sẻ: Mỗi bức hình được đăng lên mạng xã hội
Facebook hay Instagram được đánh giá bởi hệ thống Phân tích hình ảnh
để tự động phát sinh câu mô tả, điều này giúp người dùng tìm kiếm lại
ình ảnh nhanh chóng Vào năm 2018, Facebook đã phát triển hệ thốngAutomatic Alt Text (AAT)f], có khả năng tự động tạo ra câu chú thích cho
hình ảnh sử dụng công nghệ Nhận dang vật thể tiên tiền AAT sử dụng một
kiến trúc mạng Học sâu được huấn luyện với hàng triệu mẫu dit liệu Vớicông nghệ này, người dùng nay có thể sử dụng thiết bị đọc màn hình đểnghe được nhiều thông vẻ ảnh hơn trên trang mạng xã hội Facebook, chẳng
an như “Image may contain three people, smiling, outdoors.” thay vì chỉ có tên người dang ảnh như trước đây Những câu chú thích hình ảnh do AAT tao
ra được sử dụng trong trường hợp thay thé cho hình anh gặp trục trac trongquá trình hiển thị và xa hơn là giúp cho người dùng khiếm thị đễ dàng hơn
trong việc trải nghiệm ứng dụng này Giao diện của tính năng này được thể hiện trong hinh{I.3}
¢ Dam bảo an ninh: Trong những năm gần đây, nhu câu lắp đặt và sử dụngcamera giám sát ngày càng tăng cao nhằm mục đích giám sát hoạt động ở
những nơi công cộng như phát hiện vũ khí, vật gây thương tích, nhận diện
gương mặt tội phạm hay giám sát việc đeo khẩu trang, Những chiếc era này thu thập được lượng thông tin khổng lỗ trong hình ảnh và video
cam-Điều này khiến cho việc phân tích thủ công lượng dir liệu này trở nên khó
khăn và tốn kém Một nghiên cứuj] cho thấy việc áp dụng Công nghệ Phát
sinh mô tả tự động cho ảnh giúp trong camera giám sát giúp chúng ta dễ đàng hiểu nội dung và mặt khác có thể chuyển đổi thông tin trong hình và
camera thành dạng văn bản tóm tắt để tiết kiệm không gian lưu trữ Nếu
có thể ứng dụng kỹ thuật này thành công, hệ thống camera giám sát có thể
học được cách phản hồi phù hợp với mỗi sự việc tiềm ẩn nguy cơ gây hại
cho xã hội.
Trang 22HINH 1.3: Công nghệ Automatic Alt Text trong ứng dung Facebook,
câu mô tả của hình ảnh được hiển thi trong khung màu xanh dưới
Detailed Image Description.
Nguồn: Forbes
Trang 2313 Những thách thức
Bài toán này đã được nghiên cứu rộng rãi và đạt được nhiều tiền bộ đáng kể Tuy
nhiên, nó vẫn có một số thách thức và khó khăn như sau:
1.3.1 Tinh tổng quát hoa
¢ Khả năng tổng quát hoá của hệ thống Phát sinh mô tả cho ảnh có thể bị ảnh
hưởng bởi các kỹ thuật Học sâu dé dàng thích ứng quá khớp với bộ dữ liệu
được cung cấp
¢ Hiện tượng này thể hiện trong việc các mô hình có khả năng phát sinh ra
câu mô tả phù hợp với những sự vật hiện tượng phổ biến trong những ngữcảnh phổ biến (ví dụ như xe ô t6 ở trên đường), nhưng lại gặp khó khăn khi
cùng sự vật hiện tượng đó xuất hiện trên một ngữ cảnh lạ (ví dụ như xe 6 fô
nổi trên mặt nước)
1.3.2 Câu mô tả thiếu sự gần gũi và tự nhiên với con người
s Thách thức tiếp theo của bài toán xuất phát từ việc kết hợp giữa ngôn ngữ
tự nhiên và nội dung của ảnh Nội dung trong một hình ảnh thường cầuthành bởi nhiều sự vật và hiện tượng có liên hệ với nhau, một hệ thống Phátsinh mô tả cho ảnh hiệu quả cần có khả năng suy luận và tổng hợp những
sự vật hiện tượng ấy sao cho phù hợp với bối cảnh chung của hình ảnh
* Trong khi đó, những phương pháp Phát sinh mô tả cho ảnh truyền thống
thường có cách tiếp cận để tạo câu mô tả theo cách nối tiếp nhau Từ đầutiên trong câu mô tả được suy luận từ đặc trưng hình ảnh, những từ tiếptheo được suy luận từ thông tin của từ xuất hiện phía trước Tác dụng củaviệc này là câu mô tả thường chính xác về mặt ngữ pháp nhưng thiếu sựphù hợp về cầu trúc ngữ nghĩa
1.3.3 Thách thức trong việc phat sinh câu mô tả khác tiếng Anh
Trong giai đoạn gần đây, Phát sinh mô tả cho ảnh là một trong những vấn đẻđược cộng đồng nghiên cứu khoa học tích cực quan tâm Nhiều nghiên cứu và
Trang 24thực nghiệm đã được đưa ra và đạt được những thành quả đáng kể, nhưng hầu
hết được thực hiện trên bộ dữ liệu có những câu mô tả bằng tiếng Anh do thiếunhững bộ đữ liệu chất lượng trong ngôn ngữ khác Tuy nhiên trên thế giới tồn tại
hàng ngàn ngôn ngữ, một công nghệ Phát sinh mô tả cho ảnh không nên bị giới
hạn trong một ngôn ngữ cụ thể Nhận thấy điều này, nhiều nhà nghiên cứu trênthé giới đã tiền hành thực hiện xây dựng những bộ dữ liệu về câu mô tả ảnh trong
những ngôn ngữ khác như tiếng Nhật, tiếng Việt, tiếng Đức, tiếng Trung, Nhìn
chung, quá trình xây dựng những bộ dữ liệu này được xây dựng theo phương
pháp: nhà nghiên cứu thu thập hình ảnh và sử dụng nguồn nhân lực từ đámđông để biên soạn những câu mô tả tương ứng Một số bộ dữ liệu liên quan sẽđược chúng tôi giới thiệu trong chương) E]
1.3.4 Thách thức trong xây dựng bộ dữ liệu tiếng Việt
Tương tự những ngôn ngữ khác ngoài tiếng Anh, một số lượng khá hạn chế bộ
di liệu câu mô tả tiếng Việt đã được xây dựng Một cách đơn giản, bộ dữ liệu câu
mô tả trong tiếng Việt có thể được xây dựng bằng hai cách:
¢ Sử dụng công cu dịch tự động: Phương pháp này sử dụng những bộ dữ
liệu câu mô tả trong ngôn ngữ khác ngoài tiếng Việt, thường là tiếng Anhlàm nên tảng, sau đó sử dụng các công cụ dịch máy tự động (ví dụ nhưGoogle Translate) để trực tiếp dịch các câu mô tả đó sang tiếng Việt Cách
tiếp cận này có thể tạo ra những bộ dir liệu có kích thước lớn mà không
cần tiêu tốn quá nhiều thời gian và công sức Tuy nhiên, nhược điểm của
phương pháp này là ngay cả khi sử dụng những phương pháp dịch máy
tiên tiến, những câu mô tả được dịch sẽ không mang văn phong tiếng Việt
và có thể tồn tại những lỗi ngữ pháp
Ví dụ trong hình [4| câu mô tả gốc trong tiếng Anh có ý nghĩa chính xác
trong tiếng Việt phải là “một người phụ nữ mặc áo khoác den dựa vio xe tải
bên cạnh một ngôi nhà”, tuy nhiên Google Translate lại cho câu mô tả khác ở
phan “xe tải của một ngôi nhà” khiến cho câu mô tả không rõ nghĩa Vì vậy,cách này thường không được sử dụng để xây dựng bộ dw liệu
10
Trang 25Tiếng Anh a woman in black jacket leaning on truck by a house
Google Translate một người phụ nữ mặc áo khoác đen dựa vào xe tai của một ngôi nhà
HÌNH 1.4: Ví dụ về câu mô tả được dịch bằng Google Translate
¢ Gan nhãn câu mô ta thủ công: Trong phương pháp này, những câu mô tả
được biên soạn thủ công bằng con người Nhà nghiên cứu thu thập dữ liệu
hình ảnh và thành lập một nhóm người tham gia gán nhãn mô tả Những
người trong nhóm này thường là người thành thạo tiếng Việt bản địa Nhómgán nhãn có nhiệm vụ quan sát một hình ảnh và viết những câu mô tả ảnh
đó trong tiếng Việt Quá trình xây dung di liệu theo cách này sẽ cần nhiềuthời gian và chỉ phí hơn Đổi lại, những câu mô tả được đảm bảo về mặt
nội dung, ngữ pháp và thân thiện hơn với người bản xứ Với việc những mô
hình Học sâu đều yêu cầu bộ dir liệu chất lượng để có thể đạt được hiệu quả
cao, phương pháp này thường được ưu tiên trong việc xây dựng các bộ dữ
liệu Thực tế, phương pháp này đã được áp dụng trong quá trình xây dựng
hai bộ dữ liệu về câu mô tả tiếng Việt là VieCap4H[17] va UIT-ViIC[16] Chi
tiết về hai bộ dir liệu nay cũng sé được chúng tôi dé cập trong chương sau
11
Trang 261.4 Mục tiêu của khóa luận
Mục tiêu chính của khóa luận này là:
¢ Nghiên cứu tổng quan bài toán Phát sinh mô tả cho ảnh.
¢ Tim hiểu các những nghiên cứu, phương pháp liên quan
s Xây dựng bộ dir liệu câu mô tả tiếng Việt cho ảnh.
s Thực nghiệm và so sánh các phương pháp đã tìm hiểu trên bộ dữ liệu Tiếng
Việt.
1.5 Cấu trúc của khoá luận
Nội dung Khóa luận tốt nghiệp được tổ chức như sau:
° Chuong|i} Giới thiệu tổng quan về khóa luận.
s Chương 2} Trinh bày các nghiên cứu liên quan đến bài toán nay.
s Chương, El Trình bày chỉ tiết hướng tiếp cận của khoá luận.
° Chương [4] Trình bày môi trường thực nghiệm, tập dữ liệu, phương pháp
đánh giá và kết quả thực nghiệm.
Chương] Kết luận và hướng phát triển của khóa luận.
1.6 Đóng góp chính của khoá luận
Một cách tổng quan, những đóng góp chính của chúng tôi trong khoá luận nàybao gồm:
© Một bộ dữ liệu về Phát sinh câu mô tả tiếng Việt cho ảnh với những hình
ảnh tập trung vào lĩnh vực giao thông.
s Kết quả đánh giá một số phương pháp Phát sinh mô tả sử dụng kỹ thuậtHọc sâu trên bộ dữ liệu tiếng Việt
12
Trang 27CÁC NGHIÊN CỨU LIÊN QUAN
Tóm tắt
Trong chương này, chúng tôi sẽ trình bày tổng quan về một số phương pháp đãđược nghiên cứu và hiện có để giải quyết bài toán Phát sinh mô tả cho ảnh, đồngthời giới thiệu sự hình thành của một số bộ dữ liệu liên quan và các bộ dữ liệunày đã được cộng đồng áp dụng rộng rãi
2.1 Một số phương pháp phát sinh mô tả cho ảnh
Phát sinh mô tả cho ảnh là một trong những bài toán quan trọng và cốt yếunhất trong lĩnh vực Học sâu Bài toán này thuộc nhóm các thuật toán máy họcSequence-to-Sequence vì dữ liệu hình ảnh và ngôn ngữ đều được xử lý ở đạngchuỗi các pixel và chuỗi các từ Nhiều phương pháp tiếp cận bài toán Phát sinh
mô tả cho ảnh bằng các kỹ thuật Học sâu đã được nghiên cứu và thực nghiệm
trong những năm vừa qua[31] Theo đó, chúng tôi tìm hiểu và trình bày
khái quát một số phương pháp nổi bật như sau:
2.1.1 Mô hình CNN-RNN
Một trong những nghiên cứu nổi bật về Phát sinh mô tả cho ảnh được thực hiện
bởi Karpathy et al.(2015){11] với hướng tiếp cận bài toán được lấy ý tưởng từ cách
con người nhìn nhận một khung cảnh Chẳng hạn khi chứng kiến một khung
cảnh như hình E-] đầu tiên con người sẽ nhận diện những vật thể hiện hữu (con
mèo, chiếc bàn, ) Sau đó, chúng ta nghĩ ra câu từ để miêu tả những vật thể này
13
Trang 28Dataset of images and sentence descriptions Inferred correspondences
“A Tabby cat is leaning : (on a wooden table, with | —>
one paw on a laser
‘mouse and the other on black laptop”
“Tabby cat is leaning’)
hệ giữa mô tả và một phan hình ảnh (giữa) Mô hình phát sinh ra
câu mô tả mới (phải).
Nguồn:
Các tác giả lấy ý tưởng từ việc này, nhận định một chuỗi từ liên tiếp trong câu
mô tả liên hệ tới một phần cụ thể của ảnh Nhóm tác giả sử dụng những mối liên
hệ này để xây dựng hệ thống phát sinh mô tả Mô hình này sử dung hai phương,
thức để tìm mối liên hệ giữa một phần câu văn bản và một phần ảnh
Nhóm nghiên cứu giới thiệu kiến trúc mạng CNN-RNN trong hình |2.2| Một
lớp mạng Regional CNN để xác định vùng ảnh có vật thể và CNN được huấn
luyện sẵn trên ImageNet(4] để nhận dạng vật thể đó Sau đó, những đặc trưng
hình ảnh này sẽ được sử dụng để huấn luyện một kiến trúc mạng giải mã, ví dụ
như RNN, Bidirectional RNN để biểu diễn mối liên hệ giữa những chuỗi từ liên
tiếp trong câu mô tả tương ứng với những từ ngữ có trong bộ từ điển Để tínhtoán sự tương quan giữa mỗi cặp vùng ảnh và từ ngữ, bài báo đã thiết lập côngthức tính, kết quả càng lớn càng thể hiện sự liên kết giữa hình ảnh và từ ngữ đó
với nhau:
= T
Sa = Lies: MAXIE, 0; St
Cu thể, mô hình này có đầu vào là ma tran pixel của ảnh và chuỗi các vector
từ trong câu mô ta (x,xz, ,x„) và tính chuỗi các lớp mang ẩn (hidden state)(hy, hạ, , hy) để tinh toán chuỗi đầu ra (y1, 2, , yn) Lop mang ẩn tiếp theo đượctính toán từ vector đặc trưng hình ảnh, lớp mang ẩn trước và đầu vào hiện tai x.Đầu ra y; của mô hình được tính bởi công thức:
by = Wai [CNNg, (1)]
hị = f (Waxxt + Wanhe—-1 + by + 1Œ = 1) © by)
ị = softmax (Wonh; + bo)
14
Trang 29Recurrent Neural Network
HÌNH 2.2: Kiến trúc mại CNN-RNN cơ bản.
Nguồn
2.1.2 Reflective Decoding Network
Reflective Decoding Network (RDN) 14] được giới thiệu vào năm 2019, các tacgiả đã dé cập van dé nhiều phương pháp phát sinh mô tả cho ảnh chỉ đang tậptrung khai thác đặc trưng ảnh trong khi các tính chất của ngôn ngữ chưa đượcnhận nhiều sự quan tâm Nhóm tác giả chỉ ra mối tương quan của các từ trong
bộ từ điển và cầu trúc cú pháp của câu mô tả cũng có sự ảnh hưởng lớn tới chấtlượng của câu mô tả Bài báo trình bày về quá trình phát triển của kiến trúc mạng
học sâu Reflective Decoding Network với khả năng phân tích sự liên quan của
những từ ngữ và vị trí tương đối của chúng trong câu mô tả Đầu vào là một hình
ảnh Cấu trúc của mang này được mô tả trong, hình|2.3|bao gồm hai phần:
s Lớp Encoder: Lớp Encoder này sử dụng kiến trúc mang Faster RCNN đểtrích xuất đặc trưng của những vùng ảnh mang nhiều thông tin Tan dụng
chức năng nhận diên vật thể của Faster RCNN để phân cấp các vùng của
các vật thể trong hình ảnh Tập hợp của các thông tin hình ảnh được trích
xuất Rị của một hình anh I được biểu diễn là Ry = {r;}Ƒ_;,r; € RP, với
15
Trang 30k biểu thị số lượng các vùng trong hình ảnh đã được trích xuất, D biểu thịkích thước của các đặc trưng ở mỗi vùng trong hình ảnh và 7; là đối tượngtích chập trung bình trong vùng được trích xuất Sau đó, các thông tin đượctrích xuất từ lớp Encoder được chuyển đến lớp Decoder.
Reflective Position Module Reflective Attention Module
s Lớp Decoder: Đầu vào của lớp Decoder là một tập hợp các đặc trưng của các
vùng trong hình ảnh Rị được sản sinh ra từ lớp Encoder Và nhiệm vụ của
lớp Decoder là thực thi ra câu mô tả S với S = {s, sa, sa, , s„ }, rr là số lượng
từ trong một câu Các câu mô tả được thực thi không chỉ biểu diễn và mô
tả các thông tin trong hình ảnh mà câu đó còn phải có nghĩa và mạch lạc.
Như trong hình|2.3| lớp Decoder được thiết kế với 3 phan: Attention-based
16
Trang 31Recurrent Module, Relective Attention Module, Reflective Position Module.
Phần Attention-based Recurrent Module được tạo ra để tham gia trực tiếp
vào việc nhận diện các đặc trưng của hình ảnh ở mỗi vùng và là phương
thức cơ bản của lớp Decoder Còn các phần như Reflective Attention Module
va Reflective Position Module được thiết ké nằm ở phía trên nó để hỗ trợ choviệc tạo ra các câu mô tả chất lượng Vì thế, Reflective Decoding Network
có thể xử lý được cả về tính nhất quán lịch sử của các từ ngữ và thông tincầu trúc cú pháp trong khi tạo ra câu mô tả cho hình ảnh Cụ thể, cấu trúccủa bộ phận Decoder gồm những phần sau:
— Attention-based Recurrent Module có trách nhiệm xử lý thông tin và
các đặc trưng của hình ảnh được trích xuất từ lớp Encoder based Recurrent Module này bao gồm có hai lớp: là lớp LSTM đầu tiên
Attention-và lớp Visual Attention Aff,;; Hai lớp này được thiết kế để tính toán ti
lệ về độ quan trọng ở các vùng đặc trưng trong hình ảnh Đầu vào củaphan này là x} ở thời điểm f chứa ba phần nối nhau: đặc trưng trung
bình của các hình ảnh 7 = } rh r¡, vector W,O; của các từ ngữ từ đầu
vào O; và dau ra ở thời điểm — 1 từ lớp LSTM thứ hai LOẠN với 7 đại
điện cho thông tin ngữ cảnh của hình ảnh từ đầu vào, We € IRFYD› là
ma trận của một vector O;, Dạ là kích thước của từ vựng của các câu
mô tả Công thức để cập nhật lớp LSTM thứ nhất được định nghĩa như
Sau:
h} = LSTM(†,h} ),x) = [T,W,Ou, lệ 1Ì
Về lớp Visual Attention Aftyis, đầu vào là h} đã được thực thi và tập
hợp k đặc trưng hình ảnh Chúng tôi tính toán được trọng lượng chú ý
a?’ trên tất cả các vùng được trích xuất được biểu diễn như sau:
địt = Wjtanh(W}r¡ + Wilh)
vis vis) vis — qvis
a; soƒtmax(at'Š),a‡ LÊ.
— Reflective Attention Module có nhiệm vu mô hình hoá các trạng thái
hiện tại và quá khứ của Decoder để lưu trữ thông tin của những từ ngữ
17
Trang 32được phát sinh đầu tiên Phần này được thiết kế với một lớp LSTM thứhai và lớp Reflective Attention dùng để mô tả đầu ra của ngôn ngữ Reflective Attention Module chứa lớp Reflective Attention Aff,„; két
hợp với lớp LSTM thứ hai Được thiết kế như vậy để mô tả ngôn ngữ
đầu ra Đầu vào của nó là vector được nói với kết quả trọng lượng củacác đặc trưng 7 và một trạng thái ẩn h} Vì thế, công thức cho việc cập
nhật lớp LSTM thứ hai được biểu diễn như sau:
lệ = LSTM(x?,h?_,), x? = [fi,hị].
Dựa vào trang thái ẩn hiện tại /? ở thời điểm í và các trạng thái ẩn kháctrong quá khứ {h{,hệ, hậ, hệ ¡} Lớp Reflective Attention After tinh
toán trọng lượng ave trên tat cả trang thái ẩn t được thấy ở phía trên
bên phải của hinh[2.3| Công thức được định nghĩa như sau:
ae ¬ Wftanh(W? yh? + WỆ ph),
Pan
af! = softmax(at’!),ai°! = af ef,
Reflective Attention Module được dé xuất mô hình hóa sự phụ thuộc
giữa các cặp từ ở các bước thời gian khác nhau một cách rõ ràng, có
tính đến các trạng thái ẩn tương ứng Hơn thế nữa, lớp LSTM thứ haighi nhớ thông tin trình tự lịch sử bằng cách cân bằng mức độ liên quantổng thể của tất cả các bước thời gian thay vì lập mô hình phụ thuộc
cho từng cặp từ cụ thể.
— Reflective Position Module có khả năng tính toán vị trí tương đối của
mỗi từ trong câu mô tả và cầu trúc cú pháp của toàn bộ câu mô tả.
Có nhiều trường hợp từ ngữ có vị trí tương đối cố định trong một câu
do cầu trúc cú pháp trong ngôn ngữ tự nhiên Ví dụ như các từ "một
người đàn ông" hoặc "một người phụ nữ" chỉ xuất hiện chủ yếu ở đầu
câu Còn vị ngữ thường chiếm ở các vị trí giữa câu Đó chính là lý do
sự tồn tại của Reflective Position Module và đề xuất thông tin của vị trí
từ trong một câu để hướng dẫn cho mô hình có thể giải mã các vị trí
của từ.
18
Trang 332.1.3 DenseCap
Trong bài nghiên cứu DenseCap[10]
của bài toán Phát sinh mô tả cho ảnh, gọi là Dense Captioning với mục tiêu giúp
nhóm tác giả đã giới thiệu một dạng mới
máy tính có khả năng nhận diện vị trí và miêu tả tất cả mọi khía cạnh của nộidung ảnh dựa trên mối liên hệ giữa các từ ngữ và đối tượng trong ảnh, được mô
tả qua hình 2.4] Cách tiếp cận của bài báo này là thiết kế một lớp kiến trúc mạng
Classification Detection
Skateboard
Captioning Dense Captioning
Sequence range spotted cat)
Acat Skateboard with
riding a red wheels
label skateboard ply
complexity Brown hardwood
này cơ bản có 3 phần chính được thể hiện trong hình [2.5] bao gồm:
» Bộ phận mạng tích chập: Lớp này sử dụng kiến trúc mang VGG-16[26], day
là một trong những kiến trúc mạng tích chập có hiệu quả tốt nhất trên bộ dữliệu ImageNet Bộ phận này bao gồm 13 lớp tích chập và 5 lớp max pooling.Với mỗi ảnh đầu vào, bộ phận này sẽ xử lý và xuất ra một tập các vị trí củanhững vùng được lầy mẫu trong ảnh, từ đó hình thành đầu vào của lớp tiếp
theo.
19
Trang 34¢ Bộ phận Localization(FCLN): Đầu vào của bộ phận này bao gồm các hàm
kích hoạt và tập những vùng ảnh quan trọng Kiến trúc mạng Localizationnay được lấy ý tưởng từ Faster R-CNN
thé bởi Bilinear Interpolation Diéu này giúp cho mô hình có khả năng lan
với phan Rol pooling được thay
truyền ngược chiều qua toạ độ của những vùng ảnh Dữ liệu từ bộ phậnnày được xử lý và chuyển thành tập hợp B vùng ảnh chứa những đối tượngquan trọng và xuất ra 3 tensor chứa thông tin:
- Toạ độ vùng ảnh: Ma trận có chiều B x 4 chứa toạ độ bounding box
¢ Bộ phận RNN(LSTM): Dữ liệu từ lớp mạng phía trước sẽ được nhúng cùng
với câu mô tả để thiết lập mô hình ngôn ngữ Với mỗi một chuỗi từ $1, , $7,
mô hình nhận vào vector x_1,xọ,x, ,*r với x_1 = CNN(J) là dữ liệu
vùng ảnh từ lớp mạng trước, xo là ký tự đặc biệt để báo hiệu bắt đầu chuỗiSTART và x; là mỗi từ ngữ được mã hoá Mạng RNN tính toán chuỗi nhữngtrạng thái ẩn (hidden state) ; và vector đầu ra y; bằng công thức LSTM
và những tham số còn lại được khởi tạo bằng hàm gaussian Đối với hàm mat mát,
bộ phan CNN sử dung stochastic gradient descent va Adam cho mỗi bộ phận còn
20
Trang 35lại Bộ dữ liệu Visual Genome(15] được sử dụng trong quá trình huấn luyện mô
hình này.
Image Region features
3xWxH Conv features: BxCxXxY
‘Striped gray cat
Cats watching TY
~~ Localization Layer 7"7>"> - 2
HINH 2.5: Kiến trúc mang Fully Convolutional Localization
Net-work.
2.2 Một số bộ dữ liệu liên quan
Trong phần này, chúng tôi trình bày về quá trình phát triển của một số bộ dữ liệuhiện có cho bài toán Phát sinh mô tả cho ảnh trong ngôn ngữ tiếng Anh, tiếng
Việt và một số ngôn ngữ khác.
2.2.1 Bộ dữ liệu tiếng Anh
Nhiều bộ đữ liệu câu mô tả cho ảnh trong tiếng Anh đã được xây dựng, trong
đó tiêu biểu nhất là hai bộ dữ liệu Flickr30K| và Microsoft COCO Captions| BỊ.
Nhiều phương pháp sử dụng kiến trúc mạng Học sâu đã được thực nghiệm và
đạt những thành tựu đáng mong đợi trong hai bộ dữ liệu này.
© Flickr30K: Bộ dữ liệu Flickr30K được công bố là bộ dữ liệu mở rộng từ
bộ dữ liệu Flick8K của Hodosh et al.[8 Bộ dữ liệu nay bao gồm 31,783
hình ảnh về đời sống sinh hoạt hàng ngày được thu thập từ trang mang
chia sẻ hình ảnh Flickr Với mỗi hình ảnh, năm câu văn bản mô tả được
biên soạn bằng phương pháp Crowdsourcing (tìm kiếm nguồn lực từ đámđông) Nhóm tác giả cũng sử dụng phương pháp thu thập hình ảnh và bộ
quy tac viết câu mô tả của Hodosh Những người tham gia gan nhãn mô tảđều không hiểu biết rõ về những đối tượng có tên riêng trong ảnh, điều này
21
Trang 36đảm bảo những câu mô tả không mang tính chất cá nhân hoá Bên cạnh đó,những người ghi chú thích được khuyến khích nhìn nhận hình ảnh dướinhiều góc độ khác nhau, từ tổng thể cho đến từng sự vật sự việc diễn ra
trong hình Flickr30K là bộ dữ liệu được xây dựng chuyên dụng để nghiên
cứu và là một nền tảng để đánh giá hiệu suất của các phương pháp Phát
sinh mô tả cho ảnh.
Gray haired man in black suit and yellow tie working in a financial environment.
A graying man in a suit is perplexed at a business meeting.
A businessman in a yellow tie gives a frustrated look
A man ina yellow tie is rubbing the back of his neck.
A man with a yellow tie looks concerned.
A butcher cutting an animal to sell.
A green-shirted man with a butcher's apron uses a knife to carve out the hanging carcass of a cow:
Aman at work, butchering a cow.
A man in a green t-shirt and long tan apron hacks apart the carcass of a cow while another man hoses away the blood.
Two men work in a butcher shop; one cuts the meat from a butchered cow, while the other hoses the floor.
HINH 2.6: Ví dụ về hình ảnh va câu mô tả trong Flickr30K.
Nguồn:
® Microsoft COCO Captions: Trong một khía cạnh khác, MS COCO Captions
được xây dựng với nhiệm vụ là một bộ đữ liệu lớn được có thể sử dụng cho
việc nghiên cứu nhiều lĩnh vực như Phân loại ảnh, Nhận dạng vật thể, Phátsinh mô tả cho ảnh, Dựa trên nền tảng của bộ dữ liệu này, MS-COCOCaption|3] ra đời và là một bộ dữ liệu chuyên dành cho ngiên cứu bai toán
Phát sinh mô tả cho ảnh Những người xây dựng MS COCO Captions thu
thập dit liệu hình ảnh từ bộ dữ liệu gốc MS COCOI (19] với mục tiêu thu thập
nhiều hình ảnh có đa dạng đối tượng xuất hiện trong những khung cảnh
tự nhiên Điều này khiến day trở thành một bộ dữ liệu nhiều thách thức vàtiềm năng Tổng số lượng hình ảnh được thu thập lên tới hơn 330,000 hìnhảnh thuộc nhiều lĩnh vực khác nhau Tat cả hình ảnh được phân chia thànhcác tập con với chức năng huấn luyện, kiểm định và kiểm tra Với mỗi hình
anh trong bộ di liệu, năm câu mô tả được gán nhãn thủ công bởi công nhân
từ Amazon’s Mechanical Turk (AMT).
22
Trang 37+ Do not give people proper names.
+ The sentence should contain at least 8 words.
Những người tham gia gan nhãn trong AMT được cung cấp một công cu hỗtrợ có giao điện như hình|2.7]và các câu mô tả phải dam bảo đáp ứng đượcnhững quy tắc sau:
1 Mô tả tất cả những phần quan trọng trong bức hình
Không bắt đầu câu mô tả với "There is”
2
3 Không mô tả những chỉ tiết không cần thiết
4 Không mô tả những sự việc diễn có thể diễn ra trong quá khứ hoặc
tương lai.
5 Không mô tả những gì mà một người có thể nói.
6 Không sử dụng tên riêng cho một người cụ thể.
7 Mỗi câu mô tả có ít nhất 8 từ ngữ
Bằng phương pháp này, hơn một triệu câu mô tả đã được gán nhãn bởiAMT Kể từ khi được hoàn thành, MS COCO Captions là bộ dữ liệu được
sử dụng làm cơ sở đánh giá cho nhiều bài toán và cuộc thi về Nhận diện vật
2