1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học máy tính: Image captioning trong bộ dữ liệu tiếng Việt

74 7 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Bài toán phát sinh mô tả cho ảnh trong bộ dữ liệu tiếng Việt
Tác giả Trần Trung Anh, Nguyễn Phú Quốc
Người hướng dẫn TS. Mai Tiến Dũng
Trường học Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành Khoa học máy tính
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2021
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 74
Dung lượng 32,75 MB

Nội dung

Đối tượng và phạm vi nghiên cứu: > Đối tượng nghiên cứu: Hình ảnh và câu mô tả trong Tiếng Việt l > Phạm vi nghiên cứu: Một số phương pháp Image Captioning và hiệu suat của chúng trên bộ

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

TRẦN TRUNG ANH NGUYÊN PHÚ QUỐC

KHÓA LUẬN TỐT NGHIỆP

BÀI TOÁN PHÁT SINH MÔ TẢ CHO ẢNH

TRONG BỘ DỮ LIỆU TIẾNG VIỆT

CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH

TP HỒ CHÍ MINH, 2021

Trang 2

TRUONG ĐẠI HỌC CÔNG NGHỆ THONG TIN

KHOA KHOA HỌC MÁY TÍNH

TRAN TRUNG ANH - 18520473 NGUYỄN PHÚ QUỐC - 18520343

KHÓA LUẬN TỐT NGHIỆP

BÀI TOÁN PHÁT SINH MÔ TA CHO ANH

TRONG BỘ DỮ LIỆU TIẾNG VIỆT

CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH

GIẢNG VIÊN HƯỚNG DẪN

TS MAI TIẾN DŨNG

TP HỒ CHÍ MINH, 2021

Trang 3

CÔNG NGHỆ THÔNG TIN OT

TP HCM, ngày tháng năm

NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP

(CUA CAN BỘ HUONG DAN/PHAN BIEN)

Tên khóa luận:

BÀI TOÁN PHÁT SINH MÔ TẢ CHO ẢNH TRONG BỘ DỮ LIỆU TIẾNG VIỆT

Nhóm SV thực hiện: Cán bộ hướng dẫn/phản biện:

Trần Trung Anh 18520473 <Họ tên>

Nguyễn Phú Quốc 18520343

Đánh giá Khóa luận

1 Về cuốn báo cáo:

Số trang Số chương

Số bảng số liệu Số hình vẽ

Số tài liệu tham khảo Sản phẩm

Một số nhận xét về hình thức cuốn báo cáo:

<nhận xét về định dạng, cách thức viết báo cáo, phân bố nội dung, chương mục có hợp lý

không >

2 Về nội dung nghiên cứu:

<nhận xét về kiến thức, phương pháp mà sinh viên đã tìm hiểu, nghiên cứu nhận xét wu điểm và

hạn chế>

3 Về chương trình ứng dụng:

<nhận xét về việc xây dựng ứng dụng demo, nhận xét ưu điểm và hạn chế>

4 Về thái độ làm việc của sinh viên:

Trang 4

nhân, xếp loại Giỏi/ Khá/ Trung bình

Điểm từng sinh viên:

Người nhận xét

(Ký tên và ghi rõ họ tên)

Trang 5

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRUONG ĐẠI HOC Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHỆ THÔNG TIN

ĐỀ CƯƠNG CHI TIẾT

TÊN ĐỀ TÀI: BÀI TOÁN PHÁT SINH MÔ TẢ CHO ẢNH TRONG BỘ DỮ LIỆU TIẾNG

VIỆT

Cán bộ hướng dẫn: TS MAI TIẾN DŨNG

Thời gian thực hiện:Từ ngày 9/2021 đến ngày 12/2021

Sinh viên thực hiện:

<Trần Trung Anh - 18520473>

<Nguyễn Phú Quốc - 18520343>

Nội dung đề tài:(Mô tả chỉ tiết mục tiêu, phạm vi, đối tượng, phương pháp thực hiện,

kết quả mong đợi của đề tài)

1 Mô tả bài toán:

> Image Captioning là bài toán phát sinh câu mô tả dang văn bản cho một hình

ảnh bat kì

> Input: một hình anh A bắt ki

> Output: câu mô tả bằng Tiếng Việt cho hình anh A

2 Đối tượng và phạm vi nghiên cứu:

> Đối tượng nghiên cứu: Hình ảnh và câu mô tả trong Tiếng Việt l

> Phạm vi nghiên cứu: Một số phương pháp Image Captioning và hiệu suat của

chúng trên bộ dữ liệu Tiêng Việt

3 Mục tiêu:

Vv Nghiên cứu tổng quan bài toán Image Captioning

Tìm hiểu các phương pháp đã được nghiên cứu và đạt được kết quả cao

Xây dựng bộ dữ liệu Tiếng Việt cho bài toán Image Captioning

Thực nghiệm các phương pháp đã tìm hiểu trên bộ dữ liệu Tiếng Việt

V VY

Trang 6

> Nội dung 1: Tìm hiều tổng quan về bài toán Image Captioning

Phương pháp thực hiện:

¢ Tim hiểu phương pháp và kết quả của các nghiên cứu liên quan

e _ Thực nghiệm lại một số phương pháp phù hợp.

e - Đánh giá và lựa chọn các phương pháp phù hợp với mục tiêu của khoá

luận.

Dự kiến kết quả:

¢ anh giá về các nghiên cứu liên quan.

e Dé xuất hướng tiếp cận của khoá luận.

> Nội dung 2: Xây dựng bộ dữ liệu Image Captioning với câu

mô tả Tiếng Việt

Phương pháp thực hiện:

e Tim hiểu cách xây dựng một bộ dữ liệu Image Captioning.

e _ Tiến hành thu thập, gan nhãn dữ liệu.

Dự kiến kết quả:

¢ B6 dữ liệu Image Captioning đã được gan câu tả bằng Tiếng Việt.

> Nội dung 3: Thực nghiệm, đánh giá các phương pháp đã tìm hiéu trên bộ dit

liệu Tiếng Việt

e Phuong pháp hiệu quả cho bai toán.

© Cac kết quả thực nghiệm.

> Nội dung 4: Báo cáo KUTN

Trang 7

Giai đoạn I (09/2021 — 10/2021)

e Khao sát các nghiên cứu liên quan.

e_ Tiến hành xây dựng bộ dữ liệu.

Giai đoạn 2 (10/2021 — 11/2021)

¢ Tim hiểu các mô hình đã được nghiên cứu.

e = Thực nghiệm các mô hình trên bộ dữ liệu tiếng Việt.

e Viết báo cáo khóa luận.

Giai đoạn 3 (11/2021 — 12/2021)

¢ Tổng hợp các kết quả thực nghiệm.

e Hoan thiện báo cáo khóa luận.

Xác nhận của CBHD TP HCM, ngày tháng năm

(Ký tên và ghi rõ họ tên) Sinh viên

(Ký tên và ghi rõ họ tên)

Trần Trung Anh

Nguyễn Phú Quốc

Trang 8

[TÓM TẮT KHOÁ LUẬN

TONG QUAN

Lee

1.2 Tinhungdung) 2 0.0.02 eee

GOP a

1.3.1 Tínhtổngquáthoá[

1.3.2 Câu mô tả thiếu sự gan gũi và tự nhiên với con người|

1.3.3 Thách thức trong phát sinh câu mô tả khác tiếng {1.3.4 Thách thức trong xây dựng bộ dữ liệu tiếng Việt|

{[[4_ Mục tiêu của khóa luận|

[L5 Cấu trúc của khoá luận|

[L6 Đóng góp chính của khoá luận|

2_ CÁC NGHIÊN CỨU LIÊN QUAN 2.1 Một số phương phá át sinh mô tả cho ảnh|

(2.1.1 MôhìnhCNN-RNN|

2.1.2 Reflective

DecodingNetwork| -¬ 2.2 Một số bộ dữ liệu liên quan|

2.21 Bộ dữ liệu tiếng Anh|

2.2.2 Bộ dữ liệu tiếng

Việt| -[2.2.3 Một số bộ dữ liệu

khác| -3 HƯỚNG TIẾP CAN TRONG KHOA LUẬN 3.1 Quá trình xây dựng dư liệu

3.11 Định dạng bộ dữ

liệu| -13

13

13 15

19

21 21

24

28

Trang 9

3.2.1 Mô hình Show, Attend and Telll

46

47

51 51 52

55

55

56

57

Trang 10

1 Hình ảnh và câu mô tả tương ứng| - 2

1.1 Kết quả trả về khi hệ thong 6

[1.2 Thiết bi deo hỗ trợ người khiếm thị của Horus Technology Nguồn:

[22]Ïl - 6 I3 Công nghệ Automatic Alt Text trong ứng, dụng Facebook, câu mô

tả của hình ảnh được hiển thị trong khung màu xanh dưới Detailed Image Description Nguồn: Forbe| 8

1.4 Ví dụ về câu mô tả được dịch bằng Google Translate| 11

E1 Tổng quan hướng tiếp cận của Karpathy et al Bộ dữ liệu gồm hình

ảnh câu mô tả tương ứng (trái) Mô hình suy diễn mối liên hệ giữa

mô tả và một phan hình ảnh (giữa) Mô hình phát sinh ra câu mô

tả mới (phải) Nguồn: [12|Ï -. - 14

[2.2 Kiến trúc mạng CNN-RNN cơ bản Nguôn: [13j|' 15

én: 16

4 Dinh nghĩa về Dense Captioning Nguồn: ñiol| ¬ 19

E5 Kiến trúc mang Fully Convolutional Localization Network| 21

E7 Công cu gan nhãn dữ liệu của MS COCO Captions Ngué BI 23

2.8 So sánh hai câu mô tả bằng tiếng Anh và được dịch bởi Google

Translate Nguôn: [l6|] 25

2.9 Giao diện công cu gan nhãn mô ta của UIT-ViIC Nguồn: IDIỆ 25

[2.10 Vi dụ về Phat sinh mô ta cho ảnh trong bộ dữ liệu VieCap4H.

Nguồn: [17| 27

B.1 Một số hình ảnh trong MS COCO Nguồn: [19]| 333.2 Công cụ gán nhãn dữ liệu| -.- 35

Trang 11

8.5 Tổng quan kiến trúc mô hình CLIP Nguồn: [21|| 43

¿1 Mô hình tập trung các đặc trưng quan trọng trong ảnh nhờ cơ chế

[L—— Attentfon] Ặ.Ặ QC 49

[42 Một số vi dụ về câu mô tả được phát sinh bởi mô hình ClipCap

huấn luyện trên hai bộ dữ liệu tiếng Việt| 53

Trang 12

32

33

38 39

Trang 13

CNN Convolutional Neural Network RNN _ Recurrent Neural Network

LSTM Long Short-Term Memory

Trang 14

Feature

Image Captioning

Caption Deep learning Annotation

Trang 15

Con người có khả năng nhìn thấy một sự vật hoặc một hiện tượng bất kì trongcuộc sống thông qua đôi mắt của chúng ta, bộ não của chúng ta có thể dé dang

và nhanh chóng nhận biết được các sự vật và hiện tượng đó và có thể miêu tả lạicác sự vật và hiện tượng đó bằng một hoặc nhiều câu mô tả khác nhau Vậy liệurằng máy tính của chúng ta có thể làm được điều đó không?

Trong những năm gần đây, thế giới đang chứng kiến sự tiến bộ không ngừng của

cuộc cách mạng công nghiệp 4.0 trong lĩnh vực công nghệ kĩ thuật số Đặc biệt là

lĩnh vực của các thuật toán Học sâu và Trí tuệ nhân tạo, việc áp dụng các kỹ thuật

trong lĩnh vực Học sâu và Trí tuệ nhân tạo đã đạt được nhiều thành tựu và được

ứng dụng nhiều trong cuộc sống Bài toán Phát sinh mô tả cho ảnh là đại điện cho

điều đã nói ở trên Phát sinh mô tả là khả năng của máy tính có thể tự động nhận

biết và phát sinh mô tả cho những bức ảnh Bài toán này đã nhận được nhiều sự

chú ý từ các nhà nghiên cứu trong lĩnh vực Trí tuệ nhân tạo, Thị giác máy tính và

Xử lý ngôn ngữ tự nhiên.

Bởi việc thu hút được rất nhiều nhà khoa học và công đồng, bài toán này đã đượcthé giới nghiên cứu, phát triển và đạt được những thành tựu nhất định trong đốitượng là các câu mô tả được thể hiện trong ngôn ngữ Tiếng Anh Trên thực tế,

đã có các ứng dụng về việc áp dụng bài toán này trong nhiều lĩnh vực như vậnchuyển hàng hóa, thương mại điện tự, cho các người khiếm thị, Tuy nhiên, việc

áp dụng các kỹ thuật phát sinh mô tả cho ảnh là ngôn ngữ tiếng Anh Và áp dụng

lên các ngôn ngữ khác vẫn là một thách thức Bởi vì, mỗi ngôn ngữ khác nhau có

những cách diễn đạt một sự vật hiện tượng khác nhau về mặt ngữ nghĩa hay cúpháp Điều này đặt thách thức cho các kỹ thuật phát sinh mô tả Tiếng Anh trongviệc tạo ra được những câu mô tả chính xác về mặt chính tả và ngữ pháp trong

các ngôn ngữ khác.

Vi thế, trong khoá luận này, chúng tôi sẽ trình bày, giới thiệu một số phương pháp

đã được nghiên cứu của bài toán Phát sinh mô tả cho ảnh Đồng thời chúng tôi

giới thiệu quá trình hình thành của một bộ dữ liệu mới chuyên dụng cho bài toán

Phát sinh mô tả cho ảnh bằng ngôn ngữ tiếng Việt với những câu mô tả được biênsoạn thủ công Sau đó, chúng tôi tiến hành đánh giá độ hiệu quả của một số kỹthuật Phát sinh mô tả cho ảnh hiện có trên bộ dữ liệu này và so sánh với hiệu suất

Trang 16

HINH 1: Hình ảnh và câu mô tả tương ứng.

Trang 17

TỔNG QUAN

Tóm tắt

Trong chương này, chúng tôi trình bày định nghĩa vẻ bài toán Phát sinh mô tả cho

ảnh, những thành tựu đã đạt được và một số ứng dụng của bài toán này trong

thực tế Mặt khác, bài toán này vẫn còn tồn đọng nhiều thách thức Trong chươngnày, chúng tôi giới thiệu về các phương pháp để giải quyết bài toán và đồng thời

đề xuất hướng giải quyết mà chúng tôi đã nghiên cứu cho những thách thức củabài toán Chúng tôi trình bày cụ thể lý do, mục tiêu, nội dung và phương phápthực hiện Bên cạnh đó, cấu trúc của Khoá luận tốt nghiệp cũng được đề cập trong

chương này.

11 Giới thiệu bài toán

Khi con người quan sát một hình ảnh hoặc một sự việc và não của chúng ta có

thể đễ dàng nhận biết hình ảnh hay sự việc đó Hiện nay với sự phát triển của các

máy tính thông minh, câu hỏi đặt ra là máy tính có thể nhận biết được như con

người hay không? Mặt khác, con người có thể nhìn nhận một sự vật hiện tượng

dưới nhiều góc độ khác nhau, điều này dẫn đến yêu cầu cho hệ thống máy tính

có thể nhận biết được những thông tin quan trọng trong hình ảnh Đây là một

trong những thách thức lớn và đã nhận được nhiều sự chú trọng của cộng đồng

khoa học trong những năm gần đây Trong đó, Phát sinh câu mô tả cho hình ảnh,

là một trong những bài toán quan trọng của lĩnh vực Trí tuệ nhân tạo, đây là quá

trình xử lý của máy tính để tạo ra câu mô tả bằng ngôn ngữ tự nhiên tương ứng

với nội dung của một hình ảnh cho trước Ứng dụng của bài toán này được sử

œ

Trang 18

dung trong một phạm vi lớn những lĩnh vực trong đời sóng từ cải thiện độ chínhxác của hệ thống tìm kiếm và truy xuất hình ảnh cho đến hệ thống hỗ trợ nhậnthức thị giác trong Y Khoa, Bảo mật và thậm chí có thể giúp những người mắcchứng suy giảm thị lực nhận biết được môi trường xung quanh.

Một cách cơ bản, bài toán này có:

¢ Đầu vào: Cho trước một hình ảnh bat kì

© Dau ra: Một câu mô tả dạng văn bản

Trang 19

6 những ky thuật trong lĩnh vực Thi giác máy tính và Xử ly ngôn ngữ tự nhiên

đóng một vai trò quan trọng Bài toán Phát sinh mô tả cho ảnh kết hợp kiến thức

tia hai lĩnh vực trên để phát triển thành những ứng dụng đem lại lợi ích dang

kể cho cuộc sống Một số tác vụ quen thuộc như công cụ tìm kiếm hình ảnh liênuan cho câu truy vấn của người dùng, phân nhóm hình ảnh chia sẻ trên mạng

xã hội hay gán nhãn tự động cho sản phẩm Thương mại điện tử, đều có thể áp

dụng các kỹ thuật Phát sinh mô tả cho ảnh Như vậy, việc ứng dụng công nghệ

Phát sinh mô tả cho ảnh là một giải pháp có tiềm năng và đáng chú trọng Sau

ây chúng tôi giới thiệu một số ứng dụng thực tiễn của bài toán này:

s Thương mại điện tử: Với sự phát triển mạnh của Thuong mại điện tử, những doanh nghiệp sở hữu một số lượng lớn sản phẩm được liên tục đưa

lên hệ thống bán hàng Những hệ thống Phát sinh mô tả cho ảnh có thể

hỗ trợ những sàn Thương mại điện tử trong việc phân tích hình ảnh của

sản phẩm và cung cấp những thông tin hữu ích về sản phẩm Lượng thôngtin này giúp cho quá trình phân loại và để xuất sản phẩm phù hợp cho

từng người mua Chẳng hạn, những hệ thống bán hàng được ứng dụng kỹthuật này có khả năng nhận điện nhãn hàng, thể loại, màu sắc, kiểu đáng,

của sản phẩm Người mua có thể tìm kiếm sản phẩm mong muốn dé dàng,nhanh chóng và tiết kiệm hơn Một số doanh nghiệp đã áp dụng thành công

kỹ thuật này như Asos, eBay và Alibaba[37].

© Thiết bị hỗ trợ cho người khiếm thị: Hệ thống Phát sinh mô tả cho ảnh

cũng có thể được tích hợp trong một số thiết bị hỗ trợ cho cộng đồng ngườikhiếm thị Mặc dù những câu chú thích được được máy tính tạo ra chưathực sự gần gũi như con người nhưng chúng có thể chứa những thông tinquan trọng, chính xác và ngắn gọn Những thiết bị như vậy có thể giúp

những người khiếm thị trong những tác vụ cơ bản như đọc sách, nhận diện

người thân hay thậm chí là tham gia giao thông.

Vào năm 2017, Horus Technology đã bắt đầu quá trình thử nghiệm một

thiết bị đeo hỗ trợ cho người khiếm thị[22] Thiết bị này bao gồm hai bộ

phận chính: một dây đeo quanh đầu được kết nối với một thiết bị xử lý tính

Trang 20

toán như trong hình[L.2| Day đeo được tích hợp loa và camera cỡ nhỏ ở haibên tai Thiết bị xử lý được lắp đặt với GPU Nvidia Tegra và nhiều thuật

toán Học sâu cho phép nhận diện nhiều vật thể, một nút bam được kèmtheo để mô tả chỉ tết của khung cảnh khi được kích hoạt Thiết bị này hỗ

HINH 1.2: Thiết bi deo hỗ trợ người khiếm thị của Horus Technology

Nguồn:

trợ chức năng quét hình ảnh của khuôn mặt con người hay vật thể và cho

phép người dùng gán định danh cho từng hình Người đeo thiết bị này sau

đó sẽ được thông báo mỗi khi thiết bị phát hiện gương mặt hay vật thể đãđược lưu trữ Người đeo thiết bị này cũng được hỗ trợ về một số tác vụ nhưmiêu tả ảnh chụp, đọc chữ trên biển báo và tài liệu giấy Bên cạnh đó, thiết

Trang 21

bị này có chế độ hỗ trợ định hướng, sử dụng camera được lắp đặt sẵn giúpcho người đeo nhận biết được khoảng cách tới một vật thể xác định và phát

ra tín hiệu điều hướng dựa vào độ lớn âm thanh của hai chiếc loa ở tai bên

trái và bên phải.

¢ Dịch vụ mang xã hội chia sẻ: Mỗi bức hình được đăng lên mạng xã hội

Facebook hay Instagram được đánh giá bởi hệ thống Phân tích hình ảnh

để tự động phát sinh câu mô tả, điều này giúp người dùng tìm kiếm lại

ình ảnh nhanh chóng Vào năm 2018, Facebook đã phát triển hệ thốngAutomatic Alt Text (AAT)f], có khả năng tự động tạo ra câu chú thích cho

hình ảnh sử dụng công nghệ Nhận dang vật thể tiên tiền AAT sử dụng một

kiến trúc mạng Học sâu được huấn luyện với hàng triệu mẫu dit liệu Vớicông nghệ này, người dùng nay có thể sử dụng thiết bị đọc màn hình đểnghe được nhiều thông vẻ ảnh hơn trên trang mạng xã hội Facebook, chẳng

an như “Image may contain three people, smiling, outdoors.” thay vì chỉ có tên người dang ảnh như trước đây Những câu chú thích hình ảnh do AAT tao

ra được sử dụng trong trường hợp thay thé cho hình anh gặp trục trac trongquá trình hiển thị và xa hơn là giúp cho người dùng khiếm thị đễ dàng hơn

trong việc trải nghiệm ứng dụng này Giao diện của tính năng này được thể hiện trong hinh{I.3}

¢ Dam bảo an ninh: Trong những năm gần đây, nhu câu lắp đặt và sử dụngcamera giám sát ngày càng tăng cao nhằm mục đích giám sát hoạt động ở

những nơi công cộng như phát hiện vũ khí, vật gây thương tích, nhận diện

gương mặt tội phạm hay giám sát việc đeo khẩu trang, Những chiếc era này thu thập được lượng thông tin khổng lỗ trong hình ảnh và video

cam-Điều này khiến cho việc phân tích thủ công lượng dir liệu này trở nên khó

khăn và tốn kém Một nghiên cứuj] cho thấy việc áp dụng Công nghệ Phát

sinh mô tả tự động cho ảnh giúp trong camera giám sát giúp chúng ta dễ đàng hiểu nội dung và mặt khác có thể chuyển đổi thông tin trong hình và

camera thành dạng văn bản tóm tắt để tiết kiệm không gian lưu trữ Nếu

có thể ứng dụng kỹ thuật này thành công, hệ thống camera giám sát có thể

học được cách phản hồi phù hợp với mỗi sự việc tiềm ẩn nguy cơ gây hại

cho xã hội.

Trang 22

HINH 1.3: Công nghệ Automatic Alt Text trong ứng dung Facebook,

câu mô tả của hình ảnh được hiển thi trong khung màu xanh dưới

Detailed Image Description.

Nguồn: Forbes

Trang 23

13 Những thách thức

Bài toán này đã được nghiên cứu rộng rãi và đạt được nhiều tiền bộ đáng kể Tuy

nhiên, nó vẫn có một số thách thức và khó khăn như sau:

1.3.1 Tinh tổng quát hoa

¢ Khả năng tổng quát hoá của hệ thống Phát sinh mô tả cho ảnh có thể bị ảnh

hưởng bởi các kỹ thuật Học sâu dé dàng thích ứng quá khớp với bộ dữ liệu

được cung cấp

¢ Hiện tượng này thể hiện trong việc các mô hình có khả năng phát sinh ra

câu mô tả phù hợp với những sự vật hiện tượng phổ biến trong những ngữcảnh phổ biến (ví dụ như xe ô t6 ở trên đường), nhưng lại gặp khó khăn khi

cùng sự vật hiện tượng đó xuất hiện trên một ngữ cảnh lạ (ví dụ như xe 6 fô

nổi trên mặt nước)

1.3.2 Câu mô tả thiếu sự gần gũi và tự nhiên với con người

s Thách thức tiếp theo của bài toán xuất phát từ việc kết hợp giữa ngôn ngữ

tự nhiên và nội dung của ảnh Nội dung trong một hình ảnh thường cầuthành bởi nhiều sự vật và hiện tượng có liên hệ với nhau, một hệ thống Phátsinh mô tả cho ảnh hiệu quả cần có khả năng suy luận và tổng hợp những

sự vật hiện tượng ấy sao cho phù hợp với bối cảnh chung của hình ảnh

* Trong khi đó, những phương pháp Phát sinh mô tả cho ảnh truyền thống

thường có cách tiếp cận để tạo câu mô tả theo cách nối tiếp nhau Từ đầutiên trong câu mô tả được suy luận từ đặc trưng hình ảnh, những từ tiếptheo được suy luận từ thông tin của từ xuất hiện phía trước Tác dụng củaviệc này là câu mô tả thường chính xác về mặt ngữ pháp nhưng thiếu sựphù hợp về cầu trúc ngữ nghĩa

1.3.3 Thách thức trong việc phat sinh câu mô tả khác tiếng Anh

Trong giai đoạn gần đây, Phát sinh mô tả cho ảnh là một trong những vấn đẻđược cộng đồng nghiên cứu khoa học tích cực quan tâm Nhiều nghiên cứu và

Trang 24

thực nghiệm đã được đưa ra và đạt được những thành quả đáng kể, nhưng hầu

hết được thực hiện trên bộ dữ liệu có những câu mô tả bằng tiếng Anh do thiếunhững bộ đữ liệu chất lượng trong ngôn ngữ khác Tuy nhiên trên thế giới tồn tại

hàng ngàn ngôn ngữ, một công nghệ Phát sinh mô tả cho ảnh không nên bị giới

hạn trong một ngôn ngữ cụ thể Nhận thấy điều này, nhiều nhà nghiên cứu trênthé giới đã tiền hành thực hiện xây dựng những bộ dữ liệu về câu mô tả ảnh trong

những ngôn ngữ khác như tiếng Nhật, tiếng Việt, tiếng Đức, tiếng Trung, Nhìn

chung, quá trình xây dựng những bộ dữ liệu này được xây dựng theo phương

pháp: nhà nghiên cứu thu thập hình ảnh và sử dụng nguồn nhân lực từ đámđông để biên soạn những câu mô tả tương ứng Một số bộ dữ liệu liên quan sẽđược chúng tôi giới thiệu trong chương) E]

1.3.4 Thách thức trong xây dựng bộ dữ liệu tiếng Việt

Tương tự những ngôn ngữ khác ngoài tiếng Anh, một số lượng khá hạn chế bộ

di liệu câu mô tả tiếng Việt đã được xây dựng Một cách đơn giản, bộ dữ liệu câu

mô tả trong tiếng Việt có thể được xây dựng bằng hai cách:

¢ Sử dụng công cu dịch tự động: Phương pháp này sử dụng những bộ dữ

liệu câu mô tả trong ngôn ngữ khác ngoài tiếng Việt, thường là tiếng Anhlàm nên tảng, sau đó sử dụng các công cụ dịch máy tự động (ví dụ nhưGoogle Translate) để trực tiếp dịch các câu mô tả đó sang tiếng Việt Cách

tiếp cận này có thể tạo ra những bộ dir liệu có kích thước lớn mà không

cần tiêu tốn quá nhiều thời gian và công sức Tuy nhiên, nhược điểm của

phương pháp này là ngay cả khi sử dụng những phương pháp dịch máy

tiên tiến, những câu mô tả được dịch sẽ không mang văn phong tiếng Việt

và có thể tồn tại những lỗi ngữ pháp

Ví dụ trong hình [4| câu mô tả gốc trong tiếng Anh có ý nghĩa chính xác

trong tiếng Việt phải là “một người phụ nữ mặc áo khoác den dựa vio xe tải

bên cạnh một ngôi nhà”, tuy nhiên Google Translate lại cho câu mô tả khác ở

phan “xe tải của một ngôi nhà” khiến cho câu mô tả không rõ nghĩa Vì vậy,cách này thường không được sử dụng để xây dựng bộ dw liệu

10

Trang 25

Tiếng Anh a woman in black jacket leaning on truck by a house

Google Translate một người phụ nữ mặc áo khoác đen dựa vào xe tai của một ngôi nhà

HÌNH 1.4: Ví dụ về câu mô tả được dịch bằng Google Translate

¢ Gan nhãn câu mô ta thủ công: Trong phương pháp này, những câu mô tả

được biên soạn thủ công bằng con người Nhà nghiên cứu thu thập dữ liệu

hình ảnh và thành lập một nhóm người tham gia gán nhãn mô tả Những

người trong nhóm này thường là người thành thạo tiếng Việt bản địa Nhómgán nhãn có nhiệm vụ quan sát một hình ảnh và viết những câu mô tả ảnh

đó trong tiếng Việt Quá trình xây dung di liệu theo cách này sẽ cần nhiềuthời gian và chỉ phí hơn Đổi lại, những câu mô tả được đảm bảo về mặt

nội dung, ngữ pháp và thân thiện hơn với người bản xứ Với việc những mô

hình Học sâu đều yêu cầu bộ dir liệu chất lượng để có thể đạt được hiệu quả

cao, phương pháp này thường được ưu tiên trong việc xây dựng các bộ dữ

liệu Thực tế, phương pháp này đã được áp dụng trong quá trình xây dựng

hai bộ dữ liệu về câu mô tả tiếng Việt là VieCap4H[17] va UIT-ViIC[16] Chi

tiết về hai bộ dir liệu nay cũng sé được chúng tôi dé cập trong chương sau

11

Trang 26

1.4 Mục tiêu của khóa luận

Mục tiêu chính của khóa luận này là:

¢ Nghiên cứu tổng quan bài toán Phát sinh mô tả cho ảnh.

¢ Tim hiểu các những nghiên cứu, phương pháp liên quan

s Xây dựng bộ dir liệu câu mô tả tiếng Việt cho ảnh.

s Thực nghiệm và so sánh các phương pháp đã tìm hiểu trên bộ dữ liệu Tiếng

Việt.

1.5 Cấu trúc của khoá luận

Nội dung Khóa luận tốt nghiệp được tổ chức như sau:

° Chuong|i} Giới thiệu tổng quan về khóa luận.

s Chương 2} Trinh bày các nghiên cứu liên quan đến bài toán nay.

s Chương, El Trình bày chỉ tiết hướng tiếp cận của khoá luận.

° Chương [4] Trình bày môi trường thực nghiệm, tập dữ liệu, phương pháp

đánh giá và kết quả thực nghiệm.

Chương] Kết luận và hướng phát triển của khóa luận.

1.6 Đóng góp chính của khoá luận

Một cách tổng quan, những đóng góp chính của chúng tôi trong khoá luận nàybao gồm:

© Một bộ dữ liệu về Phát sinh câu mô tả tiếng Việt cho ảnh với những hình

ảnh tập trung vào lĩnh vực giao thông.

s Kết quả đánh giá một số phương pháp Phát sinh mô tả sử dụng kỹ thuậtHọc sâu trên bộ dữ liệu tiếng Việt

12

Trang 27

CÁC NGHIÊN CỨU LIÊN QUAN

Tóm tắt

Trong chương này, chúng tôi sẽ trình bày tổng quan về một số phương pháp đãđược nghiên cứu và hiện có để giải quyết bài toán Phát sinh mô tả cho ảnh, đồngthời giới thiệu sự hình thành của một số bộ dữ liệu liên quan và các bộ dữ liệunày đã được cộng đồng áp dụng rộng rãi

2.1 Một số phương pháp phát sinh mô tả cho ảnh

Phát sinh mô tả cho ảnh là một trong những bài toán quan trọng và cốt yếunhất trong lĩnh vực Học sâu Bài toán này thuộc nhóm các thuật toán máy họcSequence-to-Sequence vì dữ liệu hình ảnh và ngôn ngữ đều được xử lý ở đạngchuỗi các pixel và chuỗi các từ Nhiều phương pháp tiếp cận bài toán Phát sinh

mô tả cho ảnh bằng các kỹ thuật Học sâu đã được nghiên cứu và thực nghiệm

trong những năm vừa qua[31] Theo đó, chúng tôi tìm hiểu và trình bày

khái quát một số phương pháp nổi bật như sau:

2.1.1 Mô hình CNN-RNN

Một trong những nghiên cứu nổi bật về Phát sinh mô tả cho ảnh được thực hiện

bởi Karpathy et al.(2015){11] với hướng tiếp cận bài toán được lấy ý tưởng từ cách

con người nhìn nhận một khung cảnh Chẳng hạn khi chứng kiến một khung

cảnh như hình E-] đầu tiên con người sẽ nhận diện những vật thể hiện hữu (con

mèo, chiếc bàn, ) Sau đó, chúng ta nghĩ ra câu từ để miêu tả những vật thể này

13

Trang 28

Dataset of images and sentence descriptions Inferred correspondences

“A Tabby cat is leaning : (on a wooden table, with | —>

one paw on a laser

‘mouse and the other on black laptop”

“Tabby cat is leaning’)

hệ giữa mô tả và một phan hình ảnh (giữa) Mô hình phát sinh ra

câu mô tả mới (phải).

Nguồn:

Các tác giả lấy ý tưởng từ việc này, nhận định một chuỗi từ liên tiếp trong câu

mô tả liên hệ tới một phần cụ thể của ảnh Nhóm tác giả sử dụng những mối liên

hệ này để xây dựng hệ thống phát sinh mô tả Mô hình này sử dung hai phương,

thức để tìm mối liên hệ giữa một phần câu văn bản và một phần ảnh

Nhóm nghiên cứu giới thiệu kiến trúc mạng CNN-RNN trong hình |2.2| Một

lớp mạng Regional CNN để xác định vùng ảnh có vật thể và CNN được huấn

luyện sẵn trên ImageNet(4] để nhận dạng vật thể đó Sau đó, những đặc trưng

hình ảnh này sẽ được sử dụng để huấn luyện một kiến trúc mạng giải mã, ví dụ

như RNN, Bidirectional RNN để biểu diễn mối liên hệ giữa những chuỗi từ liên

tiếp trong câu mô tả tương ứng với những từ ngữ có trong bộ từ điển Để tínhtoán sự tương quan giữa mỗi cặp vùng ảnh và từ ngữ, bài báo đã thiết lập côngthức tính, kết quả càng lớn càng thể hiện sự liên kết giữa hình ảnh và từ ngữ đó

với nhau:

= T

Sa = Lies: MAXIE, 0; St

Cu thể, mô hình này có đầu vào là ma tran pixel của ảnh và chuỗi các vector

từ trong câu mô ta (x,xz, ,x„) và tính chuỗi các lớp mang ẩn (hidden state)(hy, hạ, , hy) để tinh toán chuỗi đầu ra (y1, 2, , yn) Lop mang ẩn tiếp theo đượctính toán từ vector đặc trưng hình ảnh, lớp mang ẩn trước và đầu vào hiện tai x.Đầu ra y; của mô hình được tính bởi công thức:

by = Wai [CNNg, (1)]

hị = f (Waxxt + Wanhe—-1 + by + 1Œ = 1) © by)

ị = softmax (Wonh; + bo)

14

Trang 29

Recurrent Neural Network

HÌNH 2.2: Kiến trúc mại CNN-RNN cơ bản.

Nguồn

2.1.2 Reflective Decoding Network

Reflective Decoding Network (RDN) 14] được giới thiệu vào năm 2019, các tacgiả đã dé cập van dé nhiều phương pháp phát sinh mô tả cho ảnh chỉ đang tậptrung khai thác đặc trưng ảnh trong khi các tính chất của ngôn ngữ chưa đượcnhận nhiều sự quan tâm Nhóm tác giả chỉ ra mối tương quan của các từ trong

bộ từ điển và cầu trúc cú pháp của câu mô tả cũng có sự ảnh hưởng lớn tới chấtlượng của câu mô tả Bài báo trình bày về quá trình phát triển của kiến trúc mạng

học sâu Reflective Decoding Network với khả năng phân tích sự liên quan của

những từ ngữ và vị trí tương đối của chúng trong câu mô tả Đầu vào là một hình

ảnh Cấu trúc của mang này được mô tả trong, hình|2.3|bao gồm hai phần:

s Lớp Encoder: Lớp Encoder này sử dụng kiến trúc mang Faster RCNN đểtrích xuất đặc trưng của những vùng ảnh mang nhiều thông tin Tan dụng

chức năng nhận diên vật thể của Faster RCNN để phân cấp các vùng của

các vật thể trong hình ảnh Tập hợp của các thông tin hình ảnh được trích

xuất Rị của một hình anh I được biểu diễn là Ry = {r;}Ƒ_;,r; € RP, với

15

Trang 30

k biểu thị số lượng các vùng trong hình ảnh đã được trích xuất, D biểu thịkích thước của các đặc trưng ở mỗi vùng trong hình ảnh và 7; là đối tượngtích chập trung bình trong vùng được trích xuất Sau đó, các thông tin đượctrích xuất từ lớp Encoder được chuyển đến lớp Decoder.

Reflective Position Module Reflective Attention Module

s Lớp Decoder: Đầu vào của lớp Decoder là một tập hợp các đặc trưng của các

vùng trong hình ảnh Rị được sản sinh ra từ lớp Encoder Và nhiệm vụ của

lớp Decoder là thực thi ra câu mô tả S với S = {s, sa, sa, , s„ }, rr là số lượng

từ trong một câu Các câu mô tả được thực thi không chỉ biểu diễn và mô

tả các thông tin trong hình ảnh mà câu đó còn phải có nghĩa và mạch lạc.

Như trong hình|2.3| lớp Decoder được thiết kế với 3 phan: Attention-based

16

Trang 31

Recurrent Module, Relective Attention Module, Reflective Position Module.

Phần Attention-based Recurrent Module được tạo ra để tham gia trực tiếp

vào việc nhận diện các đặc trưng của hình ảnh ở mỗi vùng và là phương

thức cơ bản của lớp Decoder Còn các phần như Reflective Attention Module

va Reflective Position Module được thiết ké nằm ở phía trên nó để hỗ trợ choviệc tạo ra các câu mô tả chất lượng Vì thế, Reflective Decoding Network

có thể xử lý được cả về tính nhất quán lịch sử của các từ ngữ và thông tincầu trúc cú pháp trong khi tạo ra câu mô tả cho hình ảnh Cụ thể, cấu trúccủa bộ phận Decoder gồm những phần sau:

— Attention-based Recurrent Module có trách nhiệm xử lý thông tin và

các đặc trưng của hình ảnh được trích xuất từ lớp Encoder based Recurrent Module này bao gồm có hai lớp: là lớp LSTM đầu tiên

Attention-và lớp Visual Attention Aff,;; Hai lớp này được thiết kế để tính toán ti

lệ về độ quan trọng ở các vùng đặc trưng trong hình ảnh Đầu vào củaphan này là x} ở thời điểm f chứa ba phần nối nhau: đặc trưng trung

bình của các hình ảnh 7 = } rh r¡, vector W,O; của các từ ngữ từ đầu

vào O; và dau ra ở thời điểm — 1 từ lớp LSTM thứ hai LOẠN với 7 đại

điện cho thông tin ngữ cảnh của hình ảnh từ đầu vào, We € IRFYD› là

ma trận của một vector O;, Dạ là kích thước của từ vựng của các câu

mô tả Công thức để cập nhật lớp LSTM thứ nhất được định nghĩa như

Sau:

h} = LSTM(†,h} ),x) = [T,W,Ou, lệ 1Ì

Về lớp Visual Attention Aftyis, đầu vào là h} đã được thực thi và tập

hợp k đặc trưng hình ảnh Chúng tôi tính toán được trọng lượng chú ý

a?’ trên tất cả các vùng được trích xuất được biểu diễn như sau:

địt = Wjtanh(W}r¡ + Wilh)

vis vis) vis — qvis

a; soƒtmax(at'Š),a‡ LÊ.

— Reflective Attention Module có nhiệm vu mô hình hoá các trạng thái

hiện tại và quá khứ của Decoder để lưu trữ thông tin của những từ ngữ

17

Trang 32

được phát sinh đầu tiên Phần này được thiết kế với một lớp LSTM thứhai và lớp Reflective Attention dùng để mô tả đầu ra của ngôn ngữ Reflective Attention Module chứa lớp Reflective Attention Aff,„; két

hợp với lớp LSTM thứ hai Được thiết kế như vậy để mô tả ngôn ngữ

đầu ra Đầu vào của nó là vector được nói với kết quả trọng lượng củacác đặc trưng 7 và một trạng thái ẩn h} Vì thế, công thức cho việc cập

nhật lớp LSTM thứ hai được biểu diễn như sau:

lệ = LSTM(x?,h?_,), x? = [fi,hị].

Dựa vào trang thái ẩn hiện tại /? ở thời điểm í và các trạng thái ẩn kháctrong quá khứ {h{,hệ, hậ, hệ ¡} Lớp Reflective Attention After tinh

toán trọng lượng ave trên tat cả trang thái ẩn t được thấy ở phía trên

bên phải của hinh[2.3| Công thức được định nghĩa như sau:

ae ¬ Wftanh(W? yh? + WỆ ph),

Pan

af! = softmax(at’!),ai°! = af ef,

Reflective Attention Module được dé xuất mô hình hóa sự phụ thuộc

giữa các cặp từ ở các bước thời gian khác nhau một cách rõ ràng, có

tính đến các trạng thái ẩn tương ứng Hơn thế nữa, lớp LSTM thứ haighi nhớ thông tin trình tự lịch sử bằng cách cân bằng mức độ liên quantổng thể của tất cả các bước thời gian thay vì lập mô hình phụ thuộc

cho từng cặp từ cụ thể.

— Reflective Position Module có khả năng tính toán vị trí tương đối của

mỗi từ trong câu mô tả và cầu trúc cú pháp của toàn bộ câu mô tả.

Có nhiều trường hợp từ ngữ có vị trí tương đối cố định trong một câu

do cầu trúc cú pháp trong ngôn ngữ tự nhiên Ví dụ như các từ "một

người đàn ông" hoặc "một người phụ nữ" chỉ xuất hiện chủ yếu ở đầu

câu Còn vị ngữ thường chiếm ở các vị trí giữa câu Đó chính là lý do

sự tồn tại của Reflective Position Module và đề xuất thông tin của vị trí

từ trong một câu để hướng dẫn cho mô hình có thể giải mã các vị trí

của từ.

18

Trang 33

2.1.3 DenseCap

Trong bài nghiên cứu DenseCap[10]

của bài toán Phát sinh mô tả cho ảnh, gọi là Dense Captioning với mục tiêu giúp

nhóm tác giả đã giới thiệu một dạng mới

máy tính có khả năng nhận diện vị trí và miêu tả tất cả mọi khía cạnh của nộidung ảnh dựa trên mối liên hệ giữa các từ ngữ và đối tượng trong ảnh, được mô

tả qua hình 2.4] Cách tiếp cận của bài báo này là thiết kế một lớp kiến trúc mạng

Classification Detection

Skateboard

Captioning Dense Captioning

Sequence range spotted cat)

Acat Skateboard with

riding a red wheels

label skateboard ply

complexity Brown hardwood

này cơ bản có 3 phần chính được thể hiện trong hình [2.5] bao gồm:

» Bộ phận mạng tích chập: Lớp này sử dụng kiến trúc mang VGG-16[26], day

là một trong những kiến trúc mạng tích chập có hiệu quả tốt nhất trên bộ dữliệu ImageNet Bộ phận này bao gồm 13 lớp tích chập và 5 lớp max pooling.Với mỗi ảnh đầu vào, bộ phận này sẽ xử lý và xuất ra một tập các vị trí củanhững vùng được lầy mẫu trong ảnh, từ đó hình thành đầu vào của lớp tiếp

theo.

19

Trang 34

¢ Bộ phận Localization(FCLN): Đầu vào của bộ phận này bao gồm các hàm

kích hoạt và tập những vùng ảnh quan trọng Kiến trúc mạng Localizationnay được lấy ý tưởng từ Faster R-CNN

thé bởi Bilinear Interpolation Diéu này giúp cho mô hình có khả năng lan

với phan Rol pooling được thay

truyền ngược chiều qua toạ độ của những vùng ảnh Dữ liệu từ bộ phậnnày được xử lý và chuyển thành tập hợp B vùng ảnh chứa những đối tượngquan trọng và xuất ra 3 tensor chứa thông tin:

- Toạ độ vùng ảnh: Ma trận có chiều B x 4 chứa toạ độ bounding box

¢ Bộ phận RNN(LSTM): Dữ liệu từ lớp mạng phía trước sẽ được nhúng cùng

với câu mô tả để thiết lập mô hình ngôn ngữ Với mỗi một chuỗi từ $1, , $7,

mô hình nhận vào vector x_1,xọ,x, ,*r với x_1 = CNN(J) là dữ liệu

vùng ảnh từ lớp mạng trước, xo là ký tự đặc biệt để báo hiệu bắt đầu chuỗiSTART và x; là mỗi từ ngữ được mã hoá Mạng RNN tính toán chuỗi nhữngtrạng thái ẩn (hidden state) ; và vector đầu ra y; bằng công thức LSTM

và những tham số còn lại được khởi tạo bằng hàm gaussian Đối với hàm mat mát,

bộ phan CNN sử dung stochastic gradient descent va Adam cho mỗi bộ phận còn

20

Trang 35

lại Bộ dữ liệu Visual Genome(15] được sử dụng trong quá trình huấn luyện mô

hình này.

Image Region features

3xWxH Conv features: BxCxXxY

‘Striped gray cat

Cats watching TY

~~ Localization Layer 7"7>"> - 2

HINH 2.5: Kiến trúc mang Fully Convolutional Localization

Net-work.

2.2 Một số bộ dữ liệu liên quan

Trong phần này, chúng tôi trình bày về quá trình phát triển của một số bộ dữ liệuhiện có cho bài toán Phát sinh mô tả cho ảnh trong ngôn ngữ tiếng Anh, tiếng

Việt và một số ngôn ngữ khác.

2.2.1 Bộ dữ liệu tiếng Anh

Nhiều bộ đữ liệu câu mô tả cho ảnh trong tiếng Anh đã được xây dựng, trong

đó tiêu biểu nhất là hai bộ dữ liệu Flickr30K| và Microsoft COCO Captions| BỊ.

Nhiều phương pháp sử dụng kiến trúc mạng Học sâu đã được thực nghiệm và

đạt những thành tựu đáng mong đợi trong hai bộ dữ liệu này.

© Flickr30K: Bộ dữ liệu Flickr30K được công bố là bộ dữ liệu mở rộng từ

bộ dữ liệu Flick8K của Hodosh et al.[8 Bộ dữ liệu nay bao gồm 31,783

hình ảnh về đời sống sinh hoạt hàng ngày được thu thập từ trang mang

chia sẻ hình ảnh Flickr Với mỗi hình ảnh, năm câu văn bản mô tả được

biên soạn bằng phương pháp Crowdsourcing (tìm kiếm nguồn lực từ đámđông) Nhóm tác giả cũng sử dụng phương pháp thu thập hình ảnh và bộ

quy tac viết câu mô tả của Hodosh Những người tham gia gan nhãn mô tảđều không hiểu biết rõ về những đối tượng có tên riêng trong ảnh, điều này

21

Trang 36

đảm bảo những câu mô tả không mang tính chất cá nhân hoá Bên cạnh đó,những người ghi chú thích được khuyến khích nhìn nhận hình ảnh dướinhiều góc độ khác nhau, từ tổng thể cho đến từng sự vật sự việc diễn ra

trong hình Flickr30K là bộ dữ liệu được xây dựng chuyên dụng để nghiên

cứu và là một nền tảng để đánh giá hiệu suất của các phương pháp Phát

sinh mô tả cho ảnh.

Gray haired man in black suit and yellow tie working in a financial environment.

A graying man in a suit is perplexed at a business meeting.

A businessman in a yellow tie gives a frustrated look

A man ina yellow tie is rubbing the back of his neck.

A man with a yellow tie looks concerned.

A butcher cutting an animal to sell.

A green-shirted man with a butcher's apron uses a knife to carve out the hanging carcass of a cow:

Aman at work, butchering a cow.

A man in a green t-shirt and long tan apron hacks apart the carcass of a cow while another man hoses away the blood.

Two men work in a butcher shop; one cuts the meat from a butchered cow, while the other hoses the floor.

HINH 2.6: Ví dụ về hình ảnh va câu mô tả trong Flickr30K.

Nguồn:

® Microsoft COCO Captions: Trong một khía cạnh khác, MS COCO Captions

được xây dựng với nhiệm vụ là một bộ đữ liệu lớn được có thể sử dụng cho

việc nghiên cứu nhiều lĩnh vực như Phân loại ảnh, Nhận dạng vật thể, Phátsinh mô tả cho ảnh, Dựa trên nền tảng của bộ dữ liệu này, MS-COCOCaption|3] ra đời và là một bộ dữ liệu chuyên dành cho ngiên cứu bai toán

Phát sinh mô tả cho ảnh Những người xây dựng MS COCO Captions thu

thập dit liệu hình ảnh từ bộ dữ liệu gốc MS COCOI (19] với mục tiêu thu thập

nhiều hình ảnh có đa dạng đối tượng xuất hiện trong những khung cảnh

tự nhiên Điều này khiến day trở thành một bộ dữ liệu nhiều thách thức vàtiềm năng Tổng số lượng hình ảnh được thu thập lên tới hơn 330,000 hìnhảnh thuộc nhiều lĩnh vực khác nhau Tat cả hình ảnh được phân chia thànhcác tập con với chức năng huấn luyện, kiểm định và kiểm tra Với mỗi hình

anh trong bộ di liệu, năm câu mô tả được gán nhãn thủ công bởi công nhân

từ Amazon’s Mechanical Turk (AMT).

22

Trang 37

+ Do not give people proper names.

+ The sentence should contain at least 8 words.

Những người tham gia gan nhãn trong AMT được cung cấp một công cu hỗtrợ có giao điện như hình|2.7]và các câu mô tả phải dam bảo đáp ứng đượcnhững quy tắc sau:

1 Mô tả tất cả những phần quan trọng trong bức hình

Không bắt đầu câu mô tả với "There is”

2

3 Không mô tả những chỉ tiết không cần thiết

4 Không mô tả những sự việc diễn có thể diễn ra trong quá khứ hoặc

tương lai.

5 Không mô tả những gì mà một người có thể nói.

6 Không sử dụng tên riêng cho một người cụ thể.

7 Mỗi câu mô tả có ít nhất 8 từ ngữ

Bằng phương pháp này, hơn một triệu câu mô tả đã được gán nhãn bởiAMT Kể từ khi được hoàn thành, MS COCO Captions là bộ dữ liệu được

sử dụng làm cơ sở đánh giá cho nhiều bài toán và cuộc thi về Nhận diện vật

2

Ngày đăng: 23/10/2024, 01:16

HÌNH ẢNH LIÊN QUAN

HINH 1: Hình ảnh và câu mô tả tương ứng. - Khóa luận tốt nghiệp Khoa học máy tính: Image captioning trong bộ dữ liệu tiếng Việt
1 Hình ảnh và câu mô tả tương ứng (Trang 16)
HÌNH 1.4: Ví dụ về câu mô tả được dịch bằng Google Translate - Khóa luận tốt nghiệp Khoa học máy tính: Image captioning trong bộ dữ liệu tiếng Việt
HÌNH 1.4 Ví dụ về câu mô tả được dịch bằng Google Translate (Trang 25)
Hình ảnh này sẽ được sử dụng để huấn luyện một kiến trúc mạng giải mã, ví dụ như RNN, Bidirectional RNN để biểu diễn mối liên hệ giữa những chuỗi từ liên tiếp trong câu mô tả tương ứng với những từ ngữ có trong bộ từ điển - Khóa luận tốt nghiệp Khoa học máy tính: Image captioning trong bộ dữ liệu tiếng Việt
nh ảnh này sẽ được sử dụng để huấn luyện một kiến trúc mạng giải mã, ví dụ như RNN, Bidirectional RNN để biểu diễn mối liên hệ giữa những chuỗi từ liên tiếp trong câu mô tả tương ứng với những từ ngữ có trong bộ từ điển (Trang 28)
HÌNH 2.2: Kiến trúc mại CNN-RNN cơ bản. - Khóa luận tốt nghiệp Khoa học máy tính: Image captioning trong bộ dữ liệu tiếng Việt
HÌNH 2.2 Kiến trúc mại CNN-RNN cơ bản (Trang 29)
Hình này. - Khóa luận tốt nghiệp Khoa học máy tính: Image captioning trong bộ dữ liệu tiếng Việt
Hình n ày (Trang 35)
Hình ảnh về đời sống sinh hoạt hàng ngày được thu thập từ trang mang chia sẻ hình ảnh Flickr - Khóa luận tốt nghiệp Khoa học máy tính: Image captioning trong bộ dữ liệu tiếng Việt
nh ảnh về đời sống sinh hoạt hàng ngày được thu thập từ trang mang chia sẻ hình ảnh Flickr (Trang 35)
Hình ảnh va mô tả. Tuy nhiên, xây dựng một bộ dữ liệu như vậy không phải là - Khóa luận tốt nghiệp Khoa học máy tính: Image captioning trong bộ dữ liệu tiếng Việt
nh ảnh va mô tả. Tuy nhiên, xây dựng một bộ dữ liệu như vậy không phải là (Trang 44)
HÌNH 3.1: Một số hình ảnh trong MS COCO. - Khóa luận tốt nghiệp Khoa học máy tính: Image captioning trong bộ dữ liệu tiếng Việt
HÌNH 3.1 Một số hình ảnh trong MS COCO (Trang 47)
BẢNG 3.2: Các trường thông tin được lưu của mỗi câu mô tả. - Khóa luận tốt nghiệp Khoa học máy tính: Image captioning trong bộ dữ liệu tiếng Việt
BẢNG 3.2 Các trường thông tin được lưu của mỗi câu mô tả (Trang 47)
HÌNH 3.3: Công cu kiểm tra độ dai của mỗi caption. - Khóa luận tốt nghiệp Khoa học máy tính: Image captioning trong bộ dữ liệu tiếng Việt
HÌNH 3.3 Công cu kiểm tra độ dai của mỗi caption (Trang 49)
HÌNH 3.5: Tổng quan kiến trúc mô hình CLIP. - Khóa luận tốt nghiệp Khoa học máy tính: Image captioning trong bộ dữ liệu tiếng Việt
HÌNH 3.5 Tổng quan kiến trúc mô hình CLIP (Trang 57)
HÌNH 4.1: Mô hình tập trung các đặc trưng quan trong trong anh - Khóa luận tốt nghiệp Khoa học máy tính: Image captioning trong bộ dữ liệu tiếng Việt
HÌNH 4.1 Mô hình tập trung các đặc trưng quan trong trong anh (Trang 63)
Hình ảnh và kích thước có hạn của bộ dữ liệu. - Khóa luận tốt nghiệp Khoa học máy tính: Image captioning trong bộ dữ liệu tiếng Việt
nh ảnh và kích thước có hạn của bộ dữ liệu (Trang 70)

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN