1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học máy tính: Mô hình sáng tác thơ từ nội dung ảnh sử dụng mạng tạo sinh

108 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Mô hình sáng tác thơ từ nội dung ảnh sử dụng mạng tạo sinh
Tác giả Đặng Hoàng Sang, Phạm Chí Thành
Người hướng dẫn TS. Nguyễn Vinh Tiệp
Trường học Trường Đại học Công nghệ Thông tin
Chuyên ngành Khoa học Máy tính
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2021
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 108
Dung lượng 51,68 MB

Nội dung

Chúng tôi hy vọng với bộ dữ liệu mà chúng tôi tạo ra cùng kết quả đạt được trong kháo luận này sẽ hỗ trợ và tạo động lực, truyền cảm hứng cho các nghiên cứu khác trong bài toán phát sinh

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRUONG DAI HQC CONG NGHE THONG TIN

KHOA KHOA HỌC MAY TÍNH

DANG HOANG SANG PHAM CHi THANH

KHOA LUAN TOT NGHIEP

MO HINH SANG TAC THO DỰA TREN NOI DUNG HÌNH ANH

SỬ DUNG MẠNG TẠO SINH DOI KHANG

CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH

TP HÒ CHÍ MINH, 2021

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRUONG DAI HQC CONG NGHE THONG TIN

KHOA KHOA HỌC MAY TÍNH

DANG HOANG SANG - 17520967 PHAM CHi THANH - 17521055

KHOA LUAN TOT NGHIEP

MO HÌNH SANG TÁC THƠ DỰA TRÊN NỘI DUNG HÌNH ẢNH

SỬ DỤNG MẠNG TẠO SINH ĐỎI KHÁNG

CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH

GIẢNG VIÊN HƯỚNG DẪN

TS NGUYÊN VINH TIỆP

TP HÒ CHÍ MINH, 2021

Trang 3

DANH SÁCH HỘI ĐÒNG BẢO VỆ KHÓA LUẬN

Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số

TIBầY ccccccec của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

1 Chủ tịch:

2 Thư ký:

3 Ủy viên:

4.Ủy viên:

Trang 4

LOI CAM ON

"Một cánh én không thể làm nên mùa Xuân", một bông hoa không thé phủ sắc

cả ngọn đổi Trong suốt quá trình nghiên cứu và thực hiện khóa luận, chúng em đã

nhận được sự giúp đỡ và hỗ trợ nhiệt tình từ thầy cô, các anh chị và bạn bè.

Chúng em xin được cảm ơn thầy Nguyễn Vinh Tiệp đã hướng dẫn nhóm từ những ngày đầu đến với đề tài Thời gian được làm việc cùng thầy Tiệp, nhóm em ngoài học hỏi thêm được kiến thức mà còn học được về tác phong làm việc, kỹ năng phân tích, giải quyết vấn đề và kỹ năng trình bày Đây sẽ là những hành trang cho chúng em trên những chặng đường sắp tới Chúng em xin được cảm ơn quý thầy cô khoa Khoa Học Máy Tính đã giảng dạy, dìu dắt chúng em trong suốt quá trình học

tập tại trường.

Chúng em xin cảm ơn các anh chị và các bạn trong Phòng Thí Nghiệm Đa

Phương Tiện, trường Đại Học Công Nghệ Thông Tin đã giúp đỡ va chia sẻ những

kiến thức quý báu Mọi người trong phòng thí nghiệm đều cởi mở, không ngại chia

sẻ, tạo cho chúng em một môi trường làm việc hòa đồng và thân thiện Xin được

cảm ơn các bạn sinh viên khoa Khoa Học Máy Tính, trường Đại học Công Nghệ

Thông Tin đã tham gia hỗ trợ nhóm trong quá trình làm dữ liệu.

Chúng em xin cảm ơn gia đình và những người bạn luôn là chỗ dựa và niềm

động lực to lớn cho chúng em vững bước trên chặng đường đã qua và trên con đường phía trước.

Chúng em xin chân thành cảm ơn!

TP.HCM, tháng 01 năm 2021.

Trang 5

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHỆ THÔNG TIN T————————————————

ĐĂNG KÝ ĐÈ TÀI KHÓA LUẬN TÓT NGHIỆP

TÊN ĐÈ TÀI: MÔ HÌNH SÁNG TÁC THƠ TỪ NỘI DUNG ẢNH SỬ DỤNG

MẠNG TẠO SINH

TÊN ĐÈ TÀI TIENG ANH: POEM GENERATION FROM IMAGE CONTENT

USING GENERATIVE ADVERSARIAL NETWORKS

Cán bộ hướng dẫn: TS Nguyễn Vinh Tiệp

Thời gian thực hiện: Từ ngày 05/09/2020 đến ngày 10/01/2021.

Sinh viên thực hiện:

Đặng Hoàng Sang - 17520967 Lớp: KHCL2017.2

Email: 17520967)gm.uit.edu.vn Điện thoại: 0974187934

Phạm Chí Thành - 17521055 Lớp: KHCL2017.2

Email: 17521055@gm.uit.edu.vn Điện thoại: 0338558632

Nội dung đề tài:

Hiện nay hệ thống tự động sinh ra ngôn ngữ tự nhiên đang thu hút được nhiều sự quan

tâm của mọi người Đây là một bài toán kết hợp giữa thị giác máy tính và xử lý ngôn

ngữ tự nhiên Trong đề tài này sẽ nghiên cứu và xây dựng một mô hình sáng tác thơ từ nội dung ảnh Thơ ca Việt Nam là một phần của đời sống tỉnh thần của người Việt Nam,

Trang 6

một số thê loại thơ đặc trưng cho Văn học Việt Nam mang đậm bản sắc dân tộc như thơ

lục bát Sáng tác thơ từ nội dung ảnh là một để tài thách thức, bao gồm việc khai thắc nội

dung từ ảnh, phát sinh từ ngữ để tạo thành bài thơ và đảm bảo các quy tắc về thơ, gieo

vần Với sự phát triển của các thuật toán, hiện nay các mô hình học sâu đang được ứng

dụng rộng rãi nhừo vào khả năng giải quyết hiệu quả nhiều bài toán khác nhau Đối với

bài toán phát sinh thơ từ ảnh, chúng tôi sử dụng các mô hình học sâu CNN để khai thác

nội dung ảnh, sử dụng mạng hồi quy RNN và mạng sinh GAN để phát sinh thơ.

Mục tiêu: Nghiên cứu và xây dựng mô hình có khả năng tạo ra thơ dựa vào nội dung của ảnh.

Phạm vi: Tạo ra thơ dựa trên ảnh phong cảnh.

Đối tượng:

©- Đầu vào: Ảnh chụp từ đời thực.

¢ Pau ra: Bài thơ với nội dung có liên quan đến anh đầu vào.

Phương pháp thực hiện:

e Thu thập dữ liệu về thơ ca Việt Nam và anh có liên quan.

e Xây dựng thuật toán tìm thơ dựa vào các từ khoá cho trước bằng thuật toán

truy vấn văn bản.

e Str dụng các mang CNN dé rút trích đặc trưng ảnh.

e _ Phân loại nhóm đối tượng trong ảnh, không gian ảnh và cảm xúc ảnh.

e Sử dụng bộ dữ liệu ảnh và thơ để huấn luyện và tạo sinh thơ thông qua mạng

RNN và GAN.

e Xây dựng ứng dụng minh hoa.

Kết quả mong đợi: Mô hình huấn luyện có thể tạo ra một bài thơ từ nội dung của ảnh

đầu vào, đáp ứng được những quy tắc của thơ Việt Nam (gieo van, nhịp tho, ) và nội

Trang 7

dụng của thơ có liên quan đến nội dung ảnh.

Kế hoạch thực hiện:

- Giai đoạn 1 (09/2020 — 10/2020): Tìm hiểu các phương pháp cho từng bài toán:

truy vấn thơ, nhận diện đối tượng, tạo sinh câu tiếng Việt Tìm hiểu các công trình nghiên cứu liên quan đến Chạy thử các phương pháp và tìm ra điểm tốt, chưa tốt.

- Giai đoạn 2 (10/2020 — 12/2020): Nghiên cứu, cải tiễn các phương pháp cho từng

bài toán Xây dụng ứng dụng minh hoạ.

- Giai đoạn 3 (12/2020 — 01/2021): Chỉnh sửa, hoàn thiện, đóng gói khoá luận.

Người thực hiện Nhiệm vụ

Tìm hiểu đề tài

- Thu thập dữ liệu tho ca Việt Nam và ảnh

liên quan

- Tìm hiểu bài toán nhận diện đối tượng, tạo

Đặng Hoàng Sang sinh câu tiếng Việt

- Danh giá, cải thiện mô hình

- Cập nhật, liên kết các phân đoạn bài toán,

xây dựng hệ thống hoàn chỉnh

- Soạn slide thuyét trinh

- Tim hiéu dé tai

- Thu thập di liệu thơ ca Việt Nam và ảnh

Phạm Chí Thành liên quan

- Nghiên cứu thuật toán truy vấn văn bản

- Đánh giá, cải thiện mô hình

Trang 9

Mục lục

Tom tắt nội dung

1_TỔNG QUAN

ị 11 Đặt vấn dé

1.2 Bài toán phát sinh thơ từ hìnhảnh|

1.21 Giới thiệu bài toán|

1.2.2 Tính ứng dụng và nghiên

cứu| -1.2.3 Một số thách thức của bài

toán| -1.3 Tinh hìnhnghiên

cứu| - -1.3.1 Tình hình nghiên cứu của các bài toán tạo thành|

1.3.2 Bài toán tự động phat sinh thơ ở Viet Nam|

1.4

1.4.1 Mục tiêu|

1.4.2 Đối tượng

1.5 Đóng góp ctiadétai), eee

ix

iv

xvi

wo 0D oO b FE Re

RP oRm N

17

Trang 10

2_ KIÊN THUC NEN TANG 22

2.1 Tổng quan về mạng nơ-rôn nhân tạo| - 2

2.1.1 Mạng lan truyền đa tang thuận| 23

21.2 Tầngẩn| ẶQQ eee 25

21.3 Tangdaural 2 eee 25

2.2 Mangno-rontichchap] 2.0000 eee eee ee 26

2.2.1 Giới thiệu mang nơ-rôn tích chập| - 26

2.22 Lớptíchchập| - c 27

2.2.3 Lớp kếtnối đầy đủ| 30

2.2.4 Mạng no-ron tích chap ResNet| 30

2.3 Mạng nơrôn hồi quy| -.ccS 31

2.3.1 Giới thiệu mạng nơ-rôn hỏi quy, 31

33

38

2.5 Bài toán truy vấn thông tin| c co 39

IEE xố SO .,C Add 40

2.5.2 Các phương pháp biểu diễn truyền thống| 40

44 46 47

|š_ BÀI TOÁN PHÁT SINH THƠ TU ANH KET HỢP CÁC PHƯƠNG PHAP

HỌC SAU 50 3.1 Mô hình truy van thơ dựa vào từ khóa trích xuât được từ anh] 50

3.2 Mô hình truy vấn tho dựa vào véc-tơ trực quan của hình anh] 53

3.3 Mô hình sáng tác thơ dựa vào hình anh sử dụng sử dung mang tao

sinh đối kháng| cẶQ ee 58

Trang 11

[4 XÂY DỰNG BỘ DU LIEU]

4.1.1 Thu thập dữ liệu

thơ [41⁄2 Tiên xử lý dữ liệu thơ tiếng Vid]

-|4.2_ Xây dựng bộ dữ liệu bao gồm các cặp hình ảnh và thơ (UIT-I2P-Dataset) 4.2.1 Ghép cặp hình ảnh và thơị

4.22 Xửlýảnh trùng|

4.3 Tổng kết bộ dữ liệu thu

được -5_ THỰC NGHIỆM, ĐÁNH GIA KET QUA B.1 Môi trường hệ

thông| -5.1.1 Các công cụ,thư viện hỗ

trợ| -5.1.2 Cấu hình máy thực

nghiệm| -5.2 Các độ đo đánhgiá| c

521 ĐộdITUrm s18 ./.⁄

5.2.2 ĐộđoRelevancel

5.2.3 Đánh giá bởi con người (Human Judgment]

5.3 Các thông số khi huấn luyện môhình|

5.4 Quá trình huấn luyện

môhình| -5.4.1 Huấn luyện mô hình biểu diễn hình ảnh và thơ|

5.4.2 Huân luyện mô hình sinh thơ LSTM-GAN]

5.5 Kết quả thu được, nhận xét và đánh

giá| -6 KÊT LUẬN VÀ HƯỚNG PHAT TRIEN

6.2 Hướng phát triển| ẶcQQ Q So

Tài liệu tham khảo|

xi

Trang 12

Danh sach hinh ve

1.1 Hình ảnh minh họa đầu vào va đầu ra của bài toán phát sinh thơ từ

ảnh cho ngôn ngữ tiếng Anh 51.2 Hình ảnh minh hoa đầu vào và dau ra của bài toán phát sinh tho từ

ảnh cho ngôn ngữ tiếng Việt| 51.3 Hình ảnh kiến trúc mô hình sinh thơ từ ảnh được đề xuất bởi Wen-

Feng Cheng và các cong sự,2018| - 15

1.4_ Hình ảnh kiến trúc mô hình sinh thơ từ ảnh được đề xuất bởi Yusen

2.3 Ví dụ minh họa phép nhân tích chập với đầu vào là tensor có kích

thước 6x6, bộ lọc có kích thước 3x3 và số bước nhảy là 1

2.4 Ví dụ minh họa về max pooling|_ 29

2.5 Hình minh họa một Residual block|l - 31

2.6 Kiến trúc mạng nơ-rôn hồi quy| - 322.7 Cấu trúc của một nơ-rôn trong mạng nơ-rôn hồi quy 34

2.8 Cau trúc của một nơ-rôn trong mạng chuỗi nhớ ngắn dài 342.9 Trục truyền thông tin ngữ cảnh của mạng chuỗi nhớ ngắn dài 35

Trang 13

2.10 Cổng quên trong mang chuỗi nhớ ngắn dài

2.12 Cập nhật thông tin ngữ cảnh trong mạng chuỗi nhớ ngắn dai

2.13 Cổng ra của mạng chuỗi nhớ ngắn dài

2.14 a) Là véc-tơ đơn trội BoW biểu diễn cho 1 từ b) Là véc-tơ BoW biểu

¬———— nee 41

2.15 Ví dụ về cửa số ngữ cảnh có kích thước bang 1 43

2.16 Ví dụ về ma trận đồng xuất hiện 432.17 Kiến trúc tổng quan của mạng GAN.| 49

4.1 Giao diện trang web thu thập dư liệu.

4.2 Biểu đồ thống kê số lượng các hình ảnh thuộc các lớp phổ biến trong

./⁄4@6P Y\ } 68

5.1 Biểu đồ giá trị hàm loss trong quá trình huấn luyện mô hình biểu diễn

Trang 14

Danh sách bảng

Trang 15

Danh sách từ viết tắt

CNN Convolutional Neural Network

RNN _ Recurrent Neural Network LSTM Long Short-Term Memory

GAN _ Generative Adversarial Network

BLEU Bilingual Evaluation Understudy

XV

Trang 16

TÓM TẮT KHOÁ LUẬN

Cùng sự tiến bộ của công nghệ và kỹ thuật hiện nay, các hệ thống máy tính thông

minh ngày càng được ứng dụng rộng rãi và thể hiện sức mạnh của mình trong việc

giải quyết hiệu quả nhiều bài toán khác nhau Hiện nay con người vẫn luôn tìm cách

để phát triển các hệ thống máy tính để hướng đến các mục tiêu cao hơn, trong đóviệc một hệ thống máy tính có khả năng hiểu được thé giới thị giác và giao tiếp với

con người thông qua ngôn ngữ tự nhiên là một trong những mục tiêu lớn, giàu tiềm

năng và có ý nghĩa lớn với nhân loại của trí tuệ nhân tạo Để thực hiện mục tiêu này,

nhiều bài toán được được ra và nhiều công trình nghiên cứu Một trong những bàitoán phổ biến nhất và có nhiều bài báo nghiên cứu nhất có thể kể đến như bài toán

tự động đánh chú thích cho ảnh (Image Captioning), bài toán này nhận đầu vào làmột hình ảnh và có gắng sinh ra một câu mô tả bằng ngôn ngữ tự nhiên cho hìnhảnh đó hoặc bài toán Từ bài toán Image Captioning nhiều bài toán có liên quan được

đặt ra, một trong số đó là bài toán phát sinh thơ dựa trên hình ảnh, bài toán này

nhận đầu vào là một hình ảnh và sẽ trả về một bài thơ bằng ngôn ngữ tự nhiên có liên quan đến hình ảnh đó.

Bài toán phát sinh thơ mang trong nó nhiều thách thức tuy nhiên lại là một bàitoán thú vị và thu hút được sự quan tâm của nhiều nhóm nghiên cứu như nhóm

nghiên cứu từ OpenAl, MIT hay Google Phát sinh thơ từ ảnh có thể được xem là

một bài toán phát triển từ bài toán phát sinh thơ, đối với bài toán phát sinh thơ, một

bài thơ được tao ra từ các từ khóa hoặc chủ dé do người dùng gợi ý hoặc cung cấp

còn đối với bài toán phát sinh thơ từ ảnh thì hệ thống sẽ tạo ra một bài thơ dựa trên

hình ảnh do người dùng cung cấp Tuy nhiên bài toán phát sinh thơ từ hình ảnh vẫn

còn là một bài toán khá mới và các thử nghiệm chỉ áp dụng trên dữ liệu thơ tiếngAnh hoặc tiếng Trung

Trang 17

Trong khóa luận này, chúng tôi nghiên cứu các phương pháp sáng tạo thơ từ ảnh

đặc biệt là phương pháp áp dụng CNN+LSTM+GAN, tức là khai thác đặc trưng

hình ảnh thông qua mạng CNN, sinh câu mô tả bằng mạng LSTM và cải thiện quá

trình huấn luyện với kiến trúc mạng GAN Chúng tôi thử nghiệm các phương phápnày trên bộ dữ liệu thơ với ngôn ngữ là tiếng Việt, ngôn ngữ đang có hơn 90 triệu

người sử dụng.

Trở ngại lớn nhất của đề tài nghiên cứu này chính là việc chưa có một bộ dt liệuhình gồm hình ảnh và thơ cho tiếng Việt Do đó, chúng tôi đã xây dựng một bộ dữ

liệu cho bài toán Bên cạnh đó để hạn chế một số khuyết điểm của tiếng Việt, nhiều

nghiên cứu cho thấy việc sử dụng tách từ cho tiếng Việt có hiệu quả cho các bài toánliên quan đến ngôn ngữ tiếng Việt Vì vậy, chúng tôi áp dụng tách từ tiếng Việt vàobước tiền xử lý dữ liệu tiếng Việt trước khi huấn luyện hệ thống

Chúng tôi tiến hành thử nghiệm trên bộ dữ liệu đã xây dựng, kết quả thu đượcrất khả quan, mô hình sau khi huấn luyện có khả năng phát sinh thơ và nội dung thơ

có liên quan đến hình ảnh đầu vào Chúng tôi hy vọng với bộ dữ liệu mà chúng tôi

tạo ra cùng kết quả đạt được trong kháo luận này sẽ hỗ trợ và tạo động lực, truyền

cảm hứng cho các nghiên cứu khác trong bài toán phát sinh thơ dựa vào hình ảnh

cho ngôn ngữ tiếng Việt, một bài toán đầy thách thức này

Trang 18

Mạng học sâu Deep Neural Networks ngày nay đã không còn xa lạ với mọi người

vì những ứng dụng rộng rãi của nó trong cuộc sông Những tiến bộ gan đây của các

mạng học sâu đã thúc đẩy cơ hội cho các nghiên cứu đặc biệt là hướng nghiên cứu

kết hợp giữa thị giác máy tính và xử lý ngôn ngữ tự nhiên Phát sinh chú thích từhình ảnh là một trong các hướng nghiên cứu đó, với yêu cầu sinh ra một câu chú

thích dựa trên nội dung của hình ảnh.

Là một bài toán quan trọng được dé ra từ giai đoạn đầu của lĩnh vực Trí tuệnhân tạo (TTNT), là sự kết hợp giữa hai hướng nghiên cứu về hình ảnh và ngôn ngữnên chú thích hình ảnh mang trong nó nhiều thách thức, đến nay nó vẫn là một bàitoán chưa được giải quyết trọn vẹn Khó khăn của bài toán này xuất phát từ khảnăng quan sát và mô tả, những tác vụ có thể rất đơn giản với con người nhưng đối

với máy tính nó lại rất phức tạp và khó khăn Đầu tiên về mặt thị giác, đôi mắt là

một món quà kỳ diệu mà tạo hóa đã ban cho sinh vật, đôi mắt giúp mọi sinh vật

nói chung và con người nói riêng có thể quan sát, tiếp thu những thông tin hình

Trang 19

Chương 1 TỔNG QUAN 2

ảnh về thế giới từ đó có thể nhận thức về chúng, ví dụ những hình ảnh thu được

từ mắt giúp con người biết được những sự vật xung quanh mình, từ đó hình thành

những hiểu biết về chúng Tuy nhiên hình ảnh trong máy tính được biểu diễn trongmáy tính chỉ là những con số, đối với máy tính chúng một hình ảnh chỉ là một ma

trận 2 chiều của các pixel Để có thể giúp máy tính có thể hiểu được ảnh, con người

đầu tiên cần phải huấn luyện chúng với rất nhiều hình ảnh và các nhãn đi kèm Các

mạng học sâu hiện nay có hiệu quả khá tốt trong việc giúp máy tính hiểu được hình

ảnh Về mặt ngôn ngữ, ngôn ngữ là một hệ thống rất phức tạp cũng như là 1 trong

những đặc trưng cơ bản của con người, con người khác biệt với những loài sinh vật

khác trên Trái Đất nhờ khả năng tư duy và ngôn ngữ, đây cũng chính là lí do nhânloại có thể phát triển hơn rất nhiều so với những giống loài khác Con người vẫnluôn kỳ vọng máy tính có thể giao tiếp với con người bằng ngôn ngữ tự nhiên, đếnnay người ta vẫn đang nghiên cứu nhưng vẫn còn một khoảng cách rất xa để đạt

được mục tiêu này Một hệ thống Chú thích hình ảnh sẽ kết hợp giữa khả năng quan

sát, xử lý hình ảnh để khai thác những đặc trưng của hình ảnh và khả năng xử lý

ngôn ngữ để sinh ra một câu mô tả phù hợp bằng ngôn ngữ tự nhiên của con người

Hay hiểu đơn giản ta cho máy tính một bức ảnh và muốn nó kể với ta là nó hiểu như

thế nào về bức ảnh đó

Nói về khả năng ngôn ngữ, làm thơ chính là một cách mô tả của con người vềcác sự vật, hiện tượng trong cuộc sống Có thể hiểu đơn giản thơ là một bước cao

hơn của việc mô tả thông qua các sử dụng ngôn ngữ sáng tạo, kết hợp giữa sự quan

sát và liên tưởng về các sự vật hiện tượng, từ đó tạo nên những bài thơ mang những

nhận xét, tâm tư, tình cảm của con người Do có đặc điểm ngắn gọn, súc tích, ý nghĩa

cô đọng, sử dụng những hình ảnh có liên quan đến cuộc sống nên thơ trở nên gầngũi với con người, là một món ăn tỉnh thần, một nét đẹp văn hóa và là sự sáng tạo

của con người.

Một hệ thống phát sinh thơ từ hình ảnh có rất nhiều điểm tương đồng với hệ

Trang 20

Chương 1 TỔNG QUAN 3

thống chú thích hình ảnh Hệ thống phát sinh thơ vẫn thực hiện các bước khai thácthông tin từ hình ảnh Tuy nhiên thay vì trả về một câu mô tả hình ảnh, hệ thốngphát sinh thơ sẽ trả về một bài thơ có liên quan đến hình ảnh đầu vào

Hiện nay, có nhiều nghiên cứu về bài toán phát sinh thơ từ hình ảnh, tuy nhiên

các nghiên cứu đa phần chỉ tập trung vào các ngôn ngữ sử dụng phổ biến như tiếng

Anh hoặc tiếng Trung Quốc, đặc biệt với tiếng Trung Quốc, nơi có nền văn hóaphong phú, lâu đời và có kho tàng thơ văn đồ sộ nổi tiếng thu hút được nhiều sự

nghiên cứu Tuy nhiên ứng dụng phát sinh thơ từ hình ảnh không nên bị giới hạn

bởi ngôn ngữ, nước Việt ta cũng đã trải qua hơn bốn nghìn năm văn hiến, cũng có

rất nhiều tác phẩm văn học nổi tiếng như Truyện Kiều của Nguyễn Du Thơ ca cũng

là một món ăn tinh than, một nét dep văn hóa của người Việt từ bao đời nay bằng

chứng chính là thể thơ lục bát - một thể thơ mang đậm tính dân tộc, một nét riêng của người Việt Hiện nay, làm thơ vẫn là một thú vui mang tính nghệ thuật, giải trí

và vẫn được phát triển bởi các thế hệ sau

Một số ưu điểm của tiếng Việt đối với tiếng Anh là non-inflection, đối với tiếng

anh các từ có thể bị chuyển déi(inflect) theo thì(tense) hoặc theo chủ ngữ sử dụngH|.

Ví dụ từ "begin" tùy theo thì của câu sẽ có dạng "began'(thì quá khứ) hay

"be-gun"(quá khứ phân từ), Hay từ "cat" ở dạng số ít hoặc số nhiều sẽ là "cat" (số

it) hoặc "cats"(số nhiều) Đối với tiếng Việt thay vì phải thay đổi từ gốc thì ta sửdung các từ bổ trợ để chỉ thì của câu ví dụ từ "đã" (thì quá khứ) , từ "dang" (thì tiếpđiễn), trước động từ chính của câu Hay đối với các danh từ số nhiều ta thường sửdụng các từ "những", "các" trước danh từ Nhu vậy đối với tiếng Việt ta sẽ có một sốlợi thế hơn tiếng Anh về việc chuyển từ về từ gốc trước khi xử lý

Tuy nhiên, tiếng Việt cũng có một số hạn chế riêng của nó Hạn chế lớn nhất

chính là sự nhập nhằng của khoảng trống Khác với tiếng Anh các khoảng trống

dùng để phân cách các từ thì khoảng cách trong tiếng Việt dùng để phân cách các

âm tiết khác nhau Ví dụ "hàng rào" là một từ duy nhất nhưng lại có 2 âm tiết phân

Trang 21

Chương 1 TỔNG QUAN 4

tách bằng khoảng cách trong khi tiếng Anh danh từ “hàng rào” chỉ sử dụng 1 từ duynhất là "fence" Do đó để giảm bớt sự nhập nhang này, chúng tôi sử dụng phương

pháp Word Segmentation một phương pháp stage-of-the-art hiện nay để liên kết các

âm tiết của cùng một từ

Tính đến thời điểm hiện tại vẫn chưa có một bộ dữ liệu cặp hình ảnh và bài thơnào cho ngôn ngữ tiếng Việt để sử dụng cho bài toán phát sinh thơ từ ảnh Do đó

chung tôi đã tiến hành tạo một bộ dw liệu riêng cho tiếng Việt Việc xây dựng bộ dữ

liệu tốn rất nhiều thời gian và công sức nên chúng tôi xây dựng một bộ di liệu gồm

2622 cặp ảnh va thơ sử dụng cho dé tài khóa luận

Bên cạnh nội dung chính của khóa luận là phát sinh ảnh từ thơ sử dụng mô hình

CNN-LSTM và mạng tạo sinh đối kháng, chúng tôi đề xuất thêm một số phương

pháp có thể sử dụng để phục vụ cho bài toán phát sinh thơ từ ảnh.

1.2 Bài toán phát sinh thơ từ hình ảnh

1.21 Giới thiệu bài toán

Bài toán phát sinh thơ từ hình ảnh là bài toán tạo ra một bài thơ có liên quan đến

nội dung của bức ảnh đưa vào, bài thơ có thể là một bài thơ trong tập dữ liệu hoặc là

một bài thơ mới do máy tạo ra Bài thơ này phải miêu tả, có liên quan đến một khía

cảnh của hình ảnh như đối tượng nổi bật, cảnh vật hoặc những liên tưởng tượng

tượng có liên quan Ngôn ngữ của bai thơ có thể là bat kỳ ngôn ngữ tự nhiên nào

© Đầu vào (input): Một bức anh

© Dau ra (outout): Một bài thơ liên quan đến bức ảnh đầu vào

Bài toán sinh thơ từ hình ảnh cho tiếng Việt sẽ tương tự, nhưng đầu ra (output)của bài toán sẽ là một bài thơ bằng ngôn ngữ tiếng Việt

Trang 22

Chương 1 TỔNG QUAN 5

Đâu ra

Buttercups and daisies

Oh the pretty flowers Coming ere the springtime

To tell of sunny hours

HÌNH 1.1: Minh hoa đầu vào va đầu ra của bài toán với ngôn ngữ tiếng

Anh.

Đâu vào Đâu ra

Anh đi xa vạn dặm đường

Còn em ở lại quê hương ngọt lành

Cánh đồng bát ngát màu xanh

Quê hương giữ trọn tình anh tháng ngày

HÌNH 1.2: Minh họa đầu vào và đầu ra của bài toán với ngôn ngữ tiếng

Việt.

1.2.2 Tinh ứng dụng và nghiên cứu

Tính ứng dụng:

¢ Ứng dụng của bài toán sinh thơ từ ảnh có thể được sử dụng vào mục đích giải

trí Thơ ca từ lâu đã là món ăn tinh thần đối với con người Thơ là sự kết hợpgiữa những từ ngữ, mang trong đó cả những tâm tư tình cảm của người viết,những gi gan gũi với con người, cuộc sông Do đó, thơ văn vẫn luôn hấp dẫn

Trang 23

Chương 1 TỔNG QUAN 6

được con người, gợi sự hứng thú Với nhiều người, xem thơ là một thú vui,

một cách để giải trí, hay như một đam mê Nếu khi đọc thơ kết hợp với xem

hình ảnh có liên quan đến bài thơ thì người đọc sé dé dang cảm nhận bài thơ

hơn, tạo sự trực quan, dễ dàng liên tưởng hay tưởng tượng, tăng sự hứng thú

cho người đọc Cách đưa cho hệ thống một bức ảnh và hệ thống trả về một bài

thơ để người dùng đọc cũng là một hình thứ xem thơ mới lạ và thú vị.

* Ứng dụng trong mục đích giáo dục: Theo nhiều nghiên cứu cho trẻ em tiếp

xúc với thơ văn từ sớm không phải là một ý kiến toi Việc xem những bài thơhay làm thơ giúp có thể giúp trẻ mở rộng vốn từ ngữ, kích thích sự tò mò, tăngkhả năng sáng tạo Với kết quả ứng dụng của bài toán sinh thơ từ hình ảnh cóthể giúp trẻ học hỏi tốt hơn, gợi sự liên tưởng, tưởng tượng cho trẻ

Tính nghiên cứu:

¢ Tuy tinh ứng dụng của bài toán phát sinh thơ từ ảnh không quá nhiều Tuy

nhiên về mặt nghiên cứu và học thuật sẽ là một bài toán xứng đáng để quantâm và sẽ đóng góp được nhiều cho việc nghiên cứu các van dé liên quan đến

khả năng ngôn ngữ của máy tính Con người hiện nay vẫn luôn tìm cách để máy tính có khả năng ngôn ngữ như con người, tuy nhiên đó vẫn là con đường

rất dài Từ kết quả của bài toán phát sinh thơ từ ảnh một phần nào có thể thể

hiện được khả năng ngôn ngữ của máy tính vì làm thơ không hoàn toàn là một

việc dễ dàng kể cả đối với con người

1.2.3 Một số thách thức của bài toán

Một số thách thức đối với bài toán phát sinh thơ bằng hình ảnh:

* Yêu cầu kiến thức của 2 chuyên ngành: Thị giác máy tính (Computer Vision)

và Xử lý ngôn ngữ tự nhiên (Natural Language Processing).

Trang 24

Chương 1 TỔNG QUAN 7

s® Khó khăn trong việc xây dựng bộ dữ liệu: Hiện tại bộ dữ liệu sử dụng cho bài

toán này gồm các cặp hình ảnh, bài thơ có liên quan nhau Hình ảnh sử dụng

để huấn luyện và bài thơ được sử dụng như một nhãn (Ground truth) của hìnhảnh Tuy nhiên việc ghép cặp ảnh và thơ tuy mất nhiều thời gian nhưng chưa

thực sự hoàn hảo, các cặp ảnh và thơ sẽ có liên quan đến nhau về đối tượng,

khung cảnh, để ghép được cặp ảnh và thơ hoàn hoản, bài thơ có tất cả các đối

tượng và cảnh ở trong ảnh sẽ rất khó khăn và tốn rất nhiều thời gian vào công

sức, nên các cặp dữ liệu ảnh và thơ có được chỉ mang tính tương đối, tức là

ảnh và thơ sẽ liên quan đến nhau ở một vài đối tượng, khung cảnh chứ không

hoàn toàn liên quan Và việc phép cặp ảnh và thơ để tạo bộ dữ liệu còn phụ thuộc vào cảm nhận cách đánh giá của mỗi người tham gia làm dữ liệu nên

vẫn còn nhiều sai sót

© Thách thức chung của các bài toán liên quan đến thị giác máy tính cụ thể là về

chất lượng của ảnh: ảnh không rõ đồi tượng, bị biến dạng, bị che khuat, bị mờ,

phụ thuộc vào ánh sáng, góc nhìn,

¢ Thách thức của các bài toán liên quan đến ngôn ngữ tự nhiên: Một hệ thống

phát sinh thơ từ ảnh thường chỉ hướng đến một ngôn ngữ nhất định, hiện nayphổ biến là tiếng Anh và tiếng Trung, mỗi ngôn ngữ sẽ có nhưng ưu điểm vàhạn chế khác nhau về mặt ngữ pháp và có các cách xử lý ngôn ngữ riêng điều

này làm cho các mô hình phát sinh thơ từ ảnh của các ngôn ngữ khác nhau có

cách các xử lý biểu diễn ngôn ngữ khác nhau, cũng có thể gây ảnh hưởng đếnhiệu năng của hệ thống

se Thách thức về độ đo va cách đánh giá mô hình sinh thơ: Hiện nay vẫn chưa

có một độ đo tự động hiệu quả nào để đánh giá chất lượng của một bài thơ domáy tạo ra mà tạo ra sự tin tưởng tuyệt đối Cách hiệu quả nhất được nhiều

người công nhận vẫn chính là để con người chấm điểm cho các kết quả sinh

Trang 25

Chương 1 TỔNG QUAN 8

ra Việc này tốn nhiều thời gian hơn nữa việc đánh giá thơ còn phụ thuộc vào

cảm nhận của mỗi người, có người sẽ thấy bài thơ đó hay tuy nhiên với bài thơ

đó cũng có người cho là không hay.

Một số thách thức đối với bài toán phát sinh thơ bằng hình ảnh sử dụng ngônngữ tiếng Việt:

© Chưa có một bộ dữ liệu cho tiếng Việt: Theo tìm hiểu của nhóm tác giả khóa

luận này trong thời điểm thực hiện khóa luận vẫn chưa có một bộ dữ liệu

Image-Poem nào cho tiếng Việt được công bố Do đó bộ dữ liệu hiện tại đang

được sử dụng là do nhóm tác giả xây dựng nên sẽ không tránh khỏi những sơ

xuất do yêu tố chủ quan và hạn chế về sự phong phú, đa dạng của bộ dữ liệu

© Sự nhập nhằng của ngôn ngữ tiếng Việt so với những ngôn ngữ khác: Khoảng

trống (space) trong các ngôn ngữ tiếng Anh hay tiếng Trung dùng để phâncách các từ với nhau tuy nhiên khoảng trống trong tiếng Việt còn để sử dụng

để phân cách các âm tiết trong một từ Dé hạn chế van dé nay cần sử dụng một

bộ xử lý tách từ cho tiếng việt, dùng để nối các âm tiết của cùng một từ tiếng

Việt là Word Segmentation Vi dụ: Từ "hàng rao" là một từ nhưng có 2 âm tiết

nếu không sử dụng Word Segmentation thì hệ thống phát sinh thơ từ ảnh có

thể sẽ hiểu đây là 2 từ riêng biệt Hoặc từ "Sạch sành sanh" sẽ bị hiểu là 3 từ

riêng biệt.

» Sự phức tạp của tiếng Việt: Tiếng Việt là một trong những ngôn ngữ khá phức

tạp trên thé giới với hệ thống từ ngữ da dạng, nhiều từ đồng nghĩa, đồng âm,

từ địa phương, từ lay, từ phép, cách chơi chữ, nhiều phép nhân hóa, so sánh

Trang 26

Chương 1 TỔNG QUAN 9

kể trên đều có thể gây khó khăn cho mô hình trong việc xác định tên gọi của

đối tượng và có thể làm giảm hiệu năng cho hệ thống phát sinh thơ bằng ngôn

ngữ tiếng Việt

© Chưa có các nghiên cứu được công bó: Hiện nay, theo tìm hiểu của nhóm tác

giả thực hiện khóa luận này, chưa có một công trình nghiên cứu nào cho bài

toán phát sinh thơ từ hình ảnh được công bồ, cũng như chưa có những dé xuất

về phương pháp cho bài toán này Đây là một khó khăn cho nhóm trong việctìm hiểu, tham khảo các phương pháp, ý tưởng có thể áp dụng để giải quyếtbài toán để đưa ra so sánh đánh giá

1.3 Tinh hình nghiên cứu

Bài toán phát sinh thơ từ ảnh là bài toán được tạo thành từ nhiều bài toán khác

nhau Nên trước khi giải quyết bài toán phát sinh thơ từ ảnh ta cần giải quyết một số

bài toán tạo thành, trọng tâm như: bài toán phân tích ngữ nghĩa từ hình ảnh (Image

Understanding), bài toán sinh ngữ (Language Generation), ta cũng tìm hiểu thêm

về bài toán có liên quan như bài toán chú thích hình ảnh (Image Captioning)

1.3.1 Tình hình nghiên cứu của các bài toán tạo thành

Bài toán phân tích ngữ nghĩa hình ảnh (Image Understanding): Là một trong

những bài toán quan trọng nhất của Thị giác máy tính Mục tiêu của bài toán là từ

những hình anh, máy tính có thể rút trích được những thông tin từ ảnh, các thông

tin này có thể là: thông tin về các đối tượng các thành phần trong ảnh, mối liên hệgiữa các đối tượng, Việc máy tính có thể rút trích những thông tin trên từ hìnhảnh là tiền dé rất lớn để giúp máy tính có thể học được những gi có trong hình ảnh

Là một bài toán xuất hiện khá sớm trong Thị giác máy tính, đến này có rất nhiều

Trang 27

Chương 1 TỔNG QUAN 10

nghiên cứu về bài toán này và con người vẫn đang không ngừng nghiên cứu và cảitiến Từ những ngày đầu, người ta rút trích thông tin ảnh bằng các thuật toán máy

hoc đơn giản dựa trên những đặc trưng của hình ảnh như hoa văn [2] , biểu đồ màu

sắc (41, hinh dang (5) Các cách rút trích thông tin trên đến nay vẫn hiệu quả

trên một số bộ dữ liệu Năm 2012, mang CNN xây dựng trên GPU của tác giả AlexKrizhevsky và các cộng sự đã thắng giải trong cuộc thi "ImageNet Large Scale VisualRecognition Challenge 2012" [6] Su thành công của Alex và mang CNN của minh

da mở ra một kỷ nguyên mới trong việc ứng dung các mạng học sâu vào lĩnh vực

Thị giác máy tính Đây chính là tiền dé cũng như động lực cho các kiến trúc manghọc sâu mới ra đời như Google Net (Inception V1) [7], VGG [8], Resnet [9], cũngnhư các phiên bản cải tiến của chúng Việc áp dụng các kiến trúc mang học sâu giúp

máy tính có thể rút trích thông tin từ ảnh một cách hiệu quả hơn, cải thiện độ chính

xác của nhiều bài toán của Thị giác máy tính như: Bài toán phát hiện, phân loại đối

tượng, bài toán phân đoạn hình ảnh, bài toán khoang vùng đối tượng, bài toán sinh

ảnh,

Bài toán sinh ngữ: Là một trong những bài toán quan trọng trong ngày đầu của

Trí tuệ nhân tạo và không ngừng được nghiên cứu với mục tiêu máy tính có khả

năng ngôn ngữ, sinh ngôn ngữ để có thể giao tiếp với con người bằng ngôn ngữ tựnhiên Khởi đầu bài toán bằng những nghiên cứu về khả năng ngôn ngữ của máytính dựa trên các tri thức có sẵn, các hệ thống máy tính sẽ lưu trữ tri thức và sử dụng

các hệ luật đã được xây dựng để có thể sinh ngữ, giao tiếp với con người thông qua

ngôn ngữ tự nhiên [10] Năm 2003, Yoshua Bengio và các cộng sự đã giới thiệu mô

hình sinh ngữ dựa trên xác suất (11), ý tưởng cũng như những lý thuyết trong bài

báo này đã là tiền dé cho những mô hình tốt hơn ra đời Những năm gan đây, đánh

dấu một bước tiến của mô hình sinh ngữ với việc sử dụng mang nở rôn nhân tao

Mô hình sinh ngữ với mạng nơ rôn đã trở thành một công cụ phổ biến được nhiềungười sử dụng bởi sự hiệu quả của nó, có thể ghi nhớ được thông tin trong dài hạn

Trang 28

tự động chú thích cho hình ảnh thông qua việc xem xét các sự tương quan giữa hình

ảnh và câu mô tả [15] Năm 2011, Girish Kulkarni và cộng sự đã đề xuất phương

pháp chú thích cho ảnh bằng cách phân tích đối tượng trong ảnh để tìm những

nhãn phù hợp sau đó điền vào một ban mẫu có san [1ö] Năm 2015, các nghiên cứu

về việc sử dụng mạng RNN để sinh câu chú thích được công bố, phương pháp này

thể hiện sự hiệu quả của nó trong việc sinh ra một câu chú thích mới cho ảnh

9l Cùng năm 2015, Ryan Kiros và các cộng sự đã công bố nghiên cứu của

mình về phương pháp đưa véc-tơ biểu diễn hình ảnh (rút trích bằng mạng CNN)

và véc-tơ biểu diễn câu chú thích vào cùng một không gian để xem xét mối tương

quan giữa chúng, phương pháp này vừa có thể sử dung cho các bài toán truy van

đồng thời vẫn có thể áp dụng cho bài toán chú thích ảnh [20] Sau khi Oriol Vinyals

và các cộng sự của mình công bồ công trình nghiên cứu của mình tại hội nghị CVPR

2015, mô hình "Show and Tell" của nhóm tác giả được cho là hiệu quả cho bài toán

chú thích hình ảnh, đồng thời đoạt giải nhất cuộc thi COCO Caption Challenge 2015

[21] Mô hình "Show and Tell" là sự kết hop giữa phương pháp rút trích đặc trưng

hình ảnh bằng mạng CNN và phát sinh câu chú thích bằng mạng LSTM, mô hìnhnay đã tạo tiền dé cho nhiều phiên bản cải tiến phát triển sau này Năm 2016, Kelvin

Xu và các cộng sự đã công bố mô hình "Show, Attend and Tell" và trở thành xu

hướng thịnh hành nhất cho bài toán chú thích hình ảnh [22] Bằng các giới thiệu cơ

chế Attention, thay vì sử dụng thông tin toàn cục về hình ảnh một cách không chọn

lọc như ở mô hình "Show and Tell", mô hình "Show, Attend and Tell" sinh ra phân

Trang 29

Chương 1 TỔNG QUAN 12

phối cho mỗi vùng trong bức ảnh trước khi sinh ra một từ mới, sau đó tiến hành

cộng dồn có trọng số (weighted sum) phân phối này với thông tin ở từng vùng ảnh

tương ứng để tạo thành véc-tơ ngữ cảnh Véc-tơ này sẽ mang thông tin quan trọng

từ hình ảnh sau đó được sử dụng vào đầu vào của mô hình sinh ngữ Từ các kết quả

dat được của 2 mô hình "Show and Tell" và "Show, Attend and Tell" nêu ở trên đã tao

động lực cho các nghiên cứu cải tiến sau này [25] Hién nay phuong phap

sử dung CNN dé rút trích đặc trưng anh và sử dung các mô hình ngôn ngữ để sinhngữ còn được gọi là kiến trúc Encoder-Decoder Các bài toán phát sinh thơ từ hìnhảnh sau này cũng phát triển dựa trên những ý tưởng này

Mạng tạo sinh đối kháng (GAN): Là một kiến trúc mạng do lan Goodfellow và

cộng sự thiết kế vào năm 2014 [26] Kiến trúc của mang GAN gồm 2 mạng nơ-rôn

khác, trong đó 1 mạng nơ-rôn đóng vai trò sinh dữ liệu (Generator) mạng còn lại có

vai trò kiểm tra dữ liệu được sinh ra (Discriminator), thông qua việc huấn luyện 2

mạng nơ-rôn này sẽ giúp mạng nơ-rôn sinh dữ liệu có khả năng tạo ra những dw liệu

mới giống với thực tế nhất Mang GAN thường được sử dụng để sinh hình ảnh kiến

trúc hay được sử dụng nhất có thể kể đến như Conditional Generative Adversarial

Nets (CDGAN) do Mehdi Mirza và cộng sự thiết kế năm 2014 [27] Tinh dén hién

tại có rat nhiều phiên ban mang GAN khác nhau được công bố, tuy nhiên các mang

này vẫn có kiến trúc chính gồm 2 mạng nơ-rôn như kiến trúc gốc Ngoài ứng dụng

để sinh ảnh, kiến trúc mạng GAN vẫn có thể được sử dụng trong các bài toán sinh

ngôn ngữ, tiêu biểu có thể kể đến SegGAN do Lantao Yu và cộng sự công bố năm

2016 [28]

1.3.2 Bài toán tự động phát sinh thơ ở Việt Nam

Bài toán tự động phát sinh thơ là một đề tài thú vị, tuy nhiên tính đến thời điểmhiện tại và theo tìm hiểu của nhóm thực hiện khóa luận, vẫn chưa có nhiều bài báohay các nghiêm cứu được công bồ liên quan đến dé tài này nên vẫn chưa tạo được

Trang 30

Chương 1 TỔNG QUAN 13

quá nhiều sự chú ý và thu hút nhiều sự quan tâm Trong các nghiên cứu đáng chú

ý là công trình của nhóm nghiên cứu đến từ Công ty Cổ phần Công nghệ Tỉnh Vân

Hà Nội, nhóm nghiên cứu đã phát triển một ứng dụng web với tên gọi Dịch vụ Thơ

Máy Dịch vụ Thơ Máy có nhiều tính năng khác nhau cho việc sáng tác bài thơ mới,trong đó có 2 tính năng nổi bật nhất: Máy sáng tác thơ và Sáng tác thơ dựa trên đoạn

văn.

se Máy sáng tác thơ: Tính năng này cho phép người dùng chọn một thể loại thơ:

Lục bát, tám chữ, sáu chữ, haiku, Và một phong cách thơ: Xuân Diệu, Hồ

Xuân Hương, Hàn Mạc Tử, Ca dao tục ngữ, Sau đó máy sẽ tự động sáng tác

một khổ thơ gồm 4 câu dựa trên lựa chọn của người dùng

© Sáng tác thơ dựa trên đoạn văn: Đối với tính năng này, người dùng đầu tiên

sẽ chọn một thể loại thơ, sau đó nhập vào một đoạn văn xuôi, mỗi một câu sẽ

được sắp xếp lại và tạo thành một câu thơ

Dịch vụ Thơ Máy khi mới ra mắt đã gây được sự chú ý và thích thú của nhiều

người về tính mới lạ cũng như thú vị của nó Các bài thơ được sáng tác ra thườngđảm bảo chặt chẽ về cấu trúc, niêm luật của thể loại thơ mà người dùng chọn và có

ý nghĩa Tuy nhiên, đối với chức năng máy sáng tác thơ, các đoạn thơ được tạo ra

ngẫu nhiên dựa vào 2 tiêu chí thể loại thơ và phong cách thơ mà người dùng lựa

chọn, điều đó đồng nghĩa người dùng không thể biết trước nội dung bài thơ đượctạo ra sẽ như thế nào cũng như không thể yêu cầu Dịch vụ Thơ máy sáng tác những

bài thơ liên quan đến đối tượng mong muốn Điều này sẽ được khắc phục ở tính

năng sáng tác thơ dựa trên đoạn văn, nếu người dùng mong muốn một bài thơ liênquan đến đối tượng mong muốn thì có thể nhập vào một đoạn văn về đối tượng đó

và máy sẽ sắp xếp các câu trong đoạn văn thành các câu thơ tương ứng

Trang 31

Chương 1 TỔNG QUAN 14

1.3.3 Các nghiên cứu liên quan của bài toán phat sinh thơ từ ảnh

Sau sự thành công của mạng RNN trong bài toán sinh ngữ, năm 2014, Xingxing

Zhang và cộng sự đã sử dụng mạng RNN cho bài toán sinh tho cho ngôn ngữ Trung

Quốc [29], ý tưởng của mô hình là sử dung các từ khóa được được con người cung

cấp, sau đó dựa trên xác suất để tìm những từ phù hợp tạo thành các câu thơ Hướng

giải quyết sử dụng từ khóa để sinh câu này về sau được phát triển bằng cách thay vìcung cấp những từ khóa cho mô hình để sinh thơ thì ta chỉ cần cung cấp 1 bức ảnh

để mô hình tự động rút trích các từ khóa sau đó mới sinh thơ.

Wen-Feng Cheng và các cộng sự, 2018 0]: nghiên cứu này theo hướng tiếp cận

sinh thơ dựa trên từ khóa trích xuất được từ ảnh, dành cho ngôn ngữ Trung Quốc.Thể loại thơ nhóm tác giả hướng đến là thơ Trung Quốc hiện đại, đây là thể loạithơ không quá đặt nặng về mặt cấu trúc, tức là không cần phải đi theo đúng quy

tắc và khuôn mẫu quá chặt chẽ như ở các thể loại thơ Trung Quốc truyền thống Ý

tưởng chính của mô hình là dùng mạng CNN cu thể là mạng AlexNet được huấnluyên trên bộ đữ liệu ImageNet sau đó tinh chỉnh cho phù hợp bài toán để trích xuất

những từ khóa từ hình ảnh Sau khi qua bước mở rộng và chọn lọc từ khóa, các từ

khóa được chọn sẽ được sử dụng để đưa vào mô hình sinh thơ Mô hình sinh thơ

của nhóm tác giả được câu tạo chủ yếu dựa trên mạng LSTM Mô hình này có khảnăng sinh ra các câu thơ có chứa từ khóa từ đó cau thành 1 bài tho, câu thơ tiếp theođược sinh ra dựa vào câu thơ trước đó Ngoài ra nhóm tác giả còn kết hợp thêm một

đánh giá tự động ở mô hình sinh thơ với mục đích chỉ chọn những bài thơ đạt tiêu

chuẩn do mô hình sinh thơ tạo ra.

Yusen Liu và các cộng sự, 2020 (31): Tương tự hướng tiếp cận ở trên, nhóm tác

giả này cũng sử dụng phương pháp rút trích từ khóa từ hình ảnh và sinh những câu

thơ dựa trên từ khóa Ngôn ngữ hướng đến là ngôn ngữ Trung Quốc Với mô hình

rút trích từ khóa từ ảnh, tác gia sử dung dịch vu Clarifai API, day là một dịch vụ

cung cấp cho bài toán nhận diện hình ảnh, với một hình ảnh đưa vào, công cụ này

Trang 32

Chương 1 TỔNG QUAN 15

Extraction Concrete Information

Extraction

Season: Winter

Time: Daytime |—>|

Weather: Sunshine Abstract Information

Image Information Extraction

44 Mountain peak

G28 Snowficld |

KE Sky

Keywords Retrieve & Expand

Abstract Information Embedding

Abstract Information

Vectors

#44) Mountains

‘AE Reach up to the sky

Poetry Generation Thousands of cloud-kissing peaks up to the clear sky,

The sunlight shines on the snowy world

HINH 1.3: Kiến trúc tổng thé của mô hình sinh thơ từ ảnh được dé xuất

bởi Wen-Feng Cheng và các cộng sự, 2018.

sẽ trả về các đối tượng trong hình ảnh, sau đó tác giả tiến hành mở rộng và chọnloc từ khóa Bên cạnh đó tác giả cũng sử dụng 3 mạng CNNs (đều là GoogleNet) đãđược huấn luyện trước trên bộ dữ liệu ImageNet sau đó tinh chỉnh để rút trích thêmcác thông tin về ảnh, các thông tin lần lượt về: mùa, thời gian trong ngày, thời tiết

Với các từ khóa và thông tin rút trích được, tác giả kết hợp để huấn luyện mô hìnhsinh thơ Ở mô hình sinh thơ, tác giả sử dụng kiến trúc mang GRU với cơ ché chú ý(attention) [32]

With lips curl into phony smile.

HINH 1.4: Kiến trúc tổng thé của mô hình sinh thơ từ ảnh được dé xuất

bởi Yusen Liu và các cộng sự, 2020.

Bei Liu và các cộng sự 2018 [53]: Khác với những nghiên cứu ở trên, ngôn ngữ

mà nhóm tác giả hướng đến cho phương pháp phát sinh thơ từ hình ảnh của mình

Trang 33

Chương 1 TỔNG QUAN 16

là trên tiếng Anh, do đó nghiên cứu này đã có thể tiếp cận với nhiều người hơn

Công trình nghiên cứu của nhóm tác giả cũng đạt giải bài báo xuất sắc nhất của hội

nghị ACM Multimedia năm 2018 Tác giả đã xây dựng một bộ dữ liệu tiếng Anh chobài toán gồm: bộ đữ liệu thơ với 93.256 bài thơ, bộ dữ liệu cặp ảnh và thơ với 8292

cặp Bộ dữ liệu cặp ảnh và thơ được tác giả bắt cặp dựa trên mồi liên quan giữa hình

ảnh và bài thơ Với hướng tiếp cận Encoder-Decoder quen thuộc cho các bài toánsinh ngôn ngữ từ hình ảnh, tác giả đã có những cải tiến đáng kể và hiệu quả cho

bài toán phát sinh thơ từ hình ảnh của mình Trong bài báo, tác giả sử dụng 3 mạng

CNNs để trích xuất đặc trưng từ ảnh, sử dung mô hình skip-throught để biểu diễn

bài thơ đưới dạng véc-tơ Với véc-tơ đặc trưng trích xuất từ ảnh và véc-tơ biểu diễncủa bài thơ, tác giả xây dựng mô mình biểu diễn 2 véc-tơ trên về cùng một không

gian Tác giả sử dụng véc-tơ biểu diễn hình ảnh sau khi được biểu diễn trong không

gian biểu diễn và bài thơ bắt cặp của nó để huấn luyện mô hình sinh ngữ là RNN vớicác GRU cell Cuối cùng tác giả sử dụng mạng sinh ngôn ngữ như một Generator

trong GAN và thiết kết 2 mạng Discriminator để tạo thành một kiến trúc mạng tạo

sinh đối kháng, cải thiện hiệu suất của mạng RNN trong suốt quá trình huấn luyện

ee ae ee acm,

1

Deep Coupled Visual-Poetic Embedding Model i Generator as Agent |, _Discriminators as Rewards

(b) Poetic CNN features lị HH (g) Multi-Modal Discriminator

lì II —>_ C„(c=paired) (e) Muli-modal space | | apes TH TT paired @ `

(3) coming ee te springtime Mean peotng 4 lị in [_ Generated Q) :

(4)t0 tel of sumy hours | [Disordered Q]

() em || = lộ | L_ Disordered Gj

——> [0903030] —> 2 == I) II h Paragraphic@| :

GP || ) = peeerree

_——

(c) skipthought model 4 Reward: R=

-(a) image and poem pairs tranedonUniM-Poem (d)sentence features a (RNN generator _ He a ons aC, m tũ- AG, z

Oa a ee `" 2 A= "(i Policy Gradient ——Ì

HÌNH 1.5: Kiến trúc tổng thé của mô hình sinh thơ từ ảnh được dé xuất

bởi Bei Liu và các cộng sự, 2018.

Trang 34

Chương 1 TỔNG QUAN 17

1.3.4 Nhận xét

Ở 2 công trình nghiên cứu của Wen-Feng Cheng cùng các cộng sự và Yusen

Liu và các cộng sự [31] ta có thể thấy phần lớn các nghiên cứu cho bài toán sinh thơ

từ hình ảnh chủ yêu được thực hiện trên ngôn ngữ Trung Quốc vì Trung Quốc là

một quốc gia đông dân, thực hiện bài toán trên ngôn ngữ Trung Quốc sẽ tiếp cậnđược với nhiều người dân Trung Quốc hơn Ngoài ra, với lịch sử văn hóa phát triển

lâu đời, Trung Quốc có một kho tàng dé sộ về văn học, thơ ca, đây là một nguồn

dit liệu khổng 16 cho bài toán phát sinh thơ Tuy nhiên tiếng Trung Quốc lại là ngôn

ngữ khá khó để tiếp cận với nhiều người ở các quốc gia khác trên thế giới hơn so với

Tiếng Anh, gây nên một số rào cản nhất định Với sự công bố công trình nghiên cứucủa Bei Liu và các cộng sự năm 2018 đã gây được sự chú ý của nhiều người, đây cóthế được xem là một công bồ quan trọng, là tư liệu hỗ trợ cho các nghiên cứu liênquan đến bài toán sau này

Công trình nghiên cứu của Bei Liu và cộng sự đã được giới chuyên gia đánh giá

cao Kết quả của công trình nghiên cứu rất khả quan và đóng góp nhiều cho bài toán

phát sinh thơ từ hình ảnh như đóng góp 1 bộ dữ liệu lớn (hơn 90 nghìn bài thơ và

hơn 8 nghìn cặp ảnh và thơ) trên ngôn ngữ tiếng anh, có thể sử dụng cho các bàitoán liên quan đến ngôn ngữ khác Ngoài ra với kiến trúc mô hình được tác giả xâydựng có thể xem là một bước tiến cho bài toán phát sinh thơ từ hình ảnh,ý tưởngcho kiến trúc mô hình này có thể được kế thửa và phát triển bởi các nhóm nghiên

Cứu sau nay.

Tuy nhiên, qua các nghiên cứu liên quan kể trên ta có thể thấy được một số vấn

để còn hạn chế, khó khăn của bài toán phát sinh thơ từ hình ảnh này:

¢ Han chế về mặt ngôn ngữ, văn hóa, thơ ca ở mỗi quốc gia: Đối với mỗi Quốc

gia thường sử dụng một ngôn ngữ khác nhau cũng như có một nền văn hóanghệ thuật khác nhau Do đó, thơ đối với các Quốc gia cũng có sự khác nhau

Trang 35

khăn cho các mô hình sinh thơ vì đầu ra bài toán đa dạng như thế Tóm lại,

một mô hình có thể thiết kế để sinh thơ cho một ngôn ngữ, thể loại thơ nhưng

nêu áp dụng cho một ngôn ngữ khác hoặc một thể loại thơ khác ta cần phải có

các điều chỉnh mô hình cho phù hợp

se Hạn che về mặt dữ liệu: Tương tự như hạn chế đã nêu ở trên, do mỗi quốc gia

đều có các thể loại thơ và các ràng buột về thơ trên ngôn ngữ của họ Do đó,khi huấn luyện các mô hình sinh thơ từ hình ảnh trên các ngôn ngữ khác nhau

ta cần phải có những bộ đữ liệu riêng Vi dụ như các công trình nghiên cứu

sinh thơ từ ảnh trên ngôn ngữ Trung Quốc ở trên, tác giả đã sử sử dụng bộ dữ

liệu thơ tiếng Trung và tạo nên một rào cản cho những người không biết tiếngTrung Quốc nhưng muốn tìm hiểu về bài toán này Đây là một khó khăn lớn vì

thời gian để xây dựng một bộ dữ liệu đủ tốt là khá lâu

» Hạn ché về cách so sánh đánh giá: Ở các bài báo chúng tôi tìm hiểu được, các

kết quả được công bồ phần lớn tập trung vào phương pháp đánh giá dựa vàocon người Mỗi bài báo sẽ có một nhóm giám khảo riêng để cham điểm cho kếtquả sinh ra từ mô hình, cộng với việc chưa có một bộ dữ liệu thống nhất, do

đó khó khăn trong việc so sánh đánh giá giữa những phương pháp, mô hình

với nhau.

Trong quá trình tìm hiểu các công trình nghiên cứu ở trên ta cũng thay được 2

hướng tiếp cận chủ yêu của bài toán phát sinh thơ từ hình ảnh:

se Hướng thứ 1: Tạo bài thơ mới dựa trên các từ khóa trích xuất được từ ảnh.

Đây là hướng mà các nhóm nghiên cứu trên thơ Trung Quốc thường sử dụng

Trang 36

Chương 1 TỔNG QUAN 19

Việc xây dựng một bài thơ bằng những từ khóa trích xuất đưuọc từ ảnh sẽ có

thể đảm bảo được sự liên quan giữa bài thơ và hình ảnh vì các từ khóa luôn sẽxuất hiện trong các bài thơ được tạo ra Tuy nhiên van dé sẽ xuất phát từ các

từ khóa này, số lượng từ khóa cần đa dạng, đủ nhiều, có khả năng kết hợp với

các từ còn lại.

¢ Hướng thứ 2: Tạo bài thơ mới dựa trên véc-tơ đặc trưng trích xuất được từ

ảnh: Đây là hướng mà tác giả Bei Liu và các cộng sự đã thực hiện Với phương

pháp này sẽ gần giống như ý tưởng của bài toán chú thích hình ảnh, với véc-tơđặc trưng của ảnh, ta huấn luyện mô hình để nó hiểu được sự liên quan giữa

véc-tơ đặc trưng hình ảnh và bài thơ bắt cặp với hình ảnh đó

Mỗi hướng tiếp cận kể trên sẽ có các ưu điểm, nhược điểm khác nhau Trong détài khóa luận này, nghiên cứu chính của chúng tôi sẽ tập trung theo theo hướng tiếp

cận thứ 2 của tác giả Bei Liu, vì đây là một công trình nghiên cứu được giới chuyên

gia đánh giá cao và đễ tiếp cận với nhiều người

1.4 Mục tiêu, đối tượng và phạm vi nghiên cứu

1.41 Mục tiêu

® Tìm hiểu các phương pháp khác nhau cho bài toán phát sinh thơ từ hình ảnh,

chú trọng đến các phương pháp có hướng tiếp cận là mô hình học sâu, cùng

với kiến trúc mạng tạo sinh đối kháng đang được nghiên cứu và sử dụng rộng

rãi hiện nay.

© Tìm hiểu, dé xuất phương pháp hiệu quả cho bài toán phát sinh thơ từ hình

ảnh cho ngôn ngữ Tiếng Việt

Trang 37

Chương 1 TỔNG QUAN 20

e Xây dựng bộ dữ liệu bao gồm anh và thơ (image-poem) cho tiếng Việt, có thể

sử dụng cho các nghiên cứu khác liên quan đến ảnh và thơ Đề xuất phươngpháp tăng thêm đữ liệu bằng máy tính

* Xem xét, đánh giá việc sử dụng kết hợp mang học đối kháng trong việc cải

thiện hiệu quả của quá trình huấn luyện mô hình

1.42 Đối tượng

Đối tượng nghiên cứu chính của bài toán là phát sinh bài thơ tiếng Việt dua trênhình ảnh Thử nghiệm các phương pháp, trong đó đó tập trung nhất vào hướng tiếp

cận sử dụng mô hình CNN-LSTM kết hợp mạng GAN

1.43 Pham vi nghiên cứu

¢ Tìm hiểu một số phương pháp có thể sử dụng cho bài toán phát sinh thơ từ

hình ảnh hiện nay và so sánh, nhận xét ưu khuyết điểm, hạn chế Phương pháp

chính được quan tâm chính là CNN-LSTM-GAN dựa trên ý tưởng của bài báo

[72].

° Xây dung bộ dữ liệu cho tiếng Việt bằng cách sưu tầm tho sau đó tim những

hình ảnh có liên quan đến thơ để ghép cặp, tạo nên bộ đữ liệu hình ảnh và thơ(image-poem dataset) cho tiếng Việt

s Sử dụng mô hình ngôn ngữ "stage-of-the-art" cho tiếng Việt là PhoBERT dé

biểu diễn câu tiếng Việt dưới dạng véc-tơ Áp dụng bộ Word Segmentation

tiếng Việt vào bước tiền xử lý, bộ công cụ sử dụng là RDR Segmenter được

cung cấp bởi Tác giả Dat Quoc Nguyen và cộng sự|34].

® Nhận xét, đánh giá kết quả của mô hình phát sinh tho từ hình ảnh cho ngôn

ngữ Tiếng Việt

Trang 38

Chương 1 TỔNG QUAN 21

1.5 Đóng góp của de tài

Sau quá trình nghiên cứu và thực nghiệm, chúng tôi có những tìm hiểu và đóng

góp như sau:

e Tìm hiểu một số phương pháp phát sinh thơ từ hình ảnh Trong đó có phương

pháp được các chuyên gia đánh giá rất nhất hiện nay của Bei Liu và các cộng

sự [33]

° Xây dựng một mô hình biểu diễn hình ảnh và thơ có thé ứng dụng trong các

bài toán truy vấn

© Tạo hai bộ dữ liệu để phục vụ đề tài là: UIT-Poem-Dataset và UTT-I2P-Dataset

cho ngôn ngữ tiếng Việt

e Xây dựng mô hình sáng tác tho từ hình ảnh cho ngôn ngữ tiếng Việt dựa theo

ý tưởng 2| Mô hình sáng tác thơ từ hình ảnh của chúng tôi qua khảo sát kết

quả cho thấy có khả năng phát sinh ra những bài thơ có liên quan đến hìnhảnh đầu vào về đối tượng hoặc cảnh

Trang 39

Chương 2

KIÊN THỨC NÊN TẢNG

Ở chương này, chúng tôi sẽ trình bày những kiến thức nền tảng mà khoá luận

này sử dụng để xây dựng một mô hình phát sinh thơ từ hình ảnh Lý thuyết về

kiến thức bao gồm: mạng rôn nhân tạo (Artificial Neural Networks), mạng

nơ-rôn tích chập (Convolution Neural Networks), mạng tạo sinh đối kháng (Generative

Adversarial Networks) và kiến thức về truy vẫn thông tin

2.1 Tổng quan ve mạng nơ-rôn nhân tạo

Mạng nơ-rôn nhân tạo (Artificial Neural Network —- ANN) là mô hình xử lý thông

tin được mô phỏng dựa trên cách hoạt động của hệ thần kinh con người Mặc dù

ngày nay mạng nơ-rôn chưa mô phỏng được bộ não con người một cách hoản hảo

nhưng nó lại được áp dụng phổ biến để giải quyết một van dé hay bài toán cụ thể.Thay vì dựa hoàn toàn vào cảm hứng về khoa học thần kinh, mạng nơ-rôn nhân tạo

chủ yêu được nghiên cứu và phát triển dựa trên lĩnh vực toán học và kỹ thuật Với

cau trúc mạng gồm nhiều nơ-rôn (mỗi nơ-rôn là một chuỗi các phép toán) được kết

nồi với nhau và xử lý thông tin bằng cách truyền theo các kết nối và tính giá trị mới

tại các nơ-rôn, mạng nơ-rôn đã thực hiện được một số công việc gần giống với bộnão của con người như: học tập dựa trên kinh nghiệm (thông qua huấn luyện), có

Trang 40

Chương 2 KIEN THUC NEN TANG 23

khả năng lưu giữ kinh nghiệm, sự hiểu biết (tri thức) và sử dụng những tri thức san

có để giải quyết các bài toán (van dé) chưa biết

2.1.1 Mạng lan truyền đa tầng thuận

Mạng lan truyền thuận đa tầng (Deep Feedforward Networks) là một trongnhững mô hình mạng nơ-rôn điển hình Mục tiêu của mạng lan truyền thuận đa

tầng là tìm ra một hàm số sao cho hàm số đó gần giống với hàm ƒ* Giả sử trong

một bộ phân lớp, ta có y = f*(x) là hàm sinh ra dữ liệu đầu ra từ dữ liệu đầu vào

x Một mang lan truyền thuận được xác định bởi một ánh xạ 1 = ƒ(x,0) Giá trị củacác tham số @ sẽ được học để tạo ra một hàm số sao cho gần giống với hàm ƒ* nhất

Những mô hình mạng như thé này được gọi là lan truyền thuận bởi vì các thông tin

lan truyền qua hàm số đều được tính từ +, thông qua các phép tính trung gian trong

hàm ƒ và cuối cùng cho ra kết quả 1/35] Mô hình không tồn tại loại kết nối truyền

ngược, tức là tại mỗi nơ-rôn trong một tang bat kỳ chỉ nhận liên kết từ các nơ-rôn ở

tầng trước đó chứ nó không liên kết ngược lại với nơ-rôn ở tầng trước

Mạng lan truyền thuận có vai trò rất quan trọng, đây là nền tảng của nhiều ứng

dụng có vai trò quan trọng cũng như là bước ngoặt của một số mô hình học sâu(Deep Learning) Hai mô hình đặc biệt được phát triển dựa trên mạng lan truyền

thuận sẽ được trình bày ở những phần sau đó là mạng nơ-rôn tích chập

(Convolu-tion Neural Netwoks) dùng dé rút trích thông tin từ ảnh và mạng nơ-rôn truy hồi

(Recurrent Neural Networks) được dùng trong các tác vụ liên quan đến xử lý ngôn

Ngày đăng: 02/10/2024, 04:14

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN