Chúng tôi hy vọng với bộ dữ liệu mà chúng tôi tạo ra cùng kết quả đạt được trong kháo luận này sẽ hỗ trợ và tạo động lực, truyền cảm hứng cho các nghiên cứu khác trong bài toán phát sinh
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRUONG DAI HQC CONG NGHE THONG TIN
KHOA KHOA HỌC MAY TÍNH
DANG HOANG SANG PHAM CHi THANH
KHOA LUAN TOT NGHIEP
MO HINH SANG TAC THO DỰA TREN NOI DUNG HÌNH ANH
SỬ DUNG MẠNG TẠO SINH DOI KHANG
CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH
TP HÒ CHÍ MINH, 2021
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRUONG DAI HQC CONG NGHE THONG TIN
KHOA KHOA HỌC MAY TÍNH
DANG HOANG SANG - 17520967 PHAM CHi THANH - 17521055
KHOA LUAN TOT NGHIEP
MO HÌNH SANG TÁC THƠ DỰA TRÊN NỘI DUNG HÌNH ẢNH
SỬ DỤNG MẠNG TẠO SINH ĐỎI KHÁNG
CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH
GIẢNG VIÊN HƯỚNG DẪN
TS NGUYÊN VINH TIỆP
TP HÒ CHÍ MINH, 2021
Trang 3DANH SÁCH HỘI ĐÒNG BẢO VỆ KHÓA LUẬN
Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số
TIBầY ccccccec của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
1 Chủ tịch:
2 Thư ký:
3 Ủy viên:
4.Ủy viên:
Trang 4LOI CAM ON
"Một cánh én không thể làm nên mùa Xuân", một bông hoa không thé phủ sắc
cả ngọn đổi Trong suốt quá trình nghiên cứu và thực hiện khóa luận, chúng em đã
nhận được sự giúp đỡ và hỗ trợ nhiệt tình từ thầy cô, các anh chị và bạn bè.
Chúng em xin được cảm ơn thầy Nguyễn Vinh Tiệp đã hướng dẫn nhóm từ những ngày đầu đến với đề tài Thời gian được làm việc cùng thầy Tiệp, nhóm em ngoài học hỏi thêm được kiến thức mà còn học được về tác phong làm việc, kỹ năng phân tích, giải quyết vấn đề và kỹ năng trình bày Đây sẽ là những hành trang cho chúng em trên những chặng đường sắp tới Chúng em xin được cảm ơn quý thầy cô khoa Khoa Học Máy Tính đã giảng dạy, dìu dắt chúng em trong suốt quá trình học
tập tại trường.
Chúng em xin cảm ơn các anh chị và các bạn trong Phòng Thí Nghiệm Đa
Phương Tiện, trường Đại Học Công Nghệ Thông Tin đã giúp đỡ va chia sẻ những
kiến thức quý báu Mọi người trong phòng thí nghiệm đều cởi mở, không ngại chia
sẻ, tạo cho chúng em một môi trường làm việc hòa đồng và thân thiện Xin được
cảm ơn các bạn sinh viên khoa Khoa Học Máy Tính, trường Đại học Công Nghệ
Thông Tin đã tham gia hỗ trợ nhóm trong quá trình làm dữ liệu.
Chúng em xin cảm ơn gia đình và những người bạn luôn là chỗ dựa và niềm
động lực to lớn cho chúng em vững bước trên chặng đường đã qua và trên con đường phía trước.
Chúng em xin chân thành cảm ơn!
TP.HCM, tháng 01 năm 2021.
Trang 5ĐẠI HỌC QUOC GIA TP HO CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN T————————————————
ĐĂNG KÝ ĐÈ TÀI KHÓA LUẬN TÓT NGHIỆP
TÊN ĐÈ TÀI: MÔ HÌNH SÁNG TÁC THƠ TỪ NỘI DUNG ẢNH SỬ DỤNG
MẠNG TẠO SINH
TÊN ĐÈ TÀI TIENG ANH: POEM GENERATION FROM IMAGE CONTENT
USING GENERATIVE ADVERSARIAL NETWORKS
Cán bộ hướng dẫn: TS Nguyễn Vinh Tiệp
Thời gian thực hiện: Từ ngày 05/09/2020 đến ngày 10/01/2021.
Sinh viên thực hiện:
Đặng Hoàng Sang - 17520967 Lớp: KHCL2017.2
Email: 17520967)gm.uit.edu.vn Điện thoại: 0974187934
Phạm Chí Thành - 17521055 Lớp: KHCL2017.2
Email: 17521055@gm.uit.edu.vn Điện thoại: 0338558632
Nội dung đề tài:
Hiện nay hệ thống tự động sinh ra ngôn ngữ tự nhiên đang thu hút được nhiều sự quan
tâm của mọi người Đây là một bài toán kết hợp giữa thị giác máy tính và xử lý ngôn
ngữ tự nhiên Trong đề tài này sẽ nghiên cứu và xây dựng một mô hình sáng tác thơ từ nội dung ảnh Thơ ca Việt Nam là một phần của đời sống tỉnh thần của người Việt Nam,
Trang 6một số thê loại thơ đặc trưng cho Văn học Việt Nam mang đậm bản sắc dân tộc như thơ
lục bát Sáng tác thơ từ nội dung ảnh là một để tài thách thức, bao gồm việc khai thắc nội
dung từ ảnh, phát sinh từ ngữ để tạo thành bài thơ và đảm bảo các quy tắc về thơ, gieo
vần Với sự phát triển của các thuật toán, hiện nay các mô hình học sâu đang được ứng
dụng rộng rãi nhừo vào khả năng giải quyết hiệu quả nhiều bài toán khác nhau Đối với
bài toán phát sinh thơ từ ảnh, chúng tôi sử dụng các mô hình học sâu CNN để khai thác
nội dung ảnh, sử dụng mạng hồi quy RNN và mạng sinh GAN để phát sinh thơ.
Mục tiêu: Nghiên cứu và xây dựng mô hình có khả năng tạo ra thơ dựa vào nội dung của ảnh.
Phạm vi: Tạo ra thơ dựa trên ảnh phong cảnh.
Đối tượng:
©- Đầu vào: Ảnh chụp từ đời thực.
¢ Pau ra: Bài thơ với nội dung có liên quan đến anh đầu vào.
Phương pháp thực hiện:
e Thu thập dữ liệu về thơ ca Việt Nam và anh có liên quan.
e Xây dựng thuật toán tìm thơ dựa vào các từ khoá cho trước bằng thuật toán
truy vấn văn bản.
e Str dụng các mang CNN dé rút trích đặc trưng ảnh.
e _ Phân loại nhóm đối tượng trong ảnh, không gian ảnh và cảm xúc ảnh.
e Sử dụng bộ dữ liệu ảnh và thơ để huấn luyện và tạo sinh thơ thông qua mạng
RNN và GAN.
e Xây dựng ứng dụng minh hoa.
Kết quả mong đợi: Mô hình huấn luyện có thể tạo ra một bài thơ từ nội dung của ảnh
đầu vào, đáp ứng được những quy tắc của thơ Việt Nam (gieo van, nhịp tho, ) và nội
Trang 7dụng của thơ có liên quan đến nội dung ảnh.
Kế hoạch thực hiện:
- Giai đoạn 1 (09/2020 — 10/2020): Tìm hiểu các phương pháp cho từng bài toán:
truy vấn thơ, nhận diện đối tượng, tạo sinh câu tiếng Việt Tìm hiểu các công trình nghiên cứu liên quan đến Chạy thử các phương pháp và tìm ra điểm tốt, chưa tốt.
- Giai đoạn 2 (10/2020 — 12/2020): Nghiên cứu, cải tiễn các phương pháp cho từng
bài toán Xây dụng ứng dụng minh hoạ.
- Giai đoạn 3 (12/2020 — 01/2021): Chỉnh sửa, hoàn thiện, đóng gói khoá luận.
Người thực hiện Nhiệm vụ
Tìm hiểu đề tài
- Thu thập dữ liệu tho ca Việt Nam và ảnh
liên quan
- Tìm hiểu bài toán nhận diện đối tượng, tạo
Đặng Hoàng Sang sinh câu tiếng Việt
- Danh giá, cải thiện mô hình
- Cập nhật, liên kết các phân đoạn bài toán,
xây dựng hệ thống hoàn chỉnh
- Soạn slide thuyét trinh
- Tim hiéu dé tai
- Thu thập di liệu thơ ca Việt Nam và ảnh
Phạm Chí Thành liên quan
- Nghiên cứu thuật toán truy vấn văn bản
- Đánh giá, cải thiện mô hình
Trang 9Mục lục
Tom tắt nội dung
1_TỔNG QUAN
ị 11 Đặt vấn dé
1.2 Bài toán phát sinh thơ từ hìnhảnh|
1.21 Giới thiệu bài toán|
1.2.2 Tính ứng dụng và nghiên
cứu| -1.2.3 Một số thách thức của bài
toán| -1.3 Tinh hìnhnghiên
cứu| - -1.3.1 Tình hình nghiên cứu của các bài toán tạo thành|
1.3.2 Bài toán tự động phat sinh thơ ở Viet Nam|
1.4
1.4.1 Mục tiêu|
1.4.2 Đối tượng
1.5 Đóng góp ctiadétai), eee
ix
iv
xvi
wo 0D oO b FE Re
RP oRm N
17
Trang 102_ KIÊN THUC NEN TANG 22
2.1 Tổng quan về mạng nơ-rôn nhân tạo| - 2
2.1.1 Mạng lan truyền đa tang thuận| 23
21.2 Tầngẩn| ẶQQ eee 25
21.3 Tangdaural 2 eee 25
2.2 Mangno-rontichchap] 2.0000 eee eee ee 26
2.2.1 Giới thiệu mang nơ-rôn tích chập| - 26
2.22 Lớptíchchập| - c 27
2.2.3 Lớp kếtnối đầy đủ| 30
2.2.4 Mạng no-ron tích chap ResNet| 30
2.3 Mạng nơrôn hồi quy| -.ccS 31
2.3.1 Giới thiệu mạng nơ-rôn hỏi quy, 31
33
38
2.5 Bài toán truy vấn thông tin| c co 39
IEE xố SO .,C Add 40
2.5.2 Các phương pháp biểu diễn truyền thống| 40
44 46 47
|š_ BÀI TOÁN PHÁT SINH THƠ TU ANH KET HỢP CÁC PHƯƠNG PHAP
HỌC SAU 50 3.1 Mô hình truy van thơ dựa vào từ khóa trích xuât được từ anh] 50
3.2 Mô hình truy vấn tho dựa vào véc-tơ trực quan của hình anh] 53
3.3 Mô hình sáng tác thơ dựa vào hình anh sử dụng sử dung mang tao
sinh đối kháng| cẶQ ee 58
Trang 11[4 XÂY DỰNG BỘ DU LIEU]
4.1.1 Thu thập dữ liệu
thơ [41⁄2 Tiên xử lý dữ liệu thơ tiếng Vid]
-|4.2_ Xây dựng bộ dữ liệu bao gồm các cặp hình ảnh và thơ (UIT-I2P-Dataset) 4.2.1 Ghép cặp hình ảnh và thơị
4.22 Xửlýảnh trùng|
4.3 Tổng kết bộ dữ liệu thu
được -5_ THỰC NGHIỆM, ĐÁNH GIA KET QUA B.1 Môi trường hệ
thông| -5.1.1 Các công cụ,thư viện hỗ
trợ| -5.1.2 Cấu hình máy thực
nghiệm| -5.2 Các độ đo đánhgiá| c
521 ĐộdITUrm s18 ./.⁄
5.2.2 ĐộđoRelevancel
5.2.3 Đánh giá bởi con người (Human Judgment]
5.3 Các thông số khi huấn luyện môhình|
5.4 Quá trình huấn luyện
môhình| -5.4.1 Huấn luyện mô hình biểu diễn hình ảnh và thơ|
5.4.2 Huân luyện mô hình sinh thơ LSTM-GAN]
5.5 Kết quả thu được, nhận xét và đánh
giá| -6 KÊT LUẬN VÀ HƯỚNG PHAT TRIEN
6.2 Hướng phát triển| ẶcQQ Q So
Tài liệu tham khảo|
xi
Trang 12Danh sach hinh ve
1.1 Hình ảnh minh họa đầu vào va đầu ra của bài toán phát sinh thơ từ
ảnh cho ngôn ngữ tiếng Anh 51.2 Hình ảnh minh hoa đầu vào và dau ra của bài toán phát sinh tho từ
ảnh cho ngôn ngữ tiếng Việt| 51.3 Hình ảnh kiến trúc mô hình sinh thơ từ ảnh được đề xuất bởi Wen-
Feng Cheng và các cong sự,2018| - 15
1.4_ Hình ảnh kiến trúc mô hình sinh thơ từ ảnh được đề xuất bởi Yusen
2.3 Ví dụ minh họa phép nhân tích chập với đầu vào là tensor có kích
thước 6x6, bộ lọc có kích thước 3x3 và số bước nhảy là 1
2.4 Ví dụ minh họa về max pooling|_ 29
2.5 Hình minh họa một Residual block|l - 31
2.6 Kiến trúc mạng nơ-rôn hồi quy| - 322.7 Cấu trúc của một nơ-rôn trong mạng nơ-rôn hồi quy 34
2.8 Cau trúc của một nơ-rôn trong mạng chuỗi nhớ ngắn dài 342.9 Trục truyền thông tin ngữ cảnh của mạng chuỗi nhớ ngắn dài 35
Trang 132.10 Cổng quên trong mang chuỗi nhớ ngắn dài
2.12 Cập nhật thông tin ngữ cảnh trong mạng chuỗi nhớ ngắn dai
2.13 Cổng ra của mạng chuỗi nhớ ngắn dài
2.14 a) Là véc-tơ đơn trội BoW biểu diễn cho 1 từ b) Là véc-tơ BoW biểu
¬———— nee 41
2.15 Ví dụ về cửa số ngữ cảnh có kích thước bang 1 43
2.16 Ví dụ về ma trận đồng xuất hiện 432.17 Kiến trúc tổng quan của mạng GAN.| 49
4.1 Giao diện trang web thu thập dư liệu.
4.2 Biểu đồ thống kê số lượng các hình ảnh thuộc các lớp phổ biến trong
./⁄4@6P Y\ } 68
5.1 Biểu đồ giá trị hàm loss trong quá trình huấn luyện mô hình biểu diễn
Trang 14Danh sách bảng
Trang 15Danh sách từ viết tắt
CNN Convolutional Neural Network
RNN _ Recurrent Neural Network LSTM Long Short-Term Memory
GAN _ Generative Adversarial Network
BLEU Bilingual Evaluation Understudy
XV
Trang 16TÓM TẮT KHOÁ LUẬN
Cùng sự tiến bộ của công nghệ và kỹ thuật hiện nay, các hệ thống máy tính thông
minh ngày càng được ứng dụng rộng rãi và thể hiện sức mạnh của mình trong việc
giải quyết hiệu quả nhiều bài toán khác nhau Hiện nay con người vẫn luôn tìm cách
để phát triển các hệ thống máy tính để hướng đến các mục tiêu cao hơn, trong đóviệc một hệ thống máy tính có khả năng hiểu được thé giới thị giác và giao tiếp với
con người thông qua ngôn ngữ tự nhiên là một trong những mục tiêu lớn, giàu tiềm
năng và có ý nghĩa lớn với nhân loại của trí tuệ nhân tạo Để thực hiện mục tiêu này,
nhiều bài toán được được ra và nhiều công trình nghiên cứu Một trong những bàitoán phổ biến nhất và có nhiều bài báo nghiên cứu nhất có thể kể đến như bài toán
tự động đánh chú thích cho ảnh (Image Captioning), bài toán này nhận đầu vào làmột hình ảnh và có gắng sinh ra một câu mô tả bằng ngôn ngữ tự nhiên cho hìnhảnh đó hoặc bài toán Từ bài toán Image Captioning nhiều bài toán có liên quan được
đặt ra, một trong số đó là bài toán phát sinh thơ dựa trên hình ảnh, bài toán này
nhận đầu vào là một hình ảnh và sẽ trả về một bài thơ bằng ngôn ngữ tự nhiên có liên quan đến hình ảnh đó.
Bài toán phát sinh thơ mang trong nó nhiều thách thức tuy nhiên lại là một bàitoán thú vị và thu hút được sự quan tâm của nhiều nhóm nghiên cứu như nhóm
nghiên cứu từ OpenAl, MIT hay Google Phát sinh thơ từ ảnh có thể được xem là
một bài toán phát triển từ bài toán phát sinh thơ, đối với bài toán phát sinh thơ, một
bài thơ được tao ra từ các từ khóa hoặc chủ dé do người dùng gợi ý hoặc cung cấp
còn đối với bài toán phát sinh thơ từ ảnh thì hệ thống sẽ tạo ra một bài thơ dựa trên
hình ảnh do người dùng cung cấp Tuy nhiên bài toán phát sinh thơ từ hình ảnh vẫn
còn là một bài toán khá mới và các thử nghiệm chỉ áp dụng trên dữ liệu thơ tiếngAnh hoặc tiếng Trung
Trang 17Trong khóa luận này, chúng tôi nghiên cứu các phương pháp sáng tạo thơ từ ảnh
đặc biệt là phương pháp áp dụng CNN+LSTM+GAN, tức là khai thác đặc trưng
hình ảnh thông qua mạng CNN, sinh câu mô tả bằng mạng LSTM và cải thiện quá
trình huấn luyện với kiến trúc mạng GAN Chúng tôi thử nghiệm các phương phápnày trên bộ dữ liệu thơ với ngôn ngữ là tiếng Việt, ngôn ngữ đang có hơn 90 triệu
người sử dụng.
Trở ngại lớn nhất của đề tài nghiên cứu này chính là việc chưa có một bộ dt liệuhình gồm hình ảnh và thơ cho tiếng Việt Do đó, chúng tôi đã xây dựng một bộ dữ
liệu cho bài toán Bên cạnh đó để hạn chế một số khuyết điểm của tiếng Việt, nhiều
nghiên cứu cho thấy việc sử dụng tách từ cho tiếng Việt có hiệu quả cho các bài toánliên quan đến ngôn ngữ tiếng Việt Vì vậy, chúng tôi áp dụng tách từ tiếng Việt vàobước tiền xử lý dữ liệu tiếng Việt trước khi huấn luyện hệ thống
Chúng tôi tiến hành thử nghiệm trên bộ dữ liệu đã xây dựng, kết quả thu đượcrất khả quan, mô hình sau khi huấn luyện có khả năng phát sinh thơ và nội dung thơ
có liên quan đến hình ảnh đầu vào Chúng tôi hy vọng với bộ dữ liệu mà chúng tôi
tạo ra cùng kết quả đạt được trong kháo luận này sẽ hỗ trợ và tạo động lực, truyền
cảm hứng cho các nghiên cứu khác trong bài toán phát sinh thơ dựa vào hình ảnh
cho ngôn ngữ tiếng Việt, một bài toán đầy thách thức này
Trang 18Mạng học sâu Deep Neural Networks ngày nay đã không còn xa lạ với mọi người
vì những ứng dụng rộng rãi của nó trong cuộc sông Những tiến bộ gan đây của các
mạng học sâu đã thúc đẩy cơ hội cho các nghiên cứu đặc biệt là hướng nghiên cứu
kết hợp giữa thị giác máy tính và xử lý ngôn ngữ tự nhiên Phát sinh chú thích từhình ảnh là một trong các hướng nghiên cứu đó, với yêu cầu sinh ra một câu chú
thích dựa trên nội dung của hình ảnh.
Là một bài toán quan trọng được dé ra từ giai đoạn đầu của lĩnh vực Trí tuệnhân tạo (TTNT), là sự kết hợp giữa hai hướng nghiên cứu về hình ảnh và ngôn ngữnên chú thích hình ảnh mang trong nó nhiều thách thức, đến nay nó vẫn là một bàitoán chưa được giải quyết trọn vẹn Khó khăn của bài toán này xuất phát từ khảnăng quan sát và mô tả, những tác vụ có thể rất đơn giản với con người nhưng đối
với máy tính nó lại rất phức tạp và khó khăn Đầu tiên về mặt thị giác, đôi mắt là
một món quà kỳ diệu mà tạo hóa đã ban cho sinh vật, đôi mắt giúp mọi sinh vật
nói chung và con người nói riêng có thể quan sát, tiếp thu những thông tin hình
Trang 19Chương 1 TỔNG QUAN 2
ảnh về thế giới từ đó có thể nhận thức về chúng, ví dụ những hình ảnh thu được
từ mắt giúp con người biết được những sự vật xung quanh mình, từ đó hình thành
những hiểu biết về chúng Tuy nhiên hình ảnh trong máy tính được biểu diễn trongmáy tính chỉ là những con số, đối với máy tính chúng một hình ảnh chỉ là một ma
trận 2 chiều của các pixel Để có thể giúp máy tính có thể hiểu được ảnh, con người
đầu tiên cần phải huấn luyện chúng với rất nhiều hình ảnh và các nhãn đi kèm Các
mạng học sâu hiện nay có hiệu quả khá tốt trong việc giúp máy tính hiểu được hình
ảnh Về mặt ngôn ngữ, ngôn ngữ là một hệ thống rất phức tạp cũng như là 1 trong
những đặc trưng cơ bản của con người, con người khác biệt với những loài sinh vật
khác trên Trái Đất nhờ khả năng tư duy và ngôn ngữ, đây cũng chính là lí do nhânloại có thể phát triển hơn rất nhiều so với những giống loài khác Con người vẫnluôn kỳ vọng máy tính có thể giao tiếp với con người bằng ngôn ngữ tự nhiên, đếnnay người ta vẫn đang nghiên cứu nhưng vẫn còn một khoảng cách rất xa để đạt
được mục tiêu này Một hệ thống Chú thích hình ảnh sẽ kết hợp giữa khả năng quan
sát, xử lý hình ảnh để khai thác những đặc trưng của hình ảnh và khả năng xử lý
ngôn ngữ để sinh ra một câu mô tả phù hợp bằng ngôn ngữ tự nhiên của con người
Hay hiểu đơn giản ta cho máy tính một bức ảnh và muốn nó kể với ta là nó hiểu như
thế nào về bức ảnh đó
Nói về khả năng ngôn ngữ, làm thơ chính là một cách mô tả của con người vềcác sự vật, hiện tượng trong cuộc sống Có thể hiểu đơn giản thơ là một bước cao
hơn của việc mô tả thông qua các sử dụng ngôn ngữ sáng tạo, kết hợp giữa sự quan
sát và liên tưởng về các sự vật hiện tượng, từ đó tạo nên những bài thơ mang những
nhận xét, tâm tư, tình cảm của con người Do có đặc điểm ngắn gọn, súc tích, ý nghĩa
cô đọng, sử dụng những hình ảnh có liên quan đến cuộc sống nên thơ trở nên gầngũi với con người, là một món ăn tỉnh thần, một nét đẹp văn hóa và là sự sáng tạo
của con người.
Một hệ thống phát sinh thơ từ hình ảnh có rất nhiều điểm tương đồng với hệ
Trang 20Chương 1 TỔNG QUAN 3
thống chú thích hình ảnh Hệ thống phát sinh thơ vẫn thực hiện các bước khai thácthông tin từ hình ảnh Tuy nhiên thay vì trả về một câu mô tả hình ảnh, hệ thốngphát sinh thơ sẽ trả về một bài thơ có liên quan đến hình ảnh đầu vào
Hiện nay, có nhiều nghiên cứu về bài toán phát sinh thơ từ hình ảnh, tuy nhiên
các nghiên cứu đa phần chỉ tập trung vào các ngôn ngữ sử dụng phổ biến như tiếng
Anh hoặc tiếng Trung Quốc, đặc biệt với tiếng Trung Quốc, nơi có nền văn hóaphong phú, lâu đời và có kho tàng thơ văn đồ sộ nổi tiếng thu hút được nhiều sự
nghiên cứu Tuy nhiên ứng dụng phát sinh thơ từ hình ảnh không nên bị giới hạn
bởi ngôn ngữ, nước Việt ta cũng đã trải qua hơn bốn nghìn năm văn hiến, cũng có
rất nhiều tác phẩm văn học nổi tiếng như Truyện Kiều của Nguyễn Du Thơ ca cũng
là một món ăn tinh than, một nét dep văn hóa của người Việt từ bao đời nay bằng
chứng chính là thể thơ lục bát - một thể thơ mang đậm tính dân tộc, một nét riêng của người Việt Hiện nay, làm thơ vẫn là một thú vui mang tính nghệ thuật, giải trí
và vẫn được phát triển bởi các thế hệ sau
Một số ưu điểm của tiếng Việt đối với tiếng Anh là non-inflection, đối với tiếng
anh các từ có thể bị chuyển déi(inflect) theo thì(tense) hoặc theo chủ ngữ sử dụngH|.
Ví dụ từ "begin" tùy theo thì của câu sẽ có dạng "began'(thì quá khứ) hay
"be-gun"(quá khứ phân từ), Hay từ "cat" ở dạng số ít hoặc số nhiều sẽ là "cat" (số
it) hoặc "cats"(số nhiều) Đối với tiếng Việt thay vì phải thay đổi từ gốc thì ta sửdung các từ bổ trợ để chỉ thì của câu ví dụ từ "đã" (thì quá khứ) , từ "dang" (thì tiếpđiễn), trước động từ chính của câu Hay đối với các danh từ số nhiều ta thường sửdụng các từ "những", "các" trước danh từ Nhu vậy đối với tiếng Việt ta sẽ có một sốlợi thế hơn tiếng Anh về việc chuyển từ về từ gốc trước khi xử lý
Tuy nhiên, tiếng Việt cũng có một số hạn chế riêng của nó Hạn chế lớn nhất
chính là sự nhập nhằng của khoảng trống Khác với tiếng Anh các khoảng trống
dùng để phân cách các từ thì khoảng cách trong tiếng Việt dùng để phân cách các
âm tiết khác nhau Ví dụ "hàng rào" là một từ duy nhất nhưng lại có 2 âm tiết phân
Trang 21Chương 1 TỔNG QUAN 4
tách bằng khoảng cách trong khi tiếng Anh danh từ “hàng rào” chỉ sử dụng 1 từ duynhất là "fence" Do đó để giảm bớt sự nhập nhang này, chúng tôi sử dụng phương
pháp Word Segmentation một phương pháp stage-of-the-art hiện nay để liên kết các
âm tiết của cùng một từ
Tính đến thời điểm hiện tại vẫn chưa có một bộ dữ liệu cặp hình ảnh và bài thơnào cho ngôn ngữ tiếng Việt để sử dụng cho bài toán phát sinh thơ từ ảnh Do đó
chung tôi đã tiến hành tạo một bộ dw liệu riêng cho tiếng Việt Việc xây dựng bộ dữ
liệu tốn rất nhiều thời gian và công sức nên chúng tôi xây dựng một bộ di liệu gồm
2622 cặp ảnh va thơ sử dụng cho dé tài khóa luận
Bên cạnh nội dung chính của khóa luận là phát sinh ảnh từ thơ sử dụng mô hình
CNN-LSTM và mạng tạo sinh đối kháng, chúng tôi đề xuất thêm một số phương
pháp có thể sử dụng để phục vụ cho bài toán phát sinh thơ từ ảnh.
1.2 Bài toán phát sinh thơ từ hình ảnh
1.21 Giới thiệu bài toán
Bài toán phát sinh thơ từ hình ảnh là bài toán tạo ra một bài thơ có liên quan đến
nội dung của bức ảnh đưa vào, bài thơ có thể là một bài thơ trong tập dữ liệu hoặc là
một bài thơ mới do máy tạo ra Bài thơ này phải miêu tả, có liên quan đến một khía
cảnh của hình ảnh như đối tượng nổi bật, cảnh vật hoặc những liên tưởng tượng
tượng có liên quan Ngôn ngữ của bai thơ có thể là bat kỳ ngôn ngữ tự nhiên nào
© Đầu vào (input): Một bức anh
© Dau ra (outout): Một bài thơ liên quan đến bức ảnh đầu vào
Bài toán sinh thơ từ hình ảnh cho tiếng Việt sẽ tương tự, nhưng đầu ra (output)của bài toán sẽ là một bài thơ bằng ngôn ngữ tiếng Việt
Trang 22Chương 1 TỔNG QUAN 5
Đâu ra
Buttercups and daisies
Oh the pretty flowers Coming ere the springtime
To tell of sunny hours
HÌNH 1.1: Minh hoa đầu vào va đầu ra của bài toán với ngôn ngữ tiếng
Anh.
Đâu vào Đâu ra
Anh đi xa vạn dặm đường
Còn em ở lại quê hương ngọt lành
Cánh đồng bát ngát màu xanh
Quê hương giữ trọn tình anh tháng ngày
HÌNH 1.2: Minh họa đầu vào và đầu ra của bài toán với ngôn ngữ tiếng
Việt.
1.2.2 Tinh ứng dụng và nghiên cứu
Tính ứng dụng:
¢ Ứng dụng của bài toán sinh thơ từ ảnh có thể được sử dụng vào mục đích giải
trí Thơ ca từ lâu đã là món ăn tinh thần đối với con người Thơ là sự kết hợpgiữa những từ ngữ, mang trong đó cả những tâm tư tình cảm của người viết,những gi gan gũi với con người, cuộc sông Do đó, thơ văn vẫn luôn hấp dẫn
Trang 23Chương 1 TỔNG QUAN 6
được con người, gợi sự hứng thú Với nhiều người, xem thơ là một thú vui,
một cách để giải trí, hay như một đam mê Nếu khi đọc thơ kết hợp với xem
hình ảnh có liên quan đến bài thơ thì người đọc sé dé dang cảm nhận bài thơ
hơn, tạo sự trực quan, dễ dàng liên tưởng hay tưởng tượng, tăng sự hứng thú
cho người đọc Cách đưa cho hệ thống một bức ảnh và hệ thống trả về một bài
thơ để người dùng đọc cũng là một hình thứ xem thơ mới lạ và thú vị.
* Ứng dụng trong mục đích giáo dục: Theo nhiều nghiên cứu cho trẻ em tiếp
xúc với thơ văn từ sớm không phải là một ý kiến toi Việc xem những bài thơhay làm thơ giúp có thể giúp trẻ mở rộng vốn từ ngữ, kích thích sự tò mò, tăngkhả năng sáng tạo Với kết quả ứng dụng của bài toán sinh thơ từ hình ảnh cóthể giúp trẻ học hỏi tốt hơn, gợi sự liên tưởng, tưởng tượng cho trẻ
Tính nghiên cứu:
¢ Tuy tinh ứng dụng của bài toán phát sinh thơ từ ảnh không quá nhiều Tuy
nhiên về mặt nghiên cứu và học thuật sẽ là một bài toán xứng đáng để quantâm và sẽ đóng góp được nhiều cho việc nghiên cứu các van dé liên quan đến
khả năng ngôn ngữ của máy tính Con người hiện nay vẫn luôn tìm cách để máy tính có khả năng ngôn ngữ như con người, tuy nhiên đó vẫn là con đường
rất dài Từ kết quả của bài toán phát sinh thơ từ ảnh một phần nào có thể thể
hiện được khả năng ngôn ngữ của máy tính vì làm thơ không hoàn toàn là một
việc dễ dàng kể cả đối với con người
1.2.3 Một số thách thức của bài toán
Một số thách thức đối với bài toán phát sinh thơ bằng hình ảnh:
* Yêu cầu kiến thức của 2 chuyên ngành: Thị giác máy tính (Computer Vision)
và Xử lý ngôn ngữ tự nhiên (Natural Language Processing).
Trang 24Chương 1 TỔNG QUAN 7
s® Khó khăn trong việc xây dựng bộ dữ liệu: Hiện tại bộ dữ liệu sử dụng cho bài
toán này gồm các cặp hình ảnh, bài thơ có liên quan nhau Hình ảnh sử dụng
để huấn luyện và bài thơ được sử dụng như một nhãn (Ground truth) của hìnhảnh Tuy nhiên việc ghép cặp ảnh và thơ tuy mất nhiều thời gian nhưng chưa
thực sự hoàn hảo, các cặp ảnh và thơ sẽ có liên quan đến nhau về đối tượng,
khung cảnh, để ghép được cặp ảnh và thơ hoàn hoản, bài thơ có tất cả các đối
tượng và cảnh ở trong ảnh sẽ rất khó khăn và tốn rất nhiều thời gian vào công
sức, nên các cặp dữ liệu ảnh và thơ có được chỉ mang tính tương đối, tức là
ảnh và thơ sẽ liên quan đến nhau ở một vài đối tượng, khung cảnh chứ không
hoàn toàn liên quan Và việc phép cặp ảnh và thơ để tạo bộ dữ liệu còn phụ thuộc vào cảm nhận cách đánh giá của mỗi người tham gia làm dữ liệu nên
vẫn còn nhiều sai sót
© Thách thức chung của các bài toán liên quan đến thị giác máy tính cụ thể là về
chất lượng của ảnh: ảnh không rõ đồi tượng, bị biến dạng, bị che khuat, bị mờ,
phụ thuộc vào ánh sáng, góc nhìn,
¢ Thách thức của các bài toán liên quan đến ngôn ngữ tự nhiên: Một hệ thống
phát sinh thơ từ ảnh thường chỉ hướng đến một ngôn ngữ nhất định, hiện nayphổ biến là tiếng Anh và tiếng Trung, mỗi ngôn ngữ sẽ có nhưng ưu điểm vàhạn chế khác nhau về mặt ngữ pháp và có các cách xử lý ngôn ngữ riêng điều
này làm cho các mô hình phát sinh thơ từ ảnh của các ngôn ngữ khác nhau có
cách các xử lý biểu diễn ngôn ngữ khác nhau, cũng có thể gây ảnh hưởng đếnhiệu năng của hệ thống
se Thách thức về độ đo va cách đánh giá mô hình sinh thơ: Hiện nay vẫn chưa
có một độ đo tự động hiệu quả nào để đánh giá chất lượng của một bài thơ domáy tạo ra mà tạo ra sự tin tưởng tuyệt đối Cách hiệu quả nhất được nhiều
người công nhận vẫn chính là để con người chấm điểm cho các kết quả sinh
Trang 25Chương 1 TỔNG QUAN 8
ra Việc này tốn nhiều thời gian hơn nữa việc đánh giá thơ còn phụ thuộc vào
cảm nhận của mỗi người, có người sẽ thấy bài thơ đó hay tuy nhiên với bài thơ
đó cũng có người cho là không hay.
Một số thách thức đối với bài toán phát sinh thơ bằng hình ảnh sử dụng ngônngữ tiếng Việt:
© Chưa có một bộ dữ liệu cho tiếng Việt: Theo tìm hiểu của nhóm tác giả khóa
luận này trong thời điểm thực hiện khóa luận vẫn chưa có một bộ dữ liệu
Image-Poem nào cho tiếng Việt được công bố Do đó bộ dữ liệu hiện tại đang
được sử dụng là do nhóm tác giả xây dựng nên sẽ không tránh khỏi những sơ
xuất do yêu tố chủ quan và hạn chế về sự phong phú, đa dạng của bộ dữ liệu
© Sự nhập nhằng của ngôn ngữ tiếng Việt so với những ngôn ngữ khác: Khoảng
trống (space) trong các ngôn ngữ tiếng Anh hay tiếng Trung dùng để phâncách các từ với nhau tuy nhiên khoảng trống trong tiếng Việt còn để sử dụng
để phân cách các âm tiết trong một từ Dé hạn chế van dé nay cần sử dụng một
bộ xử lý tách từ cho tiếng việt, dùng để nối các âm tiết của cùng một từ tiếng
Việt là Word Segmentation Vi dụ: Từ "hàng rao" là một từ nhưng có 2 âm tiết
nếu không sử dụng Word Segmentation thì hệ thống phát sinh thơ từ ảnh có
thể sẽ hiểu đây là 2 từ riêng biệt Hoặc từ "Sạch sành sanh" sẽ bị hiểu là 3 từ
riêng biệt.
» Sự phức tạp của tiếng Việt: Tiếng Việt là một trong những ngôn ngữ khá phức
tạp trên thé giới với hệ thống từ ngữ da dạng, nhiều từ đồng nghĩa, đồng âm,
từ địa phương, từ lay, từ phép, cách chơi chữ, nhiều phép nhân hóa, so sánh
Trang 26Chương 1 TỔNG QUAN 9
kể trên đều có thể gây khó khăn cho mô hình trong việc xác định tên gọi của
đối tượng và có thể làm giảm hiệu năng cho hệ thống phát sinh thơ bằng ngôn
ngữ tiếng Việt
© Chưa có các nghiên cứu được công bó: Hiện nay, theo tìm hiểu của nhóm tác
giả thực hiện khóa luận này, chưa có một công trình nghiên cứu nào cho bài
toán phát sinh thơ từ hình ảnh được công bồ, cũng như chưa có những dé xuất
về phương pháp cho bài toán này Đây là một khó khăn cho nhóm trong việctìm hiểu, tham khảo các phương pháp, ý tưởng có thể áp dụng để giải quyếtbài toán để đưa ra so sánh đánh giá
1.3 Tinh hình nghiên cứu
Bài toán phát sinh thơ từ ảnh là bài toán được tạo thành từ nhiều bài toán khác
nhau Nên trước khi giải quyết bài toán phát sinh thơ từ ảnh ta cần giải quyết một số
bài toán tạo thành, trọng tâm như: bài toán phân tích ngữ nghĩa từ hình ảnh (Image
Understanding), bài toán sinh ngữ (Language Generation), ta cũng tìm hiểu thêm
về bài toán có liên quan như bài toán chú thích hình ảnh (Image Captioning)
1.3.1 Tình hình nghiên cứu của các bài toán tạo thành
Bài toán phân tích ngữ nghĩa hình ảnh (Image Understanding): Là một trong
những bài toán quan trọng nhất của Thị giác máy tính Mục tiêu của bài toán là từ
những hình anh, máy tính có thể rút trích được những thông tin từ ảnh, các thông
tin này có thể là: thông tin về các đối tượng các thành phần trong ảnh, mối liên hệgiữa các đối tượng, Việc máy tính có thể rút trích những thông tin trên từ hìnhảnh là tiền dé rất lớn để giúp máy tính có thể học được những gi có trong hình ảnh
Là một bài toán xuất hiện khá sớm trong Thị giác máy tính, đến này có rất nhiều
Trang 27Chương 1 TỔNG QUAN 10
nghiên cứu về bài toán này và con người vẫn đang không ngừng nghiên cứu và cảitiến Từ những ngày đầu, người ta rút trích thông tin ảnh bằng các thuật toán máy
hoc đơn giản dựa trên những đặc trưng của hình ảnh như hoa văn [2] , biểu đồ màu
sắc (41, hinh dang (5) Các cách rút trích thông tin trên đến nay vẫn hiệu quả
trên một số bộ dữ liệu Năm 2012, mang CNN xây dựng trên GPU của tác giả AlexKrizhevsky và các cộng sự đã thắng giải trong cuộc thi "ImageNet Large Scale VisualRecognition Challenge 2012" [6] Su thành công của Alex và mang CNN của minh
da mở ra một kỷ nguyên mới trong việc ứng dung các mạng học sâu vào lĩnh vực
Thị giác máy tính Đây chính là tiền dé cũng như động lực cho các kiến trúc manghọc sâu mới ra đời như Google Net (Inception V1) [7], VGG [8], Resnet [9], cũngnhư các phiên bản cải tiến của chúng Việc áp dụng các kiến trúc mang học sâu giúp
máy tính có thể rút trích thông tin từ ảnh một cách hiệu quả hơn, cải thiện độ chính
xác của nhiều bài toán của Thị giác máy tính như: Bài toán phát hiện, phân loại đối
tượng, bài toán phân đoạn hình ảnh, bài toán khoang vùng đối tượng, bài toán sinh
ảnh,
Bài toán sinh ngữ: Là một trong những bài toán quan trọng trong ngày đầu của
Trí tuệ nhân tạo và không ngừng được nghiên cứu với mục tiêu máy tính có khả
năng ngôn ngữ, sinh ngôn ngữ để có thể giao tiếp với con người bằng ngôn ngữ tựnhiên Khởi đầu bài toán bằng những nghiên cứu về khả năng ngôn ngữ của máytính dựa trên các tri thức có sẵn, các hệ thống máy tính sẽ lưu trữ tri thức và sử dụng
các hệ luật đã được xây dựng để có thể sinh ngữ, giao tiếp với con người thông qua
ngôn ngữ tự nhiên [10] Năm 2003, Yoshua Bengio và các cộng sự đã giới thiệu mô
hình sinh ngữ dựa trên xác suất (11), ý tưởng cũng như những lý thuyết trong bài
báo này đã là tiền dé cho những mô hình tốt hơn ra đời Những năm gan đây, đánh
dấu một bước tiến của mô hình sinh ngữ với việc sử dụng mang nở rôn nhân tao
Mô hình sinh ngữ với mạng nơ rôn đã trở thành một công cụ phổ biến được nhiềungười sử dụng bởi sự hiệu quả của nó, có thể ghi nhớ được thông tin trong dài hạn
Trang 28tự động chú thích cho hình ảnh thông qua việc xem xét các sự tương quan giữa hình
ảnh và câu mô tả [15] Năm 2011, Girish Kulkarni và cộng sự đã đề xuất phương
pháp chú thích cho ảnh bằng cách phân tích đối tượng trong ảnh để tìm những
nhãn phù hợp sau đó điền vào một ban mẫu có san [1ö] Năm 2015, các nghiên cứu
về việc sử dụng mạng RNN để sinh câu chú thích được công bố, phương pháp này
thể hiện sự hiệu quả của nó trong việc sinh ra một câu chú thích mới cho ảnh
9l Cùng năm 2015, Ryan Kiros và các cộng sự đã công bố nghiên cứu của
mình về phương pháp đưa véc-tơ biểu diễn hình ảnh (rút trích bằng mạng CNN)
và véc-tơ biểu diễn câu chú thích vào cùng một không gian để xem xét mối tương
quan giữa chúng, phương pháp này vừa có thể sử dung cho các bài toán truy van
đồng thời vẫn có thể áp dụng cho bài toán chú thích ảnh [20] Sau khi Oriol Vinyals
và các cộng sự của mình công bồ công trình nghiên cứu của mình tại hội nghị CVPR
2015, mô hình "Show and Tell" của nhóm tác giả được cho là hiệu quả cho bài toán
chú thích hình ảnh, đồng thời đoạt giải nhất cuộc thi COCO Caption Challenge 2015
[21] Mô hình "Show and Tell" là sự kết hop giữa phương pháp rút trích đặc trưng
hình ảnh bằng mạng CNN và phát sinh câu chú thích bằng mạng LSTM, mô hìnhnay đã tạo tiền dé cho nhiều phiên bản cải tiến phát triển sau này Năm 2016, Kelvin
Xu và các cộng sự đã công bố mô hình "Show, Attend and Tell" và trở thành xu
hướng thịnh hành nhất cho bài toán chú thích hình ảnh [22] Bằng các giới thiệu cơ
chế Attention, thay vì sử dụng thông tin toàn cục về hình ảnh một cách không chọn
lọc như ở mô hình "Show and Tell", mô hình "Show, Attend and Tell" sinh ra phân
Trang 29Chương 1 TỔNG QUAN 12
phối cho mỗi vùng trong bức ảnh trước khi sinh ra một từ mới, sau đó tiến hành
cộng dồn có trọng số (weighted sum) phân phối này với thông tin ở từng vùng ảnh
tương ứng để tạo thành véc-tơ ngữ cảnh Véc-tơ này sẽ mang thông tin quan trọng
từ hình ảnh sau đó được sử dụng vào đầu vào của mô hình sinh ngữ Từ các kết quả
dat được của 2 mô hình "Show and Tell" và "Show, Attend and Tell" nêu ở trên đã tao
động lực cho các nghiên cứu cải tiến sau này [25] Hién nay phuong phap
sử dung CNN dé rút trích đặc trưng anh và sử dung các mô hình ngôn ngữ để sinhngữ còn được gọi là kiến trúc Encoder-Decoder Các bài toán phát sinh thơ từ hìnhảnh sau này cũng phát triển dựa trên những ý tưởng này
Mạng tạo sinh đối kháng (GAN): Là một kiến trúc mạng do lan Goodfellow và
cộng sự thiết kế vào năm 2014 [26] Kiến trúc của mang GAN gồm 2 mạng nơ-rôn
khác, trong đó 1 mạng nơ-rôn đóng vai trò sinh dữ liệu (Generator) mạng còn lại có
vai trò kiểm tra dữ liệu được sinh ra (Discriminator), thông qua việc huấn luyện 2
mạng nơ-rôn này sẽ giúp mạng nơ-rôn sinh dữ liệu có khả năng tạo ra những dw liệu
mới giống với thực tế nhất Mang GAN thường được sử dụng để sinh hình ảnh kiến
trúc hay được sử dụng nhất có thể kể đến như Conditional Generative Adversarial
Nets (CDGAN) do Mehdi Mirza và cộng sự thiết kế năm 2014 [27] Tinh dén hién
tại có rat nhiều phiên ban mang GAN khác nhau được công bố, tuy nhiên các mang
này vẫn có kiến trúc chính gồm 2 mạng nơ-rôn như kiến trúc gốc Ngoài ứng dụng
để sinh ảnh, kiến trúc mạng GAN vẫn có thể được sử dụng trong các bài toán sinh
ngôn ngữ, tiêu biểu có thể kể đến SegGAN do Lantao Yu và cộng sự công bố năm
2016 [28]
1.3.2 Bài toán tự động phát sinh thơ ở Việt Nam
Bài toán tự động phát sinh thơ là một đề tài thú vị, tuy nhiên tính đến thời điểmhiện tại và theo tìm hiểu của nhóm thực hiện khóa luận, vẫn chưa có nhiều bài báohay các nghiêm cứu được công bồ liên quan đến dé tài này nên vẫn chưa tạo được
Trang 30Chương 1 TỔNG QUAN 13
quá nhiều sự chú ý và thu hút nhiều sự quan tâm Trong các nghiên cứu đáng chú
ý là công trình của nhóm nghiên cứu đến từ Công ty Cổ phần Công nghệ Tỉnh Vân
Hà Nội, nhóm nghiên cứu đã phát triển một ứng dụng web với tên gọi Dịch vụ Thơ
Máy Dịch vụ Thơ Máy có nhiều tính năng khác nhau cho việc sáng tác bài thơ mới,trong đó có 2 tính năng nổi bật nhất: Máy sáng tác thơ và Sáng tác thơ dựa trên đoạn
văn.
se Máy sáng tác thơ: Tính năng này cho phép người dùng chọn một thể loại thơ:
Lục bát, tám chữ, sáu chữ, haiku, Và một phong cách thơ: Xuân Diệu, Hồ
Xuân Hương, Hàn Mạc Tử, Ca dao tục ngữ, Sau đó máy sẽ tự động sáng tác
một khổ thơ gồm 4 câu dựa trên lựa chọn của người dùng
© Sáng tác thơ dựa trên đoạn văn: Đối với tính năng này, người dùng đầu tiên
sẽ chọn một thể loại thơ, sau đó nhập vào một đoạn văn xuôi, mỗi một câu sẽ
được sắp xếp lại và tạo thành một câu thơ
Dịch vụ Thơ Máy khi mới ra mắt đã gây được sự chú ý và thích thú của nhiều
người về tính mới lạ cũng như thú vị của nó Các bài thơ được sáng tác ra thườngđảm bảo chặt chẽ về cấu trúc, niêm luật của thể loại thơ mà người dùng chọn và có
ý nghĩa Tuy nhiên, đối với chức năng máy sáng tác thơ, các đoạn thơ được tạo ra
ngẫu nhiên dựa vào 2 tiêu chí thể loại thơ và phong cách thơ mà người dùng lựa
chọn, điều đó đồng nghĩa người dùng không thể biết trước nội dung bài thơ đượctạo ra sẽ như thế nào cũng như không thể yêu cầu Dịch vụ Thơ máy sáng tác những
bài thơ liên quan đến đối tượng mong muốn Điều này sẽ được khắc phục ở tính
năng sáng tác thơ dựa trên đoạn văn, nếu người dùng mong muốn một bài thơ liênquan đến đối tượng mong muốn thì có thể nhập vào một đoạn văn về đối tượng đó
và máy sẽ sắp xếp các câu trong đoạn văn thành các câu thơ tương ứng
Trang 31Chương 1 TỔNG QUAN 14
1.3.3 Các nghiên cứu liên quan của bài toán phat sinh thơ từ ảnh
Sau sự thành công của mạng RNN trong bài toán sinh ngữ, năm 2014, Xingxing
Zhang và cộng sự đã sử dụng mạng RNN cho bài toán sinh tho cho ngôn ngữ Trung
Quốc [29], ý tưởng của mô hình là sử dung các từ khóa được được con người cung
cấp, sau đó dựa trên xác suất để tìm những từ phù hợp tạo thành các câu thơ Hướng
giải quyết sử dụng từ khóa để sinh câu này về sau được phát triển bằng cách thay vìcung cấp những từ khóa cho mô hình để sinh thơ thì ta chỉ cần cung cấp 1 bức ảnh
để mô hình tự động rút trích các từ khóa sau đó mới sinh thơ.
Wen-Feng Cheng và các cộng sự, 2018 0]: nghiên cứu này theo hướng tiếp cận
sinh thơ dựa trên từ khóa trích xuất được từ ảnh, dành cho ngôn ngữ Trung Quốc.Thể loại thơ nhóm tác giả hướng đến là thơ Trung Quốc hiện đại, đây là thể loạithơ không quá đặt nặng về mặt cấu trúc, tức là không cần phải đi theo đúng quy
tắc và khuôn mẫu quá chặt chẽ như ở các thể loại thơ Trung Quốc truyền thống Ý
tưởng chính của mô hình là dùng mạng CNN cu thể là mạng AlexNet được huấnluyên trên bộ đữ liệu ImageNet sau đó tinh chỉnh cho phù hợp bài toán để trích xuất
những từ khóa từ hình ảnh Sau khi qua bước mở rộng và chọn lọc từ khóa, các từ
khóa được chọn sẽ được sử dụng để đưa vào mô hình sinh thơ Mô hình sinh thơ
của nhóm tác giả được câu tạo chủ yếu dựa trên mạng LSTM Mô hình này có khảnăng sinh ra các câu thơ có chứa từ khóa từ đó cau thành 1 bài tho, câu thơ tiếp theođược sinh ra dựa vào câu thơ trước đó Ngoài ra nhóm tác giả còn kết hợp thêm một
đánh giá tự động ở mô hình sinh thơ với mục đích chỉ chọn những bài thơ đạt tiêu
chuẩn do mô hình sinh thơ tạo ra.
Yusen Liu và các cộng sự, 2020 (31): Tương tự hướng tiếp cận ở trên, nhóm tác
giả này cũng sử dụng phương pháp rút trích từ khóa từ hình ảnh và sinh những câu
thơ dựa trên từ khóa Ngôn ngữ hướng đến là ngôn ngữ Trung Quốc Với mô hình
rút trích từ khóa từ ảnh, tác gia sử dung dịch vu Clarifai API, day là một dịch vụ
cung cấp cho bài toán nhận diện hình ảnh, với một hình ảnh đưa vào, công cụ này
Trang 32Chương 1 TỔNG QUAN 15
Extraction Concrete Information
Extraction
Season: Winter
Time: Daytime |—>|
Weather: Sunshine Abstract Information
Image Information Extraction
44 Mountain peak
G28 Snowficld |
KE Sky
Keywords Retrieve & Expand
Abstract Information Embedding
Abstract Information
Vectors
#44) Mountains
‘AE Reach up to the sky
Poetry Generation Thousands of cloud-kissing peaks up to the clear sky,
The sunlight shines on the snowy world
HINH 1.3: Kiến trúc tổng thé của mô hình sinh thơ từ ảnh được dé xuất
bởi Wen-Feng Cheng và các cộng sự, 2018.
sẽ trả về các đối tượng trong hình ảnh, sau đó tác giả tiến hành mở rộng và chọnloc từ khóa Bên cạnh đó tác giả cũng sử dụng 3 mạng CNNs (đều là GoogleNet) đãđược huấn luyện trước trên bộ dữ liệu ImageNet sau đó tinh chỉnh để rút trích thêmcác thông tin về ảnh, các thông tin lần lượt về: mùa, thời gian trong ngày, thời tiết
Với các từ khóa và thông tin rút trích được, tác giả kết hợp để huấn luyện mô hìnhsinh thơ Ở mô hình sinh thơ, tác giả sử dụng kiến trúc mang GRU với cơ ché chú ý(attention) [32]
With lips curl into phony smile.
HINH 1.4: Kiến trúc tổng thé của mô hình sinh thơ từ ảnh được dé xuất
bởi Yusen Liu và các cộng sự, 2020.
Bei Liu và các cộng sự 2018 [53]: Khác với những nghiên cứu ở trên, ngôn ngữ
mà nhóm tác giả hướng đến cho phương pháp phát sinh thơ từ hình ảnh của mình
Trang 33Chương 1 TỔNG QUAN 16
là trên tiếng Anh, do đó nghiên cứu này đã có thể tiếp cận với nhiều người hơn
Công trình nghiên cứu của nhóm tác giả cũng đạt giải bài báo xuất sắc nhất của hội
nghị ACM Multimedia năm 2018 Tác giả đã xây dựng một bộ dữ liệu tiếng Anh chobài toán gồm: bộ đữ liệu thơ với 93.256 bài thơ, bộ dữ liệu cặp ảnh và thơ với 8292
cặp Bộ dữ liệu cặp ảnh và thơ được tác giả bắt cặp dựa trên mồi liên quan giữa hình
ảnh và bài thơ Với hướng tiếp cận Encoder-Decoder quen thuộc cho các bài toánsinh ngôn ngữ từ hình ảnh, tác giả đã có những cải tiến đáng kể và hiệu quả cho
bài toán phát sinh thơ từ hình ảnh của mình Trong bài báo, tác giả sử dụng 3 mạng
CNNs để trích xuất đặc trưng từ ảnh, sử dung mô hình skip-throught để biểu diễn
bài thơ đưới dạng véc-tơ Với véc-tơ đặc trưng trích xuất từ ảnh và véc-tơ biểu diễncủa bài thơ, tác giả xây dựng mô mình biểu diễn 2 véc-tơ trên về cùng một không
gian Tác giả sử dụng véc-tơ biểu diễn hình ảnh sau khi được biểu diễn trong không
gian biểu diễn và bài thơ bắt cặp của nó để huấn luyện mô hình sinh ngữ là RNN vớicác GRU cell Cuối cùng tác giả sử dụng mạng sinh ngôn ngữ như một Generator
trong GAN và thiết kết 2 mạng Discriminator để tạo thành một kiến trúc mạng tạo
sinh đối kháng, cải thiện hiệu suất của mạng RNN trong suốt quá trình huấn luyện
ee ae ee acm,
1
Deep Coupled Visual-Poetic Embedding Model i Generator as Agent |, _Discriminators as Rewards
(b) Poetic CNN features lị HH (g) Multi-Modal Discriminator
lì II —>_ C„(c=paired) (e) Muli-modal space | | apes TH TT paired @ `
(3) coming ee te springtime Mean peotng 4 lị in [_ Generated Q) :
(4)t0 tel of sumy hours | [Disordered Q]
() em || = lộ | L_ Disordered Gj
——> [0903030] —> 2 == I) II h Paragraphic@| :
GP || ) = peeerree
_——
(c) skipthought model 4 Reward: R=
-(a) image and poem pairs tranedonUniM-Poem (d)sentence features a (RNN generator _ He a ons aC, m tũ- AG, z
Oa a ee `" 2 A= "(i Policy Gradient ——Ì
HÌNH 1.5: Kiến trúc tổng thé của mô hình sinh thơ từ ảnh được dé xuất
bởi Bei Liu và các cộng sự, 2018.
Trang 34Chương 1 TỔNG QUAN 17
1.3.4 Nhận xét
Ở 2 công trình nghiên cứu của Wen-Feng Cheng cùng các cộng sự và Yusen
Liu và các cộng sự [31] ta có thể thấy phần lớn các nghiên cứu cho bài toán sinh thơ
từ hình ảnh chủ yêu được thực hiện trên ngôn ngữ Trung Quốc vì Trung Quốc là
một quốc gia đông dân, thực hiện bài toán trên ngôn ngữ Trung Quốc sẽ tiếp cậnđược với nhiều người dân Trung Quốc hơn Ngoài ra, với lịch sử văn hóa phát triển
lâu đời, Trung Quốc có một kho tàng dé sộ về văn học, thơ ca, đây là một nguồn
dit liệu khổng 16 cho bài toán phát sinh thơ Tuy nhiên tiếng Trung Quốc lại là ngôn
ngữ khá khó để tiếp cận với nhiều người ở các quốc gia khác trên thế giới hơn so với
Tiếng Anh, gây nên một số rào cản nhất định Với sự công bố công trình nghiên cứucủa Bei Liu và các cộng sự năm 2018 đã gây được sự chú ý của nhiều người, đây cóthế được xem là một công bồ quan trọng, là tư liệu hỗ trợ cho các nghiên cứu liênquan đến bài toán sau này
Công trình nghiên cứu của Bei Liu và cộng sự đã được giới chuyên gia đánh giá
cao Kết quả của công trình nghiên cứu rất khả quan và đóng góp nhiều cho bài toán
phát sinh thơ từ hình ảnh như đóng góp 1 bộ dữ liệu lớn (hơn 90 nghìn bài thơ và
hơn 8 nghìn cặp ảnh và thơ) trên ngôn ngữ tiếng anh, có thể sử dụng cho các bàitoán liên quan đến ngôn ngữ khác Ngoài ra với kiến trúc mô hình được tác giả xâydựng có thể xem là một bước tiến cho bài toán phát sinh thơ từ hình ảnh,ý tưởngcho kiến trúc mô hình này có thể được kế thửa và phát triển bởi các nhóm nghiên
Cứu sau nay.
Tuy nhiên, qua các nghiên cứu liên quan kể trên ta có thể thấy được một số vấn
để còn hạn chế, khó khăn của bài toán phát sinh thơ từ hình ảnh này:
¢ Han chế về mặt ngôn ngữ, văn hóa, thơ ca ở mỗi quốc gia: Đối với mỗi Quốc
gia thường sử dụng một ngôn ngữ khác nhau cũng như có một nền văn hóanghệ thuật khác nhau Do đó, thơ đối với các Quốc gia cũng có sự khác nhau
Trang 35khăn cho các mô hình sinh thơ vì đầu ra bài toán đa dạng như thế Tóm lại,
một mô hình có thể thiết kế để sinh thơ cho một ngôn ngữ, thể loại thơ nhưng
nêu áp dụng cho một ngôn ngữ khác hoặc một thể loại thơ khác ta cần phải có
các điều chỉnh mô hình cho phù hợp
se Hạn che về mặt dữ liệu: Tương tự như hạn chế đã nêu ở trên, do mỗi quốc gia
đều có các thể loại thơ và các ràng buột về thơ trên ngôn ngữ của họ Do đó,khi huấn luyện các mô hình sinh thơ từ hình ảnh trên các ngôn ngữ khác nhau
ta cần phải có những bộ đữ liệu riêng Vi dụ như các công trình nghiên cứu
sinh thơ từ ảnh trên ngôn ngữ Trung Quốc ở trên, tác giả đã sử sử dụng bộ dữ
liệu thơ tiếng Trung và tạo nên một rào cản cho những người không biết tiếngTrung Quốc nhưng muốn tìm hiểu về bài toán này Đây là một khó khăn lớn vì
thời gian để xây dựng một bộ dữ liệu đủ tốt là khá lâu
» Hạn ché về cách so sánh đánh giá: Ở các bài báo chúng tôi tìm hiểu được, các
kết quả được công bồ phần lớn tập trung vào phương pháp đánh giá dựa vàocon người Mỗi bài báo sẽ có một nhóm giám khảo riêng để cham điểm cho kếtquả sinh ra từ mô hình, cộng với việc chưa có một bộ dữ liệu thống nhất, do
đó khó khăn trong việc so sánh đánh giá giữa những phương pháp, mô hình
với nhau.
Trong quá trình tìm hiểu các công trình nghiên cứu ở trên ta cũng thay được 2
hướng tiếp cận chủ yêu của bài toán phát sinh thơ từ hình ảnh:
se Hướng thứ 1: Tạo bài thơ mới dựa trên các từ khóa trích xuất được từ ảnh.
Đây là hướng mà các nhóm nghiên cứu trên thơ Trung Quốc thường sử dụng
Trang 36Chương 1 TỔNG QUAN 19
Việc xây dựng một bài thơ bằng những từ khóa trích xuất đưuọc từ ảnh sẽ có
thể đảm bảo được sự liên quan giữa bài thơ và hình ảnh vì các từ khóa luôn sẽxuất hiện trong các bài thơ được tạo ra Tuy nhiên van dé sẽ xuất phát từ các
từ khóa này, số lượng từ khóa cần đa dạng, đủ nhiều, có khả năng kết hợp với
các từ còn lại.
¢ Hướng thứ 2: Tạo bài thơ mới dựa trên véc-tơ đặc trưng trích xuất được từ
ảnh: Đây là hướng mà tác giả Bei Liu và các cộng sự đã thực hiện Với phương
pháp này sẽ gần giống như ý tưởng của bài toán chú thích hình ảnh, với véc-tơđặc trưng của ảnh, ta huấn luyện mô hình để nó hiểu được sự liên quan giữa
véc-tơ đặc trưng hình ảnh và bài thơ bắt cặp với hình ảnh đó
Mỗi hướng tiếp cận kể trên sẽ có các ưu điểm, nhược điểm khác nhau Trong détài khóa luận này, nghiên cứu chính của chúng tôi sẽ tập trung theo theo hướng tiếp
cận thứ 2 của tác giả Bei Liu, vì đây là một công trình nghiên cứu được giới chuyên
gia đánh giá cao và đễ tiếp cận với nhiều người
1.4 Mục tiêu, đối tượng và phạm vi nghiên cứu
1.41 Mục tiêu
® Tìm hiểu các phương pháp khác nhau cho bài toán phát sinh thơ từ hình ảnh,
chú trọng đến các phương pháp có hướng tiếp cận là mô hình học sâu, cùng
với kiến trúc mạng tạo sinh đối kháng đang được nghiên cứu và sử dụng rộng
rãi hiện nay.
© Tìm hiểu, dé xuất phương pháp hiệu quả cho bài toán phát sinh thơ từ hình
ảnh cho ngôn ngữ Tiếng Việt
Trang 37Chương 1 TỔNG QUAN 20
e Xây dựng bộ dữ liệu bao gồm anh và thơ (image-poem) cho tiếng Việt, có thể
sử dụng cho các nghiên cứu khác liên quan đến ảnh và thơ Đề xuất phươngpháp tăng thêm đữ liệu bằng máy tính
* Xem xét, đánh giá việc sử dụng kết hợp mang học đối kháng trong việc cải
thiện hiệu quả của quá trình huấn luyện mô hình
1.42 Đối tượng
Đối tượng nghiên cứu chính của bài toán là phát sinh bài thơ tiếng Việt dua trênhình ảnh Thử nghiệm các phương pháp, trong đó đó tập trung nhất vào hướng tiếp
cận sử dụng mô hình CNN-LSTM kết hợp mạng GAN
1.43 Pham vi nghiên cứu
¢ Tìm hiểu một số phương pháp có thể sử dụng cho bài toán phát sinh thơ từ
hình ảnh hiện nay và so sánh, nhận xét ưu khuyết điểm, hạn chế Phương pháp
chính được quan tâm chính là CNN-LSTM-GAN dựa trên ý tưởng của bài báo
[72].
° Xây dung bộ dữ liệu cho tiếng Việt bằng cách sưu tầm tho sau đó tim những
hình ảnh có liên quan đến thơ để ghép cặp, tạo nên bộ đữ liệu hình ảnh và thơ(image-poem dataset) cho tiếng Việt
s Sử dụng mô hình ngôn ngữ "stage-of-the-art" cho tiếng Việt là PhoBERT dé
biểu diễn câu tiếng Việt dưới dạng véc-tơ Áp dụng bộ Word Segmentation
tiếng Việt vào bước tiền xử lý, bộ công cụ sử dụng là RDR Segmenter được
cung cấp bởi Tác giả Dat Quoc Nguyen và cộng sự|34].
® Nhận xét, đánh giá kết quả của mô hình phát sinh tho từ hình ảnh cho ngôn
ngữ Tiếng Việt
Trang 38Chương 1 TỔNG QUAN 21
1.5 Đóng góp của de tài
Sau quá trình nghiên cứu và thực nghiệm, chúng tôi có những tìm hiểu và đóng
góp như sau:
e Tìm hiểu một số phương pháp phát sinh thơ từ hình ảnh Trong đó có phương
pháp được các chuyên gia đánh giá rất nhất hiện nay của Bei Liu và các cộng
sự [33]
° Xây dựng một mô hình biểu diễn hình ảnh và thơ có thé ứng dụng trong các
bài toán truy vấn
© Tạo hai bộ dữ liệu để phục vụ đề tài là: UIT-Poem-Dataset và UTT-I2P-Dataset
cho ngôn ngữ tiếng Việt
e Xây dựng mô hình sáng tác tho từ hình ảnh cho ngôn ngữ tiếng Việt dựa theo
ý tưởng 2| Mô hình sáng tác thơ từ hình ảnh của chúng tôi qua khảo sát kết
quả cho thấy có khả năng phát sinh ra những bài thơ có liên quan đến hìnhảnh đầu vào về đối tượng hoặc cảnh
Trang 39Chương 2
KIÊN THỨC NÊN TẢNG
Ở chương này, chúng tôi sẽ trình bày những kiến thức nền tảng mà khoá luận
này sử dụng để xây dựng một mô hình phát sinh thơ từ hình ảnh Lý thuyết về
kiến thức bao gồm: mạng rôn nhân tạo (Artificial Neural Networks), mạng
nơ-rôn tích chập (Convolution Neural Networks), mạng tạo sinh đối kháng (Generative
Adversarial Networks) và kiến thức về truy vẫn thông tin
2.1 Tổng quan ve mạng nơ-rôn nhân tạo
Mạng nơ-rôn nhân tạo (Artificial Neural Network —- ANN) là mô hình xử lý thông
tin được mô phỏng dựa trên cách hoạt động của hệ thần kinh con người Mặc dù
ngày nay mạng nơ-rôn chưa mô phỏng được bộ não con người một cách hoản hảo
nhưng nó lại được áp dụng phổ biến để giải quyết một van dé hay bài toán cụ thể.Thay vì dựa hoàn toàn vào cảm hứng về khoa học thần kinh, mạng nơ-rôn nhân tạo
chủ yêu được nghiên cứu và phát triển dựa trên lĩnh vực toán học và kỹ thuật Với
cau trúc mạng gồm nhiều nơ-rôn (mỗi nơ-rôn là một chuỗi các phép toán) được kết
nồi với nhau và xử lý thông tin bằng cách truyền theo các kết nối và tính giá trị mới
tại các nơ-rôn, mạng nơ-rôn đã thực hiện được một số công việc gần giống với bộnão của con người như: học tập dựa trên kinh nghiệm (thông qua huấn luyện), có
Trang 40Chương 2 KIEN THUC NEN TANG 23
khả năng lưu giữ kinh nghiệm, sự hiểu biết (tri thức) và sử dụng những tri thức san
có để giải quyết các bài toán (van dé) chưa biết
2.1.1 Mạng lan truyền đa tầng thuận
Mạng lan truyền thuận đa tầng (Deep Feedforward Networks) là một trongnhững mô hình mạng nơ-rôn điển hình Mục tiêu của mạng lan truyền thuận đa
tầng là tìm ra một hàm số sao cho hàm số đó gần giống với hàm ƒ* Giả sử trong
một bộ phân lớp, ta có y = f*(x) là hàm sinh ra dữ liệu đầu ra từ dữ liệu đầu vào
x Một mang lan truyền thuận được xác định bởi một ánh xạ 1 = ƒ(x,0) Giá trị củacác tham số @ sẽ được học để tạo ra một hàm số sao cho gần giống với hàm ƒ* nhất
Những mô hình mạng như thé này được gọi là lan truyền thuận bởi vì các thông tin
lan truyền qua hàm số đều được tính từ +, thông qua các phép tính trung gian trong
hàm ƒ và cuối cùng cho ra kết quả 1/35] Mô hình không tồn tại loại kết nối truyền
ngược, tức là tại mỗi nơ-rôn trong một tang bat kỳ chỉ nhận liên kết từ các nơ-rôn ở
tầng trước đó chứ nó không liên kết ngược lại với nơ-rôn ở tầng trước
Mạng lan truyền thuận có vai trò rất quan trọng, đây là nền tảng của nhiều ứng
dụng có vai trò quan trọng cũng như là bước ngoặt của một số mô hình học sâu(Deep Learning) Hai mô hình đặc biệt được phát triển dựa trên mạng lan truyền
thuận sẽ được trình bày ở những phần sau đó là mạng nơ-rôn tích chập
(Convolu-tion Neural Netwoks) dùng dé rút trích thông tin từ ảnh và mạng nơ-rôn truy hồi
(Recurrent Neural Networks) được dùng trong các tác vụ liên quan đến xử lý ngôn