Chương 3. BÀI TOÁN PHÁT SINH THƠ TỪ ẢNH KẾT HỢP CÁC PHƯƠNG
3.3. Mô hình sáng tác thơ dựa vào hình ảnh sử dụng sử
dụng mạng tạo sinh đối kháng
Ở phần này, chúng tôi xây dựng một mô hình sáng tác thơ từ hình ảnh kết hợp
kiến trúc mạng tạo sinh đối kháng (GAN) dựa trên ý tưởng và mô hình dé xuất trong công bố của nhóm tác giả Bei Liu. Chúng tôi có một số thay đổi để mô hình phù hợp với ngôn ngữ tiếng Việt.
Mục tiêu của mô hình chúng tôi là tạo ra những bài thơ mới từ hình ảnh đầu vào
mà giữa chúng có sự liên hệ với nhau về đối tượng, cảnh vật.
Ý tưởng: Dựa trên kiến trúc mạng Encoder-Decoder, chúng tôi biểu diễn các
hình ảnh dưới dạng các véc-tơ biểu diễn (Encoder) và sử dụng một mạng sinh ngữ LSTM đóng vai trò phát sinh ngôn ngữ dựa trên véc-tơ biểu diễn hình ảnh đầu vào (Decoder). Để cải thiện hiệu quả của quá trình huấn luyện mạng sinh ngữ LSTM chúng tôi kết hợp sử dụng kiến trúc mạng GAN. Khi đó, chúng tôi xem mạng sinh ngữ LSTM như một Generator, và chúng tôi thiết kế một mạng Dicriminator phân
loại đánh giá kết quả của Generator, các ý tưởng thiết kế và cài đặt trong phần này
dựa trên [38], cụ thể sẽ trình bày bên dưới.
Các bước thực hiện:
se Biểu diễn hình anh và thơ bằng các véc-tơ. O bước này chúng tôi sử dụng
không gian biểu diễn hình ảnh và thơ, cách xây dựng như đã trình bày ở mục
3.2.
e Xây dựng mạng LSTM để sinh ngữ. Chúng tôi sử dụng một kiến trúc mạng
LSTM để sinh ngữ. Đây là một mạng có kiến trúc khá tương đồng với mạng RNN nhưng điểm khác chính là có sử dụng các tế bào LSTM (mục 2.3). kiến trúc LSTM thường được sử dụng cho các bài toán liên quan đến sinh ngữ chẳng hạn như bài toán chú thích hình ảnh và cho những kết quả khả quan.
Chương 3. BÀI TOÁN PHÁT SINH THƠ TỪ ẢNH KẾT HỢP CÁC PHƯƠNG
l ˆ 59
PHAP HOC SAU
Véc-tơ hình ảnh sau khi được biểu diễn trong không gian biểu diễn sé được
đưa vào tế bào LSTM như một hàm kích hoạt. Chúng tôi sử dụng trạng thái ẩn của tế bào LSTM làm trạng thái ẩn cho mạng sinh ngữ LSTM. Tại mỗi bước, mô hình sinh ngữ LSTM nhận dau vào là một Word Embedding của từ là w;, dự đoán xác suất p; cho tat cả các từ trong từ điển, sau đó ánh xạ đến bộ từ điển để tìm được từ tiếp theo y; ứng với Word Embedding của từ đầu vào . Chúng tôi
áp dụng một số ràng buột trong mạng sinh ngữ LSTM, chia sẽ ma trận Word Embedding và phép biến đổi tuyến tính từ trạng thái ẩn sang trạng thái đầu
ra, bên cạnh đó, chúng tôi sử dụng dropout để tránh tình trạng over-fitting.
pi = Soƒtmax(W, - LSTM(,)) (3.8)
Yi ~ Pi (3.9)
© Kết hợp với kiến trúc mang GAN dé cải thiện hiệu suất mạng LSTM. Kiến trúc
của một mạng GAN cần 2 mạng thành phần chính là mạng Generator và mạng
Discriminator. Chúng tôi sử dụng mạng sinh ngữ LSTM như một Generator
và cài đặt thêm một mạng Discriminator. Mạng Discriminator đơn giản là một
mạng phân lớp nhị phân với đầu vào là một bài thơ, mạng Discriminator sẽ
phân loại nó là Real (bài thơ có trong Dataset) hoặc Fake (bài thơ được mô
hình sinh ra). Để đảm bảo sự đồng nhất, chúng tôi sử dụng chung ma trận
Word Embeding với mô hình sinh ngữ LSTM. Với input là một bài thơ, chúng
tôi sử dụng mạng LSTM 2 chiều để encode bài thơ đó. Cuối cùng, sử dụng Logistic Regression vào lớp trạng thái ẩn cuối cùng của LSTM 2 hai chiều để
dự đoán output(2 nhãn Real hoặc Fake). Quá trình mạng Discriminator cải
thiện quá trình huấn luyện của mạng Generator(LSTM) có ý tưởng tương tự
phương pháp học tăng cường. Chúng tôi xem Generator như một Agent, thực hiện hành động là phát sinh các bai thơ y và nhận reward là r dựa trên hành
Chương 3. BÀI TOÁN PHÁT SINH THƠ TỪ ẢNH KẾT HỢP CÁC PHƯƠNG
l ˆ 60
PHÁP HỌC SÂU
động. Reward r được quyết định bởi mạng Discriminator dựa trên phân loại bài thơ hay xác suất mà mô hình dự đoán bài thơ được tạo ra là thật. Như vậy, chúng tôi sẽ tối đa hóa hàm mục tiêu J(6) :
J(@) = L, poly)r(y) = Ey~p er (y) (3.10)
ye
Với: Y là khụng gian cỏc bai thơ cú thể được sinh ra. ứạ(Y) là xỏc suất sinh ra bài thơ y bởi tham số của chính sách (policy) 0. Trong quá trình thực nghiệm, chúng tôi sử dụng phương pháp lay mau Monte-Carlo để ước lượng kỳ vọng
và các tham số có thể cập nhật với phương pháp policy gradient. Policy gradi- ent và gradient trong quá trình huấn luyện mô hình sinh thơ Generator(LSTM)
sẽ được kết hợp để cập nhật tham số cho mô hình Generator(LSTM) trong suốt quá trình huấn luyện.
61
Chương 4