Mô hình sáng tác thơ dựa vào hình ảnh sử dụng sử

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Mô hình sáng tác thơ từ nội dung ảnh sử dụng mạng tạo sinh (Trang 75 - 78)

Chương 3. BÀI TOÁN PHÁT SINH THƠ TỪ ẢNH KẾT HỢP CÁC PHƯƠNG

3.3. Mô hình sáng tác thơ dựa vào hình ảnh sử dụng sử

dụng mạng tạo sinh đối kháng

Ở phần này, chúng tôi xây dựng một mô hình sáng tác thơ từ hình ảnh kết hợp

kiến trúc mạng tạo sinh đối kháng (GAN) dựa trên ý tưởng và mô hình dé xuất trong công bố của nhóm tác giả Bei Liu. Chúng tôi có một số thay đổi để mô hình phù hợp với ngôn ngữ tiếng Việt.

Mục tiêu của mô hình chúng tôi là tạo ra những bài thơ mới từ hình ảnh đầu vào

mà giữa chúng có sự liên hệ với nhau về đối tượng, cảnh vật.

Ý tưởng: Dựa trên kiến trúc mạng Encoder-Decoder, chúng tôi biểu diễn các

hình ảnh dưới dạng các véc-tơ biểu diễn (Encoder) và sử dụng một mạng sinh ngữ LSTM đóng vai trò phát sinh ngôn ngữ dựa trên véc-tơ biểu diễn hình ảnh đầu vào (Decoder). Để cải thiện hiệu quả của quá trình huấn luyện mạng sinh ngữ LSTM chúng tôi kết hợp sử dụng kiến trúc mạng GAN. Khi đó, chúng tôi xem mạng sinh ngữ LSTM như một Generator, và chúng tôi thiết kế một mạng Dicriminator phân

loại đánh giá kết quả của Generator, các ý tưởng thiết kế và cài đặt trong phần này

dựa trên [38], cụ thể sẽ trình bày bên dưới.

Các bước thực hiện:

se Biểu diễn hình anh và thơ bằng các véc-tơ. O bước này chúng tôi sử dụng

không gian biểu diễn hình ảnh và thơ, cách xây dựng như đã trình bày ở mục

3.2.

e Xây dựng mạng LSTM để sinh ngữ. Chúng tôi sử dụng một kiến trúc mạng

LSTM để sinh ngữ. Đây là một mạng có kiến trúc khá tương đồng với mạng RNN nhưng điểm khác chính là có sử dụng các tế bào LSTM (mục 2.3). kiến trúc LSTM thường được sử dụng cho các bài toán liên quan đến sinh ngữ chẳng hạn như bài toán chú thích hình ảnh và cho những kết quả khả quan.

Chương 3. BÀI TOÁN PHÁT SINH THƠ TỪ ẢNH KẾT HỢP CÁC PHƯƠNG

l ˆ 59

PHAP HOC SAU

Véc-tơ hình ảnh sau khi được biểu diễn trong không gian biểu diễn sé được

đưa vào tế bào LSTM như một hàm kích hoạt. Chúng tôi sử dụng trạng thái ẩn của tế bào LSTM làm trạng thái ẩn cho mạng sinh ngữ LSTM. Tại mỗi bước, mô hình sinh ngữ LSTM nhận dau vào là một Word Embedding của từ là w;, dự đoán xác suất p; cho tat cả các từ trong từ điển, sau đó ánh xạ đến bộ từ điển để tìm được từ tiếp theo y; ứng với Word Embedding của từ đầu vào . Chúng tôi

áp dụng một số ràng buột trong mạng sinh ngữ LSTM, chia sẽ ma trận Word Embedding và phép biến đổi tuyến tính từ trạng thái ẩn sang trạng thái đầu

ra, bên cạnh đó, chúng tôi sử dụng dropout để tránh tình trạng over-fitting.

pi = Soƒtmax(W, - LSTM(,)) (3.8)

Yi ~ Pi (3.9)

© Kết hợp với kiến trúc mang GAN dé cải thiện hiệu suất mạng LSTM. Kiến trúc

của một mạng GAN cần 2 mạng thành phần chính là mạng Generator và mạng

Discriminator. Chúng tôi sử dụng mạng sinh ngữ LSTM như một Generator

và cài đặt thêm một mạng Discriminator. Mạng Discriminator đơn giản là một

mạng phân lớp nhị phân với đầu vào là một bài thơ, mạng Discriminator sẽ

phân loại nó là Real (bài thơ có trong Dataset) hoặc Fake (bài thơ được mô

hình sinh ra). Để đảm bảo sự đồng nhất, chúng tôi sử dụng chung ma trận

Word Embeding với mô hình sinh ngữ LSTM. Với input là một bài thơ, chúng

tôi sử dụng mạng LSTM 2 chiều để encode bài thơ đó. Cuối cùng, sử dụng Logistic Regression vào lớp trạng thái ẩn cuối cùng của LSTM 2 hai chiều để

dự đoán output(2 nhãn Real hoặc Fake). Quá trình mạng Discriminator cải

thiện quá trình huấn luyện của mạng Generator(LSTM) có ý tưởng tương tự

phương pháp học tăng cường. Chúng tôi xem Generator như một Agent, thực hiện hành động là phát sinh các bai thơ y và nhận reward là r dựa trên hành

Chương 3. BÀI TOÁN PHÁT SINH THƠ TỪ ẢNH KẾT HỢP CÁC PHƯƠNG

l ˆ 60

PHÁP HỌC SÂU

động. Reward r được quyết định bởi mạng Discriminator dựa trên phân loại bài thơ hay xác suất mà mô hình dự đoán bài thơ được tạo ra là thật. Như vậy, chúng tôi sẽ tối đa hóa hàm mục tiêu J(6) :

J(@) = L, poly)r(y) = Ey~p er (y) (3.10)

ye

Với: Y là khụng gian cỏc bai thơ cú thể được sinh ra. ứạ(Y) là xỏc suất sinh ra bài thơ y bởi tham số của chính sách (policy) 0. Trong quá trình thực nghiệm, chúng tôi sử dụng phương pháp lay mau Monte-Carlo để ước lượng kỳ vọng

và các tham số có thể cập nhật với phương pháp policy gradient. Policy gradi- ent và gradient trong quá trình huấn luyện mô hình sinh thơ Generator(LSTM)

sẽ được kết hợp để cập nhật tham số cho mô hình Generator(LSTM) trong suốt quá trình huấn luyện.

61

Chương 4

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Mô hình sáng tác thơ từ nội dung ảnh sử dụng mạng tạo sinh (Trang 75 - 78)

Tải bản đầy đủ (PDF)

(108 trang)