Mô hình truy van thơ dựa vào véc-tơ trực quan của

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Mô hình sáng tác thơ từ nội dung ảnh sử dụng mạng tạo sinh (Trang 70 - 75)

Chương 3. BÀI TOÁN PHÁT SINH THƠ TỪ ẢNH KẾT HỢP CÁC PHƯƠNG

3.2. Mô hình truy van thơ dựa vào véc-tơ trực quan của

hình ảnh

Mục tiêu: Mục tiêu của mô hình truy vấn thơ dựa vào véc-tơ trực quan của hình ảnh là với mỗi đầu vào là hình ảnh ta có thể tìm được những bài thơ có liên quan đến hình ảnh về đối tượng, cảnh. Không gian truy vấn là những bài thơ trong tập dữ liệu thơ. Kết quả của mô hình truy vấn là những xếp hạng của tất cả bài thơ trong tập dữ liệu thơ, bài thơ càng có liên quan đến hình ảnh (về đối tượng, cảnh) sẽ được xếp hạng càng cao.

Ý tưởng: Như mục tiêu đã nêu ra, để xây dựng mô hình truy vân thơ dựa vào

véc-tơ trực quan của hình ảnh ta cần tìm cách để có thể khai thác được mối liên hệ

Chương 3. BÀI TOÁN PHÁT SINH THƠ TỪ ẢNH KẾT HỢP CÁC PHƯƠNG

l ˆ 54

PHÁP HỌC SÂU

giữa hình ảnh và bài thơ. Do hình ảnh và bài thơ đang được biểu diễn trong 2 không

gian véc-tơ khác nhau nên việc cần làm là tìm cách chuyển các véc-tơ này về cùng một không gian. Ý tưởng về bài toán biểu diễn các véc-tơ thuộc hai không gian khác

nhau là hình ảnh và văn bản về cùng một không gian đã được Ryan Kiros và các

cộng sự công bố năm 201420]. Trong trường hợp này, ta có thể sử dụng ý tưởng và

kết quả của công bồ trên để xây dựng mô hình biểu diễn hình ảnh va thơ (Visual- Poem Embedding Model, gọi tắt là VPE). Mô hình này có khả năng chuyển véc-tơ biểu diễn của bài thơ và hình ảnh về cùng một không gian mới mà không làm mắt đi mối liên hệ giữa các ảnh và thơ đã được ghép cặp. Cụ thé, mô hình này sé gia tăng

độ tương đồng cho véc-tơ ảnh và thơ néu chúng được bắt cặp và làm giảm độ tương đồng giữa các véc-tơ ảnh và thơ néu chúng được bắt cặp ngẫu nhiên. Như vậy sau khi huấn luyện mô hình, ta có thể biểu diễn hình ảnh và thơ trong không gian biểu diễn và khai thác được mồi liên hệ giữa chúng.

Các bước thực hiện:

¢ Biểu diễn hình ảnh và thơ dưới dạng véc-to:

- Biểu diễn hình ảnh đạng véc-tơ, chúng tôi sử dụng mô đun trích xuất

đặc trưng từ ảnh, đầu vào của mô đun là một bức ảnh và sẽ trả về một véc-tơ biểu diễn cho ảnh. Chúng tôi tin rằng đối tượng của ảnh và khung cảnh trong anh sẽ có liên quan nhiều đến bài thơ. Do đó, cầu tạo của mô

đun trích xuất đặc trưng ảnh sẽ bao gồm 2 mạng nơ-rôn tích chập, mạng

nơ-rôn tích chập để nhận diện đối tượng trong ảnh và mạng nơ-rôn tích

chập để phát hiện khung cảnh trong ảnh. Mạng nơ-rôn tích chập để phát hiện đối tượng trong ảnh chúng tôi sử dụng kiến trúc mạng là Resnet50

đã được huấn luyện trước trên bộ dữ liệu ImageNet bao gồm 1000 lớp cho bài toán phân lớp đối tượng. mạng nơ-rôn tích chập để phát hiện đối tượng trong ảnh và mạng nơ-rôn tích chập để phát hiện khung cảnh

Chương 3. BÀI TOÁN PHÁT SINH THƠ TỪ ẢNH KẾT HỢP CÁC PHƯƠNG

l ˆ 55

PHÁP HỌC SÂU

trong ảnh sử dụng kiến trúc mạng Resnet50 đã được huấn luyện trước

trên bộ dir liệu Places365-Standard với 365 lớp là 365 cảnh [37]. Dau ra

của 2 mang nơ-rôn tích chập trên đều là véc-tơ với kích thước 2048 chiều,

để biểu diễn cho một hình ảnh, chúng tôi nối 2 véc-tơ này lại để tạo thành

1 vộc-tơ ứ duy nhất với kớch thước 4096 chiều:

Vovj = CNNopj(1) (3.1)

Vscene = CNN¢cene(1) (3.2)

a [Popj, Uscene] (3.3)

- Biểu diễn thơ dưới dang véc-tơ, chúng tôi sử dụng một mô hình ngôn

ngữ là phoBERT36|. Mô hình PhoBert là mô hình sử dụng để biéu diễn

câu thành các véc-tơ đã được huấn luyện trước trên một tập dữ liệu lớn các câu văn với ngôn ngữ tiếng Việt. Đầu vào của PhoBERT sẽ là một câu, một đoạn text và dau ra sẽ là một véc-tơ biễu diễn có kích thước 768 chiều. Theo đó, các câu sẽ được biểu diễn thành các véc-tơ, các câu càng giống nhau, có ý nghĩ như nhau thì độ tương tự, tương đồng của các véc-tơ biéu diễn của chúng sẽ càng lớn. Một bài thơ sẽ được biểu diễn về dạng một

véc-tơ như sau:

t = PhoBERT(P) (3.4)

se Xây dựng mô hình biểu diễn hình ảnh va thơ, sau khi đã biếu diễn hình anh

và thơ thành các véc-tơ ta có thể thây không gian biểu diễn của chúng là khác nhau, ta tiền hành xây dựng mô hình để biểu diễn hình ảnh và thơ.

Đầu ra của mô hình biểu diễn ảnh và thơ là 1 véc-tơ có k chiều, do đó véc-tơ hình anh sẽ được biểu diễn bởi véc-tơ mới là x, cụ thể:

Chương 3. BÀI TOÁN PHÁT SINH THƠ TỪ ẢNH KẾT HỢP CÁC PHƯƠNG

l ˆ 56

PHÁP HỌC SÂU

x = Wy.v + by € R°? (3.5)

Với W, € IR°12120 là ma trận biểu diễn của hình ảnh, b„ € IR°! là véc-to bias

cho hình ảnh.

Tương tự, véc-tơ thơ sẽ được biếu diễn bởi véc-tơ mới là m, cụ thể:

m = W,.t + by € R12 (3.6)

Với W; € IR°!2*76 là ma trận biểu diễn của bài tho, b; € IR°!? là véc-to bias cho

bai tho.

Nhu vay, Wz, W¿, bo, bt là các tham số cần phải huấn luyện của mô hình biểu điễn ảnh và thơ.

Cuối cùng các ảnh và thơ sẽ được biểu diễn với nhau bằng cách tối ưu hàm

RankingLoss như sau:

Loss = ) `3 "max(0,w — x.m + x.my) + } `) max(0,w — 1.x + m.xt) (3.7)

Xk m k

Với a là hằng số margin, x và m lần lượt là véc-tơ mới biểu diễn cho hình ảnh

và tho mà đã được bắt cặp với nhau, m, là véc-tơ biểu diễn thơ không phải cặp

với véc-tơ hình ảnh x, x, là véc-tơ biểu diễn cho hình ảnh không phải cặp với

véc-tơ thơ í.

Việc tối ưu hàm Loss này sẽ tăng giá trị tích vô hướng của véc-tơ mới biểu diễn cho tho va ảnh nếu chúng là một cặp và giảm giá trị tích vô hướng của véc-tơ mới biểu diễn tho và ảnh nếu chúng được bat cặp ngẫu nhiên. Sau khi đã huấn

luyện, mô hình chúng tôi thu được có thể nhận vào véc-tơ biểu diễn ảnh hoặc

Chương 3. BÀI TOÁN PHÁT SINH THƠ TỪ ẢNH KẾT HỢP CÁC PHƯƠNG

l ˆ 57

PHÁP HỌC SÂU

véc-tơ biểu diễn thơ sau đó biến đổi các véc-tơ này thành các véc-tơ mới trong không gian k chiều (ở đây sử dụng k = 512) mà ở đó ta có thể so sánh được

sự tương đồng giữa các véc-tơ biểu dién mới này từ đó phục vu cho mục đích truy vấn và xếp hạng.

Hoạt động của mô hình truy van tho dựa trên anh:

* Bước 1: Chuyển tất cả các bài tho trong bộ dữ liệu về thành véc-tơ biểu diễn

với kích thước 512 chiều nhờ vào mô hình biểu diễn ảnh và thơ đã được huấn

luyện.

¢ Bước 2: Chuyển hình ảnh cần truy van thành véc-tơ biểu diễn với kích thước

512 chiều nhờ vào mô hình biểu diễn ảnh và thơ đã được huấn luyện.

® Bước 3: Tính sự tương đồng giữa véc-tơ 512 chiều biểu diễn hình ảnh với tat cả

các véc-tơ 512 chiều biểu diễn của thơ. Độ đo được sử dụng là tích vô hướng giữa 2 véc-tơ, nêu giá trị này càng lớn thì 2 véc-tơ có độ tương đồng càng cao.

® Bước 4: Xếp hạng các bài thơ có độ tương đồng với véc-tơ biểu diễn của ảnh

truy vấn theo thứ tự từ giảm dan.

® Bước 5: Top k bài thơ được xếp hạng chính là top k bài thơ liên quan với hình

ảnh nhất trong bộ dữ liệu mà ta muốn tìm.

Bên cạnh sử dụng cho mục đích truy vấn thơ từ ảnh, mô hình biểu diễn ảnh và thơ có thể được sử dụng để truy vấn ảnh từ thơ. Ngoài ra mô hình này còn có thể

được sử dụng như một mô đun trong mô hình tạo sinh thơ từ hình ảnh.

Chương 3. BÀI TOÁN PHÁT SINH THƠ TỪ ẢNH KẾT HỢP CÁC PHƯƠNG

l ˆ 58

PHÁP HỌC SÂU

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Mô hình sáng tác thơ từ nội dung ảnh sử dụng mạng tạo sinh (Trang 70 - 75)

Tải bản đầy đủ (PDF)

(108 trang)