Chương 3. BÀI TOÁN PHÁT SINH THƠ TỪ ẢNH KẾT HỢP CÁC PHƯƠNG
3.2. Mô hình truy van thơ dựa vào véc-tơ trực quan của
hình ảnh
Mục tiêu: Mục tiêu của mô hình truy vấn thơ dựa vào véc-tơ trực quan của hình ảnh là với mỗi đầu vào là hình ảnh ta có thể tìm được những bài thơ có liên quan đến hình ảnh về đối tượng, cảnh. Không gian truy vấn là những bài thơ trong tập dữ liệu thơ. Kết quả của mô hình truy vấn là những xếp hạng của tất cả bài thơ trong tập dữ liệu thơ, bài thơ càng có liên quan đến hình ảnh (về đối tượng, cảnh) sẽ được xếp hạng càng cao.
Ý tưởng: Như mục tiêu đã nêu ra, để xây dựng mô hình truy vân thơ dựa vào
véc-tơ trực quan của hình ảnh ta cần tìm cách để có thể khai thác được mối liên hệ
Chương 3. BÀI TOÁN PHÁT SINH THƠ TỪ ẢNH KẾT HỢP CÁC PHƯƠNG
l ˆ 54
PHÁP HỌC SÂU
giữa hình ảnh và bài thơ. Do hình ảnh và bài thơ đang được biểu diễn trong 2 không
gian véc-tơ khác nhau nên việc cần làm là tìm cách chuyển các véc-tơ này về cùng một không gian. Ý tưởng về bài toán biểu diễn các véc-tơ thuộc hai không gian khác
nhau là hình ảnh và văn bản về cùng một không gian đã được Ryan Kiros và các
cộng sự công bố năm 201420]. Trong trường hợp này, ta có thể sử dụng ý tưởng và
kết quả của công bồ trên để xây dựng mô hình biểu diễn hình ảnh va thơ (Visual- Poem Embedding Model, gọi tắt là VPE). Mô hình này có khả năng chuyển véc-tơ biểu diễn của bài thơ và hình ảnh về cùng một không gian mới mà không làm mắt đi mối liên hệ giữa các ảnh và thơ đã được ghép cặp. Cụ thé, mô hình này sé gia tăng
độ tương đồng cho véc-tơ ảnh và thơ néu chúng được bắt cặp và làm giảm độ tương đồng giữa các véc-tơ ảnh và thơ néu chúng được bắt cặp ngẫu nhiên. Như vậy sau khi huấn luyện mô hình, ta có thể biểu diễn hình ảnh và thơ trong không gian biểu diễn và khai thác được mồi liên hệ giữa chúng.
Các bước thực hiện:
¢ Biểu diễn hình ảnh và thơ dưới dạng véc-to:
- Biểu diễn hình ảnh đạng véc-tơ, chúng tôi sử dụng mô đun trích xuất
đặc trưng từ ảnh, đầu vào của mô đun là một bức ảnh và sẽ trả về một véc-tơ biểu diễn cho ảnh. Chúng tôi tin rằng đối tượng của ảnh và khung cảnh trong anh sẽ có liên quan nhiều đến bài thơ. Do đó, cầu tạo của mô
đun trích xuất đặc trưng ảnh sẽ bao gồm 2 mạng nơ-rôn tích chập, mạng
nơ-rôn tích chập để nhận diện đối tượng trong ảnh và mạng nơ-rôn tích
chập để phát hiện khung cảnh trong ảnh. Mạng nơ-rôn tích chập để phát hiện đối tượng trong ảnh chúng tôi sử dụng kiến trúc mạng là Resnet50
đã được huấn luyện trước trên bộ dữ liệu ImageNet bao gồm 1000 lớp cho bài toán phân lớp đối tượng. mạng nơ-rôn tích chập để phát hiện đối tượng trong ảnh và mạng nơ-rôn tích chập để phát hiện khung cảnh
Chương 3. BÀI TOÁN PHÁT SINH THƠ TỪ ẢNH KẾT HỢP CÁC PHƯƠNG
l ˆ 55
PHÁP HỌC SÂU
trong ảnh sử dụng kiến trúc mạng Resnet50 đã được huấn luyện trước
trên bộ dir liệu Places365-Standard với 365 lớp là 365 cảnh [37]. Dau ra
của 2 mang nơ-rôn tích chập trên đều là véc-tơ với kích thước 2048 chiều,
để biểu diễn cho một hình ảnh, chúng tôi nối 2 véc-tơ này lại để tạo thành
1 vộc-tơ ứ duy nhất với kớch thước 4096 chiều:
Vovj = CNNopj(1) (3.1)
Vscene = CNN¢cene(1) (3.2)
a [Popj, Uscene] (3.3)
- Biểu diễn thơ dưới dang véc-tơ, chúng tôi sử dụng một mô hình ngôn
ngữ là phoBERT36|. Mô hình PhoBert là mô hình sử dụng để biéu diễn
câu thành các véc-tơ đã được huấn luyện trước trên một tập dữ liệu lớn các câu văn với ngôn ngữ tiếng Việt. Đầu vào của PhoBERT sẽ là một câu, một đoạn text và dau ra sẽ là một véc-tơ biễu diễn có kích thước 768 chiều. Theo đó, các câu sẽ được biểu diễn thành các véc-tơ, các câu càng giống nhau, có ý nghĩ như nhau thì độ tương tự, tương đồng của các véc-tơ biéu diễn của chúng sẽ càng lớn. Một bài thơ sẽ được biểu diễn về dạng một
véc-tơ như sau:
t = PhoBERT(P) (3.4)
se Xây dựng mô hình biểu diễn hình ảnh va thơ, sau khi đã biếu diễn hình anh
và thơ thành các véc-tơ ta có thể thây không gian biểu diễn của chúng là khác nhau, ta tiền hành xây dựng mô hình để biểu diễn hình ảnh và thơ.
Đầu ra của mô hình biểu diễn ảnh và thơ là 1 véc-tơ có k chiều, do đó véc-tơ hình anh sẽ được biểu diễn bởi véc-tơ mới là x, cụ thể:
Chương 3. BÀI TOÁN PHÁT SINH THƠ TỪ ẢNH KẾT HỢP CÁC PHƯƠNG
l ˆ 56
PHÁP HỌC SÂU
x = Wy.v + by € R°? (3.5)
Với W, € IR°12120 là ma trận biểu diễn của hình ảnh, b„ € IR°! là véc-to bias
cho hình ảnh.
Tương tự, véc-tơ thơ sẽ được biếu diễn bởi véc-tơ mới là m, cụ thể:
m = W,.t + by € R12 (3.6)
Với W; € IR°!2*76 là ma trận biểu diễn của bài tho, b; € IR°!? là véc-to bias cho
bai tho.
Nhu vay, Wz, W¿, bo, bt là các tham số cần phải huấn luyện của mô hình biểu điễn ảnh và thơ.
Cuối cùng các ảnh và thơ sẽ được biểu diễn với nhau bằng cách tối ưu hàm
RankingLoss như sau:
Loss = ) `3 "max(0,w — x.m + x.my) + } `) max(0,w — 1.x + m.xt) (3.7)
Xk m k
Với a là hằng số margin, x và m lần lượt là véc-tơ mới biểu diễn cho hình ảnh
và tho mà đã được bắt cặp với nhau, m, là véc-tơ biểu diễn thơ không phải cặp
với véc-tơ hình ảnh x, x, là véc-tơ biểu diễn cho hình ảnh không phải cặp với
véc-tơ thơ í.
Việc tối ưu hàm Loss này sẽ tăng giá trị tích vô hướng của véc-tơ mới biểu diễn cho tho va ảnh nếu chúng là một cặp và giảm giá trị tích vô hướng của véc-tơ mới biểu diễn tho và ảnh nếu chúng được bat cặp ngẫu nhiên. Sau khi đã huấn
luyện, mô hình chúng tôi thu được có thể nhận vào véc-tơ biểu diễn ảnh hoặc
Chương 3. BÀI TOÁN PHÁT SINH THƠ TỪ ẢNH KẾT HỢP CÁC PHƯƠNG
l ˆ 57
PHÁP HỌC SÂU
véc-tơ biểu diễn thơ sau đó biến đổi các véc-tơ này thành các véc-tơ mới trong không gian k chiều (ở đây sử dụng k = 512) mà ở đó ta có thể so sánh được
sự tương đồng giữa các véc-tơ biểu dién mới này từ đó phục vu cho mục đích truy vấn và xếp hạng.
Hoạt động của mô hình truy van tho dựa trên anh:
* Bước 1: Chuyển tất cả các bài tho trong bộ dữ liệu về thành véc-tơ biểu diễn
với kích thước 512 chiều nhờ vào mô hình biểu diễn ảnh và thơ đã được huấn
luyện.
¢ Bước 2: Chuyển hình ảnh cần truy van thành véc-tơ biểu diễn với kích thước
512 chiều nhờ vào mô hình biểu diễn ảnh và thơ đã được huấn luyện.
® Bước 3: Tính sự tương đồng giữa véc-tơ 512 chiều biểu diễn hình ảnh với tat cả
các véc-tơ 512 chiều biểu diễn của thơ. Độ đo được sử dụng là tích vô hướng giữa 2 véc-tơ, nêu giá trị này càng lớn thì 2 véc-tơ có độ tương đồng càng cao.
® Bước 4: Xếp hạng các bài thơ có độ tương đồng với véc-tơ biểu diễn của ảnh
truy vấn theo thứ tự từ giảm dan.
® Bước 5: Top k bài thơ được xếp hạng chính là top k bài thơ liên quan với hình
ảnh nhất trong bộ dữ liệu mà ta muốn tìm.
Bên cạnh sử dụng cho mục đích truy vấn thơ từ ảnh, mô hình biểu diễn ảnh và thơ có thể được sử dụng để truy vấn ảnh từ thơ. Ngoài ra mô hình này còn có thể
được sử dụng như một mô đun trong mô hình tạo sinh thơ từ hình ảnh.
Chương 3. BÀI TOÁN PHÁT SINH THƠ TỪ ẢNH KẾT HỢP CÁC PHƯƠNG
l ˆ 58
PHÁP HỌC SÂU