phần 2.4.1). Tuy nhiên cả hai phương pháp này đều có ưu - nhược điểm riêng
3.3 Chuyển đổi phong cách ảnh
3.3.1 Phương pháp
Phương pháp chuyển đổi phong cách ảnh được thực hiện bởi mô hình MST
được đề xuất trong bai báo "Multimodal Style Transfer dựa trên Graph Cuts"|14].
Mô hình MST cho thời gian thực thi tương đối nhanh (1.40s trên ảnh có kích thước 512x512, CPU Intel i7-6850K 3.6 GHz va GPU Titan Xp) va ảnh kết quả
sau khi đã chuyển đổi phong cách tốt vì vẫn giữ được nội dung của ảnh ảnh nội
dung và mang phong cách của ảnh phong cách.
28
Biểu diễn phong cách ảnh đa phương thức: Đối với mỗi ảnh phong
cách được đưa vào !;, mô hình sẽ trích xuất đặc trưng cấp cao từ tấm ảnh F, €
ROXAWs (với H, và W, là kích thước chiều dài và chiều rộng của đặc trưng phong cách) thông qua bộ mã hóa đã được huấn luyện #¿,„ (.) như VGG19{13]. Để xây dựng được mô hình biểu diễn đa phương thức (multimodal representation) trong
không gian đặc trưng nhiều chiều, mục tiêu của nhóm tác giả là phân đoạn các họa tiết thành nhiều tập con. Về mặt kỹ thuật, họ áp dụng thuật toán K-means
để gom các đặc trưng thành K cum mà không xét đến thông tin về mặt không
gian. Trong không gian cụm, các đặc trưng trong cùng một cụm có các thuộc
tính tương tự nhau và có khả năng được rút trích từ cùng một không gian. Quá
trình này giúp thu được một mô hình biểu diễn phong cách ảnh đa phương thức
(multimodal style representation).
Hình 3.8: Trực quan hóa đặc trưng phong cách theo cum sử dung t-SNE[10]. Với mỗi cặp ảnh phong cách - ảnh trực quan đữ liệu, tác giả đặt K=3 và nhãn của đặc trưng phong cách trùng với nhãn của cụm chứa đặc trưng đó. [14].
Hình 3.8 là một ví dụ cho thấy kết quả gom nhóm phù hợp với giả thiết về
biểu diễn phong cách ảnh đa phương thức. Các đặc trưng gần nhau có xu hướng
nằm trong cùng một nhóm. Diều này không chỉ cho thấy sự phân chia phong
cách mà còn chứng minh rằng gom cụm là cách thích hợp để xây dựng một mô
hình phân phối đa phương thức.
So khớp phong cách dựa trên biểu đồ: Tương tự như ảnh phong cách,
ảnh nội dung cũng được rút trích các đặc trưng cấp cao khi đi qua bộ mã hóa
đã được huấn luyện F, € ROX#eWe (với H, và W, là kích thước chiều dài và chiều rộng của đặc trưng nội dung). Từ những đặc trưng được rút trích, tiến hành so khớp với các nhóm đặc trưng phong cách. Bước đầu tiên trong việc so khớp là tính toán khoảng cách giữa các đặc trưng. Trong bài báo đề xuất, nhóm tác giả
đã lựa chọn độ đo cosin để đo khoảng cách giữa đặc trưng nội dung và trung
29
tâm cụm phong cách (style cluster center). Theo phân tích của nhóm tác giả,
cần quan tâm về độ phức tạp của độ đo vì toàn bộ đặc trưng nội dung đều được
sử dụng trong việc so khớp.
Fi! Fy
cpp 3;Úk
với (-): phép toán chuyển vị và || : ||: độ lớn vector đặc trưng, F.p: là đặc trưng
nội dung, #;¡¿ là trung tam cụm phong cách có nhãn ỉ.
Tìm nhãn ƒ cho từng đặc trưng nội dung Ƒ,„ với nhãn f là nhãn của trung
tâm cụm f, € {h,la,...,lx-} tương ứng. Tính toán sự đối lập giữa nhãn f và đặc trưng nội dung bằng công thức:
H.W.
Eaatalf) = 3) D(Fep, F8; by) (3.3)
p=1
với Egata là năng lượng dữ liệu (Energy data). Egqtg càng nhỏ thi ƒ càng gần với
đặc trưng nội dung.
Để đảm bảo những điểm (pixel) trong cùng một vùng ngữ nghĩa sẽ được gom
vào cùng nhóm, nhóm tác giả đã ap dụng công thức làm min Egmootn(f):
Esmooth(f) — ” Vol fo: Ja) (3.4)
{p,q}EQ
với © là tap hợp các cặp đặc trưng tương tác trực tiếp với nhau (interacting
pair of feature) trong ảnh nội dung. W„„ biểu thi giá trị phạt (penalty) riêng cho
từng cặp đặc trưng p,q.
Vo.a( fp, fa) =À- T(fp z Ja) (3.5)
với T(-) = 1 nếu f, # fy và ngược lai sẽ bằng 0. À là hằng số độ mịn. Mô hình này khuyến khích việc gán nhãn f theo từng khu vực ngữ nghĩa, các đặc trưng
nội dung trong cùng một vùng sẽ có cùng nhãn với nhau.
Từ công thức 3.3 và 3.4, công thức tối ưu hóa hàm năng lượng được hình
thành
E(f) = Eaata + Esmooth(f) (3.6)
30
Tìm giá trị cực tiểu của E(f) bằng cách xây dựng đồ thị liên quan giữa đặc
trưng nội dung (đỉnh p) và trung tâm cụm (đỉnh 1) (Hình 3.9). Từ đây, bài toán
tìm giá trị nhỏ nhất được quy về bài toán luồng cực đại/lát cắt cực tiểu (min cut/max-flow). Sau khi tìm được điểm cực tiểu, đặc trưng nội dung có thể biểu
diễn lại thành
E,= FP'UF2U---U RU UR, (3.7) với F* là tập hợp các đặc trưng nội dung có cùng nhãn Ig.
Hình 3.9: So khớp dựa trên biểu đồ. Hình ảnh minh họa biểu đồ liên quan giữa
đặc trưng nội dung và trung tâm cụm. Đặc trưng nội dung được so khớp với
trung tam cụm ở cấp độ pixel. [14].
Kết quả của việc so khớp đặc trưng dựa trên biểu đồ được thể hiện trong
Hình 3.10 cho thấy rằng việc phân cụm đặc trưng phong cách đã nắm bắt được
thông tin ngữ nghĩa của hình ảnh.