Chuyển đổi phong cách ảnh

phần 2.4.1). Tuy nhiên cả hai phương pháp này đều có ưu - nhược điểm riêng

3.3 Chuyển đổi phong cách ảnh

3.3.1 Phương pháp

Phương pháp chuyển đổi phong cách ảnh được thực hiện bởi mô hình MST

được đề xuất trong bai báo "Multimodal Style Transfer dựa trên Graph Cuts"|14].

Mô hình MST cho thời gian thực thi tương đối nhanh (1.40s trên ảnh có kích thước 512x512, CPU Intel i7-6850K 3.6 GHz va GPU Titan Xp) va ảnh kết quả

sau khi đã chuyển đổi phong cách tốt vì vẫn giữ được nội dung của ảnh ảnh nội

dung và mang phong cách của ảnh phong cách.

Biểu diễn phong cách ảnh đa phương thức: Đối với mỗi ảnh phong

cách được đưa vào !;, mô hình sẽ trích xuất đặc trưng cấp cao từ tấm ảnh F, €

ROXAWs (với H, và W, là kích thước chiều dài và chiều rộng của đặc trưng phong cách) thông qua bộ mã hóa đã được huấn luyện #¿,„ (.) như VGG19{13]. Để xây dựng được mô hình biểu diễn đa phương thức (multimodal representation) trong

không gian đặc trưng nhiều chiều, mục tiêu của nhóm tác giả là phân đoạn các họa tiết thành nhiều tập con. Về mặt kỹ thuật, họ áp dụng thuật toán K-means

để gom các đặc trưng thành K cum mà không xét đến thông tin về mặt không

gian. Trong không gian cụm, các đặc trưng trong cùng một cụm có các thuộc

tính tương tự nhau và có khả năng được rút trích từ cùng một không gian. Quá

trình này giúp thu được một mô hình biểu diễn phong cách ảnh đa phương thức

(multimodal style representation).

Hình 3.8: Trực quan hóa đặc trưng phong cách theo cum sử dung t-SNE[10]. Với mỗi cặp ảnh phong cách - ảnh trực quan đữ liệu, tác giả đặt K=3 và nhãn của đặc trưng phong cách trùng với nhãn của cụm chứa đặc trưng đó. [14].

Hình 3.8 là một ví dụ cho thấy kết quả gom nhóm phù hợp với giả thiết về

biểu diễn phong cách ảnh đa phương thức. Các đặc trưng gần nhau có xu hướng

nằm trong cùng một nhóm. Diều này không chỉ cho thấy sự phân chia phong

cách mà còn chứng minh rằng gom cụm là cách thích hợp để xây dựng một mô

hình phân phối đa phương thức.

So khớp phong cách dựa trên biểu đồ: Tương tự như ảnh phong cách,

ảnh nội dung cũng được rút trích các đặc trưng cấp cao khi đi qua bộ mã hóa

đã được huấn luyện F, € ROX#eWe (với H, và W, là kích thước chiều dài và chiều rộng của đặc trưng nội dung). Từ những đặc trưng được rút trích, tiến hành so khớp với các nhóm đặc trưng phong cách. Bước đầu tiên trong việc so khớp là tính toán khoảng cách giữa các đặc trưng. Trong bài báo đề xuất, nhóm tác giả

đã lựa chọn độ đo cosin để đo khoảng cách giữa đặc trưng nội dung và trung

tâm cụm phong cách (style cluster center). Theo phân tích của nhóm tác giả,

cần quan tâm về độ phức tạp của độ đo vì toàn bộ đặc trưng nội dung đều được

sử dụng trong việc so khớp.

Fi! Fy

cpp 3;Úk

với (-): phép toán chuyển vị và || : ||: độ lớn vector đặc trưng, F.p: là đặc trưng

nội dung, #;¡¿ là trung tam cụm phong cách có nhãn ỉ.

Tìm nhãn ƒ cho từng đặc trưng nội dung Ƒ,„ với nhãn f là nhãn của trung

tâm cụm f, € {h,la,...,lx-} tương ứng. Tính toán sự đối lập giữa nhãn f và đặc trưng nội dung bằng công thức:

H.W.

Eaatalf) = 3) D(Fep, F8; by) (3.3)

p=1

với Egata là năng lượng dữ liệu (Energy data). Egqtg càng nhỏ thi ƒ càng gần với

đặc trưng nội dung.

Để đảm bảo những điểm (pixel) trong cùng một vùng ngữ nghĩa sẽ được gom

vào cùng nhóm, nhóm tác giả đã ap dụng công thức làm min Egmootn(f):

Esmooth(f) — ” Vol fo: Ja) (3.4)

{p,q}EQ

pair of feature) trong ảnh nội dung. W„„ biểu thi giá trị phạt (penalty) riêng cho

từng cặp đặc trưng p,q.

Vo.a( fp, fa) =À- T(fp z Ja) (3.5)

với T(-) = 1 nếu f, # fy và ngược lai sẽ bằng 0. À là hằng số độ mịn. Mô hình này khuyến khích việc gán nhãn f theo từng khu vực ngữ nghĩa, các đặc trưng

nội dung trong cùng một vùng sẽ có cùng nhãn với nhau.

Từ công thức 3.3 và 3.4, công thức tối ưu hóa hàm năng lượng được hình

thành

E(f) = Eaata + Esmooth(f) (3.6)

Tìm giá trị cực tiểu của E(f) bằng cách xây dựng đồ thị liên quan giữa đặc

trưng nội dung (đỉnh p) và trung tâm cụm (đỉnh 1) (Hình 3.9). Từ đây, bài toán

tìm giá trị nhỏ nhất được quy về bài toán luồng cực đại/lát cắt cực tiểu (min cut/max-flow). Sau khi tìm được điểm cực tiểu, đặc trưng nội dung có thể biểu

diễn lại thành

E,= FP'UF2U---U RU UR, (3.7) với F* là tập hợp các đặc trưng nội dung có cùng nhãn Ig.

Hình 3.9: So khớp dựa trên biểu đồ. Hình ảnh minh họa biểu đồ liên quan giữa

đặc trưng nội dung và trung tâm cụm. Đặc trưng nội dung được so khớp với

trung tam cụm ở cấp độ pixel. [14].

Kết quả của việc so khớp đặc trưng dựa trên biểu đồ được thể hiện trong

Hình 3.10 cho thấy rằng việc phân cụm đặc trưng phong cách đã nắm bắt được

thông tin ngữ nghĩa của hình ảnh.

Kiến trúc mạng UˆNct

Hướng tiếp cận bài toán chuyển đổi phong