cách ảnh
Nhờ sự phát triển của mạng nơ-ron, Gatys [2] đã nghiên cứu thành công phương pháp sử dụng mang CNN để tái tạo phong cách hội họa nổi tiếng từ
những hình ảnh tự nhiên. Công trình nghiên cứu của Gatys đã thu hút sự chú ý
từ cả giới học thuật và ngành công nghiệp. Trong học thuật, là nguồn cảm hứng
cho rất nhiều nghiên cứu tiếp theo để cải tiến hoặc mở rộng thuật toán NST.
Một số ứng dụng công nghiệp được nhiều người biết tới như Ostagram, Prisma.
Tiếp nối sự thành công của Gatys, nhiều nhà nghiên cứu đã bắt tay vào cải
tiến và đề ra những phương pháp tiếp cận mới cho lĩnh vực tự động chuyển đổi phong cách ảnh. Để tự chuyển đổi phong cách ảnh, hai vấn đề được quan tâm
nhất là cách tạo mô hình và cách trích xuất phong cách từ một ảnh nghệ thuật. Dựa trên các thuật toán tái tạo hình ảnh sử dung CNN, khóa luận tiến hành khảo sát một số kỹ thuật được dùng trong bài toán NST hiện nay.
17
2.4.1 Xây dựng mô hình
Ý tưởng phân chia hướng tiếp cận theo mô hình trình bày dưới đây được
tham khảo trong bài báo "Neural Style Transfer: A Review" [5]. Hình 2.5 tóm
tắt các hướng tiếp cận bài toán.
Tối Lill hoa Tối ưu hóa
hình ảnh trực mô hình
Một Nhiều Phong cách
phong cách phong cách tùy ý
Hình 2.5: Hướng tiếp cận bài toán Neural Style Transfer
Tối ưu hóa hình ảnh trực tiếp. Công việc này bắt nguồn từ ý tưởng cơ bản nhất, sử dụng kiến trúc mạng VGG để trích xuất đặc trưng từ hình ảnh nội
dung và ảnh phong cách, sau đó tối ưu hình ảnh bằng cách lặp đi lặp lại (thường khởi tạo bằng một ảnh nhiễu) cho đến khi đạt được kết quả mong muốn. Quá trình tối ưu hóa lặp đi lặp lại dựa trên gradient descent trong không gian ảnh.
Do đó, quá trình này tốn quá nhiều thời gian, đặc biệt đối với ảnh lớn.
Tối ưu hóa mô hình. Việc lặp đi lặp lại trong quá trình tối ưu hóa hình
ảnh dẫn đến gánh nặng về thời gian và chi phí. Tối ưu hóa mô hình đề xuất đào
tạo một mô hình mạng được huyén luyện từ trước, nhằm đẩy gánh nặng tính toán qua cho quá trình đào tạo mô hình. Hướng tiếp cận này cải thiện đáng kể
thời gian tái tạo hình ảnh. Việc tối ưu hóa mô hình bao gồm nhiều hướng tiếp cận nhỏ: một mô hình - một phong cách, một môt hình - nhiều phong cách và một mô hình - phong cách bất kỳ.
e Một mô hình - một phong cách (Per-Style-Per-Model (PSPM)):
Đào tạo trước một mô hình theo ảnh phong cách cho trước và tạo ra ảnh
kết quả qua một lần lặp duy nhất. Mô hình này nhìn chung về cơ bản đã đáp ứng được yêu cầu về vấn đề thời gian tái tạo ảnh.
18
e Một mô hình - nhiều phong cách (Multi-Style-Per-Model (MSPM)):
Mặc dù hướng tiếp cận PSPM ở trên có thể tạo ra hình ảnh nhanh hơn
nhiều lần so với các phương pháp tối ưu hóa trực tiếp hình ảnh trước đây
thế nhưng với mỗi mô hình chỉ được sử dụng cho một phong cách cụ thể.
Trong khi đó, có khá nhiều hình ảnh mang phong cách, nét vẽ tương tự nhau, chỉ khác nhau ở màu sắc. Về trực giác, công việc đào tạo mô hình
cho từng cá thể là tốn thời gian và thiếu sự linh động. Do đó, mạng MSPM
được đề xuất nhằm cải thiện tính linh hoạt này. MSPM được cải tiến theo hai hướng: một là giảm số lượng trọng số của mỗi hình ảnh phong cách, hai là kết hợp ảnh phong cách và ảnh nội dung làm đầu vào của bài toán.
Tuy nhiên số lượng tập ảnh phong cách "Style bank" vẫn còn bị giới hạn.
e Một mô hình - phong cách tùy ý (Arbztraru-Stule-Per- Model
(ASPM)): ASPM hướng tới việc xây dựng một mô hình cho mọi anh tùy
ý, mang lại hiệu quả cao, tiết kiệm thời gian, không gian lữu trữ mô hình.
Hướng tiếp cận này hiện nay đang thu hút nhiều sự quan tâm, nhiều ý
tưởng cải tiến để cho ra hình ảnh tốt hơn. Đây cũng là hướng tiếp cận được khóa luận sử dụng để giải quyết bài toán chuyển đổi phong cách ảnh
trong mô hình đề xuất.
2.4.2 Trích xuất phong cách ảnh nghệ thuật
Công việc trích xuất phong cách ảnh bao gồm hai vấn đề con: biểu diễn
phong cách và tổng hợp phong cách. Trước khi đi vào mô tả các phương pháp
tổng hợp phong cách ảnh, ta cần hiểu phong cách ảnh là gì.
Một cách tổng quát, phong cách ảnh bao gồm những thứ tạo nên hiệu ứng
thị giác cho con người như bố cục ảnh (kích thước từng chỉ tiết), gam màu
(nóng, lạnh, trung tính), chất liệu (ví dụ vẽ bằng màu nước hay màu chì, vẽ
trên giấy hay trên gõ), thể loại (cổ điển, lãng mạn hay kinh di),... Mặc dù bằng
mắt thường con người có thể dễ dàng nhận ra được phong cách ảnh. Thế nhưng
đây lại là một vấn đề khó cho xử lý ảnh và thị giác máy tính. Xét trong phạm
vi kiến thức cần để giải quyết bài toán NST, người ta coi phong cách ảnh như
họa tiết của hình ảnh (texture). Họa tiết của một hình ảnh thể hiện nét vẽ, hình
dạng hình học, hoa văn và sự chuyển đổi giữa các màu sắc.
Sau khi hiểu được cách biểu diễn phong cách ảnh, vấn đề tiếp theo là làm
thé nào để xây dựng lại chi tiết họa tiết mong muốn nhưng vẫn bảo toàn nội
dung hình ảnh. Các họa tiết có thể lấy từ nhiều nguồn khác nhau như vẽ tay
19
hoặc scan từ ảnh. Tuy nhiên người bình thường ít ai có thể vẽ lại được các họa
tiết mà phải nhờ tới các họa sĩ, hơn nữa công việc này tốn khá nhiều thời gian.
Scan ảnh cũng là một phương pháp sao chép họa tiết, tuy nhiên, hình ảnh cho
ra phụ thuộc vào nhiều yếu tố như ánh sáng, đồ bóng, hình dạng không đồng
nhất dẫn đến mất nét, đứt đoạn, từ đó có thể chất lượng không tốt. Mô hình
tổng hợp họa tiết là một phương pháp thích hợp để thay thế. Qua quá trình
nghiên cứu và phát triển, việc tổng hợp hình ảnh được phân loại thành phương pháp tham số và phương pháp phi tham s6 |3].
Phương pháp tham số (Parametric Texture Modelling). Phương
pháp tham số hoạt động dựa trên phương pháp thống kê. Phương pháp này
khởi tạo một hình ảnh nhiễu ngẫu nhiên, sau đó cặp nhật liên tục cho đến khi
gặp một bản thống kê như mong muốn. Tuy nhiên, rất khó để có thể tìm ra một
mô hình thống kê thích hợp cho việc biểu diễn phong cách. Gram matrices|2]
được để xuất bởi Gatys và các cộng sự là một trong những mô hình tiêu biểu cho
phương pháp này bằng cách áp dụng thành công kiến trúc mạng VGG cho việc
tổng hợp họa tiết và chuyển đổi phong cách ảnh. Các mô hình tham số mang lại
kết quả tốt về mặt tổng thể của tác phẩm nghệ thuật, giữ được nội dung hình
ảnh. Tuy nhiên các mô hình này lại làm sai lệch hoa văn cục bộ hoặc không thể
lấy được đặc trưng họa tiết theo cấp độ ngữ nghĩa.
Phương pháp phi tham số (Non-parametric Texture Modelling).
Phương pháp phi tham số hoạt động dựa trên phương pháp bản vá. Nhiều
phương pháp phi tham số khác nhau dựa trên mô hình MRFs, tìm kiếm các
vùng đặc trưng cục bộ từ ảnh phong cách sao cho phù hợp với cấu trúc cục bộ
của ảnh nội dung. So với phương pháp tham số, cách này có thể tái tạo được
nhiều họa tiết hoa văn hơn. Tuy nhiên, việc chắp vá các họa tiết có thể gây ra
hiện tượng rửa trôi (wash-out artifacts) các họa tiết trước đó.