Hướng tiếp cận bài toán chuyển đổi phong

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Chuyển đổi phong cách ảnh theo chủ thể và nền (Trang 35 - 38)

cách ảnh

Nhờ sự phát triển của mạng nơ-ron, Gatys [2] đã nghiên cứu thành công phương pháp sử dụng mang CNN để tái tạo phong cách hội họa nổi tiếng từ

những hình ảnh tự nhiên. Công trình nghiên cứu của Gatys đã thu hút sự chú ý

từ cả giới học thuật và ngành công nghiệp. Trong học thuật, là nguồn cảm hứng

cho rất nhiều nghiên cứu tiếp theo để cải tiến hoặc mở rộng thuật toán NST.

Một số ứng dụng công nghiệp được nhiều người biết tới như Ostagram, Prisma.

Tiếp nối sự thành công của Gatys, nhiều nhà nghiên cứu đã bắt tay vào cải

tiến và đề ra những phương pháp tiếp cận mới cho lĩnh vực tự động chuyển đổi phong cách ảnh. Để tự chuyển đổi phong cách ảnh, hai vấn đề được quan tâm

nhất là cách tạo mô hình và cách trích xuất phong cách từ một ảnh nghệ thuật. Dựa trên các thuật toán tái tạo hình ảnh sử dung CNN, khóa luận tiến hành khảo sát một số kỹ thuật được dùng trong bài toán NST hiện nay.

17

2.4.1 Xây dựng mô hình

Ý tưởng phân chia hướng tiếp cận theo mô hình trình bày dưới đây được

tham khảo trong bài báo "Neural Style Transfer: A Review" [5]. Hình 2.5 tóm

tắt các hướng tiếp cận bài toán.

Tối Lill hoa Tối ưu hóa

hình ảnh trực mô hình

Một Nhiều Phong cách

phong cách phong cách tùy ý

Hình 2.5: Hướng tiếp cận bài toán Neural Style Transfer

Tối ưu hóa hình ảnh trực tiếp. Công việc này bắt nguồn từ ý tưởng cơ bản nhất, sử dụng kiến trúc mạng VGG để trích xuất đặc trưng từ hình ảnh nội

dung và ảnh phong cách, sau đó tối ưu hình ảnh bằng cách lặp đi lặp lại (thường khởi tạo bằng một ảnh nhiễu) cho đến khi đạt được kết quả mong muốn. Quá trình tối ưu hóa lặp đi lặp lại dựa trên gradient descent trong không gian ảnh.

Do đó, quá trình này tốn quá nhiều thời gian, đặc biệt đối với ảnh lớn.

Tối ưu hóa mô hình. Việc lặp đi lặp lại trong quá trình tối ưu hóa hình

ảnh dẫn đến gánh nặng về thời gian và chi phí. Tối ưu hóa mô hình đề xuất đào

tạo một mô hình mạng được huyén luyện từ trước, nhằm đẩy gánh nặng tính toán qua cho quá trình đào tạo mô hình. Hướng tiếp cận này cải thiện đáng kể

thời gian tái tạo hình ảnh. Việc tối ưu hóa mô hình bao gồm nhiều hướng tiếp cận nhỏ: một mô hình - một phong cách, một môt hình - nhiều phong cách và một mô hình - phong cách bất kỳ.

e Một mô hình - một phong cách (Per-Style-Per-Model (PSPM)):

Đào tạo trước một mô hình theo ảnh phong cách cho trước và tạo ra ảnh

kết quả qua một lần lặp duy nhất. Mô hình này nhìn chung về cơ bản đã đáp ứng được yêu cầu về vấn đề thời gian tái tạo ảnh.

18

e Một mô hình - nhiều phong cách (Multi-Style-Per-Model (MSPM)):

Mặc dù hướng tiếp cận PSPM ở trên có thể tạo ra hình ảnh nhanh hơn

nhiều lần so với các phương pháp tối ưu hóa trực tiếp hình ảnh trước đây

thế nhưng với mỗi mô hình chỉ được sử dụng cho một phong cách cụ thể.

Trong khi đó, có khá nhiều hình ảnh mang phong cách, nét vẽ tương tự nhau, chỉ khác nhau ở màu sắc. Về trực giác, công việc đào tạo mô hình

cho từng cá thể là tốn thời gian và thiếu sự linh động. Do đó, mạng MSPM

được đề xuất nhằm cải thiện tính linh hoạt này. MSPM được cải tiến theo hai hướng: một là giảm số lượng trọng số của mỗi hình ảnh phong cách, hai là kết hợp ảnh phong cách và ảnh nội dung làm đầu vào của bài toán.

Tuy nhiên số lượng tập ảnh phong cách "Style bank" vẫn còn bị giới hạn.

e Một mô hình - phong cách tùy ý (Arbztraru-Stule-Per- Model

(ASPM)): ASPM hướng tới việc xây dựng một mô hình cho mọi anh tùy

ý, mang lại hiệu quả cao, tiết kiệm thời gian, không gian lữu trữ mô hình.

Hướng tiếp cận này hiện nay đang thu hút nhiều sự quan tâm, nhiều ý

tưởng cải tiến để cho ra hình ảnh tốt hơn. Đây cũng là hướng tiếp cận được khóa luận sử dụng để giải quyết bài toán chuyển đổi phong cách ảnh

trong mô hình đề xuất.

2.4.2 Trích xuất phong cách ảnh nghệ thuật

Công việc trích xuất phong cách ảnh bao gồm hai vấn đề con: biểu diễn

phong cách và tổng hợp phong cách. Trước khi đi vào mô tả các phương pháp

tổng hợp phong cách ảnh, ta cần hiểu phong cách ảnh là gì.

Một cách tổng quát, phong cách ảnh bao gồm những thứ tạo nên hiệu ứng

thị giác cho con người như bố cục ảnh (kích thước từng chỉ tiết), gam màu

(nóng, lạnh, trung tính), chất liệu (ví dụ vẽ bằng màu nước hay màu chì, vẽ

trên giấy hay trên gõ), thể loại (cổ điển, lãng mạn hay kinh di),... Mặc dù bằng

mắt thường con người có thể dễ dàng nhận ra được phong cách ảnh. Thế nhưng

đây lại là một vấn đề khó cho xử lý ảnh và thị giác máy tính. Xét trong phạm

vi kiến thức cần để giải quyết bài toán NST, người ta coi phong cách ảnh như

họa tiết của hình ảnh (texture). Họa tiết của một hình ảnh thể hiện nét vẽ, hình

dạng hình học, hoa văn và sự chuyển đổi giữa các màu sắc.

Sau khi hiểu được cách biểu diễn phong cách ảnh, vấn đề tiếp theo là làm

thé nào để xây dựng lại chi tiết họa tiết mong muốn nhưng vẫn bảo toàn nội

dung hình ảnh. Các họa tiết có thể lấy từ nhiều nguồn khác nhau như vẽ tay

19

hoặc scan từ ảnh. Tuy nhiên người bình thường ít ai có thể vẽ lại được các họa

tiết mà phải nhờ tới các họa sĩ, hơn nữa công việc này tốn khá nhiều thời gian.

Scan ảnh cũng là một phương pháp sao chép họa tiết, tuy nhiên, hình ảnh cho

ra phụ thuộc vào nhiều yếu tố như ánh sáng, đồ bóng, hình dạng không đồng

nhất dẫn đến mất nét, đứt đoạn, từ đó có thể chất lượng không tốt. Mô hình

tổng hợp họa tiết là một phương pháp thích hợp để thay thế. Qua quá trình

nghiên cứu và phát triển, việc tổng hợp hình ảnh được phân loại thành phương pháp tham số và phương pháp phi tham s6 |3].

Phương pháp tham số (Parametric Texture Modelling). Phương

pháp tham số hoạt động dựa trên phương pháp thống kê. Phương pháp này

khởi tạo một hình ảnh nhiễu ngẫu nhiên, sau đó cặp nhật liên tục cho đến khi

gặp một bản thống kê như mong muốn. Tuy nhiên, rất khó để có thể tìm ra một

mô hình thống kê thích hợp cho việc biểu diễn phong cách. Gram matrices|2]

được để xuất bởi Gatys và các cộng sự là một trong những mô hình tiêu biểu cho

phương pháp này bằng cách áp dụng thành công kiến trúc mạng VGG cho việc

tổng hợp họa tiết và chuyển đổi phong cách ảnh. Các mô hình tham số mang lại

kết quả tốt về mặt tổng thể của tác phẩm nghệ thuật, giữ được nội dung hình

ảnh. Tuy nhiên các mô hình này lại làm sai lệch hoa văn cục bộ hoặc không thể

lấy được đặc trưng họa tiết theo cấp độ ngữ nghĩa.

Phương pháp phi tham số (Non-parametric Texture Modelling).

Phương pháp phi tham số hoạt động dựa trên phương pháp bản vá. Nhiều

phương pháp phi tham số khác nhau dựa trên mô hình MRFs, tìm kiếm các

vùng đặc trưng cục bộ từ ảnh phong cách sao cho phù hợp với cấu trúc cục bộ

của ảnh nội dung. So với phương pháp tham số, cách này có thể tái tạo được

nhiều họa tiết hoa văn hơn. Tuy nhiên, việc chắp vá các họa tiết có thể gây ra

hiện tượng rửa trôi (wash-out artifacts) các họa tiết trước đó.

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Chuyển đổi phong cách ảnh theo chủ thể và nền (Trang 35 - 38)

Tải bản đầy đủ (PDF)

(74 trang)