Kết hợp nội dung của ảnh Brad Pittvới phong cách từ bức họa của họa sĩ Felix Vallotton sử dụng thuật toán chuyển đổi phong cách ảnh.... Kết hợp nội dung của ảnh Brad Pitt với phong cách
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
DANG QUOC QUY
TRAN VU HOANG TU
KHOA LUAN TOT NGHIEP
CHUYEN DOI PHONG CACH ANH
THEO CHU THE VA NEN
CU NHAN NGANH KHOA HOC MAY TINH
TP HO CHÍ MINH, 2021
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
DANG QUOC QUY - 17520960
TRAN VŨ HOANG TÚ — 17521209
KHÓA LUẬN TÓT NGHIỆP
CHUYEN DOI PHONG CÁCH ANH
THEO CHU THE VA NEN
CU NHAN NGANH KHOA HOC MAY TINH
GIANG VIEN HUONG DAN
TS NGUYEN VINH TIEP
TP HO CHÍ MINH, 2021
Trang 3DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số ngày của Hiệu trưởng Trường Dại học Công nghệ Thông tin.
A—ẰẶẰẶ een e bent n eben tent ees ~ Chủ tịch.
Qe ccc cece tend teen dt enes — Thu ký.
J <A ie «ai i i - Ủy VIÊn.
4 SO đế, se e À | — Ủy VIÊn.
Trang 4ĐẠI HỌC QUOC GIA TP HO CHÍ MINH CONG HOA XA HOI CHU NGHIA VIET NAM
TRUONG DAI HOC Độc Lap - Tự Do - Hanh Phúc
CÔNG NGHỆ THÔNG TIN
TP HCM, ngày tháng năm
NHAN XÉT KHÓA LUẬN TOT NGHIỆP
(CÁN BỘ HƯỚNG DAN)
Tên khóa luận:
CHUYEN DOI PHONG CÁCH ANH THEO CHU THẺ VA NEN
BACKGROUND-FOREGROUND AWARED IMAGE STYLE TRANSFER
Nhóm SV thực hiện: Cán bộ hướng dẫn:
Đặng Quốc Quy - 17520960 TS Nguyễn Vinh Tiệp
Trần Vũ Hoàng Tú - 17521209
Đánh giá Khóa luận
1 Vé cuôn báo cáo:
Số trang Số chương
SO bang sô liệu Sô hình vẽ
Sô tài liệu tham khảo Sản phâm Một sô nhận xét vê hình thức cuôn báo cáo:
Trang 6ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN
TP HCM, ngay thang ndm
NHAN XÉT KHÓA LUẬN TOT NGHIỆP
(CAN BỘ PHAN BIEN)
Tén khoa luan:
CHUYEN DOI PHONG CACH ANH THEO CHU THE VA NEN
BACKGROUND-FOREGROUND AWARED IMAGE STYLE TRANSFER
Nhóm SV thực hiện: Can bộ phản biên:
Đặng Quốc Quy - 17520960 TS Lê Minh Hưng
Trần Vũ Hoàng Tú - 17521209
Đánh giá Khóa luận
1 Vé cuôn báo cáo:
Số trang Số chương
SO bang sô liệu Sô hình vẽ
Sô tài liệu tham khảo Sản phâm Một sô nhận xét vê hình thức cuôn báo cáo:
Trang 73 Về chương trình ứng dụng:
Người nhận xét
(Ky tên và ghi rõ họ tên)
Trang 8LỜI CẢM ƠN
"Diéu duy nhất quan trọng trong thế giới nay là mối quan hệ Moi vatton tại trong vt tru nay bởi vi chúng có quan hệ uới nhau Không cóđiều gi tồn tại một cách độc lập Chúng ta cũng thôi đừng gid bộ minh
là những cá nhân có thể tồn tại một mành " - Margaret Wheatley
Thật vậy, chúng tôi đã không thể hoàn thành được khóa luận này nếu
như không có sự giúp đỡ từ những mối quan hệ xung quanh chúng
tôi Những kiến thức, chia sẻ, sự quan tâm to lớn về mặt tri thức lẫn
tinh thần từ mọi người xung quanh giúp chúng tôi phát triển hơn trong quá trình tìm kiếm, định hướng và phát triển khóa luận cũng
như chính bản thân mình.
Lời đầu tiên, chúng tôi xin chân thành cảm ơn thầy TS Nguyễn VinhTiệp đã hướng dẫn chúng tôi ngay từ những ngày đầu làm nghiêncứu Thầy đã tận tình cố vấn, chia sẻ, kiên nhẫn giảng dạy trong suốtquá trình hoàn thành khóa luận.
Cảm ơn thầy cô trong trường và đặc biệt là các thầy cô trong khoa
Khoa học máy tính đã tận tình giảng dạy, trang bị kiến thức bổ ích,
cần thiết cho chúng tôi Bên cạnh đó, chúng tôi cũng xin gửi lời cam
ơn đến các anh, các bạn trong MMLab đã tạo điều kiện thuận lợi,đóng góp ý kiến, giúp đỡ chúng tôi trong suốt quá trình học và làm
đề tài để bài khóa luận này từng bước hoàn thiện hơn.
Cuối cùng, chúng con xin cảm ơn cha mẹ, gia đình đã là động lực,nguồn động viên giúp con hoàn thành tốt đề tài này
Trang 9ĐẠI HỌC QUỐC GIA TP HO CHÍ MINH CONG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN
ĐĂNG KÝ ĐÈ TÀI KHÓA LUẬN TÓT NGHIỆP
TÊN DE TÀI: CHUYEN DOI PHONG CÁCH ANH THEO CHU THE VÀ NEN
TEN DE TAI TIENG ANH:
BACKGROUND-FOREGROUND AWARED IMAGE STYLE TRANSFER
Cán bộ hướng dẫn: TS Nguyễn Vinh Tiệp
Thời gian thực hiện: Từ ngày 07/09/2020 đến ngày 21/01/2021.
Sinh viên thực hiện:
Đặng Quốc Quy - 17520960 Lớp: KHCL2017.2
Email: 17520960@ gm.uit.edu.vn Dién thoai: 0975 303 723
Trần Vũ Hoang Tú - 17521209 Lớp: KHCL2017.2
Email: 17521209 @gm.uit.edu.vn Dién thoai: 0978 670 948
Nội dung đề tài:
- Mục tiêu: Đề xuất mô hình chuyên đổi phong cách ảnh (image style transfer) bang cách
khai thác thông tin đối tượng chính, hay chủ thé (foreground) và vùng nền, hay đối tượng phụ (background) của ảnh Phong cach của ảnh nghệ thuật sẽ được chuyên đôi tương ứng sang ảnh thật dựa trên sự tương đồng về nội dung Trong đó, phong cách của các đối trong
chính sẽ được chuyên đôi tương ứng với nhau và tương tự với đối tượng phụ, bằng cách
đề xuất ảnh phong cách phù hợp với ảnh nội dung được đưa vào và chuyên đổi phong cách cho từng đối tượng (nền và chủ thé) trong ảnh nội dung.
Trang 10Thu thập tập dữ liệu về ảnh nghệ thuật của các họa sĩ nồi tiếng ở Việt Nam.
Xây dựng thuật toán tìm ảnh nghệ thuật phù hợp với ảnh thực bằng thuật toán truy
van ảnh
Tach đối tượng nền và chủ thé sử dụng thuật toán Saliency Detection.
Kết hợp ảnh đầu vào và ảnh phong cách bằng Style Transfer theo từng phần đối
tượng chính và đối tượng nền.
Xây dựng ứng dụng minh họa và khảo sát đánh giá của người dùng.
- Kết quả mong đợi:
Tập dữ liệu về ảnh về nghệ thuật của các họa sĩ nồi tiếng ở Việt Nam đủ lớn và các
ảnh có chất lượng cao.
Ung dụng minh họa thuật toán chuyên đồi phong cách ảnh.
Kết quả khảo sát được đánh giá tốt.
Trang 11Kế hoạch thực hiện:
- Giai đoạn 1 (9/2020 - 10/2020): Tìm hiểu các phương pháp cho từng bài toán: truy
vân ảnh, tách chủ thê và nên, hoán đôi phong cách ảnh; tìm kiêm các công trình
nghiên cứu liên quan Chạy thử các phương pháp tìm ra điểm tốt và chưa tốt.
- Giai đoạn 2 (10/2020 - 12/2020): Nghiên cứu, cải tiến các phương pháp được chon
cho từng bài toán Xây dựng ứng dụng minh họa.
- Giai đoạn 3 (12/2020 - 1/2020): Chỉnh sửa, hoàn thiện, đóng gói đề tài khóa luận.
Khảo sát, đánh giá, viết báo cáo chỉ tiết.
Phân công công việc:
Đặng Quốc Quy Tìm hiểu đề tài
Nghiên cứu các thuật toán truy vấn ảnh và Saliency
Detection
Đánh giá và cải thiện mô hình
Cập nhật, liên kết các phân đoạn bài toán Xây dựng hệ thống ứng dụng hoàn chỉnh
Việt báo cáo
Trang 12- Việt báo cáo
Xác nhận của CBHD
(Ký tên và ghi rõ họ tên)
Nguyễn Vinh Tiệp
Trang 13Mục lục
1 Tổng quan
1.1 1.2 1.3
1.4 1.5
Giới thiệu đề tài caThách thức, khó khăn của bài toán - Mục tiêu của khóa luận ẶẶ.Ặ Ặ.ẶẶ
2.4.2 Trích xuất phong cách ảnh nghệ thuật
Phương pháp Multimodal Style Transfer dựa trên Graph Cut 20
Trang 143 Mô hình đề xuất
3.1 Xác định chủ thể và nền bằng thuật toán tìm vùng nổi bật
3.2 Truy van ảnh dựa trên nội dung
3.3 Chuyển đổi phong cách ảnh
4.21 Xây dựng ứng dung cho Server
4.2.2 Xây dựng ứng dung cho Clent
4.3 Kết quả thực nghiệm trên ứng dụng
-4.4 Đánh giá ứng dụng So
5 Kết luận
5.1 Kết quả đạt được 2 ee
5.2 Hạn chế của khóa luận
5.3 Một số hướng phát triển của đề tài
Tài liệu tham khảo
ii
23 24 26 28 28 32
36 36
36 37 38 38 39
42 AT
51 51
52 SỐ
55
Trang 15Chuyển đổi phong cách ảnh Kết hợp nội dung của ảnh Brad Pitt
với phong cách từ bức họa của họa sĩ Felix Vallotton sử dụng
thuật toán chuyển đổi phong cách ảnh 3
Thách thức về sự tương quan giữa ảnh nội dung và ảnh phong
cách Với cùng một bức ảnh nội dung là ảnh thảo nguyên, (a)
chọn ảnh phong cách là một bức tranh chân dung của một cô gái
- khác chủ đề với ảnh nội dung; (b) chọn ảnh phong cách là bức
tranh đồng cỏ - cùng chủ đề với ảnh nội dung Có thể thấy (b)
cho ảnh kết quả tốt hơn sau khi chuyển đổi phong cách Ảnh kết
quả của (a) xuất hiện những họa tiết không mong muốn làm mất
đi nội dung của ảnh thảo nguyên 4
Ap dụng phong cách cho từng phạm vi ngữ nghĩa 5
Kiến trúc mang VGG19 2 2 eee 10Cấu tao của khối Khối ReSidual U-block (RSU)[12] 12
phần nền (màu den) ee 25
Ảnh chủ thể được tách ra từ ảnh nội dung 25
Ảnh nền được tách ra từ ảnh nội dung 26
Danh sách những ảnh phong cách phù hợp với ảnh chủ thể (Hình
11
Trang 163.7 Danh sách những ảnh phong cách phù hợp với ảnh nền (Hình 3.5) 28
3.8 Trực quan hóa đặc trưng phong cách theo cụm sử dung t-SNB[10].
Với mỗi cặp ảnh phong cách - ảnh trực quan đữ liệu, tác giả đặt
K=3 và nhãn của đặc trưng phong cách trùng với nhãn của cụm
chứa đặc trưng do [14] 0 Ặ c Q So
3.9 So khớp dựa trên biểu đồ Hình ảnh minh họa biểu đồ liên quan
giữa đặc trưng nội dung và trung tâm cụm Đặc trưng nội dung
được so khớp với trung tâm cụm ở cấp độ pixel [14]
3.10 Trực quan hóa so khớp phong cách Ỏ đây, đặc trưng phong cách
được phân chia thành K=2 tập con để dễ hình dung [14].
3.11 Ảnh chủ thể nghệ thuật (với phần nền được tô đen) ở hình thứ 3
(từ trái sang) của Hình 3.6 00-0000.
3.12 Ảnh đã chuyển đổi phong cách của ảnh chủ thể nội dung (Hình
3.4) và ảnh chủ thể nghệ thuật (Hình 3.11)
3.13 Anh nền nghệ thuật (phần chủ thể được tô đen) ở hình thứ 1 (từ
trái sang) của Hình 3.7 Ặ Q Q Q Ủ
3.14 Ảnh đã chuyển đổi phong cách của ảnh nền nội dung (Hình 3.5)
và ảnh nền nghệ thuật (Hình
3.13) -3.15 Ảnh sau khi dùng ảnh mặt nạ (Hình 3.3) để gộp Hình 3.12 và
Hình 3.14 ee
3.16 Anh két qua khi dùng Bilateral Filter để làm mịn ảnh 3.15
4.1 Quá trình trích xuất đặc trưng ngữ nghĩa từ ảnh nghệ thuật
4.2 Quá trình xử lý chính 6 Server co.
4.3 Thiết kế của ứng dụng trên điện thoại thông minh
4.4 Màn hình chính Màn hình khi mới mở ứng dụng (bên trái) và
màn hình hiện ra hai lựa chon (On galallery và On camera) khi
ấn vào dấu (+), tương ứng với hành động truy cập vào thư viện
để lấy ảnh và chụp một ảnh mới (bên phải) .
4.5 Quá trình tải ảnh lên và hiển thị tập ảnh được đề xuất
4.6 Chọn ảnh nghệ thuật Người dùng cần chọn 1 ảnh cho phần nền
và 1 ảnh cho phần chủ thể, nếu thiếu 1 trong 2, hệ thống sẽ hiển
thi nhắc nhở chọn ảnh cho phần còn thiếu
34
44
4.7 Quá trình thực hiện chuyển đổi phong cách và hiển thị ảnh kết quả 45
4.8 Giao diện khi ấn giữ vào ảnh kết quả (hình trái) và giao diện khi
ấn vào nút Save/Share (hình phải)
4.9 Giao diện khi lưu/chia sẻ ảnh thành công
1V
Trang 17Kết quả khảo sát về tính thẩm mỹ của ảnh kết quả 50
Ứng dụng đã có mặt trên Google Play Store (được khoanh đỏ)
với mã QR code của ứng dụng cố 52
Trang 18Kết qua so sánh các mang CNN phổ biến cho bài toán phân lớp[6] 27
Chỉ tiết số lượng từng chủ đề trong tập dữ liệu ảnh nghệ thuật
thu thập dude Q2 37
Danh sách các định tuyến của Server 39Danh sách các hành động ở các khu vực trong ứng dung Client 41
Thời gian thực hiện trung bình của các thao tác trên 10 ảnh có
kích thước 512x512 pixels (không kể thời gian giao tiếp giữa Client
và Server thông qua mang Internet) 48
vì
Trang 192 -<
TOM TAT
Thị giác máy tinh (Computer Vision) hiện nay dang là một trong
những lĩnh vực đầy tiềm năng và thu hút được nhiều sự quan tâm Sự
phát triển của lĩnh vực này có nguồn gốc từ việc sao chép khả năng thị giác của con người như nhận diện, hiểu biết qua hình ảnh Chuyển đổi phong cách (Style Transfer) là một trong những nghiên cứu nổi bật của Thị giác máy tính Bài toán có nhiệm vụ chuyển phong cách
từ ảnh này sang ảnh khác Với sự giúp đỡ của mạng nơ-ron nhân tao
và bộ xử lý đồ họa GPU, bài toán dần trở nên dễ dàng hơn Chuyển đổi phong cách được ứng dụng trong nhiều lĩnh vực như xử lý đồ họa,
chỉnh sửa anh, video, tạo cảnh trong game, hoạt hình, tao font chi
Đề tài tập trung nghiên cứu, thử nghiệm đề xuất mô hình chuyển đổi phong cách ảnh Đầu vào là một ảnh chụp với phần chủ thể nổi bật
so với phần nền Dựa vào các đặc trưng của ảnh đầu vào để gợi ý những ảnh hội họa có đặc trưng phù hợp cho phần chủ thể và phần
nền Điều này giúp người dùng có trải nghiệm tốt hơn, thú vị hơn vì
chỉ cần đưa vào một ảnh và chọn hai ảnh để chuyển đổi phong cách
với ảnh đầu vào này Đầu ra là bức ảnh mang phong cách hội họa củahai ảnh được người dùng lựa chọn trước đó.
Trong quá trình thực hiện, khóa luận đã khảo sát một số phương pháp
như: sử dụng mạng VGG19 để trích xuất đặc trưng từ ảnh đầu vào và
ảnh phong cách; dựa vào những đặc trưng của ảnh đầu vào, xây dựng
mô hình đề xuất ảnh nghệ thuật phù hợp với đặc trưng từng phần
chủ thể và nền của ảnh đó; mạng U2Net được ứng dụng cho việc tách chủ thể và nền của hình ảnh; chuyển đổi phong cách ảnh bằng thuật
toán "Multimodal Style Transfer dựa trên Graph Cuts"(ICCV2019).
Bên cạnh đó, chúng tôi kết hợp một số phương pháp chỉnh sửa ảnh
để cho ra ảnh kết quả tốt nhất có thể Sau khi hoàn thành mô hình
đề xuất, khóa luận đã xây dựng ứng dụng tương tác với người dùng
trên điện thoại thông minh để minh họa được trực quan.
Trang 20Chương 1
Tổng quan
1.1 Giới thiệu đề tài
Nghệ thuật xuất hiện và phát triển từng ngày cùng với xã hội loài người.
Nghệ thuật phan ánh cuộc sống, thế giới thông qua các hình tượng trong tư
duy, trí tưởng tượng của con người Hội họa là một trong những hình thức phổ biến nhất của nghệ thuật Ngôn ngữ bằng tranh ảnh được thể hiện mạnh mẽ và
phong phú Trải qua hàng ngàn năm, người ta vẫn bị thu hút bởi phong cách vẽ
của những họa sĩ như Pablo Picasso, Vincent Van Gogh, Leonardo da Vinci,
Trong quá khứ, việc vẽ lại tranh theo một phong cách cụ thể nào đó được thực
hiện từ những người họa sĩ chuyên nghiệp và phải tốn rất nhiều thời gian, chỉ
phí Vào khoảng giữa những năm 1990, lý thuyết nghệ thuật đã thu hút các
nhà nghiên cứu khoa học máy tính Từ đó, kỹ thuật chuyển đổi phong cách ảnh
(style transfer) được đề xuất
Neural Style Transfer (NST) là một bài toán mới trong lĩnh vực Trí tuệ nhân
tạo Nhiệm vụ chính của bài toán là tạo ra hình ảnh mới bằng cách kết hợp nội
dung của một ảnh (content image) và phong cách của một ảnh (style image)
khác Sự kết hợp giữa nội dung và phong cách này nếu được lựa chọn một cách
phù hợp có thể tạo ra một bức ảnh nghệ thuật đặc sắc Nhờ sự xuất hiện của
thuật toán này, việc tạo ra những bức tranh nghệ thuật trở nên dễ dàng hơn.
NST trở nên phổ biến trong những năm gần đây, thu hút được nhiều nhà nghiên
cứu cho ra nhiều thuật toán nổi bật Phạm vi nghiên cứu không chỉ dừng lại
trên hình ảnh mà được mở rộng trên video (được xử lý thời gian thực), văn bản,
âm thanh Trong phạm vi khóa luận chỉ đề cập đến việc thực hiện NST trên
Trang 21ảnh hai chiều Hình 1.1 là một minh họa cho bài toán NST trên ảnh Đầu vàonhận một ảnh chân dung và một bức họa nghệ thuật Đầu ra sẽ là một tấm ảnh
mang nội dung của ảnh chân dung nhưng được vẽ theo phong cách của bức họa nghệ thuật.
Ảnh nội dung Ảnh phong cách
Hình 1.1: Chuyển đổi phong cách ảnh Kết hợp nội dung của ảnh Brad Pitt với phong cách từ bức họa của họa sĩ Felix Vallotton sử dụng thuật toán chuyển đổi
phong cách ảnh.
1.2 "Thách thức, khó khăn của bài toán
Bài toán chuyển đổi phong cách ảnh đã và đang thu hút được nhiều sự quan
tâm từ các nhà nghiên cứu Hằng năm, ở những hội nghị lớn về thị giác máytính như ICCV, CVPR số lượng bài báo được công bố về đề tài neural styletransfer vẫn chưa dừng lại Tuy nhiên bài toán này còn gặp nhiều thách thức.Dưới đây liệt kê một số thách thức mà chúng tôi nhận được trong quá trình
tìm hiểu các thuật toán chuyển đổi phong cách ảnh.
Sự tương quan giữa ảnh nội dung và ảnh phong cách Việc lựa chọnảnh phong cách tùy ý giúp cho ảnh kết quả nhận được trở nên đa dạng, phongphú hơn và có sự đột phá về nghệ thuật Tuy nhiên, qua quá trình thực nghiệm
với một số phương pháp chuyển đổi phong cách ảnh, chúng tôi nhận thấy kết
quả nhận được sẽ tốt hơn nếu chọn ảnh phong cách là ảnh nghệ thuật có cùngchủ đề với ảnh nội dung Lựa chọn một bức ảnh phong cách không phù hợp sẽdẫn đến ảnh kết quả có những họa tiết không mong muốn hoặc không phù hợpvới ảnh nội dung Hình 1.2 là một ví dụ minh họa.
Trang 22Hình 1.2: Thách thức về sự tương quan giữa ảnh nội dung va ảnh phong cách.
Với cùng một bức ảnh nội dung là ảnh thảo nguyên, (a) chọn ảnh phong cách
là một bức tranh chân dung của một cô gái - khác chủ đề với ảnh nội dung; (b)chọn ảnh phong cách là bức tranh đồng cỏ - cùng chủ đề với ảnh nội dung Có
thể thấy (b) cho ảnh kết quả tốt hơn sau khi chuyển đổi phong cách Ảnh kết
quả của (a) xuất hiện những họa tiết không mong muốn làm mất đi nội dungcủa ảnh thảo nguyên.
Áp dụng phong cách cho từng phạm vi ngữ nghĩa Các thuật toán
chuyển đổi phong cách ảnh mới hiện nay đã quan tâm đến đặc trưng ngữ nghĩa
của ảnh nội dung và ảnh phong cách Tuy nhiên trong một số trường hợp phạm
vi áp dụng phong cách chưa được như mong muốn Nhìn vào kết quả Hình 1.3
với ảnh nội dung là ảnh thảo nguyên, bằng trực quan có thể thấy ảnh phong
cách có chủ đề gần giống với ảnh nội dung (chủ đề thiên nhiên), vùng nổi bật
của hai bức ảnh này có cùng chủ đề (cái cây) Với hy vọng ảnh kết quả sẽ cócây trên thảo nguyên màu hồng từ từ của ảnh phong cách, các chỉ tiết còn lại
có màu xanh xám giống phần nền của ảnh phong cách Tuy nhiên, ảnh kết quả
chưa được như mong muốn, màu hồng không chỉ tập trung vào cái cây mà nằmrải rác khắp bức tranh
Trang 231.3 Mục tiêu của khóa luận
1.3.1 Mục tiêu
Từ những thách thức đã đề cập ở trên, khóa luận hướng đến đề xuất mô
hình chuyển đổi phong cách ảnh (image style transfer) bằng cách khai thác thông tin đối tượng chính, hay chủ thé (foreground) và vùng nền, hay đối tượng phụ (background) của ảnh Phong cách của ảnh nghệ thuật sẽ được chuyển đổi
tương ứng sang ảnh thật dựa trên sự tương đồng về nội dung Trong đó, phong
cách của các đối tượng chính sẽ được chuyển đổi tương ứng với nhau và tương
tự với đối tượng phụ, bằng cách đề xuất ảnh phong cách phù hợp với ảnh nội
dung được đưa vào và chuyển đổi phong cách cho từng đối tượng (nền và chủ thể) trong ảnh nội dung.
Một cách cu thể hóa, bài toán lớn được chia nhỏ thảnh nhiều bài toán thành
e Truy vấn ảnh: dựa vào các đặc trưng sâu của ảnh đầu vào để có thể tìm
ra ảnh phong cách có đặc trưng tương tự, từ đó có thể gợi ý hình ảnh phù
hợp cho người dùng.
Trang 24e Chuyển đổi phong cách cho từng phần chủ thể và nền:lựa chọn thuật toán
chuyển đổi phong cách đủ tốt, thời gian thực hiện nhanh sẽ phù hợp hơn
với nhu cầu người dùng.
1.3.2 Pham vi
Phạm vi đề tài nghiên cứu của đề tài là thực hiện chuyển đổi phong cách của
ảnh nghệ thuật sang ảnh chụp đời thường Trong đó,
e Bồ cục của ảnh đời thường và nghệ thuật đều có hai đối tượngchủ thể và
nền rõ ràng.
e Ảnh nghệ thuật được lấy từ kho ảnh có sẵn và được hệ thống đề xuất.
1.4 Đóng góp chính của khóa luận
Khóa luận tập trung nghiên cứu, giải quyết các vấn đề xoay quanh bài toán
Neural Style Transfer Trong đó, giải bài toán theo hướng sử dụng đặc trưng sâu
của ảnh đầu vào để đề xuất ảnh phong cách theo từng phần chủ thể và nền Cụ thể, khóa luận đã có những đóng góp chính sau:
Về mặt nghiên cứu, thực nghiệm khóa luận đã:
e Nghiên cứu tổng quan bài toán chuyển đổi phong cách ảnh Tìm hiểu các
hướng tiếp cận tiên tiến cho bài toán
e Dé xuất mô hình chuyển đổi phong cách ảnh đảm bao sự tương quan về
ngữ nghĩa và tương đồng về chủ đề
e Xây dựng tập dữ liệu ảnh nghệ thuật Việt Nam.
Bên cạnh đó, khóa luận cũng đã xây dựng được ứng dụng trên nền tảng thiết
bị di động, xây dựng server xử lý các thao tác từ ảnh được gửi lên.
Trang 251.5 Bố cục khóa luận
Câu trúc của khóa luận: gồm có 5 chương chính, tài liệu tham khảo.
Chương 1: Tổng quan.
Chương này bao gồm phần giới thiệu tổng quan đề tài, mục đích, phạm vi
nghiên cứu và những đóng góp của khóa luận.
Chương 2: Các công trình liên quan.
Nội dung chính trong chương này này trình bày một số kiến thức nền tảng
và các nghiên cứu có liên quan đến đề tài
Chương 3: Mô hình đề xuất.
Trong chương này, khóa luận sẽ mô tả chi tiết từng module được sử dụng
để giải quyết bài toán.
Chương 4: Thực nghiệm và đánh giá
Chương này khóa luận trình bày cách để xây dựng một ứng dụng trên điện
thoại thông minh, giới thiệu bộ dữ liệu được sử dụng và phương pháp đánh
giá ứng dụng.
Chương 5: Kết luận.
Nội dung chương này trình bày tóm tắt lại một số nội dung và đóng góp
chính của đề tài trong suốt quá trình nghiên cứu; ưu và khuyết điểm của phương pháp đề xuất Bên cạnh đó, gợi mở hướng phát triển trong tương
lai.
Trang 26Chương 2
Các công trình liên quan
Trong chương này, chúng tôi trình bày một số kiến thức cơ bản và hướng
tiếp cận chính của những bài toán nhỏ cần thiết để phục vụ cho bài toán chuyển đổi phong cách ảnh dựa trên chủ thể và nền Phần 2.1 trình bày ý tưởng, kiến
trúc mạng VGG19 Day là kiến trúc mạng được sử dụng trong việc rút trích đặctrưng ảnh dùng cho hai bài toán truy vấn ảnh và style transfer
Trong Phần 2.2 khóa luận trình bay mô hình U?Net U?Net là một kiến trúc
mạng được xây dựng với mục đích xác định vùng nổi bật trong ảnh Trong khóa luận này, U?Net được sử dung để giải quyết bài toán tìm chủ thể của ảnh nội
dung và ảnh nghệ thuật Phần 2.3 là một số hướng tiếp cận chính trong việc
biểu diễn đặc trưng ảnh phục vụ cho bài toán truy vấn ảnh Cấp độ đặc trưng
bao gồm: đặc trưng cấp thấp, đặc trưng cấp cao và đặc trưng cấp ngữ nghĩa
Qua từng cấp độ, khóa luận nêu ra lập luận, ưu khuyết điểm của từng cấp độ
để có cái nhìn tổng quát và lựa chọn phương pháp phù hợp.
Bài toán chuyển đổi phong cách ảnh được trình bày trong Phần 2.4 với từng giai đoạn phát triển của bài toán Hướng phát triển của bài toán được quan tâm
theo hai khía cạnh: xây dựng mô hình và trích xuất đặc trưng phong cách (style
feature) của ảnh nghệ thuật Bên cạnh đó, phần này cũng trình bày phương phápMultimodal Style Transfer dựa trên Graph Cut là phương pháp được nhóm lựa
chọn để giải quyết bài toán chuyển đổi phong cách ảnh.
Trang 272.1 Kiến trúc VGG
2.1.1 Giới thiệu
VGGNet là một kiến trúc mạng nơ-ron tích chập (CNN) do các tác giả KarenSimonyan và Andrew Zisserman thuộc đại học Oxford đề xuất năm 2014 qua bài
báo "Very Deep Convolutional Networks for Large-Scale Image Recognition"[13].
Mô hình xuất phat từ ý tưởng nghiên cứu su ảnh hưởng giữa độ sâu của mang
tích chập với độ chính xác của nó trong bài toán nhận dạng hình ảnh trên quy
mô lớn Kiến trúc mạng VGG có nhiều biến thể với độ sâu khác nhau từ 11 đến
19 lớp.
Ý tưởng chính của kiến trúc này là sử dụng filter kích thước nhỏ 3 x 3 thay
cho các filter kích thước lớn 7 x 7 hay 11 x 11 được sử dụng trong các mang CNNtrước đây Nhóm tác giả chứng minh rằng sử dụng nhiều lớp filter 3 x 3 nối tiếp
nhau sẽ có cùng trường tiếp nhận đặc trưng như sử dụng một filter có kích thước
lớn Ví dụ kết hợp 2 lớp Convolution (Conv) 3 x 3 sẽ có cùng trường tiếp nhậnđặc trưng với 1 lớp Conv 5 x5, 3 lớp Conv 3 x 3 sẽ có cùng trường tiếp nhận đặc
trưng với 1 lớp Conv 7 x 7 Thêm vào đó, việc sử dụng liên tiếp các filter nhỏ
giúp giảm tham số tính toán cho mô hình Vi dụ sử dụng 3 filter 3 x 3 sẽ yêucầu 3(3?) = 27 tham số, tiết kiệm tham số hơn so với dùng 1 filter 7 x 7 yêu cầu
7? = 49 tham số Bên cạnh đó, cải tiến quan trọng nhất của VGGNet so với các
mang CNN khác là sự thay đổi thứ tự lớp Conv Các mô hình trước đây đều
sử dụng cặp Conv-pooling liên tiếp nhưng VGG sử dụng các chuỗi Conv-Convtrong suốt mô hình Việc nay làm cho việc tính toán lâu hơn nhưng giữ lai thong
tin nhiều hơn.
2.1.2 Kiến trúc mang
Kiến trúc mạng VGG sử dụng nhiều lớp tích chập có kích thước 3 x 3 để tạo
ra các kiến trúc mạng có độ sâu khác nhau, từ 11 lớp đến 19 lớp VGG hiện nay
có hai phiên bản VGG16 và VGG19 Kiến trúc mạng VGG19 so với VGG16 thiVGG19 có số lớp sâu hơn va cho độ chính xác cao hơn Điều này cho thấy khi
tăng số lớp của mang CNN có khả năng cải thiện độ chính xác Tuy nhiên từ
lớp 19 trở lên, khả năng cải thiện độ chính xác tăng lên không đáng kể nhưng
thời gian huấn luyện mô hình tăng lên nhiều lần do độ sâu của mô hình cànglớn việc lan truyền gradient descent càng khó khăn Vì vậy nhóm quyết định
Trang 28áp dụng mô hình VGG19 để giải quyết các bài toán liên quan Kiến trúc mạng
VGG19 (Hình 2.1) gồm có 16 lớp Conv, 3 lớp fully connected và cuối cùng làsoftmax.
e Lớp Convolution (Conv): lớp tích chập có nhiệm vụ phát hiện các đặc trưng
có trong ảnh đầu vào Các lớp này hoạt động bằng cách di chuyển các bộ
lọc trên ảnh và thực hiện phép nhân tích chập giữa bộ lọc và từng phầncủa hình ảnh.
e Lớp pooling: thường nằm giữa các lớp Conv, nhận bản đồ đặc trưng và áp
dụng phép pooling lên bản đồ đó Các lớp pooling làm giảm kích thước của
hình ảnh nhưng vẫn giữ được các đặc trưng quan trọng Nhờ đó, các tham
số và phép tính trong mạng cũng được giảm thiểu, giúp cải thiện tính hiệu
quả của mạng Có hai loại pooling thường được sử dụng là max-pooling và
average-pooling.
e Lớp fully connected: lớp kết nối đầy đủ xác định mối quan hệ giữa vị trí
của đối tượng trong ảnh và lớp trả về Kết quả trả về sau cùng là mộtvector có kích thước N, với N là số lớp trong bài toán phân lớp hình ảnh
Mỗi phần tử của vectơ cho biết xác suất để hình ảnh thuộc về một lớp.
224x224x3 224x224x 64 p Convolution + ReLU ố Fully connected + ReLU
nguồn cho một dạng kiến trúc hình mau rất thường gặp ở các mang CNN trở
về sau đó Bắt đầu từ VGG, một hình mẫu chung cho các mang CNN trong cáctác vụ học có giám sát của xử lý ảnh đã bắt đầu hình thành Các mạng trở nênsâu hơn và sử dụng các kiến trúc dang block lặp lại của [Conv liên tiếp + max
pooling].
10
Trang 292.2 Kiến trúc mạng UˆNct
2.2.1 Giới thiệu
Trong ngành thị giác máy tính, việc phát hiện và phân đoạn đối tượng thu hút
sự chú ý trong hình ảnh được gọi là phát hiện vùng nổi bật (saliency detection) Hầu hết các mạng phát hiện vùng nổi bật có kiến trúc tương tự nhau và tập
trung vào việc tận dụng những đặc trưng cấp cao được rút trích từ các mạng
xương sống (backbone network) như AlexNet, VGG, RestNet, Tuy nhiên cácmạng xương sống này được xây dựng với nhiệm vụ chính là phân loại hình ảnh,
vì vậy những đặc trưng được trích xuất sẽ mang ngữ nghĩa nhiều hơn là các chi tiết cục bộ hoặc thông tin toàn cục quan trọng trong việc phát hiện vùng
nổi bật Mạng U2Net với kiến trúc đơn giản nhưng đã giải quyết được vấn đề
này Kiến trúc U?Net được giới thiệu bởi nhóm tác giả thuộc dai hoc Alberta,
Canada qua bai báo "U?Net: Going Deeper with Nested U-Structure for Salient
Object Detection" [12] Trang Github của bai báo nay đã nhận được hơn 2,400
sao trong ba ngày kể từ khi mở mã nguồn.
U? Net có kiến trúc đơn giản nhưng chặt chẽ nhờ hai lớp kiến trúc mạng hìnhchữ U lồng nhau Kiến trúc ReSidual U-block (RSU) được đề xuất nhằm nắmbắt thông tin ngữ cảnh tốt hơn trên các hình ảnh tỷ lệ khác nhau RSU sử dụngphép pooling giúp tăng chiều sâu kiến trúc mạng nhưng chi phí tăng khong đáng
kể.
2.2.2 Khối ReSidual U-block (RSU)
Kiến trúc của RSU-L(Cin, M, Cour) với L là số lớp encoder, Cin, Cout là sốinput và output channel, M là số channel bên trong khối RSU Cấu trúc củakhối RSU này gồm 3 phần như Hình 2.2 với cấu tạo và chức năng của từng phần
như sau:
e Một lớp Convolution để trích xuất đặc trưng cục bộ Đầu vào là một ban
đồ đặc trưng (feature map) « (H x W x Cin) và đầu ra là bản đồ đặc trưng
F(x) với kênh (channel) Cout.
e Một cấu trúc mã hóa-giải mã giống Unet với độ cao L để trích xuất và
mã hóa thông tin ngữ cảnh ở nhiều kích tỷ lệ (multi-scale) U(F1(z)) Khi
L càng lớn thì khối RSU càng sâu, có thể trích xuất được nhiều đặc trưng
11
Trang 30Hình 2.2: Cau tao của khối Khối ReSidual U-block (RSU)[12|.
cục bộ và toàn cục hơn Điều chỉnh tham số L có thể trích xuất đặc trưng
multi-scale từ đặc trưng đầu vào với nhiều kích thước khác nhau
e Một kết nối residual để kết hợp đặc trưng cục bộ và đặc trưng nhiều tỷ lệ
(multi-scale) bằng phép cộng: Ƒ1(z) + U(F(+))
Điểm khác biệt giữa RSU va residual block là RSU thay phép Convolution
thành một kiến trúc nhiều lớp giống Unet và thay đặc trưng gốc (original feature)thành đặc trưng cục bộ Diều này cho phép RSU trích xuất đặc trưng nhiều tỷ
lệ từ mỗi khối residual
12
Trang 312.2.3 Kiến trúc mạng U?Net
Mạng U?Net được thế kế với cấu trúc lồng hai phần mã hóa và giải (giốngnhư hình chữ U) vào nhau như Hình 2.3 Chữ U lớn bên ngoài gồn 11 giai đoạn,
trong đó mỗi giai đoạn là một khối ReSidual U-block (RSU) Cấu trúc này cho
phép trích xuất đặc trưng nhiều tỷ lệ (multi-scale) trong các giai đoạn và đặctrưng nhiều cấp (multi-level) giữa các giai đoạn
Downsample x Conv+BN+RELU
Trang 32Cu thé, mạng U?Net gồm 3 phan:
e Phan mã hóa gồm các giai đoạn En_1, En_ 2, En_ 3, En 4,En 5,
En_ 6, tương ứng với các khối RSU có chiều cao (L) lần lượt là 7,6,5,4,4,4.Riêng đối với giai đoạn En_5 và En_ 6 thì các toán pooling và upsampling
bên trong khối RSU sẽ được thay bằng phép dilated Conv Việc thay đổi tham số chiều cao (L) ở mỗi khối RSU là để phù hợp với kích thước của
các bản đồ đặc trưng của các giai đoạn Ở các giai đoạn đầu thì các bản đồ
đặc trưng sẽ có kích thước lớn, nên cần L lớn để nắm bắt được nhiều thông
tin hơn Con ở giai đoạn En_ 5 và En_ 6 thì kích thước của các bản đồđặc trưng sẽ rất nhỏ, nên không phải downpsample các bản đồ đặc trưng
nữa để tránh mất mát đặc trưng ngữ nghĩa của các bản đồ đặc trưng này.
e Phần giải mã gồm các giai đoạn De_5, De_4, De_ 3, De_ 2,De_ l1có
cau trúc tương tự như phần đối xứng ở giai đoạn mã hóa Giai đoạn De_ 5cũng được thay các phép toán pooling và upsampling bên trong khối RSU
thành phép dilated Conv tương tự En_ 5 và En_ 6 Ngoài ra, ở mỗi giai
đoạn giải mã còn có thêm phép concatenation các bản đồ đặc trưng từ giai
đoạn trước và từ phần mã hóa đối xứng để giữ lại được nhiều thông tin
hơn.
e Phần mô đun tổng hợp hình ảnh vùng nổi bậc Phần này tạo ra sáu ảnh
vùng nổi bậc (See, ORS An từ các giai đoạn En_ 6,
De_5,De_ 4,De_ 3,De_ 2,De_ 1 bằng phép Conv với kernel_ size là
3x3 và một hàm sigmoid Sau đó, sáu ảnh này sẽ được kết hợp lại bằng
phép concatenation và theo sau là một phép Conv với kernel_ size là 1x1
và một hàm sigmoid để tạo thành ảnh dự đoán vùng nổi bật cuối cùng
Sruse.
14
Trang 332.3 Truy van ảnh
Trong những năm gần đây, cùng với sự phát triển của internet và thiết bị
di động thông minh, kho dữ liệu người dùng được chia sẻ và lưu trữ ngày càng nhiều Nguồn dữ liệu đa phương tiện đặc biệt là hình ảnh ngày càng trở nên phức tạp Công việc tìm kiếm và khai thác hình ảnh có liên quan từ kho dữ liệu
khổng lồ này là một công việc khó khăn nhưng thu hút được nhiều sự chú ý từ
cộng đồng đa phương tiện và thị giác máy tính Yêu cầu của truy van hình ảnh
là tìm kiếm và sắp xếp các hình ảnh theo mối quan hệ sao cho tương ứng với
truy vấn của người dùng Thứ tự kết quả trả về được sử dụng để đánh giá hiệu
năng của hệ thống Hình 2.4 mô tả quá trình truy vấn ảnh
query image ( \ retrieved images
( feature `N
extraction
(indexing) /
Hình 2.4: Mô hình truy van ảnh
Hầu hết các hệ thống tìm kiếm hình ảnh trước đây vận hành trên cơ sở
phương pháp tìm kiếm văn bản dựa vào hệ thống chú thích và siêu văn bản Tuy
nhiên phương pháp này phụ thuộc vào trực quan của người gan nhãn hoặc hệ thống chú thích ảnh tự động Sự khác biệt trong nhận thức qua của con người
có thể làm sai lệch kết quả truy vấn Truy xuất hình ảnh dựa trên nội dung
được đề xuất dựa trên phân tích trực quan các nội dung là một phần của hình
ảnh truy vấn để có thể khắc phục những vấn đề nêu trên Việc truy vấn hình
ảnh dựa trên nội dung trải qua hai quá trình: trích xuất đặc trưng ảnh sau đó
đo độ tương đồng của ảnh Hình ảnh trong bài toán truy vấn ảnh dựa trên nội
dung được biểu diễn bằng tập các đặc trưng cấp thấp (đặc trưng cục bộ) và đặc
15
Trang 34trung cấp cao (rút trích từ các mô hình mạng học sâu) Dây được gọi là mã hóađặc trưng, hình ảnh từ không gian RGB được mã hóa thành vector n chiều.
2.3.1 Trích xuất đặc trưng cấp thấp
Trong hệ thống truy vấn hình ảnh dựa trên nội dung, nội dung trực quan của
hình ảnh được trích xuất và lưu trữ dưới dạng vector đặc trưng đa chiều, một
số đặc trưng cục bộ được rút trích tự động như màu sắc, kết cấu, hình dạng.Tuy nhiên những đặc trưng này không đảm bảo tính bền vững trước các hiện
tượng bất thường khác nhau như thay đổi kích thước, chênh lệch ánh sáng, xoay
và thay đổi góc nhìn Vì vậy mô hình túi từ (bag of visual word) được đề xuất
để giải quyết vấn đề này bằng cách lượng tử hóa các bộ mô tả thành các "từ
trực quan" Trong đó bộ mô tả SIFT (Scale-Invariant Feature Transform)[9| va
SURF (Speeded Up Robust Features)[1] dung phổ biến.
Đặc trưng SIFT được tác giả phát triển như một phan kế tiếp của công việc
trước đây của ông về phát hiện đặc trưng bền vững Quá trình tính toán này
được thực hiện trên một mức tỉ lệ (scale) và góc quay (rotation) đã được chuẩn
hóa từ bước phát hiện đặc trưng Mỗi đặc trưng được biểu diễn bằng một vector
128 chiều Bay và các cộng sự đã giới thiệu thuật toán SURF như một bộ mô tả
phát hiện điểm bất biến với phép quay và phép tỷ lệ Thuật toán SURF tương
tự như thuật toán SIFT nhưng đơn giản hon và nhanh hơn trong việc tính toán
và so khớp SURF phụ thuộc vào ma tran Hessian để tìm được điểm keypoint
và sử dụng phân phối Haar tại các vùng lân cận điểm keypoint Bộ mô tả cuối
cùng thu được bằng cách nối các vectơ đặc trưng của tất cả các vùng con và
được biểu diễn bằng 64 phan tử Dac trưng SIFT va SURF chứng minh tinh
hiệu qua và sự mạnh mẽ trong việc bất biến với phép quay, phép ty lệ và thay
đổi góc chiếu sáng.
2.3.2 Trích xuất đặc trưng cấp cao
Trong phần trên, chúng tôi vừa giới thiệu hướng tiếp cận trích xuất đặc trưng
cục bộ để sử dụng cho bài toán truy vấn nội dung ảnh Gần đây, với sự phát triển mạnh mẽ của các thuật toán máy học, mạng thần kinh (neural network) được nghiên cứu và phát triển mạnh mẽ Với kiến trúc bao gồm nhiều lớp ẩn, các kiến trúc mạng học sâu cho phép một hệ thống có thể trích xuất đặc trưng
trực tiếp từ hình ảnh đầu vào sang đặc trưng đầu ra mong muốn mà không cần
16
Trang 35sử dụng các đặc trưng đặc biệt được thiết kế bởi chuyên gia Phương pháp nàycòn cho phép rút trích đặc trưng ở nhiều cấp độ khác nhau từ các lớp trong
mạng CNN Do đó, các nhà nghiên cứu đã sử dụng các mô hình CNN đã được
huấn luyện sẵn để sử dụng cho bài toán truy vấn ảnh Phương pháp này cũng
được chúng tôi sử dụng trong đề tài của mình nhằm giải quyết mô hình truyvan ảnh nghệ thuật
2.3.3 Độ đo tương đồng
Mục tiêu của một hệ thống truy vấn hình ảnh là tìm kiếm và truy xuất
một cách hiệu quả hình ảnh từ tập dữ liệu mang nội dung tương tự với ảnh
người dùng truy vấn Vì thế, việc lựa chọn độ đo khoảng cách sao phù hợp làmột nhiệm vu vô cùng quan trọng Do sự tương đồng là quá trình tìm kiếm sự
giống/khác nhau giữa hình ảnh trong tập dữ liệu và hình ảnh truy vấn Danh
sách hình ảnh sau đó được sắp xếp lại theo thứ tự tăng dần khoảng cách từ hìnhảnh truy vấn đến hình ảnh được truy xuất từ tập dữ liệu Việc lựa chọn một
phép đo cụ thể có thể ảnh hưởng đáng kể đến hiệu suất truy xuất mô hình tùy thuộc vào đặc điểm và nhu cầu cụ thể của ứng dụng truy xuất Một số độ đo
thường dùng: độ đo Minkowski, độ đo Manhattan, độ do Euclide.
2.4 Hướng tiếp cận bài toán chuyển đổi phong
cách ảnh
Nhờ sự phát triển của mạng nơ-ron, Gatys [2] đã nghiên cứu thành công phương pháp sử dụng mang CNN để tái tạo phong cách hội họa nổi tiếng từ
những hình ảnh tự nhiên Công trình nghiên cứu của Gatys đã thu hút sự chú ý
từ cả giới học thuật và ngành công nghiệp Trong học thuật, là nguồn cảm hứng
cho rất nhiều nghiên cứu tiếp theo để cải tiến hoặc mở rộng thuật toán NST.
Một số ứng dụng công nghiệp được nhiều người biết tới như Ostagram, Prisma
Tiếp nối sự thành công của Gatys, nhiều nhà nghiên cứu đã bắt tay vào cải
tiến và đề ra những phương pháp tiếp cận mới cho lĩnh vực tự động chuyển đổi phong cách ảnh Để tự chuyển đổi phong cách ảnh, hai vấn đề được quan tâm
nhất là cách tạo mô hình và cách trích xuất phong cách từ một ảnh nghệ thuật.Dựa trên các thuật toán tái tạo hình ảnh sử dung CNN, khóa luận tiến hànhkhảo sát một số kỹ thuật được dùng trong bài toán NST hiện nay
17
Trang 362.4.1 Xây dựng mô hình
Ý tưởng phân chia hướng tiếp cận theo mô hình trình bày dưới đây được
tham khảo trong bài báo "Neural Style Transfer: A Review" [5] Hình 2.5 tóm
tắt các hướng tiếp cận bài toán
Tối Lill hoa Tối ưu hóa
hình ảnh trực mô hình
Một Nhiều Phong cách
phong cách phong cách tùy ý
Hình 2.5: Hướng tiếp cận bài toán Neural Style Transfer
Tối ưu hóa hình ảnh trực tiếp Công việc này bắt nguồn từ ý tưởng cơ bản nhất, sử dụng kiến trúc mạng VGG để trích xuất đặc trưng từ hình ảnh nội
dung và ảnh phong cách, sau đó tối ưu hình ảnh bằng cách lặp đi lặp lại (thường
khởi tạo bằng một ảnh nhiễu) cho đến khi đạt được kết quả mong muốn Quá trình tối ưu hóa lặp đi lặp lại dựa trên gradient descent trong không gian ảnh.
Do đó, quá trình này tốn quá nhiều thời gian, đặc biệt đối với ảnh lớn
Tối ưu hóa mô hình Việc lặp đi lặp lại trong quá trình tối ưu hóa hình
ảnh dẫn đến gánh nặng về thời gian và chi phí Tối ưu hóa mô hình đề xuất đào
tạo một mô hình mạng được huyén luyện từ trước, nhằm đẩy gánh nặng tính toán qua cho quá trình đào tạo mô hình Hướng tiếp cận này cải thiện đáng kể
thời gian tái tạo hình ảnh Việc tối ưu hóa mô hình bao gồm nhiều hướng tiếp
cận nhỏ: một mô hình - một phong cách, một môt hình - nhiều phong cách vàmột mô hình - phong cách bất kỳ
e Một mô hình - một phong cách (Per-Style-Per-Model (PSPM)):
Đào tạo trước một mô hình theo ảnh phong cách cho trước và tạo ra ảnh kết quả qua một lần lặp duy nhất Mô hình này nhìn chung về cơ bản đã
đáp ứng được yêu cầu về vấn đề thời gian tái tạo ảnh
18
Trang 37e Một mô hình - nhiều phong cách (Multi-Style-Per-Model (MSPM)):
Mặc dù hướng tiếp cận PSPM ở trên có thể tạo ra hình ảnh nhanh hơn
nhiều lần so với các phương pháp tối ưu hóa trực tiếp hình ảnh trước đây
thế nhưng với mỗi mô hình chỉ được sử dụng cho một phong cách cụ thể.
Trong khi đó, có khá nhiều hình ảnh mang phong cách, nét vẽ tương tựnhau, chỉ khác nhau ở màu sắc Về trực giác, công việc đào tạo mô hình
cho từng cá thể là tốn thời gian và thiếu sự linh động Do đó, mạng MSPM
được đề xuất nhằm cải thiện tính linh hoạt này MSPM được cải tiến theohai hướng: một là giảm số lượng trọng số của mỗi hình ảnh phong cách,
hai là kết hợp ảnh phong cách và ảnh nội dung làm đầu vào của bài toán.
Tuy nhiên số lượng tập ảnh phong cách "Style bank" vẫn còn bị giới hạn
e Một mô hình - phong cách tùy ý (Arbztraru-Stule-Per- Model
(ASPM)): ASPM hướng tới việc xây dựng một mô hình cho mọi anh tùy
ý, mang lại hiệu quả cao, tiết kiệm thời gian, không gian lữu trữ mô hình
Hướng tiếp cận này hiện nay đang thu hút nhiều sự quan tâm, nhiều ý
tưởng cải tiến để cho ra hình ảnh tốt hơn Đây cũng là hướng tiếp cận được khóa luận sử dụng để giải quyết bài toán chuyển đổi phong cách ảnh
trong mô hình đề xuất
2.4.2 Trích xuất phong cách ảnh nghệ thuật
Công việc trích xuất phong cách ảnh bao gồm hai vấn đề con: biểu diễn
phong cách và tổng hợp phong cách Trước khi đi vào mô tả các phương pháp
tổng hợp phong cách ảnh, ta cần hiểu phong cách ảnh là gì.
Một cách tổng quát, phong cách ảnh bao gồm những thứ tạo nên hiệu ứng
thị giác cho con người như bố cục ảnh (kích thước từng chỉ tiết), gam màu
(nóng, lạnh, trung tính), chất liệu (ví dụ vẽ bằng màu nước hay màu chì, vẽ
trên giấy hay trên gõ), thể loại (cổ điển, lãng mạn hay kinh di), Mặc dù bằng
mắt thường con người có thể dễ dàng nhận ra được phong cách ảnh Thế nhưng
đây lại là một vấn đề khó cho xử lý ảnh và thị giác máy tính Xét trong phạm
vi kiến thức cần để giải quyết bài toán NST, người ta coi phong cách ảnh như
họa tiết của hình ảnh (texture) Họa tiết của một hình ảnh thể hiện nét vẽ, hình
dạng hình học, hoa văn và sự chuyển đổi giữa các màu sắc
Sau khi hiểu được cách biểu diễn phong cách ảnh, vấn đề tiếp theo là làm
thé nào để xây dựng lại chi tiết họa tiết mong muốn nhưng vẫn bảo toàn nội
dung hình ảnh Các họa tiết có thể lấy từ nhiều nguồn khác nhau như vẽ tay
19