Khóa luận tốt nghiệp Khoa học máy tính: Chuyển đổi phong cách ảnh theo chủ thể và nền

Kết hợp nội dung của ảnh Brad Pittvới phong cách từ bức họa của họa sĩ Felix Vallotton sử dụng thuật toán chuyển đổi phong cách ảnh.... Kết hợp nội dung của ảnh Brad Pitt với phong cách

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

DANG QUOC QUY

TRAN VU HOANG TU

KHOA LUAN TOT NGHIEP

CHUYEN DOI PHONG CACH ANH

THEO CHU THE VA NEN

CU NHAN NGANH KHOA HOC MAY TINH

TP HO CHÍ MINH, 2021

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

DANG QUOC QUY - 17520960

TRAN VŨ HOANG TÚ — 17521209

KHÓA LUẬN TÓT NGHIỆP

CHUYEN DOI PHONG CÁCH ANH

THEO CHU THE VA NEN

CU NHAN NGANH KHOA HOC MAY TINH

GIANG VIEN HUONG DAN

TS NGUYEN VINH TIEP

TP HO CHÍ MINH, 2021

Trang 3

DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số ngày của Hiệu trưởng Trường Dại học Công nghệ Thông tin.

A—ẰẶẰẶ een e bent n eben tent ees ~ Chủ tịch.

Qe ccc cece tend teen dt enes — Thu ký.

J <A ie «ai i i - Ủy VIÊn.

4 SO đế, se e À | — Ủy VIÊn.

Trang 4

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH CONG HOA XA HOI CHU NGHIA VIET NAM

TRUONG DAI HOC Độc Lap - Tự Do - Hanh Phúc

CÔNG NGHỆ THÔNG TIN

TP HCM, ngày tháng năm

NHAN XÉT KHÓA LUẬN TOT NGHIỆP

(CÁN BỘ HƯỚNG DAN)

Tên khóa luận:

CHUYEN DOI PHONG CÁCH ANH THEO CHU THẺ VA NEN

BACKGROUND-FOREGROUND AWARED IMAGE STYLE TRANSFER

Nhóm SV thực hiện: Cán bộ hướng dẫn:

Đặng Quốc Quy - 17520960 TS Nguyễn Vinh Tiệp

Trần Vũ Hoàng Tú - 17521209

Đánh giá Khóa luận

1 Vé cuôn báo cáo:

Số trang Số chương

SO bang sô liệu Sô hình vẽ

Sô tài liệu tham khảo Sản phâm Một sô nhận xét vê hình thức cuôn báo cáo:

Trang 6

ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc

TP HCM, ngay thang ndm

NHAN XÉT KHÓA LUẬN TOT NGHIỆP

(CAN BỘ PHAN BIEN)

Tén khoa luan:

CHUYEN DOI PHONG CACH ANH THEO CHU THE VA NEN

Nhóm SV thực hiện: Can bộ phản biên:

Đặng Quốc Quy - 17520960 TS Lê Minh Hưng

Trần Vũ Hoàng Tú - 17521209

Đánh giá Khóa luận

1 Vé cuôn báo cáo:

Số trang Số chương

SO bang sô liệu Sô hình vẽ

Sô tài liệu tham khảo Sản phâm Một sô nhận xét vê hình thức cuôn báo cáo:

Trang 7

3 Về chương trình ứng dụng:

Người nhận xét

(Ky tên và ghi rõ họ tên)

Trang 8

LỜI CẢM ƠN

"Diéu duy nhất quan trọng trong thế giới nay là mối quan hệ Moi vatton tại trong vt tru nay bởi vi chúng có quan hệ uới nhau Không cóđiều gi tồn tại một cách độc lập Chúng ta cũng thôi đừng gid bộ minh

là những cá nhân có thể tồn tại một mành " - Margaret Wheatley

Thật vậy, chúng tôi đã không thể hoàn thành được khóa luận này nếu

như không có sự giúp đỡ từ những mối quan hệ xung quanh chúng

tôi Những kiến thức, chia sẻ, sự quan tâm to lớn về mặt tri thức lẫn

tinh thần từ mọi người xung quanh giúp chúng tôi phát triển hơn trong quá trình tìm kiếm, định hướng và phát triển khóa luận cũng

như chính bản thân mình.

Lời đầu tiên, chúng tôi xin chân thành cảm ơn thầy TS Nguyễn VinhTiệp đã hướng dẫn chúng tôi ngay từ những ngày đầu làm nghiêncứu Thầy đã tận tình cố vấn, chia sẻ, kiên nhẫn giảng dạy trong suốtquá trình hoàn thành khóa luận.

Cảm ơn thầy cô trong trường và đặc biệt là các thầy cô trong khoa

Khoa học máy tính đã tận tình giảng dạy, trang bị kiến thức bổ ích,

cần thiết cho chúng tôi Bên cạnh đó, chúng tôi cũng xin gửi lời cam

ơn đến các anh, các bạn trong MMLab đã tạo điều kiện thuận lợi,đóng góp ý kiến, giúp đỡ chúng tôi trong suốt quá trình học và làm

đề tài để bài khóa luận này từng bước hoàn thiện hơn.

Cuối cùng, chúng con xin cảm ơn cha mẹ, gia đình đã là động lực,nguồn động viên giúp con hoàn thành tốt đề tài này

Trang 9

ĐẠI HỌC QUỐC GIA TP HO CHÍ MINH CONG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc

ĐĂNG KÝ ĐÈ TÀI KHÓA LUẬN TÓT NGHIỆP

TÊN DE TÀI: CHUYEN DOI PHONG CÁCH ANH THEO CHU THE VÀ NEN

TEN DE TAI TIENG ANH:

Cán bộ hướng dẫn: TS Nguyễn Vinh Tiệp

Thời gian thực hiện: Từ ngày 07/09/2020 đến ngày 21/01/2021.

Sinh viên thực hiện:

Đặng Quốc Quy - 17520960 Lớp: KHCL2017.2

Email: 17520960@ gm.uit.edu.vn Dién thoai: 0975 303 723

Trần Vũ Hoang Tú - 17521209 Lớp: KHCL2017.2

Email: 17521209 @gm.uit.edu.vn Dién thoai: 0978 670 948

Nội dung đề tài:

- Mục tiêu: Đề xuất mô hình chuyên đổi phong cách ảnh (image style transfer) bang cách

khai thác thông tin đối tượng chính, hay chủ thé (foreground) và vùng nền, hay đối tượng phụ (background) của ảnh Phong cach của ảnh nghệ thuật sẽ được chuyên đôi tương ứng sang ảnh thật dựa trên sự tương đồng về nội dung Trong đó, phong cách của các đối trong

chính sẽ được chuyên đôi tương ứng với nhau và tương tự với đối tượng phụ, bằng cách

đề xuất ảnh phong cách phù hợp với ảnh nội dung được đưa vào và chuyên đổi phong cách cho từng đối tượng (nền và chủ thé) trong ảnh nội dung.

Trang 10

Thu thập tập dữ liệu về ảnh nghệ thuật của các họa sĩ nồi tiếng ở Việt Nam.

Xây dựng thuật toán tìm ảnh nghệ thuật phù hợp với ảnh thực bằng thuật toán truy

van ảnh

Tach đối tượng nền và chủ thé sử dụng thuật toán Saliency Detection.

Kết hợp ảnh đầu vào và ảnh phong cách bằng Style Transfer theo từng phần đối

tượng chính và đối tượng nền.

Xây dựng ứng dụng minh họa và khảo sát đánh giá của người dùng.

- Kết quả mong đợi:

Tập dữ liệu về ảnh về nghệ thuật của các họa sĩ nồi tiếng ở Việt Nam đủ lớn và các

ảnh có chất lượng cao.

Ung dụng minh họa thuật toán chuyên đồi phong cách ảnh.

Kết quả khảo sát được đánh giá tốt.

Trang 11

Kế hoạch thực hiện:

- Giai đoạn 1 (9/2020 - 10/2020): Tìm hiểu các phương pháp cho từng bài toán: truy

vân ảnh, tách chủ thê và nên, hoán đôi phong cách ảnh; tìm kiêm các công trình

nghiên cứu liên quan Chạy thử các phương pháp tìm ra điểm tốt và chưa tốt.

- Giai đoạn 2 (10/2020 - 12/2020): Nghiên cứu, cải tiến các phương pháp được chon

cho từng bài toán Xây dựng ứng dụng minh họa.

- Giai đoạn 3 (12/2020 - 1/2020): Chỉnh sửa, hoàn thiện, đóng gói đề tài khóa luận.

Khảo sát, đánh giá, viết báo cáo chỉ tiết.

Phân công công việc:

Đặng Quốc Quy Tìm hiểu đề tài

Nghiên cứu các thuật toán truy vấn ảnh và Saliency

Detection

Đánh giá và cải thiện mô hình

Cập nhật, liên kết các phân đoạn bài toán Xây dựng hệ thống ứng dụng hoàn chỉnh

Việt báo cáo

Trang 12

- Việt báo cáo

Xác nhận của CBHD

(Ký tên và ghi rõ họ tên)

Nguyễn Vinh Tiệp

Trang 13

Mục lục

1 Tổng quan

1.1 1.2 1.3

1.4 1.5

Giới thiệu đề tài caThách thức, khó khăn của bài toán - Mục tiêu của khóa luận ẶẶ.Ặ Ặ.ẶẶ

2.4.2 Trích xuất phong cách ảnh nghệ thuật

Phương pháp Multimodal Style Transfer dựa trên Graph Cut 20

Trang 14

3 Mô hình đề xuất

3.1 Xác định chủ thể và nền bằng thuật toán tìm vùng nổi bật

3.2 Truy van ảnh dựa trên nội dung

3.3 Chuyển đổi phong cách ảnh

4.21 Xây dựng ứng dung cho Server

4.2.2 Xây dựng ứng dung cho Clent

4.3 Kết quả thực nghiệm trên ứng dụng

-4.4 Đánh giá ứng dụng So

5 Kết luận

5.1 Kết quả đạt được 2 ee

5.2 Hạn chế của khóa luận

5.3 Một số hướng phát triển của đề tài

Tài liệu tham khảo

ii

23 24 26 28 28 32

36 36

36 37 38 38 39

42 AT

51 51

52 SỐ

55

Trang 15

Chuyển đổi phong cách ảnh Kết hợp nội dung của ảnh Brad Pitt

với phong cách từ bức họa của họa sĩ Felix Vallotton sử dụng

thuật toán chuyển đổi phong cách ảnh 3

Thách thức về sự tương quan giữa ảnh nội dung và ảnh phong

cách Với cùng một bức ảnh nội dung là ảnh thảo nguyên, (a)

chọn ảnh phong cách là một bức tranh chân dung của một cô gái

- khác chủ đề với ảnh nội dung; (b) chọn ảnh phong cách là bức

tranh đồng cỏ - cùng chủ đề với ảnh nội dung Có thể thấy (b)

cho ảnh kết quả tốt hơn sau khi chuyển đổi phong cách Ảnh kết

quả của (a) xuất hiện những họa tiết không mong muốn làm mất

đi nội dung của ảnh thảo nguyên 4

Ap dụng phong cách cho từng phạm vi ngữ nghĩa 5

Kiến trúc mang VGG19 2 2 eee 10Cấu tao của khối Khối ReSidual U-block (RSU)[12] 12

phần nền (màu den) ee 25

Ảnh chủ thể được tách ra từ ảnh nội dung 25

Ảnh nền được tách ra từ ảnh nội dung 26

Danh sách những ảnh phong cách phù hợp với ảnh chủ thể (Hình

11

Trang 16

3.7 Danh sách những ảnh phong cách phù hợp với ảnh nền (Hình 3.5) 28

3.8 Trực quan hóa đặc trưng phong cách theo cụm sử dung t-SNB[10].

Với mỗi cặp ảnh phong cách - ảnh trực quan đữ liệu, tác giả đặt

K=3 và nhãn của đặc trưng phong cách trùng với nhãn của cụm

chứa đặc trưng do [14] 0 Ặ c Q So

3.9 So khớp dựa trên biểu đồ Hình ảnh minh họa biểu đồ liên quan

giữa đặc trưng nội dung và trung tâm cụm Đặc trưng nội dung

được so khớp với trung tâm cụm ở cấp độ pixel [14]

3.10 Trực quan hóa so khớp phong cách Ỏ đây, đặc trưng phong cách

được phân chia thành K=2 tập con để dễ hình dung [14].

3.11 Ảnh chủ thể nghệ thuật (với phần nền được tô đen) ở hình thứ 3

(từ trái sang) của Hình 3.6 00-0000.

3.12 Ảnh đã chuyển đổi phong cách của ảnh chủ thể nội dung (Hình

3.4) và ảnh chủ thể nghệ thuật (Hình 3.11)

3.13 Anh nền nghệ thuật (phần chủ thể được tô đen) ở hình thứ 1 (từ

trái sang) của Hình 3.7 Ặ Q Q Q Ủ

3.14 Ảnh đã chuyển đổi phong cách của ảnh nền nội dung (Hình 3.5)

và ảnh nền nghệ thuật (Hình

3.13) -3.15 Ảnh sau khi dùng ảnh mặt nạ (Hình 3.3) để gộp Hình 3.12 và

Hình 3.14 ee

3.16 Anh két qua khi dùng Bilateral Filter để làm mịn ảnh 3.15

4.1 Quá trình trích xuất đặc trưng ngữ nghĩa từ ảnh nghệ thuật

4.2 Quá trình xử lý chính 6 Server co.

4.3 Thiết kế của ứng dụng trên điện thoại thông minh

4.4 Màn hình chính Màn hình khi mới mở ứng dụng (bên trái) và

màn hình hiện ra hai lựa chon (On galallery và On camera) khi

ấn vào dấu (+), tương ứng với hành động truy cập vào thư viện

để lấy ảnh và chụp một ảnh mới (bên phải) .

4.5 Quá trình tải ảnh lên và hiển thị tập ảnh được đề xuất

4.6 Chọn ảnh nghệ thuật Người dùng cần chọn 1 ảnh cho phần nền

và 1 ảnh cho phần chủ thể, nếu thiếu 1 trong 2, hệ thống sẽ hiển

thi nhắc nhở chọn ảnh cho phần còn thiếu

34

44

4.7 Quá trình thực hiện chuyển đổi phong cách và hiển thị ảnh kết quả 45

4.8 Giao diện khi ấn giữ vào ảnh kết quả (hình trái) và giao diện khi

ấn vào nút Save/Share (hình phải)

4.9 Giao diện khi lưu/chia sẻ ảnh thành công

1V

Trang 17

Kết quả khảo sát về tính thẩm mỹ của ảnh kết quả 50

Ứng dụng đã có mặt trên Google Play Store (được khoanh đỏ)

với mã QR code của ứng dụng cố 52

Trang 18

Kết qua so sánh các mang CNN phổ biến cho bài toán phân lớp[6] 27

Chỉ tiết số lượng từng chủ đề trong tập dữ liệu ảnh nghệ thuật

thu thập dude Q2 37

Danh sách các định tuyến của Server 39Danh sách các hành động ở các khu vực trong ứng dung Client 41

Thời gian thực hiện trung bình của các thao tác trên 10 ảnh có

kích thước 512x512 pixels (không kể thời gian giao tiếp giữa Client

và Server thông qua mang Internet) 48

vì

Trang 19

2 -<

TOM TAT

Thị giác máy tinh (Computer Vision) hiện nay dang là một trong

những lĩnh vực đầy tiềm năng và thu hút được nhiều sự quan tâm Sự

phát triển của lĩnh vực này có nguồn gốc từ việc sao chép khả năng thị giác của con người như nhận diện, hiểu biết qua hình ảnh Chuyển đổi phong cách (Style Transfer) là một trong những nghiên cứu nổi bật của Thị giác máy tính Bài toán có nhiệm vụ chuyển phong cách

từ ảnh này sang ảnh khác Với sự giúp đỡ của mạng nơ-ron nhân tao

và bộ xử lý đồ họa GPU, bài toán dần trở nên dễ dàng hơn Chuyển đổi phong cách được ứng dụng trong nhiều lĩnh vực như xử lý đồ họa,

chỉnh sửa anh, video, tạo cảnh trong game, hoạt hình, tao font chi

Đề tài tập trung nghiên cứu, thử nghiệm đề xuất mô hình chuyển đổi phong cách ảnh Đầu vào là một ảnh chụp với phần chủ thể nổi bật

so với phần nền Dựa vào các đặc trưng của ảnh đầu vào để gợi ý những ảnh hội họa có đặc trưng phù hợp cho phần chủ thể và phần

nền Điều này giúp người dùng có trải nghiệm tốt hơn, thú vị hơn vì

chỉ cần đưa vào một ảnh và chọn hai ảnh để chuyển đổi phong cách

với ảnh đầu vào này Đầu ra là bức ảnh mang phong cách hội họa củahai ảnh được người dùng lựa chọn trước đó.

Trong quá trình thực hiện, khóa luận đã khảo sát một số phương pháp

như: sử dụng mạng VGG19 để trích xuất đặc trưng từ ảnh đầu vào và

ảnh phong cách; dựa vào những đặc trưng của ảnh đầu vào, xây dựng

mô hình đề xuất ảnh nghệ thuật phù hợp với đặc trưng từng phần

chủ thể và nền của ảnh đó; mạng U2Net được ứng dụng cho việc tách chủ thể và nền của hình ảnh; chuyển đổi phong cách ảnh bằng thuật

toán "Multimodal Style Transfer dựa trên Graph Cuts"(ICCV2019).

Bên cạnh đó, chúng tôi kết hợp một số phương pháp chỉnh sửa ảnh

để cho ra ảnh kết quả tốt nhất có thể Sau khi hoàn thành mô hình

đề xuất, khóa luận đã xây dựng ứng dụng tương tác với người dùng

trên điện thoại thông minh để minh họa được trực quan.

Trang 20

Chương 1

Tổng quan

1.1 Giới thiệu đề tài

Nghệ thuật xuất hiện và phát triển từng ngày cùng với xã hội loài người.

Nghệ thuật phan ánh cuộc sống, thế giới thông qua các hình tượng trong tư

duy, trí tưởng tượng của con người Hội họa là một trong những hình thức phổ biến nhất của nghệ thuật Ngôn ngữ bằng tranh ảnh được thể hiện mạnh mẽ và

phong phú Trải qua hàng ngàn năm, người ta vẫn bị thu hút bởi phong cách vẽ

của những họa sĩ như Pablo Picasso, Vincent Van Gogh, Leonardo da Vinci,

Trong quá khứ, việc vẽ lại tranh theo một phong cách cụ thể nào đó được thực

hiện từ những người họa sĩ chuyên nghiệp và phải tốn rất nhiều thời gian, chỉ

phí Vào khoảng giữa những năm 1990, lý thuyết nghệ thuật đã thu hút các

nhà nghiên cứu khoa học máy tính Từ đó, kỹ thuật chuyển đổi phong cách ảnh

(style transfer) được đề xuất

Neural Style Transfer (NST) là một bài toán mới trong lĩnh vực Trí tuệ nhân

tạo Nhiệm vụ chính của bài toán là tạo ra hình ảnh mới bằng cách kết hợp nội

dung của một ảnh (content image) và phong cách của một ảnh (style image)

khác Sự kết hợp giữa nội dung và phong cách này nếu được lựa chọn một cách

phù hợp có thể tạo ra một bức ảnh nghệ thuật đặc sắc Nhờ sự xuất hiện của

thuật toán này, việc tạo ra những bức tranh nghệ thuật trở nên dễ dàng hơn.

NST trở nên phổ biến trong những năm gần đây, thu hút được nhiều nhà nghiên

cứu cho ra nhiều thuật toán nổi bật Phạm vi nghiên cứu không chỉ dừng lại

trên hình ảnh mà được mở rộng trên video (được xử lý thời gian thực), văn bản,

âm thanh Trong phạm vi khóa luận chỉ đề cập đến việc thực hiện NST trên

Trang 21

ảnh hai chiều Hình 1.1 là một minh họa cho bài toán NST trên ảnh Đầu vàonhận một ảnh chân dung và một bức họa nghệ thuật Đầu ra sẽ là một tấm ảnh

mang nội dung của ảnh chân dung nhưng được vẽ theo phong cách của bức họa nghệ thuật.

Ảnh nội dung Ảnh phong cách

Hình 1.1: Chuyển đổi phong cách ảnh Kết hợp nội dung của ảnh Brad Pitt với phong cách từ bức họa của họa sĩ Felix Vallotton sử dụng thuật toán chuyển đổi

phong cách ảnh.

1.2 "Thách thức, khó khăn của bài toán

Bài toán chuyển đổi phong cách ảnh đã và đang thu hút được nhiều sự quan

tâm từ các nhà nghiên cứu Hằng năm, ở những hội nghị lớn về thị giác máytính như ICCV, CVPR số lượng bài báo được công bố về đề tài neural styletransfer vẫn chưa dừng lại Tuy nhiên bài toán này còn gặp nhiều thách thức.Dưới đây liệt kê một số thách thức mà chúng tôi nhận được trong quá trình

tìm hiểu các thuật toán chuyển đổi phong cách ảnh.

Sự tương quan giữa ảnh nội dung và ảnh phong cách Việc lựa chọnảnh phong cách tùy ý giúp cho ảnh kết quả nhận được trở nên đa dạng, phongphú hơn và có sự đột phá về nghệ thuật Tuy nhiên, qua quá trình thực nghiệm

với một số phương pháp chuyển đổi phong cách ảnh, chúng tôi nhận thấy kết

quả nhận được sẽ tốt hơn nếu chọn ảnh phong cách là ảnh nghệ thuật có cùngchủ đề với ảnh nội dung Lựa chọn một bức ảnh phong cách không phù hợp sẽdẫn đến ảnh kết quả có những họa tiết không mong muốn hoặc không phù hợpvới ảnh nội dung Hình 1.2 là một ví dụ minh họa.

Trang 22

Hình 1.2: Thách thức về sự tương quan giữa ảnh nội dung va ảnh phong cách.

Với cùng một bức ảnh nội dung là ảnh thảo nguyên, (a) chọn ảnh phong cách

là một bức tranh chân dung của một cô gái - khác chủ đề với ảnh nội dung; (b)chọn ảnh phong cách là bức tranh đồng cỏ - cùng chủ đề với ảnh nội dung Có

thể thấy (b) cho ảnh kết quả tốt hơn sau khi chuyển đổi phong cách Ảnh kết

quả của (a) xuất hiện những họa tiết không mong muốn làm mất đi nội dungcủa ảnh thảo nguyên.

Áp dụng phong cách cho từng phạm vi ngữ nghĩa Các thuật toán

chuyển đổi phong cách ảnh mới hiện nay đã quan tâm đến đặc trưng ngữ nghĩa

của ảnh nội dung và ảnh phong cách Tuy nhiên trong một số trường hợp phạm

vi áp dụng phong cách chưa được như mong muốn Nhìn vào kết quả Hình 1.3

với ảnh nội dung là ảnh thảo nguyên, bằng trực quan có thể thấy ảnh phong

cách có chủ đề gần giống với ảnh nội dung (chủ đề thiên nhiên), vùng nổi bật

của hai bức ảnh này có cùng chủ đề (cái cây) Với hy vọng ảnh kết quả sẽ cócây trên thảo nguyên màu hồng từ từ của ảnh phong cách, các chỉ tiết còn lại

có màu xanh xám giống phần nền của ảnh phong cách Tuy nhiên, ảnh kết quả

chưa được như mong muốn, màu hồng không chỉ tập trung vào cái cây mà nằmrải rác khắp bức tranh

Trang 23

1.3 Mục tiêu của khóa luận

1.3.1 Mục tiêu

Từ những thách thức đã đề cập ở trên, khóa luận hướng đến đề xuất mô

hình chuyển đổi phong cách ảnh (image style transfer) bằng cách khai thác thông tin đối tượng chính, hay chủ thé (foreground) và vùng nền, hay đối tượng phụ (background) của ảnh Phong cách của ảnh nghệ thuật sẽ được chuyển đổi

tương ứng sang ảnh thật dựa trên sự tương đồng về nội dung Trong đó, phong

cách của các đối tượng chính sẽ được chuyển đổi tương ứng với nhau và tương

tự với đối tượng phụ, bằng cách đề xuất ảnh phong cách phù hợp với ảnh nội

dung được đưa vào và chuyển đổi phong cách cho từng đối tượng (nền và chủ thể) trong ảnh nội dung.

Một cách cu thể hóa, bài toán lớn được chia nhỏ thảnh nhiều bài toán thành

e Truy vấn ảnh: dựa vào các đặc trưng sâu của ảnh đầu vào để có thể tìm

ra ảnh phong cách có đặc trưng tương tự, từ đó có thể gợi ý hình ảnh phù

hợp cho người dùng.

Trang 24

e Chuyển đổi phong cách cho từng phần chủ thể và nền:lựa chọn thuật toán

chuyển đổi phong cách đủ tốt, thời gian thực hiện nhanh sẽ phù hợp hơn

với nhu cầu người dùng.

1.3.2 Pham vi

Phạm vi đề tài nghiên cứu của đề tài là thực hiện chuyển đổi phong cách của

ảnh nghệ thuật sang ảnh chụp đời thường Trong đó,

e Bồ cục của ảnh đời thường và nghệ thuật đều có hai đối tượngchủ thể và

nền rõ ràng.

e Ảnh nghệ thuật được lấy từ kho ảnh có sẵn và được hệ thống đề xuất.

1.4 Đóng góp chính của khóa luận

Khóa luận tập trung nghiên cứu, giải quyết các vấn đề xoay quanh bài toán

Neural Style Transfer Trong đó, giải bài toán theo hướng sử dụng đặc trưng sâu

của ảnh đầu vào để đề xuất ảnh phong cách theo từng phần chủ thể và nền Cụ thể, khóa luận đã có những đóng góp chính sau:

Về mặt nghiên cứu, thực nghiệm khóa luận đã:

e Nghiên cứu tổng quan bài toán chuyển đổi phong cách ảnh Tìm hiểu các

hướng tiếp cận tiên tiến cho bài toán

e Dé xuất mô hình chuyển đổi phong cách ảnh đảm bao sự tương quan về

ngữ nghĩa và tương đồng về chủ đề

e Xây dựng tập dữ liệu ảnh nghệ thuật Việt Nam.

Bên cạnh đó, khóa luận cũng đã xây dựng được ứng dụng trên nền tảng thiết

bị di động, xây dựng server xử lý các thao tác từ ảnh được gửi lên.

Trang 25

1.5 Bố cục khóa luận

Câu trúc của khóa luận: gồm có 5 chương chính, tài liệu tham khảo.

Chương 1: Tổng quan.

Chương này bao gồm phần giới thiệu tổng quan đề tài, mục đích, phạm vi

nghiên cứu và những đóng góp của khóa luận.

Chương 2: Các công trình liên quan.

Nội dung chính trong chương này này trình bày một số kiến thức nền tảng

và các nghiên cứu có liên quan đến đề tài

Chương 3: Mô hình đề xuất.

Trong chương này, khóa luận sẽ mô tả chi tiết từng module được sử dụng

để giải quyết bài toán.

Chương 4: Thực nghiệm và đánh giá

Chương này khóa luận trình bày cách để xây dựng một ứng dụng trên điện

thoại thông minh, giới thiệu bộ dữ liệu được sử dụng và phương pháp đánh

giá ứng dụng.

Chương 5: Kết luận.

Nội dung chương này trình bày tóm tắt lại một số nội dung và đóng góp

chính của đề tài trong suốt quá trình nghiên cứu; ưu và khuyết điểm của phương pháp đề xuất Bên cạnh đó, gợi mở hướng phát triển trong tương

lai.

Trang 26

Chương 2

Các công trình liên quan

Trong chương này, chúng tôi trình bày một số kiến thức cơ bản và hướng

tiếp cận chính của những bài toán nhỏ cần thiết để phục vụ cho bài toán chuyển đổi phong cách ảnh dựa trên chủ thể và nền Phần 2.1 trình bày ý tưởng, kiến

trúc mạng VGG19 Day là kiến trúc mạng được sử dụng trong việc rút trích đặctrưng ảnh dùng cho hai bài toán truy vấn ảnh và style transfer

Trong Phần 2.2 khóa luận trình bay mô hình U?Net U?Net là một kiến trúc

mạng được xây dựng với mục đích xác định vùng nổi bật trong ảnh Trong khóa luận này, U?Net được sử dung để giải quyết bài toán tìm chủ thể của ảnh nội

dung và ảnh nghệ thuật Phần 2.3 là một số hướng tiếp cận chính trong việc

biểu diễn đặc trưng ảnh phục vụ cho bài toán truy vấn ảnh Cấp độ đặc trưng

bao gồm: đặc trưng cấp thấp, đặc trưng cấp cao và đặc trưng cấp ngữ nghĩa

Qua từng cấp độ, khóa luận nêu ra lập luận, ưu khuyết điểm của từng cấp độ

để có cái nhìn tổng quát và lựa chọn phương pháp phù hợp.

Bài toán chuyển đổi phong cách ảnh được trình bày trong Phần 2.4 với từng giai đoạn phát triển của bài toán Hướng phát triển của bài toán được quan tâm

theo hai khía cạnh: xây dựng mô hình và trích xuất đặc trưng phong cách (style

feature) của ảnh nghệ thuật Bên cạnh đó, phần này cũng trình bày phương phápMultimodal Style Transfer dựa trên Graph Cut là phương pháp được nhóm lựa

chọn để giải quyết bài toán chuyển đổi phong cách ảnh.

Trang 27

2.1 Kiến trúc VGG

2.1.1 Giới thiệu

VGGNet là một kiến trúc mạng nơ-ron tích chập (CNN) do các tác giả KarenSimonyan và Andrew Zisserman thuộc đại học Oxford đề xuất năm 2014 qua bài

báo "Very Deep Convolutional Networks for Large-Scale Image Recognition"[13].

Mô hình xuất phat từ ý tưởng nghiên cứu su ảnh hưởng giữa độ sâu của mang

tích chập với độ chính xác của nó trong bài toán nhận dạng hình ảnh trên quy

mô lớn Kiến trúc mạng VGG có nhiều biến thể với độ sâu khác nhau từ 11 đến

19 lớp.

Ý tưởng chính của kiến trúc này là sử dụng filter kích thước nhỏ 3 x 3 thay

cho các filter kích thước lớn 7 x 7 hay 11 x 11 được sử dụng trong các mang CNNtrước đây Nhóm tác giả chứng minh rằng sử dụng nhiều lớp filter 3 x 3 nối tiếp

nhau sẽ có cùng trường tiếp nhận đặc trưng như sử dụng một filter có kích thước

lớn Ví dụ kết hợp 2 lớp Convolution (Conv) 3 x 3 sẽ có cùng trường tiếp nhậnđặc trưng với 1 lớp Conv 5 x5, 3 lớp Conv 3 x 3 sẽ có cùng trường tiếp nhận đặc

trưng với 1 lớp Conv 7 x 7 Thêm vào đó, việc sử dụng liên tiếp các filter nhỏ

giúp giảm tham số tính toán cho mô hình Vi dụ sử dụng 3 filter 3 x 3 sẽ yêucầu 3(3?) = 27 tham số, tiết kiệm tham số hơn so với dùng 1 filter 7 x 7 yêu cầu

7? = 49 tham số Bên cạnh đó, cải tiến quan trọng nhất của VGGNet so với các

mang CNN khác là sự thay đổi thứ tự lớp Conv Các mô hình trước đây đều

sử dụng cặp Conv-pooling liên tiếp nhưng VGG sử dụng các chuỗi Conv-Convtrong suốt mô hình Việc nay làm cho việc tính toán lâu hơn nhưng giữ lai thong

tin nhiều hơn.

2.1.2 Kiến trúc mang

Kiến trúc mạng VGG sử dụng nhiều lớp tích chập có kích thước 3 x 3 để tạo

ra các kiến trúc mạng có độ sâu khác nhau, từ 11 lớp đến 19 lớp VGG hiện nay

có hai phiên bản VGG16 và VGG19 Kiến trúc mạng VGG19 so với VGG16 thiVGG19 có số lớp sâu hơn va cho độ chính xác cao hơn Điều này cho thấy khi

tăng số lớp của mang CNN có khả năng cải thiện độ chính xác Tuy nhiên từ

lớp 19 trở lên, khả năng cải thiện độ chính xác tăng lên không đáng kể nhưng

thời gian huấn luyện mô hình tăng lên nhiều lần do độ sâu của mô hình cànglớn việc lan truyền gradient descent càng khó khăn Vì vậy nhóm quyết định

Trang 28

áp dụng mô hình VGG19 để giải quyết các bài toán liên quan Kiến trúc mạng

VGG19 (Hình 2.1) gồm có 16 lớp Conv, 3 lớp fully connected và cuối cùng làsoftmax.

e Lớp Convolution (Conv): lớp tích chập có nhiệm vụ phát hiện các đặc trưng

có trong ảnh đầu vào Các lớp này hoạt động bằng cách di chuyển các bộ

lọc trên ảnh và thực hiện phép nhân tích chập giữa bộ lọc và từng phầncủa hình ảnh.

e Lớp pooling: thường nằm giữa các lớp Conv, nhận bản đồ đặc trưng và áp

dụng phép pooling lên bản đồ đó Các lớp pooling làm giảm kích thước của

hình ảnh nhưng vẫn giữ được các đặc trưng quan trọng Nhờ đó, các tham

số và phép tính trong mạng cũng được giảm thiểu, giúp cải thiện tính hiệu

quả của mạng Có hai loại pooling thường được sử dụng là max-pooling và

average-pooling.

e Lớp fully connected: lớp kết nối đầy đủ xác định mối quan hệ giữa vị trí

của đối tượng trong ảnh và lớp trả về Kết quả trả về sau cùng là mộtvector có kích thước N, với N là số lớp trong bài toán phân lớp hình ảnh

Mỗi phần tử của vectơ cho biết xác suất để hình ảnh thuộc về một lớp.

224x224x3 224x224x 64 p Convolution + ReLU ố Fully connected + ReLU

nguồn cho một dạng kiến trúc hình mau rất thường gặp ở các mang CNN trở

về sau đó Bắt đầu từ VGG, một hình mẫu chung cho các mang CNN trong cáctác vụ học có giám sát của xử lý ảnh đã bắt đầu hình thành Các mạng trở nênsâu hơn và sử dụng các kiến trúc dang block lặp lại của [Conv liên tiếp + max

pooling].

10

Trang 29

2.2 Kiến trúc mạng UˆNct

2.2.1 Giới thiệu

Trong ngành thị giác máy tính, việc phát hiện và phân đoạn đối tượng thu hút

sự chú ý trong hình ảnh được gọi là phát hiện vùng nổi bật (saliency detection) Hầu hết các mạng phát hiện vùng nổi bật có kiến trúc tương tự nhau và tập

trung vào việc tận dụng những đặc trưng cấp cao được rút trích từ các mạng

xương sống (backbone network) như AlexNet, VGG, RestNet, Tuy nhiên cácmạng xương sống này được xây dựng với nhiệm vụ chính là phân loại hình ảnh,

vì vậy những đặc trưng được trích xuất sẽ mang ngữ nghĩa nhiều hơn là các chi tiết cục bộ hoặc thông tin toàn cục quan trọng trong việc phát hiện vùng

nổi bật Mạng U2Net với kiến trúc đơn giản nhưng đã giải quyết được vấn đề

này Kiến trúc U?Net được giới thiệu bởi nhóm tác giả thuộc dai hoc Alberta,

Canada qua bai báo "U?Net: Going Deeper with Nested U-Structure for Salient

Object Detection" [12] Trang Github của bai báo nay đã nhận được hơn 2,400

sao trong ba ngày kể từ khi mở mã nguồn.

U? Net có kiến trúc đơn giản nhưng chặt chẽ nhờ hai lớp kiến trúc mạng hìnhchữ U lồng nhau Kiến trúc ReSidual U-block (RSU) được đề xuất nhằm nắmbắt thông tin ngữ cảnh tốt hơn trên các hình ảnh tỷ lệ khác nhau RSU sử dụngphép pooling giúp tăng chiều sâu kiến trúc mạng nhưng chi phí tăng khong đáng

kể.

2.2.2 Khối ReSidual U-block (RSU)

Kiến trúc của RSU-L(Cin, M, Cour) với L là số lớp encoder, Cin, Cout là sốinput và output channel, M là số channel bên trong khối RSU Cấu trúc củakhối RSU này gồm 3 phần như Hình 2.2 với cấu tạo và chức năng của từng phần

như sau:

e Một lớp Convolution để trích xuất đặc trưng cục bộ Đầu vào là một ban

đồ đặc trưng (feature map) « (H x W x Cin) và đầu ra là bản đồ đặc trưng

F(x) với kênh (channel) Cout.

e Một cấu trúc mã hóa-giải mã giống Unet với độ cao L để trích xuất và

mã hóa thông tin ngữ cảnh ở nhiều kích tỷ lệ (multi-scale) U(F1(z)) Khi

L càng lớn thì khối RSU càng sâu, có thể trích xuất được nhiều đặc trưng

11

Trang 30

Hình 2.2: Cau tao của khối Khối ReSidual U-block (RSU)[12|.

cục bộ và toàn cục hơn Điều chỉnh tham số L có thể trích xuất đặc trưng

multi-scale từ đặc trưng đầu vào với nhiều kích thước khác nhau

e Một kết nối residual để kết hợp đặc trưng cục bộ và đặc trưng nhiều tỷ lệ

(multi-scale) bằng phép cộng: Ƒ1(z) + U(F(+))

Điểm khác biệt giữa RSU va residual block là RSU thay phép Convolution

thành một kiến trúc nhiều lớp giống Unet và thay đặc trưng gốc (original feature)thành đặc trưng cục bộ Diều này cho phép RSU trích xuất đặc trưng nhiều tỷ

lệ từ mỗi khối residual

12

Trang 31

2.2.3 Kiến trúc mạng U?Net

Mạng U?Net được thế kế với cấu trúc lồng hai phần mã hóa và giải (giốngnhư hình chữ U) vào nhau như Hình 2.3 Chữ U lớn bên ngoài gồn 11 giai đoạn,

trong đó mỗi giai đoạn là một khối ReSidual U-block (RSU) Cấu trúc này cho

phép trích xuất đặc trưng nhiều tỷ lệ (multi-scale) trong các giai đoạn và đặctrưng nhiều cấp (multi-level) giữa các giai đoạn

Downsample x Conv+BN+RELU

Trang 32

Cu thé, mạng U?Net gồm 3 phan:

e Phan mã hóa gồm các giai đoạn En_1, En_ 2, En_ 3, En 4,En 5,

En_ 6, tương ứng với các khối RSU có chiều cao (L) lần lượt là 7,6,5,4,4,4.Riêng đối với giai đoạn En_5 và En_ 6 thì các toán pooling và upsampling

bên trong khối RSU sẽ được thay bằng phép dilated Conv Việc thay đổi tham số chiều cao (L) ở mỗi khối RSU là để phù hợp với kích thước của

các bản đồ đặc trưng của các giai đoạn Ở các giai đoạn đầu thì các bản đồ

đặc trưng sẽ có kích thước lớn, nên cần L lớn để nắm bắt được nhiều thông

tin hơn Con ở giai đoạn En_ 5 và En_ 6 thì kích thước của các bản đồđặc trưng sẽ rất nhỏ, nên không phải downpsample các bản đồ đặc trưng

nữa để tránh mất mát đặc trưng ngữ nghĩa của các bản đồ đặc trưng này.

e Phần giải mã gồm các giai đoạn De_5, De_4, De_ 3, De_ 2,De_ l1có

cau trúc tương tự như phần đối xứng ở giai đoạn mã hóa Giai đoạn De_ 5cũng được thay các phép toán pooling và upsampling bên trong khối RSU

thành phép dilated Conv tương tự En_ 5 và En_ 6 Ngoài ra, ở mỗi giai

đoạn giải mã còn có thêm phép concatenation các bản đồ đặc trưng từ giai

đoạn trước và từ phần mã hóa đối xứng để giữ lại được nhiều thông tin

hơn.

e Phần mô đun tổng hợp hình ảnh vùng nổi bậc Phần này tạo ra sáu ảnh

vùng nổi bậc (See, ORS An từ các giai đoạn En_ 6,

De_5,De_ 4,De_ 3,De_ 2,De_ 1 bằng phép Conv với kernel_ size là

3x3 và một hàm sigmoid Sau đó, sáu ảnh này sẽ được kết hợp lại bằng

phép concatenation và theo sau là một phép Conv với kernel_ size là 1x1

và một hàm sigmoid để tạo thành ảnh dự đoán vùng nổi bật cuối cùng

Sruse.

14

Trang 33

2.3 Truy van ảnh

Trong những năm gần đây, cùng với sự phát triển của internet và thiết bị

di động thông minh, kho dữ liệu người dùng được chia sẻ và lưu trữ ngày càng nhiều Nguồn dữ liệu đa phương tiện đặc biệt là hình ảnh ngày càng trở nên phức tạp Công việc tìm kiếm và khai thác hình ảnh có liên quan từ kho dữ liệu

khổng lồ này là một công việc khó khăn nhưng thu hút được nhiều sự chú ý từ

cộng đồng đa phương tiện và thị giác máy tính Yêu cầu của truy van hình ảnh

là tìm kiếm và sắp xếp các hình ảnh theo mối quan hệ sao cho tương ứng với

truy vấn của người dùng Thứ tự kết quả trả về được sử dụng để đánh giá hiệu

năng của hệ thống Hình 2.4 mô tả quá trình truy vấn ảnh

query image ( \ retrieved images

( feature `N

extraction

(indexing) /

Hình 2.4: Mô hình truy van ảnh

Hầu hết các hệ thống tìm kiếm hình ảnh trước đây vận hành trên cơ sở

phương pháp tìm kiếm văn bản dựa vào hệ thống chú thích và siêu văn bản Tuy

nhiên phương pháp này phụ thuộc vào trực quan của người gan nhãn hoặc hệ thống chú thích ảnh tự động Sự khác biệt trong nhận thức qua của con người

có thể làm sai lệch kết quả truy vấn Truy xuất hình ảnh dựa trên nội dung

được đề xuất dựa trên phân tích trực quan các nội dung là một phần của hình

ảnh truy vấn để có thể khắc phục những vấn đề nêu trên Việc truy vấn hình

ảnh dựa trên nội dung trải qua hai quá trình: trích xuất đặc trưng ảnh sau đó

đo độ tương đồng của ảnh Hình ảnh trong bài toán truy vấn ảnh dựa trên nội

dung được biểu diễn bằng tập các đặc trưng cấp thấp (đặc trưng cục bộ) và đặc

15

Trang 34

trung cấp cao (rút trích từ các mô hình mạng học sâu) Dây được gọi là mã hóađặc trưng, hình ảnh từ không gian RGB được mã hóa thành vector n chiều.

2.3.1 Trích xuất đặc trưng cấp thấp

Trong hệ thống truy vấn hình ảnh dựa trên nội dung, nội dung trực quan của

hình ảnh được trích xuất và lưu trữ dưới dạng vector đặc trưng đa chiều, một

số đặc trưng cục bộ được rút trích tự động như màu sắc, kết cấu, hình dạng.Tuy nhiên những đặc trưng này không đảm bảo tính bền vững trước các hiện

tượng bất thường khác nhau như thay đổi kích thước, chênh lệch ánh sáng, xoay

và thay đổi góc nhìn Vì vậy mô hình túi từ (bag of visual word) được đề xuất

để giải quyết vấn đề này bằng cách lượng tử hóa các bộ mô tả thành các "từ

trực quan" Trong đó bộ mô tả SIFT (Scale-Invariant Feature Transform)[9| va

SURF (Speeded Up Robust Features)[1] dung phổ biến.

Đặc trưng SIFT được tác giả phát triển như một phan kế tiếp của công việc

trước đây của ông về phát hiện đặc trưng bền vững Quá trình tính toán này

được thực hiện trên một mức tỉ lệ (scale) và góc quay (rotation) đã được chuẩn

hóa từ bước phát hiện đặc trưng Mỗi đặc trưng được biểu diễn bằng một vector

128 chiều Bay và các cộng sự đã giới thiệu thuật toán SURF như một bộ mô tả

phát hiện điểm bất biến với phép quay và phép tỷ lệ Thuật toán SURF tương

tự như thuật toán SIFT nhưng đơn giản hon và nhanh hơn trong việc tính toán

và so khớp SURF phụ thuộc vào ma tran Hessian để tìm được điểm keypoint

và sử dụng phân phối Haar tại các vùng lân cận điểm keypoint Bộ mô tả cuối

cùng thu được bằng cách nối các vectơ đặc trưng của tất cả các vùng con và

được biểu diễn bằng 64 phan tử Dac trưng SIFT va SURF chứng minh tinh

hiệu qua và sự mạnh mẽ trong việc bất biến với phép quay, phép ty lệ và thay

đổi góc chiếu sáng.

2.3.2 Trích xuất đặc trưng cấp cao

Trong phần trên, chúng tôi vừa giới thiệu hướng tiếp cận trích xuất đặc trưng

cục bộ để sử dụng cho bài toán truy vấn nội dung ảnh Gần đây, với sự phát triển mạnh mẽ của các thuật toán máy học, mạng thần kinh (neural network) được nghiên cứu và phát triển mạnh mẽ Với kiến trúc bao gồm nhiều lớp ẩn, các kiến trúc mạng học sâu cho phép một hệ thống có thể trích xuất đặc trưng

trực tiếp từ hình ảnh đầu vào sang đặc trưng đầu ra mong muốn mà không cần

16

Trang 35

sử dụng các đặc trưng đặc biệt được thiết kế bởi chuyên gia Phương pháp nàycòn cho phép rút trích đặc trưng ở nhiều cấp độ khác nhau từ các lớp trong

mạng CNN Do đó, các nhà nghiên cứu đã sử dụng các mô hình CNN đã được

huấn luyện sẵn để sử dụng cho bài toán truy vấn ảnh Phương pháp này cũng

được chúng tôi sử dụng trong đề tài của mình nhằm giải quyết mô hình truyvan ảnh nghệ thuật

2.3.3 Độ đo tương đồng

Mục tiêu của một hệ thống truy vấn hình ảnh là tìm kiếm và truy xuất

một cách hiệu quả hình ảnh từ tập dữ liệu mang nội dung tương tự với ảnh

người dùng truy vấn Vì thế, việc lựa chọn độ đo khoảng cách sao phù hợp làmột nhiệm vu vô cùng quan trọng Do sự tương đồng là quá trình tìm kiếm sự

giống/khác nhau giữa hình ảnh trong tập dữ liệu và hình ảnh truy vấn Danh

sách hình ảnh sau đó được sắp xếp lại theo thứ tự tăng dần khoảng cách từ hìnhảnh truy vấn đến hình ảnh được truy xuất từ tập dữ liệu Việc lựa chọn một

phép đo cụ thể có thể ảnh hưởng đáng kể đến hiệu suất truy xuất mô hình tùy thuộc vào đặc điểm và nhu cầu cụ thể của ứng dụng truy xuất Một số độ đo

thường dùng: độ đo Minkowski, độ đo Manhattan, độ do Euclide.

2.4 Hướng tiếp cận bài toán chuyển đổi phong

cách ảnh

Nhờ sự phát triển của mạng nơ-ron, Gatys [2] đã nghiên cứu thành công phương pháp sử dụng mang CNN để tái tạo phong cách hội họa nổi tiếng từ

những hình ảnh tự nhiên Công trình nghiên cứu của Gatys đã thu hút sự chú ý

từ cả giới học thuật và ngành công nghiệp Trong học thuật, là nguồn cảm hứng

cho rất nhiều nghiên cứu tiếp theo để cải tiến hoặc mở rộng thuật toán NST.

Một số ứng dụng công nghiệp được nhiều người biết tới như Ostagram, Prisma

Tiếp nối sự thành công của Gatys, nhiều nhà nghiên cứu đã bắt tay vào cải

tiến và đề ra những phương pháp tiếp cận mới cho lĩnh vực tự động chuyển đổi phong cách ảnh Để tự chuyển đổi phong cách ảnh, hai vấn đề được quan tâm

nhất là cách tạo mô hình và cách trích xuất phong cách từ một ảnh nghệ thuật.Dựa trên các thuật toán tái tạo hình ảnh sử dung CNN, khóa luận tiến hànhkhảo sát một số kỹ thuật được dùng trong bài toán NST hiện nay

17

Trang 36

2.4.1 Xây dựng mô hình

Ý tưởng phân chia hướng tiếp cận theo mô hình trình bày dưới đây được

tham khảo trong bài báo "Neural Style Transfer: A Review" [5] Hình 2.5 tóm

tắt các hướng tiếp cận bài toán

Tối Lill hoa Tối ưu hóa

hình ảnh trực mô hình

Một Nhiều Phong cách

phong cách phong cách tùy ý

Hình 2.5: Hướng tiếp cận bài toán Neural Style Transfer

Tối ưu hóa hình ảnh trực tiếp Công việc này bắt nguồn từ ý tưởng cơ bản nhất, sử dụng kiến trúc mạng VGG để trích xuất đặc trưng từ hình ảnh nội

dung và ảnh phong cách, sau đó tối ưu hình ảnh bằng cách lặp đi lặp lại (thường

khởi tạo bằng một ảnh nhiễu) cho đến khi đạt được kết quả mong muốn Quá trình tối ưu hóa lặp đi lặp lại dựa trên gradient descent trong không gian ảnh.

Do đó, quá trình này tốn quá nhiều thời gian, đặc biệt đối với ảnh lớn

Tối ưu hóa mô hình Việc lặp đi lặp lại trong quá trình tối ưu hóa hình

ảnh dẫn đến gánh nặng về thời gian và chi phí Tối ưu hóa mô hình đề xuất đào

tạo một mô hình mạng được huyén luyện từ trước, nhằm đẩy gánh nặng tính toán qua cho quá trình đào tạo mô hình Hướng tiếp cận này cải thiện đáng kể

thời gian tái tạo hình ảnh Việc tối ưu hóa mô hình bao gồm nhiều hướng tiếp

cận nhỏ: một mô hình - một phong cách, một môt hình - nhiều phong cách vàmột mô hình - phong cách bất kỳ

e Một mô hình - một phong cách (Per-Style-Per-Model (PSPM)):

Đào tạo trước một mô hình theo ảnh phong cách cho trước và tạo ra ảnh kết quả qua một lần lặp duy nhất Mô hình này nhìn chung về cơ bản đã

đáp ứng được yêu cầu về vấn đề thời gian tái tạo ảnh

18

Trang 37

e Một mô hình - nhiều phong cách (Multi-Style-Per-Model (MSPM)):

Mặc dù hướng tiếp cận PSPM ở trên có thể tạo ra hình ảnh nhanh hơn

nhiều lần so với các phương pháp tối ưu hóa trực tiếp hình ảnh trước đây

thế nhưng với mỗi mô hình chỉ được sử dụng cho một phong cách cụ thể.

Trong khi đó, có khá nhiều hình ảnh mang phong cách, nét vẽ tương tựnhau, chỉ khác nhau ở màu sắc Về trực giác, công việc đào tạo mô hình

cho từng cá thể là tốn thời gian và thiếu sự linh động Do đó, mạng MSPM

được đề xuất nhằm cải thiện tính linh hoạt này MSPM được cải tiến theohai hướng: một là giảm số lượng trọng số của mỗi hình ảnh phong cách,

hai là kết hợp ảnh phong cách và ảnh nội dung làm đầu vào của bài toán.

Tuy nhiên số lượng tập ảnh phong cách "Style bank" vẫn còn bị giới hạn

e Một mô hình - phong cách tùy ý (Arbztraru-Stule-Per- Model

(ASPM)): ASPM hướng tới việc xây dựng một mô hình cho mọi anh tùy

ý, mang lại hiệu quả cao, tiết kiệm thời gian, không gian lữu trữ mô hình

Hướng tiếp cận này hiện nay đang thu hút nhiều sự quan tâm, nhiều ý

tưởng cải tiến để cho ra hình ảnh tốt hơn Đây cũng là hướng tiếp cận được khóa luận sử dụng để giải quyết bài toán chuyển đổi phong cách ảnh

trong mô hình đề xuất

2.4.2 Trích xuất phong cách ảnh nghệ thuật

Công việc trích xuất phong cách ảnh bao gồm hai vấn đề con: biểu diễn

phong cách và tổng hợp phong cách Trước khi đi vào mô tả các phương pháp

tổng hợp phong cách ảnh, ta cần hiểu phong cách ảnh là gì.

Một cách tổng quát, phong cách ảnh bao gồm những thứ tạo nên hiệu ứng

thị giác cho con người như bố cục ảnh (kích thước từng chỉ tiết), gam màu

(nóng, lạnh, trung tính), chất liệu (ví dụ vẽ bằng màu nước hay màu chì, vẽ

trên giấy hay trên gõ), thể loại (cổ điển, lãng mạn hay kinh di), Mặc dù bằng

mắt thường con người có thể dễ dàng nhận ra được phong cách ảnh Thế nhưng

đây lại là một vấn đề khó cho xử lý ảnh và thị giác máy tính Xét trong phạm

vi kiến thức cần để giải quyết bài toán NST, người ta coi phong cách ảnh như

họa tiết của hình ảnh (texture) Họa tiết của một hình ảnh thể hiện nét vẽ, hình

dạng hình học, hoa văn và sự chuyển đổi giữa các màu sắc

Sau khi hiểu được cách biểu diễn phong cách ảnh, vấn đề tiếp theo là làm

thé nào để xây dựng lại chi tiết họa tiết mong muốn nhưng vẫn bảo toàn nội

dung hình ảnh Các họa tiết có thể lấy từ nhiều nguồn khác nhau như vẽ tay

19

Tiêu đề	Chuyển đổi phong cách ảnh theo chủ thể và nền
Tác giả	Đặng Quốc Quy, Trần Vũ Hoàng Tú
Người hướng dẫn	TS. Nguyễn Vinh Tiệp
Trường học	Trường Đại học Công nghệ Thông tin
Chuyên ngành	Khoa học máy tính
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2021
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	74
Dung lượng	51,62 MB

Tài liệu tham khảo	Loại	Chi tiết
[4] Icaro. Best artworks of all time. https://www.kaggle.com/ikarus777/best-artworks-of-all-time, 2019. Online; accessed 29 September 2020	Link
[6] Justin Johnson. Benchmarks for popular cnn models. https://github.com/jcjohnson/cnn-benchmarks. Online; accessed 17 October 2020	Link
[1] Herbert Bay, Andreas Ess, Tinne Tuytelaars, and Luc Van Gool. Speeded- up robust features (surf). Computer vision and image understanding,110(3):346-359, 2008.[2\| Leon A Gatys, Alexander S Ecker, and Matthias Bethge. Image style trans-fer using convolutional neural networks. In Proceedings of the IEEE con- ference on computer vision and pattern recognition, pages 2414-2423, 2016	Khác
[3] Shuyang Gu, Congliang Chen, Jing Liao, and Lu Yuan. Arbitrary styletransfer with deep feature reshuffle. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 8222-8231, 2018	Khác
[5] Yongcheng Jing, Yezhou Yang, Zunlei Feng, Jingwen Ye, Yizhou Yu, andMingli Song. Neural style transfer: A review. IEEE transactions on visual- ization and computer graphics, 2019	Khác
[7] Yijun Li, Chen Fang, Jimei Yang, Zhaowen Wang, Xin Lu, and Ming-HsuanYang. Universal style transfer via feature transforms. In Advances in neural information processing systems, pages 386-396, 2017	Khác
[8] Tsung-Yi Lin, Michael Maire, Serge Belongie, Lubomir Bourdev, Ross Gir-shick, James Hays, Pietro Perona, Deva Ramanan, C. Lawrence Zitnick, and Piotr Dollar. Microsoft coco: Common objects in context, 2015	Khác