Khóa luận tốt nghiệp Khoa học máy tính: Nén mạng tạo sinh đối nghịch và ứng dụng trong chuyển đổi phong cách nghệ thuật việt nam

Trong đề tài này, chúng tôi sử dụng ý tưởng của mạng đối nghịch tạo sinh cho bài toán chuyển đổi ảnh sang phong cách nghệ thuật Việt Nam, với yêu cầu tính toán trực tiếp trên các thiết b

Tối ưu tính toán với GAN Compression|

Kiến trúc c2 ee 30 3.33 Huấn luyện Ặ Ặ Q Q eee 33

Generator Nhận thấy kiến trúc Generator của CyleGAN gốc có lượng tham số tương đối lớn, tác giả đề xuất kiến trúc Generator G mới tối ưu hơn Kiến trúc này vẫn dựa trên Hình 3.0| với một điểm thay đổi nhỏ dựa trên các mô hình tối ưu hiệu năng cho bài toán phân loại ảnh Được truyền cảm hứng từ MobileNet [I8], các khối biến đổi sẽ từ khối phần dư của ResNet sử dụng lớp tích chập thông thường sẽ được thay đổi sang tich chập phan tách theo chiều sâu (depthwise separable convolution), bao gồm hai thành phần: tích chập depthwise và tích chập pointwise (Hình (3.10).

Lấy một ví dụ cu thể: cho một ảnh RGB với kích thước 12 x 12 x 3, số bộ loc là 256 và kích thước là 3 x 3 với kết quả đầu ra mong muốn là tensor có kích thước 10 x 10 (chúng tôi giả sử stride = 1 va padding = 0), số phép nhân cần thực hiện cho tích chập thông thường và tích chập phân tách theo chiều sâu lần lượt: e Tích chập thông thường Từng điểm ảnh trên kết quả đầu ra tương ứng với kích thước của bộ lọc, nói cách khác số phép nhân cần thực hiện cho một điểm ảnh là 3 x 3 x 3 Mặt khác, giá trị đầu ra là tensor có kích thước 10 x 10 x 256, số phép tính cần thực hiện là 3 x 3 x 3 x 10 x 10 x 256 tương đương với 691.200 phép toán. e Tích chập phân tách theo chiều sâu Đâu điên, tích chập depthwise có chức năng làm giảm đi kích thước chiều dài và chiều rộng của kết quả đầu ra, kết quả của

Hình 3.10: Khối tích chập phân tách theo chiều sâu [7| tích chập depthwise là một tensor có kích thước 10 x 10 x 3 So với tích chập thông thường, tích chập depthwise sẽ thực hiện phép toán giữa từng bộ lọc lên từng kênh màu của ảnh đầu vào (R,G và B sẽ nhân tích chập với bộ lọc thứ nhất, thứ hai và thứ ba) với số phép toán cần thực hiện là 3 x 3 x 10 x 10 x 3 = 2.700 Tiép theo, sau khi đã được giảm kích thước chiều dài và chiều rộng, tích chập pointwise giúp thay đổi đi chiều sâu của tensor đầu ra Cụ thể, tích chập pointwise là phép tích chập 1 x 1 với chiều sâu là đầu ra mong muốn Để có kết quả 10 x 10 x 256, tích chập pointwise yêu cầu 256 bộ lọc với kích thước 1 x 1 với số phép toán là

3 x 10 x 10 x 256 = 76.800 Tóm lại, để thực hiện tích chập phân tách theo chiều sâu cần thực hiện 79.500 phép toán.

Qua ví dụ trên, có thể thấy số lượng phép toán cần phải thực hiện một thao tác tương tự giữa tích chập thông thường và tích chập phân tách theo chiều sâu chênh lệch khá đáng kể Cụ thể, tích chập phan tách theo chiều sâu giúp giảm đi gần 8.7 lần phép toán Bang cách sử dụng tích chập theo chiều sâu, số lượng tham số của G giảm di đáng kể nhưng vẫn cho hiệu suất tương tự.

Bên cạnh đó, giữa các khối tích chập phân tách chiều sâu, tác giả vẫn sử dụng các kết nối tắt của ResNet, đảm bảo Œ nhận được thông tin trong quá trình huấn luyện.

Trong khóa luận này, chúng tôi sử dụng kiến trúc CycleGAN kết hợp với các khối tích chập phân tách theo chiều sâu được đề xuất bởi tác giả, gọi tắt M-CycleGAN cho

Generator của chúng tôi Ngoài ra, chúng tôi còn thay đổi số lượng khối biến đổi được đề xuất từ 9 trở thành 6 nhằm tối đa hóa khả năng giảm thiểu số lượng phép tính Bên cạnh đó, thay đổi trên đảm bảo cho kiến trúc không quá sâu, khi các thông tin trong các khối có thể truyền tải cho nhau hiệu quả trong quá trình huấn luyện (Hình 3.11).

Nit Ez we al | residual blocks

Hình 3.11: Kiến trúc Generator đề xuất

Discriminator Chúng tôi vẫn dựa trên kiến trúc PatchGAN trong CycleGAN cho

Discriminator Sau khi đi qua lần lượt các lớp tích chập, chuẩn hóa, Leaky ReLU, chúng tôi sẽ sử dụng hàm sigmoid để phân loại giữa ảnh thật và ảnh giả cho giai đoạn huấn luyện kiến trúc chuyển đổi ảnh bằng CycleGAN Hình minh họa kiến trúc của

Discriminator Tuy nhiên, khi được sử dụng trong giai đoạn nén với các tham số đã được huấn luyện từ trước trong CycleGAN, Discriminator sẽ lược bỏ hàm sigmoid nói trên Nguyên nhân do chúng tôi sử dụng least squares loss để đánh giá khả phân loại thay vì binary cross-entropy loss được đề cập trong Mục [3.3.1]

Hình 3.12: Kiến trúc Discriminator đề xuất

Quá trình huấn luyện của GAN Compression trải qua ba giai đoạn riêng biệt: huấn luyện tổng hợp, tìm kiếm ứng viên và tinh chỉnh tối ưu Cụ thé: e Huấn luyện tổng hợp: Với G và D được cho trước, huấn luyện Ở chứa tất cả các kiến trúc con có thể tạo ra với chi phí mong muốn Mỗi bước huấn luyện là một kiến trúc con khác nhau, nhưng tham số được cập nhật cho G. e Tìm kiếm ứng viên: Dánh giá hiệu năng của các kiến trúc con được tao ra trong quá trình huấn luyện tổng hợp và chọn ra ứng viên tốt nhất. e Tinh chỉnh tối ưu: Tiến hành tinh chỉnh ứng viên được chọn để được mô hình nén cuối cùng.

Do dựa trên kiến trúc GAN gốc nên quá trình huấn luyện và tìm kiếm tương đối phức tạp, trải qua nhiều giai đoạn và không đảm bảo tính ổn định của mô hình Tác giả đề xuất quá trình huấn luyện với mục tiêu tìm ra kiến trúc Ở tối ưu được trong Giải thuật

Algorithm 1 Quá trình nén của GAN Compression Đầu vào: {G, D}: các thành phần đã được huấn luyện.

{\recon; Adisti}: các tham số cân bằng.

MACs = số phép toán tối wu của kiến trúc nén. cfg = các channel có thể của kiến trúc nén. for k lần do e Chọn kiến trúc con G ngẫu nhiên dựa vào s. e Cập nhật tham số cho D:

Vop Ladv e Cập nhật tham số cho ở theo giải thuật gradient descent:

Vụ, (Ladv + AreconLrecon + AaistillLaistill) end for for g€ {1, ,Gepg} do e Kiểm tra MACs(g) < MACs. e Dánh giá hiệu năng của g bằng các phương pháp thích hợp. end for

Chon ra kiến trúc nén tối ưu nhất Goes.

Tinh chỉnh tối ưu cho Gyege.

Lượng tử hóa mô hình học sâu|

Sau khi có được mô hình học sâu thích hợp, lượng tử hóa mô hình là thao tác cần thiết, bằng cách giảm độ chính xác của mô hình để tăng tốc độ xử lý, tối ưu hóa cho các thiết bị di động Máy tính chỉ có thể lưu trữ hữu hạn các bit hữu hạn để biểu diễn số thực vô hạn, do đó độ chính xác có thể nhận được phụ thuộc vào số bit được sử dụng Trong các mô hình học sâu, dấu phẩy động 32-bit là số bit mặc định được sử dụng cho hầu hết các ứng dụng Một cách hình dung đơn giản, lượng tử hóa tương tự việc giảm đi một phần của dữ liệu, thay vì sử dụng toàn bộ dữ liệu thì sẽ chia nhỏ thành các giá trị cụ thể (Hình (3.13).

Sau khi thực hiện thao tác lượng tử hóa, mặc dù sé đánh đổi một phần hiệu qua của mô hình học sâu những đạt được những ưu điểm như sau: e Thao tác tính toán nhanh hơn với số bit thấp hơn Mặc dù sẽ không nhận

Hình 3.13: Sử dụng một phần dữ liệu thay vì toàn bộ trong lượng tử hóa [31] ra rõ ràng sự thay đổi về tốc độ khi thực thi trên các CPU hiện đại, nhưng các thao tác tính toán trên dấu chấm động 32-bit sẽ luôn chậm hơn khi so với 16-bit hoặc 8-bit. e Tối ưu hơn về mặt lưu trữ khi chuyển từ 32-bit sang 16-bit, thiết bị sẽ giảm được khoảng hai lần bộ nhớ lưu trữ Điều đó đồng nghĩa với việc mô hình sẽ chiếm ít không gian lưu trữ hơn. e Thuận tiện cho việc triển khai ứng dụng di động Sử dụng số lượng bit thấp hơn đồng nghĩa có thể giảm bộ nhớ trên RAM khi thực hiện các thao tác xử lý, điều này rất quan trọng khi tích hợp mô hình học sâu trên các thiết bị di động. Bên cạnh đó, các thiết bị đôi khi không hỗ trợ số lượng bit quá lớn vì một số vi xử lý hoặc thiết bị nhúng có nguồn năng lượng thấp Việc giảm số dấu phẩy động sẽ cải thiện được vấn đề về năng lượng của thiết bị lúc xử lý tính toán.

Từ những uu điểm trên, sau khi đã có các mô hình nén cho bài toán chuyển đổi ảnh bằng kiến trúc học sâu, chúng tôi sẽ tiến hành lượng tử hóa mô hình để tối ưu cho các thiết bị di động.

Trong chương này, chúng tôi giới thiệu bộ dữ liệu đề xuất photo2VNart, bao gồm các phong cảnh của Việt Nam và các tranh vẽ mang nét đặc trưng về nghệ thuật Việt Nam của các họa sĩ Tiếp theo, chúng tôi sẽ trình bày các phương pháp đánh giá được sử dụng trong khóa luận này Cuối cùng, các thực nghiệm để chứng minh tính hiệu quả của phương pháp đề xuất sẽ được tiến hành, bao gồm các kết quả định lượng, định tính và một số thực nghiệm loại bỏ.

Bộ dữ liệu photo2VNart|_

Theo khảo sát của chúng tôi, hiện tại chưa có bộ dữ liệu chuẩn cho đề tài phong cảnh cũng như tranh vẽ của các họa sĩ về phong cách nghệ thuật của Việt Nam Phần lớn các bộ dữ liệu dùng cho bài toàn chuyển đổi phong cách nghệ thuật được đến từ nhóm tác giả của CycleGAN}| bao gồm đến từ tranh vẽ của cá nhân nổi tiếng (Van Gogh,

Monnet, Cezane) hay đến từ trường phái hội họa như Ukiyo-e của Nhật Bản.

Với mục tiêu làm nổi bật đặc trưng của nền hội họa Việt Nam cũng như có thể được sử dụng cho các bài toán có liên quan khác, trong khóa luận này chúng tôi đề xuất bộ dữ liệu photo2VNart Bộ dữ liệu bao gồm hai phan cho từng miền dữ liệu riêng biệt, https://people.eecs.berkeley.edu/~taesung_park/CycleGAN/datasets/

36 gồm 4000 ảnh phong cảnh Việt Nam và 887 tranh nghệ thuật Việt Nam Quá trình phát triển dữ liệu được tóm tắt trong Hình [4.1] và trình bày cụ thể bên dưới.

Hình 4.1: Mô tả quy trình phát triển của bộ dữ liệu photo2VNart Ảnh phong cảnh Việt Nam Việc tìm kiếm các phong cảnh về Việt Nam tương đối đơn giản, chúng tôi sử dụng các trang cung cấp các ảnh chất lượng cao như Pexels

Unsplash P| với các từ khóa như Việt Nam, Hồ Chí Minh, Đà Nẵng, Hà Nội, trong quá trình tìm kiếm Ngoài ra, chúng tôi còn thu thập từ các nhóm du lịch trên mạng xã hội Facebookl'| về tranh phong cảnh của Việt Nam Kết thúc quá trình trên, chúng tôi thu thập được 10320 ảnh Tiếp theo, quá trình kiểm tra chéo được tiến hành Các ảnh bị mờ, ảnh chụp góc rộng, không chắc chắn Việt Nam hay các ảnh được phần mềm chỉnh ảnh can thiệp quá nhiều, nội dung gần như tương tự theo góc chụp được tiến hành loại bỏ (Hình {4.2} Cuối cùng chúng tôi tổng hợp lại còn 4000 ảnh với kích thước gốc nhằm đảm bảo độ nguyên vẹn của ảnh Bang [4.1] trình số lượng, ti lệ các tranh phong cảnh được thu thập Chúng tôi chia làm ba hạng mục khác nhau: ảnh phong cảnh, ảnh con người và các ảnh khác bao gồm cả phong cảnh và con người. https : //www.Dexels com https : //www facebook com/

Hình 4.2: Các loại ảnh được lược bỏ trong quá trình kiểm tra chéo

Hạng mục Số lượng ảnh Tỉ lệ(%)

Bang 4.1: Số lượng, tỉ lệ của các ảnh phong cảnh trong photo2VNart Ảnh nghệ thuật Việt Nam Trong thực tế, miền dữ liệu tranh vẽ của các họa sĩ trên thế giới tương đối hạn chế so với các loại ảnh khác, gây ra sự khó khăn trong việc thu thập Đơn cử như bộ dữ liệu vangogh2photo chỉ có 400 ảnh của họa sĩ Van Gogh hay ukiyoe2photo thuộc trường phái hội họa Ukiyo-e của Nhat Bản với 825 ảnh Diều này cũng không ngoại lệ so với các tác phẩm mỹ thuật của Việt Nam Để giải quyết vấn đề trên, chúng tôi sử dụng các tác phẩm của các họa sĩ nổi tiếng của nền nghệ thuật

Việt Nam như họa sĩ Bùi Xuân Phái, họa sĩ Trần Văn Cẩn đến từ WikiArf| Ngoài ra, chúng tôi thu thập thêm tranh vẽ từ sàn giao dịch tranh Vietnam Artist nơi trao đổi ps: //www.wikiart.org/en/artists-by-nation/vietnamese °https: //uww vietnamartist com

38 các tác phẩm vật lí của các họa sĩ đến từ Việt Nam Bên cạnh đó, chúng tôi còn nhận được sự cho phép đến từ họa sĩ Trần NguyênƑ'| và phòng tranh nghệ thuật D&C Tong cong chúng tôi có được 945 bức tranh vẽ nghệ thuật Việt Nam Sau đó, chúng tôi tiến hành loại bỏ các ảnh không phù hợp và các kí hiệu đánh dấu để việc huấn luyện mô hình trở nên hiệu quả Cuối cùng, tập ảnh nghệ thuật Việt Nam của chúng tôi còn lại

887 ảnh Bảng|4.2|trình bày số lượng, tỉ lệ tranh nghệ thuật đến từ các nguồn thu thập và Hình [4.3] minh họa một số ảnh nghệ thuật của các hoa sĩ.

Nguồn Số lượng ảnh Tỉ lệ(%)

WikiArt 93 10.5 Họa sĩ Trần Nguyên 79 8.9

Sàn trao đổi Vietnam Artist 617 69.6

Bang 4.2: Số lượng, tỉ lệ của các ảnh nghệ thuật trong photo2VNart

Trong quá trình tiến hành các thực nghiệm của đề tài này, chúng tôi sử dụng 90% của từng miền dữ liệu để huấn luyện mô hình và 10% còn lại để đánh giá hiệu năng của phương pháp đề xuất. https : //www facebook com/hoasytrannguyen https://oilpaintingdc.com s

Phương pháp đánh giáị

Đánh giá dựa trên chất lượng ảnh|

Khoảng cách Frechet Inception (hay FID) là phương pháp đánh giá tiêu biểu cho bài toán chuyển đổi ảnh FID được đánh giá dựa trên các đặc trưng cấp cao đến từ kiến trúc InceptionV3 được huấn luyện trên tập ImageNet [6] Giá tri FID thể hiện sự tương đồng giữa hai phân bố, ảnh thật và ảnh được tạo ra Giá trị càng thấp thể hiện chất lượng của ảnh tạo ra càng tốt và càng giống ảnh thật, đồng nghĩa khi hai phân bố hoàn toàn giống nhau thì có giá tri FID = 0.

Dầu tiên, các tập ảnh thật va giả được lần lượt được truyền vào kiến trúc IncpetionV3 để tính toán ra một vector đặc trưng với 2048 chiều Gọi (up, Ug) là giá trị trung bình và hiệp phương sai của tập ảnh thật và (wr, Ur) với tập ảnh được tạo ra FID sẽ so sánh sự sai khác của giá trị trung bình và hiệp phương sai giữa hai phân bố Công thức của FID được viết trong Biểu thức với 7r là tổng các phần tử trên đường chéo chính của ma trận vuông trong đại số tuyến tính. d(R, F) = lun — well? + TY + Ue — 2VSnSr) (4.1)

4.3.2 Đánh giá dựa trên kiến trúc mô hình

Ngoài việc đánh giá chất lượng của ảnh được tạo ra, chúng tôi còn sử dụng thêm các giá trị định lượng khác nhằm đánh giá tiêu chí tối ưu tham số và chi phí tính toán Cu thể, chúng tôi dựa trên giá trị MACs, số lượng tham số (Params) và số khung hình trên giây (FPS). e MACs Là tổng số phép toán thực hiện trong quá trình xử lý một bức ảnh đầu vào, được sử dụng để đánh giá chi phí tính toán của mô hình MACs tỉ lệ thuận

Dánh giá dựa trên kiến tric mo hinh|

e Params Là tổng số lượng tham số của mô hình, phụ thuộc vào số lượng, kích thước của lớp tích chập. e FPS Cho biết tốc độ xử lý của mô hình FPS càng cao, độ trễ càng thấp Trong thực tế, các ứng dụng được hướng đến tính toán thời gian thực.

Kết quả thực nghiệm|

Để chứng minh tính hiệu quả mô hình đề xuất, chúng tôi tiến hành thực nghiệm có liên quarP] và đưa ra các kết quả định lượng, định tính và các thực nghiệm loại bỏ với các mô hình khác nhau, bao gồm: CycleGAN, CycleGAN với khối phan dư di động (được chúng tôi gọi tắt M-CycleGAN trong Muc|3.3.2} và GAN Compression (gọi tắt Compression).

Kết quả định lượng|

Kết quả định tính|

CycleềGAN M-CycleGAN Compression Chúng tôi

Hình 4.4: Kết quả định tính của các phương pháp

Hình 4.5: Phương pháp đề xuất vượt trội so với các phương pháp còn lại

Hình [1.4] minh họa kết quả định tính giữa giữa các mô hình khác nhau và phương pháp được chúng tôi đề xuất Hình [1.5] cho thấy ưu điểm của phương pháp đề xuất về yêu tố thị giác cũng như yếu tố hiệu năng so với các phương pháp còn lại.

CycleGAN truyền thống đã làm rất tốt trong việc chuyển đổi sang phong cách nghệ thuật, tuy nhiên màu sắc được biến đổi hoàn toàn ngẫu nhiên, không nhận thức được vùng màu có liên quan để chuyển đổi phù hợp Điều này có thể nhận thấy khi một vài anh được tạo ra bởi CycleGAN như ảnh vùng trời lại có màu xanh nhạt của cây hay các màu nguệch ngoạc.

M-CycleGAN và GAN Compression đã tập trung vào tối u kiến trúc nên vẫn chưa khắc phục nhược điểm của CycleGAN Điểm nổi bật là các ảnh được ra bởi hai kiến trúc trên hoàn toàn tương tự so với CycleGAN nhưng với một lượng tham số được giảm rất nhiều, cho thấy hiệu quả vượt trội của phương pháp nén Ngoài ra, một điểm đáng chú ý là các vùng màu bị nhầm lẫn do CycleGAN đã được cải thiện một phần, cho thấy số lượng tham số ít hơn vẫn đạt được hiệu quả.

Trong Hình các ảnh được tạo ra do kiến trúc được đề xuất bởi chúng tôi được thể hiện trong ảnh cuối Như kết quả thể hiện, các ảnh được tạo ra cho thấy màu sắc của ảnh trở nên tươi sáng hơn và các vùng màu được chuyển đổi phù hợp với bố cục hơn Nhìn chung, phương pháp được đề xuất bởi chúng tôi hoạt động vượt trội hơn các công trình khác về yếu tố màu sắc, đường nét cũng như hiệu năng kiến trúc.

Thực nghiệm loại bd â J

Trong phần này, chúng tôi thực hiện loại bỏ từng thành phần riêng lẻ để kiểm tra sự ảnh hưởng đến chất lượng của mô hình được đề xuất Cụ thể, các kết quả được trình bày kết quả định lượng trong Bảng với độ đo FID để so sánh các ảnh hưởng của các thành phần với nhau và kết quả định tính trong Hình

ID FID loss loss loss

Bảng 4.4: Kết quả định lượng giữa khi loại bỏ các thành phần Đầu tiên, khi loại bỏ style mapping loss, kết quả đầu ra có màu chưa được rõ ràng. Van đề này xảy ra khi kiến trúc Generator chưa hoc được các đặc trưng về màu sắc, đường nét cụ thể của miền dữ liệu tranh vẽ Ngoài ra, các vùng màu sẽ được chuyển đối tương đối ngẫu nhiên, không dựa trên các ngữ nghĩa về bố cục của từng vật thể trong ảnh Từ giá trị FID và ảnh kết quả, ta thấy style mapping loss sẽ cải thiện được chất lượng của ảnh tạo ra.

Hình 4.6: Các kết qua định tính trong các thực nghiệm loại bỏ

Tiếp theo, khi tiến hành thử nghiệm loại bỏ distillation loss, nhìn chung kết quả định lượng gần như tương tự với FID không quá chênh lệch Tuy nhiên, kết quả định tính lại cho kết quả chưa đạt hiệu quả mong muốn Cu thể, ảnh khi không có distillation loss sẽ có hiện tương bị mờ do chưa học được đầy đủ lượng thông tin của kiến trúc ban đầu. Điều này chứng tỏ rằng hàm độ lỗi trên có vai trò thiết yếu trong việc định hướng kiến trúc nén có thể học ra các đặc trưng quan trọng từ kiến trúc ban đầu.

Cuối cùng, chúng tôi cho thay tầm ảnh hưởng của reconstruction loss trong kiến trúc được nén Đây là thành cho kết quả tệ nhất khi loại bỏ, được thể hiện ở giá FID định tinh và hình ảnh định lượng Điều này chứng minh reconstruction loss chiếm vi trí quan trọng nhất trong quá trình huấn luyện kiến trúc nén, có vai trò nền tang cho ảnh được tạo ra trong kiến trúc nén.

Tổng kết lại, mỗi thành phần riêng lẻ đều đóng góp vào chất lượng của mô hình đầy đủ Bằng các thực nghiệm loại bỏ, chúng tôi chứng minh rằng mỗi thành phần đóng một vai trò cụ thể trong phương pháp đề xuất của chúng tôi Điều này có thể thấy từ cả kết quả định lượng và kết quả định tính, hiệu suất mô hình với tất cả các thành phần cho kết quả tốt nhất.

Chương 5 Ứng dụng minh họa

Trong chương này, chúng tôi tiến hành thực hiện phát triển ứng dụng minh họa cho bài toán chuyển đổi từ ảnh sang phong cách nghệ thuật Việt Nam cho các thiết bị di động. Đầu tiên, chúng tôi sẽ trình bày các thao tác cần thiết trong việc phát triển ứng dụng có tích hợp mô hình học sâu Tiếp theo, chúng tôi giới thiệu Penstagranl'] ứng dụng chuyển đổi phong cảnh nghệ thuật và mô tả các chứng năng chính của ứng dụng.

5.2 Xây dựng ứng dụng chuyển đổi ảnh

5.2.1 Luong tử hóa mô hình

Sau khi có được mô hình đề xuất trong Chương || chúng tôi tiếp tục lượng tử hóa mô hình Phương pháp này cho phép kích thước mô hình hiện tại sẽ tận dụng được tối đa phần cứng của các thiết bị di động và đồng thời giảm độ trễ khi xử lý Một nhược điểm của phương pháp trên là sau khi lượng tử hóa, hiệu năng của mô hình sẽ giảm nhưng không đáng kể.

Chúng tôi sử dụng TensorFlow Lite? để thực hiện thao tác lượng tử hóa, bằng cách thay đổi trọng số sang kiểu dữ liệu FLOAT16 Một số ưu điểm của cách lượng tử hóa nói trên là giảm kích thước mô hình xuống một nửa, hạn chế mat mát hiệu năng của mô hình và tối ưu thời gian xử lý trên các thiết bị di động Sau khi lượng tử hóa, mã nguồn mở OpenVING]| được sử dụng để thực hiện các thao tác chuyển đổi khác nhằm thuận tiện cho việc triển khai ứng dụng.

Chúng tôi sử dụng Flutter là framework chính để thiết kế và phát triển ứng dụng Đối với cơ sở dữ liệu của ứng dụng, Firebase được sử dụng làm nơi lưu trữ hình ảnh, danh sách những người dùng đã đăng kí Ứng dụng đồng thời có yêu cầu quyền truy cập vào bộ nhớ hệ thống, máy ảnh nhằm mục đích sử dụng toàn bộ chức năng của ứng dụng. Được xây dựng trên nền tảng của một ứng dụng chụp ảnh và xử lý, chúng tôi tích xây dựng phát triển các chức năng cần thiết như tải ảnh lên từ thư viện hoặc chụp ảnh trực tiếp, sau đó thực hiện thao tác chuyển đổi ảnh đã nhận sang phong cách nghệ thuật và đưa ảnh lên màn hình Bên cạnh đó, ứng dụng đã được tích hợp thêm mạng xã hội mô phỏng Trong mạng xã hội này, chúng tôi thiết kế các chức năng cần thiết cho một mạng xã hội như có thể tải ảnh lên, chia sẻ ảnh với nhau và tương tác với ảnh.

Những thông tin như ảnh tên người dùng, ảnh được tải lên và thông tin tương tac sẽ được lưu lại trên cơ sở dữ liệu.

5.3 Penstagram - Ung dụng chuyển đổi phong cách nghệ thuật

Penstagram là ứng dụng tạo ra những bức ảnh nghệ thuật độc đáo từ những bức ảnh của người dùng Những bức ảnh nghệ thuật được tạo ra sẽ có những yếu tố nghệ thuật https://www.tensorflow.org/lite

A7 từ những tác phẩm hội họa của Việt Nam Penstagram có tích hợp một mạng xã hội, nơi mà mọi người có thể chia sẻ những tác phẩm của mình đồng thời thưởng thức những bức ảnh đã được cộng đồng chia sẻ Hình |5.1|minh hoa giao diện chính và các tính năng của ứng dụng.

Hình 5.1: Ứng dụng Penstagram: giao diện chính (trái), tính năng chuyển đổi ảnh (giữa) và tính năng tương tác (phải) Ứng dụng được tạo ra nhằm chứng minh được khả năng tối ưu khi có thể nén các mô hình chuyển đổi ảnh hiện đại mà vẫn giữ lại được những khả năng mà mô hình có so với ban đầu Với khả năng có thể tích hợp được ngay trên chiếc điện thoại di động, người dùng có thể tiết kiệm thời gian hơn khi dùng ứng dụng mà không cần kết nối mạng.

Hiện tại, trên thị trường có rất nhiều ứng dụng tương tự khi nói về chuyển đổi phong cách nghệ thuật sử dụng các kiến trúc học sâu Phần lớn các ứng dụng kể trên đều yêu cầu kết nối mạng do phần xử lý ảnh yêu cầu máy chủ thực hiện và có thể mất thời gian

48 một khoảng thời gian do quá tải Chính vì thế, Penstagram có ưu điểm là tích hợp sẵn mô hình học sâu bên trong ứng dụng, không yêu cầu người dùng phải kết nối mạng và thực hiện chuyển đổi phong cách ảnh trực tiếp không cần thông qua máy chủ Hình |5.2 cho thấy chất lượng của ảnh khi được chuyển đổi trên ứng dụng.

Với mong muốn tạo ra một không gian dành cho những người dùng yêu thích lưu trữ và chia sẻ ảnh, ứng dụng còn tích hợp một mạng xã hội Người dùng có thể đăng tải hình ảnh mình đã tạo ra cũng như tương tác với các hình ảnh khác đã được đăng tải nhờ vào nút yêu thích dưới mỗi bài đăng.

Xây dựng ứng dung chuyển đổi ảnh|

Penstagram - Ứng dụng chuyển đổi phong cách nghệ thuật|

Giới thiệu về Penstagram] ơ—— 4ù

Penstagram là ứng dụng tạo ra những bức ảnh nghệ thuật độc đáo từ những bức ảnh của người dùng Những bức ảnh nghệ thuật được tạo ra sẽ có những yếu tố nghệ thuật https://www.tensorflow.org/lite

A7 từ những tác phẩm hội họa của Việt Nam Penstagram có tích hợp một mạng xã hội, nơi mà mọi người có thể chia sẻ những tác phẩm của mình đồng thời thưởng thức những bức ảnh đã được cộng đồng chia sẻ Hình |5.1|minh hoa giao diện chính và các tính năng của ứng dụng.

Hình 5.1: Ứng dụng Penstagram: giao diện chính (trái), tính năng chuyển đổi ảnh (giữa) và tính năng tương tác (phải) Ứng dụng được tạo ra nhằm chứng minh được khả năng tối ưu khi có thể nén các mô hình chuyển đổi ảnh hiện đại mà vẫn giữ lại được những khả năng mà mô hình có so với ban đầu Với khả năng có thể tích hợp được ngay trên chiếc điện thoại di động, người dùng có thể tiết kiệm thời gian hơn khi dùng ứng dụng mà không cần kết nối mạng.

Hiện tại, trên thị trường có rất nhiều ứng dụng tương tự khi nói về chuyển đổi phong cách nghệ thuật sử dụng các kiến trúc học sâu Phần lớn các ứng dụng kể trên đều yêu cầu kết nối mạng do phần xử lý ảnh yêu cầu máy chủ thực hiện và có thể mất thời gian

48 một khoảng thời gian do quá tải Chính vì thế, Penstagram có ưu điểm là tích hợp sẵn mô hình học sâu bên trong ứng dụng, không yêu cầu người dùng phải kết nối mạng và thực hiện chuyển đổi phong cách ảnh trực tiếp không cần thông qua máy chủ Hình |5.2 cho thấy chất lượng của ảnh khi được chuyển đổi trên ứng dụng.

Với mong muốn tạo ra một không gian dành cho những người dùng yêu thích lưu trữ và chia sẻ ảnh, ứng dụng còn tích hợp một mạng xã hội Người dùng có thể đăng tải hình ảnh mình đã tạo ra cũng như tương tác với các hình ảnh khác đã được đăng tải nhờ vào nút yêu thích dưới mỗi bài đăng.

Tổng kết lại, ứng dụng của chúng tôi bao gồm các tính năng chính: e Tải ảnh lên bằng camera hoặc thư viện ảnh và ứng dụng. e Tự động thực hiện chuyển đổi sang ảnh phong cách nghệ thuật. e Lưu ảnh đã được chuyển đổi phong cách về máy. e Chia sẻ một bức ảnh lên mạng xã hội kèm trang thái. e Tương tác giữa các người dùng bằng nút yêu thích.

Thực nghiệm đo hiệu năng trên ứng dụng|

Chúng tôi đánh giá hiệu năng của ứng dụng dựa trên thời gian (giây) mô hình học sâu thực hiện xử lý ảnh mà người dùng chọn Hiệu năng được đánh giá dựa vào thời gian tính toán trung bình trong lần lượt 10, 50 và 100 ảnh, trên sáu thiết bị với hai hệ điều hành Android và IOS.

Thời gian xử lý trung bình(giây)

Hệ điều hành Thiết bị

Galaxy A51 0.0687 0.0717 0.0714 iPhone 11 Pro 0.0713 0.0735 0.0731 IOS iPhone 12 Pro 0.0692 0.0727 0.0713 iPhone 13 Pro 0.0667 0.0683 0.0690

Bang 5.1: Thời gian xử ly trung bình trên các thiết bị

Theo Bảng thời gian mô hình học sâu thực hiện thao tác xử lý ảnh đều dưới

1 giây Trong thực nghiệm trên, thiết bị ¿Phone 13 Pro cho kết quả xử lý trung bình nhanh nhất ở hệ điều hành IOS, điều này có thể dễ hình dung ra do đây hiện tại là dòng điện thoại cao cấp đến từ Apple Ngược lại, Pizel 4 cho kết qua cao nhất khi xử lý trên hệ điều hành Android Bên cạnh đó, thời gian xử lý nhìn chung không quá chênh lệch nhau giữa các thiết bị, cho thấy tính hiệu quả của mô hình học sâu sau khi nén trên các thiết bị di động.

6.1 Kết quả của đề tài

Trong khóa luận này, chúng tôi tìm hiểu và giải quyết bài toán chuyển đổi phong cách nghệ thuật với mục tiêu tối ưu chi phí tính toán theo phương pháp mạng đối nghịch tạo sinh Chúng tôi đánh giá của ưu nhược điểm của từng phương pháp giúp giải quyêt vấn đề đặt ra. Đầu tiên, chúng tôi đề xuất hàm mục tiêu phụ trợ để giải quyết các vấn đề còn tồn đọng về đặc trưng mau sắc Style mapping loss đã giải quyết vấn đề màu sắc của tranh phong cảnh hiệu quả Tiép theo, với mong muốn được chứng minh kha năng của các họa sĩ Việt Nam cũng như có thể xây dựng một bộ dữ liệu về đề tài tranh ảnh Việt Nam, chúng tôi giới thiệu bộ dữ liệu photo2VNart Day là bộ dữ liệu về phong cảnh của Việt Nam cũng như tranh vẽ của các họa sĩ đến từ Việt Nam Cuối cùng, chúng tôi giới thiệu ứng dụng Penstagram, ứng dụng chuyển đổi phong cảnh sang tranh nghệ thuật Đây là ứng dụng chạy trực tiếp trên thiết bị phần cứng, chứng minh khả năng của phương pháp đề xuất.

6.2 Hướng phát triển của đề tài

Chúng tôi sẽ trình bày hướng phát triển theo hai phần, phần kiến trúc mạng học sâu và phần ứng dụng chuyển đổi ảnh theo framework được đề xuất.

Về phần kiến trúc mạng học sâu Chúng tôi nhận thấy rằng các ảnh tạo ra còn tương đối mờ và có hiện tượng các điểm ảnh chênh lệch màu Trong tương lai, chúng tôi sẽ cải thiện nhược điểm này cũng như tạo ra các ảnh phong cách nghệ thuật rõ ràng hơn.

Về phần ứng dụng chuyển đổi ảnh Do phải sử dụng cách mã nguồn bên thứ ba để có thể tích hợp lên di động, chất lượng ảnh tạo ra bị giảm đi so với kiến trúc nén nguyên bản Trong tương lai, chúng tôi mong muốn có thể tích hợp trực tiếp mà không cần qua các mã nguồn trung gian Bên cạnh đó, chúng tôi sẽ thêm các tính năng khác như trang cá nhân cho người dùng, bình luận nội dung đăng tải qua đó khiến

Penstagram thành một mạng xã hội với các tính năng đa dạng.

[IJ J Bernardo, M Bayarri, J Berger, A Dawid, D Heckerman, A Smith, and

M West Generative or discriminative? getting the best of both worlds Bayesian statistics, 8(3):3-24, 2007.

2| Conditional generative adversarial nets in tensorflow https://agustinus. kristia.de/techblog/2016/12/24/conditional-gan-tensorflow

3] Client-server model https: //en.wikipedia.org/wiki/G1ient⁄E2⁄80%

4| Understanding and implementing cyclegan in tensorflow https://hardikbansal. github io/CycleGANBlog/

5| K Deb, A Pratap, S Agarwal, and T Meyarivan A fast and elitist multiobjective genetic algorithm: Nsga-ii [EEE transactions on evolutionary computation, 6, 2002.

6] J Deng, W Dong, R Socher, L.-J Li, K Li, and L Fei-Fei Imagenet: A large-scale hierarchical image database In CVPR, 2009.

7| D Foster Generative Deep Learning: Teaching Machines to Paint, Write, Compose, and Play O’Reilly, 2019.

8] Deep learning — generative adversarial network(gan) https://mediun. datadriveninvestor.com/deep-learning-generative-adversarial-network- gan- 34abb43c0644

[9] L A Gatys, A S Ecker, and M Bethge A neural algorithm of artistic style arXiv preprint arXiu:1508.06576, 2015.

[10] L A Gatys, A S Ecker, and M Bethge Image style transfer using convolutional neural networks In CVPR, 2016.

I Goodfellow, J Pouget-Abadie, M Mirza, B Xu, D Warde-Farley, 5 Ôzair,

A Courville, and Y Bengio Generative adversarial nets In NIPS, 2014.

K He, X Zhang, S Ren, and J Sun Deep residual learning for image recognition.

A Hertzmann Painterly rendering with curved brush strokes of multiple sizes In SIGGRAPH, 1998.

A Hertzmann, C E Jacobs, N Oliver, B Curless, and D H Salesin Image analogies In SIGGRAPH, 2001.

M Heusel, H Ramsauer, T Unterthiner, B Nessler, and S Hochreiter Gans trained by a two time-scale update rule converge to a local nash equilibrium In

G Hinton, O Vinyals, and J Dean Distilling the knowledge in a neural network.

D Hossain, M H Imtiaz, T Ghosh, V Bhaskar, and E Sazonov Real-time food intake monitoring using wearable egocnetric camera In #M5Œ, 2020.

A G Howard, M Zhu, B Chen, D Kalenichenko, W Wang, T Weyand, M An- dreetto, and H Adam Mobilenets: Efficient convolutional neural networks for mobile vision applications arXiv preprint arXtv:1704.04861, 2017.

P Isola, J.-Y Zhu, T Zhou, and A A Efros Image-to-image translation with conditional adversarial networks In C'VPR, 2017.

J Johnson, A Alahi, and L Fei-Fei Perceptual losses for real-time style transfer and super-resolution In ECCV, 2016.

D P Kingma and M Welling Auto-encoding variational bayes In ICLR, 2014.

A Kolliopoulos Image segmentation for stylized non-photorealistic rendering and animation Citeseer, 2005.

Y LeCun, C Cortes, and C Burges Mnist handwritten digit database ATT Labs [Online] Available: hitp://yann.lecun.com/exdb/mnist, 2, 2010.

M Li, J Lin, Y Ding, Z Liu, J.-Y Zhu, and S Han Gan compression: Efficient architectures for interactive conditional gans In C'VPR, 2020.

X Mao, Q Li, H Xie, R Y Lau, Z Wang, and S Paul Smolley Least squares generative adversarial networks In CVPR, 2017.

M Mirza and S Osindero Conditional generative adversarial nets arXiv preprint arXiv:1411.1784, 2014.

Image to image translation https://nttuan8.com/bai-6-image-to-image- translation/

Patchgan discriminator https://brstar96.github.io/mldlstudy/what-is- patchgan-D/

Ban cập nhật style transfer filter tháng 10/2020 của photoshop https: //helpx. adobe com/photoshop/using/whats-new/2021.html

Ai-powered filter app prisma wants to sell its tech to other compa- nies https://www.theverge.com/2017/8/20/16166408/prisma-ai-machine- vision-b2b-pivot

[31] Making neural nets work with low precision https://sahnimanas.github.io/ post/quantization-in-tflite/

[32] A Radford, L Metz, and S Chintala Unsupervised representation learn-

37 ing with deep convolutional generative adversarial networks arXiv preprint arXiv:1511.06434, 2015.

O Ronneberger, P Fischer, and T Brox U-net: Convolutional networks for biomedical image segmentation In MICCATI, 2015.

H Shu, Y Wang, X Jia, K Han, H Chen, C Xu, Q Tian, and C Xu Co- evolutionary compression for unpaired image translation In ICCV, 2019.

K Simonyan and A Zisserman Very deep convolutional networks for large-scale image recognition In JCDR, 2015.

C Szegedy, V Vanhoucke, S Ioffe, J Shlens, and Z Wojna Rethinking the inception architecture for computer vision In CVPR, 2016.

R Zhang, P Isola, A A Efros, E Shechtman, and O Wang The unreasonable effectiveness of deep features as a perceptual metric In CVPR, 2018.

Hướng phát triển của đề tài|