Khóa luận tốt nghiệp Khoa học máy tính: Chuyển đổi phong cách ảnh dựa trên câu mô tả tự nhiên khai thác lớp ngữ nghĩa cục bộ

TONG QUAN Chuyển đổi phong cách ảnh là một trong những bài toán thuộc lĩnh vực Thịgiác Máy tính, nhận đầu vào là một cặp ảnh bao gồm ảnh nội dung và ảnh phong cách với mục tiêu là sinh r

Thách thức, mục tiêu, phạmvi

Trong quá trình tìm hiểu, thực hiện khảo sát và tiến hành thực nghiệm, nhóm nhận thấy bài toán chuyển hoá phong cách ảnh thông thường nói chung và chuyển hoá phong cách ảnh dựa trên câu mô tả tự nhiên có những khó khăn và thách thức cụ thể như sau: e Sự cân bằng giữa yếu tố nội dung và phong cách của hình ảnh cách điệu: Việc tạo ra một ảnh cách điệu có thể thoả mãn hoàn hảo việc giữ lại nội dung ngữ nghĩa của ảnh nội dung vừa thể hiện nổi bật được phong cách nghệ thuật tham chiếu một cách rõ ràng rất khó khăn, do đó doi hỏi các tác giả nghiên cứu hoặc người dùng lựa chọn mức độ quan tâm và tầm quan trọng của việc giữ lại nội dung ban đầu nhiều nhất hay thể hiện phong cách nghệ thuật đẹp nhất và giống với phong cách tham khảo nhất. e Thiếu các chỉ số đánh giá đáng tin cậy: Khác với các bài toán thuộc lĩnh vực thị giác máy tính khác như phân loại ảnh, phân đoạn ngữ nghĩa hình ảnh, sử dụng thước đo so sánh kết quả của mô hình với ground- truth để đánh giá Ảnh nghệ thuật luôn được xem xét dựa trên cảm quan của con người, do đó, việc đánh giá các hình ảnh cách điệu của thuật toán chuyển đổi phong cách ảnh luôn là vấn đề lớn đối với các nhà nghiên cứu e Sự thiếu sót của bộ dữ liệu có quy mô lớn, mang tính bao quát:

Tập dữ liệu dùng để huấn luyện mô hình cho bài toán chuyển kiểu ảnh có yêu tố quyết định đến chất lượng của ảnh kết quả Nếu không giới han lại phạm vi của bộ dữ liệu thì đối tượng hình ảnh của bài toán sẽ rất lớn, khó kiểu soát Vì lí do đó, chúng tôi quyết định giới hạn lại phạm vi của nài toán chỉ tập chung vào chuyển đổi phong cách ảnh chân dung người dựa trên câu mô tả tự nhiên Vì đấy là nguồn dữ liệu rất dễ để sử dụng, dễ tìm kiếm và cũng là một domain vô cùng quan trọng, phổ biến trong cuộc £ sông. e Yêu cầu tài nguyên máy móc lớn: Vì các nghiên cứu về sinh ảnh cách điệu đều sử dụng mạng thần kinh học sâu nên đòi hỏi một lượng tài nguyên phần cứng lớn cho cả quá trình huấn luyện và triển khai hệ thống thành ứng dụng.

Trong đề tài lần này, chúng tôi tập trung xử lý các thách thức của bài toán chuyển đổi phong cách ảnh cũng như giải quyết câu hỏi "Làm sao để tạo ra ảnh cách điệu dựa trên câu mô tả ngôn ngữ tự nhiên?" Để đạt được điều đó, chúng tôi đề xuất ra một mô hình cũng như xây dựng riêng cho đề tài một bộ dữ liệu

6 để chuyển đổi phong cách ảnh chân dung người Cụ thể, mục tiêu của chúng tôi như sau: e Khảo sát và tìm hiểu các kiến thức, nghiên cứu liên qua đến các mô hình học sâu được sử dụng trong đề tài e Xây dựng thành công mô hình học sâu trong việc chuyển hoá phong cách ảnh nghệ thuật dựa trên câu mô tả tự nhiên e Xây dựng mô hình minh hoạ cho kết quả nghiên cứu

Như đã dé cập ở trên, để xây dựng một phương pháp có thé sinh ra ảnh cách điệu có chất lượng cạnh tranh với các nghiên cứu trước đó, chúng tôi sẽ tập trung vào phạm vi chân dung ảnh người do đó là đối tượng rất quan trọng trong cuộc sống, dễ kiểm soát.

1.3 Đóng góp của khoá luận Để hệ thống lại, đề tài của chúng tôi có những đóng góp như sau: e Xây dựng riêng một bộ dữ liệu ảnh chân dung người riêng biệt cho đề tài gồm hơn 70 000 ảnh e Dề xuất một mô hình end-to-end cũng như các phương pháp tối ưu hoá để sinh ra ảnh cách điệu dựa trên đầu vào là một cặp gồm ảnh và câu văn miêu ta ngôn ngữ tự nhiên e Hệ thống tương tác cho phép người dùng truy cập, kiểm thử để sinh ra ảnh mang phong cách nghệ thuật mà họ mong muốn

Cấu trúc khoá luận của chúng tôi gồm tổng cộng 6 phần chính: e Chương 1: Giới thiệu Phần này giải thích về các thông tin chung của đề tài như động lực, bối cảnh, cũng như thách thức, của bài toán chủ đề e Chương 2: Các kiến thức, nghiên cứu liên quan đến đề tài Chương này sẽ trình bày tổng quan các kiến thức cũng như các nghiên cứu liên quan đến khoá luận e Chương 3: Phương pháp đề xuất Chương này sẽ mô tả chi tiết về cách thức của mô hình của chúng tôi hoạt động để sinh ảnh dựa trên câu mô tả e Chương 4: Thực nghiệm và Đánh giá Trình bày các kết quả thí nghiệm, kết quả đánh giá mô hình dựa trên khảo sát, làm thí nghiệm và cuối cùng là minh hoạ các ảnh cách điệu vốn là kết quả của mô hình đề xuất e Chương 5: Xây dựng ứng dụng minh hoa và thực nghiệm Chương nay trình bày tổng quát quá trình chúng tôi xây dựng hệ thống giúp hệ thống dễ dàng tương tác với mô hình đề xuất e Kết luận và Hướng phát triển Phan này tổng kết các công việc của chúng tôi đối với đề tài cũng như những kế hoạch trong tương lai mà chúng tôi hướng đến để cải thiện phương pháp đề xuất

Các nghiên cứu liên quan

2.1 Kiến thức tong quan về mạng CNN

Trong phần này, chúng tôi sẽ trình bày tổng quan các kiến thức nền tảng cần phải có để tiến hành công việv nghiên cứu về bài toán chuyển hoá phong cách anh dưa trên câu mô ta tự nhiên như mạng tích chập, mô hình mang học sâu,

2.1.1 Tổng quan về Deep Learning

Deep Learning hay còn gọi là kỹ thuật Học sâu, là một nhánh kỹ thuật trong lĩnh vực máy học rộng lón Sỡ dĩ được gọi là học "sâu" vì deep leaning ám chỉ việc sử dụng mạng lưới thần kinh gồm nhiều lớp để phân tích dữ liệu mô phỏng lại cách hoạt động não bộ của con người khi đối diện với một vấn đề cần phải giải quyết Càng nhiều dữ liệu, con người chúng ta càng xử lý thông tin tốt hơn, tương tự vậy, các mô hình deep learning sẽ cải thiện được hiệu suất nếu có thể tiếp cận được với nhiều dữ liệu liên quan tới bài toán.

Cho đến hiện nay, Deep Learning đã chứng tỏ được sự hiệu quả của mình thông qua loạt các thành tựu trong cuộc sống, từ các lĩnh vực như xử lý hình

9 ảnh, ứng dụng trong các hệ thống kiểm soát phương tiện giao thông và thậm chí cả y học và môi trường giáo dục hàng ngày.

2.1.2 Tổng quan về Convolutional Neural Network

Convolutional Neural Network (CNN) hay Mang no-ron tích chập là một kiến trúc mang hoc sâu Về cơ ban, CNN sẽ gồm các lớp (layers) được sắp xếp theo kiến trúc phân tầng, tương ứng với mỗi lớp sẽ có các đơn vị nơ-ron thần kinh (nodes) Các nodes trên mỗi layer sẽ được kết nối với các nodes ở layer trước đó Chính vì kiến trúc được cấu tạo nhằm để xử lý thông tin theo từng lớp có kiên kết chặt chẽ với nhau (minh hoạ Hình 2.1), CNN được ứng dụng rat nhiều trong việc phân tích thong tin Ứng dụng phổ biến nhất của CNN chủ yếu là ở các toán liên quan đến hình ảnh như nhận dạng khuôn mặt, vật thể từ hình ảnh, video clips,

Phần tiếp theo sẽ trình bay chi tiết cu thể về các thành phần cấu tạo của một mạng CNN cơ bản.

Input Convolutional+ Pooling Convolutional+ Pooling Convolutional+ Pooling Fully Connected Output

Activation Layers Layers Activation Layers Layers Activation Layers Layers Layers

Hình 2.1: Minh hoa kiến trúc của một mang CNN cơ bản.

Các lớp tích chập - Convolutional Layers

Một thành phần quan trọng không thể thiếu của một mạng CNN đó chính là các lớp tích chập (convolutional layers) Các lớp này có nhiệm vụ thực hiện trích xuất các đặc điểm đặc trưng của dữ liệu đầu vào và biểu diễn dưới dạng ma trận gọi feature maps Để tìm ra các features maps, convolution layers sử dung một khung kênh cửa số (kernel) để trượt trên toàn bộ dữ liệu đầu vào, tại mỗi vùng được cửa số kernel trượt tới, một phép nhân tích chập sẽ được thực hiện để tìm ra ma trận biểu diễn thông tin dữ liệu gốc (Hình 2.2) Ta có thể điều chỉnh kích thuớc (kernel_ size) và bước nhảy của kênh cửa số nay (stride) Cần lưu ý rằng, kích thước của cửa số càng nhỏ thì thông tin nội dung của đặc điểm được trích xuất càng chỉ tiết và cụ thể, tuy nhiên cũng có thể làm giảm bớt dữ kiện về không gian của đữ liệu gốc đầu vào, vì lẽ đó, việc lựa chọn kernel_ size và stride phụ thuộc nhiều vào yêu cầu của bài toán ta đang hướng đến.

Các lớp kích hoạt phi tuyến - Activation Non-linear Layers

Về bản chất, các lớp tích chập thực chất là các phép biến đổi tuyến tính Việc chỉ sử dụng một loạt các lớp biết đổi tuyến tính không thực sự có tác dụng đối với các bài toán đặc biệt yêu cầu chúng ta cần khám phá được những điểm phức tạp của dữ liệu, như các bài toán mà dữ liệu không có dạng tuyến tính như dự đoán cổ phiếu, phân loại hình ảnh đầu vào Vì lí do đó, sử dụng kết nối phi tuyến vào các mạng học sâu sau mỗi lớp tích chập là cần thiết Một số loại hàm kích hoạt phi tuyến tiêu biểu nhất hiện nay như là hàm Sigmoid (hàm này nhận dữ liệu đầu vào là số thực và trả về kết quả nằm trong khoảng từ 0 đến 1 nên thường được dùng để biểu trưng cho xác suất trong một số bài toán), hàm

ReLu (hàm này đơn giản chi lọc các giá trị âm, do phép tính toán đơn giản

11 và nhanh, độ chính xác cao nên hàm ReLu được sử dụng rộng rãi trong những nằm gần đây) và còn một số hàm kích hoạt khác nữa như Tanh, LeakyReLu,

Các lớp chuẩn hoá - Normalization Layers

Lớp chuẩn hoá có tác dụng chuẩn hoá giá trị pixels về một khoảng nhất định nào đó Tác dụng của lớp chuẩn hoá được thể hiện rõ trong việc làm ổn định, tránh trường hợp có sự biến thiên mạnh mẽ trong quá trình huấn luyện mạng học sâu, giúp tối ưu hoá được đầu ra của mạng.

Các lớp chiết xuất - Pooling Layers

Mụctiêu ẶẶ LẺ s 6

Trong đề tài lần này, chúng tôi tập trung xử lý các thách thức của bài toán chuyển đổi phong cách ảnh cũng như giải quyết câu hỏi "Làm sao để tạo ra ảnh cách điệu dựa trên câu mô tả ngôn ngữ tự nhiên?" Để đạt được điều đó, chúng tôi đề xuất ra một mô hình cũng như xây dựng riêng cho đề tài một bộ dữ liệu

6 để chuyển đổi phong cách ảnh chân dung người Cụ thể, mục tiêu của chúng tôi như sau: e Khảo sát và tìm hiểu các kiến thức, nghiên cứu liên qua đến các mô hình học sâu được sử dụng trong đề tài e Xây dựng thành công mô hình học sâu trong việc chuyển hoá phong cách ảnh nghệ thuật dựa trên câu mô tả tự nhiên e Xây dựng mô hình minh hoạ cho kết quả nghiên cứu

Như đã dé cập ở trên, để xây dựng một phương pháp có thé sinh ra ảnh cách điệu có chất lượng cạnh tranh với các nghiên cứu trước đó, chúng tôi sẽ tập trung vào phạm vi chân dung ảnh người do đó là đối tượng rất quan trọng trong cuộc sống, dễ kiểm soát.

1.3 Đóng góp của khoá luận Để hệ thống lại, đề tài của chúng tôi có những đóng góp như sau: e Xây dựng riêng một bộ dữ liệu ảnh chân dung người riêng biệt cho đề tài gồm hơn 70 000 ảnh e Dề xuất một mô hình end-to-end cũng như các phương pháp tối ưu hoá để sinh ra ảnh cách điệu dựa trên đầu vào là một cặp gồm ảnh và câu văn miêu ta ngôn ngữ tự nhiên e Hệ thống tương tác cho phép người dùng truy cập, kiểm thử để sinh ra ảnh mang phong cách nghệ thuật mà họ mong muốn

Các nghiên cứu liên quan

2.1 Kiến thức tong quan về mạng CNN

Trong phần này, chúng tôi sẽ trình bày tổng quan các kiến thức nền tảng cần phải có để tiến hành công việv nghiên cứu về bài toán chuyển hoá phong cách anh dưa trên câu mô ta tự nhiên như mạng tích chập, mô hình mang học sâu,

2.1.1 Tổng quan về Deep Learning

2.1.2 Tổng quan về Convolutional Neural Network

Các lớp chiết xuất cũng đóng một vai trò vô cùng quan trọng không thể thiếu trong một mang CNN cơ bản, tác dụng của các lớp này chính là làm giảm chi phí tính toán của mạng Các lớp chiết xuất sẽ xét trên một vùng kênh cục bộ nó tự quy định trước đó để tính toán, tổng hợp và làm giản lược các thông tin của ma trận dau ra của lớp trước Có thể kế đến các cách chiến xuất thông tin ma trận tiêu biểu sau đây: max pooling (tổng hợp thông tin ma trận bằng cách lấy giá trị lớn nhất trong vùng lân cận đang xét), average pooling (tổng hợp thông tin ma trận bằng cách lấy giá trị trung bình trong vùng lân cận đang xét), Vùng đang được xét có kích thích càng lớn và bước nhảy càng lớn thì phạm vi ảnh hưởng càng lớn và ngược lại.

Các lớp kết nối đầy đủ - Fully Connected Layers Đây là các lớp ở vị trí cuối cùng nhưng không thể thiếu trong một mạng học sâu Các bản đồ sau khi được trích xuất ở các lớp tích chập trước đó sẽ được

Đóng góp của khoá luận cẶẶẶẶ So ĩ

Để hệ thống lại, đề tài của chúng tôi có những đóng góp như sau: e Xây dựng riêng một bộ dữ liệu ảnh chân dung người riêng biệt cho đề tài gồm hơn 70 000 ảnh e Dề xuất một mô hình end-to-end cũng như các phương pháp tối ưu hoá để sinh ra ảnh cách điệu dựa trên đầu vào là một cặp gồm ảnh và câu văn miêu ta ngôn ngữ tự nhiên e Hệ thống tương tác cho phép người dùng truy cập, kiểm thử để sinh ra ảnh mang phong cách nghệ thuật mà họ mong muốn

Kiến thức tổng quan về mạng CNN

Tổng quan về Deep Learning

Tổng quan về Convolutional Neural Network

Các lớp chiết xuất cũng đóng một vai trò vô cùng quan trọng không thể thiếu trong một mang CNN cơ bản, tác dụng của các lớp này chính là làm giảm chi phí tính toán của mạng Các lớp chiết xuất sẽ xét trên một vùng kênh cục bộ nó tự quy định trước đó để tính toán, tổng hợp và làm giản lược các thông tin của ma trận dau ra của lớp trước Có thể kế đến các cách chiến xuất thông tin ma trận tiêu biểu sau đây: max pooling (tổng hợp thông tin ma trận bằng cách lấy giá trị lớn nhất trong vùng lân cận đang xét), average pooling (tổng hợp thông tin ma trận bằng cách lấy giá trị trung bình trong vùng lân cận đang xét), Vùng đang được xét có kích thích càng lớn và bước nhảy càng lớn thì phạm vi ảnh hưởng càng lớn và ngược lại.

Các lớp kết nối đầy đủ - Fully Connected Layers Đây là các lớp ở vị trí cuối cùng nhưng không thể thiếu trong một mạng học sâu Các bản đồ sau khi được trích xuất ở các lớp tích chập trước đó sẽ được

12 làm duõi (flatten) trước khi được đưa vào các lớp kết nối đầy đủ để thực hiện việc phân loại lớp, gán nhãn Các lớp kết nối đầy đủ có hàm softmax ở cuối để trả về kết quả là một vector có kích thước bằng số lớp trong tập dữ liệu gốc ban đầu, chứa xác suất biểu thị khả năng đối tượng đang xét thuộc lớp nhãn nào là cao nhất.

Bài toán Chuyển hoá phong cách ảnh

Giới thiệu về bài toán 2.2 ee 13

Trong những năm gần đây, trí tuệ nhân tạo đã có cho mình những bước tiến nhảy vọt nhờ vào sự ra đời của loạt công nghệ tiên tiến Giờ đây, máy móc không những có thể mô phỏng lại những kỹ năng cơ bản của con người như nhận diện và phân loại đối tượng, đọc và hiểu văn ban, mà còn có khả năng đặc biệt như sáng tạo ra các sản phẩm, đòi hỏi trí tưởng tượng, tính chuyên môn cao như các tác phẩm hội hoạ, sáng tác ra các bài nhac, Điển hình phải kể đến lĩnh vực

Thị giác Máy tính (Computer Vision), các nghiên cứu trong lĩnh vực này đã tái hiện lại thành công các chức năng phức tạp của hệ thống cũng như tư duy thị giác của con người Chúng tôi sẽ tập trung vào khả năng sáng tạo ra nội dung của máy móc thông qua bài toán

Như đã đề cập ở trên, chúng tôi sẽ tập trung vào khả năng sáng tạo ra nội dung của máy móc thông qua việc trình bày chi tiết về các công trình nghiên cứu đã có các đóng góp chính cho bài toán chuyển hoá phong cách ảnh Để có cái nhìn tổng quan, các nghiên cứu sẽ được chia thành hai phần riêng biệt dựa vào phương pháp đề xuất cũng như các đóng góp chính.

2.2.2 Hướng tiếp cận sử dụng đặc trưng ảnh cấp thấp

Dựa trên hiểu biết của chúng tôi, mặc dù được áp dụng rộng rãi thành các các ứng dụng trong cuộc sống, chuyển hoá đặc trưng ảnh với đa dạng phong cách khác nhau vẫn là một đề tài vô cùng thách thức và có nhiều khó khăn.

Trong khoảng 20 năm, kể từ khi bài toán được phát biểu lần đầu tiên, hàng loại các đề xuất tiêu biểu ra đời, trong đó các nghiên cứu tiên phong giải quyết bài toán chuyển hoá phong cách ảnh phải kể đến nghiên cứu sử dụng giải thuật Numerous Non-Photorealistic Rendering (NPR) để tạo nên các hình ảnh thi giác mang tính nghệ thuật Kỹ thuật này chủ yếu được vận dụng nên các hình ảnh đầu vào trong không gian hai chiều 2D với tên gọi là Image-based Artistic

Rendering (IB-AR) Dựa trên cùng ý tưởng với IB-AR của Kyprianidis và cộng sự, hàng loại các nghiên cứu ra đời tiếp theo, chúng tôi xin chia thành bốn nhóm đóng góp chính như sau:

Phương pháp kết xuất hình ảnh dựa trên đường viền

Stroke-based redering hay còn gọi là SBR đề xuất quá trình thay thế dần các đặc trưng thị giác cơ bản của bức ảnh nội dung kỹ thuật số ban đầu bằng các đặc trưng nổi bật của bức ảnh với phong cách cụ thể (ví dụ như đường viền, nét vẽ màu, nét vẽ gạch nối, sọc ca-ro, ) cho đến khi tạo ra một hình ảnh kết quả có nội dung của ban đầu nhưng thừa hưởng phong cách kết cấu, hoa văn của phong cách tham chiếu Để làm đợc điều đó, một hàm mục tiêu được thiết kế để hướng dẫn vị trí các nét được phong cách được áp dụng bằng thuật toán tham lam hoặc đơn giản là một vòng lặp Do đó, chúng ta có thể suy ra được, về ưu điểm, thuật toán rất hiệu quả trong việc mô phỏng lại các kiểu phong cách rất phổ biết và được định nghĩa sẵn như tranh sơn dầu, tranh pha màu, vẽ

14 chi, Tuy nhiên, đó cũng chính là nhược điểm làm cho thuật toán không có tính linh hoạt, chỉ có thể chuyển hoá tốt một số phong cách ảnh nhất định.

Phương pháp kết xuất hình ảnh dựa trên vùng được chọn

Khác với các nghiên cứu trước đó dựa trên các đặc điểm như đường viền, nét vẽ, Năm 2008, Song và các cộng sự sử dụng phương pháp Region-Based (RB) dùng phân đoạn ảnh để tìm ra các vùng cần được kết xuất đặc trưng của ảnh, bằng cách này, thuật toán có thể quan tâm nhiều vùng ngữ nghĩa khác nhau trong cùng một bức ảnh và thay thế nó bằng các đặc trưng từ ảnh chứa phong cách thao khảo Vì cải tiến này, ưu điểm của kỹ thuật RB chính là cho phép việc kiểm soát cục bộ được mức độ của phong cách được chuyển hoá, tuy nhiên những nghiên cứu nằm trong nhóm đóng góp này vẫn chưa thể giải quyết được nhược điểm của các đề xuất tiền nhiệm chính là thuật toán không có tính linh hoạt.

Phương pháp kết xuất hình ảnh dựa trên mẫu

Cách tiếp cận của phương pháp này xuất phát từ ý tưởng so sáng và tìm kiếm các đặc trưng tương tự nhau giữa cặp ảnh đầu vào và được đề xuất trong nghiên cứu mang tên Image analogies được đề xuất bởi Hertzmamn và các cộng sự Kỹ thuật này sẽ học cách giám sát ánh xạ ảnh nội dung về ảnh cách điệu mục tiêu và tìm kiếm các cách biến đổi tương tự từ các cặp ảnh khác, ví dụ như cách để đặt các đường viền phong cách để kết xuất nên hình ảnh vẽ chân dung từ ảnh gốc của con người ban đầu Về ưu điểm, Hertzmann đã đề xuất phương pháp tiên phong sử dụng nguyên tắc cho bài toán chuyển hoá ảnh với đầu vào là một cặp ảnh bao gồm ảnh nội dung và ảnh phong cách, do đó các nghiên

15 cứu trong nhóm đóng góp này có khả năng sinh hình rất tốt, linh hoạt đa dạng với các phong cách khác nhau Tuy nhiên, thuật toán vẫn còn hạn chế lớn đó chính là chỉ sử dụng những đặc trưng cấp thấp của hình anh dan đến việc Image analogies thất bại trong việc nắm bắt được hết các đặc điểm của ảnh nội dung và ảnh phong cách.

Phương pháp xử lý ảnh và sử dụng bộ lọc Đóng góp chính của nhóm nghiên cứu này bao gồm việc đề xuất sử dụng thêm các bộ lọc trong xử lý ảnh với ý tưởng là tạo nên một hình ảnh nghệ thuật là quá trình nhằm mục đích đơn giản hoá hình ảnh và làm cho hình ảnh trở nên trừu tượng hơn Tiêu biểu là các đề xuất của Winnemoller và các cộng sự sử dụng bộ lọc bilateral và đề xuất sử dụng bộ lọc Gaussian để tạo nên các hiệu ứng như trong các bộ phim hoạt hình Để tổng kết, các nghiên cứu về vấn đề sinh ra ảnh cách điệu mà không sử dụng sự hỗ trợ của mạng học sâu tích chập tuy đã có cho mình những đóng góp vô cùng quan trọng, làm tiền đề cho các công việc nghiêcn cứu sau này Các phương pháp ấy đều tồn động một hạn chế rât lớn cần phải được khắc phục đó chính là hạn chế trong tính linh hoạt, không thể chuyển đổi các phong cách đa dạng khác nhau theo ý của người dùng.

2.2.3 Hướng tiếp cận sử dụng đặc trưng ảnh cấp cao

Nhận thấy được những khó khăn và khuyết điểm của các kỹ thuật sử dụng đặc trưng cấp thấp của hình ảnh để chuyển kiểu, đòi hỏi phải trích xuất được đặc trưng cấp cao của anh một cách tự động và ảnh đầu vào phải theo nguyên tắc cho phép người dùng có thể tuỳ chọn phong cách thao khảo Trong phần này, chúng tôi sẽ đề cập chi tiết đến các nghiên cứu sử dụng hướng tiếp cận sử đặc

16 trưng cấp cao của ảnh.

Thập niên 2010s là khoảng thời gian mà các mạng tích chập hoc sâu CNN phát triển và được cải tiến không ngừng Tận dụng điều đó, các nhà nghiên cứu đã luôn đặt câu hỏi "Làm thế nào để máy móc tạo ra các tác phẩm nghệ thuật bằng cách sử dụng não bộ như con người?" Dựa trên ý tưởng đó, hàng loạt nghiên cứu ra đời, tiên phong chính là đề xuất Neural Style Transfer (NST) của Gayts và các cộng sự [6] Các nghiên cứu sau đó đều dựa trên ý tưởng của

NST nên chúng tôi sẽ trình bày các nhóm nghiên cứu nổi bật và được chia thành hai nhóm nghiên cứu chính liên quan đến NST.

Chuyển hoá phong cách ảnh sử dụng mạng thần kinh học sâu và phương pháp tối ưu hoá trực tuyến

Vào năm 2016, nghiên cứu Neural Style Transfer [6] cho bài toán chuyển hoá phong cách ảnh của Gayts và các cộng sự đã gây dựng nên tiếng vang vô cùng lớn Với đầu vào là một cặp ảnh nội dung ỉ và ảnh phong cỏch đ, đề xuất này lần đầu tiên định nghĩa về việc sử dụng mạng nhân tạo học sâu để trích xuất các đặc trưng cấp cao của ảnh nội dung và ảnh phong cách # một cách riêng biệt, sau đó kết hợp chúng lại để sinh ra ảnh đã được cách điệu nghệ thuật (Hình 2.2.

Hướng tiếp cận sử dung đặc trưng ảnh cấp cao

Ngoài ra, còn rất nhiều nghiên cứu khác nhằm phát triển cho giải thuật NST áp dụng rộng rãi cho videp clip [29], nâng cấp sinh ảnh cách điệu không chỉ trong không gian 2 chiều mà thay vào đó được áp dụng trong không gian 3 chiều, chuyển hoá phong cách quần áo áp dụng cho ngành thời trang [12],

Bài toán phân đoạn ngữ nghĩa hình ảnh

Các mô hình mạng tiêu biểu

Mô hình kiến trúc Fully Convolutional Layers

Mô hình kiến trúc Fully Convolutional Layers hay còn gọi là FCNs, là công trình nghiên cứu đầu tiên sử dụng mạng tích chập học sâu cho bài toán phân đoạn ngữ nghĩa, được đề xuất bởi J.Long và các cộng sự vào năm 2015 [21], ý tưởng công trình này xuất phát từ mô hình phân loại vật thể trong ảnh thông thường Tức là, thay vì ảnh đầu vào sẽ đi qua các lớp tích chập học sâu để trích xuất đặc trưng, cuối mạng, các đặc trưng ấy sẽ đi qua một lớp kết nối đầy đủ

(fully connected layer) để dự đoán xác suất thuộc nhãn nào cao nhất, FCNs sẽ

28 thay thế các lớp kết nối cuối cùng đó thành lớp tích chập 1z1 để nhận được đầu ra là một loạt nhãn ở mức độ chính xác từng điểm ảnh (minh hoạ kiến trúc mô hình ở hình 2.5 forward/inference

Hình 2.5: Minh hoa kiến trúc mô hình mang hoc sâu FCNs được đề xuất bởi

J.Long va các cộng sự, ở cả giai đoạn kiểm thử và huấn luyện, các hình ảnh đầu vào đều lần lượt đi qua các lớp tích chập để trích xuất thông tin, và cuối cùng là một lớp tích chập có kích thước 1x1 (pixelwise prediction) để dự đoán nhãn của từng điểm ảnh [21].

Mô hình FCNs đã có những đóng góp nổi trội và tiêu biểu, mô hình cũng có những ưu điểm nhất định chính là dễ triển khai và không yêu cầu lượng tài nguyên lớn, tốc độ thực thi nhanh gần như trong thời gian thực Tuy nhiên, hiệu suất của mô hình không hiệu quả trên các vật thể có kích thước quá to hoặc quá nhỏ so với khung hình.

Mô hình kiến trúc Unet Để giải quyết các khuyết điểm của mô hình FCNs, năm 2015, Ronneberger và các cộng sự đề xuất áp dụng mô hình U-net [28] Về tổng quan, kiến trúc của mạng U-net cũng sử dụng hai mạng bao gồm một mang Encoder để trích xuất đặc trưng ảnh và một mang Decoder có nhiệm vu tái tạo lại ảnh ban đầu, duy U-net có một đóng góp đột phá đó chính là sử dụng các lớp kết nối skip-connection để kết hợp các đặc trưng trích xuất ở các lớp khác nhau Việc này cũng nhằm mục đích chính là để tận dụng tất cả các thông tin đầu vào của ảnh.

Vì hình dáng của mô hình mạng sau khi được trực quan hoá, Ronneberger và các cộng sự đã đặt tên cho kiến trúc trên chính là U-net (mô hình được minh hoạ ở hình 2.6) Ảnh đầu vào sẽ đi vào các lớp tích chập trong mang Encoder để trích xuất đặc trưng ảnh, trong khi đó mang Decoder sẽ làm nhiệm vụ phục hồi lại ảnh dựa trên các thông tin đã được trích xuất Tai các lớp skip-connections, các thông tin của mang Encoder cũng được chuyển đổi trực tiếp đến các lớp trong mang Decoder thông qua ham concatenation để tránh mất mát dữ liệu đặc trưng trong quá trình huấn luyện Cần lưu ý thêm một điều, đó chính là thay vì sử dụng các bộ lọc để "trượt" trên toàn bộ ảnh đầu vào (mục 2.1.2),

U-net chia cắt ảnh thành các "mảnh" bằng nhau và đưa các "mảnh" ảnh ấy vào mô hình mạng. Để tổng quan, sự đề xuất của mô hình U-net đã mang lại một bước tiến lớn cho bài toán phân đoạn ngữ nghĩa hình ảnh Đặc biệt, U-net hoạt động rất hiệu quả trên các bài toán liên quan đến phân loại vật thể trong lĩnh vực y tế, giúp cải thiện cả về hiệu suất lan tốc độ thực thi của các mô hình phân đoạn ngữ nghĩa trước đó, ngay cả khi trong điều kiện thiếu sót dữ liệu huấn luyện, Thuật toán có một nhược điểm duy nhất đó chính là quy trình huấn luyện mô hình

=> conv 3x3, ReLU copy and crop ¥ Max pool 2x2

Hình 2.6: Minh hoa kiến trúc mô hình mang học sâu U-net [28]. tốn thời gian rất dài.

Trong bài toán này, chúng tôi chỉ tập trung và tận dụng công trình của mô hình U-net để xử lý dữ liệu cũng như thực hiện quá trình đánh giá, huấn luyện mô hình đề xuất.

Bài toán tạo sinh và phân loại hình ảnh dựa trên câu mô tả ngôn ngữ tự nhiên ee 31

Giới thiệu về bài toán 2.2.2

Trong những năm gần đây, dưới sự phát triển của trí tuệ nhân tạo, con người có thể dùng máy móc để thoả mãn trí tưởng tượng của mình Những hình ảnh mà chúng ta ngỡ chỉ có trong suy nghĩ như "Một người đàn ông có mái tóc rực

Bài lửa", "Người phụ nữ mặc áo có hoạ tiết mèo theo phong cách tác phẩm nghệ thuật Starry Night của danh hoạ Van Gogh", Những phong cách trên khi thực hiện tìm kiếm trên mạng xã hội hay các công cụ tìm kiếm như Google, Bing vô hình chung có thể kiến cho người dùng mất một lượng thời gian lớn để tìm được hình ảnh phù hợp, hoặc thậm chí không có nguồn hình nào mô tả rõ đúng nội dung hay phong cách tham khảo mà người dùng mong muốn Để thực hiện hoá điều đó, hàng loạt các nghiên cứu ra đời, sử dụng mô hình học sâu nhằm với đầu vào là một câu miêu tả về nội dung bức ảnh, ta sẽ có đầu ra là bức ảnh mang nội dung ngữ nghĩa đúng với như ý nghĩa mà cầu mô tả đề cập đến.

2.4.2 Phương pháp tao sinh ảnh truyền thống

Một trong những đề xuất tiên phong cho chủ đề máy móc tạo sinh ảnh chính là những nghiên cứu có liên quan đến mô hình Tạo sinh ảnh đối kháng hay còn được biết đến phổ biến hơn với cái tên Generative Adversarial Network

(GAN) Năm 2014, tại hội nghị NIPS, GoodFellow và các cộng sự 1a đầu tiên đề xuất mang GAN [7] dụng sự kết hợp giữa hai mạng hoc sâu, hỗ trợ nhau song song để sinh ảnh từ một nhiễu z bất kì, hết hợp với bộ dữ liệu ảnh thật đầu vào trong quá trình huấn luyện (minh hoạ kiến trúc mô hình ở hình 2.7, cụ thể, hai mạng ấy có cấu trúc và ý nghĩa như sau: e Mang Generator: Như tên gọi, mạng sinh ảnh sẽ học cách để sinh ra bộ ảnh giả có chất lượng cao và có thể đánh lừa được mô hình mang Discriminator. e Mạng Discriminator: Để giúp cho giai đoạn sinh ảnh của mạng generator được cải thiện, discriminator phải học cách phân biệt được đâu là những mẫu thật trong bộ dữ liệu và mẫu "gia" được sinh ra ở giai đoạn trưỡc đó.

{qe veo ne see 8662 30101Gđ216008050 6003636 3eposggglesošSESSá0SEEUSES0230251 0sgga

Hình 2.7: Minh họa quá trình huấn luyện mô hình GAN của GoodFellow và các cộng sự [7]. Để tổng quan, thuật toán mô hình mạng GAN hoạt động như sau: e Bước 1: GAN nhận đầu vào gồm bộ dữ liệu ảnh that x và các nhiễu z Giai đoạn đầu z sẽ được đưa vào mang Generator G tạo thành các ảnh giả G(z). Cần lưu ý rằng, ở những vòng lặp đầu tiên, các ảnh sinh ra là những ảnh nhiễu không có giá trị ngữ nghĩa. e Dước 2: Sau khi mạng Generator sinh ảnh, thuật toán sẽ nhận ảnh thật z và anh sinh G(z) đưa vào mang Discriminator D để thực hiện phân loại ảnh thật, ảnh giả Hiểu đơn giản, đầu ra cuối cùng của Discriminator là một hàm sigmoid và ham này sé dự đoán xác suất ảnh đầu vào thuộc nhãn

1 (ảnh thật) hay nhãn 0 (ảnh giả). e Dước 3: Thuật toán thực hiện quá trình backpropagation, dựa vào kết quả phân loại của Discrinator (được mô tả cụ thể ở công thức 2.11, Generator

33 sẽ cải thiện khả năng sinh ảnh của mình và Discriminator cũng học được cách phân biệt ảnh thật giả tốt hơn. Để tổng quát lại, ta có thể xem quá trình huấn luyện mô hình mạng GAN như một trò chơi đối kháng giữa hai nhân vật Generator và Discriminator Trong lĩnh vực trí tuệ nhân học, còn được gọi là trò chơi Miximax và hai nhân vật sẽ cố gắng hoàn thành hai mục tiêu đối lập nhau.

Công thức 2.11 mô tả hàm mục tiêu V(D,G), ming maxp V(D,G) tức là Gen- erator phải học cách để làm tối thiểu hoá xác suất sự khác biệt giữa ảnh thật và giả trong khi Discriminator cố gắng làm công việc ngược lại V(D,G) bằng tổng kỳ vọng E của trung bình dữ liệu của tất cả ảnh đầu vào Cụ thể hơn, paata (x),

P(z) lần lượt là phân phối xác suất của ảnh thật z và ảnh giả G(z). mịn max V(D,@) = Ty „,„„.(J[l0g D(@)] + E„„,„(2jJos(1— P(G(2)))] — (2.11)

Từ đề xuất ban đầu về GAN của GoodFellow và các cộng sự, hàng loạt các nghiên cứu về vấn đề tạo sinh dữ liệu ra đời, nếu các nghiên cứu như LSGAN

[22] đề xuất thay đổi các hàm mục tiêu để giải quyết vấn đề xảy ra hiện tượng vanishing gradient 6 mang Generator của mô hình GAN ban đầu [7], hay các biến thể của mang GAN như CyCleGAN [2] sử dụng hai mang Generator tương ứng với hai mang Discriminator để thực hiện việc sinh ảnh cho các bài toán cụ thể như biến đổi mặt người thành ảnh người trong các bộ phim hoạt hình, biến đổi ảnh ban đêm thành ban ngày hoặc nghiên cứu về mạng cGAN (conditional GAN) [23] đề cập đến công trình kiểm soát nội dung nhiễu đầu vào z để tạo ra ảnh như ý muốn của người dùng

Nhìn chung các phương pháp xoay quanh chủ đề tạo sinh ảnh truyền thống đã nêu lên những tiền đề tiên phong cho vấn đề giúp máy tính thừa hưởng khả

34 năng sáng tạo ảnh giống như con người và tập trung giải quyết rất tốt các tình huống cụ thể được đề ra Tuy nhiên, vô hình chung, đây cũng chính là nhược điểm của các phương pháp trên, do vẫn chưa có tính khái quát cho tất cả các trường hợp trong giai đoạn triển khai, ngoài ra, quá trình chuẩn bị dé liệu huấn luyện cho các kỹ thuật trên đều tương đối phức tạp.

2.4.3 Tong quan về Học với không mẫu dữ liệu

Từ các khó khăn phát sinh đã được đề cập ở trên với các phương pháp tạo sinh ảnh truyền thống (mục 2.4), câu hỏi được đặt ra là "Làm sao có thể thiết kế một mô hình máy học có tính khái quát cao trong cuộc sống?", "Liệu có một phương pháp máy học nào có thể hoạt động tốt trên cả các mẫu dữ liệu mà chúng chưa được tiếp xúc bao giờ?" Do đó, trong phần này, chúng tôi sẽ trình bày một phương pháp học, có thể giải quyết được cả hai vấn đề quan trọng trên.

Phương pháp ấy chính là "Học với không mẫu dữ liệu" hay còn được biết với cái tên là Zero-shot Learning.

Nếu như trong các bài toán thuộc lĩnh vực thị giác máy tính mà chúng ta thường gặp như Face Recognition, Animals Classification sử dụng kỹ thuật hoc

One-shot learning, tức là cách máy học sé dựa trên một hoặc nhiều mau đã xuất hiện trong quá trình huấn luyện mô hình để thực hiện nhiệm vụ mục tiêu trên các mẫu mới nhưng thuộc phạm vi và có cùng nhãn với các mẫu đã được huấn luyện Điều này dẫn đến việc khi xuất hiện nhãn mới, ta phải huấn luyện lại toàn bộ mô hình để đáp ứng việc kích thước của đầu ra tăng theo số lượng nhãn mới gây mất tài nguyên tính toán, nhân lực cũng như thời gian. Để giải quyết điều đó, nhiều kỹ thuật học máy khác ra đời, trong đó, tiêu biểu phải kế đến Zero-shot Learning, về cơ bản, kỹ thuật này sẽ thực hiện

30 nhiệm vụ trên các mẫu thuộc nhãn mới mà mô hình trước đó chưa từng được huấn luyện hay "nhìn thấy" bao giờ Mà thay vào đó, mô hình sẽ học cách phân biệt mẫu mới trong quá trình kiểm nghiệm dựa trên sự bổ sung của các câu mô tả, thông tin bổ trợ đã được mã hoá về đối tượng mới ấy Kỹ thuật này giúp máy học nhận diện các tác vụ mà không cần phải huấn luyện lại toàn bộ mô hình, giúp tiết kiệm thời gian tính toán cũng như chi phí máy móc một cách đáng kể.

Tổng quan về Học với không mẫu dữ liệu

Tổng quan về phương pháp đề xuất

Trong mục này, chúng tôi sẽ trình bày quá trình thu thập để tạo nên bộ dữ liệu ảnh nghệ thuật chân dung người dựa trên câu mô tả để hỗ trợ cho quá trình kiểm thử hiệu suất của phương pháp đề xuất StyleRegionFace2K cùng với đóng góp mô hình sinh ảnh cách điệu nghệ thuật dựa trên câu mô tả Image Style Transfer with CLIP and Segmentation - ISTCS Mô hình của chúng tôi sẽ bao gồm 3 giai đoạn chính - giai đoạn tìm vùng ảnh quan tâm, giai đoạn cách điệu nghệ thuật vùng ảnh và giai đoạn hoà trộn lớp ảnh vào ảnh gốc để sinh ảnh kết quả.

Chúng tôi xây dựng một phương pháp step-by-step để sinh ảnh cách điệu nghệ thuật dựa trên câu mô tả Dữ liệu đầu vào của quá trình huấn luyện bao gồm tập các ảnh nội dung C = {ei,cs c„}, các câu văn ngôn ngữ tự nhiên miêu tả t,, các ảnh phân đoạn M = {m1,m2 mm} tương ứng với 19 nhãn của ảnh nội dung c Mô hình của chúng tôi sẽ học để tạo ra ảnh ảnh mục tiêu

X = {zi,zs z„} có thể biểu thị được nội dung ngữ nghĩa cũng như yếu tố

40 nghệ thuật được thể hiện trong câu văn mô tả mục tiêu t, Mô trình tổng quát được mô tả ở hình 3.1.

Câu mô tả phong cách module UM }—> Lair + Leontent + Lpatch = Leotal CLIP

Hình 3.1: Minh hoa quá trình huấn luyện mô hình Giai đoạn 1, chúng tôi trích xuất vùng ảnh được quan tâm của người dùng từ ảnh nội dung thông qua bài toán phận đoạn ngữ nghĩa ảnh Sau đó trích xuất thông tin toạ đoạ của vùng ảnh quan tâm và tiến hành cách điệu vùng ảnh đó ở giai đoạn thứ 2 Cuối cùng, sử dụng giải thuật alpha blending để sinh ảnh kết quả dựa trên cặp ảnh cách điệu chỉ vào vùng mà chúng ta mong muốn và ảnh phân đoạn vào mạng generator để sinh ảnh cách điệu Câu văn mô tả phong cách cũng được đưa qua mô hình pretrained CLIP [24] để đạt được vector đặc trưng.

Giai đoạn tìm vùng ảnh -.0.- 42 3.3 Giai đoạn cách điệu vùng ảnh

Trích xuất đặc trưng câu văn mô tả phong cách

Song song đó, chúng tôi tận dụng công trình mô hình CLIP được đề xuất [24] để trích xuất đặc trưng của của các câu mô tả phong cách Mục đích của công việc này nhằm giúp cho máy nhận được những đặc trưng được miêu tả trong câu văn phong cách Đầu ra của giai đoạn này sẽ được kết hợp với đặc trưng ảnh được trích xuất ở mang Encoder thông qua kỹ thuật multihead attention Cụ thể, với đầu vào là một bộ ba các ma trận giá trị bao gồm truy vấn (queries)

Q, khoá (key) K và giá trị (values) V Công thức 3.1 miêu tả rõ cơ chế hoạt động của lớp attention trong mô hình mạng, sử dụng công thức hàm softmax, đầu ra của lớp này là một ma trận các đặc trưng, lớp sofmax sẽ tính toán trọng

42 số thể hiện mức độ liên quan giữa bộ giải mã truy vấn Q và mức độ liên quan của bộ giải mã truy van K và V Ví dụ, đối với câu mô tả phong cách "a golden hair" cùng với các đặc trưng ảnh đã được trính xuất, các đặc trưng ấy sẽ đóng vai trò như bộ mã truy vấn Q trong khi đó K sẽ là vector của câu mô tả đã được mã hoá bởi mô hình CLIP [24] Chúng tôi mong muốn rằng mô hình sé học hỏi và thể hiện mức độ quan tâm lớn vào từ "hair" so với các từ khác, từ đó, khi đặc trưng trích xuất được đưa vào Decoder, ảnh tạo ra sẽ tập trung tạo hiệu ứng phong cách nghệ thuật ở vùng tóc (hair) của ảnh đầu vào Tương tự đối với các bộ phận được ánh xạ trong ảnh chân dung đầu vào.

Mô hình kiến trúc đề xuất

Để sinh ảnh, chúng tôi xây dựng một mô hình mạng mạng Generator với kiến trúc kế thừa từ mang U-net [28] có kiến trúc gồm hai mạng Encoder-Decoder, trong đó, mang Encoder sẽ học cách để trích xuất đặc trưng ảnh đầu vào trong khi mang Decoder sẽ học cách để sinh ảnh cách điệu từ những đặc trưng được trích xuất Ngoài ra, chúng tôi cũng sử dụng thêm các skip-connection ở mỗi lớp đặc trưng để lưu được giá trị thông tin ngữ nghĩa bị mất mát trong quá trình học Để tiết kiệm chi phí tính toán, chúng tôi lựa chọn kích thước channel tối đa cho các lớp của mạng generator là 512 và tối thiểu là 16 Kiến trúc của hai mạng Encoder và Decoder được miêu tả ở hình 3.2, cụ thể chúng là sự kết nối giữa nhiều khối Resblock khác nhau theo kiến trúc phân tầng, được minh hoạ ở hình 3.3 Đầu tiên, ảnh đầu vào sẽ đi qua một lớp tích chập với kích thước channel 1x1, đặc trưng được trích xuất sau lớp này sẽ đi vào các một tập các lớp

[tích chap Conv, chuẩn hoá Instance Normaliztion, kích hoạt ReLU, tích chập Conv, chuẩn hoá Instance Normalization, kích hoạt ReLU] Cuối cùng, chúng tôi sử dụng thêm một lớp tích chập Conv kích thước channel 1x1 để làm phẳng kích thước ma trận đặc trưng và đưa vào lớp Sigdmoid cuối cùng để hỗ trợ cho việc tính các hàm độ lỗi nhằm tối ưu hoá mạng.

—————=— =“.—==—=————=—.—.—.=.— LỐÔ ` RF°°sblock Ảnh nội dung i06 00000 —————————==—=m_m_m_m_m_— Resblock c32k3s1p1 c32k3s1p1

Resblock „Ác CC CA Van Resblock c128k3s1p1 c128k3s1p1

Hình 3.2: Minh hoạ kiến trúc mô hình generator được cấu tạo từ hai mạng

Quá trình tối ưu hoá sẽ được diễn ra ngay chính ở giai đoạn thực thi, để giúp cho ảnh sinh có chất lượng như với mục tiêu chúng tôi đề ra, các hàm độ lỗi được sử dụng để tối ưu hoá mô hình sinh ảnh trong quá trình huấn luyện Cụ thể các hàm độ lỗi ấy là: e Hàm độ lỗi nội dung: Nhằm cho decoder có khả năng sinh ảnh ma van giữ được giá trị ngữ nghĩa của ảnh nội dung, chúng tôi tái sử dụng hàm độ

Hình 3.3: Minh hoạ kiến trúc của khối Resblock. lỗi nội dung được đề xuất bởi Gayts và các cộng sự trong nghiên cứu NST

[6] với hàm độ lỗi Mean Squared để so sánh sự sai khác giữa ảnh đầu ra x với ảnh nội dung c (công thức 3.2).

Ham độ lỗi phong cách: Như đã đề cập từ trước, mục tiêu của chúng tôi là chuyển hoá phong cách nghệ thuật được thể hiện trong câu văn mô tả s sang ảnh nội dung.Để thực hiện điều đó, chúng tôi tận dụng mô hình pretrained CLIP [24] và áp dụng công thức 3.3, trong đó, ƒ biểu trưng cho hàm trích xuất đặc trưng của mô hình CLIP [24], Dorp là một ham tính khoảng cách cosine, hàm độ lỗi phong cách Legtyie sẽ giúp cho Decoder học được cách sinh ảnh có mang giá trị phong cách như ảnh mục tiêu Ngoài ra, vì mô hình pretrained CLIP chỉ nhận anh đầu vào với kích thước tối đa là 224x224, để phục vụ cho việc tối ưu hoá mô hình, chúng tôi cũng thêm một bước tiền xử lý để thay đổi kích thước của các ảnh nội dung đầu vào và ảnh mục tiêu trước khi đưa vào CLIP để trích xuất đặc trưng.

Lstyle (€, 8) = Dơrrp (ƒ (e),s) = max(cos(f(t),s), 0) (3.3) e Ham độ lỗi phong cách phân cụm: Tuy nhiên, nếu chỉ sử dung ham độ lỗi phong cách, chúng tôi nhận thấy rằng ở mỗi giai đoạn thực thi, ảnh cách điệu được sinh ra không ổn định về chất lượng Do đó, trong quá trình sinh ảnh, chúng tôi đề xuất cắt ảnh cách điệu ở mỗi vòng lặp thành N các cụm ảnh nhỏ hơn một cách ngẫu nhiên với kích thước 64x64 pixels Mô hình sẽ tìm cách để tối thiểu hoá hàm độ lỗi được mô tả ở công thức 3.4, trong đó, i là các cum được xét, N là tổng số các cum ảnh được chia nhỏ, s là đặc trưng được trích xuất ở câu văn mô tả. tno ` max(cos(f(t),s), 0) (3.4) N

Cuối cùng, chúng tôi tính tổng các hàm độ lỗi được đề cập trên thành hàm độ lỗi tổng hợp, được mô tả ở công thức Sau quá trình thực nghiệm, các trọng số À;, Ap và Ae được đặt lần lượt là 500, 9000 và 150.

Ttotal — Às style + ApLpatch + AcLicontent (3.5)

Giai đoạn pha trộn các lớp ảnh

Sau khi có được ảnh cách điệu với phong cách nghệ thuật mà câu mô tả phong cách Chúng tôi tiến hành áp dụng giải thuật alpha blending (công thức minh hoạ 3.6) Bộ dữ liệu sẽ được dùng để đem đi huấn luyện mô hình.

Trong đó, F là giá tri pixel của anh đóng vai trò như anh foreground mà trong bài toán này chính là ảnh cách điệu B là giá trị pixel của anh background hay ảnh nội dung, bộ ảnh phân đoạn sẽ đóng vai trò như trọng số œ (vốn chỉ có hai giá trị pixel là 0 với 1), có tác dụng để nhận biết ảnh đầu ra 7 sẽ mang giá trị pixel của ảnh foreground hay background Từ đó, chúng tôi có thể tao ra ảnh mục tiêu với hiệu ứng chỉ tập trung vào vùng khuôn mặt mà người dùng miêu tả Để ảnh sinh ra có hiệu ứng "mượt" hơn và đạt chất lượng tốt về mặt trực quan, chúng tôi sử dụng thêm giải thuật xử lý ảnh Gaussian Blur Kết quả thực nghiệm được minh hoạ ở mục 4.

Thực nghiệm và Danh giá

Trong chương này ở chủ đề khoá luận tốt nghiệp, chúng tôi sẽ trình bày các phương pháp để kiểm tra hiệu suất của mô hình ISTCS mà chúng tôi đề xuất. Đầu tiên, chúng tôi chọn độ do Structural Similarity - SSIM để đo sự tương đương giữa ảnh được tạo ra trong quá trình huấn luyện dữ liệu với ảnh mục tiêu Ngoài ra, ở giai đoạn kiểm thử, chúng tôi sử dụng hai độ đo chính, là CLIP score để đo liệu hình ảnh cách điệu được sinh ra có truyền đạt tốt câu mô tả và thực hiện cuộc khảo sát người dùng để so sánh hiệu năng của mô hình với các nghiên cứu trước đó, và sử dụng thang do Likert Scale để thực hiện khảo sát.

Bộ dữ liệu thực nghiệm

Sau quá trình khảo sát các nghiên cứu liên quan đến bài toán, chúng tôi nhận thấy rằng, chưa có bộ dữ liệu nào thể hiện đúng yêu cầu cũng như mục tiêu bài toán mà chúng tôi hướng đến Công việc của chúng tôi là thực hiện chuyển hoá

48 phong cách ảnh nội dung đầu vào dựa trên câu mô tả phong cách và tập trung vào công việc tạo hiệu ứng nghệ thuật dựa trên vùng mà người dùng quan tâm. Để thực hiện nghiên cứu, chúng tôi cần các bộ dữ liệu chính bao gồm bộ ảnh dữ liệu chân dung người thật, dữ liệu gồm các câu văn miêu tả phong cách ảnh, và bộ dit liệu bao gồm các ảnh phân đoạn gồm 19 nhãn trong ảnh chân dung người.

Bộ dữ liệu này sẽ nhằm mục đích so sánh cho các phương pháp định lượng và định tính mà chúng tôi sẽ đề cập ở mục 4.

Cụ thể, chúng tôi đề xuất bộ dữ liệu StyleRegionFace2K gồm gần 2,000 ảnh có hiệu ứng nghệ thuật chỉ tập trung trong vùng mà chúng ta mong muốn Sau quá trình thực nghiệm và chạy thử, chúng tôi quyết định lựa chọn một cách ngẫu nhiên 10 ảnh chân dung người làm bộ dữ liệu ảnh nội dung và 190 ảnh ground truth tương ứng cho 19 nhãn (tóc, mắt, mũi, miệng ) từ bộ dữ liệu

CelebMaskHQ [17] Với dữ liệu câu văn miêu tả, chúng tôi tham khảo từ các nghiên cứu liên quan đến bài toán [16] và [1] Quá trình tạo bộ dữ liệu được minh hoa ở hình 4.1.

“Câu mô tả phong cách”

Hình 4.1: Minh hoa quá trình tạo bộ dữ liệu.

FID (Fréchet Inception Distance) là một độ đo được sử dung để so sánh sự khác biệt giữa hai phân phối ảnh Được giới thiệu lần đầu tiên bởi Martin Heusel và các đồng nghiệp vào năm 2017 [10], FID trở thành một trong những độ đo phổ biến nhất trong lĩnh vực học sâu.

FID được tính bằng cách sử dụng mô hình Inception v3 đã được huấn luyện trước để tính toán khoảng cách Fréchet giữa hai phân phối ảnh Dau tiên, mô hình Inception v3 được sử dụng để trích xuất đặc trưng từ ảnh Sau đó, hai phân phối đặc trưng được tính toán, một cho các ảnh thực tế và một cho các ảnh được tạo ra bởi mô hình sinh ảnh Cuối cùng, khoảng cách Fréchet giữa hai phân phối đặc trưng được tính toán để đưa ra FID. Độ do FID đánh giá khả năng của một mô hình sinh anh trong việc tao ra ảnh tương tự với các ảnh thực tế từ một phân phối đặc trưng FID càng thấp thì mô hình sinh ảnh càng tốt FID có thể được sử dung để so sánh nhiều mô hình sinh ảnh khác nhau để đánh giá hiệu quả của chúng Độ đo FID được minh hoạ cụ thể ở công thức 4.3.1, trong đó, c và t lần lượt là ảnh nội dung và ảnh mục tiêu sinh ra.

Chúng tôi thực hiện kiểm nghiệm độ so sánh khả năng sinh ảnh của ba phương pháp ISTCS (phương pháp đề xuất của chúng tôi), CLIPStyler [16], Text2Live [1] với độ đo FID gồm 2,000 ảnh trên bộ dữ liệu StyleFaceRegion2K,

50 nhằm kiểm thực khả năng sinh ảnh nhưng vẫn bảo tồn được giá trị đặc trưng hay ngữ nghĩa của ảnh nội dung FID càng thấp chứng tỏ khoảng cách đặc trưng của hai ảnh càng gần, chứng tỏ mô hình hoạt dộng tốt Kết quả trung bình được mô tả ở bảng 4.1 ISTCS có chỉ số FID trung bình không thấp bằng phương pháp Text2Live[l] nhất Nguyên nhân là do ảnh tạo sinh của phương pháp Text2Live[1] tập trung hiệu ứng chưa đúng vùng mô tả, dẫn đến ảnh sinh ra đa số không thay đổi nội dung quá nhiều so với ảnh gốc.

STT | Tên phương pháp | Chỉ số FID trung bình

Bang 4.1: Bang so sánh hiệu suất của các mô hình dựa trên trị số FID.

Việc các phương pháp sinh ảnh cách điệu hay nghệ thuật có thể làm cho ảnh đạt được hiệu ứng nghệ thuật thôi là chưa đủ tốt Vì thực tế, người dùng còn thêm những yêu cầu như ảnh được sinh ra phải giữ được giá trị cấu trúc của ảnh gốc ban đầu, để giúp họ có thể nhận diện được sự vật, sự việc trong hình ảnh nội dung Đối với bài toán chuyển hoá phong cách ảnh của chúng tôi, một mô hình chỉ có thể được xem là toàn diện, nếu có thể cân bằng được việc vừa lưu giữ được nội dung ảnh gốc ban đầu và tạo ra được những hiệu ứng phong cách nghệ thuật đẹp. Để kiểm chứng được liệu mô hình có thực hiện tốt trong việc "bảo toàn" tốt cấu trúc của ảnh gốc ban đầu hay không, chúng tôi sử dung độ do Structural Similarity hay còn gọi là SSIM Chỉ số này sẽ đánh giá mô hình dựa trên khả

51 năng quan sát hình ảnh của người khi quan sát hình ảnh, dựa trên những thong tin thị giá mà não bộ có thể nắm bắt ngay được, có 3 yếu tố quan trọng để xét trong độ đo SSIM, bao gồm độ chói (luminance), độ tương phan (contrast) va cuối cùng là cấu trúc ảnh (structure) Độ do sẽ so sánh giữa ảnh được sinh ra, với ảnh nội dung gốc ban đầu, đối với bài toán này, giả sử chúng ảnh nội dung ban đầu và ảnh sinh được gọi lần lượt là c và t Các độ đo ấy được tính toán như sau: e Do chói: Do chói được xét dựa trên công thức 4.3.2, trong đó, jie và py lần lượt là giá trị cường độ trung bình của ảnh nội dung c và t Độ chói càng cao, độ tối sáng trong một bức ảnh có trị lệch nhau càng lớn, và càng có nhiều độ chênh lệch khác nhau, chứng tỏ ảnh sinh ra càng tốt.

TT vn 7z ae” Hệ + Hỹ + C1 e Độ tương phản: Độ tương phản được xét dựa trên công thức 4.3.2, trong đó, ơ„ và o; lần lượt là giá trị cường độ lệch chuẩn của ảnh nội dung c và t Độ tương phản càng cao, cân đối chứng tỏ sự đa dang của ảnh kết trong việc duy trì độ sáng tối của ảnh gốc càng tốt.

Ss 4.3oR + ơi + Œạ 43) c(x,y) = e Cấu trúc: Cấu trúc được xét dựa trên công thức 4.3.2, trong đó, o¢ va ơ; lần lượt là giá trị lệch chuẩn của ảnh nội dung c và t Cấu trúc càng lớn,

52 chứng tỏ ảnh sinh càng giữ nguyên được nội dung ban đầu.

Cuối cùng, độ đo SSIM sẽ được tổng hợp dựa trên độ chói (minh hoạ ở công thức 4.3.2), độ tương phản (minh hoạ ở công thức 4.3.2) và cấu trúc (minh hoa ở công thức 4.3.2) thành công thức 4.3.2 Mặc định, các giá trị C3 = C2/2, œ=jj=+ =1, C¡ được thêm vào để tránh xảy ra hiện tượng triệu tiêu giữa hai ảnh.

Chúng tôi thực hiện kiểm nghiệm độ so sánh khả năng sinh ảnh của ba phương pháp ISTCS (phương pháp đề xuất của chúng tôi), CLIPStyler [16],

Text2Live [1] với độ do SSIM trên bộ dữ liệu StyleFaceRegion2K, nhằm kiểm thực khả năng sinh ảnh nhưng vẫn bảo tồn được giá trị ngữ nghĩa của ảnh nội dung Kết quả trung bình được mô tả ở bảng 4.2 trên gần 2,000 ảnh cho thấy phương pháp ISTCS có chỉ số SSIM trung bình cao nhất.

STT | Tên phương pháp | Chỉ số SSIM trung bình

3 CLIPStyler 0.4976 Bang 4.2: Bang so sánh hiệu suất của các mô hình dựa trên trị số SSIM.

Chỉ số PSNR (Peak Signal-to-Noise Ratio) là một phép do độ chính xác của việc nén và khôi phục hình ảnh hoặc video Nó thường được sử dung để đánh giá chất lượng của hình ảnh đã nén so với hình ảnh góc.

Tiêu đề	Chuyển đổi phong cách ảnh dựa trên câu mô tả tự nhiên khai thác lớp ngữ nghĩa cục bộ
Tác giả	Nguyên Ngọc Lan Phương, Cao Hưng Phú
Người hướng dẫn	TS. Nguyễn Vinh Tiệp
Trường học	Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành	Khoa học máy tính
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2023
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	88
Dung lượng	45,82 MB