Khóa luận tốt nghiệp Khoa học máy tính: Tạo sinh ảnh dựa trên câu mô tả và ảnh mẫu với mô hình khuếch tán trên không gian tiềm ẩn

Nếu chúng ta muốn sử dụng những tính năng với sự hỗ trợ của Trí Tuệ Nhân Tạo để tạo sinh, biến đổi các hình ảnh mang phong cách nghệ thuật tranh dân gian Việt Nam thì có khả quan?. Vậy n

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HOC MAY TINH

TRUONG QUOC TRUONG

KHOA LUAN TOT NGHIEP

CU NHÂN NGANH KHOA HỌC MAY TÍNH

TP HO CHi MINH, 2023

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HOC MAY TINH

TRUONG QUOC TRUONG - 19522446

KHOA LUAN TOT NGHIEP

VA ANH MAU VOI MO HINH KHUECH TAN

TREN KHONG GIAN TIEM AN

CU NHÂN NGANH KHOA HỌC MAY TÍNH

GIANG VIEN HUONG DAN

TS NGUYEN VINH TIEP

TP HO CHÍ MINH, 2023

Trang 4

DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số

154/QD-DHCNTT ngày 01/03/2023 của Hiệu trưởng Trường Dai hoc Công nghệ Thông

tin.

1 Chu tich: TS Lé Minh Hung

2 Thu ký: ThS Nguyễn Thị Ngọc Diễm

3 Ủy viên: Th§ Đỗ Văn Tiến

4.

1V

Trang 5

LỜI CẢM ƠN

Qua những năm tháng học tập và rèn luyện ở trường Đại học Công Nghệ

Thông Tin - ĐHQG TP.HCM Với sự giảng dạy, chỉ bảo tận tình của các thầy

cô cũng như sự giúp đỡ của các anh chị và bạn bè Em đã phần nào trang bị và

tích lũy được cho mình một vốn kiến thức, để vận dụng vào thực tiễn và công việc Nay em thực hiện đề tài Khóa luận để tổng hợp và vận dụng những kiến thức, kỹ năng đã được học Và cũng để làm học phần cuối trong quá trình đào tạo tại trường Trong quá trình thực hiện đề tài thì không thể thiếu những sự

hỗ trợ, góp ý của các quý thầy cô, cùng các anh chị, bạn bè trong phòng ThíNghiệm Truyền Thong Da Phương Tiện - MMLAB

Đầu tiên, em xin gửi lời cảm ơn chân thành đến thay TS Nguyễn Vinh Tiệp

- Trưởng phòng Thí Nghiệm Truyền Thông Da Phương Tiện đã nhận lời làm

Giảng viên Hướng dẫn, để cho em có cơ hội thực hiện đề tài Khóa luận của

mình Cảm ơn thầy vì những hướng dẫn, góp ý, chỉ bảo và cả những hỗ trợ về

mặt tài nguyên trong quá trình thực hiện thử nghiệm.

Tiếp đến em xin cảm ơn quý thầy cô trong khoa Khoa Học Máy Tính đãquan tâm, nhắc nhở em và cũng như các bạn sinh viên thực hiện Khóa luận Vềviệc đăng ký đề tài, chỉnh sửa và báo cáo tiến độ định kỳ Giúp chúng em tậptrung, cố gắng hoàn thành Khóa luận một cách tốt nhất

Bên cạnh đó, là quý thầy cô trong trường Dai học Công Nghệ Thong Tin đã

giảng dạy, chỉ bảo nhiệt tình cho chúng em trong từng môn học Giúp chúng em

trang bị được những kỹ năng, kiến thức cần thiết để phục vụ cho quá trình làm

Khóa luận, cũng như cho công việc trong tương lai.

Và qua đây, em cũng muốn cảm ơn đến các thầy cô, anh chị, các bạn đồngmôn trong phòng Thí nghiệm Truyền Thông Đa Phương tiên đã giúp đỡ, hỗ trợ

em Những góp ý, nhận xét trong quá trình báo cáo, trình bày giúp em hoàn

thiện, làm tốt hơn đề tài Khóa luận của mình

Và cuối cùng em xin cảm ơn đến bố mẹ, gia đình em Những bậc sinh thành

đã nuôi dưỡng và cho em cơ hội được học tập, được theo đuổi ước mơ của bản

thân Và những động viên, an ủi của gia đình, bạn bè trong những lúc khó khănchính là động lực cho em không ngừng cố gắng, phát triển bản thân từng ngày

Em xin chân thành cảm ơn!

Trang 6

TONG QUAN

Một trong những xu hướng đang được quan tâm trong thé giới Trí Tuệ Nhân

Tạo nói chung và lĩnh vực Thị Giác Máy Tính nói riêng đó là Tạo Sinh Ảnh

— Image Generation.

Đã có rat nhiều mô hình như: Generative Adversarial Network [13], Neural

Style Transfer [20], Variational Autoencoder [25], Diffusion Model [28] giảiquyết tốt những bài toán Tao sinh anh Nhưng các mô hình này lại yêu cầu

lượng tính toán, nguồn tài nguyên, thời gian đào tạo lớn.

Vấn đề đặt ra là làm sao để xử lý được những bài toán Tạo Sinh Ảnh với lượng

tính toán và thời gian huấn luyện ít hơn Để có thể linh hoạt và đáp ứng được

với nguồn tài nguyên hạn chế Đó cũng là cơ sở cho sự xuất hiện của mô hình

Khuếch Tán Trên Không Gian Tiềm An — Latent Diffusion Models.

Được giới thiệu trong công trình “High-Resolution Image Synthesis With Latent

Diffusion Models” [32].

Nghệ thuật Việt Nam luôn mang những giá trị văn hoá, tinh than dân tộc

Trong số đó, phải kể đến các dòng tranh dân gian, được coi là nét đẹp truyền

thống của người dân Việt Nam Nếu chúng ta muốn sử dụng những tính năng

với sự hỗ trợ của Trí Tuệ Nhân Tạo để tạo sinh, biến đổi các hình ảnh mang

phong cách nghệ thuật tranh dân gian Việt Nam thì có khả quan?

Với mục đích nêu cao giá trị và đưa các dòng tranh dân gian đến gần hơn với

mọi người Và nắm bắt được xu hướng Tạo Sinh Ảnh Qua các nghiên cứu và

khảo sát Đối với đề tài này, em áp dụng Latent Difusion Models vào giải quyết

bài toán Tạo sinh, chuyển đổi phong cách hình ảnh đầu vào qua các phong cách

tranh dân gian Việt Nam.

Quá trình thực hiện gồm: Tìm hiểu, nghiên cứu phương pháp, cơ chế Tạo

sinh ảnh của Latent Diffusion Models; Xây dựng bộ dữ liệu các dòng tranh

dân gian Việt Nam; Fine-tuning mô hình trên bộ dữ liệu mới; Kết hợp các kỹ

thuật khác như Inpainting cho xử lý dữ liệu; Salient Object Detection cho

xử lý background và High-Resolution cho xử lý độ phân giải ảnh kết quả; Vàcuối cùng là thực hiện khảo sát, đánh giá kết quả

vì

Trang 7

Mục lục

1 Giới Thiệu

1.1 Bối cảnh thực tẾ Ặ Quy

1.1.1 Khả năng tiếp cận của các mô hình Tạo Sinh Ảnh

1.12 Tính ứng dụng của bài toán Tạo Sinh anh

1.13 Trong lĩnh vực nghiên đỨứu

1.2 Định nghĩa HH ee

13 Thách thúc ay we đ|ẻ À /

14 Muctiéu Ø7 Am | /

1.5 Đóng góp chính Quy va

16 Bố cục Khoá luận 00000002 eee

2 Nghiên Cứu Liên Quan

2.1 Phương pháp xử lý ảnh truyền thống

2.2 Mô hình Tạo sinh 0.000000000000000008.

2.21 Mô hình Phân lớp và Tạo sinh

2.2.2 Tổng quan mô hình Tao sinh

2.2.3 Sinhảnh v2

224 Ynughiatoanhoc 000.0 cee ee

2.3 Các phương pháp tiếp can Hoc Máy

2.3.1 Generative Adversarial Networks- GANs

2.3.2 Variational AutoEncoders- VAEs

17

18 18 19 22 27

43

Trang 8

3.2 Áp dung Latent Diffusion Model cho bài toán Tạo sinh, biến đổi

ảnh qua các phong cách tranh dân gian Việt Nam

3.2.1 Nén hình ảnh (Perceptual Compression)

3.2.2 Quá trình Khuéch Tan (Diffusion process)

3.2.3 Khuéch Tan Có Điều Kiện

3.2.4 Trình tao thông tin hình anh

3.3 Phương pháp Texutal Inversion

3.3.1 Tổng quan cv. 3.3.2 Kiến trúc kỹ thuật 2 00.0.0 00

3.4 Bộ trọng số gốc sd-vl-4.ckpt c ee 3.4.1 Tổng quan cv. 3.4.2 Chi tiết môhình QC 3.4.3 Tài ngUYÊNH LH ee 3.4.4 Huấn luyện môhình

3.5 Bộ dữ liệu gốeLAION ee Thực Nghiệm 4.1 Bộ dữ liệu tranh Dong Hồ, tranh Sơn Mài

42 Tiền xử lý đữ liệu en 4.3 Fine-tuning m6 hinh Ặ Lo 4.4 Đánh giá ảnh kết qua 2 ee 4.4.1 Yêu cầu, tiêu chi đánh giá:

-4.4.2 Kết quả đánh giá Q ee 1 he

46 Nhận xết Quà và vo Kết Luận 5.1 Kết quả đạt được ee 5.2 Hướng phát triển trong tương lai

Tài Liệu Tham Khảo

vill

59 59

61 62 63 64

64 65 66

69

69 70 72

Trang 9

Các tính năng tạo sinh, biến đổi phong cách ảnh trên các nền

tảng mạng xã hội Nhiều nền tảng, ứng dụng đang áp dụng những

thành tựu của Al 2 Qui.

Các loại hình nghệ thuật dân gian Việt Nam

Một vài mẫu ví dụ về 02 dòng dân gian Việt Nam Tranh Đông

Hồ (bên trái) và tranh Son Mai (bên phải)

Định nghĩa bài toán Tạo sinh, chuyển đổi hình ảnh qua phong

cách tranh dân gian Việt Nam .

Ví dụ minh hoạ một vài mau từ bộ dữ liệu ImageNet [22].

Minh họa quá trình huấn luyện và tạo phân phối dữ liệu của mô

hình Ta nnh†em Sy 4 Ma Ồ ỀŠÔỒ Y2Kiến trúc chung của Mạng Tạo Sinh Thuận Nghịch (GANs)

Ví dụ minh hoa cau trúc trình tạo và phân biệt đối xử trong

DCGAN Quà gà xxx va

Kiến trúc minh hoạ mô hình Bộ Mã Hoá Đa Dạng5 VAEs

Vectơ tiềm an được ánh xạ tới phân phối dữ liệu bằng tham số Ø

Thủ thuật tái tham số hóa được sử dụng để lan truyền ngược qua

các node ngẫu nhiên |0] .

Quá trình khử nhiễu và Tái cấu trúc (đảo ngược quá trình lấynhiễu dan dần) của Mô hình xác suất khuếch tán

Minh hoạ kiến trúc mạng UNet

Kiến trúc tổng quát của Latent Difusion Models, do các tác giả

đề xuất |32] ee

1X

23

Trang 10

Các bước £ trong quá trình khuếch tán được thực hiện trong không

gian tiềm an Kết hợp phần nhúng câu mô tả từ tập pre-trained

của mô hình CLIP

Quá trình dự đoán nhiễu của mạng Unet trong quá trình huấn

luyện mô hình Khuếch Tấn Tiềm Ân .

Sử dụng Cross-attention để kết hợp phần nhúng câu mô tả vào biểu diễn tiềm an của ảnh đầu vào

Ví dụ về đào tạo các khái niệm mới cho mô hình Khuếch Tán On

Định để tạo ra các hình ảnh cA nhân .

Co chế hoạt động của kỹ thuật Textual Inversion

Vi dụ về các mau dữ liệu cặp hình ảnh và câu chú thích trong bộ

dữ liệu LAION-5B được tìm kiếm qua API thực nghiệm [2]

Một vài mau vi dụ từ tap dit liệu "Tranh Dong Hồ Việt Nam"

Một vài mẫu ví dụ trong bộ dữ liệu "Tranh Sơn Mài Việt Nam".

Ví dụ về quá trình inpainting các mẫu dữ liệu về kích thước

512 x 512 để phù hợp cho quá trình huấn luyện

Kết quả khảo sát đánh giá định tính trên các mẫu chuyển đổi

phong cách tranh Đông Hồ, tranh Sơn Mai Việt Nam

Kết quả mẫu chuyển đổi phong cách tranh Dông Hồ Việt Nam.

Kết quả mẫu chuyển đổi phong cách tranh Sơn Mai Việt Nam

Một vài mẫu được tạo sinh theo phong cách tranh Đông Hồ Việt

62

65 66 66

Trang 11

Danh sách bảng

3.1 So sánh thông số, yêu cầu nguồn tài nguyên của Latent Diffusion

Model và các mô hình Tạo sinh khác

4.1 Kết quả khảo sát đánh giá định tính trên các mẫu chuyển đổi

phong cách tranh Đông Hồ, tranh Sơn Mai Việt ÑNam

xI

Trang 12

Chương 1

Giới Thiệu

1.1 Bối cảnh thực tế

1.1.1 Kha năng tiếp cận của các mô hình Tạo Sinh Ảnh

Khi mà các mô hình Tạo sinh ảnh ngày càng không ngừng phát triển và đạt

được nhiều kết quả đáng ghi nhận Thì mục tiêu hướng đến của những mô hìnhnày là phải thiết thực, dễ dàng tiếp cận đối với các đối tượng sử dụng, nghiên

cứu.

Nhưng các mô hình Tạo sinh mạnh mẽ và cho kết quả cao như vậy lại khó được

tiếp cận Bởi các mô hình Tạo sinh, Chuyển đổi phong cách ảnh như: Generative

Adversarial Network - GANs [13], Neural Style Transfer [20], Autoregressive (AR) Transformers [7], Variational Autoencoder [25] Diffusion Model [28] dagiải quyết tốt các bài toán tạo sinh Nhung vi yêu cầu xử ly, tính toán trênkhông gian pixel của hình ảnh Nên lượng tính toán lớn, kiến trúc mô hình phứctạp, thường được kết hợp của nhiều module, sử dụng pre-trained của các môhình khác Nên nếu không đáp ứng đủ yêu cầu về tài nguyên của các mô hình

này thì rất khó để tiếp cận, triển khai và sử dụng Vậy nên, không ngạc nhiên

gi khi chỉ những gã khong lồ như Google, OpenAl mới có thể phát hành đượcnhững mô hình như vậy.

Vấn đề đặt ra là làm sao để xử lý được những bài toán Tạo Sinh ảnh trên

những mô hình yêu cầu tài nguyên, lượng tính toán và thời gian huấn luyện ít

hơn Đây là cơ sở cho sự xuất hiện của mô hình Tạo sinh ảnh “Khuéch Tan

Trang 13

Trên Không Gian An” — Latent Diffusion Models Là mô hình được sử

dung trong công trình nghiên cứu "High-Resolution Image Synthesis With

Latent Diffusion Models" [32] của nhóm tác giả: Robin Rombach, Andreas

Blattmann, Dominik Lorenz, Patrick Esser, Bjorn Ommer từ Dai hoc Ludwig

Maximilian của Munich, Dai hoc Heidelberg, Đức Công trình nghiên cứu được

công bồ tại hội nghị CVPR2022

Và trong đề tài Khoá luận này, dựa trên mô hình Tạo sinh ảnh Latent

Diffu-sion Models, chủ yếu là một phiên bản của mô hình có tên là Stable DiffuDiffu-sion.

Để tìm hiểu về phương pháp, kiến trúc của mô hình Áp dụng mô hình cho bài

toán của đề tài là Tạo sinh, biến đổi ảnh đầu vào kết hợp với câu mô tả thành

ảnh có phong cách tranh Dong Hồ và tranh Sơn Mai Việt Nam Dé qua đó chứng

minh được rằng: Latent Diffusion Model dễ tiếp cận với các đối tượng sử dụng

và nghiên cứu Có thể linh hoạt và đáp ứng được với những trường hợp nguồn

tài nguyên tính toán bị hạn chế

1.1.2 Tinh ứng dụng của bài toán Tao Sinh ảnh

Những năm trở lại đây, các nền tang mạng xã hội, truyền thông đa phương tiệnđang có xu hướng áp dụng những thành tựu mà Trí Tuệ Nhân Tạo (AT) mang

lại Từ những hệ thống trả lời tự động (Interactive Voice Response), tin nhắn tự

động (BotChat), đến những hệ thống gợi ý người dùng (Recommender System)

và Tạo sinh ảnh dựa trên các câu mô tả và ảnh mẫu cũng không nằm ngoài

ngoại lệ.

Và gần đây, đang nổi lên những xu hướng biến đổi, sáng tạo hình ảnh với

sự giúp sức của Trí Tuệ Nhân Tạo Dua lại nhiều trải nghiệm thú vị cho người

dùng mạng xã hội Đã có những tác vụ chỉnh sửa, biến đổi ảnh cơ bản trên các

nền tảng mạng xã hội Ví dụ như những website cho phép người dùng chỉnh sửa

ảnh cá nhân bằng cách đưa ảnh vào và thêm những hiệu ứng, biến đổi, thêm

bộ lọc (filter) Hay đối với người dùng Facebook, Instagram, Tiktok có thể cho

phép người dùng thỏa sức sáng tạo đối với những hình ảnh, video và chia sẻ lên

trên các nền tảng này - hình 1.1

Tạo sinh ảnh còn tương đối mới lạ và nhận được nhiều sự quan tâm, thíchthú của người dùng Mà mô hình Tạo sinh ảnh lại thực hiện được tốt những

nhiệm vụ này Vì vậy, những mô hình này đang là mục tiêu tìm hiểu, nghiên

cứu hàng đầu trong khoảng thời gian trở lại đây

Trang 14

AI Tools

Hình 1.1: Các tính năng tạo sinh, biến đổi phong cách ảnh trên các nền tang

mạng xã hội Nhiều nền tảng, ứng dụng đang áp dụng những thành tựu của AI

Trong đề tài này, Latent Diffusion Model sẽ được fine-tuning với bộ dữ liệu

mới về tranh dân gian Việt Nam, cụ thể là hai dòng tranh Sơn Mai và Dong Hồ.

Sau đó, tiến hành triển khai mô hình đã huấn luyện lên Website Tạo Sinh Ảnh.

e Website Tạo Sinh Ảnh Ngày nay, nhu cầu đồ họa ngày càng phát triển

mạnh mẽ Một trang web cho phép người dùng tạo ra những hình ảnh hoặc

biến đổi phong cách ảnh dựa trên câu mô tả và hình ảnh mẫu Hứa hẹn

là một trong những công cụ hỗ trợ sự tư duy sáng tạo cho những họa sĩ,

người làm đồ họa Giúp họ có thêm được những ý tưởng sáng tạo, đột phá

hơn.

e Tính năng tạo sinh ảnh trong các nền tảng mang xã hội Với sự

phát triển có tính cạnh tranh giữa các nền tảng mạng xã hội Những cái tênvới đông đảo lượng người dùng như Tiktok, Facebook, Instagram dang ngày càng tung ra những tính năng, tiện ích cho việc xử lý, chia sẻ các nội dung hình ảnh Mang lại trải nghiệm thú vị cho người dùng Đây cũng là

cơ hội lớn cho mô hình sinh ảnh Latent Diffusion, bởi mô hình cho thời

gian phản hồi kết quả khá nhanh - một trong những yêu cầu thiết yếu trên

các nên tảng mạng xã hội.

Trang 15

1.1.3 Trong lĩnh vực nghiên cứu

Ngay từ khi lĩnh vực máy tính phát triển mạnh mẽ, cũng là lúc ngành công

nghiệp đồ họa máy tính ra đời và đạt được nhiều thành công nhất định Các

kỹ thuật trước đây là tạo ra những kiệt tác trong đồ họa máy tính một cách

thủ công Dodi hỏi thiết kế hệ thống ti mỉ và chuyên môn của các nhà phát triển

nghệ thuật.

Khoa học và nghệ thuật luôn song hành trong đời sống của con người Với

những ứng dụng thiết thực, và được đón nhận rộng rãi từ sự phát triển đột phá

của Máy học trong lĩnh vực Thị Giác Máy Tính Song các nghiên cứu trong

những vấn đề sáng tạo vẫn luôn tạo được sự quan tâm và đã thu hút rất nhiều

nhà khoa học.

Tạo sinh hình ảnh mặc dù đã xuất hiện được một thời gian nhưng vẫn còn

khá mới mẻ và cũng đầy thách thức Chúng ta đã chứng kiến những mô hìnhTạo sinh đạt được những thành công gần đây với những tiêu chí đánh giá nhấtđịnh Ngoài chất lượng kết quả tạo ra, còn thêm nhiều những khía cạnh khác

như thời gian huấn luyện mô hình; yêu cầu nguồn tài nguyên; thời gian cho kết

quả; cấu trúc mô hình để đánh giá mô hình Vì vậy, đây cũng chính là những động lực và cơ sở để những nhà khoa học tiếp tục nghiên cứu và cải thiện các

mô hình Tạo sinh Trong những năm trở lại đây, các công trình nghiên cứu về Tạo sinh ảnh ngày càng tăng về mặt số lượng.

Kết quả của những mô hình này không chỉ đòi hỏi sự thỏa mãn về thẩm mỹ,

mà còn cần ưu tiên cả về tốc độ xử lý cũng như thời gian phản hồi kết quả Đó

là cơ sở để từ những mô hình Tạo sinh với kiến trúc phức tạp, lượng tham số khong lồ như GANs [13], Neural Style Transfer [20], Diffusion Models [28] cho

đến những mô hình nhẹ nhàng hơn như Latent Diffusion Model [32]

Để fine-tuning mô hình với những bộ dữ liệu mới Em sử dụng một phiên

bản của Latent Diffusion Model, đó là mô hình Khuếch Tan On Dinh (Stable

Diffusion) và sử dụng bộ trọng số gốc của phiên bản nay Dé chứng minh rằng

mô hình đã giải quyết được những vấn đề mà các mô hình trước đã mắc phải

và những cải tiến mà mô hình mang lại

1.2 Dinh nghĩa

Đối với bối cảnh thực tế hiện nay Rất nhiều nhiều các tính năng xử lý ảnh với

sự hỗ trợ của Trí Tuệ Nhân Tạo đang được xuất hiện nhiều trong ứng dụng và

4

Trang 16

công cụ chỉnh sửa ảnh Nhằm nâng cao trải nghiệm của người dùng và cho phép

tạo ra các hình ảnh nghệ thuật Đặc biệt, có hai xu hướng đang được ưa chuộng

hiện nay, đó là tạo sinh ảnh và chuyển đổi phong cách ảnh

Vậy nếu chúng ta muốn sử dụng những tính năng với sự hỗ trợ của Trí Tuệ

Nhân Tạo để tạo sinh, biến đổi các hình ảnh mang phong cách nghệ thuật tranh

dân gian Việt Nam thì liệu có được hay không? Và nếu được thì đây sẽ là bước

tiến mới nhiều tiềm năng trong việc sử dụng Trí Tuệ Nhân Tạo để hỗ trợ, phát triển các loại hình tranh dân gian Việt Nam - hình 1.2.

Tranh dân gian Việt Nam: Nghệ thuật Việt Nam luôn mang những giá tri

văn hoá, tỉnh thần dân tộc Trong số đó, phải kể đến các dòng tranh dân gian

Việt Nam như tranh Đông Hồ, tranh Sơn Mai Các dòng tranh này đã đi theo

chiều dai lịch sử của đất nước và được coi là nét đẹp truyền thống của người

dân Việt Nam.

Tuy nhiên, trong cuộc sống hiện đại ngày nay Những dòng tranh truyền

thống này đang bị lãng quên phần nào Nhằm nêu cao giá trị và đưa các dòng

tranh dân gian Việt Nam đến gần hơn với mọi người qua sự giúp sức của TríTuệ Nhân Tạo Trong đề tài này, em áp dung Latent Diffusion Model vào giải

quyết bài toán tạo sinh, biến đổi phong cách ảnh qua các phong cách tranh dân

gian Việt Nam Cụ thể là 02 dòng tranh Đông Hồ và Sơn Mài - hình 1.3.

Định nghĩa bài toán: Bài toán tạo sinh hình ảnh dựa trên câu mô tả và hình ảnh mẫu là một trong những tính năng mà Latent Diffusion Model mang lại.

Mô hình sửa dụng các kỹ thuật nhúng để đưa hình ảnh mẫu và câu mô tả kèm theo vào trong một không gian tiềm ẩn Sau đó thực hiện quá trình khuếch

Trang 17

Hình 1.3: Một vài mẫu ví dụ về 02 dòng dân gian Việt Nam Tranh Đông Hồ(bên trái) và tranh Sơn Mài (bên phải).

tán để xử lý và cho ra kết quả Minh họa ảnh đầu vào và kết quả trả ra của mô

hình với câu mô tả tương ứng - hình 1.4.

e Đầu vào: Anh mẫu và câu mô ta.

e Dau ra: Hình ảnh được tạo sinh dựa trên ảnh gốc và câu mô tả

Dau vao

Hình 1.4: Dinh nghĩa bài toán Tao sinh, chuyển đổi hình ảnh qua phong cách

tranh dân gian Việt Nam.

Trang 18

Phạm vi bài toán: Đối với bài toán Tạo sinh, chuyển đổi hình ảnh qua phong

cách tranh dân gian Việt Nam bằng mô hình Khuếch Tan Tiềm An có những

ràng buộc và phạm vi như sau:

e Yêu cầu hình ảnh đầu vào: Ảnh mẫu giúp định hình được bố cục, cấu

trúc màu sắc đối tượng Cho nên ảnh mẫu là ảnh màu (RGB) Độ phân

giải tuỳ ý, và kết quả sẽ phụ thuộc vào độ phân giải, trong trường hợp độphân thấp hoặc cao

Mô hình được huấn luyện và cả fine-tuning trên bộ dữ liệu có các hình ảnh

kích thước là 512 x 512 Nên mô hình sẽ cho kết quả tốt nhất khi ảnh đầuvào có kích thước 512 x 512 Hoặc tỉ lệ xấp xi 1: 1, và sau đó sẽ được điêu

chỉnh về kích thước phù hợp.

Đặc trưng của tranh Đông Hồ là mỗi bức tranh sẽ có một vài đối tượng

chính được vẽ nổi bật lên trên nền giấy Đối tượng trong tranh ít, thường

một hoặc một vài đối tượng Chủ đề thường xoay quanh hoạt động củacon người, con vật thân thuộc với người dân quê Việt Nam; Còn đối vớitranh Sơn Mài, chủ yếu là phong cảnh làng quê, cảnh vật thiên nhiên, phố

cổ Từ những đặc điểm này, để nếu muốn mô hình sinh ra được những kết quả được chuyển đổi phong cách tốt, hiệu quả Chúng ta cần phải chọn ảnh đầu vào phù hợp với những loại phong cách muốn chuyển đổi.

e Yêu cầu về phần mô tả: Câu mô tả có tác dụng hướng dẫn quá trình

tạo sinh ảnh, định hình đối tượng, phong cách muốn chuyển đổi Mô hình

sử dụng pre-trained model CLIP, nên sử dụng ngôn ngữ Tiếng Anh Trong

phần mô tả cần phải mô tả những đối tượng, khung cảnh, vật thể có trong hình ảnh đầu vào Và phong cách muốn chuyển đổi Lúc đó mô hình có thể

xử lý và đưa ra những kết quả phù hợp

1.3 "Thách thức

Trong quá trình thực hiện đề tài Khoá luận, sau đây là những khó khăn gặp

phải:

Đối với việc so sánh giữa mô hình Khuếch Tán Tiềm An (LDMs) và những mô

hình Tạo sinh khác như GANs, VAEs và cả mô hình tiền nhiệm đó là Diffusion

Models Thì LDMs không yêu cầu một lượng tài nguyên quá lớn, và thời gian

đào tạo mô hình cũng ít hơn các mô hình trước đó Nhưng LDMs cũng còn tồn

7

Trang 19

tại một vài vấn đề, chủ yếu tập trung vào phần kiến trúc mô hình và quá trình

fine-tuning mô hình.

e Nhiều module của mô hình sử dụng tập đào tao sẵn Cấu trúc mô

hình Khuếch Tán Tiềm Ấn được xây dựng bằng cách kết hợp nhiều module

với nhau Và trong đó, có những phần của mô hình sử pre-trained model

Ví dụ như phần khuếch tán có điều kiện của mô hình Các tác giả kết hợp

sử dụng tập pre-trained của mô hình CLIP [29] để nhúng câu mô tả và

hình ảnh mẫu vào cùng một không gian tiềm ẩn để xử lý

Day là một thách thức bởi vì khó có thể thay thế hoặc fine-tuning phan

nhúng này của CLIP Bởi đây là một mô hình lớn mà OPEN-AT đã tốn

nhiều thời gian, nguồn tài nguyên để huấn luyện và được sử dụng với một

bộ dữ liệu huấn luyện lớn

e Khó kiểm soát được mô hình trong quá trình fine-tuning Với một

cấu trúc lớn được kết hợp từ nhiều module và ca pre-trained model Khi

thực hiện kỹ thuật fine-tuning vào phần nhúng hình ảnh và câu mô tả vào

không gian tiềm an sẽ rất khó để kiểm soát Khó có thể biết được mô hình

có đang được huấn luyện theo mong muốn hay không?

e Vấn đề Bias trong quá trình fine-tuning Trong quá trình sử dụng kỹ

thuật Đảo Ngược Văn Bản (Textual Inversion) [9| để fine-tuning mô hình

đã phát sinh một số vấn đề Đây là một kỹ thuật để nắm bắt các khái

niệm mới từ một số lượng nhỏ các hình ảnh của bộ đữ liệu theo phương

pháp mà sau đó có thể được sử dụng để kiểm soát các tác vụ như: Chuyển

văn bản thành hình ảnh và hình ảnh thành hình ảnh Trong một số trường

hợp nếu muốn fine-tuning dựa vào đối tượng Thì sau khi được đào tạo,

mô hình sinh ra kết quả hầu như bias về một đối tượng cụ thể.

Số lượng hạn chế của bộ dữ liệu: Bộ dữ liệu cho quá trình fine-tuning

mô hình là bộ đữ liệu về 02 dòng tranh dân gian Sơn Mài, Đông Hồ Việt Nam.Đặc trưng của những dòng tranh này, chủ yếu xoay quanh cuộc sống làng quê,

con vật, cảnh vật sinh hoạt của người dân Việt Nam; Các khung cảnh phố cổ,

quê hương, kiến trúc, khung cảnh thiên nhiên Vì vậy, số lượng các may tranh

ảnh của những dòng tranh bị giới hạn Bộ dữ liệu được thu thập với một số lượng nhất định Khoảng 80 — 100 hình ảnh cho mỗi loại.

Thiếu độ đo đánh giá định lượng kết quả: Các số liệu đánh giá, độ đo

kết quả được tạo sinh ra luôn là rào cản đối với các bài toán Tạo sinh ảnh Một

8

Trang 20

phần đánh giá các kết mà các mô hình Tạo sinh mang lại cũng chủ yếu dựa vào

mỹ quan, thẩm mỹ cá nhân của con người Trong đề tài này, em sẽ tiến hành tạo khảo sát đánh giá định tính để đánh giá kết quả sau khi fine-tuning mô hình.

1.4 Mục tiêu

Nghiên cứu các phương pháp, mô hình giải quyết bài toán Tạo sinh ảnh Và

cơ chế Khuếch tán trong không gian tiềm an của Latent Diffusion Model Tim hiểu quá trình tạo sinh ra những hình ảnh mới dựa trên câu mô tả và hình ảnh

mẫu đầu vào; kiến trúc, các module, ý nghĩa mặt toán học của Latent Difusion

Model.

Nghệ thuật Việt Nam luôn mang những giá trị văn hoá, tỉnh thần dân tộc

Trong số đó, phải kể đến các dòng tranh dân gian, được coi là nét đẹp truyền

thống của người dân Việt Nam Nhằm nêu cao giá trị và đưa các dòng tranh

dân gian đến gần hơn với mọi người Và nắm bắt được xu hướng Tạo Sinh Ảnh.

Qua các nghiên cứu và khảo sát Đối với đề tài này, em áp dụng Latent Difusion

Models vào giải quyết bài toán Tạo sinh, chuyển đổi phong cách hình ảnh đầu

vào qua các phong cách tranh dân gian Việt Nam.

Qua đó, chứng minh mô hình sử dụng tốt, thỏa mãn những điều kiện: (1)

Mô hình không yêu cầu cao về tài nguyên; (2) Qua quá trình fine-tuning, mô

hình đã học được thêm các khái niệm từ bộ dữ liệu mới; (3) Mô hình đã có thể

tạo sinh ra các hình ảnh mang phong cách tranh dân gian Việt Nam.

1.5 Đóng góp chính

Trong đề tài này, em đã vận dụng những kiến thức, kỹ năng cùng với sự hướng

dẫn của Giảng Viên Hướng Dẫn, bạn bè, các anh chị đi trước để hoàn thành.

Những đóng góp chính của em trong Khóa luận gồm:

e Nghiên cứu các phương pháp xử lý đồ hoạ, mô hình tạo sinh ảnh

Đồ họa trong lĩnh vực Thị Giác Máy Tính đã xuất hiện từ lâu, và đã có

một lịch sử nghiên cứu và phát triển lâu dài Mặc dù khá mới mẻ, nhưng

Tạo sinh ảnh đã có cho mình được những kết quả đáng ghi nhận và những

thành công nhất định Và những bài toán Tạo sinh đang gây được sự chú

ý trong những năm trở lại đây.

Trang 21

Em tiến hành tìm hiểu, khảo sát từ xử lý hình ảnh truyền thống đến các phương pháp áp dụng Học máy trong Tạo sinh ảnh Cụ thể là tập trung

vào các mô hình Tao sinh ảnh như: Generative Adversarial Network —

GANs [13], Neural Style Transfer [20], Autoregressive (AR) Transformers [7], Variational Autoencoder [25] Diffusion Model [28].

e Ap dung Latent Diffusion Models cho bai toán Tao sinh, biến đổi

ảnh qua các phong cách tranh dân gian Việt Nam: Mô hình ban

đầu đã cho được kết quả tốt trên bộ dữ liệu mà tác giả đã sử dụng để huấn

luyện Kỹ thuật Textual Inversion cho phép mô hình học thêm những khái

niệm từ bộ dữ liệu mới Và có thể tạo ra những phong cách ảnh được giới

hạn trong các phong cách tranh của Việt Nam.

e Xây dựng bộ dữ liệu tranh Đông Hồ, tranh Sơn Mài: Bộ dữ liệu

gồm các hình ảnh của mẫu tranh Đông Hồ và tranh Sơn Mài Được thuthập từ các nguồn trên Internet Phục vụ cho quá trình fine-tuning Latent

Diffusion Model.

e Thiết lap thử nghiệm, xây dung Website Tao Sinh Anh: Tiến hành

các thử nghiệm mở rộng Xây dựng Website Tạo sinh ảnh, hướng đến những

người sáng tạo nghệ thuật, hỗ trợ quá trình sáng tạo ý tưởng Chứng minh

rằng mô hình đã giải quyết được những vấn đề mà các mô hình Tạo sinh

trước đây còn gặp phải; Triển khai khảo sát đánh giá về các kết quả của

mô hình tạo ra.

1.6 Bố cục Khoá luận

Cấu trúc của bài báo cáo Khóa Luận được xây dựng gồm các phần:

e Chương 1 Giới thiệu: Trình bay tổng quan về bài toán Tạo sinh, chuyển

đổi ảnh đầu vào qua những phong cách tranh dân gian Việt Nam bằng mô

hình Latent Diffusion Bao gồm động cơ nghiên cứu, các định nghĩa, tháchthức và những đóng góp chính trong đề tài

e Chương 2 Các nghiên cứu liên quan: Trinh bày, khảo sát, tìm hiểu

các công trình nghiên cứu, các mô hình có liên quan trực tiếp hoặc giántiếp đến việc giải quyết các vấn đề trong bài toán của đề tài

10

Trang 22

e Chương 3 Phương pháp đề xuất: Trinh bày mô hình sử dung để giải

quyết bài toán - Latent Diffusion Model; Giới thiệu phương pháp tuning bằng kỹ thuật Textual Inversion

fine-e Chương 4 Thực nghiệm: Giới thiệu bộ dữ tranh dân gian Việt Nam.

Tiến hành fine-tuning mô hình Thực nghiệm, trình bày và giải thích một

số thử nghiệm để so sánh các phương pháp mới, các tỉnh chỉnh mới với

các mô hình khác So sánh, đánh giá kết quả của mô hình trước và sau khi

fine-tuning Triển khai khảo sát, đánh giá định tính các kết quả Xây dựng

Website Tạo sinh ảnh.

e Chương 5 Thảo luận: Tóm tắt những phần công việc, đóng góp chính,

kết quả đạt được trong đề tài khóa luận Thảo luận về công việc nghiên

cứu, hướng phát triển trong tương lai.

11

Trang 23

Chương 2

Nghiên Cứu Liên Quan

Trong chương này, em sẽ giới thiệu một số cách tiếp của bài toán Tạo sinh ảnh.

Đầu tiên là thảo luận ngắn gọn về một số phương pháp xử lý hình ảnh truyềnthống như: Non-Photorealistic Rendering [12]; Image Analogies [16]

Tiếp đến là tìm hiểu, khảo sát các mô hình Tạo sinh như Generative

Adver-sarial Networks [13]; Variational AutoEncoders (VAEs) [25] Day đều là những

mô hình Tao sinh đã đạt được những kết qua đáng ghi nhận Và cũng là nguồn

cảm hứng để những mô hình Tạo sinh sau được phát triển và kế thừa

Cuối cùng, em sẽ tập trung vào nhóm các mô hình Tạo sinh Difusion Models

[28] Nghiên cứu, tìm hiểu ý nghĩa lý thuyết, ý nghĩa toán học, nguyên lý hoạt

động, cơ chế khuếch tán của mô hình Các mô hình Khuếch Tán ít nhiều được

kế thừa từ các khái niệm, ý nghĩa toán học từ mô hình VAEs Tìm hiểu một

số mô hình khuếch tán như: Cascade diffusion models [18] và mô hình chính là

Latent Difusion Model.

quá trình thay thế các nét vẽ cho đến khi có được phong cách hình ảnh mới như

12

Trang 24

Nhưng các phương pháp dựa trên NPR lại không hoạt động tốt cho những

tác vụ Tạo sinh ảnh Dể hoạt động tốt, các phương pháp này đòi hỏi ảnh đầu

vào với các cạnh rõ ràng, kết cau đơn giản Hơn nữa, mỗi lần thiết kế thuật toán

NPR, nó chỉ phù hợp cho một phong cách ảnh cụ thể nên khó mở rộng sang các

phong cách tranh khác.

Trong cộng đồng Thị giác Máy tính, ý tưởng cơ bản cho bài toán chuyển đổi phong cách là thiết kế một tap hợp các bộ loc (filter) để mô phỏng tương

tự từng phong cách ảnh mong muốn Điều này đòi hỏi kỹ năng chuyên nghiệp,

phải có kiến thức về mỹ thuật, thẩm mỹ và nghệ thuật của nhà phát triển để

lựa chọn các bộ lọc phù hợp.

Để giải quyết những bài toán này theo một cách tự động hoá, một phương

pháp Image Analogies được đề xuất Đây là một loại xử lý ảnh bằng kỹ thuật

lay mẫu Có hai giai đoạn trong phương pháp này: thiết kế và ứng dụng.

e Trong giai đoạn thiết kế, đầu vào cho kỹ thuật này cần một hình ảnh

và phiên bản của nó với phong cách mong muốn làm dữ liệu huấn luyện

Thông qua tính năng multi-scale autoregression, Image Analogies sẽ học

chức năng ánh xạ của dữ liệu huấn luyện

e Sau đó, trong giai đoạn ứng dụng, chức năng ánh xạ được áp dụng để

truyền cho một hình ảnh mới Cốt lõi của kỹ thuật này là thuật toánBestMatch, thuật toán này trả về các pixel hợp lý trong hình ảnh được

tổng hợp bằng cách nearest neighbor search Vào thời điểm đó, hầu hết

các kỹ thuật nearest neighbor search đều dựa trên phương pháp xác suấtthống kê

Nhìn chung, phương pháp Image Analogies đã giải quyết phần nào về yêu

cầu tự động hoá, nhưng còn nhiều khó khăn trong việc Tạo sinh, biến đổi phong

cách ảnh Bởi những phương pháp này không thể tự học cách tìm hiểu dựa trên

15

Trang 25

các cau trúc của dữ liệu, còn cần sự can thiệp nhiều của người phát triển, chưa

có sự tong quất trong các bài toán Tao sinh ảnh.

2.2 Mô hình Tao sinh

2.2.1 Mô hình Phân lớp va Tao sinh

Trong thế giới Máy Học có rất nhiều loại mô hình và được phân loại theo nhiều

tiêu chí khác nhau Nhưng tổng thể chung được phân thành hai loại mô hình:

Mô hình Phân lớp (Discriminative Models) và Mô hình Tạo sinh (GenerativeModels) [14] Một cách tổng quát hơn, mô hình phân lớp đưa ra một dự đoán

về dữ liệu chưa nhìn thấy dựa trên xác suất có điều kiện và có thể được dùng

trong bài toán phân loại hoặc hồi quy Ngược lại, một mô hình Tạo sinh tập

trung vào việc phân phối dữ liệu để trả về xác suất cho một ví dụ nhất định.

Mô hình Phân lớp

Tổng quan: Mô hình phân lóp là các loại mô hình được sử dung trong Phan

loại thống kê, chủ yếu được sử dụng trong học máy có giám sát Các loại mô

hình này còn được gọi là mô hình có điều kiện vì chúng cố gắng để tìm ra ranhgiới giữa các lớp hoặc nhãn trong tập dữ liệu Có khả năng phân biệt sự sai khác

trong các nhóm dit liệu Nó sẽ cho biết xác suất mà nhãn sẽ phù hợp với mỗi

mẫu Các mô hình phân lớp phân tách các lớp riêng biệt thay vì mô hình hóaxác suất có điều kiện và không đưa ra bất kỳ giả định nào về các điểm dữ liệu.

Ý nghĩa toán học: Với bộ dữ liệu gồm tập các mẫu X và tập các nhãn Y,

mô hình phân lớp sẽ xác định xác suất có điều kiện P(X|Y) Huấn luyện các

mô hình phân lớp liên quan đến việc ước tính một ham f(x > y) hoặc xác suất

P(Y |X):

e Giả sử một hàm nào đó cho xác suất chẳng han như P(Y|X).

e Ước tính các tham số của hàm thông qua việc huấn luyện mô hình.

Đặc điểm: Xử lý các bài toán phân lớp trên bộ dữ liệu huấn luyện Mô hình

phân lớp cố gắng vẽ đường ranh giới trong không gian dit liệu Do đó, mục tiêucuối cùng của các mô hình là cố gắng tách biệt lớp này khỏi lớp khác

14

Trang 26

e Mô hình phân lớp xử lý mạnh mẽ hơn, tốt hơn đối với các đại diện dữ liệu

ngoại lai (dữ liệu bất thường)

e Nếu bị thiếu dữ liệu trong bộ dữ liệu, thì các mô hình Phân lớp sẽ không

thể hoạt động, bởi đối với những mô hình này yêu cầu tất cả các tính năng

X được quan sát.

Mô hình Tao sinh

Tổng quan: Các mô hình Tạo sinh được coi là một lớp của mô hình Thống kê.

Các mô hình này được sử dụng trong Máy học không giám sát như một phương

tiện để thực hiện các nhiệm vụ:

e Ước tính xác suất và khả năng xảy ra

e Mô hình hóa các điểm dữ liệu.

e Mô tả hiện tượng trong đữ liệu.

Co khả năng sinh ra dữ liệu mới Bao gồm phân phối dữ liệu và xác suất đưa ra mẫu Các mô hình này tập trung vào việc phân phối các lớp riêng lẻ trong bộ

dữ liệu và các thuật toán có xu hướng mô hình hóa các mẫu cơ bản hoặc phânphối các điểm dữ liệu.

Ý nghĩa toán học: Xác định xác suất kết hợp P(X|Y), hoặc P(X) (trong

trường hợp bộ dữ liệu huấn luyện không có nhãn Y)

e Giả sử một số dạng ham cho các xác suất như P(Y), P(X|Y).

e Huấn luyện mô hình trên bộ dữ liệu, ước tính các tham số của P(X|Y),

P(Y).

e Sử dung định ly Bayes để tính xác suất hậu nghiệm (posterior probability)

P(Y|X).

Đặc điểm: Vì các loại mô hình này thường dua vào định ly Bayes để tim xác

suất kết hợp, nên các mô hình Tạo sinh có thể giải quyết một nhiệm vụ phức

tạp hơn Mô hình Tạo sinh sẽ c6 gắng mô hình hóa cách dữ liệu được nằm trong

không gian.

e Nếu có sự hiện diện của các điểm dit liệu ngoại lai trong bộ dữ liệu, thì các

mô hình này sẽ bị ảnh hưởng đáng kể.

15

Trang 27

e Nếu bị thiếu dữ liệu trong bộ dữ liệu, thì các mô hình Tạo sinh có thể hoạt

động với các dữ liệu bị thiếu này Các mô hình cho phép ước tính phần xácsuất hậu nghiệm bằng cách bỏ qua các biến không nhìn thấy

2.2.2 Tổng quan mô hình Tạo sinh

Mô hình Tạo sinh là việc sử dụng Trí tuệ Nhân tạo (AT), số liệu thống kê và xác

suất trong các ứng dụng để tạo ra một biểu diễn hoặc trừu tượng hóa các hiện

tượng quan sát được hoặc các biến mục tiêu có thể tính toán được từ các quan

sát đó.

Các mô hình Tạo sinh là một cách mạnh mẽ để học bất kỳ loại phân phối dữ

liệu nào Bằng cách sử dụng trong Học máy không giám sát như một phương

tiện để mô tả các hiện tượng trong dữ liệu, cho phép máy tính hiểu được thé giới

thực Các mô hình này đã đạt được những thành công nhất định trong những

năm trở lại đây Sự hiểu biết của Trí Tuệ Nhân Tạo này có thể được sử dụng để

dự đoán tất cả các xác suất trên một chủ đề từ dữ liệu được mô hình hóa

Tất cả các loại mô hình Tạo sinh đều nhằm mục đích tìm hiểu phân phối

dữ liệu thực sự của tập huấn luyện để tạo ra các điểm dit liệu mới với một số biến thể [35] Nhưng không phải lúc nào cũng có thể tìm hiểu phân phối chính

xác dữ liệu một cách ngầm định hoặc rõ ràng vì vậy một mô hình có phân phối

giống với phân phối của dit liệu nhất có thể được xây dựng.

Đối với điều này, chúng ta có thể tận dụng được sức mạnh của Neural

Net-work Các mô hình này thường được chạy trên Neural Network và có thể phat

hiện các tính năng, đặc trưng tự nhiên của bộ dữ liệu và có thể ước tính phân

phối mô hình thành phân phối thực

Neural Network lấy những đặc trưng cơ bản về dữ liệu trong thế giới thực và

sau đó sử dung chúng dé mô hình hóa dit liệu tương tự hoặc khó thể phân biệt

với dữ liệu trong thực tế.

Các mô hình Tạo sinh sử dụng khái niệm xác suất kết hợp và tạo ra cáctrường hợp, trong đó một đặc trưng (z) hoặc đầu vào và đầu ra mong muốn,hoặc nhãn (ø) tồn tại cùng lúc Nó sử dụng ước tính xác suất và khả năng mô

hình hóa các điểm dữ liệu và phân biệt sự khác nhau giữa các nhãn đại diện lớp

trong bộ dữ liệu.

Một trong những ví dụ về mô hình Tạo sinh là mô hình Sinh ảnh, được huấn

luyện trên các bộ sưu tập hình ảnh từ thế giới thực để tạo ra những hình ảnh

tương tự.

16

Trang 28

Mô hình có thể lay những quan sát từ bộ dữ liệu lớn khoảng 200G và giảm

chúng thành bộ trọng số chỉ 100M B Bộ trọng số được coi là hạt nhân của Neural

Network Thông qua việc tăng cường huấn luyện, một thuật toán sẽ tạo ra được

hình ảnh chân thật.

2.2.3 Sinh ảnh

lộ trong một vài bộ dữ liệu lớn, chẳng hạn như bộ ImageNet (hình 2.1) với

khoảng 1.2 triệu hình ảnh (những hình ảnh hoặc video trong bộ dữ liệu này cóthể được thu thập từ Internet hoặc bằng các công cụ tự động) [22].

Hình 2.1: Ví dụ minh hoạ một vài mẫu từ bộ dữ liệu ImageNet [22].

Những hình ảnh này là ví dụ về thế giới thị giác của chúng ta trông như thếnào, và chúng được gọi là các mẫu từ phân phối dữ liệu thực tế Mục tiêu đặt

ra là xây dựng được những mô hình Tạo sinh và huấn luyện chúng trên những

bộ dữ liệu này, sau đó chúng sẽ tạo ra những hình ảnh tương tự ảnh trong thế

Trang 29

2.2.4 Ý nghĩa toán hoc

Theo phương diện toán học, chúng ta coi một bộ dữ liệu huấn luyện bao gồmcác mẫu z,zs, „ dưới dạng các mau từ phân phối dữ liệu thực p(x) Ví dụ

minh hoạ (hình 2.2) Trong đó, vùng màu xanh lam hiển thị phần không gian

hình ảnh có xác suất cao chứa hình ảnh thực và các chấm đen biểu thị các điểm

dữ liệu (mỗi điểm là một hình ảnh trong bộ dữ liệu).

Mô hình mô tả phân phối ðạz được xác định một cách ngầm định bằng cách

lẫy các điểm từ một đơn vị phân phối Gaussian - phần điểm màu đỏ (z) Và

ánh xạ chúng thông qua một Neural Network xác định Mô hình Tạo sinh được

minh hoa ở khối màu cam

Neural Network là một hàm có tham số Ø và việc điều chỉnh các tham số này

sẽ điều chỉnh phân phối hình ảnh được tạo ra Mục tiêu là tìm các tham số Ø

tạo ra phân phối gần giống với phân phối của dữ liệu thực Ban đầu, phần màuxanh lục Øạz là ngẫu nhiên, nhưng sau quá trình huấn luyện, tinh chỉnh lặp đi

lặp lại tham số 6 để phân phối được tạo ra gần giống với phân phối chuẩn từ dữ liệu nhất có thể.

Generated distribution True data distribution

Unit Gaussian

Generative

Hình 2.2: Minh họa quá trình huấn luyện và tạo phân phối dữ liệu của mô hình

Tao sinh [22].

2.3 Các phương pháp tiếp cận Học May

Chính vì những khó khăn đối với các bài toán, nghiên cứu về đồ họa máy tínhmột cách thủ công Nén những năm trở lại đây, Mạng Tích Chap (Convolutional

Neural Networks) [5] đã phát triển rất mạnh mẽ và đưa lại những kết quả tiên

tiến nhất trong lĩnh vực Thị Giác Máy Tính

18

Trang 30

Có rất nhiều bài toán trong thế giới Thị Giác Máy tính nói chung đã đượcgiải quyết khá tốt nhờ những mô hình học sâu Và riêng về lĩnh vực Tạo sinh

ảnh cũng vậy, những mô hình đã chứng minh được hiệu quả như GANs, VAEs,

DMs đã cho những kết quả tiên tiến nhất tính đến thời điểm hiện tại.

2.3.1 Generative Adversarial Networks - GANs

Adversarial training đã thay đổi hoàn toàn cách đào tạo các Neural Network để

thực hiện một nhiệm vụ cụ thể GANs không hoạt động với bất kỳ ước tính mật

độ rõ ràng nào như VAEs Các mô hình này sẽ có những phần hoạt động theo

cách cạnh tranh lẫn nhau để thực hiện nhuần nhuyễn một tác vụ nào đó Một

mạng có nhiệm vụ tạo sinh và một mạng thứ hai có nhiệm vụ cố gắng phân loại

các mẫu đến từ phân phối thực pạz và phân phối của mô hình jạz

Mỗi khi trình phân biệt nhận ra sự sai khác giữa hai bản phân phối thì trình

tạo sinh sẽ điều chỉnh các tham số của nó một chút để biến đổi phân phối dữ

liệu Cho đến khi kết thúc thì trình tạo sinh sẽ gần như sao chép chính xác phân

phối dữ liệu thực (theo lý thuyết) và trình phân biệt không thể tìm thấy sự khác

biệt.

Ý tưởng

Tại NIPS 2014, lan Goodfellow va các cộng sự đã giới thiệu mô hình GAN đầu

tiên, đó là Vanilla GAN Ý tưởng đằng sau GAN đến từ Minimax, được phổ

biến rộng rãi trong lĩnh vực nghiên cứu Trí Tuệ Nhân Tạo.

Một trò chơi Minimax được xây dựng cho hai người chơi có tổng bằng 0,

những người này cố gắng tối ưu hóa hai mục tiêu trái ngược nhau Thuật ngữgiá trị tối đa là giá trị cao nhất mà người chơi đầu tiên nhận được khi khôngbiết hành động của người chơi thứ hai Tương tự, đó cũng là giá trị thấp nhất

mà người chơi thứ hai buộc người chơi thứ nhất nhận được khi biết hành độngcủa người chơi thứ nhất

Về mặt toán học, Minimax được định nghĩa là phương trình 2.1 Trong đó 0;

là hàm giá tri của người chơi 7; a; là hành động được thực hiện bởi người chơi

đầu tiên trong khi a_; là hành động được thực hiện bởi người chơi thứ hai

0; = Tìng_,ma#4,i(d¡,d—¡) (2.1)

19

Trang 31

Kiến trúc mô hình GANs

Ý tưởng là lấy mẫu từ một phân phối đơn giản như Gaussian và sau đó học cách

chuyển thành phân phối dữ liệu bằng cách sử dụng các bộ xấp xỉ hàm phổ quát

như Neural Network.

Điều này đạt được là nhờ vào kỹ thuật đào tạo đối thủ của hai mạng: TrìnhTạo (Generator) - ký hiệu là G và Trình phân biệt (Discriminator) - ký hiệu là

D Trình Tạo học cách nắm bắt phân phối dữ liệu và trình Phân biệt ước tínhxác suất một mẫu đến từ phân phối của dữ liệu thay vì phân phối của mô hình

Về cơ bản, nhiệm vụ của Trình tạo là tạo ra các hình ảnh trong tự nhiên và

nhiệm vụ của trình Phân biệt là quyết định xem hình ảnh đó là giả hay thật.

Đây có thể được coi là một trò chơi hai người chơi minimax trong đó hiệu suất

của cả hai mạng được cải thiện theo thời gian.

ú Discriminator _ == | Predicted Labels

Network

-D-dimensional J

Noise vector

Hình 2.3: Kiến trúc chung của Mang Tạo Sinh Thuan Nghịch (GANs) [13]

Quay lại bài toán Tạo sinh, kiến trúc tổng quát của GANs được minh họa

trong hình 2.3 Trình Tạo lấy một vector ngẫu nhiên - thường là vector tuân

theo phân phối xác định, chủ yếu là phân phổi chuẩn (Normal Distribution) làm

đầu vào Sau đó, trình phan biệt lay ảnh thật va ảnh giả làm đầu vào Và thực

hiện nhiệm vụ phân biệt đâu là ảnh giả.

Trình phân biệt chỉ đơn giản là một bộ phân loại nhị phân Việc triển khai trình Phân biệt có thể sử dung các thuật toán như: K-Nearest Neighbor, Sup-

port Vector Machine, Artificial Neural Networks Gan đây, Artificial Neural

Networks đang rất phát triển và cho kết qua dang kể, nên thường được sử dung trong việc triển khai trình Phân biệt.

Một trong những mô hình sớm nhất về GAN sử dụng Convolutional NeuralNetwork là DCGAN là viết tắt của Deep Convolutional GAN Mang này lấy đầu

20

Trang 32

vào 100 số ngẫu nhiên được rút ra từ phân phối đồng đều và xuất ra hình ảnh

có hình dang mong muốn Mạng bao gồm nhiều Convolutional layer, Decoder

và Fully Connected Mạng sử dụng nhiều lớp giải mã để ánh xạ nhiễu đầu vào

cho hình ảnh đầu ra mong muốn

Batch Normalization được sử dụng để ổn định quá trình đào tạo mạng Hàm

kích hoạt ReLU được sử dụng trong trình Tạo cho tất cả các lớp ngoại trừ lớpđầu ra Hàm Tanh và Leaky ReLU được sử dụng cho tất cả các lớp trong trình

Phân biệt.

Mạng này đã được đào tạo bằng cách sử dụng phương pháp giảm độ dốc(Gradient descent) ngẫu nhiên theo những phần nhỏ và trình tối ưu hóa Adam

được sử dụng để tăng tốc đào tạo với các siêu tham số được điều chỉnh Các

tác giả đã chỉ ra rằng các trình Tạo có các thuộc tính số học Interest Vector mà

chúng ta có thể thao tác với hình ảnh theo cách chúng ta muốn.

Trình Tạo lấy các vectơ ngẫu nhiên € RTM, và sau đó những vector này sẽ đượctạo thành hình ảnh giả Trong các Deep Convolutional Neural Networks [31],viết tắt là DCGAN, Các tác giả đã sử dụng lớp Tích chập Hoán vị (Transposed

Convolution) để phóng to và giải mã Feature Map Diéu này trái ngược với lớpConvolution, lớp này thu nhỏ và mã hóa các Feature Map Hình ảnh 2.4 mô tả

kiến trúc của Trình Phân biệt và Trình Tạo trong DCGAN.

Hình 2.4: Ví dụ minh họa cấu trúc trình tạo và phân biệt đối xử trong DCGAN

[27].

Ham Loss

Bản chat của Adversarial Training là bai toán phân loại nhị phan Trong đó,

hàm mat mát nhị phân cross-entropy đóng vai trò quan trọng Có biểu thức

21

Trang 33

toán hoc là phương trình 2.2, trong đó y và ? là nhãn và kết quả dự đoán, mộtcách tương đối.

L(y, iH) = —wlog(§) — (1 — y)log(1 — 9) (2.2)

Nhu đã đề cập ở phan trước, trong mô hình GAN, G va D chơi một trò chơiminimaz với ham giá trị V(G, D) Trình phân biệt cố gắng phân loại hình ảnhthật và giả theo nhãn tương ứng của chúng Vì vậy, trình Phân biệt gồm hai

phần:

e Hình ảnh thật thuộc về lớp thực Với y = 1, công thức 2.2 tương đương với

2.3:

mazV (G, D) = log(8) = log(D()) (2.3)

e Anh gia thuộc vào lớp không có thực Với y = 0, công thức 2.2 tương đương

với 2.4:

mazV (Œ, D) = log(1 — ?) = log(1 — D(G(z))) (2.4)

Trong đó z là một vector ngẫu nhiên, là đầu vào của trình Tao G(z) là hình

ảnh được tạo ra.

Phương trình 2.4 thể hiện rằng nếu log(1 — D(G(z))) càng lớn thì khả năng

trình Phân biệt phân loại G(z) thuộc nhãn giả càng cao Tuy nhiên trình Tạo

lại muốn điều ngược lại Kết quả là hàm mất mát được biểu thị bằng phương

trình 2.5.

minV(G, D) = log(1 — D(G(z))) (2.5)

Cuối cùng, ham mat mát của trình Tao là phương trình 2.5 Con của trình

Phân biệt là hai phương trình 2.3 và 2.4.

2.3.2 Variational AutoEncoders - VAEs

Tong quan

Như đã biết, bộ mã hóa tu động (Autoencoder) thường được sử dung để ma hóa hình ảnh đầu vào thành một biểu diễn thấp chiều hơn nhiều và có thể lưu trữ thông tin tiềm an về phân phối dữ liệu đầu vào Nhưng trong bộ mã hóa

22

Trang 34

“vanilla”, vector được mã hóa chỉ có thể được ánh xạ tới đầu vào tương ứng bằng

bộ giải mã Nên nó không được sử dụng trong tác vụ tạo ra những hình ảnh

tượng tự với một số biến đổi.

Để thực hiện được tác vụ đó, mô hình cần tìm hiểu phân phối xác suất của

dữ liệu huấn luyện VAE (Variational Autoencoders) là một trong những cách

tiếp cận phổ biến nhất để tìm hiểu sự phân phối dữ liệu phức tạp như hình ảnh

bằng cách sử dung Neural Network theo phương pháp Không giám sát Dây làmột mô hình đồ họa xác suất bắt nguồn từ suy luận Bayes, tức là mô hình nhằm

mục đích tìm hiểu phân phối xác suất cơ bản của dit liệu đào tạo để có thể dé

dàng lấy mẫu dữ liệu mới từ phân phối đã được huấn luyện

Ý tưởng

Ý tưởng ở đây là tìm hiểu một biểu diễn tiềm ẩn thấp chiều hơn của dữ liệu

huấn luyện có tên là các biến tiềm an (latent variables) - các biến này không

được quan sát trực tiếp nhưng được suy ra thông qua mô hình toán học Nhữngbiến này đã tạo ra dữ liệu huấn luyện thực tế, cấu trúc được minh hoạ hình 2.5

Hình 2.5: Kiến trúc minh hoa mô hình Bộ Mã Hoá Da Dạng VAEs [6]

Các biến tiềm an này có thể lưu trữ thông tin hữu ích về loại đầu ra mà mô hình cần đào tạo Phân phối xác suất của các biến tiềm ẩn z, được biểu thị bằng P(z) Phan phối Gaussian được chọn trước khi tìm hiểu phân phối P(z) để dé dàng lấy mẫu các điểm dữ liệu mới trong quá trình suy luận.

Bây giờ mục tiêu chính là lập mô hình dữ liệu với một số tham số nhằm tối

đa hóa khả năng của dữ liệu huấn luyện X Giả định rằng một vector tiềm an

23

Trang 35

có chiều thấp đã tạo ra dữ liệu x với (x X) Và sau đó có thé ánh xạ vector tiềm an này tới dữ liệu x bằng cách sử dụng hàm xác định ƒ(z;9) được tham số

hóa bởi theta - phương trình 2.6.

Theo quy trình tổng quát này, mục tiêu là tối đa hóa xác suất của từng dữ

liệu trong X được cho là:

PX) = | Pa(X.2)te= | Pal] Pale) (2.6)

Trong đó, ƒ(z;6) đã được thay thé bang phan phối f;(X|z)

Hình 2.6: Vecto tiềm an được ánh xạ tới phân phối dit liệu bằng tham số Ø [6]

Trực giác đằng sau phương pháp Maximum Likelihood Estimation này là nếu

mô hình có thể tạo các mẫu huấn luyện từ các biến tiềm ẩn này thì nó cũng có

thể tạo ra các mẫu tương tự với một số biến đổi Nói cách khác, nếu chúng ta lay mẫu một số lượng lớn các biến tiềm ẩn từ P(z) và tạo ra x từ các biến này

thì x được tạo ra phải khớp với phân bố dữ liệu paata(z)

Vậy làm cách nào để nắm bắt sự phân bố của các biến tiềm an? Và cách tích

hợp phương trình 2.6 lên trên tất cả các chiều của z?

Hàm mục tiêu

Với một cách thủ công, là chúng ta sẽ chỉ định các thông tin liên quan muốn

mã hóa trong vector tiềm an để tạo hình ảnh đầu ra Nhưng có một giải pháp hữu hiệu hơn, là có thể dựa vào các Neural Network để tính toán Z chỉ với một giả định rằng Latent Vector này có thể được xấp xỉ như một phân phối bình

thường để lấy mẫu dễ dàng tại thời điểm suy luận.

Nếu chúng ta có phân phối chuẩn của z trong không gian ø chiều thì luôn

có thể tạo bất kỳ loại phân phối nào bằng cách sử dụng một hàm đủ phức tạp

24

Trang 36

và nghịch đảo của hàm này có thể được sử dụng để tìm hiểu chính các Latent

Variables.

Trong phương trình 2.6, phép tích hợp được thực hiện trên tất cả các kích

thước của z và do đó có thể gây khó khăn Tuy nhiên, nó có thể được tính toán

bằng các phương pháp tích hợp Monte-Carlo, một điều không dé thực hiện Vì

vậy, một cách tiếp cận khác dé tối đa hóa Py(X) ở phương trình 2.6.

Ý tưởng của VAE là suy ra P(z) bằng cách sử dụng P(z|X) mà nó chưa được

biết Thay vào đó, P(z|X) được suy luận bằng cách sử dụng một phương pháp

gọi là suy luận đa dạng (suy luận biến phân), về cơ bản đây là một vấn đề tối

ưu hóa trong thống kê Bayes

Trước tiên, mô hình P(z|X) được thành lập bằng cách sử dụng phân phối

Q(z|X) đơn giản hơn, dễ tìm và chúng tôi cỗ gắng giảm thiểu sự khác biệt giữa P(z|X) và Q(z|X) bằng cách sử dụng phương pháp KL-divergence Metric để giả

thuyết ban đầu đặt ra gần với phân phối thực sự

Do đó, hàm mục tiêu cuối cùng của VAEF là:

logP(X) — Dkr|Q|X)|LP(|X)] = EllogP(XIz)] — Dkr|@G|X)||P(2)] — (27)

Trong đó, Q(z|X) về cơ bản là mạng bộ mã hóa; z là biểu diễn dit liệu z, (x e X)

được mã hóa; P(X|z) là mạng bộ giải mã Trong phương trình trên, mục tiêu là

tối đa hóa khả năng phân phối dữ liệu theo một số lỗi do 2r[@(z|X)|LP(z|X)]

Có thé dễ dang thấy rằng VAE sử dung Evidence Lower Bound log(P(X)) vì

P(z|X) không thể điều khiển được nhưng KL-divergence Metric > 0 Điều nàygiống như tối đa hóa #£[logP(X|z)| và giảm thiểu Dxr[Q(z|X)|LP(|X)] Và tối đa

hóa EllogP(X|z)| là ước tính Maximum Likelihood và được mô hình hóa bằng

cách sử dụng mạng bộ giải mã.

Mục tiêu trước đó được đề cập đến là muốn biểu diễn tiềm an của mình

gần với Gaussian và do đó chúng ta giả sử P(z) là N(0,1) Theo giả định trên,Q(z|X) cũng nên gần với phân phối này Nếu giả sử rằng đó là một Gaussianvới các tham số p(x) và >(z), thì lỗi là do sự khác biệt giữa hai phân phối này.P() và Q(z|X) cho bởi kết quả KL-divergence trong một giải pháp dạng đóng

được đưa ra dưới đây:

Drr[Nu(X),*(X))||N(0, 1)] = 5 3 J(ezp(S(X)) +/(X)—1-S(X)) (238)

25

Trang 37

Tối ưu hóa giới hạn biến thiên, hàm tối ưu hóa như sau:

log(P(X|z)) — Drr[@(z|X)|LP(2)] (2.9)

Do đó, ham loss sẽ chứa hai số hang Đầu tiên là độ lỗi tái cấu trúc của

quá trình chuyển từ đầu vào đến đầu ra Thứ hai là của KL-divergenee Sau đó, Neural Network có thé được huấn luyện bằng thuật toán lan truyền ngược (back

propagation).

Nhưng có một van dé, đó là độ lỗi tái cấu trúc không chỉ phụ thuộc vào tham

số mà còn phụ thuộc vào tham số Q, nhưng sự phụ thuộc này lại không xuất

hiện trong phương trình trên Vậy làm thế nào để lan truyền ngược qua lớp đang

lay mẫu z ngẫu nhiên từ phân phối Q(z|X) hoặc N|u(X), 5(X)] để P có thể giải mã? Gradients không thể đi qua các vị trí ngẫu nhiên.

Thủ thuật Tái tham số hoá

Để giải quyết những vấn đề trên, một thủ thuật tính toán lại tham số (hình 2.7)

để làm cho mạng có thể phân biệt được Lay mẫu từ W(„(X),Š(X)) bằng cách

lấy mẫu đầu tiên c N(0,/), sau đó tính toán z = (X) + 51/2(X) xc

Phương pháp lấy mẫu này được thể hiện trong hình 2.7 Cần lưu ý rằng bước

chuyển tiếp giống hệt nhau đối với cả hai mạng này nhưng gradient chỉ có thể

lan truyền ngược qua mạng bên phải

Tại thời điểm Inference, chỉ có thể lay mau z từ N(0, 1) và cung cấp cho nó bộ giải mã để tạo điểm dữ liệu mới Vì mục tiêu đang tối ưu hóa Evidence Lower

Bound, chất lượng của hình ảnh được tạo ra có phần kém hơn so với các kỹthuật hiện đại như Generative Adversarial Networks (GANS).

Ưu điểm tốt nhất của VAEs là nó học được cả mô hình Tao sinh và mô hình Inference Mặc dù cả VAEs và GANs đều là cách tiếp cận rất thú vị để tìm hiểu

phân phối dữ liệu co bản bằng cách sử dung hoc tập không giám sát nhưng Gansmang lại kết quả tốt hơn so với VAEs

Trong VAEs, tối ưu hóa giới hạn dưới được sử dung, trong khi ở GANs thì

không Trên thực tế, GAN không xử lý bất kỳ ước tính mật độ xác suất rõ ràng

nào Nhược điểm của VAE trong việc tao ra hình ảnh sắc nét chỉ ra rằng mô

hình không thể tìm hiểu true posterior distribution.

26

Trang 38

Sample e from N(0,/)

(2)

Hình 2.7: Thủ thuật tái tham số hóa được sử dung để lan truyền ngược qua các

node ngẫu nhiên [6].

2.3.3 Diffusion Models

Tong quan

Như đã tìm hiểu ở phần trước, GANs và VAEs là hai mô hình đại diện cho mô

hình Tạo sinh quan trọng đã đạt được nhiều thành công nhất định và được côngnhận GANs hoạt động tốt cho nhiều ứng dụng, nhưng lai gặp khó khăn trong

quá trình huấn luyện mô hình Vì vậy, kết quả của nó thiếu đi sự đa dạng bởi

vì một vài thách thức như đầu ra giống hệt nhau và không phụ thuộc bởi đầu

vào (mode collapse); không thể hội tụ (vanishing gradient).

Mặc dù VAEs có nền tang lý thuyết vững chắc nhất, tuy nhiên việc mô hìnhhóa của ham loss là một thách thức trong VAEs khiến cho đầu ra của mô hình

này đưa lại không đạt mức tối ưu.

Có một nhóm các kỹ thuật được bắt nguồn từ phương pháp ước tính khảnăng xảy ra (likelihood estimation) theo xác suất và được lấy cảm hứng từ các

hiện tượng vat lý, được gọi là mô hình khuếch tán (Diffusion Models)[28] Trong

hầu hết các trường hợp, hiệu suất của chúng được cho là vượt trội so với các môhình Tạo sinh tiên tiến nhất như GANs và VAEs

Các mô hình Khuếch tán là một nhóm mới và hiện đại của mô hình Tạo sinhcho phép tạo ra các tạo ra cách hình ảnh chất lượng cao đa dạng Mô hình này

đã thu hút nhiều sự quan tâm trong giới khoa học khi vừa được xây dựng nên,

27

Trang 39

sau khi được OpenAI, Nvidia và Google quản lý để huấn luyện các mô hình có

quy mô lớn hơn Một số kiến trúc ví dụ dựa trên các mô hình khuếch tán là

GLIDE, DALLE-2, Imagen va Stable Diffusion với mã nguồn mở.

Các mô hình xác suất khuếch tán là các mô hình chuỗi Markov (Markov

Chains Models) được tham số hóa trong quá trình huấn luyện để phân rã dần cấu trúc của dữ liệu Đây là những Latent Variable Model có khả năng tổng hợp

hình ảnh chất lượng cao.

Ý tưởng chính đằng sau mô hình Khuếch tán xuất phát từ nhiệt động lực

học của các phân tử khí, hoặc sự khuếch tán của các phân tử trong nước Nhờ

đó, các phân tử có xu hướng khuếch tán từ khu vực có mật độ cao đến khu vực

có mật độ thấp

Sự chuyển động này theo trong tài liệu vật lý là sự gia tăng "entropy" hoặc

cái chết nhiệt Còn trong thế giới công nghệ thông tin, điều này tương đươngvới việc phá vỡ cấu trúc thông tin do sự can thiệp dần dần của nhiễu (noise)

Đối với mô hình Khuếch tán, khái niệm chính ở đây là nếu một mô hình được

xây dựng để học sự phân rã một cách có hệ thống của thông tin bởi noises Thi

mô hình cũng có thể khôi phục thông tin từ noises bằng cách đảo ngược quá

trình trước Khái niệm này tương tự như VAEs, mô hình này cố gắng tối ưu hóa

một hàm mục tiêu bằng cách ánh xa dữ liệu lên không gian tiềm an và sau đó

khôi phục di liệu đó lại trạng thái ban đầu

Các mô hình khuếch tán về cơ bản khác với tất cả các phương pháp tạo ra

trước đây Điểm khác ở đây là những mô hình này phân tách quá trình tao ảnh

(lấy mẫu) thành nhiều bước khử nhiễu (denoising) nhỏ [21] Trực giác đằng sau

điều này là mô hình có thể tự sửa lỗi qua các bước nhỏ này và dần dần tạo ra

một mẫu tốt Nhưng một vấn đề là không có gì đến với chi phí bằng 0 Quá

trình lặp đi lặp lại này khiến chúng lấy mau chậm hơn, ít nhất là so với GANs.

Denoising Diffusion Model

Ý tưởng về mô hình Khuếch tán khử nhiễu đã có từ lâu No bắt nguồn từ khái

niệm Bản đồ khuếch tán (Diffusion Maps concept), một trong những kỹ thuật

giảm kích thước được sử dụng trong tài liệu Học máy.

Bên cạnh đó, ý tưởng này cũng vay mượn các khái niệm khác từ những

phương pháp xác suất như chuỗi Markov đã được sử dụng nhiều trong các ứng

dụng Phương pháp khuếch tán khử nhiễu ban đầu được đề xuất trong công

trình năm 2015 của tác giả Sohl-Dickstein và các cộng sự [37].

28

Trang 40

Mô hình khuếch tán khử nhiễu là một quy trình gồm hai bước: quy trìnhkhuếch tán thuận (forward process) và khuếch tán ngược (reverse process)hay còn gọi là quy trình tái cấu trúc (reconstruction), minh hoạ hình 2.8.

Trong Forward process, nhiễu Gaussian được đưa vào liên tục cho đến khi dữliệu trở thành nhiễu hoàn toàn Reverse process sẽ loại bỏ nhiễu bằng cách tìm

hiểu phân phối mật độ xác suất có điều kiện bằng mô hình Neural Network Ví

dụ mô tả quá trình như vậy đươc minh họa ở hình 2.8.

Các mô hình Khuếch tán lấy mẫu từ một phân phối bằng cách đảo ngượcquá trình lấy nhiễu dần dần: lấy mẫu bắt đầu bằng nhiễu x7 và các mau ít nhiễuhơn:zr_,#r_a được tạo ra cho đến khi đạt được mẫu cuối cùng zọ Mỗi thời

điểm ¢ tương ứng với một mức nhiễu nhất định và z; có thể được coi là sự kết

hợp của zo và một số nhiễu c [26]

Với bản chất là mô hình chuỗi Markov được đào tạo để tạo ra các mẫu khớp với dữ liệu gốc sau một khoảng thời gian nhất định Mỗi quá trình chuyển đổi

trong chuỗi học cách đảo ngược quá trình khuếch tán (Quá trình tái cấu trúc).

Đó là chuỗi Markov thêm nhiễu dần dần vào dữ liệu cho đến khi thông tin

bị phá hủy Sau đó, một Neural network được đào tạo để khôi phục dữ liệu gốc bằng cách đảo ngược quá trình lấy nhiễu Bằng cách có thể mô hình hóa quá

trình đảo ngược, từ đó có thé tạo dit liệu mới Day là quy trình khuếch tán

ngược được gọi là reconstruction của một mô hình Tạo sinh.

Quá trình khuếch tán thuận - Forward Process

Quy trình khuếch tán thuận có thể được định nghĩa chính thức là Chuỗi

Markov và do đó, không giống như bộ mã hóa trong VAEs, nó không yêu

cầu đào tạo Bắt đầu với điểm dữ liệu ban đầu, nhiễu Gaussian được thêm

vào cho T bước liên tiếp và thu được một tập hợp các mẫu nhiễu, minh hoạ hình

2.8.

Mô hình Khuéch tán học cách tạo ra z;_¡ được khử nhiễu nhiều hơn so với

x, Trong thực tế, mô hình là một hàm c(z¿,#) dự đoán thành phần nhiễu của 24.

Quá trình huyến luyện mô hình liên quan đến việc vẽ ngẫu nhiên mẫu dữ liệu

xo, tại thời điểm t, và độ nhiễu là c tạo ra mẫu nhiễu z; Khi đó mục tiêu đào

tạo là:

les(z¡.£) — «| (2.10)

Phương trình 2.10 là ham độ lỗi MSE giữa nhiễu thực và nhiễu dự đoán bởi

mô hình Dự đoán mật độ xác suất tại thời điểm t, chỉ phụ thuộc vào thời điểm

29

Tiêu đề	Tạo sinh ảnh dựa trên câu mô tả và ảnh mẫu với mô hình khuếch tán trên không gian tiềm ẩn
Tác giả	Trương Quốc Trường
Người hướng dẫn	TS. Nguyễn Vinh Tiệp
Trường học	Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành	Khoa học máy tính
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2023
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	86
Dung lượng	63,77 MB

Tài liệu tham khảo	Loại	Chi tiết
[11] Bruce Gooch, Greg Coombe, and Peter Shirley. Artistic vision: painterlyrendering using computer vision techniques. In Proceedings of the 2nd inter- national symposium on Non-photorealistic animation and rendering, pages 83-ff, 2002	Khác
[13] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative ad-versarial networks. Communications of the ACM, 63(11):139-144, 2020	Khác
[14] Chirag Goyal. Deep Understanding of Discriminative and Generative Mod-els in Machine Learning, 7 2021	Khác
(15) Aaron Hertzmann. Painterly rendering with curved brush strokes of multi-ple sizes. In Proceedings of the 25th annual conference on Computer graphics and interactive techniques, pages 453-460, 1998	Khác
[19] Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. arXivpreprint arX+u:2207.12598, 2022	Khác
[20] Yongcheng Jing, Yezhou Yang, Zunlei Feng, Jingwen Ye, Yizhou Yu, andMingli Song. Neural style transfer: A review. IEEE transactions on visual-ization and computer graphics, 26(11):3365-3385, 2019	Khác
[21] Sergios Nikolas Adaloglou Karagiannakos. How diffusion models work: themath from scratch, 9 2022	Khác