Nếu chúng ta muốn sử dụng những tính năng với sự hỗ trợ của Trí Tuệ Nhân Tạo để tạo sinh, biến đổi các hình ảnh mang phong cách nghệ thuật tranh dân gian Việt Nam thì có khả quan?. Vậy n
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HOC MAY TINH
TRUONG QUOC TRUONG
KHOA LUAN TOT NGHIEP
CU NHÂN NGANH KHOA HỌC MAY TÍNH
TP HO CHi MINH, 2023
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HOC MAY TINH
TRUONG QUOC TRUONG - 19522446
KHOA LUAN TOT NGHIEP
VA ANH MAU VOI MO HINH KHUECH TAN
TREN KHONG GIAN TIEM AN
CU NHÂN NGANH KHOA HỌC MAY TÍNH
GIANG VIEN HUONG DAN
TS NGUYEN VINH TIEP
TP HO CHÍ MINH, 2023
Trang 4DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
154/QD-DHCNTT ngày 01/03/2023 của Hiệu trưởng Trường Dai hoc Công nghệ Thông
tin.
1 Chu tich: TS Lé Minh Hung
2 Thu ký: ThS Nguyễn Thị Ngọc Diễm
3 Ủy viên: Th§ Đỗ Văn Tiến
4.
1V
Trang 5LỜI CẢM ƠN
Qua những năm tháng học tập và rèn luyện ở trường Đại học Công Nghệ
Thông Tin - ĐHQG TP.HCM Với sự giảng dạy, chỉ bảo tận tình của các thầy
cô cũng như sự giúp đỡ của các anh chị và bạn bè Em đã phần nào trang bị và
tích lũy được cho mình một vốn kiến thức, để vận dụng vào thực tiễn và công việc Nay em thực hiện đề tài Khóa luận để tổng hợp và vận dụng những kiến thức, kỹ năng đã được học Và cũng để làm học phần cuối trong quá trình đào tạo tại trường Trong quá trình thực hiện đề tài thì không thể thiếu những sự
hỗ trợ, góp ý của các quý thầy cô, cùng các anh chị, bạn bè trong phòng ThíNghiệm Truyền Thong Da Phương Tiện - MMLAB
Đầu tiên, em xin gửi lời cảm ơn chân thành đến thay TS Nguyễn Vinh Tiệp
- Trưởng phòng Thí Nghiệm Truyền Thông Da Phương Tiện đã nhận lời làm
Giảng viên Hướng dẫn, để cho em có cơ hội thực hiện đề tài Khóa luận của
mình Cảm ơn thầy vì những hướng dẫn, góp ý, chỉ bảo và cả những hỗ trợ về
mặt tài nguyên trong quá trình thực hiện thử nghiệm.
Tiếp đến em xin cảm ơn quý thầy cô trong khoa Khoa Học Máy Tính đãquan tâm, nhắc nhở em và cũng như các bạn sinh viên thực hiện Khóa luận Vềviệc đăng ký đề tài, chỉnh sửa và báo cáo tiến độ định kỳ Giúp chúng em tậptrung, cố gắng hoàn thành Khóa luận một cách tốt nhất
Bên cạnh đó, là quý thầy cô trong trường Dai học Công Nghệ Thong Tin đã
giảng dạy, chỉ bảo nhiệt tình cho chúng em trong từng môn học Giúp chúng em
trang bị được những kỹ năng, kiến thức cần thiết để phục vụ cho quá trình làm
Khóa luận, cũng như cho công việc trong tương lai.
Và qua đây, em cũng muốn cảm ơn đến các thầy cô, anh chị, các bạn đồngmôn trong phòng Thí nghiệm Truyền Thông Đa Phương tiên đã giúp đỡ, hỗ trợ
em Những góp ý, nhận xét trong quá trình báo cáo, trình bày giúp em hoàn
thiện, làm tốt hơn đề tài Khóa luận của mình
Và cuối cùng em xin cảm ơn đến bố mẹ, gia đình em Những bậc sinh thành
đã nuôi dưỡng và cho em cơ hội được học tập, được theo đuổi ước mơ của bản
thân Và những động viên, an ủi của gia đình, bạn bè trong những lúc khó khănchính là động lực cho em không ngừng cố gắng, phát triển bản thân từng ngày
Em xin chân thành cảm ơn!
Trang 6TONG QUAN
Một trong những xu hướng đang được quan tâm trong thé giới Trí Tuệ Nhân
Tạo nói chung và lĩnh vực Thị Giác Máy Tính nói riêng đó là Tạo Sinh Ảnh
— Image Generation.
Đã có rat nhiều mô hình như: Generative Adversarial Network [13], Neural
Style Transfer [20], Variational Autoencoder [25], Diffusion Model [28] giảiquyết tốt những bài toán Tao sinh anh Nhưng các mô hình này lại yêu cầu
lượng tính toán, nguồn tài nguyên, thời gian đào tạo lớn.
Vấn đề đặt ra là làm sao để xử lý được những bài toán Tạo Sinh Ảnh với lượng
tính toán và thời gian huấn luyện ít hơn Để có thể linh hoạt và đáp ứng được
với nguồn tài nguyên hạn chế Đó cũng là cơ sở cho sự xuất hiện của mô hình
Khuếch Tán Trên Không Gian Tiềm An — Latent Diffusion Models.
Được giới thiệu trong công trình “High-Resolution Image Synthesis With Latent
Diffusion Models” [32].
Nghệ thuật Việt Nam luôn mang những giá trị văn hoá, tinh than dân tộc
Trong số đó, phải kể đến các dòng tranh dân gian, được coi là nét đẹp truyền
thống của người dân Việt Nam Nếu chúng ta muốn sử dụng những tính năng
với sự hỗ trợ của Trí Tuệ Nhân Tạo để tạo sinh, biến đổi các hình ảnh mang
phong cách nghệ thuật tranh dân gian Việt Nam thì có khả quan?
Với mục đích nêu cao giá trị và đưa các dòng tranh dân gian đến gần hơn với
mọi người Và nắm bắt được xu hướng Tạo Sinh Ảnh Qua các nghiên cứu và
khảo sát Đối với đề tài này, em áp dụng Latent Difusion Models vào giải quyết
bài toán Tạo sinh, chuyển đổi phong cách hình ảnh đầu vào qua các phong cách
tranh dân gian Việt Nam.
Quá trình thực hiện gồm: Tìm hiểu, nghiên cứu phương pháp, cơ chế Tạo
sinh ảnh của Latent Diffusion Models; Xây dựng bộ dữ liệu các dòng tranh
dân gian Việt Nam; Fine-tuning mô hình trên bộ dữ liệu mới; Kết hợp các kỹ
thuật khác như Inpainting cho xử lý dữ liệu; Salient Object Detection cho
xử lý background và High-Resolution cho xử lý độ phân giải ảnh kết quả; Vàcuối cùng là thực hiện khảo sát, đánh giá kết quả
vì
Trang 7Mục lục
1 Giới Thiệu
1.1 Bối cảnh thực tẾ Ặ Quy
1.1.1 Khả năng tiếp cận của các mô hình Tạo Sinh Ảnh
1.12 Tính ứng dụng của bài toán Tạo Sinh anh
1.13 Trong lĩnh vực nghiên đỨứu
1.2 Định nghĩa HH ee
13 Thách thúc ay we đ|ẻ À /
14 Muctiéu Ø7 Am | /
1.5 Đóng góp chính Quy va
16 Bố cục Khoá luận 00000002 eee
2 Nghiên Cứu Liên Quan
2.1 Phương pháp xử lý ảnh truyền thống
2.2 Mô hình Tạo sinh 0.000000000000000008.
2.21 Mô hình Phân lớp và Tạo sinh
2.2.2 Tổng quan mô hình Tao sinh
2.2.3 Sinhảnh v2
224 Ynughiatoanhoc 000.0 cee ee
2.3 Các phương pháp tiếp can Hoc Máy
2.3.1 Generative Adversarial Networks- GANs
2.3.2 Variational AutoEncoders- VAEs
17
18 18 19 22 27
43
Trang 83.2 Áp dung Latent Diffusion Model cho bài toán Tạo sinh, biến đổi
ảnh qua các phong cách tranh dân gian Việt Nam
3.2.1 Nén hình ảnh (Perceptual Compression)
3.2.2 Quá trình Khuéch Tan (Diffusion process)
3.2.3 Khuéch Tan Có Điều Kiện
3.2.4 Trình tao thông tin hình anh
3.3 Phương pháp Texutal Inversion
3.3.1 Tổng quan cv. 3.3.2 Kiến trúc kỹ thuật 2 00.0.0 00
3.4 Bộ trọng số gốc sd-vl-4.ckpt c ee 3.4.1 Tổng quan cv. 3.4.2 Chi tiết môhình QC 3.4.3 Tài ngUYÊNH LH ee 3.4.4 Huấn luyện môhình
3.5 Bộ dữ liệu gốeLAION ee Thực Nghiệm 4.1 Bộ dữ liệu tranh Dong Hồ, tranh Sơn Mài
42 Tiền xử lý đữ liệu en 4.3 Fine-tuning m6 hinh Ặ Lo 4.4 Đánh giá ảnh kết qua 2 ee 4.4.1 Yêu cầu, tiêu chi đánh giá:
-4.4.2 Kết quả đánh giá Q ee 1 he
46 Nhận xết Quà và vo Kết Luận 5.1 Kết quả đạt được ee 5.2 Hướng phát triển trong tương lai
Tài Liệu Tham Khảo
vill
59 59
61 62 63 64
64 65 66
69
69 70 72
Trang 9Các tính năng tạo sinh, biến đổi phong cách ảnh trên các nền
tảng mạng xã hội Nhiều nền tảng, ứng dụng đang áp dụng những
thành tựu của Al 2 Qui.
Các loại hình nghệ thuật dân gian Việt Nam
Một vài mẫu ví dụ về 02 dòng dân gian Việt Nam Tranh Đông
Hồ (bên trái) và tranh Son Mai (bên phải)
Định nghĩa bài toán Tạo sinh, chuyển đổi hình ảnh qua phong
cách tranh dân gian Việt Nam .
Ví dụ minh hoạ một vài mau từ bộ dữ liệu ImageNet [22].
Minh họa quá trình huấn luyện và tạo phân phối dữ liệu của mô
hình Ta nnh†em Sy 4 Ma Ồ ỀŠÔỒ Y2Kiến trúc chung của Mạng Tạo Sinh Thuận Nghịch (GANs)
Ví dụ minh hoa cau trúc trình tạo và phân biệt đối xử trong
DCGAN Quà gà xxx va
Kiến trúc minh hoạ mô hình Bộ Mã Hoá Đa Dạng5 VAEs
Vectơ tiềm an được ánh xạ tới phân phối dữ liệu bằng tham số Ø
Thủ thuật tái tham số hóa được sử dụng để lan truyền ngược qua
các node ngẫu nhiên |0] .
Quá trình khử nhiễu và Tái cấu trúc (đảo ngược quá trình lấynhiễu dan dần) của Mô hình xác suất khuếch tán
Minh hoạ kiến trúc mạng UNet
Kiến trúc tổng quát của Latent Difusion Models, do các tác giả
đề xuất |32] ee
1X
23
Trang 10Các bước £ trong quá trình khuếch tán được thực hiện trong không
gian tiềm an Kết hợp phần nhúng câu mô tả từ tập pre-trained
của mô hình CLIP
Quá trình dự đoán nhiễu của mạng Unet trong quá trình huấn
luyện mô hình Khuếch Tấn Tiềm Ân .
Sử dụng Cross-attention để kết hợp phần nhúng câu mô tả vào biểu diễn tiềm an của ảnh đầu vào
Ví dụ về đào tạo các khái niệm mới cho mô hình Khuếch Tán On
Định để tạo ra các hình ảnh cA nhân .
Co chế hoạt động của kỹ thuật Textual Inversion
Vi dụ về các mau dữ liệu cặp hình ảnh và câu chú thích trong bộ
dữ liệu LAION-5B được tìm kiếm qua API thực nghiệm [2]
Một vài mau vi dụ từ tap dit liệu "Tranh Dong Hồ Việt Nam"
Một vài mẫu ví dụ trong bộ dữ liệu "Tranh Sơn Mài Việt Nam".
Ví dụ về quá trình inpainting các mẫu dữ liệu về kích thước
512 x 512 để phù hợp cho quá trình huấn luyện
Kết quả khảo sát đánh giá định tính trên các mẫu chuyển đổi
phong cách tranh Đông Hồ, tranh Sơn Mai Việt Nam
Kết quả mẫu chuyển đổi phong cách tranh Dông Hồ Việt Nam.
Kết quả mẫu chuyển đổi phong cách tranh Sơn Mai Việt Nam
Một vài mẫu được tạo sinh theo phong cách tranh Đông Hồ Việt
62
65 66 66
Trang 11Danh sách bảng
3.1 So sánh thông số, yêu cầu nguồn tài nguyên của Latent Diffusion
Model và các mô hình Tạo sinh khác
4.1 Kết quả khảo sát đánh giá định tính trên các mẫu chuyển đổi
phong cách tranh Đông Hồ, tranh Sơn Mai Việt ÑNam
xI
Trang 12Chương 1
Giới Thiệu
1.1 Bối cảnh thực tế
1.1.1 Kha năng tiếp cận của các mô hình Tạo Sinh Ảnh
Khi mà các mô hình Tạo sinh ảnh ngày càng không ngừng phát triển và đạt
được nhiều kết quả đáng ghi nhận Thì mục tiêu hướng đến của những mô hìnhnày là phải thiết thực, dễ dàng tiếp cận đối với các đối tượng sử dụng, nghiên
cứu.
Nhưng các mô hình Tạo sinh mạnh mẽ và cho kết quả cao như vậy lại khó được
tiếp cận Bởi các mô hình Tạo sinh, Chuyển đổi phong cách ảnh như: Generative
Adversarial Network - GANs [13], Neural Style Transfer [20], Autoregressive (AR) Transformers [7], Variational Autoencoder [25] Diffusion Model [28] dagiải quyết tốt các bài toán tạo sinh Nhung vi yêu cầu xử ly, tính toán trênkhông gian pixel của hình ảnh Nên lượng tính toán lớn, kiến trúc mô hình phứctạp, thường được kết hợp của nhiều module, sử dụng pre-trained của các môhình khác Nên nếu không đáp ứng đủ yêu cầu về tài nguyên của các mô hình
này thì rất khó để tiếp cận, triển khai và sử dụng Vậy nên, không ngạc nhiên
gi khi chỉ những gã khong lồ như Google, OpenAl mới có thể phát hành đượcnhững mô hình như vậy.
Vấn đề đặt ra là làm sao để xử lý được những bài toán Tạo Sinh ảnh trên
những mô hình yêu cầu tài nguyên, lượng tính toán và thời gian huấn luyện ít
hơn Đây là cơ sở cho sự xuất hiện của mô hình Tạo sinh ảnh “Khuéch Tan
Trang 13Trên Không Gian An” — Latent Diffusion Models Là mô hình được sử
dung trong công trình nghiên cứu "High-Resolution Image Synthesis With
Latent Diffusion Models" [32] của nhóm tác giả: Robin Rombach, Andreas
Blattmann, Dominik Lorenz, Patrick Esser, Bjorn Ommer từ Dai hoc Ludwig
Maximilian của Munich, Dai hoc Heidelberg, Đức Công trình nghiên cứu được
công bồ tại hội nghị CVPR2022
Và trong đề tài Khoá luận này, dựa trên mô hình Tạo sinh ảnh Latent
Diffu-sion Models, chủ yếu là một phiên bản của mô hình có tên là Stable DiffuDiffu-sion.
Để tìm hiểu về phương pháp, kiến trúc của mô hình Áp dụng mô hình cho bài
toán của đề tài là Tạo sinh, biến đổi ảnh đầu vào kết hợp với câu mô tả thành
ảnh có phong cách tranh Dong Hồ và tranh Sơn Mai Việt Nam Dé qua đó chứng
minh được rằng: Latent Diffusion Model dễ tiếp cận với các đối tượng sử dụng
và nghiên cứu Có thể linh hoạt và đáp ứng được với những trường hợp nguồn
tài nguyên tính toán bị hạn chế
1.1.2 Tinh ứng dụng của bài toán Tao Sinh ảnh
Những năm trở lại đây, các nền tang mạng xã hội, truyền thông đa phương tiệnđang có xu hướng áp dụng những thành tựu mà Trí Tuệ Nhân Tạo (AT) mang
lại Từ những hệ thống trả lời tự động (Interactive Voice Response), tin nhắn tự
động (BotChat), đến những hệ thống gợi ý người dùng (Recommender System)
và Tạo sinh ảnh dựa trên các câu mô tả và ảnh mẫu cũng không nằm ngoài
ngoại lệ.
Và gần đây, đang nổi lên những xu hướng biến đổi, sáng tạo hình ảnh với
sự giúp sức của Trí Tuệ Nhân Tạo Dua lại nhiều trải nghiệm thú vị cho người
dùng mạng xã hội Đã có những tác vụ chỉnh sửa, biến đổi ảnh cơ bản trên các
nền tảng mạng xã hội Ví dụ như những website cho phép người dùng chỉnh sửa
ảnh cá nhân bằng cách đưa ảnh vào và thêm những hiệu ứng, biến đổi, thêm
bộ lọc (filter) Hay đối với người dùng Facebook, Instagram, Tiktok có thể cho
phép người dùng thỏa sức sáng tạo đối với những hình ảnh, video và chia sẻ lên
trên các nền tảng này - hình 1.1
Tạo sinh ảnh còn tương đối mới lạ và nhận được nhiều sự quan tâm, thíchthú của người dùng Mà mô hình Tạo sinh ảnh lại thực hiện được tốt những
nhiệm vụ này Vì vậy, những mô hình này đang là mục tiêu tìm hiểu, nghiên
cứu hàng đầu trong khoảng thời gian trở lại đây
Trang 14AI Tools
Hình 1.1: Các tính năng tạo sinh, biến đổi phong cách ảnh trên các nền tang
mạng xã hội Nhiều nền tảng, ứng dụng đang áp dụng những thành tựu của AI
Trong đề tài này, Latent Diffusion Model sẽ được fine-tuning với bộ dữ liệu
mới về tranh dân gian Việt Nam, cụ thể là hai dòng tranh Sơn Mai và Dong Hồ.
Sau đó, tiến hành triển khai mô hình đã huấn luyện lên Website Tạo Sinh Ảnh.
e Website Tạo Sinh Ảnh Ngày nay, nhu cầu đồ họa ngày càng phát triển
mạnh mẽ Một trang web cho phép người dùng tạo ra những hình ảnh hoặc
biến đổi phong cách ảnh dựa trên câu mô tả và hình ảnh mẫu Hứa hẹn
là một trong những công cụ hỗ trợ sự tư duy sáng tạo cho những họa sĩ,
người làm đồ họa Giúp họ có thêm được những ý tưởng sáng tạo, đột phá
hơn.
e Tính năng tạo sinh ảnh trong các nền tảng mang xã hội Với sự
phát triển có tính cạnh tranh giữa các nền tảng mạng xã hội Những cái tênvới đông đảo lượng người dùng như Tiktok, Facebook, Instagram dang ngày càng tung ra những tính năng, tiện ích cho việc xử lý, chia sẻ các nội dung hình ảnh Mang lại trải nghiệm thú vị cho người dùng Đây cũng là
cơ hội lớn cho mô hình sinh ảnh Latent Diffusion, bởi mô hình cho thời
gian phản hồi kết quả khá nhanh - một trong những yêu cầu thiết yếu trên
các nên tảng mạng xã hội.
Trang 151.1.3 Trong lĩnh vực nghiên cứu
Ngay từ khi lĩnh vực máy tính phát triển mạnh mẽ, cũng là lúc ngành công
nghiệp đồ họa máy tính ra đời và đạt được nhiều thành công nhất định Các
kỹ thuật trước đây là tạo ra những kiệt tác trong đồ họa máy tính một cách
thủ công Dodi hỏi thiết kế hệ thống ti mỉ và chuyên môn của các nhà phát triển
nghệ thuật.
Khoa học và nghệ thuật luôn song hành trong đời sống của con người Với
những ứng dụng thiết thực, và được đón nhận rộng rãi từ sự phát triển đột phá
của Máy học trong lĩnh vực Thị Giác Máy Tính Song các nghiên cứu trong
những vấn đề sáng tạo vẫn luôn tạo được sự quan tâm và đã thu hút rất nhiều
nhà khoa học.
Tạo sinh hình ảnh mặc dù đã xuất hiện được một thời gian nhưng vẫn còn
khá mới mẻ và cũng đầy thách thức Chúng ta đã chứng kiến những mô hìnhTạo sinh đạt được những thành công gần đây với những tiêu chí đánh giá nhấtđịnh Ngoài chất lượng kết quả tạo ra, còn thêm nhiều những khía cạnh khác
như thời gian huấn luyện mô hình; yêu cầu nguồn tài nguyên; thời gian cho kết
quả; cấu trúc mô hình để đánh giá mô hình Vì vậy, đây cũng chính là những động lực và cơ sở để những nhà khoa học tiếp tục nghiên cứu và cải thiện các
mô hình Tạo sinh Trong những năm trở lại đây, các công trình nghiên cứu về Tạo sinh ảnh ngày càng tăng về mặt số lượng.
Kết quả của những mô hình này không chỉ đòi hỏi sự thỏa mãn về thẩm mỹ,
mà còn cần ưu tiên cả về tốc độ xử lý cũng như thời gian phản hồi kết quả Đó
là cơ sở để từ những mô hình Tạo sinh với kiến trúc phức tạp, lượng tham số khong lồ như GANs [13], Neural Style Transfer [20], Diffusion Models [28] cho
đến những mô hình nhẹ nhàng hơn như Latent Diffusion Model [32]
Để fine-tuning mô hình với những bộ dữ liệu mới Em sử dụng một phiên
bản của Latent Diffusion Model, đó là mô hình Khuếch Tan On Dinh (Stable
Diffusion) và sử dụng bộ trọng số gốc của phiên bản nay Dé chứng minh rằng
mô hình đã giải quyết được những vấn đề mà các mô hình trước đã mắc phải
và những cải tiến mà mô hình mang lại
1.2 Dinh nghĩa
Đối với bối cảnh thực tế hiện nay Rất nhiều nhiều các tính năng xử lý ảnh với
sự hỗ trợ của Trí Tuệ Nhân Tạo đang được xuất hiện nhiều trong ứng dụng và
4
Trang 16công cụ chỉnh sửa ảnh Nhằm nâng cao trải nghiệm của người dùng và cho phép
tạo ra các hình ảnh nghệ thuật Đặc biệt, có hai xu hướng đang được ưa chuộng
hiện nay, đó là tạo sinh ảnh và chuyển đổi phong cách ảnh
Vậy nếu chúng ta muốn sử dụng những tính năng với sự hỗ trợ của Trí Tuệ
Nhân Tạo để tạo sinh, biến đổi các hình ảnh mang phong cách nghệ thuật tranh
dân gian Việt Nam thì liệu có được hay không? Và nếu được thì đây sẽ là bước
tiến mới nhiều tiềm năng trong việc sử dụng Trí Tuệ Nhân Tạo để hỗ trợ, phát triển các loại hình tranh dân gian Việt Nam - hình 1.2.
Tranh dân gian Việt Nam: Nghệ thuật Việt Nam luôn mang những giá tri
văn hoá, tỉnh thần dân tộc Trong số đó, phải kể đến các dòng tranh dân gian
Việt Nam như tranh Đông Hồ, tranh Sơn Mai Các dòng tranh này đã đi theo
chiều dai lịch sử của đất nước và được coi là nét đẹp truyền thống của người
dân Việt Nam.
Tuy nhiên, trong cuộc sống hiện đại ngày nay Những dòng tranh truyền
thống này đang bị lãng quên phần nào Nhằm nêu cao giá trị và đưa các dòng
tranh dân gian Việt Nam đến gần hơn với mọi người qua sự giúp sức của TríTuệ Nhân Tạo Trong đề tài này, em áp dung Latent Diffusion Model vào giải
quyết bài toán tạo sinh, biến đổi phong cách ảnh qua các phong cách tranh dân
gian Việt Nam Cụ thể là 02 dòng tranh Đông Hồ và Sơn Mài - hình 1.3.
Định nghĩa bài toán: Bài toán tạo sinh hình ảnh dựa trên câu mô tả và hình ảnh mẫu là một trong những tính năng mà Latent Diffusion Model mang lại.
Mô hình sửa dụng các kỹ thuật nhúng để đưa hình ảnh mẫu và câu mô tả kèm theo vào trong một không gian tiềm ẩn Sau đó thực hiện quá trình khuếch
Trang 17Hình 1.3: Một vài mẫu ví dụ về 02 dòng dân gian Việt Nam Tranh Đông Hồ(bên trái) và tranh Sơn Mài (bên phải).
tán để xử lý và cho ra kết quả Minh họa ảnh đầu vào và kết quả trả ra của mô
hình với câu mô tả tương ứng - hình 1.4.
e Đầu vào: Anh mẫu và câu mô ta.
e Dau ra: Hình ảnh được tạo sinh dựa trên ảnh gốc và câu mô tả
Dau vao
Hình 1.4: Dinh nghĩa bài toán Tao sinh, chuyển đổi hình ảnh qua phong cách
tranh dân gian Việt Nam.
Trang 18Phạm vi bài toán: Đối với bài toán Tạo sinh, chuyển đổi hình ảnh qua phong
cách tranh dân gian Việt Nam bằng mô hình Khuếch Tan Tiềm An có những
ràng buộc và phạm vi như sau:
e Yêu cầu hình ảnh đầu vào: Ảnh mẫu giúp định hình được bố cục, cấu
trúc màu sắc đối tượng Cho nên ảnh mẫu là ảnh màu (RGB) Độ phân
giải tuỳ ý, và kết quả sẽ phụ thuộc vào độ phân giải, trong trường hợp độphân thấp hoặc cao
Mô hình được huấn luyện và cả fine-tuning trên bộ dữ liệu có các hình ảnh
kích thước là 512 x 512 Nên mô hình sẽ cho kết quả tốt nhất khi ảnh đầuvào có kích thước 512 x 512 Hoặc tỉ lệ xấp xi 1: 1, và sau đó sẽ được điêu
chỉnh về kích thước phù hợp.
Đặc trưng của tranh Đông Hồ là mỗi bức tranh sẽ có một vài đối tượng
chính được vẽ nổi bật lên trên nền giấy Đối tượng trong tranh ít, thường
một hoặc một vài đối tượng Chủ đề thường xoay quanh hoạt động củacon người, con vật thân thuộc với người dân quê Việt Nam; Còn đối vớitranh Sơn Mài, chủ yếu là phong cảnh làng quê, cảnh vật thiên nhiên, phố
cổ Từ những đặc điểm này, để nếu muốn mô hình sinh ra được những kết quả được chuyển đổi phong cách tốt, hiệu quả Chúng ta cần phải chọn ảnh đầu vào phù hợp với những loại phong cách muốn chuyển đổi.
e Yêu cầu về phần mô tả: Câu mô tả có tác dụng hướng dẫn quá trình
tạo sinh ảnh, định hình đối tượng, phong cách muốn chuyển đổi Mô hình
sử dụng pre-trained model CLIP, nên sử dụng ngôn ngữ Tiếng Anh Trong
phần mô tả cần phải mô tả những đối tượng, khung cảnh, vật thể có trong hình ảnh đầu vào Và phong cách muốn chuyển đổi Lúc đó mô hình có thể
xử lý và đưa ra những kết quả phù hợp
1.3 "Thách thức
Trong quá trình thực hiện đề tài Khoá luận, sau đây là những khó khăn gặp
phải:
Đối với việc so sánh giữa mô hình Khuếch Tán Tiềm An (LDMs) và những mô
hình Tạo sinh khác như GANs, VAEs và cả mô hình tiền nhiệm đó là Diffusion
Models Thì LDMs không yêu cầu một lượng tài nguyên quá lớn, và thời gian
đào tạo mô hình cũng ít hơn các mô hình trước đó Nhưng LDMs cũng còn tồn
7
Trang 19tại một vài vấn đề, chủ yếu tập trung vào phần kiến trúc mô hình và quá trình
fine-tuning mô hình.
e Nhiều module của mô hình sử dụng tập đào tao sẵn Cấu trúc mô
hình Khuếch Tán Tiềm Ấn được xây dựng bằng cách kết hợp nhiều module
với nhau Và trong đó, có những phần của mô hình sử pre-trained model
Ví dụ như phần khuếch tán có điều kiện của mô hình Các tác giả kết hợp
sử dụng tập pre-trained của mô hình CLIP [29] để nhúng câu mô tả và
hình ảnh mẫu vào cùng một không gian tiềm ẩn để xử lý
Day là một thách thức bởi vì khó có thể thay thế hoặc fine-tuning phan
nhúng này của CLIP Bởi đây là một mô hình lớn mà OPEN-AT đã tốn
nhiều thời gian, nguồn tài nguyên để huấn luyện và được sử dụng với một
bộ dữ liệu huấn luyện lớn
e Khó kiểm soát được mô hình trong quá trình fine-tuning Với một
cấu trúc lớn được kết hợp từ nhiều module và ca pre-trained model Khi
thực hiện kỹ thuật fine-tuning vào phần nhúng hình ảnh và câu mô tả vào
không gian tiềm an sẽ rất khó để kiểm soát Khó có thể biết được mô hình
có đang được huấn luyện theo mong muốn hay không?
e Vấn đề Bias trong quá trình fine-tuning Trong quá trình sử dụng kỹ
thuật Đảo Ngược Văn Bản (Textual Inversion) [9| để fine-tuning mô hình
đã phát sinh một số vấn đề Đây là một kỹ thuật để nắm bắt các khái
niệm mới từ một số lượng nhỏ các hình ảnh của bộ đữ liệu theo phương
pháp mà sau đó có thể được sử dụng để kiểm soát các tác vụ như: Chuyển
văn bản thành hình ảnh và hình ảnh thành hình ảnh Trong một số trường
hợp nếu muốn fine-tuning dựa vào đối tượng Thì sau khi được đào tạo,
mô hình sinh ra kết quả hầu như bias về một đối tượng cụ thể.
Số lượng hạn chế của bộ dữ liệu: Bộ dữ liệu cho quá trình fine-tuning
mô hình là bộ đữ liệu về 02 dòng tranh dân gian Sơn Mài, Đông Hồ Việt Nam.Đặc trưng của những dòng tranh này, chủ yếu xoay quanh cuộc sống làng quê,
con vật, cảnh vật sinh hoạt của người dân Việt Nam; Các khung cảnh phố cổ,
quê hương, kiến trúc, khung cảnh thiên nhiên Vì vậy, số lượng các may tranh
ảnh của những dòng tranh bị giới hạn Bộ dữ liệu được thu thập với một số lượng nhất định Khoảng 80 — 100 hình ảnh cho mỗi loại.
Thiếu độ đo đánh giá định lượng kết quả: Các số liệu đánh giá, độ đo
kết quả được tạo sinh ra luôn là rào cản đối với các bài toán Tạo sinh ảnh Một
8
Trang 20phần đánh giá các kết mà các mô hình Tạo sinh mang lại cũng chủ yếu dựa vào
mỹ quan, thẩm mỹ cá nhân của con người Trong đề tài này, em sẽ tiến hành tạo khảo sát đánh giá định tính để đánh giá kết quả sau khi fine-tuning mô hình.
1.4 Mục tiêu
Nghiên cứu các phương pháp, mô hình giải quyết bài toán Tạo sinh ảnh Và
cơ chế Khuếch tán trong không gian tiềm an của Latent Diffusion Model Tim hiểu quá trình tạo sinh ra những hình ảnh mới dựa trên câu mô tả và hình ảnh
mẫu đầu vào; kiến trúc, các module, ý nghĩa mặt toán học của Latent Difusion
Model.
Nghệ thuật Việt Nam luôn mang những giá trị văn hoá, tỉnh thần dân tộc
Trong số đó, phải kể đến các dòng tranh dân gian, được coi là nét đẹp truyền
thống của người dân Việt Nam Nhằm nêu cao giá trị và đưa các dòng tranh
dân gian đến gần hơn với mọi người Và nắm bắt được xu hướng Tạo Sinh Ảnh.
Qua các nghiên cứu và khảo sát Đối với đề tài này, em áp dụng Latent Difusion
Models vào giải quyết bài toán Tạo sinh, chuyển đổi phong cách hình ảnh đầu
vào qua các phong cách tranh dân gian Việt Nam.
Qua đó, chứng minh mô hình sử dụng tốt, thỏa mãn những điều kiện: (1)
Mô hình không yêu cầu cao về tài nguyên; (2) Qua quá trình fine-tuning, mô
hình đã học được thêm các khái niệm từ bộ dữ liệu mới; (3) Mô hình đã có thể
tạo sinh ra các hình ảnh mang phong cách tranh dân gian Việt Nam.
1.5 Đóng góp chính
Trong đề tài này, em đã vận dụng những kiến thức, kỹ năng cùng với sự hướng
dẫn của Giảng Viên Hướng Dẫn, bạn bè, các anh chị đi trước để hoàn thành.
Những đóng góp chính của em trong Khóa luận gồm:
e Nghiên cứu các phương pháp xử lý đồ hoạ, mô hình tạo sinh ảnh
Đồ họa trong lĩnh vực Thị Giác Máy Tính đã xuất hiện từ lâu, và đã có
một lịch sử nghiên cứu và phát triển lâu dài Mặc dù khá mới mẻ, nhưng
Tạo sinh ảnh đã có cho mình được những kết quả đáng ghi nhận và những
thành công nhất định Và những bài toán Tạo sinh đang gây được sự chú
ý trong những năm trở lại đây.
Trang 21Em tiến hành tìm hiểu, khảo sát từ xử lý hình ảnh truyền thống đến các phương pháp áp dụng Học máy trong Tạo sinh ảnh Cụ thể là tập trung
vào các mô hình Tao sinh ảnh như: Generative Adversarial Network —
GANs [13], Neural Style Transfer [20], Autoregressive (AR) Transformers [7], Variational Autoencoder [25] Diffusion Model [28].
e Ap dung Latent Diffusion Models cho bai toán Tao sinh, biến đổi
ảnh qua các phong cách tranh dân gian Việt Nam: Mô hình ban
đầu đã cho được kết quả tốt trên bộ dữ liệu mà tác giả đã sử dụng để huấn
luyện Kỹ thuật Textual Inversion cho phép mô hình học thêm những khái
niệm từ bộ dữ liệu mới Và có thể tạo ra những phong cách ảnh được giới
hạn trong các phong cách tranh của Việt Nam.
e Xây dựng bộ dữ liệu tranh Đông Hồ, tranh Sơn Mài: Bộ dữ liệu
gồm các hình ảnh của mẫu tranh Đông Hồ và tranh Sơn Mài Được thuthập từ các nguồn trên Internet Phục vụ cho quá trình fine-tuning Latent
Diffusion Model.
e Thiết lap thử nghiệm, xây dung Website Tao Sinh Anh: Tiến hành
các thử nghiệm mở rộng Xây dựng Website Tạo sinh ảnh, hướng đến những
người sáng tạo nghệ thuật, hỗ trợ quá trình sáng tạo ý tưởng Chứng minh
rằng mô hình đã giải quyết được những vấn đề mà các mô hình Tạo sinh
trước đây còn gặp phải; Triển khai khảo sát đánh giá về các kết quả của
mô hình tạo ra.
1.6 Bố cục Khoá luận
Cấu trúc của bài báo cáo Khóa Luận được xây dựng gồm các phần:
e Chương 1 Giới thiệu: Trình bay tổng quan về bài toán Tạo sinh, chuyển
đổi ảnh đầu vào qua những phong cách tranh dân gian Việt Nam bằng mô
hình Latent Diffusion Bao gồm động cơ nghiên cứu, các định nghĩa, tháchthức và những đóng góp chính trong đề tài
e Chương 2 Các nghiên cứu liên quan: Trinh bày, khảo sát, tìm hiểu
các công trình nghiên cứu, các mô hình có liên quan trực tiếp hoặc giántiếp đến việc giải quyết các vấn đề trong bài toán của đề tài
10
Trang 22e Chương 3 Phương pháp đề xuất: Trinh bày mô hình sử dung để giải
quyết bài toán - Latent Diffusion Model; Giới thiệu phương pháp tuning bằng kỹ thuật Textual Inversion
fine-e Chương 4 Thực nghiệm: Giới thiệu bộ dữ tranh dân gian Việt Nam.
Tiến hành fine-tuning mô hình Thực nghiệm, trình bày và giải thích một
số thử nghiệm để so sánh các phương pháp mới, các tỉnh chỉnh mới với
các mô hình khác So sánh, đánh giá kết quả của mô hình trước và sau khi
fine-tuning Triển khai khảo sát, đánh giá định tính các kết quả Xây dựng
Website Tạo sinh ảnh.
e Chương 5 Thảo luận: Tóm tắt những phần công việc, đóng góp chính,
kết quả đạt được trong đề tài khóa luận Thảo luận về công việc nghiên
cứu, hướng phát triển trong tương lai.
11
Trang 23Chương 2
Nghiên Cứu Liên Quan
Trong chương này, em sẽ giới thiệu một số cách tiếp của bài toán Tạo sinh ảnh.
Đầu tiên là thảo luận ngắn gọn về một số phương pháp xử lý hình ảnh truyềnthống như: Non-Photorealistic Rendering [12]; Image Analogies [16]
Tiếp đến là tìm hiểu, khảo sát các mô hình Tạo sinh như Generative
Adver-sarial Networks [13]; Variational AutoEncoders (VAEs) [25] Day đều là những
mô hình Tao sinh đã đạt được những kết qua đáng ghi nhận Và cũng là nguồn
cảm hứng để những mô hình Tạo sinh sau được phát triển và kế thừa
Cuối cùng, em sẽ tập trung vào nhóm các mô hình Tạo sinh Difusion Models
[28] Nghiên cứu, tìm hiểu ý nghĩa lý thuyết, ý nghĩa toán học, nguyên lý hoạt
động, cơ chế khuếch tán của mô hình Các mô hình Khuếch Tán ít nhiều được
kế thừa từ các khái niệm, ý nghĩa toán học từ mô hình VAEs Tìm hiểu một
số mô hình khuếch tán như: Cascade diffusion models [18] và mô hình chính là
Latent Difusion Model.
quá trình thay thế các nét vẽ cho đến khi có được phong cách hình ảnh mới như
12
Trang 24Nhưng các phương pháp dựa trên NPR lại không hoạt động tốt cho những
tác vụ Tạo sinh ảnh Dể hoạt động tốt, các phương pháp này đòi hỏi ảnh đầu
vào với các cạnh rõ ràng, kết cau đơn giản Hơn nữa, mỗi lần thiết kế thuật toán
NPR, nó chỉ phù hợp cho một phong cách ảnh cụ thể nên khó mở rộng sang các
phong cách tranh khác.
Trong cộng đồng Thị giác Máy tính, ý tưởng cơ bản cho bài toán chuyển đổi phong cách là thiết kế một tap hợp các bộ loc (filter) để mô phỏng tương
tự từng phong cách ảnh mong muốn Điều này đòi hỏi kỹ năng chuyên nghiệp,
phải có kiến thức về mỹ thuật, thẩm mỹ và nghệ thuật của nhà phát triển để
lựa chọn các bộ lọc phù hợp.
Để giải quyết những bài toán này theo một cách tự động hoá, một phương
pháp Image Analogies được đề xuất Đây là một loại xử lý ảnh bằng kỹ thuật
lay mẫu Có hai giai đoạn trong phương pháp này: thiết kế và ứng dụng.
e Trong giai đoạn thiết kế, đầu vào cho kỹ thuật này cần một hình ảnh
và phiên bản của nó với phong cách mong muốn làm dữ liệu huấn luyện
Thông qua tính năng multi-scale autoregression, Image Analogies sẽ học
chức năng ánh xạ của dữ liệu huấn luyện
e Sau đó, trong giai đoạn ứng dụng, chức năng ánh xạ được áp dụng để
truyền cho một hình ảnh mới Cốt lõi của kỹ thuật này là thuật toánBestMatch, thuật toán này trả về các pixel hợp lý trong hình ảnh được
tổng hợp bằng cách nearest neighbor search Vào thời điểm đó, hầu hết
các kỹ thuật nearest neighbor search đều dựa trên phương pháp xác suấtthống kê
Nhìn chung, phương pháp Image Analogies đã giải quyết phần nào về yêu
cầu tự động hoá, nhưng còn nhiều khó khăn trong việc Tạo sinh, biến đổi phong
cách ảnh Bởi những phương pháp này không thể tự học cách tìm hiểu dựa trên
15
Trang 25các cau trúc của dữ liệu, còn cần sự can thiệp nhiều của người phát triển, chưa
có sự tong quất trong các bài toán Tao sinh ảnh.
2.2 Mô hình Tao sinh
2.2.1 Mô hình Phân lớp va Tao sinh
Trong thế giới Máy Học có rất nhiều loại mô hình và được phân loại theo nhiều
tiêu chí khác nhau Nhưng tổng thể chung được phân thành hai loại mô hình:
Mô hình Phân lớp (Discriminative Models) và Mô hình Tạo sinh (GenerativeModels) [14] Một cách tổng quát hơn, mô hình phân lớp đưa ra một dự đoán
về dữ liệu chưa nhìn thấy dựa trên xác suất có điều kiện và có thể được dùng
trong bài toán phân loại hoặc hồi quy Ngược lại, một mô hình Tạo sinh tập
trung vào việc phân phối dữ liệu để trả về xác suất cho một ví dụ nhất định.
Mô hình Phân lớp
Tổng quan: Mô hình phân lóp là các loại mô hình được sử dung trong Phan
loại thống kê, chủ yếu được sử dụng trong học máy có giám sát Các loại mô
hình này còn được gọi là mô hình có điều kiện vì chúng cố gắng để tìm ra ranhgiới giữa các lớp hoặc nhãn trong tập dữ liệu Có khả năng phân biệt sự sai khác
trong các nhóm dit liệu Nó sẽ cho biết xác suất mà nhãn sẽ phù hợp với mỗi
mẫu Các mô hình phân lớp phân tách các lớp riêng biệt thay vì mô hình hóaxác suất có điều kiện và không đưa ra bất kỳ giả định nào về các điểm dữ liệu.
Ý nghĩa toán học: Với bộ dữ liệu gồm tập các mẫu X và tập các nhãn Y,
mô hình phân lớp sẽ xác định xác suất có điều kiện P(X|Y) Huấn luyện các
mô hình phân lớp liên quan đến việc ước tính một ham f(x > y) hoặc xác suất
P(Y |X):
e Giả sử một hàm nào đó cho xác suất chẳng han như P(Y|X).
e Ước tính các tham số của hàm thông qua việc huấn luyện mô hình.
Đặc điểm: Xử lý các bài toán phân lớp trên bộ dữ liệu huấn luyện Mô hình
phân lớp cố gắng vẽ đường ranh giới trong không gian dit liệu Do đó, mục tiêucuối cùng của các mô hình là cố gắng tách biệt lớp này khỏi lớp khác
14
Trang 26e Mô hình phân lớp xử lý mạnh mẽ hơn, tốt hơn đối với các đại diện dữ liệu
ngoại lai (dữ liệu bất thường)
e Nếu bị thiếu dữ liệu trong bộ dữ liệu, thì các mô hình Phân lớp sẽ không
thể hoạt động, bởi đối với những mô hình này yêu cầu tất cả các tính năng
X được quan sát.
Mô hình Tao sinh
Tổng quan: Các mô hình Tạo sinh được coi là một lớp của mô hình Thống kê.
Các mô hình này được sử dụng trong Máy học không giám sát như một phương
tiện để thực hiện các nhiệm vụ:
e Ước tính xác suất và khả năng xảy ra
e Mô hình hóa các điểm dữ liệu.
e Mô tả hiện tượng trong đữ liệu.
Co khả năng sinh ra dữ liệu mới Bao gồm phân phối dữ liệu và xác suất đưa ra mẫu Các mô hình này tập trung vào việc phân phối các lớp riêng lẻ trong bộ
dữ liệu và các thuật toán có xu hướng mô hình hóa các mẫu cơ bản hoặc phânphối các điểm dữ liệu.
Ý nghĩa toán học: Xác định xác suất kết hợp P(X|Y), hoặc P(X) (trong
trường hợp bộ dữ liệu huấn luyện không có nhãn Y)
e Giả sử một số dạng ham cho các xác suất như P(Y), P(X|Y).
e Huấn luyện mô hình trên bộ dữ liệu, ước tính các tham số của P(X|Y),
P(Y).
e Sử dung định ly Bayes để tính xác suất hậu nghiệm (posterior probability)
P(Y|X).
Đặc điểm: Vì các loại mô hình này thường dua vào định ly Bayes để tim xác
suất kết hợp, nên các mô hình Tạo sinh có thể giải quyết một nhiệm vụ phức
tạp hơn Mô hình Tạo sinh sẽ c6 gắng mô hình hóa cách dữ liệu được nằm trong
không gian.
e Nếu có sự hiện diện của các điểm dit liệu ngoại lai trong bộ dữ liệu, thì các
mô hình này sẽ bị ảnh hưởng đáng kể.
15
Trang 27e Nếu bị thiếu dữ liệu trong bộ dữ liệu, thì các mô hình Tạo sinh có thể hoạt
động với các dữ liệu bị thiếu này Các mô hình cho phép ước tính phần xácsuất hậu nghiệm bằng cách bỏ qua các biến không nhìn thấy
2.2.2 Tổng quan mô hình Tạo sinh
Mô hình Tạo sinh là việc sử dụng Trí tuệ Nhân tạo (AT), số liệu thống kê và xác
suất trong các ứng dụng để tạo ra một biểu diễn hoặc trừu tượng hóa các hiện
tượng quan sát được hoặc các biến mục tiêu có thể tính toán được từ các quan
sát đó.
Các mô hình Tạo sinh là một cách mạnh mẽ để học bất kỳ loại phân phối dữ
liệu nào Bằng cách sử dụng trong Học máy không giám sát như một phương
tiện để mô tả các hiện tượng trong dữ liệu, cho phép máy tính hiểu được thé giới
thực Các mô hình này đã đạt được những thành công nhất định trong những
năm trở lại đây Sự hiểu biết của Trí Tuệ Nhân Tạo này có thể được sử dụng để
dự đoán tất cả các xác suất trên một chủ đề từ dữ liệu được mô hình hóa
Tất cả các loại mô hình Tạo sinh đều nhằm mục đích tìm hiểu phân phối
dữ liệu thực sự của tập huấn luyện để tạo ra các điểm dit liệu mới với một số biến thể [35] Nhưng không phải lúc nào cũng có thể tìm hiểu phân phối chính
xác dữ liệu một cách ngầm định hoặc rõ ràng vì vậy một mô hình có phân phối
giống với phân phối của dit liệu nhất có thể được xây dựng.
Đối với điều này, chúng ta có thể tận dụng được sức mạnh của Neural
Net-work Các mô hình này thường được chạy trên Neural Network và có thể phat
hiện các tính năng, đặc trưng tự nhiên của bộ dữ liệu và có thể ước tính phân
phối mô hình thành phân phối thực
Neural Network lấy những đặc trưng cơ bản về dữ liệu trong thế giới thực và
sau đó sử dung chúng dé mô hình hóa dit liệu tương tự hoặc khó thể phân biệt
với dữ liệu trong thực tế.
Các mô hình Tạo sinh sử dụng khái niệm xác suất kết hợp và tạo ra cáctrường hợp, trong đó một đặc trưng (z) hoặc đầu vào và đầu ra mong muốn,hoặc nhãn (ø) tồn tại cùng lúc Nó sử dụng ước tính xác suất và khả năng mô
hình hóa các điểm dữ liệu và phân biệt sự khác nhau giữa các nhãn đại diện lớp
trong bộ dữ liệu.
Một trong những ví dụ về mô hình Tạo sinh là mô hình Sinh ảnh, được huấn
luyện trên các bộ sưu tập hình ảnh từ thế giới thực để tạo ra những hình ảnh
tương tự.
16
Trang 28Mô hình có thể lay những quan sát từ bộ dữ liệu lớn khoảng 200G và giảm
chúng thành bộ trọng số chỉ 100M B Bộ trọng số được coi là hạt nhân của Neural
Network Thông qua việc tăng cường huấn luyện, một thuật toán sẽ tạo ra được
hình ảnh chân thật.
2.2.3 Sinh ảnh
lộ trong một vài bộ dữ liệu lớn, chẳng hạn như bộ ImageNet (hình 2.1) với
khoảng 1.2 triệu hình ảnh (những hình ảnh hoặc video trong bộ dữ liệu này cóthể được thu thập từ Internet hoặc bằng các công cụ tự động) [22].
Hình 2.1: Ví dụ minh hoạ một vài mẫu từ bộ dữ liệu ImageNet [22].
Những hình ảnh này là ví dụ về thế giới thị giác của chúng ta trông như thếnào, và chúng được gọi là các mẫu từ phân phối dữ liệu thực tế Mục tiêu đặt
ra là xây dựng được những mô hình Tạo sinh và huấn luyện chúng trên những
bộ dữ liệu này, sau đó chúng sẽ tạo ra những hình ảnh tương tự ảnh trong thế
Trang 292.2.4 Ý nghĩa toán hoc
Theo phương diện toán học, chúng ta coi một bộ dữ liệu huấn luyện bao gồmcác mẫu z,zs, „ dưới dạng các mau từ phân phối dữ liệu thực p(x) Ví dụ
minh hoạ (hình 2.2) Trong đó, vùng màu xanh lam hiển thị phần không gian
hình ảnh có xác suất cao chứa hình ảnh thực và các chấm đen biểu thị các điểm
dữ liệu (mỗi điểm là một hình ảnh trong bộ dữ liệu).
Mô hình mô tả phân phối ðạz được xác định một cách ngầm định bằng cách
lẫy các điểm từ một đơn vị phân phối Gaussian - phần điểm màu đỏ (z) Và
ánh xạ chúng thông qua một Neural Network xác định Mô hình Tạo sinh được
minh hoa ở khối màu cam
Neural Network là một hàm có tham số Ø và việc điều chỉnh các tham số này
sẽ điều chỉnh phân phối hình ảnh được tạo ra Mục tiêu là tìm các tham số Ø
tạo ra phân phối gần giống với phân phối của dữ liệu thực Ban đầu, phần màuxanh lục Øạz là ngẫu nhiên, nhưng sau quá trình huấn luyện, tinh chỉnh lặp đi
lặp lại tham số 6 để phân phối được tạo ra gần giống với phân phối chuẩn từ dữ liệu nhất có thể.
Generated distribution True data distribution
Unit Gaussian
Generative
Hình 2.2: Minh họa quá trình huấn luyện và tạo phân phối dữ liệu của mô hình
Tao sinh [22].
2.3 Các phương pháp tiếp cận Học May
Chính vì những khó khăn đối với các bài toán, nghiên cứu về đồ họa máy tínhmột cách thủ công Nén những năm trở lại đây, Mạng Tích Chap (Convolutional
Neural Networks) [5] đã phát triển rất mạnh mẽ và đưa lại những kết quả tiên
tiến nhất trong lĩnh vực Thị Giác Máy Tính
18
Trang 30Có rất nhiều bài toán trong thế giới Thị Giác Máy tính nói chung đã đượcgiải quyết khá tốt nhờ những mô hình học sâu Và riêng về lĩnh vực Tạo sinh
ảnh cũng vậy, những mô hình đã chứng minh được hiệu quả như GANs, VAEs,
DMs đã cho những kết quả tiên tiến nhất tính đến thời điểm hiện tại.
2.3.1 Generative Adversarial Networks - GANs
Adversarial training đã thay đổi hoàn toàn cách đào tạo các Neural Network để
thực hiện một nhiệm vụ cụ thể GANs không hoạt động với bất kỳ ước tính mật
độ rõ ràng nào như VAEs Các mô hình này sẽ có những phần hoạt động theo
cách cạnh tranh lẫn nhau để thực hiện nhuần nhuyễn một tác vụ nào đó Một
mạng có nhiệm vụ tạo sinh và một mạng thứ hai có nhiệm vụ cố gắng phân loại
các mẫu đến từ phân phối thực pạz và phân phối của mô hình jạz
Mỗi khi trình phân biệt nhận ra sự sai khác giữa hai bản phân phối thì trình
tạo sinh sẽ điều chỉnh các tham số của nó một chút để biến đổi phân phối dữ
liệu Cho đến khi kết thúc thì trình tạo sinh sẽ gần như sao chép chính xác phân
phối dữ liệu thực (theo lý thuyết) và trình phân biệt không thể tìm thấy sự khác
biệt.
Ý tưởng
Tại NIPS 2014, lan Goodfellow va các cộng sự đã giới thiệu mô hình GAN đầu
tiên, đó là Vanilla GAN Ý tưởng đằng sau GAN đến từ Minimax, được phổ
biến rộng rãi trong lĩnh vực nghiên cứu Trí Tuệ Nhân Tạo.
Một trò chơi Minimax được xây dựng cho hai người chơi có tổng bằng 0,
những người này cố gắng tối ưu hóa hai mục tiêu trái ngược nhau Thuật ngữgiá trị tối đa là giá trị cao nhất mà người chơi đầu tiên nhận được khi khôngbiết hành động của người chơi thứ hai Tương tự, đó cũng là giá trị thấp nhất
mà người chơi thứ hai buộc người chơi thứ nhất nhận được khi biết hành độngcủa người chơi thứ nhất
Về mặt toán học, Minimax được định nghĩa là phương trình 2.1 Trong đó 0;
là hàm giá tri của người chơi 7; a; là hành động được thực hiện bởi người chơi
đầu tiên trong khi a_; là hành động được thực hiện bởi người chơi thứ hai
0; = Tìng_,ma#4,i(d¡,d—¡) (2.1)
19
Trang 31Kiến trúc mô hình GANs
Ý tưởng là lấy mẫu từ một phân phối đơn giản như Gaussian và sau đó học cách
chuyển thành phân phối dữ liệu bằng cách sử dụng các bộ xấp xỉ hàm phổ quát
như Neural Network.
Điều này đạt được là nhờ vào kỹ thuật đào tạo đối thủ của hai mạng: TrìnhTạo (Generator) - ký hiệu là G và Trình phân biệt (Discriminator) - ký hiệu là
D Trình Tạo học cách nắm bắt phân phối dữ liệu và trình Phân biệt ước tínhxác suất một mẫu đến từ phân phối của dữ liệu thay vì phân phối của mô hình
Về cơ bản, nhiệm vụ của Trình tạo là tạo ra các hình ảnh trong tự nhiên và
nhiệm vụ của trình Phân biệt là quyết định xem hình ảnh đó là giả hay thật.
Đây có thể được coi là một trò chơi hai người chơi minimax trong đó hiệu suất
của cả hai mạng được cải thiện theo thời gian.
ú Discriminator _ == | Predicted Labels
Network
-D-dimensional J
Noise vector
Hình 2.3: Kiến trúc chung của Mang Tạo Sinh Thuan Nghịch (GANs) [13]
Quay lại bài toán Tạo sinh, kiến trúc tổng quát của GANs được minh họa
trong hình 2.3 Trình Tạo lấy một vector ngẫu nhiên - thường là vector tuân
theo phân phối xác định, chủ yếu là phân phổi chuẩn (Normal Distribution) làm
đầu vào Sau đó, trình phan biệt lay ảnh thật va ảnh giả làm đầu vào Và thực
hiện nhiệm vụ phân biệt đâu là ảnh giả.
Trình phân biệt chỉ đơn giản là một bộ phân loại nhị phân Việc triển khai trình Phân biệt có thể sử dung các thuật toán như: K-Nearest Neighbor, Sup-
port Vector Machine, Artificial Neural Networks Gan đây, Artificial Neural
Networks đang rất phát triển và cho kết qua dang kể, nên thường được sử dung trong việc triển khai trình Phân biệt.
Một trong những mô hình sớm nhất về GAN sử dụng Convolutional NeuralNetwork là DCGAN là viết tắt của Deep Convolutional GAN Mang này lấy đầu
20
Trang 32vào 100 số ngẫu nhiên được rút ra từ phân phối đồng đều và xuất ra hình ảnh
có hình dang mong muốn Mạng bao gồm nhiều Convolutional layer, Decoder
và Fully Connected Mạng sử dụng nhiều lớp giải mã để ánh xạ nhiễu đầu vào
cho hình ảnh đầu ra mong muốn
Batch Normalization được sử dụng để ổn định quá trình đào tạo mạng Hàm
kích hoạt ReLU được sử dụng trong trình Tạo cho tất cả các lớp ngoại trừ lớpđầu ra Hàm Tanh và Leaky ReLU được sử dụng cho tất cả các lớp trong trình
Phân biệt.
Mạng này đã được đào tạo bằng cách sử dụng phương pháp giảm độ dốc(Gradient descent) ngẫu nhiên theo những phần nhỏ và trình tối ưu hóa Adam
được sử dụng để tăng tốc đào tạo với các siêu tham số được điều chỉnh Các
tác giả đã chỉ ra rằng các trình Tạo có các thuộc tính số học Interest Vector mà
chúng ta có thể thao tác với hình ảnh theo cách chúng ta muốn.
Trình Tạo lấy các vectơ ngẫu nhiên € RTM, và sau đó những vector này sẽ đượctạo thành hình ảnh giả Trong các Deep Convolutional Neural Networks [31],viết tắt là DCGAN, Các tác giả đã sử dụng lớp Tích chập Hoán vị (Transposed
Convolution) để phóng to và giải mã Feature Map Diéu này trái ngược với lớpConvolution, lớp này thu nhỏ và mã hóa các Feature Map Hình ảnh 2.4 mô tả
kiến trúc của Trình Phân biệt và Trình Tạo trong DCGAN.
Hình 2.4: Ví dụ minh họa cấu trúc trình tạo và phân biệt đối xử trong DCGAN
[27].
Ham Loss
Bản chat của Adversarial Training là bai toán phân loại nhị phan Trong đó,
hàm mat mát nhị phân cross-entropy đóng vai trò quan trọng Có biểu thức
21
Trang 33toán hoc là phương trình 2.2, trong đó y và ? là nhãn và kết quả dự đoán, mộtcách tương đối.
L(y, iH) = —wlog(§) — (1 — y)log(1 — 9) (2.2)
Nhu đã đề cập ở phan trước, trong mô hình GAN, G va D chơi một trò chơiminimaz với ham giá trị V(G, D) Trình phân biệt cố gắng phân loại hình ảnhthật và giả theo nhãn tương ứng của chúng Vì vậy, trình Phân biệt gồm hai
phần:
e Hình ảnh thật thuộc về lớp thực Với y = 1, công thức 2.2 tương đương với
2.3:
mazV (G, D) = log(8) = log(D()) (2.3)
e Anh gia thuộc vào lớp không có thực Với y = 0, công thức 2.2 tương đương
với 2.4:
mazV (Œ, D) = log(1 — ?) = log(1 — D(G(z))) (2.4)
Trong đó z là một vector ngẫu nhiên, là đầu vào của trình Tao G(z) là hình
ảnh được tạo ra.
Phương trình 2.4 thể hiện rằng nếu log(1 — D(G(z))) càng lớn thì khả năng
trình Phân biệt phân loại G(z) thuộc nhãn giả càng cao Tuy nhiên trình Tạo
lại muốn điều ngược lại Kết quả là hàm mất mát được biểu thị bằng phương
trình 2.5.
minV(G, D) = log(1 — D(G(z))) (2.5)
Cuối cùng, ham mat mát của trình Tao là phương trình 2.5 Con của trình
Phân biệt là hai phương trình 2.3 và 2.4.
2.3.2 Variational AutoEncoders - VAEs
Tong quan
Như đã biết, bộ mã hóa tu động (Autoencoder) thường được sử dung để ma hóa hình ảnh đầu vào thành một biểu diễn thấp chiều hơn nhiều và có thể lưu trữ thông tin tiềm an về phân phối dữ liệu đầu vào Nhưng trong bộ mã hóa
22
Trang 34“vanilla”, vector được mã hóa chỉ có thể được ánh xạ tới đầu vào tương ứng bằng
bộ giải mã Nên nó không được sử dụng trong tác vụ tạo ra những hình ảnh
tượng tự với một số biến đổi.
Để thực hiện được tác vụ đó, mô hình cần tìm hiểu phân phối xác suất của
dữ liệu huấn luyện VAE (Variational Autoencoders) là một trong những cách
tiếp cận phổ biến nhất để tìm hiểu sự phân phối dữ liệu phức tạp như hình ảnh
bằng cách sử dung Neural Network theo phương pháp Không giám sát Dây làmột mô hình đồ họa xác suất bắt nguồn từ suy luận Bayes, tức là mô hình nhằm
mục đích tìm hiểu phân phối xác suất cơ bản của dit liệu đào tạo để có thể dé
dàng lấy mẫu dữ liệu mới từ phân phối đã được huấn luyện
Ý tưởng
Ý tưởng ở đây là tìm hiểu một biểu diễn tiềm ẩn thấp chiều hơn của dữ liệu
huấn luyện có tên là các biến tiềm an (latent variables) - các biến này không
được quan sát trực tiếp nhưng được suy ra thông qua mô hình toán học Nhữngbiến này đã tạo ra dữ liệu huấn luyện thực tế, cấu trúc được minh hoạ hình 2.5
Hình 2.5: Kiến trúc minh hoa mô hình Bộ Mã Hoá Da Dạng VAEs [6]
Các biến tiềm an này có thể lưu trữ thông tin hữu ích về loại đầu ra mà mô hình cần đào tạo Phân phối xác suất của các biến tiềm ẩn z, được biểu thị bằng P(z) Phan phối Gaussian được chọn trước khi tìm hiểu phân phối P(z) để dé dàng lấy mẫu các điểm dữ liệu mới trong quá trình suy luận.
Bây giờ mục tiêu chính là lập mô hình dữ liệu với một số tham số nhằm tối
đa hóa khả năng của dữ liệu huấn luyện X Giả định rằng một vector tiềm an
23
Trang 35có chiều thấp đã tạo ra dữ liệu x với (x X) Và sau đó có thé ánh xạ vector tiềm an này tới dữ liệu x bằng cách sử dụng hàm xác định ƒ(z;9) được tham số
hóa bởi theta - phương trình 2.6.
Theo quy trình tổng quát này, mục tiêu là tối đa hóa xác suất của từng dữ
liệu trong X được cho là:
PX) = | Pa(X.2)te= | Pal] Pale) (2.6)
Trong đó, ƒ(z;6) đã được thay thé bang phan phối f;(X|z)
Hình 2.6: Vecto tiềm an được ánh xạ tới phân phối dit liệu bằng tham số Ø [6]
Trực giác đằng sau phương pháp Maximum Likelihood Estimation này là nếu
mô hình có thể tạo các mẫu huấn luyện từ các biến tiềm ẩn này thì nó cũng có
thể tạo ra các mẫu tương tự với một số biến đổi Nói cách khác, nếu chúng ta lay mẫu một số lượng lớn các biến tiềm ẩn từ P(z) và tạo ra x từ các biến này
thì x được tạo ra phải khớp với phân bố dữ liệu paata(z)
Vậy làm cách nào để nắm bắt sự phân bố của các biến tiềm an? Và cách tích
hợp phương trình 2.6 lên trên tất cả các chiều của z?
Hàm mục tiêu
Với một cách thủ công, là chúng ta sẽ chỉ định các thông tin liên quan muốn
mã hóa trong vector tiềm an để tạo hình ảnh đầu ra Nhưng có một giải pháp hữu hiệu hơn, là có thể dựa vào các Neural Network để tính toán Z chỉ với một giả định rằng Latent Vector này có thể được xấp xỉ như một phân phối bình
thường để lấy mẫu dễ dàng tại thời điểm suy luận.
Nếu chúng ta có phân phối chuẩn của z trong không gian ø chiều thì luôn
có thể tạo bất kỳ loại phân phối nào bằng cách sử dụng một hàm đủ phức tạp
24
Trang 36và nghịch đảo của hàm này có thể được sử dụng để tìm hiểu chính các Latent
Variables.
Trong phương trình 2.6, phép tích hợp được thực hiện trên tất cả các kích
thước của z và do đó có thể gây khó khăn Tuy nhiên, nó có thể được tính toán
bằng các phương pháp tích hợp Monte-Carlo, một điều không dé thực hiện Vì
vậy, một cách tiếp cận khác dé tối đa hóa Py(X) ở phương trình 2.6.
Ý tưởng của VAE là suy ra P(z) bằng cách sử dụng P(z|X) mà nó chưa được
biết Thay vào đó, P(z|X) được suy luận bằng cách sử dụng một phương pháp
gọi là suy luận đa dạng (suy luận biến phân), về cơ bản đây là một vấn đề tối
ưu hóa trong thống kê Bayes
Trước tiên, mô hình P(z|X) được thành lập bằng cách sử dụng phân phối
Q(z|X) đơn giản hơn, dễ tìm và chúng tôi cỗ gắng giảm thiểu sự khác biệt giữa P(z|X) và Q(z|X) bằng cách sử dụng phương pháp KL-divergence Metric để giả
thuyết ban đầu đặt ra gần với phân phối thực sự
Do đó, hàm mục tiêu cuối cùng của VAEF là:
logP(X) — Dkr|Q|X)|LP(|X)] = EllogP(XIz)] — Dkr|@G|X)||P(2)] — (27)
Trong đó, Q(z|X) về cơ bản là mạng bộ mã hóa; z là biểu diễn dit liệu z, (x e X)
được mã hóa; P(X|z) là mạng bộ giải mã Trong phương trình trên, mục tiêu là
tối đa hóa khả năng phân phối dữ liệu theo một số lỗi do 2r[@(z|X)|LP(z|X)]
Có thé dễ dang thấy rằng VAE sử dung Evidence Lower Bound log(P(X)) vì
P(z|X) không thể điều khiển được nhưng KL-divergence Metric > 0 Điều nàygiống như tối đa hóa #£[logP(X|z)| và giảm thiểu Dxr[Q(z|X)|LP(|X)] Và tối đa
hóa EllogP(X|z)| là ước tính Maximum Likelihood và được mô hình hóa bằng
cách sử dụng mạng bộ giải mã.
Mục tiêu trước đó được đề cập đến là muốn biểu diễn tiềm an của mình
gần với Gaussian và do đó chúng ta giả sử P(z) là N(0,1) Theo giả định trên,Q(z|X) cũng nên gần với phân phối này Nếu giả sử rằng đó là một Gaussianvới các tham số p(x) và >(z), thì lỗi là do sự khác biệt giữa hai phân phối này.P() và Q(z|X) cho bởi kết quả KL-divergence trong một giải pháp dạng đóng
được đưa ra dưới đây:
Drr[Nu(X),*(X))||N(0, 1)] = 5 3 J(ezp(S(X)) +/(X)—1-S(X)) (238)
25
Trang 37Tối ưu hóa giới hạn biến thiên, hàm tối ưu hóa như sau:
log(P(X|z)) — Drr[@(z|X)|LP(2)] (2.9)
Do đó, ham loss sẽ chứa hai số hang Đầu tiên là độ lỗi tái cấu trúc của
quá trình chuyển từ đầu vào đến đầu ra Thứ hai là của KL-divergenee Sau đó, Neural Network có thé được huấn luyện bằng thuật toán lan truyền ngược (back
propagation).
Nhưng có một van dé, đó là độ lỗi tái cấu trúc không chỉ phụ thuộc vào tham
số mà còn phụ thuộc vào tham số Q, nhưng sự phụ thuộc này lại không xuất
hiện trong phương trình trên Vậy làm thế nào để lan truyền ngược qua lớp đang
lay mẫu z ngẫu nhiên từ phân phối Q(z|X) hoặc N|u(X), 5(X)] để P có thể giải mã? Gradients không thể đi qua các vị trí ngẫu nhiên.
Thủ thuật Tái tham số hoá
Để giải quyết những vấn đề trên, một thủ thuật tính toán lại tham số (hình 2.7)
để làm cho mạng có thể phân biệt được Lay mẫu từ W(„(X),Š(X)) bằng cách
lấy mẫu đầu tiên c N(0,/), sau đó tính toán z = (X) + 51/2(X) xc
Phương pháp lấy mẫu này được thể hiện trong hình 2.7 Cần lưu ý rằng bước
chuyển tiếp giống hệt nhau đối với cả hai mạng này nhưng gradient chỉ có thể
lan truyền ngược qua mạng bên phải
Tại thời điểm Inference, chỉ có thể lay mau z từ N(0, 1) và cung cấp cho nó bộ giải mã để tạo điểm dữ liệu mới Vì mục tiêu đang tối ưu hóa Evidence Lower
Bound, chất lượng của hình ảnh được tạo ra có phần kém hơn so với các kỹthuật hiện đại như Generative Adversarial Networks (GANS).
Ưu điểm tốt nhất của VAEs là nó học được cả mô hình Tao sinh và mô hình Inference Mặc dù cả VAEs và GANs đều là cách tiếp cận rất thú vị để tìm hiểu
phân phối dữ liệu co bản bằng cách sử dung hoc tập không giám sát nhưng Gansmang lại kết quả tốt hơn so với VAEs
Trong VAEs, tối ưu hóa giới hạn dưới được sử dung, trong khi ở GANs thì
không Trên thực tế, GAN không xử lý bất kỳ ước tính mật độ xác suất rõ ràng
nào Nhược điểm của VAE trong việc tao ra hình ảnh sắc nét chỉ ra rằng mô
hình không thể tìm hiểu true posterior distribution.
26
Trang 38Sample e from N(0,/)
(2)
Hình 2.7: Thủ thuật tái tham số hóa được sử dung để lan truyền ngược qua các
node ngẫu nhiên [6].
2.3.3 Diffusion Models
Tong quan
Như đã tìm hiểu ở phần trước, GANs và VAEs là hai mô hình đại diện cho mô
hình Tạo sinh quan trọng đã đạt được nhiều thành công nhất định và được côngnhận GANs hoạt động tốt cho nhiều ứng dụng, nhưng lai gặp khó khăn trong
quá trình huấn luyện mô hình Vì vậy, kết quả của nó thiếu đi sự đa dạng bởi
vì một vài thách thức như đầu ra giống hệt nhau và không phụ thuộc bởi đầu
vào (mode collapse); không thể hội tụ (vanishing gradient).
Mặc dù VAEs có nền tang lý thuyết vững chắc nhất, tuy nhiên việc mô hìnhhóa của ham loss là một thách thức trong VAEs khiến cho đầu ra của mô hình
này đưa lại không đạt mức tối ưu.
Có một nhóm các kỹ thuật được bắt nguồn từ phương pháp ước tính khảnăng xảy ra (likelihood estimation) theo xác suất và được lấy cảm hứng từ các
hiện tượng vat lý, được gọi là mô hình khuếch tán (Diffusion Models)[28] Trong
hầu hết các trường hợp, hiệu suất của chúng được cho là vượt trội so với các môhình Tạo sinh tiên tiến nhất như GANs và VAEs
Các mô hình Khuếch tán là một nhóm mới và hiện đại của mô hình Tạo sinhcho phép tạo ra các tạo ra cách hình ảnh chất lượng cao đa dạng Mô hình này
đã thu hút nhiều sự quan tâm trong giới khoa học khi vừa được xây dựng nên,
27
Trang 39sau khi được OpenAI, Nvidia và Google quản lý để huấn luyện các mô hình có
quy mô lớn hơn Một số kiến trúc ví dụ dựa trên các mô hình khuếch tán là
GLIDE, DALLE-2, Imagen va Stable Diffusion với mã nguồn mở.
Các mô hình xác suất khuếch tán là các mô hình chuỗi Markov (Markov
Chains Models) được tham số hóa trong quá trình huấn luyện để phân rã dần cấu trúc của dữ liệu Đây là những Latent Variable Model có khả năng tổng hợp
hình ảnh chất lượng cao.
Ý tưởng chính đằng sau mô hình Khuếch tán xuất phát từ nhiệt động lực
học của các phân tử khí, hoặc sự khuếch tán của các phân tử trong nước Nhờ
đó, các phân tử có xu hướng khuếch tán từ khu vực có mật độ cao đến khu vực
có mật độ thấp
Sự chuyển động này theo trong tài liệu vật lý là sự gia tăng "entropy" hoặc
cái chết nhiệt Còn trong thế giới công nghệ thông tin, điều này tương đươngvới việc phá vỡ cấu trúc thông tin do sự can thiệp dần dần của nhiễu (noise)
Đối với mô hình Khuếch tán, khái niệm chính ở đây là nếu một mô hình được
xây dựng để học sự phân rã một cách có hệ thống của thông tin bởi noises Thi
mô hình cũng có thể khôi phục thông tin từ noises bằng cách đảo ngược quá
trình trước Khái niệm này tương tự như VAEs, mô hình này cố gắng tối ưu hóa
một hàm mục tiêu bằng cách ánh xa dữ liệu lên không gian tiềm an và sau đó
khôi phục di liệu đó lại trạng thái ban đầu
Các mô hình khuếch tán về cơ bản khác với tất cả các phương pháp tạo ra
trước đây Điểm khác ở đây là những mô hình này phân tách quá trình tao ảnh
(lấy mẫu) thành nhiều bước khử nhiễu (denoising) nhỏ [21] Trực giác đằng sau
điều này là mô hình có thể tự sửa lỗi qua các bước nhỏ này và dần dần tạo ra
một mẫu tốt Nhưng một vấn đề là không có gì đến với chi phí bằng 0 Quá
trình lặp đi lặp lại này khiến chúng lấy mau chậm hơn, ít nhất là so với GANs.
Denoising Diffusion Model
Ý tưởng về mô hình Khuếch tán khử nhiễu đã có từ lâu No bắt nguồn từ khái
niệm Bản đồ khuếch tán (Diffusion Maps concept), một trong những kỹ thuật
giảm kích thước được sử dụng trong tài liệu Học máy.
Bên cạnh đó, ý tưởng này cũng vay mượn các khái niệm khác từ những
phương pháp xác suất như chuỗi Markov đã được sử dụng nhiều trong các ứng
dụng Phương pháp khuếch tán khử nhiễu ban đầu được đề xuất trong công
trình năm 2015 của tác giả Sohl-Dickstein và các cộng sự [37].
28
Trang 40Mô hình khuếch tán khử nhiễu là một quy trình gồm hai bước: quy trìnhkhuếch tán thuận (forward process) và khuếch tán ngược (reverse process)hay còn gọi là quy trình tái cấu trúc (reconstruction), minh hoạ hình 2.8.
Trong Forward process, nhiễu Gaussian được đưa vào liên tục cho đến khi dữliệu trở thành nhiễu hoàn toàn Reverse process sẽ loại bỏ nhiễu bằng cách tìm
hiểu phân phối mật độ xác suất có điều kiện bằng mô hình Neural Network Ví
dụ mô tả quá trình như vậy đươc minh họa ở hình 2.8.
Các mô hình Khuếch tán lấy mẫu từ một phân phối bằng cách đảo ngượcquá trình lấy nhiễu dần dần: lấy mẫu bắt đầu bằng nhiễu x7 và các mau ít nhiễuhơn:zr_,#r_a được tạo ra cho đến khi đạt được mẫu cuối cùng zọ Mỗi thời
điểm ¢ tương ứng với một mức nhiễu nhất định và z; có thể được coi là sự kết
hợp của zo và một số nhiễu c [26]
Với bản chất là mô hình chuỗi Markov được đào tạo để tạo ra các mẫu khớp với dữ liệu gốc sau một khoảng thời gian nhất định Mỗi quá trình chuyển đổi
trong chuỗi học cách đảo ngược quá trình khuếch tán (Quá trình tái cấu trúc).
Đó là chuỗi Markov thêm nhiễu dần dần vào dữ liệu cho đến khi thông tin
bị phá hủy Sau đó, một Neural network được đào tạo để khôi phục dữ liệu gốc bằng cách đảo ngược quá trình lấy nhiễu Bằng cách có thể mô hình hóa quá
trình đảo ngược, từ đó có thé tạo dit liệu mới Day là quy trình khuếch tán
ngược được gọi là reconstruction của một mô hình Tạo sinh.
Quá trình khuếch tán thuận - Forward Process
Quy trình khuếch tán thuận có thể được định nghĩa chính thức là Chuỗi
Markov và do đó, không giống như bộ mã hóa trong VAEs, nó không yêu
cầu đào tạo Bắt đầu với điểm dữ liệu ban đầu, nhiễu Gaussian được thêm
vào cho T bước liên tiếp và thu được một tập hợp các mẫu nhiễu, minh hoạ hình
2.8.
Mô hình Khuéch tán học cách tạo ra z;_¡ được khử nhiễu nhiều hơn so với
x, Trong thực tế, mô hình là một hàm c(z¿,#) dự đoán thành phần nhiễu của 24.
Quá trình huyến luyện mô hình liên quan đến việc vẽ ngẫu nhiên mẫu dữ liệu
xo, tại thời điểm t, và độ nhiễu là c tạo ra mẫu nhiễu z; Khi đó mục tiêu đào
tạo là:
les(z¡.£) — «| (2.10)
Phương trình 2.10 là ham độ lỗi MSE giữa nhiễu thực và nhiễu dự đoán bởi
mô hình Dự đoán mật độ xác suất tại thời điểm t, chỉ phụ thuộc vào thời điểm
29