Ứng dụng học sâu tạo ảnh động từ miêu tả văn bản

Lý do chọn đề tài

Ảnh động là công cụ mạnh mẽ để truyền đạt thông tin, kể chuyện và giải trí, nhưng việc tạo ra chúng thường tốn thời gian và chi phí Giải pháp tối ưu hơn là sử dụng AI để tạo ảnh động từ miêu tả Công nghệ này cho phép sử dụng những ảnh động mẫu để huấn luyện mô hình, từ đó giúp mô hình tự động tạo ảnh động một cách chính xác hơn từ các mô tả Điều này có tiềm năng cách mạng hóa quy trình sản xuất ảnh động.

Việc tạo ảnh động bằng văn bản có nhiều ứng dụng tiềm năng, bao gồm marketing, giải trí và cá nhân hóa Công nghệ này giúp người dùng dễ dàng tạo ra những ảnh động có thể truy cập từ khắp nơi trên thế giới.

Trước khi công nghệ tạo văn bản thành ảnh động có thể được áp dụng rộng rãi, cần giải quyết một số thách thức Đầu tiên, đây vẫn là một công nghệ tương đối mới, dẫn đến chất lượng của các ảnh động tạo ra chưa luôn đạt yêu cầu Thứ hai, quá trình này có thể tiêu tốn nhiều tài nguyên tính toán, hạn chế khả năng sử dụng trong một số ứng dụng nhất định.

Mặc dù gặp phải nhiều thách thức, công nghệ tạo văn bản thành hình ảnh động vẫn rất hứa hẹn và có khả năng cách mạng hóa quy trình tạo và sử dụng hình ảnh động Khi công nghệ này tiếp tục phát triển, nó sẽ được áp dụng rộng rãi hơn trong nhiều lĩnh vực khác nhau.

2 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU

Trong khóa luận này, nhóm sẽ nghiên cứu tiềm năng chuyển đổi văn bản thành hình ảnh động Bên cạnh đó, nhóm sẽ khảo sát và áp dụng các phương pháp đã được phát triển để tạo hình ảnh động từ văn bản, đồng thời đánh giá hiệu suất của những phương pháp này.

Nhóm sẽ thảo luận về các ứng dụng tiềm năng của đề tài và xem xét những thách thức cần giải quyết để công nghệ này có thể được áp dụng rộng rãi.

Phương pháp nghiên cứu khoa học là công cụ quan trọng giúp kiểm tra giả thuyết một cách hệ thống và phát hiện những điều mới Do đó, nhóm đã thực hiện nghiên cứu theo các bước cụ thể sau đây.

Nhóm đã chọn đề tài sinh ảnh động từ văn bản, đối mặt với nhiều thách thức như xử lý văn bản và hình ảnh, cùng với việc phát triển kỹ thuật xử lý ảnh động Nhiệm vụ chính là tổng hợp hình ảnh và mô tả để tạo thành một ảnh động hoàn chỉnh Thách thức lớn nhất là làm thế nào để sinh ra các khung ảnh chân thực và đảm bảo sự liên kết hợp lý giữa các khung ảnh trong ảnh động.

Nhóm nghiên cứu đã tiến hành xem xét và tổng hợp các nghiên cứu trước đó, đồng thời liệt kê các thuật ngữ, thuật toán và mô hình quan trọng như attention, auto-encoder, diffusion, transformer, token, encoder-decoder, latent và LoRA, mà nhóm sẽ áp dụng trong quá trình thực hiện khóa luận.

Trong quá trình nghiên cứu khóa luận, nhóm đã phát hiện hai xu hướng chính trong việc sinh ảnh động từ văn bản bằng học sâu: một là huấn luyện mô hình, và hai là áp dụng các thuật toán để tạo ra ảnh động mới từ video gốc với các đặc điểm đã được mô tả.

Hiện nay, có nhiều tập dữ liệu lớn chất lượng cao dành cho lĩnh vực thị giác máy tính, bao gồm các bộ dữ liệu nổi bật như WebVid-2M và Coco Những bộ dữ liệu này sẽ được trình bày chi tiết trong nội dung bài viết.

Huấn luyện và tinh chỉnh mô hình là bước quan trọng tiếp theo trong quá trình nghiên cứu sau khi xác định lý thuyết và dữ liệu cần thiết Mô hình sẽ được huấn luyện theo thuật toán phân tán video tiềm ẩn (latent video diffusion) và áp dụng vào tập dữ liệu học sâu để tạo ảnh động từ mô tả văn bản.

3 liệu lớn hơn hai triệu video và miêu tả theo video Chi tiết về phần huấn luyện sẽ được giải thích chi tiết ở phần nội dung

4 MỤC ĐÍCH CỦA ĐỀ TÀI

Mục đích của đề tài là nghiên cứu ứng dụng học sâu để tạo ảnh động từ miêu tả Kết thúc quá trình, sẽ có được mô hình đã được huấn luyện, có khả năng sinh ảnh động với độ chính xác cao và sắp xếp hợp lý các khung hình Ngoài ra, mô hình còn cho phép chỉnh sửa ảnh động theo văn bản miêu tả, tạo ra những sản phẩm đa dạng và sáng tạo.

5 BỐ CỤC CỦA BÀI NGHIÊN CỨU

Bài báo cáo được chia thành 3 phần chính:

Phần mở đầu: giới thiệu tổng quan về đề tài, lý do chọn đề tài, phương pháp thực hiện, đối tượng và phạm vi nghiên cứu

Trong phần lý thuyết, bài viết sẽ giới thiệu và giải thích tổng quan về kiến trúc của các khái niệm và các yếu tố quan trọng mà nhóm đã áp dụng để thực hiện khóa luận Các khái niệm này đóng vai trò then chốt trong việc xây dựng nền tảng lý thuyết cho nghiên cứu, từ đó giúp làm rõ cách thức mà nhóm tiếp cận và giải quyết vấn đề trong khóa luận.

Phần nội dung: trình bày về quá trình thực hiện, giải thích chi tiết về mô hình, cách thức thực hiện, và kết quả

Phần kết luận: đánh giá về đề tài, những công việc đã hoàn thiện, những hạn chế đã gặp phải và hướng phát triển của đề tài

PHẦN NỘI DUNG CHƯƠNG 1: CƠ SỞ LÝ THUYẾT

Khóa luận này nghiên cứu việc tạo ảnh động từ văn bản mô tả, hay còn gọi là sinh ảnh động, trong khi các thuật toán sinh ảnh đã phát triển nhiều nhưng nghiên cứu về sinh ảnh động vẫn còn hạn chế Một trong những mô hình đáng chú ý là Latent Video Diffusion Model Phần lý thuyết đóng vai trò quan trọng để hiểu các kỹ thuật áp dụng trong nghiên cứu này Nhóm sẽ sử dụng nhiều thuật toán và khái niệm như Attention, AutoEncoder và Transformer Để dễ dàng nắm bắt các thuật ngữ này, nhóm sẽ trình bày các khái niệm cơ bản, giúp hiểu rõ hơn về luồng hoạt động của kiến trúc Latent Video Diffusion Model.

Phương pháp nghiên cứu

Phương pháp nghiên cứu khoa học là công cụ quan trọng giúp kiểm tra giả thuyết một cách hệ thống và phát hiện những điều mới mẻ Do đó, nhóm đã thực hiện nghiên cứu theo các bước cụ thể sau đây.

Nhóm đã chọn đề tài sinh ảnh động từ văn bản, đối mặt với nhiều thách thức như xử lý văn bản, xử lý hình ảnh và tiến tới xử lý ảnh động Việc tổng hợp các hình ảnh cùng với mô tả để tạo thành một ảnh động hoàn chỉnh là một nhiệm vụ quan trọng Thách thức lớn nhất là làm thế nào để sinh ra các khung ảnh chân thực nhất và đảm bảo sự liên kết hợp lý giữa các khung ảnh trong một ảnh động.

Nhóm nghiên cứu đã tiến hành xem xét các nghiên cứu trước đó và lập danh sách sơ bộ các thuật ngữ, thuật toán và mô hình sẽ được áp dụng trong quá trình thực hiện khóa luận, bao gồm các khái niệm như attention, auto-encoder, diffusion, transformer, token, encoder-decoder, latent và LoRA.

Trong quá trình nghiên cứu khóa luận, nhóm đã phát hiện hai xu hướng chính để tạo ra hình ảnh động từ văn bản thông qua học sâu Đầu tiên là huấn luyện mô hình, và thứ hai là áp dụng các thuật toán để sinh ra hình ảnh động mới từ video gốc với các đặc điểm đã được mô tả.

Hiện nay, có nhiều tập dữ liệu lớn phục vụ cho lĩnh vực thị giác máy tính, bao gồm các bộ dữ liệu chất lượng cao như WebVid-2M và Coco Các bộ dữ liệu này sẽ được trình bày chi tiết trong phần nội dung của bài viết.

Huấn luyện và tinh chỉnh mô hình là bước quan trọng tiếp theo sau khi xác định lý thuyết và dữ liệu cần thiết Trong quá trình này, mô hình sẽ được huấn luyện theo thuật toán phân tán video tiềm ẩn (latent video diffusion) và sử dụng tập dữ liệu ứng dụng học sâu để tạo ra ảnh động từ mô tả văn bản.

3 liệu lớn hơn hai triệu video và miêu tả theo video Chi tiết về phần huấn luyện sẽ được giải thích chi tiết ở phần nội dung.

Mục đích của đề tài

Mục đích của đề tài là nghiên cứu ứng dụng học sâu để tạo ảnh động từ miêu tả Sau khi hoàn thành, chúng tôi sẽ có được mô hình đã được huấn luyện, có khả năng sinh ảnh động với độ chính xác cao và sắp xếp hợp lý các khung hình Ngoài ra, mô hình còn cho phép chỉnh sửa một ảnh động thành một ảnh động khác dựa trên văn bản miêu tả.

Trong phần lý thuyết, bài viết sẽ giới thiệu và giải thích tổng quan về kiến trúc của các khái niệm quan trọng mà nhóm đã áp dụng trong quá trình thực hiện khóa luận Những khái niệm này đóng vai trò then chốt trong việc xây dựng nền tảng lý thuyết vững chắc cho nghiên cứu.

Khóa luận này nghiên cứu việc tạo ảnh động từ văn bản mô tả, hay còn gọi là sinh ảnh động Mặc dù các thuật toán sinh ảnh đã phát triển, nhưng nghiên cứu về sinh ảnh động vẫn còn hạn chế Một trong những mô hình quan trọng trong lĩnh vực này là Latent Video Diffusion Model Phần lý thuyết là yếu tố quan trọng giúp hiểu các kỹ thuật được áp dụng trong nghiên cứu Nhóm sẽ sử dụng nhiều thuật toán và khái niệm như Attention, AutoEncoder và Transformer Để dễ dàng nắm bắt các thuật ngữ và hiểu luồng hoạt động của kiến trúc Latent Video Diffusion Model, nhóm sẽ trình bày các khái niệm cơ bản trước.

Bài viết này sẽ giới thiệu những khái niệm cơ bản về học sâu, thị giác máy tính và ngôn ngữ tự nhiên, cùng với VAE và phương pháp đánh giá mô hình FVD.

Học sâu là một phương pháp máy học dựa trên mạng thần kinh nhân tạo, được thiết kế để học từ dữ liệu Lấy cảm hứng từ cấu trúc của bộ não con người, mạng thần kinh có khả năng nhận diện các mẫu phức tạp từ khối lượng dữ liệu lớn Phương pháp này đã đạt được những tiến bộ vượt bậc trong nhiều lĩnh vực, như nhận dạng hình ảnh, xử lý ngôn ngữ tự nhiên và nhận dạng giọng nói.

Dưới đây là một số khái niệm chính trong học sâu:

Mạng thần kinh nhân tạo là mô hình máy học được lấy cảm hứng từ cấu trúc của bộ não con người Nó bao gồm các lớp nút kết nối với nhau, trong đó mỗi nút có khả năng học và thực hiện các chức năng đơn giản Thông qua việc kết hợp những chức năng này, mạng thần kinh có thể học và thực hiện các tác vụ phức tạp hơn.

Các mô hình học sâu cần một lượng lớn dữ liệu để được đào tạo hiệu quả Dữ liệu này có thể được thu thập từ nhiều nguồn khác nhau, bao gồm internet và mạng xã hội.

Thuật toán: Các thuật toán học sâu được sử dụng để huấn luyện mạng lưới thần kinh

Các thuật toán học sâu được phát triển nhằm tối ưu hóa trọng số cho các kết nối trong mạng thần kinh, giúp mạng thực hiện các tác vụ mong muốn Mặc dù các mô hình học sâu có thể phức tạp và khó đào tạo, nhưng chúng vẫn là công cụ mạnh mẽ có khả năng giải quyết nhiều vấn đề đa dạng.

Dưới đây là một số ứng dụng hàng đầu của học sâu:

Thị giác máy tính: học sâu được sử dụng để nhận dạng các đối tượng trong hình ảnh

Công nghệ này được sử dụng trong nhiều ứng dụng, chẳng hạn như ô tô tự lái, phần mềm nhận dạng khuôn mặt và tìm kiếm hình ảnh

Xử lý ngôn ngữ tự nhiên (NLP) sử dụng học sâu để phân tích và hiểu ý nghĩa của văn bản Công nghệ này đóng vai trò quan trọng trong nhiều ứng dụng, bao gồm dịch máy, chatbot và lọc thư rác, giúp cải thiện trải nghiệm người dùng và tăng cường hiệu quả giao tiếp.

Công nghệ nhận dạng giọng nói sử dụng học sâu để cải thiện độ chính xác và hiệu suất Ứng dụng của công nghệ này rất đa dạng, bao gồm trợ lý giọng nói, phần mềm đọc chính tả và các hệ thống trung tâm cuộc gọi.

Học sâu là một lĩnh vực đang phát triển mạnh mẽ với nhiều ứng dụng mới được ra đời Khi công nghệ học sâu ngày càng được cải tiến, nó hứa hẹn sẽ mang lại những tác động sâu rộng hơn nữa đối với cuộc sống của chúng ta.

Các thành phần của một mạng lưới thần kinh sâu như sau

Mạng lưới học sâu bao gồm nhiều thành phần, trong đó đầu vào là lớp đầu tiên với các nút nhập dữ liệu Các nút này đóng vai trò quan trọng trong việc tiếp nhận thông tin cho hệ thống.

Lớp ẩn trong mạng thần kinh đóng vai trò quan trọng trong việc xử lý và chuyển dữ liệu đến các lớp tiếp theo Chúng điều chỉnh hành vi dựa trên thông tin mới và có thể có hàng trăm lớp ẩn để phân tích vấn đề từ nhiều góc độ khác nhau Khi được cung cấp hình ảnh của một con vật chưa biết, mạng sẽ so sánh với những con vật đã biết bằng cách xem xét hình dạng mắt, tai, kích thước, số lượng chân và kiểu lông, từ đó xác định các mẫu để phân loại chính xác.

Con vật có móng guốc, vì vậy nó có thể là bò hoặc nai

Con vật có mắt mèo, vì vậy nó có thể là một loại mèo hoang nào đó

Các lớp ẩn trong mạng lưới thần kinh sâu xử lý các đặc điểm khác nhau của hình ảnh động vật nhằm phân loại chính xác Khi một thuật toán học sâu phân tích hình ảnh, mỗi lớp ẩn sẽ tập trung vào một khía cạnh riêng biệt của con vật để cải thiện độ chính xác của việc phân loại.

Lớp đầu ra trong mô hình học sâu bao gồm các nút xuất dữ liệu, nơi mà các mô hình có thể đưa ra câu trả lời "có" hoặc "không" thông qua hai nút Đối với những câu trả lời đa dạng hơn, lớp đầu ra sẽ có nhiều nút hơn để phản ánh các lựa chọn phong phú.

Cơ sở lý thuyết

Phương pháp đánh giá mô hình FVD

Chương 2: Phương pháp nghiên cứu

2.2 Các thành phần chính

2.4 Quá trình nội suy tạo ảnh động

2.5 Fine-tune mô hình với LoRA

Chương 3: Thực nghiệm và phân tích kết quả

3.1 Đánh giá mô hình trên tập dữ liệu Webvid-2M

3.2 Đánh giá mô hình khi kết hợp với LoRA

5 Danh mục tài liệu tham khảo

STT Thời gian Công việc

1 7/2 → 13/2 Nghiên cứu các bài báo khoa học, tìm phương pháp thực hiện

2 13/2 → 19/2 Tổng hợp các lý thuyết đã tìm được, thảo luận với giảng viên hướng dẫn về đề tài

3 19/2 → 25/2 Thực hiện thu thập dữ liệu và phân tích dữ liệu

4 25/2 → 3/3 Viết code để huấn luyện mô hình

5 3/3 → 12/3 Huấn luyện mô hình trên một phần dữ liệu WebVid-2M

6 13/3 → 17/3 Test mô hình và fine-tune

7 17/3 → 15/4 Huấn luyện trên toàn bộ tập dữ liệu WebVid-2M

9 20/4 → 27/4 Triễn khai code cho phương pháp kết hợp LoRA

10 27/4 → 10/5 Train mô hình trên những tập dữ liệu khác

11 10/5 → 20/5 Tinh chỉnh mô hình trọng số

13 1/6 → 16/6 Viết báo cáo và báo cáo với giảng viên hướng dẫn

Tp Hồ Chí Minh, ngày tháng năm 2023 Ý kiến của giáo viên hướng dẫn Người viết đề cương

(ký và ghi rõ họ tên)

MỤC LỤC DANH MỤC HÌNH VẼ DANH MỤC BẢNG

DANH MỤC CHỮ VIẾT TẮT 14

1 Lý do chọn đề tài 1

2 Đối tượng và phạm vi nghiên cứu 1

4 Mục đích của đề tài 3

5 Bố cục của bài nghiên cứu 3

Chương 1: Cơ sở lý thuyết 4

1.2 Thị giác máy tính và xử lý ngôn ngữ tự nhiên 7

1.4 Phương pháp đánh giá mô hình FVD 15

Chương 2: Phương pháp thực hiện 17

2.2 Các thành phần chính 18

2.4 Quá trình nội suy tạo ảnh động 34

2.5 Fine-tune mô hình với LoRA 35

Chương 3: Thực nghiệm và phân tích kết quả 39

3.1 Đánh giá mô hình trên tập dữ liệu Webvid-2M 39

3.1.1 Giới thiệu tập dữ liệu 39

3.2 Đánh giá mô hình khi kết hợp với LoRA 45

DANH MỤC TÀI LIỆU THAM KHẢO 53

Hình 1: Hình ảnh minh họa các thành phần của một mạng lưới học sâu 26 6

Hình 2: Hình ảnh minh họa cơ chế VAE 11

Hình 4: Minh họa biểu diễn quá trình encode và decode dựa vào latent space 1 [2] 13

Hình 7: Tổng quan kiến trúc mô hình LVDM 17

Hình 8: Hình ảnh minh họa cơ chế attention 18

Hình 9: Hình ảnh minh họa cơ chế Autoencoder [2] 20

Hình 10: Hình ảnh minh họa kiến trúc của Autoencoders 21

Hình 11: Hình ảnh minh họa cơ chế Transformer 23

Hình 12: Hình ảnh minh họa kiến trúc của Diffusion 25

Hình 13: Một vài hình ảnh được sinh ra của Diffusion model 26

Hình 14: Pipeline của quá trình huấn luyện mô hình LVDM 32

Hình 15: Kiến trúc 3D U-Net trong mô hình diffusion 34

Hình 16: Pipeline của quá trình nội suy tạo ảnh động 34

Hình 17: Hình ảnh minh họa LORA tinh chỉnh các lớp chú ý chéo trong kiến trúc của mô hình khuếch tán [1] 36

Hình 18: Hình ảnh minh họa cơ chế chia nhỏ các ma trận của LoRA [1] 37

Hình 19: Một số video và miêu tả trong tập dữ liệu WebVid-2M [23] 41

Hình 20: Kêt quả thực nghiệm từ mô hình với tập dữ liệu Webvid-2M 43

Hình 22: Một số ví dụ minh họa về tập dữ liệu Vincent van Gogh [25] 45

Hình 23: Một số ví dụ minh họa về tập dữ liệu Makoto Shinkai - Your Name [22] 46

Hình 24: Một số ví dụ minh họa về tập dữ liệu Frozen 47

Hình 25: Kết quả của mô hình khi so sánh với các model khác nhau (An astronaut driving a horse) 48

Hình 26: Kết quả của mô hình khi so sánh với các model khác nhau (A monkey is playing a piano and result in difference model) 49

Hình 27: Kết quả của mô hình khi so sánh với các model khác nhau (Ironman is fighting against the enemy) 50

Hình 29: Giao diện sau khi nhập keycode 56

Hình 30: Giao diện sau khi sinh ảnh động xong 56

Hình 31: Giao diện sau khi nhập keycode ở tab generate with style 57

Hình 32: Giao diện sau khi sinh ảnh động xong ở tab generate with style 57

Bảng 1: So sánh mô hình LVDM và các mô hình khác trên tập dữ liệu WEBVID-2M 42

DANH MỤC CHỮ VIẾT TẮT

STT Ký hiệu chữ viết tắt Chữ viết đầy đủ

9 LVDM Latent Video Diffusion Model

10 VAE Variational Autoencoders ỨNG DỤNG HỌC SÂU TẠO ẢNH ĐỘNG TỪ MIÊU TẢ VĂN BẢN

1 LÝ DO CHỌN ĐỀ TÀI Ảnh động là một phương tiện mạnh mẽ có thể được sử dụng để truyền đạt thông tin, kể chuyện và giải trí Tuy nhiên, việc tạo ảnh động có thể tốn thời gian và tốn kém, đây là ta cần tìm một giải pháp tối ưu hơn về thời gian, đó là sử dụng AI cho việc tạo ảnh động hay dễ hiểu hơn là tạo ra ảnh động từ miêu tả Tạo ảnh động từ miêu tả là một công nghệ mới mà ở đây ta sử dụng những ảnh động ta muốn tạo ra để làm mẫu huấn luyện cho mô hình, sau đó sử dụng từ ngữ để giúp mô hình có thể tự động tạo ảnh động từ mô tả một cách chính xác hơn Công nghệ này có tiềm năng cách mạng hóa cách chúng ta làm ra ảnh động

Việc tạo ảnh động từ văn bản có nhiều ứng dụng tiềm năng, bao gồm marketing, giải trí và cá nhân hóa Công nghệ này giúp người dùng dễ dàng tạo ra những ảnh động có thể truy cập toàn cầu, mở ra cơ hội sáng tạo và kết nối với khán giả một cách hiệu quả.

Trước khi việc tạo văn bản thành ảnh động có thể được áp dụng rộng rãi, cần giải quyết một số thách thức Đầu tiên, công nghệ này vẫn còn mới và chất lượng của các ảnh động không phải lúc nào cũng đạt yêu cầu Thứ hai, quá trình tạo ảnh động từ văn bản có thể tốn kém về mặt tính toán, điều này hạn chế khả năng ứng dụng trong nhiều lĩnh vực.

Mặc dù đối mặt với nhiều thách thức, công nghệ chuyển đổi văn bản thành hình ảnh động đang hứa hẹn sẽ cách mạng hóa quy trình tạo và sử dụng hình ảnh động Khi công nghệ này tiếp tục phát triển, nó có tiềm năng được áp dụng rộng rãi trong nhiều lĩnh vực khác nhau.

Trong khóa luận này, nhóm sẽ nghiên cứu tiềm năng của việc chuyển đổi văn bản thành hình ảnh động Đồng thời, nhóm sẽ thực hiện và đánh giá hiệu suất của các phương pháp khác nhau đã được phát triển để tạo hình ảnh động từ văn bản.

Phương pháp nghiên cứu khoa học là công cụ quan trọng giúp kiểm tra giả thuyết một cách hệ thống và khám phá những điều mới mẻ Nhóm nghiên cứu đã tiến hành thực hiện đề tài này theo các bước cụ thể.

Nhóm đã chọn đề tài sinh ảnh động từ văn bản, đối mặt với nhiều thách thức như xử lý văn bản, xử lý hình ảnh và tiến tới tạo ra ảnh động Một trong những vấn đề lớn nhất là làm thế nào để sinh ra các khung ảnh chân thực và đảm bảo sự liên kết hợp lý giữa các khung ảnh trong một ảnh động hoàn chỉnh.

Nhóm nghiên cứu đã tiến hành xem xét và tổng hợp các nghiên cứu trước đây, đồng thời liệt kê các thuật ngữ và mô hình quan trọng sẽ được áp dụng trong khóa luận, bao gồm: attention, auto-encoder, diffusion, transformer, token, encoder-decoder, latent và LoRA.

Trong quá trình nghiên cứu khóa luận, nhóm đã phát hiện hai xu hướng chính trong việc sinh ảnh động từ văn bản sử dụng học sâu Xu hướng đầu tiên là huấn luyện mô hình để tạo ra ảnh động, trong khi xu hướng thứ hai là áp dụng các thuật toán nhằm sinh ảnh động mới từ video gốc với các đặc tính đã được mô tả.

Hiện nay, lĩnh vực thị giác máy tính đang phát triển mạnh mẽ nhờ vào sự phong phú của các tập dữ liệu lớn và chất lượng cao như WebVid-2M và Coco Những bộ dữ liệu này sẽ được phân tích và trình bày chi tiết trong nội dung bài viết.

Huấn luyện và tinh chỉnh mô hình là bước quan trọng tiếp theo trong quá trình nghiên cứu sau khi xác định lý thuyết và dữ liệu cần thiết Mô hình được huấn luyện theo thuật toán latent video diffusion và áp dụng trên tập dữ liệu học sâu nhằm tạo ra ảnh động từ mô tả văn bản.

Mục đích của đề tài là nghiên cứu ứng dụng học sâu để tạo ảnh động từ miêu tả Kết thúc quá trình thực hiện, chúng tôi sẽ có mô hình đã được huấn luyện, có khả năng sinh ảnh động với độ chính xác cao và sắp xếp hợp lý các khung hình Ngoài ra, mô hình còn cho phép chỉnh sửa một ảnh động thành một ảnh động khác dựa trên điều khiển từ văn bản miêu tả.

Trong phần lý thuyết, bài viết sẽ giới thiệu và giải thích tổng quan về kiến trúc cũng như các khái niệm quan trọng mà nhóm đã áp dụng trong quá trình thực hiện khóa luận Những kiến thức này không chỉ cung cấp nền tảng vững chắc cho nghiên cứu mà còn giúp làm rõ các yếu tố thiết yếu trong việc phát triển và triển khai dự án.

Khóa luận này nghiên cứu việc tạo ảnh động từ văn bản mô tả, hay còn gọi là sinh ảnh động, với sự phát triển của các thuật toán sinh ảnh nhưng vẫn thiếu nghiên cứu về sinh ảnh động Một trong những mô hình quan trọng là Latent Video Diffusion Model Phần lý thuyết đóng vai trò quan trọng để hiểu các kỹ thuật áp dụng trong nghiên cứu này Nhóm sẽ sử dụng nhiều thuật toán và khái niệm như Attention, AutoEncoder và Transformer Để dễ dàng nắm bắt các thuật ngữ, nhóm sẽ trình bày các khái niệm cơ bản, giúp hiểu rõ luồng hoạt động của kiến trúc Latent Video Diffusion Model.

Phương pháp thực hiện

Thực nghiệm và phân tích kết quả

Đánh giá mô hình khi kết hợp với LoRA

Hướng phát triển

5 Danh mục tài liệu tham khảo

STT Thời gian Công việc

1 7/2 → 13/2 Nghiên cứu các bài báo khoa học, tìm phương pháp thực hiện

2 13/2 → 19/2 Tổng hợp các lý thuyết đã tìm được, thảo luận với giảng viên hướng dẫn về đề tài

3 19/2 → 25/2 Thực hiện thu thập dữ liệu và phân tích dữ liệu

4 25/2 → 3/3 Viết code để huấn luyện mô hình

5 3/3 → 12/3 Huấn luyện mô hình trên một phần dữ liệu WebVid-2M

6 13/3 → 17/3 Test mô hình và fine-tune

7 17/3 → 15/4 Huấn luyện trên toàn bộ tập dữ liệu WebVid-2M

9 20/4 → 27/4 Triễn khai code cho phương pháp kết hợp LoRA

10 27/4 → 10/5 Train mô hình trên những tập dữ liệu khác

11 10/5 → 20/5 Tinh chỉnh mô hình trọng số

13 1/6 → 16/6 Viết báo cáo và báo cáo với giảng viên hướng dẫn

Tp Hồ Chí Minh, ngày tháng năm 2023 Ý kiến của giáo viên hướng dẫn Người viết đề cương

(ký và ghi rõ họ tên)

MỤC LỤC DANH MỤC HÌNH VẼ DANH MỤC BẢNG

DANH MỤC CHỮ VIẾT TẮT 14

1 Lý do chọn đề tài 1

2 Đối tượng và phạm vi nghiên cứu 1

4 Mục đích của đề tài 3

5 Bố cục của bài nghiên cứu 3

Chương 1: Cơ sở lý thuyết 4

1.2 Thị giác máy tính và xử lý ngôn ngữ tự nhiên 7

1.4 Phương pháp đánh giá mô hình FVD 15

Chương 2: Phương pháp thực hiện 17

2.2 Các thành phần chính 18

2.4 Quá trình nội suy tạo ảnh động 34

2.5 Fine-tune mô hình với LoRA 35

Chương 3: Thực nghiệm và phân tích kết quả 39

3.1 Đánh giá mô hình trên tập dữ liệu Webvid-2M 39

3.2 Đánh giá mô hình khi kết hợp với LoRA 45

DANH MỤC TÀI LIỆU THAM KHẢO 53

Hình 1: Hình ảnh minh họa các thành phần của một mạng lưới học sâu 26 6

Hình 7: Tổng quan kiến trúc mô hình LVDM 17

Hình 8: Hình ảnh minh họa cơ chế attention 18

Hình 9: Hình ảnh minh họa cơ chế Autoencoder [2] 20

Hình 10: Hình ảnh minh họa kiến trúc của Autoencoders 21

Hình 11: Hình ảnh minh họa cơ chế Transformer 23

Hình 12: Hình ảnh minh họa kiến trúc của Diffusion 25

Hình 13: Một vài hình ảnh được sinh ra của Diffusion model 26

Hình 14: Pipeline của quá trình huấn luyện mô hình LVDM 32

Hình 15: Kiến trúc 3D U-Net trong mô hình diffusion 34

Hình 16: Pipeline của quá trình nội suy tạo ảnh động 34

Hình 17: Hình ảnh minh họa LORA tinh chỉnh các lớp chú ý chéo trong kiến trúc của mô hình khuếch tán [1] 36

Hình 18: Hình ảnh minh họa cơ chế chia nhỏ các ma trận của LoRA [1] 37

Hình 19: Một số video và miêu tả trong tập dữ liệu WebVid-2M [23] 41

Hình 22: Một số ví dụ minh họa về tập dữ liệu Vincent van Gogh [25] 45

Hình 23: Một số ví dụ minh họa về tập dữ liệu Makoto Shinkai - Your Name [22] 46

Hình 24: Một số ví dụ minh họa về tập dữ liệu Frozen 47

Hình 25: Kết quả của mô hình khi so sánh với các model khác nhau (An astronaut driving a horse) 48

Hình 26: Kết quả của mô hình khi so sánh với các model khác nhau (A monkey is playing a piano and result in difference model) 49

Hình 27: Kết quả của mô hình khi so sánh với các model khác nhau (Ironman is fighting against the enemy) 50

Hình 29: Giao diện sau khi nhập keycode 56

Hình 30: Giao diện sau khi sinh ảnh động xong 56

Hình 31: Giao diện sau khi nhập keycode ở tab generate with style 57

Hình 32: Giao diện sau khi sinh ảnh động xong ở tab generate with style 57

Bảng 1: So sánh mô hình LVDM và các mô hình khác trên tập dữ liệu WEBVID-2M 42

DANH MỤC CHỮ VIẾT TẮT

STT Ký hiệu chữ viết tắt Chữ viết đầy đủ

9 LVDM Latent Video Diffusion Model

10 VAE Variational Autoencoders ỨNG DỤNG HỌC SÂU TẠO ẢNH ĐỘNG TỪ MIÊU TẢ VĂN BẢN

1 LÝ DO CHỌN ĐỀ TÀI Ảnh động là một phương tiện mạnh mẽ có thể được sử dụng để truyền đạt thông tin, kể chuyện và giải trí Tuy nhiên, việc tạo ảnh động có thể tốn thời gian và tốn kém, đây là ta cần tìm một giải pháp tối ưu hơn về thời gian, đó là sử dụng AI cho việc tạo ảnh động hay dễ hiểu hơn là tạo ra ảnh động từ miêu tả Tạo ảnh động từ miêu tả là một công nghệ mới mà ở đây ta sử dụng những ảnh động ta muốn tạo ra để làm mẫu huấn luyện cho mô hình, sau đó sử dụng từ ngữ để giúp mô hình có thể tự động tạo ảnh động từ mô tả một cách chính xác hơn Công nghệ này có tiềm năng cách mạng hóa cách chúng ta làm ra ảnh động

Việc tạo ảnh động từ văn bản có nhiều ứng dụng tiềm năng, bao gồm ảnh động tiếp thị, ảnh động giải trí và ảnh động cá nhân Công nghệ này giúp mọi người dễ dàng tạo ra những ảnh động có thể truy cập từ khắp nơi trên thế giới.

Trước khi công nghệ tạo văn bản thành ảnh động được áp dụng rộng rãi, cần giải quyết một số thách thức Đầu tiên, đây vẫn là một công nghệ tương đối mới, dẫn đến chất lượng của các ảnh động không phải lúc nào cũng đạt yêu cầu Thứ hai, quá trình tạo ảnh động từ văn bản có thể tiêu tốn nhiều tài nguyên tính toán, điều này hạn chế khả năng sử dụng trong một số ứng dụng.

Mặc dù gặp nhiều thách thức, công nghệ chuyển đổi văn bản thành hình ảnh động đang hứa hẹn mang lại cách mạng trong việc tạo và sử dụng hình ảnh động Sự phát triển liên tục của công nghệ này mở ra khả năng ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau.

Trong khoá luận này, nhóm nghiên cứu tiềm năng chuyển đổi văn bản thành hình ảnh động Chúng tôi sẽ khảo sát và áp dụng các phương pháp đã được phát triển để thực hiện quá trình này, đồng thời đánh giá hiệu suất của từng phương pháp.

Phương pháp nghiên cứu khoa học là công cụ quan trọng giúp kiểm tra giả thuyết một cách hệ thống và phát hiện những khám phá mới Do đó, nhóm đã tiến hành nghiên cứu đề tài này theo các bước cụ thể.

Nhóm đã chọn đề tài sinh ảnh động từ văn bản, đối mặt với nhiều thách thức như xử lý văn bản và hình ảnh, tiến tới việc tạo ra ảnh động hoàn chỉnh Một trong những vấn đề lớn nhất là làm thế nào để sinh ra các khung ảnh chân thực nhất và đảm bảo sự liên kết hợp lý giữa các khung ảnh trong ảnh động.

Nhóm nghiên cứu đã tiến hành xem xét và tổng hợp các nghiên cứu trước đó, đồng thời liệt kê các thuật ngữ, thuật toán và mô hình quan trọng sẽ được áp dụng trong khóa luận, bao gồm: attention, auto-encoder, diffusion, transformer, token, encoder-decoder, latent và LoRA.

Trong quá trình nghiên cứu khóa luận, nhóm đã phát hiện ra hai xu hướng chính trong việc sinh ảnh động từ văn bản bằng cách sử dụng học sâu Xu hướng đầu tiên là huấn luyện mô hình để tạo ra hình ảnh động, trong khi xu hướng thứ hai là áp dụng các thuật toán nhằm sinh ra hình ảnh động mới từ video gốc với các đặc điểm đã được mô tả.

Hiện nay, lĩnh vực thị giác máy tính đang được hỗ trợ bởi nhiều tập dữ liệu lớn và chất lượng cao như WebVid-2M và Coco Các bộ dữ liệu này sẽ được trình bày chi tiết trong nội dung bài viết.

Huấn luyện và tinh chỉnh mô hình là bước tiếp theo trong quá trình nghiên cứu sau khi xác định lý thuyết và dữ liệu cần thiết Mô hình sẽ được huấn luyện bằng thuật toán khuếch tán video tiềm ẩn và áp dụng trên tập dữ liệu học sâu để tạo ảnh động từ văn bản mô tả.

Mục đích của nghiên cứu này là ứng dụng học sâu để tạo ra ảnh động từ miêu tả Sau khi hoàn thành, chúng tôi sẽ có một mô hình đã được huấn luyện có khả năng sinh ảnh động với độ chính xác cao và cách sắp xếp hợp lý các khung hình Bên cạnh đó, mô hình cũng cho phép chỉnh sửa một ảnh động thành một ảnh động khác dựa trên sự điều khiển của văn bản miêu tả.

Trong phần lý thuyết, bài viết sẽ giới thiệu và giải thích tổng quan về kiến trúc của các khái niệm và các yếu tố quan trọng mà nhóm đã áp dụng trong quá trình thực hiện khóa luận Những khái niệm này đóng vai trò thiết yếu trong việc xây dựng nền tảng cho nghiên cứu và phát triển dự án, giúp người đọc hiểu rõ hơn về các nguyên tắc cốt lõi và phương pháp luận mà nhóm đã sử dụng.

Khóa luận này nghiên cứu việc tạo ảnh động từ văn bản mô tả, hay còn gọi là sinh ảnh động Mặc dù các thuật toán sinh ảnh đã phát triển nhiều, nhưng nghiên cứu về sinh ảnh động vẫn còn hạn chế Một trong những mô hình đáng chú ý là Latent Video Diffusion Model Phần lý thuyết là rất quan trọng để hiểu các kỹ thuật áp dụng trong nghiên cứu này Nhóm sẽ sử dụng nhiều thuật toán và khái niệm như Attention, AutoEncoder và Transformer Để dễ dàng nắm bắt các thuật ngữ và hiểu luồng hoạt động của kiến trúc Latent Video Diffusion Model, nhóm sẽ trình bày các khái niệm cơ bản trước tiên.

Tiêu đề	Ứng Dụng Học Sâu Tạo Ảnh Động Từ Miêu Tả Văn Bản
Tác giả	Nguyễn Tấn Hào, Phạm Nguyễn Hải Dương
Người hướng dẫn	PGS Ts. Hoàng Văn Dũng
Trường học	Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	Đồ Án Tốt Nghiệp
Năm xuất bản	2023
Thành phố	Tp. Hồ Chí Minh

Định dạng
Số trang	73
Dung lượng	6,61 MB