1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Ứng dụng học sâu tạo ảnh động từ miêu tả văn bản

73 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH ĐỒ ÁN TỐT NGHIỆP CÔNG NGHỆ THÔNG TIN ỨNG DỤNG HỌC SÂU TẠO ẢNH ĐỘNG TỪ MIÊU TẢ VĂN BẢN GVHD: TS HOÀNG VĂN DŨNG SVTH : NGUYỄN TẤN HÀO PHẠM NGUYỄN HẢI DƯƠNG S K L0 1 Tp Hồ Chí Minh, năm 2023 TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HCM KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN CÔNG NGHỆ PHẦN MỀM Nguyễn Tấn Hào – 19110358 Phạm Nguyễn Hải Dương – 19110343 ĐỀ TÀI ỨNG DỤNG HỌC SÂU TẠO ẢNH ĐỘNG TỪ MIÊU TẢ VĂN BẢN KHÓA LUẬN TỐT NGHIỆP KỸ SƯ CNTT GIÁO VIÊN HƯỚNG DẪN PGS Ts Hồng Văn Dũng KHĨA 2019 - 2023 ĐH SƯCỘNG PHẠMHOÀ KỸ THUẬT TP.HCM KHOA CNTT Độc ******* XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh Phúc ******* PHIẾU NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN Họ và tên Sinh viên : Nguyến Tấn Hào MSSV 1: 19110358 Họ và tên Sinh viên : Phạm Nguyễn Hải Dương MSSV 2: 19110343 Ngành: Công nghệ Thông tin Tên đề tài: Ứng dụng học sâu tạo ảnh động từ miêu tả Họ và tên Giáo viên hướng dẫn: PGS Ts Hoàng Văn Dũng NHẬN XÉT Nhận xét hình thức: Khóa luận bao gồm chương nội dung chính, phần mở đầu và phần kết luận Hình thức trình bày phù hợp theo yêu cầu và định dạng khóa luận tốt nghiệp ngành công nghệ thông tin Mục tiêu nội dung: Mục tiêu đề tài nhằm thực việc tìm hiểu kỹ thuật học máy và đặc biệt là học sâu xử lý liệu hình ảnh (video), phân tích ngơn ngữ tự nhiên và khai thác công cụ, thư viện, giải pháp việc sinh video để thể theo đoạn văn mô tả kịch video muốn tạo Khóa luận trình bày, thể kiến thức bản, kiến trúc tổng quát hệ thống sinh video dựa vào đoạn văn mô tả Thể việc xây dựng hệ thống giải pháp dựa kiến trúc học sâu, kết thực nghiệm từ huấn luyện mơ hình GAN liệu cụ thể, đến xây dựng giao diện demo giải pháp cách trực quan Kết đạt được: Đã tổng hợp kiến thức quan trọng liên quan đến bài toán sinh video dựa vào văn miêu tả xử lý hình ảnh, xử lý ngơn ngữ tự nhiên Đã xây dựng kiến trúc học sâu dựa vào thư viện và giải pháp nhà khoa học đề xuất và thực xử lý liệu, huấn luyện mơ hình để tạo video dựa miêu tả Thực số cải tiến để nâng cao khả mơ hình cách cho phép tinh chỉnh video theo đặc trưng cụ thể Qua đó, người dùng định đặc trưng video tạo cách chọn mơ hình huấn luyện sẵn để hệ thống tự động tạo video theo tùy chọn, giúp tạo khả đa dạng hóa nội dung video theo mơ hình và đặc trưng tùy biến Cài đặt chương trình và giao diện để demo giải pháp nghiên cứu, đề xuất Kết luận đề nghị: Đáp ứng tốt yêu cầu khóa luận tốt nghiệp, đề nghị cho trình bày kết trước Hội đồng khóa luận tốt nghiệp Điểm: XXX Tp Hồ Chí Minh, ngày tháng Giáo viên hướng dẫn (Ký & ghi rõ họ tên) năm 2023 ĐH SƯ PHẠM KỸ CỘNG THUẬT HOÀ TP.HCM KHOA CNTT Độc ******* XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh Phúc ******* PHIẾU NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN Họ và tên Sinh viên : Nguyến Tấn Hào MSSV 1: 19110358 Họ và tên Sinh viên : Phạm Nguyễn Hải Dương MSSV 2: 19110343 Ngành: Công nghệ Thông tin Tên đề tài: Ứng dụng học sâu tạo ảnh động từ miêu tả Họ và tên Giáo viên phản biện: TS Huỳnh Xuân Phụng NHẬN XÉT A - Phần khái quát Tính cần thiết và thực tiễn đề tài: Bố cục đề tài: Nội dung bản: B - Nhận xét kết Mức độ thực đề tài và hoàn thành nội dung, sản phẩm nghiên cứu so với mục tiêu đề tác giả: Ứng dụng đề tài: C - Kết luận Các nội dung cần sửa chữa, bổ sung, hoàn chỉnh: Điểm phản biện: Tp Hồ Chí Minh, ngày tháng năm 2023 Giáo viên hướng dẫn (Ký & ghi rõ họ tên) LỜI CẢM ƠN Lời đầu tiên, nhóm xin phép gửi lời cảm ơn chân thành đến với Khoa Công Nghệ Thông Tin– Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh tạo điều kiện cho nhóm chúng em trau dồi, học tập và phát triển tảng kiến thức vững để thực đề tài này Bên cạnh đó, nhóm chúng em xin gửi đến thầy Hoàng Văn Dũng lời cảm ơn chân thành và sâu sắc Thầy tận tâm hướng dẫn nhiệt tình và đưa góp ý quý báu cho nhóm chúng em suốt trình từ lúc bắt đầu kết thúc đề tài này Nhờ có tảng kiến thức chuyên ngành vững cộng thêm với kinh nghiệm và yêu cầu thực tế ngoài xã hội thông qua việc học trường và thực tập công ty và đặc biệt thầy Hoàng Văn Dũng đem đến cho chúng em khối lượng kiến thức và kinh nghiệm khổng lồ chuyên ngành và công việc tương lai Đặc biệt điều này khích lệ và thơi thúc chúng em hoàn thành đề tài Đây là hành trang vô quý báu cho chúng em trước bước sống Đề tài và bài báo cáo chúng em thực khoảng thời gian ngắn, với kiến thức hạn chế nhiều hạn chế khác mặt kỹ thuật và kinh nghiệm việc thực dự án phần mềm Do đó, q trình làm nên đề tài có thiếu sót là điều tránh khỏi nên chúng em mong nhận ý kiến đóng góp quý báu quý thầy cô để kiến thức chúng em hoàn thiện và chúng em làm tốt lần sau Cuối lời, chúng em kính chúc q thầy, q ln dồi dào sức khỏe và thành công nghiệp trồng người Chúng em xin chân thành cảm ơn! Nhóm thực Nguyễn Tấn Hào Phạm Nguyễn Hải Dương ĐH SƯ PHẠM KỸ CỘNG THUẬT HOÀ TP.HCM KHOA CNTT Độc ******* XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh Phúc ******* ĐỀ CƯƠNG KHÓA LUẬN TỐT NGHIỆP Họ và tên Sinh viên : Nguyến Tấn Hào MSSV 1: 19110358 Họ và tên Sinh viên : Phạm Nguyễn Hải Dương MSSV 2: 19110343 Thời gian làm khóa luận : từ 13/02/2023 đến : 16/5/2023 Chun ngành : Cơng nghệ phần mềm Tên khóa luận : Ứng dụng học sâu tạo ảnh động từ miêu tả GV hướng dẫn : PGS Ts Hoàng Văn Dũng Nhiệm vụ khóa luận : Nghiên cứu phương pháp để thực khóa luận Nghiên cứu sở lý thuyết Xây dựng mơ hình tạo ảnh động từ mơ tả Triển khai thuật tốn để mơ hình sinh ảnh động từ video nguồn Đề cương viết khóa luận : MỤC LỤC PHẦN MỞ ĐẦU 1.1 Lý chọn đề tài 1.2 Đối tượng và phạm vi nghiên cứu 1.3 Phương pháp nghiên cứu 1.4 Mục đích đề tài 1.5 Bố cục bài nghiên cứu PHẦN NỘI DUNG Chương 1: Cơ sở lý thuyết 1.1 Học sâu 1.2 Thị giác máy tính và xử lý ngôn ngữ tự nhiên 1.3 VAE – Variational Autoencoders 1.4 Phương pháp đánh giá mơ hình FVD Chương 2: Phương pháp nghiên cứu 2.1 Kiến trúc tổng quan 2.2 Các thành phần 2.3 Q trình huấn luyện 2.4 Q trình nội suy tạo ảnh động 2.5 Fine-tune mơ hình với LoRA Chương 3: Thực nghiệm và phân tích kết 3.1 Đánh giá mơ hình tập liệu Webvid-2M 3.2 Đánh giá mơ hình kết hợp với LoRA PHẦN KẾT LUẬN 4.1 Đã đạt 4.2 Chưa đạt 4.3 Hướng phát triễn Danh mục tài liệu tham khảo KẾ HOẠCH THỰC HIỆN STT Thời gian Công việc 7/2 → 13/2 Nghiên cứu bài báo khoa học, tìm phương pháp thực 13/2 → 19/2 Tổng hợp lý thuyết tìm được, thảo luận với giảng viên hướng dẫn đề tài 19/2 → 25/2 Thực thu thập liệu phân tích liệu 25/2 → 3/3 Viết code để huấn luyện mơ hình 3/3 → 12/3 Huấn luyện mơ hình phần liệu WebVid-2M (500000 videos) 13/3 → 17/3 Test mô hình fine-tune 17/3 → 15/4 Huấn luyện toàn tập liệu WebVid-2M 15/4 → 20/4 Fine-tune mơ hình 20/4 → 27/4 Triễn khai code cho phương pháp kết hợp LoRA 10 27/4 → 10/5 Train mơ hình tập liệu khác 11 10/5 → 20/5 Tinh chỉnh mơ hình trọng số 12 20/5 → 31/5 Triển khai demo 13 1/6 → 16/6 Viết báo cáo và báo cáo với giảng viên hướng dẫn Tp Hồ Chí Minh, ngày Ý kiến giáo viên hướng dẫn (ký ghi rõ họ tên) tháng năm 2023 Người viết đề cương MỤC LỤC MỤC LỤC DANH MỤC HÌNH VẼ DANH MỤC BẢNG DANH MỤC CHỮ VIẾT TẮT 14 PHẦN MỞ ĐẦU 1 Lý chọn đề tài Đối tượng và phạm vi nghiên cứu Phương pháp nghiên cứu Mục đích đề tài Bố cục bài nghiên cứu PHẦN NỘI DUNG Chương 1: Cơ sở lý thuyết 1.1 Học sâu 1.2 Thị giác máy tính và xử lý ngơn ngữ tự nhiên 1.3 VAE – Variational Autoencoders 10 1.4 Phương pháp đánh giá mơ hình FVD 15 Chương 2: Phương pháp thực 17 2.1 Kiến trúc tổng quan 17 2.2 Các thành phần 18 2.2.1 Attention 18 2.2.2 AutoEncoder 19 2.2.3 Transformer 22 2.2.4 Diffusion 24

Ngày đăng: 05/12/2023, 10:04

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w