1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Đề tài ứng dụng trí tuệ nhân tạo cho tính năng vẽ tranh theo mô tả văn bản mô hình dall e 2

34 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 34
Dung lượng 1,65 MB

Nội dung

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA  BÀI TẬP LỚN MÔN KỸ NĂNG CHUYÊN NGHIỆP CHO KỸ SƯ ĐỀ TÀI: ỨNG DỤNG TRÍ TUỆ NHÂN TẠO CHO TÍNH NĂNG VẼ TRANH THEO MƠ TẢ VĂN BẢN - MƠ HÌNH DALL-E LỚP L08 - NHÓM 05 - HK222 NGÀY NỘP ……………… Giảng viên hướng dẫn: Đặng Tuấn Khanh SINH VIÊN THỰC HIỆN STT MSSV Họ Tên %Điểm BTL 2013444 Nguyễn Lê Khanh 100% 2012196 Hồ Trương Đức Tiến 100% 2012775 Trương Tuấn Cường 100% 2112847 Trần Trọng Bách 100% 2111167 Nguyễn Văn Hậu 100% Tháng 04/2023 Điểm BTL Ghi TRƯỜNG ĐẠI HỌC BÁCH KHOA TPHCM KHOA KH&KT MÁY TÍNH BÁO CÁO KẾT QUẢ LÀM VIỆC NHĨM VÀ BẢNG ĐIỂM BTL Mơn: KỸ NĂNG CHUYÊN NGHIỆP CHO KỸ SƯ (MSMH: CO2001) Nhóm/Lớp: L08 Tên nhóm: 05 HK 222 .Năm học 2022 - 2023 Đề tài: ỨNG DỤNG TRÍ TUỆ NHÂN TẠO CHO TÍNH NĂNG VẼ TRANH THEO MƠ TẢ VĂN BẢN MƠ HÌNH DALL-E STT Mã số SV Họ Tên 2013444 Nguyễn Lê Khanh 2012196 Hồ Trương Đức Tiến 2012775 Trương Tuấn Cường 2112847 Trần Trọng 2111167 Nguyễn Văn Nhiệm vụ phân công Chương 1, 2.1, 2.2, 2.3.2.2 % Điểm BTL 100% Phần 2.3.2.1 100% 100% Bách Phần 2.3.2.3 Phần 2.3.1, soạn báo cáo làm Powerpoint Hậu Phần 2.3.2.4, Mở đầu, Tổng kết 100% Điểm BTL Ký tên 100% Họ tên nhóm trưởng: Nguyễn Lê Khanh, Số ĐT:0364393418 Email: khanh.nguyennlk41@hcmut.edu.vn Nhận xét GV: GIẢNG VIÊN NHÓM TRƯỞNG (Ký ghi rõ họ, tên) (Ký ghi rõ họ, tên) Kỹ chuyên nghiệp cho kỹ sư - CO2001 - Nhóm 5_L08 – HK222 MỤC LỤC DANH MỤC HÌNH ẢNH .1 DANH MỤC TỪ VIẾT TẮT PHẦN MỞ ĐẦU PHẦN NỘI DUNG Chương 1: TỔNG QUAN VỀ TRÍ TUỆ NHÂN TẠO VÀ ỨNG DỤNG TRÍ TUỆ NHÂN TẠO TRONG CUỘC SỐNG 1.1 Tổng quan Trí tuệ nhân tạo 1.2 Ứng dụng Trí tuệ nhân tạo sống Chương 2: ỨNG DỤNG TRÍ TUỆ NHÂN TẠO CHO TÍNH NĂNG VẼ TRANH THEO MƠ TẢ VĂN BẢN - MƠ HÌNH DALL-E 2.1 Ứng dụng Trí tuệ nhân tạo cho tính vẽ tranh theo mô tả văn 2.2 DALL-E gì? 2.3 Phương thức hoạt động DALL-E 10 2.3.1 Cách thức hoạt động DALL-E 2: A Bird's-Eye View 10 2.3.2 Cách thức hoạt động DALL-E 2: A Detailed Look 11 TỔNG KẾT 28 TÀI LIỆU THAM KHẢO 29 BẢNG TIẾN ĐỘ 30 THỐNG KÊ TÀI CHÍNH 31 Kỹ chuyên nghiệp cho kỹ sư - CO2001 - Nhóm 5_L08 – HK222 DANH MỤC HÌNH ẢNH Hình Tồn cảnh quy trình tạo ảnh DALL-E 10 Hình 2 Quy trình chi tiết việc tạo ảnh DALL-E 11 Hình Mơ hình CLIP 13 Hình Ảnh tạo ResNet-101 14 Hình Biểu đồ so sánh độ xác so với ảnh gốc CLIP ResNet-101 14 Hình Hình ảnh "chú chó Corgi thổi kèn phun lửa" chuyển qua mã hóa hình ảnh CLIP 16 Hình Sơ đồ mơ hình khuếch tán .16 Hình Chuẩn bị văn cho trình Diffusion 18 Hình 9.Khởi tạo văn nhằm quy định cho hình ảnh chuyển đổi (Bước 0) 18 Hình 10 Mã hóa chuỗi thành tín hiệu (Bước 1) 18 Hình 11 Đưa tín hiệu vào biến đổi (Bước 2) 19 Hình 12 Xuất tín hiệu đầu (Bước 3) 19 Hình 13 Điều kiện hóa tín hiệu nhúng cuối (Bước 4) 19 Hình 14 Liên kết phép chiếu tín hiệu nhúng cuối đến bối cảnh “chú ý” (Bước 5) .20 Hình 15 Một vài hình ảnh tạo bời GLIDE 21 Hình 16 Mơ hình PRIOR .22 Hình 17 So sánh chất lượng ảnh mơ hình Diffusion Prior 23 Hình 18 Tổng quan cao trình tạo ảnh DALL-E 25 Hình 19 Cây tìm kiếm "Beam Search Tree" 26 Hình 20 Sự khác mô tả DALL-E tạo .26 Hình 21 Ảnh thật tranh tạo từ mô tả ngôn ngữ tự nhiên .27 Kỹ chuyên nghiệp cho kỹ sư - CO2001 - Nhóm 5_L08 – HK222 DANH MỤC TỪ VIẾT TẮT ADM Ablated Diffusion Model AI Artificial Intelligence CLIP Connecting text and Image GLIDE Guided Language-to-Image Diffusion for Generation and Editing GPT Generative Pre-training Transformer GAN Generative Adversarial Network Kỹ chuyên nghiệp cho kỹ sư - CO2001 - Nhóm 5_L08 – HK222 PHẦN MỞ ĐẦU 0.1 Lý chọn đề tài nghiên cứu Trí tuệ nhân tạo (AI) có tiến đáng kinh ngạc việc tạo hình ảnh thực tế sáng tạo từ mô tả ngôn ngữ tự nhiên Một ví dụ ấn tượng khả DALL-E 2, hệ thống AI phát triển OpenAI, tạo hình ảnh nghệ thuật với độ phân giải cao từ mô tả văn DALL-E mở rộng DALL-E, OpenAI giới thiệu vào tháng năm 2021 dự án nghiên cứu sử dụng phiên sửa đổi GPT-3, mô hình ngơn ngữ quy mơ lớn, để tạo hình ảnh DALL-E 2, phát hành vào tháng năm 2022 sản phẩm thử nghiệm, cải thiện DALL-E cách tạo hình ảnh thực tế xác với độ phân giải cao gấp bốn lần DALL-E kết hợp khái niệm, thuộc tính phong cách theo cách lạ đầy bất ngờ, chẳng hạn tạo phi hành gia cưỡi ngựa theo phong cách thực tế ghế hình trái dứa theo phong cách hoạt hình… Mục tiêu báo phân tích cách thức hoạt động DALL-E 2, bao gồm khía cạnh kỹ thuật sâu vào cách thức hoạt động hệ thống Chúng xem xét chi tiết kiến trúc, liệu huấn luyện giải thích q trình mã hóa văn bản, ánh xạ văn sang hình ảnh giải mã hình ảnh DALL-E 0.2 Đối tượng nghiên cứu Ứng dụng Trí tuệ nhân tạo cho tính vẽ tranh theo mơ tả văn giới thiệu mơ hình DALL-E 0.3 Phạm vi nghiên cứu Đề tài nghiên cứu phương thức hoạt động DALL-E 2, mơ hình Trí tuệ nhân tạo có khả tạo hình ảnh theo mơ tả văn 0.4 Mục tiêu đề tài Kỹ chuyên nghiệp cho kỹ sư - CO2001 - Nhóm 5_L08 – HK222 Một là, mô tả chi tiết cách thức hoạt động DALL-E 2, tìm hiểu phân tích thành phần DALL-E cách chúng tương tác với để tạo hình ảnh Hai là, kiểm tra module DALL-E 2, bao gồm CLIP, prior decoder, cách chúng kết hợp với để thực nhiệm vụ khác sinh hình ảnh, chỉnh sửa hình ảnh nội tuyến hình ảnh Ba là, phân tích kiến trúc, liệu huấn luyện DALL-E 2, hệ thống AI tạo hình ảnh nghệ thuật thực tế sáng tạo từ mô tả ngôn ngữ tự nhiên Bốn là, giải thích q trình mã hóa văn bản, ánh xạ văn sang hình ảnh giải mã hình ảnh DALL-E 2, kỹ thuật sử dụng để tạo hình ảnh chất lượng cao đa dạng 0.5 Bố cục đề tài Chương 1: Tổng quan trí tuệ nhân tạo ứng dụng trí tuệ nhân tạo sống Chương 2: Ứng dụng Trí tuệ nhân tạo cho tính vẽ tranh theo mơ tả văn - mơ hình DALL-E Kỹ chun nghiệp cho kỹ sư - CO2001 - Nhóm 5_L08 – HK222 PHẦN NỘI DUNG Chương 1: TỔNG QUAN VỀ TRÍ TUỆ NHÂN TẠO VÀ ỨNG DỤNG TRÍ TUỆ NHÂN TẠO TRONG CUỘC SỐNG 1.1 Tổng quan Trí tuệ nhân tạo Những năm gần đây, cụm từ “AI” hay “Trí tuệ nhân tạo” dường phổ biến sống Vậy AI gì? Mục đích gì? Nó ảnh hưởng đến sống tại? câu hỏi mà nhiều người thắc mắc Vậy nên, viết trình bày tổng quan chung AI tìm hiểu nhóm 1.1.1 AI gì? Trong khoa học máy tính, trí tuệ nhân tạo hay AI (Artificial intelligence), gọi trí thơng minh nhân tạo, trí thơng minh thể máy móc, trái ngược với trí thơng minh tự nhiên người Thông thường, thuật ngữ "trí tuệ nhân tạo" thường sử dụng để mơ tả máy móc (hoặc máy tính) có khả bắt chước chức "nhận thức" mà người thường phải liên kết với tâm trí, "học tập" "giải vấn đề" 1.1.2 Phân loại AI Nếu tìm hiểu loại AI, bạn tìm nhiều kết khác nhau: AI chia làm loại, loại, loại… Thực chúng Lý phân loại AI dựa hai yếu tố Chúng ta biết AI cơng nghệ mơ trí tuệ người Vậy nên yếu tố để phân loại AI mức độ thơng minh, cụ thể linh hoạt độ hiệu quả, mà mơ trí tuệ Tùy mức độ mà AI sử dụng cho công việc khác nhau, từ đơn giản đến phức tạp Kỹ chuyên nghiệp cho kỹ sư - CO2001 - Nhóm 5_L08 – HK222 Chương 1: Tổng quan trí tuệ nhân tạo ứng dụng trí tuệ nhân tạo sống Dựa yếu tố đầu tiên, ta phân loại AI thành loại dựa phát triển, thành thạo chúng: • Artificial Narrow Intelligence (ANI - Trí tuệ nhân tạo hẹp) • Artificial General Intelligence (AGI - Trí tuệ nhân tạo chung) • Artificial Super Intelligence (ASI - Siêu trí tuệ nhân tạo) Trong đó, AGI ASI Strong AI Vì vậy, nói dựa mức độ thơng minh, ta chia AI thành loại Narrow AI Strong AI Yếu tố lại để phân loại AI dựa tương đồng AI với trí tuệ người, khả suy nghĩ, hay có cảm nhận người thực Tức AI mơ hành động, suy nghĩ hay cảm xúc người Dựa yếu tố này, người ta chia AI thành loại: 1.2 • Reactive Machines - AI phản ứng • Limited Memory - AI với trí nhớ giới hạn • Theory of Mind - Lý thuyết Tâm trí • Self-Awareness - Tự nhận thức Ứng dụng Trí tuệ nhân tạo sống Trợ lý ảo, nhà thông minh, xe tự lái, nhiếp ảnh di động vận hành trơn tru nhờ tích hợp trí thơng minh nhân tạo Trợ lý ảo Trí tuệ nhân tạo giúp trợ lý ảo linh hoạt xử lý yêu cầu nhờ học hỏi thói quen sinh hoạt người dùng dự đoán cảm xúc Trong tương lai, "nàng" Siri, Alexa kỳ vọng nhận diện qua giọng nói, phân tích ký tự Ngồi ra, trợ lý cịn tự đưa định đặt lịch hẹn cho chủ nhân dựa tình hình giao thơng, thời tiết Nhà thơng minh AI tương lai công nghệ nhà Theo đó, lõi nhà thơng minh có khả học hỏi ghi nhớ người dùng qua lệnh giọng nói, hành vi, thói quen sau kết Kỹ chuyên nghiệp cho kỹ sư - CO2001 - Nhóm 5_L08 – HK222 Chương 1: Tổng quan trí tuệ nhân tạo ứng dụng trí tuệ nhân tạo sống hợp xu hướng vạn vật Internet Chẳng hạn, bạn thức dậy ly cà phê nóng chuẩn bị sẵn từ máy làm cà phê AI kích hoạt Xe tự lái Năm 2016, công ty Otto sở hữu Uber thành công việc vận chuyển 50.000 lon bia Budweisers xe vận tải tự lái Về lợi ích kinh tế, ứng dụng trí tuệ nhân tạo cho vận tải đường dài giảm chi phí, ngồi cịn giúp hạn chế tối đa tai nạn chết người Công ty nghiên cứu tư vấn công nghệ thông tin hàng đầu giới Gartner dự đoán, đến 2020, tồn cầu có 250 triệu xe kết nối với thông qua hệ thống Wi-Fi Chúng tự "giao tiếp" lộ trình tốt Gaming Những ứng dụng trí thơng minh nhân tạo vào lập trình game diễn từ thập kỷ trước, hình thái đơn sơ Đơn cử cách hồn ma trị chơi Pacman ln tìm cách bám đuổi theo người chơi trận địa mê cung Sau nhiều chục năm phát triển, NPC (non-player character - nhân vật người chơi không điều khiển) tối ưu AI, hành động tương tác phù hợp với bối cảnh xung quanh hành động người chơi Trong trò chơi GTA V, hệ thống AI điều khiển phương tiện xe hơi, mơ tơ dựa tín hiệu giao thông đồ Y tế Thiết bị bay không người lái nghiên cứu để ứng dụng trường hợp cấp cứu Ưu điểm tốc độ nhanh xe chuyên dụng đến 40%, thuận tiện địa hình hiểm trở Thơng qua hệ thống video call, bác sĩ cịn tiếp cận sớm nạn nhân người chăm sóc, đưa hướng dẫn nhằm hạn chế mức độ nghiêm trọng tai nạn Mua sắm Từ 2013, Amazon ấp ủ tham vọng nâng sức ảnh hưởng AI lên chuỗi giá trị cho khách hàng Cụ thể, hãng cấp sáng chế cho ý tưởng bán hàng cho người Kỹ chuyên nghiệp cho kỹ sư - CO2001 - Nhóm 5_L08 – HK222 Chương 2: Ứng dụng trí tuệ nhân tạo cho tính vẽ tranh theo mơ tả văn - mơ hình DALL-E với việc tạo liệu Bộ mã hóa tự động thực tế, Mơ hình khuếch tán Bộ mã hóa tự động có liên quan với 2.3.2.2.2 GLIDE Training Mặc dù GLIDE khơng phải mơ hình Diffusion đầu tiên, đóng góp quan trọng sửa đổi chúng phép tạo hình ảnh có điều kiện văn Đặc biệt, người ta nhận thấy mơ hình Diffusion nhiễu Gaussian chọn ngẫu nhiên Ban đầu không rõ làm để điều chỉnh trình để tạo hình ảnh cụ thể Nếu mơ hình Diffusion huấn luyện tập liệu khn mặt người, đáng tin cậy tạo hình ảnh chân thực ảnh khn mặt người; muốn tạo khuôn mặt với đặc điểm cụ thể, chẳng hạn mắt nâu tóc vàng sao? GLIDE mở rộng khái niệm cốt lõi mơ hình Diffusion cách bổ sung q trình huấn luyện với thơng tin văn bổ sung, kết cuối tạo hình ảnh có điều kiện văn Hãy xem trình huấn luyện cho GLIDE: Bước 0: Khởi tạo văn bản, điều kiện cho hình ảnh Bước 1: Mã hóa chuỗi ký tự thành tín hiệu Bước 2: Truyền tín hiệu vào chuyển đổi Transformer Bước 3: Xuất tín hiệu đầu Bước 4: Điều kiện hóa tín hiệu nhúng cuối Bước 5: Liên kết hình chiếu tín hiệu nhúng cuối vào bối cảnh ý (attention context) làm slide gồm ảnh từ 2.8 -> 2.14 Ví dụ: Quy trình tạo hình ảnh từ văn “hình ảnh khn mặt người đàn ông” theo bước hình từ đến 14 Kỹ chuyên nghiệp cho kỹ sư - CO2001 - Nhóm 5_L08 – HK222 17 Chương 2: Ứng dụng trí tuệ nhân tạo cho tính vẽ tranh theo mô tả văn - mô hình DALL-E Hình Chuẩn bị văn cho trình Diffusion Hình 9.Khởi tạo văn nhằm quy định cho hình ảnh chuyển đổi (Bước 0) Hình 10 Mã hóa chuỗi thành tín hiệu (Bước 1) Kỹ chuyên nghiệp cho kỹ sư - CO2001 - Nhóm 5_L08 – HK222 18 Chương 2: Ứng dụng trí tuệ nhân tạo cho tính vẽ tranh theo mơ tả văn - mơ hình DALL-E Hình 11 Đưa tín hiệu vào biến đổi (Bước 2) Hình 12 Xuất tín hiệu đầu (Bước 3) Hình 13 Điều kiện hóa tín hiệu nhúng cuối (Bước 4) Kỹ chuyên nghiệp cho kỹ sư - CO2001 - Nhóm 5_L08 – HK222 19 Chương 2: Ứng dụng trí tuệ nhân tạo cho tính vẽ tranh theo mơ tả văn - mơ hình DALL-E Hình 14 Liên kết phép chiếu tín hiệu nhúng cuối đến bối cảnh “chú ý” (Bước 5) Thơng tin thêm quy trình đào tạo GLIDE: Bỏ qua Upsampling Upsampling q trình tăng kích thước hình ảnh, tệp âm tập liệu cách thêm giá trị vào giá trị có Q trình sử dụng nhiều ứng dụng khác nhau, xử lý ảnh để tăng kích thước hình ảnh mạng nơ-ron học sâu để tăng độ phân giải đầu Một số phương pháp upsampling phổ biến bao gồm tương tác kích thước (interpolation) tương tác tuyến tính tương tác theo kiểu lân cận (nearest neighbor) upsampling theo phép toán transpose convolution (deconvolution) subpixel convolution Các hình ảnh tạo q trình reverse-Diffusion có kích thước 64 x 64, tác giả huấn luyện mơ hình upsampling điều kiện văn theo cách tương tự để đưa liệu tạo lên đến kích thước 1.024 x 1.024 Ablated Diffusion Model OpenAI giải vấn đề với mơ hình Ablated Diffusion Model (ADM), ban đầu bao gồm điều kiện lớp OpenAI mở rộng khái niệm với Kỹ chuyên nghiệp cho kỹ sư - CO2001 - Nhóm 5_L08 – HK222 20 Chương 2: Ứng dụng trí tuệ nhân tạo cho tính vẽ tranh theo mơ tả văn - mơ hình DALL-E GLIDE để tổng quát hóa việc điều kiện Diffusion Model để bao gồm ngôn ngữ tự nhiên chung ADM tạo ban đầu để kết hợp khả Diffusion Models để tạo hình ảnh sống động với khả mơ hình điều kiện văn để kết hợp đối tượng không liên quan với theo cách có tính ngữ nghĩa hợp lý Bên cạnh đó, báo ADM, cịn có nghiên cứu ablation để khám phá chủ đề tối ưu hóa kiến trúc Diffusion Model (do Ablated Diffusion Model) Chi tiết khám phá nằm phạm vi viết này, nhiên độc giả quan tâm tham khảo báo liên kết để biết thêm chi tiết Dưới số ví dụ hình ảnh tạo GLIDE Lưu ý GLIDE hoạt động tốt DALL-E (1) việc tạo hình ảnh sống động tương đồng với thích Hình 15 Một vài hình ảnh tạo bời GLIDE Một vài hình ảnh tạo GLIDE model Hình 15: Hình ("Một nhím sử dụng máy tính cầm tay"), hình ("Một chó corgi mang thắt nơ đỏ đội mũ tiệc màu tím), hình (“Robot ngồi thiền”), hình (“Khung cảnh mùa thu với nhà tranh bên cạnh hồ nước”) DALL-E sử dụng mơ hình GLIDE sửa đổi để tích hợp CLIP text embeddings dự đoán theo hai cách Cách cách thêm CLIP text embeddings vào Timestep embedding có GLIDE, cách thứ hai cách tạo bốn mã thông báo bổ sung ngữ cảnh, nối với chuỗi đầu GLIDE text encoder Kỹ chuyên nghiệp cho kỹ sư - CO2001 - Nhóm 5_L08 – HK222 21 Chương 2: Ứng dụng trí tuệ nhân tạo cho tính vẽ tranh theo mơ tả văn - mơ hình DALL-E 2.3.2.2.3 Ý nghĩa GLIDE DALL-E Tự kết luận GLIDE quan trọng DALL-E cho phép tác giả dễ dàng chuyển khả tạo hình ảnh quang học có điều kiện văn GLIDE sang DALL-E cách thay vào điều chỉnh mã hóa hình ảnh khơng gian biểu diễn Do đó, GLIDE sửa đổi DALL-E học cách tạo hình ảnh quán mặt ngữ nghĩa dựa mã hóa hình ảnh CLIP Cũng cần lưu ý quy trình reverseDiffusion ngẫu nhiên dễ dàng tạo biến thể cách nhập nhiều lần vectơ mã hóa hình ảnh giống thơng qua mơ hình GLIDE sửa đổi 2.3.2.3 Ánh xạ từ ngữ nghĩa văn sang ngữ nghĩa hình ảnh tương ứng 2.3.2.3.1 PRIOR Model Mặc dù CLIP tạo text embedding image embedding, cuối image embedding từ CLIP không dùng để sinh ảnh giai đoạn decode DALLE sử dụng mơ hình khác PRIOR, với mục đích ánh xạ văn nhúng Text Encoder sang hình ảnh nhúng Image Encoder Tại trình này, DALLE thử nghiệm với hai mơ hình: Autoregressive (AR) Diffusion Trong đó, mơ hình Diffusion cho khả tính tốn hiệu sử dụng làm Prior thức vào DALL-E Hình 2.16 Hình 16 Mơ hình PRIOR (1 slide) Vì PRIOR mơ hình Diffusion GLIDE, cách hoạt động mơ hình Diffusion trình bày phần “GLIDE Training” khơng trình bày lại Kỹ chuyên nghiệp cho kỹ sư - CO2001 - Nhóm 5_L08 – HK222 22 Chương 2: Ứng dụng trí tuệ nhân tạo cho tính vẽ tranh theo mơ tả văn - mơ hình DALL-E 2.3.2.3.2 PRIOR Training (1 slide không ảnh gồm bước phần này) Mơ hình Diffusion Prior DALL-E bao gồm chuyển đổi với chức decoder Khi hoạt động, đảm bảo trình tự gồm: • Mã hóa văn bản, mơ tả • Nhúng mã Text Encoder CLIP • Mã hóa theo mơ hình Diffusion • Hình ảnh mã hóa truyền qua Image Encoder CLIP • Mã hóa lần cuối với đầu từ chuyển đổi Prior với mục đích tìm ảnh trước nhiễu từ CLIP Thơng tin thêm quy trình đào tạo PRIOR Mơ hình Diffusion Prior khơng dựa CLIP text embedding văn bản, mà cịn phụ thuộc vào văn Cái trước thứ khẳng định đến sau phụ thuộc hoàn toàn diện Prior Để nâng cao chất lượng mẫu, phương thức Classifier-Free Guidance áp dụng 10% thời gian để lấy mẫu ngẫu nhiên, theo thông tin điều chỉnh văn loại bỏ Phương pháp giúp làm tăng tính chân thực chất lượng ảnh với đánh đổi đa dạng tập ảnh sinh ra, nhiên ảnh loại bỏ chủ yếu có chất lượng thấp không rõ ràng nên chất lượng chung mơ hình đảm bảo Ví dụ Hình 17, bên trái ảnh không dẫn, bên phải ảnh dẫn với văn bản: “Pembroke Welsh corgi” Hình 17 So sánh chất lượng ảnh mơ hình Diffusion Prior Kỹ chun nghiệp cho kỹ sư - CO2001 - Nhóm 5_L08 – HK222 23 Chương 2: Ứng dụng trí tuệ nhân tạo cho tính vẽ tranh theo mơ tả văn - mơ hình DALL-E 2.3.2.3.3 Ý nghĩa PRIOR DALL-E Tự kết luận Các tác giả OpenAI có ghi huấn luyện mơ hình prior khơng q cần thiết cho mơ hình chuyển đổi văn thành hình ảnh Một lựa chọn thay đưa điều kiện cho văn người dùng nhập Một lựa chọn khác nạp text embedding từ CLIP vào decoder Tuy nhiên, việc sử dụng prior DALL-E lại giúp gia tăng tính đa dạng hình ảnh tạo ra, từ dễ dàng đáp ứng nhu cầu người dùng 2.3.2.4 Kết hợp kết tạo hình ảnh có điều kiện văn Sau phân tích model trên, tức liên kết ngữ nghĩa văn hình ảnh (CLIP), tạo hình ảnh từ ngữ nghĩa trực quan (GLIDE) ánh xạ từ ngữ nghĩa văn sang ngữ nghĩa hình ảnh tương ứng (PRIOR) Nội dung phần trình bày cách thức kết hợp phần trước để tạo hình ảnh từ mơ tả văn ban đầu: Đầu tiên, nhận mô tả văn bản, hệ thống sử dụng CLIP để tìm kiếm hình ảnh phù hợp với mơ tả Mỗi hình ảnh có vector ngữ nghĩa (Semantic Vector) sinh cách đưa hình ảnh vào mơ hình CLIP, vector sử dụng để tạo hình ảnh tương ứng với mơ tả Sau đó, vector ngữ nghĩa truyền vào mơ hình GLIDE để tạo hình ảnh tương ứng Mơ hình GLIDE mạng neural tổng quát đào tạo để chuyển đổi vector ngữ nghĩa sang hình ảnh Mơ hình sử dụng kiến trúc sinh ảnh GAN (Generative Adversarial Network) để tạo hình ảnh chân thực có tính đa dạng Tuy nhiên, việc tạo hình ảnh chân thực bước Hình ảnh cần phải đáp ứng yêu cầu màu sắc, hình dáng kích thước để phù hợp với mơ tả văn Để đảm bảo điều này, hệ thống sử dụng PRIOR để ánh xạ từ vector hình ảnh tương ứng sang phân phối xác suất đặc trưng hình ảnh màu sắc, hình dáng kích thước Q trình giúp tạo hình ảnh có tính chân thực phù hợp với mô tả văn ban đầu Cuối cùng, hình ảnh tạo hiển thị kiểm tra để đảm bảo tính hợp lý chân thực Nếu hình ảnh khơng phù hợp với mô tả ban đầu không thỏa Kỹ chuyên nghiệp cho kỹ sư - CO2001 - Nhóm 5_L08 – HK222 24 Chương 2: Ứng dụng trí tuệ nhân tạo cho tính vẽ tranh theo mơ tả văn - mơ hình DALL-E mãn tiêu chuẩn tính đa dạng chân thực, hệ thống tạo hình ảnh khác tiếp tục trình kiểm tra đến đạt kết tốt Hình 18 Tổng quan cao trình tạo ảnh DALL-E Để tạo hình ảnh mới, DALL-E cịn sử dụng kỹ thuật gọi "beam search" Beam search kỹ thuật tìm kiếm lĩnh vực xử lý ngơn ngữ tự nhiên sử dụng để tạo câu hoàn chỉnh từ từ vựng riêng lẻ Trong DALL-E 2, beam search sử dụng để tạo hình ảnh từ mơ tả văn Khi bắt đầu trình beam search, DALL-E lấy mô tả văn làm đầu vào tạo ma trận ngữ nghĩa văn bản-hình ảnh tương ứng sử dụng phương pháp trình bày phần trước Ma trận sử dụng để đưa dự đoán ban đầu hình ảnh Sau đó, DALL-E tạo tập hợp mẫu hình ảnh sử dụng GLIDE Model Mỗi mẫu tạo cách sử dụng giá trị ngẫu nhiên lấy từ phân phối Gaussian đưa qua GLIDE Model để tạo hình ảnh Sau đó, hình ảnh đưa vào mạng neural khác, gọi PRIOR, để kiểm tra xem chúng có phù hợp với mô tả văn ban đầu hay không Tiếp theo, DALLE sử dụng kỹ thuật beam search để tạo hình ảnh từ mẫu hình ảnh tạo Trong trình này, DALL-E tạo tìm kiếm Hình 2.19, nút đại diện cho bước trình tạo hình ảnh Kỹ chuyên nghiệp cho kỹ sư - CO2001 - Nhóm 5_L08 – HK222 25 Chương 2: Ứng dụng trí tuệ nhân tạo cho tính vẽ tranh theo mơ tả văn - mơ hình DALL-E Hình 19 Cây tìm kiếm "Beam Search Tree" Ngồi để cải thiện tính đa dạng hình ảnh tạo ra, hệ thống sử dụng kỹ thuật gọi "cải tiến nhiễu" (noise conditioning), lượng nhỏ nhiễu thêm vào vector ngữ nghĩa trước đưa vào mơ hình GLIDE Hình 20 thể kỹ thuật giúp tạo hình ảnh có tính đa dạng đồng thời giúp hệ thống khắc phục vấn đề việc overfitting trình huấn luyện mơ hình Hình 20 Sự khác mô tả DALL-E tạo Sau hoàn thành bước trên, DALL-E trả tập hợp hình ảnh tạo từ mơ hình GLIDE PRIOR, tương ứng với câu văn đầu vào Tuy Kỹ chuyên nghiệp cho kỹ sư - CO2001 - Nhóm 5_L08 – HK222 26 Chương 2: Ứng dụng trí tuệ nhân tạo cho tính vẽ tranh theo mô tả văn - mô hình DALL-E nhiên, để đảm bảo hình ảnh đáp ứng yêu cầu người dùng, cần phải thực số bước tiền xử lý sau xử lý Bước tiền xử lý bao gồm việc xóa bỏ hình ảnh khơng đáp ứng u cầu người dùng, chẳng hạn hình ảnh bị mờ khơng rõ ràng Sau đó, hình ảnh lại xếp theo mức độ độc đáo thẩm mỹ để đảm bảo người dùng lựa chọn hình ảnh tốt Bước sau sau xử lý, hình ảnh chuyển đổi sang định dạng hiển thị thiết bị khác nhau, máy tính, điện thoại di động máy tính bảng Ngồi ra, hình ảnh chỉnh sửa tinh chỉnh công cụ đồ họa để đáp ứng nhu cầu cụ thể người dùng Cuối cùng, kết trả cho người dùng định dạng khác nhau, chẳng hạn tệp ảnh video, để người dùng sử dụng chia sẻ theo cách tốt cho mục đích mình, minh họa Hình 21 Hình 21 Ảnh thật tranh tạo từ mô tả ngôn ngữ tự nhiên Tóm lại, phần cung cấp nhìn tổng quan trình kết hợp thành phần hệ thống để tạo hình ảnh từ mơ tả văn ban đầu Q trình kết hợp sử dụng mơ hình neural network tiên tiến để liên kết ngữ nghĩa văn hình ảnh, tạo hình ảnh chân thực đa dạng, đáp ứng yêu cầu màu sắc, hình dáng kích thước để phù hợp với mơ tả ban đầu Kỹ chuyên nghiệp cho kỹ sư - CO2001 - Nhóm 5_L08 – HK222 27 TỔNG KẾT Bài báo cáo tập trung vào việc giải thích chi tiết cách thức hoạt động mơ hình tạo hình ảnh từ liệu văn DALL-E Chúng ta phân tích thành phần DALL-E cách chúng tương tác với để tạo hình ảnh DALL-E tạo hình ảnh quang học cách hợp lý mặt ngữ nghĩa với mô tả văn bản, tạo hình ảnh mang phong cách nghệ thuật cụ thể, đồng thời tạo biến thể khác hình thể theo nhiều cách khác sửa đổi hình ảnh có sẵn Mặc dù có nhiều thảo luận DALL-E tầm quan trọng Deep Learning nói riêng giới nói chung, chúng tơi tập trung đến điểm từ phát triển DALL-E Điểm đầu tiên, DALL-E thể sức mạnh Mơ hình khuếch tán Deep Learning, mơ hình prior mơ hình tạo hình ảnh DALL-E dựa khuếch tán Mặc dù sử dụng phổ biến vài năm qua, Mơ hình Khuếch tán chứng minh giá trị chúng nghiên cứu Deep Learning Điểm thứ hai, nhu cầu lợi ích việc sử dụng ngơn ngữ tự nhiên phương tiện để đào tạo mô hình Deep Learning tiên tiến Việc sử dụng liệu không loại bỏ nút thắt phát triển liên quan đến trình đánh dấu thủ công liệu tốn nhiều công sức, bên cạnh chất phức tạp, khơng kiểm soát liệu phản ánh tốt giới thực mà mơ hình Deep Learning phải nghiên cứu Điểm thứ ba, DALL-E tái khẳng định vị trí Transformers ưu việt mơ hình đào tạo liệu quy mơ website nhờ khả song song hóa ấn tượng Tổng kết lại nghiên cứu tập trung vào mơ hình sử dụng bên DALL-E 2, từ tạo hình ảnh thú vị đến việc giải vấn đề mơ hình dịch thuật Từ nghiên cứu trên, thấy mơ hình DALL-E tiềm nỗ lực nghiên cứu, phát triển tổ chức OpenAI mở cách mạng lĩnh vực AI Chúng mong muốn tiếp tục viết nhiều báo phân tích mơ hình OpenAI, cụ thể Chat GPT bùng nổ năm 2022, để mang đến nhìn mẻ học thuật tương lai Kỹ chuyên nghiệp cho kỹ sư - CO2001 - Nhóm 5_L08 – HK222 28 TÀI LIỆU THAM KHẢO [1] Jascha Sohl-Dickstein, Eric A Weiss, Niru Maheswaranathan, Surya Ganguli, Deep Unsupervised Learning using Nonequilibrium Thermodynamics, chỉnh sửa lần cuối ngày 18/11/2015 [2] Yang Song, Stefano Ermon, Generative Modeling by Estimating Gradients of the Data Distribution, chỉnh sửa lần cuối ngày 10/10/2020 [3] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, Mark Chen, Hierarchical Text-Conditional Image Generation with CLIP Latents, chỉnh sửa lần cuối ngày 13/04/2022 [4] Prafulla Dhariwal, Alex Nichol, Diffusion Models Beat GANs on Image Synthesis, chỉnh sửa lần cuối ngày 01/01/2021 [5] Jonathan Ho, Ajay Jain, Pieter Abbeel, Denoising Diffusion Probabilistic Models, chỉnh sửa lần cuối ngày 16/12/2020 [6] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askel, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever, Learning Transferable Visual Models from Natural Language Supervision, chỉnh sửa lần cuối ngày 26/02/2021 [7] Alex Nichol, Prafulla Dhariwal, Aditya Ramesh, Pranav Shyam, Pamela Mishkin, Bob McGrew, Ilya Sutskever, Mark Chen, GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models, chỉnh sửa lần cuối ngày 18/11/2015 [8] Ian Spektor, Blog: From DALL·E to Stable Diffusion: how text-to-image generation models work?chỉnh sửa lần cuối ngày 31/08/2022 [9] Matt Payne, What is Beam Search? Explaining The Beam Search Algorithm, chỉnh sửa lần cuối ngày 29/09/2021 Kỹ chuyên nghiệp cho kỹ sư - CO2001 - Nhóm 5_L08 – HK222 29 BẢNG TIẾN ĐỘ Kỹ chuyên nghiệp cho kỹ sư - CO2001 - Nhóm 5_L08 – HK222 30 THỐNG KÊ TÀI CHÍNH Kỹ chuyên nghiệp cho kỹ sư - CO2001 - Nhóm 5_L08 – HK222 31

Ngày đăng: 14/05/2023, 06:29

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w