Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 20 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
20
Dung lượng
4,11 MB
Nội dung
Đại Học Quốc Tế Sài Gòn - 2023 ĐỒ ÁN MƠN HỌC PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC Ngành Cơng nghệ thông tin Đề tài MidJourney - công nghệ AI vẽ tranh tự động Giảng viên Huỳnh Ngọc Tín Trình bày Huỳnh Tiến Đạt Đại Học Quốc Tế Sài Gòn - 2023 Mục lục I/ Phát biểu đề tài: .4 Bài toán: Lý chọn đề tài: Khó khăn, thách thức: II/ Nghiên Cứu Liên Quan: DALL-E 2: Stable Diffusion: .7 Bảng tóm tắt: .9 III/ Phương pháp đề xuất: 10 Tổng quan đề tài: 10 Cách thức hoạt động: 10 IV/ Thực nghiệm: 13 Tiến hành thực nghiệm: 13 Nhận định, bàn luận: .15 TÀI LIỆU THAM KHẢO .16 Đại Học Quốc Tế Sài Gòn - 2023 Mục lục hình ản Hình 1: Chuyển đổi từ prompt thành hình ảnh Hình 2: Sử dụng DALL – E Hình 3: Sử dụng Stable Diffusion Hình 4: Mơ tả sơ hình ảnh Mid Journey 10 Hình 5: Hình ảnh máy chủ Midjourney Discord 12 Hình 6: Hình ảnh kênh chat newbie free .13 Hình 7: Sử dụng Midjourney .13 Hình 8: Kết Midjourney 14 Đại Học Quốc Tế Sài Gòn - 2023 I/ Phát biểu đề tài: Bài toán: - Hiện nay, tranh ảnh thứ phổ biến xã hội, nhiên khơng phải tạo tranh, hình ảnh Nhiều người có ý tưởng sáng tạo lại khơng có kỹ hội họa, thiết kế nên vẽ tranh theo ý mình, họa sĩ thiếu ý tưởng để vẽ chủ đề định Cộng cụ “đuổi hình bắt chữ” với cơng nghệ AI giải pháp để giải vấn đề - MidJourney hệ thống AI hỗ trợ tạo hình ảnh từ nội dung văn người dùng Tất bạn cần làm nhập vài từ công cụ cung cấp cho bạn hình ảnh gốc AI machine learning - Nói đơn giản hơn, input nhập vào tập hợp ký tự cách dấu phẩy, gọi prompt, ví dụ “a beautiful girl, brown eye, black hair” output xuất hình ảnh theo prompt cho Đại Học Quốc Tế Sài Gòn - 2023 Hình 1: Chuyển đổi từ prompt thành hình ảnh Đại Học Quốc Tế Sài Gòn - 2023 Lý chọn đề tài: - Trong thời đại nay, AI cơng nghệ tương lai đầy triển vọng, nói có ứng dụng mạnh mẽ vượt qua giới hạn loài người Gần đây, vẽ tranh MidJourney, ứng dụng AI, đình đám với khả "vẽ" tranh siêu đẹp dựa câu lệnh đơn giản - Nhờ tiện ích ý tưởng vẽ hồn thiện, Mid Journey có lượng nhu cầu lớn gần đây, việc tìm hiểu điều cần thiết - Mid Journey đóng góp lượng lớn tranh ảnh cho mạng xã hội thời gian ngắn - Với ứng dụng vào tranh ảnh, ta tìm hiểu hội việc làm ngành thiết kế, sáng tạo content, … ngành sử dụng nhiều hình ảnh Khó khăn, thách thức: - Khơng giống não người linh hoạt, máy tính thường bị gị bó nhiều quy luật liệu đầu vào - Khả hiểu sai: Ứng dụng AI khơng hiểu rõ ý tưởng người dùng sản xuất hình ảnh khơng phù hợp khơng xác - Sự phụ thuộc vào liệu đào tạo: Ứng dụng AI hoạt động tốt có đủ liệu để đào tạo, khơng có đủ liệu đào tạo kết sản xuất không tốt Cần cải thiện thêm database Mid Journey để đưa kết đa dạng - Trong q trình tìm hiểu Mid Journey, chưa có nhiều tài liệu tham khảo công cụ Tiếng Việt hầu hết hướng dẫn sử dụng, cần vào trang docs MJ để đọc dịch để tìm hiểu thêm Đại Học Quốc Tế Sài Gịn - 2023 II/ Nghiên Cứu Liên Quan: Hiện có nhiều ứng dụng sử dụng công nghệ “prompt to image”, có ứng dụng tiêu biểu hay so sánh với Mid Journey DALL-E 2: - Ưu điểm DALL-E 2: Tính sáng tạo: có khả tạo hình ảnh phức tạp đa dạng, từ vật thể đơn giản đến cảnh phức tạp chi tiết cao Tính đa dạng: tạo hình ảnh với nhiều phong cách định dạng khác nhau, từ vẽ đơn giản đến ảnh có độ phân giải cao Tính linh hoạt: tương thích với nhiều ngơn ngữ khác nhau, giúp cho người dùng nhập prompt nhiều ngơn ngữ khác Tính đáng tin cậy: có độ xác cao việc tạo hình ảnh dựa prompt đầu vào - Nhược điểm DALL-E 2: Thời gian xử lí: cần thời gian xử lý lâu để tạo hình ảnh, đặc biệt tạo hình ảnh phức tạp Phụ thuộc vào liệu đào tạo: phụ thuộc vào liệu đào tạo, liệu đào tạo không đủ đa dạng không đại diện cho loại hình ảnh cụ thể kết khơng tốt Đại Học Quốc Tế Sài Gịn - 2023 Hạn chế với vấn đề mới: gặp khó khăn việc tạo hình ảnh cho vấn đề mà chưa đào tạo chưa gặp phải trước Vấn đề đạo đức: tạo hình ảnh có tính chất đạo đức, gây tranh cãi khơng thích hợp với số người Tóm lại, DALL-E công nghệ tiên tiến đầy tiềm năng, cần phải đối mặt với số nhược điểm thách thức để hoàn thiện áp dụng rộng rãi thực tế Hình 2: Sử dụng DALL – E Đại Học Quốc Tế Sài Gòn - 2023 Stable Diffusion: - Ưu điểm Stable Diffusion: Stable Diffusion không bị giới hạn đám mây — bạn chạy cục Bằng cách làm theo bước cài đặt, bạn chạy Stable Diffusion máy tính để bàn laptop (miễn có 4GB VRAM) Ngồi cịn có loạt dịch vụ đám mây cung cấp cho bạn khả sử dụng Stable Diffusion mà không cần tự cài đặt, chúng không thiết phải liên kết với nhà phát triển Stable Diffusion cung cấp nhiều tùy chọn tùy chỉnh hình ảnh chun sâu Bạn điều chỉnh kích thước hình ảnh xuống pixel riêng lẻ, định mức độ nghiêm ngặt AI việc tuân theo lời nhắc bạn, giá trị hạt giống, lấy mẫu sử dụng để cung cấp cho cơng cụ AI có hàng nghìn mơ hình nghệ thuật để lựa chọn, trợ giúp để tạo phong cách nghệ thuật khác dựa lời nhắc bạn Stable Diffusion cung cấp tính inpainting outpainting, lấp đầy khoảng trống hình ảnh để khắc phục hư hỏng hao mòn tuổi tác mở rộng hình ảnh ngồi đường viền ban đầu - Nhược điểm Stable Diffusion: Khó tiếp cận: Stable Diffusion cần chạy cục cách cài đặt máy sử dụng dịch vụ đám mây (ví dụ Google Colab) Cần nhiều nhớ: Tuy nhiên có hạn chế lớn cần tới GB VRAM 10 Đại Học Quốc Tế Sài Gòn - 2023 Phụ thuộc vào liệu đào tạo: Stable Diffusion phụ thuộc vào liệu đào tạo, liệu đào tạo không đủ đa dạng khơng đại diện cho loại hình ảnh cụ thể kết khơng tốt Tóm lại, Stable Diffusion đưa kết tốt Tuy nhiên, điểm khiến ứng dụng chưa phổ biến việc khó tiếp cận phải cài đặt chạy đám mây Hình 3: Sử dụng Stable Diffusion 11 Đại Học Quốc Tế Sài Gòn - 2023 Bảng tóm tắt: DALL-E Ưu điểm Stable Diffusion Ưu điểm DALL-E tính Ưu điểm Stable Diffusion sáng tạo Nó có khả tạo tính linh hoạt đa dạng hình ảnh phức tạp đa Nó chạy cục dạng, từ vật thể đơn giản máy tính sử dụng dịch vụ đến cảnh phức tạp chi đám mây, cung cấp nhiều tùy tiết cao Điều giúp chọn tùy chỉnh hình ảnh tạo hình ảnh độc đáo chuyên sâu tính mẻ, đáp ứng nhu cầu inpainting outpainting người dùng Nhược điểm DALL-E thời Nhược điểm Stable gian xử lí Cơng cụ cần Diffusion sinh từ ưu thời gian xử lý lâu để tạo điểm khó tiếp cận hình ảnh, đặc biệt tạo cần nhiều nhớ Nó cần Nhược hình ảnh phức tạp Điều điểm cài đặt máy tính sử làm giảm hiệu tốc dụng dịch vụ đám mây, cần độ cơng cụ, gây khó khăn tới 4GB VRAM Ngồi ra, cho người dùng việc sử phụ thuộc vào liệu dụng đào tạo để đạt kết tốt 12 Đại Học Quốc Tế Sài Gòn - 2023 III/ Phương pháp đề xuất: Tổng quan đề tài: Từ yêu cầu tốn, sau tìm hiểu giải pháp có ta có DALL – E coi “người đầu” hình ảnh chưa chau chuốt đàn em Stable Diffusion coi ứng dụng đem lại chất lượng ảnh tốt nay, nhiên lại có nhược điểm khó tiếp cận Mid Journey xuất thị trường giải vấn đề cốt lõi Text to Image hạn chế ứng dụng có sẵn thị trường DALL – E, Stable Diffusion Mid Journey đưa hình ảnh giống miêu tả prompt, chất lượng ảnh nằm mức cao, lại thân thiện với người dùng, dễ sử dụng Cách thức hoạt động: Quy trình “đuổi hình bắt chữ” diễn nào? Trong việc tạo tác phẩm nghệ thuật trí tuệ nhân tạo, công việc quan trọng đuổi chữ bắt hình Điều yêu cầu hệ thống AI phân tích từ ngữ nhập vào, so sánh với sở liệu tạo sản phẩm có ý nghĩa với người dùng Cơng cụ MidJourney ví dụ cơng cụ tích hợp trí tuệ nhân tạo có khả 13 Đại Học Quốc Tế Sài Gòn - 2023 Để tạo tác phẩm nghệ thuật, hệ thống AI dùng từ khóa mơ tả khái niệm định, chẳng hạn phong cách nghệ thuật, tên nghệ sĩ, chất phim, ngày tháng, giai đoạn lịch sử nhiều thứ khác Dựa yêu cầu đầu vào, AI cho kết có nghĩa với nhận thức người Để tạo tác phẩm, hệ thống AI sử dụng sở liệu để tạo hình ảnh khơng gian tiềm tàng, nơi mà máy tính thực suy luận toán học dựa liệu vốn có Tuy nhiên, máy tính khơng hiểu ba màu đỏ, xanh xanh dương hợp thể chúng Thay vào đó, trí tuệ nhân tạo nhìn ảnh theo pixel (điểm ảnh), đọc số hiển thị màu dự đoán cách xếp pixel khớp với từ khóa mơ tả Máy tính phải phân biệt màu sắc để tìm kết xác Để làm điều này, đo đạc lượng màu xuất hình ảnh sử dụng thuật tốn phân tích liệu để tìm màu sắc phù hợp với hình ảnh yêu cầu 14 Đại Học Quốc Tế Sài Gòn - 2023 Tuy nhiên, việc sử dụng trí tuệ nhân tạo để tạo tác phẩm nghệ thuật gặp phải nhiều thách thức Một thách thức phải đảm bảo tính độc đáo tác phẩm, tránh việc chép tác phẩm người khác Một số nghệ sĩ cho sáng tạo cảm xúc người thay trí tuệ nhân tạo Tuy nhiên, trí tuệ nhân tạo tiếp tục sử dụng để tạo tác phẩm nghệ thuật độc đáo Hình 4: Mơ tả sơ hình ảnh Mid Journey 15 Đại Học Quốc Tế Sài Gòn - 2023 Độ phức tạp vấn đề tăng lên, xuất liệu mô tả miếng chuối ngày trịn bóng bay với nhiều hình dáng Vấn đề u cầu máy tính tìm thêm đại lượng khác để phân biệt vật thể, khả phản chiếu ánh sáng để phân biệt chuối với bóng bay, đồng thời tạo thêm khơng gian ba chiều (với ba trục đại lượng độ tròn, độ vàng độ bóng) để phân biệt vật thể ngày phức tạp Và máy phải làm công tác phân biệt vật mà ta biết, với đại lượng mà vật thể sở hữu, tận dụng tối đa tự khơng gian tiềm tàng mình, tìm thêm đại lượng - phát sinh thêm chiều để tiếp tục phân biệt vật thể Từ không gian tiềm tàng, tác phẩm định hình: Trong việc sử dụng trí tuệ nhân tạo để tạo tác phẩm nghệ thuật, công việc quan trọng tạo hình ảnh từ khái niệm nhập vào Các khái niệm định nghĩa không gian đa chiều, từ khóa đưa người dùng tới khoảng khái niệm Khi có nhiều từ khóa nhập vào, khoảng giao điểm, máy tạo hình ảnh từ điểm Quá trình tạo hình ảnh gọi "khuếch tán", đại lượng điểm ảnh xếp không gian để tạo kết người hiểu Kết có tính độc đáo phụ thuộc vào sở liệu phép màu sử dụng Điều có nghĩa là, áp dụng từ khóa vào hệ thống tạo tranh khác nhau, kết 16 Đại Học Quốc Tế Sài Gòn - 2023 tạo khác khác biệt khơng gian tiềm tàng hệ thống Tuy nhiên, q trình tạo tranh trí tuệ nhân tạo gặp nhiều thách thức, bao gồm đảm bảo tính độc đáo sáng tạo tác phẩm để tránh chép Một số người cho sáng tạo cảm xúc người thay trí tuệ nhân tạo Tuy nhiên, trí tuệ nhân tạo sử dụng để tạo tác phẩm nghệ thuật độc đáo IV/ Thực nghiệm: Tiến hành thực nghiệm: - Các bước sử dụng Mid Journey: o Bước 1: Tải sử dụng Discord website discord.com o Bước 2: Vào trang chủ Mid Journey tham gia vào lời mời kênh Mid Journey Hình 5: Hình ảnh máy chủ Midjourney Discord 17 Đại Học Quốc Tế Sài Gòn - 2023 o Bước 3: Vào room newbie để trải nghiệm miễn phí Mid Journey Hình 6: Hình ảnh kênh chat newbie free o Bước 4: Sử dụng lệnh /imagine + prompt (từ cần miêu tả) để tạo ảnh, chờ bot reply tin nhắn lệnh Hình 7: Sử dụng Midjourney 18 Đại Học Quốc Tế Sài Gòn - 2023 - Kết nhận được: Sau chờ từ 10 -15s, ta nhận kết từ Midjourney 19 Đại Học Quốc Tế Sài Gòn - 2023 Hình 8: Kết Midjourney Nhận định, bàn luận: - Kết MidJourney trả lại ấn tượng, prompt (từ mơ tả) đủ chi tiết, hình ảnh đưa mang chất lượng cao không xa chủ đề ban đầu đưa - Hình ảnh trả lại với thời gian ngắn, khoảng 10 – 15 giây, phù hợp với ngành sáng tạo, tiết kiệm thời gian, khoảng buổi đưa râ ảnh ưng ý với yêu cầu ban đầu đưa mà không cần nhiều thời gian lên ý tưởng - Có thể tăng thêm chất lượng ảnh tùy chọn kèm lệnh để phù hợp chuyên sâu, muốn đầu chau chuốt, tham khảo trang docs MidJourney để tìm hiểu thêm https://docs.midjourney.com/docs/parameterlist TÀI LIỆU THAM KHẢO [1] Kyr Doo-Huyn, “Thử làm họa sĩ với AI vẽ tranh MidJourney”, https://quantrimang.com/cong-nghe/thu-lam-hoa-si-voi-ai-ve-tranh-midjourney-192497 [2] Andrew, “Midjourney vs Stable Diffusion: Which one should you pick?”, https://stable-diffusion-art.com/midjourney-vs-stable-diffusion/#Easy_to_Get_Started [3] Jon Martindale, “How you access Stable Diffusion and Midjourney?”, https://www.digitaltrends.com/computing/stable-diffusion-vs-midjourney/ [4] Mid Journey, “Midjourney Parameter List”, https://docs.midjourney.com/docs/parameter-list 20