Optimizing Mobile-Edge Ai-Generated Everything (Aigx) Services By Prompt Engineering Fundamental, Framework, And Case Study.pdf

11 0 0
Tài liệu đã được kiểm tra trùng lặp
Optimizing Mobile-Edge Ai-Generated Everything (Aigx) Services By Prompt Engineering Fundamental, Framework, And Case Study.pdf

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

KHOA HỌC DỊCH VỤ

Học kỳ I - Năm học: 2023-2024 Giảng viên: PGS TS Hà Quang Thụy

BÁO CÁO TIỂU LUẬN CUỐI KỲOptimizing Mobile-Edge AI-Generated Everything(AIGX) Services by Prompt Engineering: Fundamental,

Framework, and Case Study

Thực hiện: Nhóm 5

Nguyễn Phạm Tú Anh Phạm Đức Long Nguyễn An Minh

Trang 3

Bảng thuật ngữ

FPM Pretrained Foundation Model Mô hình nền được huấn luyện trước

Trang 4

1 Đặt vấn đề

AIGC, hay Trí tuệ Nhân tạo Tạo sinh Nội dung, đã đánh dấu một bước quan trọng trong lĩnh vực sáng tạo nội dung Nó đã thành công trong việc tạo ra nội dung tự động thông qua GAI (Trí tuệ Nhân tạo Tạo sinh) dựa trên yêu cầu của người dùng Tính đến hiện tại, sự tiến triển của AIGC được thấy rõ qua sức mạnh ngày càng gia tăng của GAI, đặc biệt là sự xuất hiện của các Mô hình Nền Móng Huấn luyện sẵn (PFMs) với hàng tỉ tham số và phương thức thiết kế prompt.

Tuy nhiên, để đáp ứng nhu cầu ngày càng cao và đa dạng của con người, hệ thống, và mạng lưới, chúng ta cần đến một bước tiến mới, đó là AIGX, hay Trí tuệ Nhân tạo Tạo sinh Mọi Thứ AIGX không chỉ là sự tiếp nối của AIGC mà còn mang lại những cải tiến đáng kể Điều quan trọng là AIGX không chỉ là một bước tiến về quy mô, mà còn mang lại khả năng linh hoạt và đa dạng hóa trong ứng dụng AIGX có khả năng đáp ứng nhanh chóng với các yêu cầu phức tạp và đa dạng, từ thiết kế mạng đến mã hóa kênh

Bằng cách này, AIGX không chỉ là sự mở rộng tự nhiên từ AIGC mà còn là bước tiến quan trọng hướng tới sự linh hoạt và hiệu suất cao hơn trong tạo sinh nội dung bằng trí tuệ nhân tạo

Bố cục bài báo cáo: - Chương I: đặt vấn đề

- Chương II: giới thiệu bài báo và tác giả - Chương III: phân tích nội dung bài báo - Chương IV: triển khai thực nghiệm - Chương V: bản dịch bài báo - Chương VI: kết luận

2 Giới thiệu bài báo và tác giả 2.1 Giới thiệu bài báo

Bài báo trình bày khái niệm về mọi thứ sinh bởi trí tuệ nhân tạo (AIGX) ở biên di động Cụ thể, bài báo xem xét các thành phần xây dựng nên AIGX, quá trình phát triển từ AIGC sang AIGX, cũng như các ứng dụng của AIGX vào thực tế Sau đó, bài báo trình bày một khung kiến trúc AIGX di động thống nhất, sử dụng các thiết bị biên để cung cấp các dịch vụ AIGX được hỗ trợ bởi PFM và tối ưu hóa các dịch vụ đó thông qua kỹ thuật tinh chỉnh yêu cầu Quan trọng hơn, bài báo chứng minh rằng các yêu cầu kém chất lượng sẽ dẫn đến chất lượng sinh giảm sút, ảnh hưởng xấu đến trải nghiệm người dùng, hiệu suất sử dụng mạng và tài nguyên Theo đó, bài báo cũng tiến hành một nghiên cứu, thể hiện cách huấn luyện một trình tối ưu hóa yêu cầu một cách hiệu quả sử dụng ChatGPT và xem xét mức độ cải thiện có thể đạt được với tinh chỉnh

Trang 5

yêu cầu về các phương diện như trải nghiệm người dùng, chất lượng sinh, và hiệu suất mạng.

Bài báo xuất bản vào 3/9/2023, được tham chiếu bởi 1 bài báo khác và có tham chiếu tới 5 bài báo khác trong bài.

2.2 Giới thiệu về tác giả

Yinqiu Liu, Hongyang Du, Dusit Niyato, Jiawen Kang, Shuguang Cui, Xuemin Shen, Ping Zhang – 7 tác giả.

Các tác giả chính:

Yinqiu Liu:

● DBLP: 9 bài báo tạp chí và 5 bài báo hội nghị

● Scopus: 11 bài báo công bố, 302 tham chiếu, h-index là 4

● Google Scholar: (toàn bộ = 5 năm gần nhất): 426 tham chiếu, h-index là 8 và i10-index là 6

Hongyang Du:

● DBLP: 23 bài báo tạp chí và 11 bài báo hội nghị ● Scopus: 46 bài báo công bố, 373 tham chiếu, h-index là 12 ● Google Scholar:

o Toàn bộ: 1065 tham chiếu, h-index là 21 và i10-index là 31 o 5 năm: 1064 tham chiếu, h-index là 21 và i10-index là 31

Ping Zhang:

● DBLP: 244 bài báo tạp chí và 258 bài báo hội nghị

● Scopus: 1002 tài liệu công bố, 9325 tham chiếu, h-index là 42

3 Phân tích nội dung bài báo 3.1 Cấu trúc bài báo

Bài báo gồm 6 phần :

- Giới thiệu về AIGC, AIGX và các rào cản khi chuyển từ AIGC sang AIGX - AIGX: các thành phần, cơ bản và ứng dụng

- Tối ưu hóa AIGX biên di động bằng thiết kế prompts

- Nghiên cứu trường hợp: Thiết kế nội thất dùng VR hiệu quả tài nguyên bằng thiết kế prompts

- Phương hướng tương lai - Kết luận

Trang 6

3.2 Đóng góp chính

Những đóng góp chính của nhóm tác giả trong bài báo này gồm:

- Đề xuất khái niệm và khung Mobile-Edge AI-Generated Everything (AIGX), mở rộng khái niệm AIGC và đưa ra các ứng dụng thực tế của AIGX Điều này mở ra tiềm năng sử dụng AI-Generated Everything trong nhiều lĩnh vực thông qua các dịch vụ AIGX trên di động Giới thiệu khung mobile-edge AIGX, sử dụng edge devices để cung cấp dịch vụ AIGX và tối ưu hóa thông qua Prompt Engineering - Bài báo đề xuất sử dụng Prompt Engineering để cải thiện chất lượng đầu ra, sự hài

lòng của người dùng, hiệu suất mạng và tận dụng tài nguyên một cách tối ưu - Bài báo cũng trình bày một Case Study về việc huấn luyện một bộ tối ưu hóa

prompt và khảo sát hiệu quả của Prompt Engineering Bài báo minh họa rằng việc sử dụng Prompt Engineering đúng cách có thể cải thiện trải nghiệm người dùng, chất lượng sinh ra và hiệu suất mạng.

⟹ Đóng góp của bài báo này giúp thúc đẩy sự phát triển và ứng dụng của AI-Generated Everything trên nền tảng di động, đồng thời nhấn mạnh vai trò quan trọng của prompt engineering trong tối ưu hóa dịch vụ AIGX để đạt được kết quả tốt nhất cho người dùng và mạng.

3.3 Phương pháp

Nhóm tác giả đề xuất một framework AIGX biên di động gồm 3 lớp như hình sau:

Kiến trúc hệ thống:

- Mobile-Edge-Cloud: Kiến trúc tương tự như NetGPT, áp dụng kiến trúc đám mây

biên di động có thể tận dụng tối đa tài nguyên đám mây và di động, chứng minh rằng AIGX có thể triển khai khắp nơi và có thể mở rộng.

- AIGX Service Providers (ASPs): còn gọi là Edge layer, các máy chủ có đủ tài

nguyên có thể đóng vai trò là ASPs, vận hành các mô hình AIGX và cung cấp dịch vụ cho người dùng ở Mobile layer

Trang 7

- Cloud Computing: Cloud layer hỗ trợ Edge layer, nó có thể vận hành các PFM

cực lớn(GPT-4, DALLE-3 ) và cung cấp dịch vụ lưu trữ,

- Prompt Engineering Service Providers (PESPs): Các PESPs có thể chạy ở các

tầng Edge layer hoặc Cloud layer, vận hành các kỹ thuật Prompt Engineering khác nhau và giúp người dùng ở Mobile layer tối ưu hóa các lời nhắc thô (raw prompts)

Để sử dụng hệ thống một cách hiệu quả, nhóm tác giả đề xuất một luồng làm việc của người dùng như sau:

- Service Configuration: Mobile users nên chọn ASPs phù hợp cho từng mục đích.- Prompt Engineering Configuration: Mobile user chọn PESPs phù hợp để có thể

tối ưu hóa dạng prompts nhất định.

- Optimization Formulation: Tối ưu hóa các dịch vụ AIGX Có thể xem xét các

chỉ số như QoG, KPIs, QoE, với mỗi một nhiệm vụ AIGX cụ thể, các chỉ số có thể xác định theo nhiều cách khác nhau.

- Inference & Iterative Refinement: Khi Mobile user gọi các ASPs, họ có thể cải

thiện QoE bằng cách điều chỉnh PESPs Ex: trong bước 4, qua mỗi vòng, người dùng sẽ quyết định có nên gọi PESPs hay không và đo lường QoG Nếu giá trị thỏa mãn yêu cầu thì sẽ vào vòng tiếp theo, còn không thì họ sẽ yêu cầu ASP tạo

- Để làm như vậy, trước tiên, nhà thiết kế tạo ra các bản vẽ 2D, sau đó sử dụng công cụ tạo môi trường VR

- Ở trong thực nghiệm này, chúng em sẽ tạo bản thiết kế nội thất cho nhà bếp

Mô hình hệ thống:

- Sử dụng hệ thống ASPs (Stable Diffusion(DALLE-2) để tạo ảnh(text-to-image))

- Sử dụng Prompt Engineering Service Providers(PESPs) triển khai dựa trên ChatGPT tạo prompt đầu vào cho DALLE-2

Đầu vào: lời nhắc thô (raw prompt) có dạng A[x], with [y], trong đó x là tên không

gian nội thất(kitchen) và y là một vật dụng trong không gian đó(cooking machines) Ví dụ: A Kitchen, with cooking machines.

Đầu ra: các mẫu hình ảnh 2D về thiết kế của nhà bếp

Trang 8

4.2 Tiến hành thực nghiệm

Khi đưa lời nhắc thô gửi tới ChatGPT, câu trả lời mang lại không có nhiều ý nghĩa với những mục tiêu mà ta hướng tới.

Tác giả đã thiết kế một Prompting process để có thể giúp cho ChatGPT hiểu được chúng ta cần gì và mang lại câu trả lời đúng với kỳ vọng Gồm 5 bước sau:

Bước 1: Tạo cho ChatGPT một vai trò như một người có kỹ năng viết văn chuyên

nghiệp và yêu cầu làm theo các chỉ dẫn tiếp theo

Bước 2: Tiếp theo đó sẽ yêu cầu chatbot tạo một “image prompt” với giới hạn là 1500

từ làm đầu vào cho trình tạo ảnh từ văn bản MidJourney và mô tả về căn phòng một cách chi tiết, sử dụng từ vựng phong phú, ngôn từ mô tả hình ảnh, cảnh quan và ánh sáng một cách cụ thể.

Bước 3: Sau mô tả, dạy cho ChatGPT một số kỹ thuật thêm vào cuối prompt một số từ

khóa để nâng cao chất lượng ảnh như: độ phân giải 2K, chi tiết tinh tế, khử răng cưa

Bước 4: Tiếp theo là thêm vào cuối prompt một số từ khóa tiêu cực như: mờ mịt, sai

lệch, thiếu chi tiết để tránh các kết quả không mong muốn.

Bước 5: Cuối cùng, sẽ mô tả chi tiết hơn về khái niệm, bối cảnh và ánh sáng theo yêu

cầu của người dùng để tạo ra một prompt tưởng tượng chi tiết hơn.

Trang 9

Dựa theo những chỉ dẫn của nhóm tác giả, chúng em sử dụng Prompt Engineering gồm 5 bước, theo 6 khía cạnh như bảng sau:

TênSự miêu tả

The objects &Relationship

Các chi tiết của vật thể( chất liệu, hình dạng, kết cấu) và mối quan hệ vị trí của vật thể)

Background setting Chi tiết của [x]

Mood Cảm xúc mà người sáng tạo muốn truyền tải, ảnh hưởng tới tông màu của hình ảnh

Lighting Nguồn ánh sáng và tác dụng của ánh sáng chiếu vào vật thể

Quality booster Tính từ hướng dẫn suy luận nhằm tạo ra hình ảnh chất lượng cao

Negative prompt Tránh tạo ra ảnh chất lượng thấp

Lúc này, ChatGPT đã trả về kết quả đúng với những những gì chúng ta cần

Trang 10

Sau đó, từ prompt image, chúng em sử dụng trình tạo ảnh từ văn bản để tạo ra hình ảnh phòng bếp với các yếu tố khác nhau.

Trang 11

5 Bản dịch bài báo6 Kết luận

Ngày đăng: 04/05/2024, 12:44

Tài liệu cùng người dùng

Tài liệu liên quan