AIGX có khả năng đáp ứng nhanh chóng với các yêu cầu phức tạp và đa dạng, từ thiết kế mạng đến mã hóa kênh Bằng cách này, AIGX không chỉ là sự mở rộng tự nhiên từ AIGC mà còn là bước tiế
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
KHOA HỌC DỊCH VỤ
Học kỳ I - Năm học: 2023-2024 Giảng viên: PGS TS Hà Quang Thụy
BÁO CÁO TIỂU LUẬN CUỐI KỲ
Optimizing Mobile-Edge AI-Generated Everything (AIGX) Services by Prompt Engineering: Fundamental,
Framework, and Case Study
Thực hiện: Nhóm 5
Nguyễn Phạm Tú Anh Phạm Đức Long Nguyễn An Minh
Trang 3Bảng thuật ngữ
AI
AIGX PESPs Prompt Engineering service
providers
Nhà cung cấp dịch vụ thiết kế prompts
FPM Pretrained Foundation Model Mô hình nền được huấn
luyện trước
Trang 41 Đặt vấn đề
AIGC, hay Trí tuệ Nhân tạo Tạo sinh Nội dung, đã đánh dấu một bước quan trọng trong lĩnh vực sáng tạo nội dung Nó đã thành công trong việc tạo ra nội dung tự động thông qua GAI (Trí tuệ Nhân tạo Tạo sinh) dựa trên yêu cầu của người dùng Tính đến hiện tại, sự tiến triển của AIGC được thấy rõ qua sức mạnh ngày càng gia tăng của GAI, đặc biệt là sự xuất hiện của các Mô hình Nền Móng Huấn luyện sẵn (PFMs) với hàng tỉ tham số và phương thức thiết kế prompt
Tuy nhiên, để đáp ứng nhu cầu ngày càng cao và đa dạng của con người, hệ thống, và mạng lưới, chúng ta cần đến một bước tiến mới, đó là AIGX, hay Trí tuệ Nhân tạo Tạo sinh Mọi Thứ AIGX không chỉ là sự tiếp nối của AIGC mà còn mang lại những cải tiến đáng kể Điều quan trọng là AIGX không chỉ là một bước tiến về quy mô, mà còn mang lại khả năng linh hoạt và đa dạng hóa trong ứng dụng AIGX có khả năng đáp ứng nhanh chóng với các yêu cầu phức tạp và đa dạng, từ thiết kế mạng đến mã hóa kênh
Bằng cách này, AIGX không chỉ là sự mở rộng tự nhiên từ AIGC mà còn là bước tiến quan trọng hướng tới sự linh hoạt và hiệu suất cao hơn trong tạo sinh nội dung bằng trí tuệ nhân tạo
Bố cục bài báo cáo:
- Chương I: đặt vấn đề
- Chương II: giới thiệu bài báo và tác giả
- Chương III: phân tích nội dung bài báo
- Chương IV: triển khai thực nghiệm
- Chương V: bản dịch bài báo
- Chương VI: kết luận
2 Giới thiệu bài báo và tác giả
2.1 Giới thiệu bài báo
Bài báo trình bày khái niệm về mọi thứ sinh bởi trí tuệ nhân tạo (AIGX) ở biên
di động Cụ thể, bài báo xem xét các thành phần xây dựng nên AIGX, quá trình phát triển từ AIGC sang AIGX, cũng như các ứng dụng của AIGX vào thực tế Sau đó, bài báo trình bày một khung kiến trúc AIGX di động thống nhất, sử dụng các thiết bị biên
để cung cấp các dịch vụ AIGX được hỗ trợ bởi PFM và tối ưu hóa các dịch vụ đó thông qua kỹ thuật tinh chỉnh yêu cầu Quan trọng hơn, bài báo chứng minh rằng các yêu cầu kém chất lượng sẽ dẫn đến chất lượng sinh giảm sút, ảnh hưởng xấu đến trải nghiệm người dùng, hiệu suất sử dụng mạng và tài nguyên Theo đó, bài báo cũng tiến hành một nghiên cứu, thể hiện cách huấn luyện một trình tối ưu hóa yêu cầu một cách hiệu quả sử dụng ChatGPT và xem xét mức độ cải thiện có thể đạt được với tinh chỉnh
Trang 5yêu cầu về các phương diện như trải nghiệm người dùng, chất lượng sinh, và hiệu suất mạng
Bài báo xuất bản vào 3/9/2023, được tham chiếu bởi 1 bài báo khác và có tham chiếu tới 5 bài báo khác trong bài
2.2 Giới thiệu về tác giả
Yinqiu Liu, Hongyang Du, Dusit Niyato, Jiawen Kang, Shuguang Cui, Xuemin Shen, Ping Zhang – 7 tác giả
Các tác giả chính:
Yinqiu Liu:
● DBLP: 9 bài báo tạp chí và 5 bài báo hội nghị
● Scopus: 11 bài báo công bố, 302 tham chiếu, h-index là 4
● Google Scholar: (toàn bộ = 5 năm gần nhất): 426 tham chiếu, h-index là 8
và i10-index là 6
Hongyang Du:
● DBLP: 23 bài báo tạp chí và 11 bài báo hội nghị
● Scopus: 46 bài báo công bố, 373 tham chiếu, h-index là 12
● Google Scholar:
o Toàn bộ: 1065 tham chiếu, h-index là 21 và i10-index là 31
o 5 năm: 1064 tham chiếu, h-index là 21 và i10-index là 31
Ping Zhang:
● DBLP: 244 bài báo tạp chí và 258 bài báo hội nghị
● Scopus: 1002 tài liệu công bố, 9325 tham chiếu, h-index là 42
3 Phân tích nội dung bài báo
3.1 Cấu trúc bài báo
Bài báo gồm 6 phần :
- Giới thiệu về AIGC, AIGX và các rào cản khi chuyển từ AIGC sang AIGX
- AIGX: các thành phần, cơ bản và ứng dụng
- Tối ưu hóa AIGX biên di động bằng thiết kế prompts
- Nghiên cứu trường hợp: Thiết kế nội thất dùng VR hiệu quả tài nguyên bằng thiết kế prompts
- Phương hướng tương lai
- Kết luận
Trang 63.2 Đóng góp chính
Những đóng góp chính của nhóm tác giả trong bài báo này gồm:
- Đề xuất khái niệm và khung Mobile-Edge AI-Generated Everything (AIGX), mở rộng khái niệm AIGC và đưa ra các ứng dụng thực tế của AIGX Điều này mở ra tiềm năng sử dụng AI-Generated Everything trong nhiều lĩnh vực thông qua các dịch vụ AIGX trên di động Giới thiệu khung mobile-edge AIGX, sử dụng edge devices để cung cấp dịch vụ AIGX và tối ưu hóa thông qua Prompt Engineering
- Bài báo đề xuất sử dụng Prompt Engineering để cải thiện chất lượng đầu ra, sự hài lòng của người dùng, hiệu suất mạng và tận dụng tài nguyên một cách tối ưu
- Bài báo cũng trình bày một Case Study về việc huấn luyện một bộ tối ưu hóa prompt và khảo sát hiệu quả của Prompt Engineering Bài báo minh họa rằng việc
sử dụng Prompt Engineering đúng cách có thể cải thiện trải nghiệm người dùng, chất lượng sinh ra và hiệu suất mạng
⟹ Đóng góp của bài báo này giúp thúc đẩy sự phát triển và ứng dụng của AI-Generated Everything trên nền tảng di động, đồng thời nhấn mạnh vai trò quan trọng của prompt engineering trong tối ưu hóa dịch vụ AIGX để đạt được kết quả tốt nhất cho người dùng và mạng
3.3 Phương pháp
Nhóm tác giả đề xuất một framework AIGX biên di động gồm 3 lớp như hình sau:
Kiến trúc hệ thống:
- Mobile-Edge-Cloud: Kiến trúc tương tự như NetGPT, áp dụng kiến trúc đám mây
biên di động có thể tận dụng tối đa tài nguyên đám mây và di động, chứng minh rằng AIGX có thể triển khai khắp nơi và có thể mở rộng
- AIGX Service Providers (ASPs): còn gọi là Edge layer, các máy chủ có đủ tài
nguyên có thể đóng vai trò là ASPs, vận hành các mô hình AIGX và cung cấp dịch
vụ cho người dùng ở Mobile layer
Trang 7- Cloud Computing: Cloud layer hỗ trợ Edge layer, nó có thể vận hành các PFM
cực lớn(GPT-4, DALLE-3 ) và cung cấp dịch vụ lưu trữ,
- Prompt Engineering Service Providers (PESPs): Các PESPs có thể chạy ở các
tầng Edge layer hoặc Cloud layer, vận hành các kỹ thuật Prompt Engineering khác nhau và giúp người dùng ở Mobile layer tối ưu hóa các lời nhắc thô (raw prompts)
Để sử dụng hệ thống một cách hiệu quả, nhóm tác giả đề xuất một luồng làm việc của người dùng như sau:
- Service Configuration: Mobile users nên chọn ASPs phù hợp cho từng mục đích.
- Prompt Engineering Configuration: Mobile user chọn PESPs phù hợp để có thể
tối ưu hóa dạng prompts nhất định
- Optimization Formulation: Tối ưu hóa các dịch vụ AIGX Có thể xem xét các
chỉ số như QoG, KPIs, QoE, với mỗi một nhiệm vụ AIGX cụ thể, các chỉ số có thể xác định theo nhiều cách khác nhau
- Inference & Iterative Refinement: Khi Mobile user gọi các ASPs, họ có thể cải
thiện QoE bằng cách điều chỉnh PESPs Ex: trong bước 4, qua mỗi vòng, người dùng sẽ quyết định có nên gọi PESPs hay không và đo lường QoG Nếu giá trị thỏa mãn yêu cầu thì sẽ vào vòng tiếp theo, còn không thì họ sẽ yêu cầu ASP tạo lại
4 Triển khai thực nghiệm
4.1 Chuẩn bị
Tạo VR cho bản thiết kế nội thất
Kịch bản thực nghiệm:
- Các nhà thiết kế dùng thiết bị VR để tạo ra những thiết kế nội thất khác nhau cho khách hàng
- Để làm như vậy, trước tiên, nhà thiết kế tạo ra các bản vẽ 2D, sau đó sử dụng công cụ tạo môi trường VR
- Ở trong thực nghiệm này, chúng em sẽ tạo bản thiết kế nội thất cho nhà bếp
Mô hình hệ thống:
- Sử dụng hệ thống ASPs (Stable Diffusion(DALLE-2) để tạo ảnh(text-to-image))
- Sử dụng Prompt Engineering Service Providers(PESPs) triển khai dựa trên ChatGPT tạo prompt đầu vào cho DALLE-2
Đầu vào: lời nhắc thô (raw prompt) có dạng A[x], with [y], trong đó x là tên không
gian nội thất(kitchen) và y là một vật dụng trong không gian đó(cooking machines)
Ví dụ: A Kitchen, with cooking machines
Đầu ra: các mẫu hình ảnh 2D về thiết kế của nhà bếp
Trang 84.2 Tiến hành thực nghiệm
Khi đưa lời nhắc thô gửi tới ChatGPT, câu trả lời mang lại không có nhiều ý nghĩa với những mục tiêu mà ta hướng tới
Tác giả đã thiết kế một Prompting process để có thể giúp cho ChatGPT hiểu được chúng ta cần gì và mang lại câu trả lời đúng với kỳ vọng Gồm 5 bước sau:
Bước 1: Tạo cho ChatGPT một vai trò như một người có kỹ năng viết văn chuyên
nghiệp và yêu cầu làm theo các chỉ dẫn tiếp theo
Bước 2: Tiếp theo đó sẽ yêu cầu chatbot tạo một “image prompt” với giới hạn là 1500
từ làm đầu vào cho trình tạo ảnh từ văn bản MidJourney và mô tả về căn phòng một cách chi tiết, sử dụng từ vựng phong phú, ngôn từ mô tả hình ảnh, cảnh quan và ánh sáng một cách cụ thể
Bước 3: Sau mô tả, dạy cho ChatGPT một số kỹ thuật thêm vào cuối prompt một số từ
khóa để nâng cao chất lượng ảnh như: độ phân giải 2K, chi tiết tinh tế, khử răng cưa
Bước 4: Tiếp theo là thêm vào cuối prompt một số từ khóa tiêu cực như: mờ mịt, sai
lệch, thiếu chi tiết để tránh các kết quả không mong muốn
Bước 5: Cuối cùng, sẽ mô tả chi tiết hơn về khái niệm, bối cảnh và ánh sáng theo yêu
cầu của người dùng để tạo ra một prompt tưởng tượng chi tiết hơn
Trang 9Dựa theo những chỉ dẫn của nhóm tác giả, chúng em sử dụng Prompt Engineering gồm 5 bước, theo 6 khía cạnh như bảng sau:
Tên Sự miêu tả
The objects &
Relationship
Các chi tiết của vật thể( chất liệu, hình dạng, kết cấu) và
mối quan hệ vị trí của vật thể)
Background setting Chi tiết của [x]
Mood Cảm xúc mà người sáng tạo muốn truyền tải, ảnh hưởng tới
tông màu của hình ảnh
Lighting Nguồn ánh sáng và tác dụng của ánh sáng chiếu vào vật thể
Quality booster Tính từ hướng dẫn suy luận nhằm tạo ra hình ảnh chất
lượng cao
Negative prompt Tránh tạo ra ảnh chất lượng thấp
Lúc này, ChatGPT đã trả về kết quả đúng với những những gì chúng ta cần
Trang 10Sau đó, từ prompt image, chúng em sử dụng trình tạo ảnh từ văn bản để tạo ra hình ảnh phòng bếp với các yếu tố khác nhau
Trang 115 Bản dịch bài báo
6 Kết luận