1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tối Ưu hóa chi phí tính toán mô tả Ảnh trong Ứng dụng generative ai

72 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tối Ưu Hóa Chi Phí Tính Toán Mô Tả Ảnh Trong Ứng Dụng Generative AI
Tác giả Võ Anh Kiệt, Nguyễn Minh Tuấn
Người hướng dẫn TS. Huỳnh Thế Thiện
Trường học Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh
Chuyên ngành Công Nghệ Kỹ Thuật Máy Tính
Thể loại Đồ Án Tốt Nghiệp
Năm xuất bản 2024
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 72
Dung lượng 8 MB

Nội dung

Đề tài này sẽ tập trung vào việc áp dụng các kỹ thuật học sâu và các thuậttoán tối ưu hóa tiên tiến, kết hợp với việc sử dụng các công cụ và nền tảng tính toán hiệunăng cao, nhằm xây dựn

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT

THÀNH PHỐ HỒ CHÍ MINH

ĐỒ ÁN TỐT NGHIỆP NGÀNH CÔNG NGHỆ KỸ THUẬT MÁY TÍNH

GVHD: HUỲNH THẾ THIỆN SVTH: VÕ ANH KIỆT

NGUYỄN MINH TUẤN

TP Hồ Chí Minh, tháng 5/2024TỐI ƯU HÓA CHI PHÍ TÍNH TOÁN MÔ TẢ ẢNH

TRONG ỨNG DỤNG GENERATIVE AI

Trang 2

TRƯỜNG ĐẠI HOC SƯ PHẠM KỸ THUẬT TP.HCM

KHOA ĐIỆN- ĐIỆN TỬ

BỘ MÔN KỸ THUẬT MÁY TÍNH - VIỄN THÔNG

KHÓA LUẬN TỐT NGHIỆP

TỐI ƯU HÓA CHI PHÍ TÍNH TOÁN MÔ TẢ ẢNH

TRONG ỨNG DỤNG GENERATIVE AI

NGÀNH CÔNG NGHỆ KỸ THUẬT MÁY TÍNH

Trang 3

TRƯỜNG ĐẠI HOC SƯ PHẠM KỸ THUẬT TP.HCM

KHOA ĐIỆN- ĐIỆN TỬ

BỘ MÔN KỸ THUẬT MÁY TÍNH - VIỄN THÔNG

KHÓA LUẬN TỐT NGHIỆP

TỐI ƯU HÓA CHI PHÍ TÍNH TOÁN MÔ TẢ ẢNH

TRONG ỨNG DỤNG GENERATIVE AI

NGÀNH CÔNG NGHỆ KỸ THUẬT MÁY TÍNH

Trang 4

BAN NHANXETKHOA LUAN TOT NGHIEP

DS tai: T6i uu hoa hieu qua tinh toan mo ta anh trong ung dung Generative AI.

Sinh vien: + Vo Anh Kiet

+ Nguyen Minh Tuan

Huong dan: TS Huynh The Thien

MSSV: 20119080

MSSV: 201 19384

1 Tinh hop ly trong each dat van de va giai quyet van de; y nghia khoa hoc va thuc tien:

Dat van de rd rang, muc tieu cu the; de tai cd tinh mai, cap thief; de tai cd khd nang irng dung, tinh sang tqo.

-De tai co muc tieu ro rang, co tinh moi, va tinh ung dung.

2 Phuong phap thuc hien/ phan tich/ thidt kS:

Phuong phap hop ly vd tin cay dua tren ca so ly thuyet; cd phdn tich vd ddnh gid phit hop; cd tinh mai vd tinh sang tqo.

-Cd phan tich danh gia phu hop dua tren phuong phap nghien cuu hop ly.

3 Ket qua thuc hien/ phan tich va danh gia ket qua/ kiem dinh thiet ke:

Phil hap vdi muc tieu de tai; phdn tich va danh gid / kiem thic thiet ke hap ly; cd tinh sang tqo/ kiem dinh chat che va dam bdo do tin cay.

-Ket qua thuc hien phu hop vdi muc tieu de tai.

4 Ket luan va de xuat:

Ket luqn phu hap vai each dqt van de, de xuat mang tinh edi tien va thuc lien; ket luan cd dong gdp mai me, de xuat sang tqo vd thuyet phuc.

-Ket luan phu hop vdi de xuat.

5 Hinh thuc trinh bay va bo cue bao cao:

Van phong nhdt quan, bo cue hap ly, cdu true ro rang, dung dinh dang mdu; cd tinh hap dan, the hien nang luc tot, van ban trau chudt.

-Diing dinh dang mac du con vai 16i nhd.

6 Ky nang chuyen nghiep va tinh sang tao:

The hiqn cdc ky nang giao tiep, ky nang 1dm viec nhom, vd cdc ky nang chuyen nghiep khde trong viec thuc hien de tai.

-Sinh vien co giao ti6p va ky nang lam viec doc lap/nhom.

7 Tai lieu trich dSn

Tinh trung thuc trong viec trich dan tai lieu tham khdo; tinh phu hap cua cdc tai Heu trich dan; trich dan theo dung chi dan APA.

-Tai lieu trich dan o muc co ban

8 Danh gia ve sir trung lap cua de tai

Can khang dinh de tai cd trung lap hay khong? Neu co, de nghi ghi ro muc do, ten de tai, nai cong bo, nam cong bo cua de tai da cong bo.

-Do trung lap trong muc cho phep

9 Nhung nhupc diem va thidu sot, nhung diem can duoc bo sung va chinh sua*

-Noi dung va trinh bay cua luan van can dupe cai thien

-Danh gia ket qua can thao luan ky hon.

10 Nhan xet tinh than, thai do hoc tap, nghien cuu cua sinh vien

-Sinh vien cd thai do nghiem tuc

De nghi cua giang vien huong dan

Ghi rd: "Bdo cdo dqt/ khong datyeu cdu cua mot khoa luan tot nghiep ky su, vd duac phep/ khong duqc phep bdo ve khoa luan tot nghiep ”

Tp HCM,ngay^bthang(56 nam 2Ch

Ngudi nhan xet

(Ky va ghi ro ho ten)

TS Huynh The Thien

Trang 6

LỜI CẢM ƠN

Đầu tiên, nhóm sinh viên xin được gửi lời cảm ơn và sự biết ơn đến TS HuỳnhThế Thiện, giảng viên hướng dẫn khóa luận tốt nghiệp học kỳ này của nhóm tại trườngĐại học Sư Phạm Kỹ Thuật thành phố Hồ Chí Minh, giảng viên đã có những đề xuất vàđóng góp quý giá để nhóm sinh viên có đủ điều kiện để hoàn thành đề tài Đồng thời,những kinh nghiệm và nghiên cứu khoa học của giảng viên trong lĩnh vực học máy vàtrí tuệ nhân tạo cũng đã cung cấp cho nhóm sinh viên những ý tưởng và cơ hội để hoànthành tốt đề tài

Tiếp đến, nhóm xin chân thành cảm ơn các quý thầy cô giảng viên tại trường Đạihọc Sư Phạm Kỹ Thuật thành phố Hồ Chí Minh và đặc biệt là các thầy cô giảng dạythuộc chuyên ngành Công Nghệ Kỹ Thuật Máy Tính, khoa Điện - Điện Tử, đã chỉ dạy

và hỗ trợ nhóm sinh viên trong suốt quá trình học tập tại trường Những bài học và nhậnxét quý báu của các thầy cô đã góp phần quan trọng vào sự thành công của đề tài này

Nhóm thực hiện khóa luận tốt nghiệp

(Ký và ghi rõ họ tên)

Trang 7

LỜI CAM ĐOAN

Nhóm thực hiện khóa luận tốt nghiệp xin cam kết rằng đề tài này được nghiên cứu

và thực hiện hoàn toàn dựa vào thành quả của nhóm, có tham khảo một số tài liệu đã

có từ trước đó và không sao chép nội dung, kết quả của đồ án, khóa luận khác Các nộidung tham khảo từ sách, báo, website, đã được nhóm trích dẫn đầy đủ và chi tiết

Nhóm thực hiện khóa luận tốt nghiệp

(Ký và ghi rõ họ tên)

Trang 8

TÓM TẮT LUẬN VĂN

Hiện nay, với sự phát triển vượt bậc của trí tuệ nhân tạo (AI) và đặc biệt là côngnghệ tạo sinh (Generative AI), việc mô tả ảnh tự động đã trở thành một lĩnh vực nghiêncứu và ứng dụng hấp dẫn Tuy nhiên, trong thời điểm hiện tại, việc áp dụng Generative

AI vào mô tả ảnh đòi hỏi một lượng lớn tài nguyên tính toán và dữ liệu huấn luyện Các

hệ thống hiện có thường gặp khó khăn trong việc cân bằng giữa độ chính xác và chi phí,dẫn đến những hạn chế trong ứng dụng rộng rãi Ngoài ra, vấn đề tối ưu hóa mô hình AI

để đạt hiệu quả cao trong các môi trường khác nhau cũng đặt ra thách thức lớn cho cácnhà nghiên cứu và phát triển

Trước tình hình đó, nhóm sinh viên đã lựa chọn đề tài “Tối ưu hóa chi phí tính toán

mô tả ảnh trong ứng dụng Generative AI” với mục tiêu nghiên cứu và phát triển cácphương pháp tối ưu hóa mô hình Generative AI để mô tả ảnh một cách hiệu quả và tiếtkiệm chi phí Đề tài này sẽ tập trung vào việc áp dụng các kỹ thuật học sâu và các thuậttoán tối ưu hóa tiên tiến, kết hợp với việc sử dụng các công cụ và nền tảng tính toán hiệunăng cao, nhằm xây dựng một hệ thống mô tả ảnh tự động có thể hoạt động hiệu quảtrong môi trường thực tế

Bằng cách giải quyết vấn đề tối ưu hóa chi phí và hiệu quả, đề tài này không chỉđóng góp vào sự phát triển của công nghệ mô tả ảnh mà còn mở ra những cơ hội mớicho việc ứng dụng AI trong nhiều lĩnh vực khác nhau, từ y tế, giáo dục đến thương mạiđiện tử và giải trí Kết quả của nghiên cứu này hứa hẹn sẽ mang lại những giải phápcông nghệ tiên tiến, giúp các doanh nghiệp và tổ chức tiết kiệm chi phí, nâng cao hiệuquả hoạt động và cạnh tranh trong thị trường ngày càng khốc liệt

Trang 9

Mục lục

1.1 Giới thiệu 1

1.2 Mục tiêu đề tài 2

1.3 Giới hạn đề tài 2

1.4 Phương pháp nghiên cứu 2

1.5 Bố cục khóa luận 3

2 CƠ SỞ LÝ THUYẾT 4 2.1 Tổng quan về trí tuệ nhân tạo 4

2.1.1 Trí tuệ nhân tạo là gì? 4

2.1.2 Lợi ích của trí tuệ nhân tạo 4

2.1.3 Ứng dụng của trí tuệ nhân tạo 4

2.2 Tổng quan về học máy và học sâu 5

2.2.1 Tổng quan về học máy 5

2.2.2 Tổng quan về học sâu 6

2.2.3 Ứng dụng của học máy và học sâu 7

2.2.4 Những thách thức và hướng đi trong tương lai 8

2.3 Tổng quan về trí tuệ nhân tạo tạo sinh 9

2.3.1 Trí tuệ nhân tạo tạo sinh là gì? 9

2.3.2 Ứng dụng của trí tuệ nhân tạo tạo sinh 9

2.4 Tổng quan về mô tả ảnh 10

2.4.1 Mô tả ảnh là gì? 10

2.4.2 Tiền xử lý dữ liệu cho mô tả ảnh 11

2.4.3 Các chỉ số đánh giá mô tả ảnh 13

2.4.4 Các kỹ thuật huấn luyện mô hình mô tả ảnh 15

2.5 Tổng quan về trả lời câu hỏi bằng hình ảnh 16

Trang 10

2.6 Giới thiệu về các công nghệ sử dụng 16

2.6.1 Ngôn ngữ lập trình Python: 16

2.6.2 Thư viện học sâu PyTorch: 18

2.6.3 Khung phần mềm lập trình web Streamlit: 19

2.6.4 Dịch vụ EC2 trong Amazon Web Services 20

2.6.5 OpenAI API 21

2.6.6 Tập dữ liệu Microsoft Common Object in Context 22

2.6.7 Mô hình mạng neural mô tả ảnh - ExpansionNet v2: 23

3 TỐI ƯU HÓA MÔ HÌNH MẠNG NEURAL MÔ TẢ ẢNH 32 3.1 Light-ExpansionNet - Phiên bản cải tiến của ExpansionNet v2 32

3.1.1 Trích xuất đặc trưng hình ảnh sử dụng Swin Transformer v2 33

3.1.2 Áp dụng Memory-Augmented Attention 33

3.1.3 Bổ sung lớp Multiplicative Residual Embedding 34

3.2 Các thuật toán xử lý dữ liệu và huấn luyện mô hình 35

3.2.1 Chuẩn bị tập dữ liệu 35

3.2.2 Xử lý hình ảnh 35

3.2.3 Xử lý chuỗi mô tả ảnh 36

3.2.4 Huấn luyện mô hình 37

3.3 Kết quả huấn luyện mô hình và nhận xét 38

3.3.1 Kết quả huấn luyện mô hình Light-ExpansionNet 38

3.3.2 Nhận xét 42

4 THIẾT KẾ ỨNG DỤNG WEB GENERATIVE AI 44 4.1 Tổng quan về ứng dụng web Generative AI 44

4.1.1 Tính năng Image captioning 44

4.1.2 Tính năng Visual Q & A 45

4.1.3 Chatbot 46

4.2 Kết quả thiết kế và nhận xét 47

4.2.1 Kết quả thiết kế ứng dụng Generative AI 47

Trang 12

Danh sách bảng

Trang 13

Danh sách hình vẽ

Hình 2.1 Ứng dụng AI vào trong lĩnh vực thị giác máy tính 8

Hình 2.2 Ứng dụng AI vào trong lĩnh vực y tế 8

Hình 2.3 Một số hình ảnh và mô tả ảnh có trong tập dữ liệu MS-COCO 23

Hình 2.4 Kiến trúc mô hình mô tả ảnh ExpansionNet v2 24

Hình 2.5 Kiến trúc của mô hình Swin Transformer 26

Hình 2.6 Sơ đồ và ví dụ về cơ chế Static Expansion và Dynamic Expansion 27 Hình 3.1 Kiến trúc khối encoder mới với sự bổ sung Memory-augmented Multi-head Attention 34

Hình 3.2 Lớp Multiplicative Residual Embedding được thêm vào trong các lớp Static và Dynamic Expansion 35

Hình 3.3 Kết quả mô tả ảnh từ tập dữ liệu kiểm tra MS-COCO 2014 của ExpansionNet v2 và Light-ExpansionNet 41

Hình 3.4 Kết quả mô tả ảnh tải từ internet của ExpansionNet v2 và Light-ExpansionNet 42

Hình 4.1 Kiến trúc tổng quát của tính năng Image captioning 45

Hình 4.2 Kiến trúc tổng quát của tính năng Visual Q & A 46

Hình 4.3 Kiến trúc tổng quát của tính năng Chatbot 47

Hình 4.4 Giao diện chính của ứng dụng web Generative AI 48

Hình 4.5 Giao diện của tính năng Image captioning 49

Hình 4.6 Ví dụ tính năng Image captioning 49

Hình 4.7 Giao diện tính năng Visual Q & A 50

Hình 4.8 Ví dụ tính năng Visual Q & A 50

Hình 4.9 Giao diện tính năng Chatbot 51

Hình 4.10 Giao diện tính năng Chatbot, chức năng giao tiếp văn bản 51

Hình 4.11 Giao diện tính năng Chatbot, chức năng mô tả ảnh 52

Hình 4.12 Giao diện tính năng Chatbot, chức năng trả lời câu hỏi hình ảnh 52

Trang 15

Đề tài “Tối ưu hóa hiệu quả tính toán mô tả ảnh trong ứng dụng Generative AI”

tập trung vào việc nghiên cứu và phát triển các phương pháp để cải thiện hiệu quả chiphí của hệ thống mô tả ảnh tự động Bằng cách tích hợp các kỹ thuật học sâu và cácthuật toán tối ưu hóa, mục tiêu của đề tài là xây dựng một mô hình mô tả ảnh không chỉchính xác mà còn tiết kiệm tài nguyên và chi phí Việc này sẽ tạo điều kiện cho các ứngdụng rộng rãi hơn trong nhiều lĩnh vực như y tế, giáo dục, thương mại điện tử, và giảitrí

Nghiên cứu này sẽ thảo luận về quy trình thiết kế và triển khai mô hình Generative

AI cho mô tả ảnh, cung cấp cái nhìn tổng quan về các phương pháp và công nghệ được

sử dụng, cùng với những thách thức và giải pháp để tối ưu hóa chi phí Đặc biệt, đề tài

sẽ xem xét các kỹ thuật tối ưu hóa hiệu năng, giúp cho mô hình AI trở nên nhẹ hơn, tối

ưu hóa phần cứng và các phương pháp huấn luyện mô hình hiệu quả, từ đó áp dụng vàonghiên cứu và triển khai các phương pháp tối ưu trên một trong những model AI mô tảảnh tân tiến nhất hiện tại

Mục tiêu cuối cùng của nghiên cứu là trình bày một mô hình ứng dụng cho việctriển khai mô tả ảnh bằng model AI đã tối ưu trước đó nhằm thể hiện sự hiệu quả cũngnhư sự tương thích của model với các công nghệ phổ biến hiện nay, từ đó mở ra conđường phát triển các giải pháp công nghệ tiên tiến, hiệu quả và kinh tế Kết quả củanghiên cứu hứa hẹn sẽ mang lại những lợi ích thiết thực, giúp các doanh nghiệp và tổchức tiết kiệm chi phí, nâng cao hiệu quả hoạt động và đáp ứng tốt hơn nhu cầu củangười dùng trong kỷ nguyên số hóa

Trang 16

1.2 Mục tiêu đề tài

Để giải quyết các vấn đề liên quan đến hiệu quả chi phí của việc mô tả ảnh, đề tàinày sẽ tập trung vào việc tối ưu hóa một trong những mô hình AI mô tả ảnh hiện đại nhấthiện nay, nhằm tạo ra một mô hình mới với số lượng trọng số và thời gian huấn luyệnđược giảm thiểu Qua đó, việc mô tả ảnh sẽ dễ dàng được ứng dụng bởi các nhà pháttriển phần mềm, nâng cao tính cạnh tranh và sự đa dạng của việc ứng dụng AI vào đờisống Đề tài này sẽ tập trung vào hai mục tiêu chính:

Thứ nhất, nghiên cứu và huấn luyện một mô hình AI mô tả ảnh dựa trên một trongnhững mô hình tiên tiến nhất hiện nay - ExpansionNet v2 Đề tài sẽ áp dụng các thuậttoán và phương pháp mới để giảm thiểu độ phức tạp và tối ưu hóa những hạn chế củaExpansionNet v2

Thứ hai, thiết kế một ứng dụng chạy trên web server cho mô hình đã được tối ưu

và huấn luyện Ứng dụng sẽ bao gồm: giao diện cho phép người dùng cung cấp ảnh vànhận mô tả của ảnh, giao diện cho phép người dùng đưa ảnh và các yêu cầu cần được tìm

ra từ ảnh đó, và cuối cùng là một ứng dụng chatbot tích hợp với mô hình mô tả ảnh để

hỗ trợ chatbot hiểu nội dung hình ảnh do người dùng cung cấp Qua đó, thể hiện đượckhả năng ứng dụng và tích hợp của mô hình AI đã nghiên cứu

1.3 Giới hạn đề tài

Do những hạn chế về mặt thời gian và phần cứng trong việc nghiên cứu và vậndụng các kiến thức chuyên môn trong việc thiết kế và huấn luyện mô hình, đồ án sẽ đặttrọng tâm vào giải quyết những vấn đề sau:

v2, ưu tiên cho mô hình có kích thước và độ phức tạp tối thiểu nhưng vẫn đảm bảohiệu suất mô tả ảnh tốt so với mô hình gốc - ExpansionNet v2

gồm hình ảnh các đối tượng phổ biến như người, đồ vật, thú nuôi, cùng với những

mô tả cho mỗi hình ảnh bằng tiếng Anh Việc này đồng nghĩa với việc mô hình

sẽ khó xác định được các đối tượng ít hoặc không xuất hiện trong tập dữ liệu cũngnhư ngôn ngữ của mô tả hình ảnh xuất ra từ mô hình sẽ là tiếng Anh

1.4 Phương pháp nghiên cứu

Vận dụng những kiến thức đã được học và tự tìm hiểu về trí tuệ nhân tạo, thị giácmáy tính cũng như xử lý ngôn ngữ, kết hợp với những kiến thực về việc thực thi mô hình

Trang 17

AI trên các ứng dụng web, từ đó thực hiện các công việc như sau:

hạn chế có thể cải thiện được của mô hình, thực hiện các thử nghiệm về kiến trúc

và huấn luyện để tìm ra mô hình mới tối ưu hơn

vào ứng dụng web, thiết kế và triển khai ứng dụng sử dụng mô hình AI đã nghiêncứu, kết hợp với các API có sẵn để tạo ra một ứng dụng đơn giản và tiết kiệm chiphí về mô tả ảnh

1.5 Bố cục khóa luận

Chương 1: TỔNG QUAN Chương mở đầu của tài sẽ trình bày tổng quan về AI vàGenerative AI nói chung và việc mô tả ảnh sử dụng AI nói riêng, về lợi ích và những hạnchế về mặt chi phí của chúng Từ đó đưa ra những hướng đi và giải pháp cho việc tối ưuhóa mô hình AI mô tả ảnh

Chương 2: CƠ SỞ LÝ THUYẾT Chương này sẽ trình bày tổng quan cơ sở lýthuyết được ứng dụng trong quá trình nghiên cứu, thực hiện và thiết kế của đề tài Cáccông nghệ hỗ trợ cho việc xây dựng mô hình cũng như thiết kế ứng dụng web Các kháiniệm về AI, Generative AI, mô tả ảnh, các tác vụ liên quan đến mô tả ảnh, tập dữ liệuMS-COCO và kiến trúc mạng của mô hình mô tả ảnh ExpansionNet v2

Chương 3: TỐI ƯU HÓA MÔ HÌNH MẠNG NEURAL MÔ TẢ ẢNH Đưa ra cáccải tiến cho mô hình ExpansionNet v2, thực hiện thiết kế, tạo ra một mô hình mô tả ảnhmới dựa trên ExpansionNet v2 với tên là Light-ExpansionNet, huấn luyện và đưa ra kếtquả đánh giá về hiệu năng, kích thước và chi phí của mô hình Light-ExpansionNet sosánh với ExpansionNet v2

Chương 4: THIẾT KẾ ỨNG DỤNG WEB GENERATIVE AI Thiết kế và xâydựng một ứng dụng web về Generative AI sử dụng mô hình vừa nghiên cứu là Light-ExpansionNet để ứng dụng cho việc mô tả ảnh, sử dụng OpenAI API để thực tích hợp

mô hình GPT với Light-ExpansionNet để tạo nên ứng dụng chatbot

Chương 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Nội dung trình bày trong

chương 5 sẽ tổng hợp lại quá trình nghiên cứu và thực hiện đề tài Tối ưu hóa hiệu quả

chi phí mô tả ảnh trong ứng dụng Generative AI, từ đó đưa ra những kết luận qua đó có

cơ sở đề xuất hướng phát triển đề tài trong tương lai

Trang 18

Chương 2

CƠ SỞ LÝ THUYẾT

2.1 Tổng quan về trí tuệ nhân tạo

2.1.1 Trí tuệ nhân tạo là gì?

Trí tuệ nhân tạo (Artificial Intelligence - AI) là một lĩnh vực của khoa học máytính tập trung vào việc phát triển các hệ thống có khả năng thực hiện các nhiệm vụ thôngminh mà trước đây chỉ có thể được thực hiện bởi con người Mục tiêu của AI là tạo racác hệ thống có khả năng học và suy luận từ dữ liệu, tự động hoá quy trình, và thậm chí

là có khả năng tạo ra quyết định dựa trên thông tin sẵn có [1]

2.1.2 Lợi ích của trí tuệ nhân tạo

học và học sâu để giải quyết các vấn đề phức tạp bằng trí tuệ giống con người AI

có thể xử lý thông tin ở quy mô lớn, xử lý các mẫu, xác định thông tin và cung cấpcâu trả lời AI có thể sử dụng để giải quyết các vấn đề trong một loạt các lĩnh vựcnhư phát hiện gian lận, chẩn đoán y tế và phân tích kinh doanh

hiệu suất, nó có thể thực hiện các tác vụ thủ công mà không có lỗi và có thể chophép AI tập trung vào các nhiệm vụ lặp đi lặp lại AI có thể giảm khối lượng côngviệc của nhân viên đồng thời điều chỉnh tất cả các nhiệm vụ liên quan đến kinhdoanh

khối lượng lớn dữ liệu, vì vậy AI có thể phát hiện xu hướng, phân tích dữ liệu vàcung cấp hướng dẫn Với chức năng dự báo dữ liệu, AI có thể giúp đề xuất hướnghành động tốt nhất trong tương lai

2.1.3 Ứng dụng của trí tuệ nhân tạo

Trong những năm gần đây, tiến bộ đáng kể trong lĩnh vực này đã mở ra nhiều hướngphát triển mới, từ các ứng dụng hàng ngày như dịch văn bản, trợ lý ảo, ô tự lái, đến cáclĩnh vực chuyên sâu như dự đoán thời tiết, tư vấn y tế, tài chính và nhiều lĩnh vực khác.Công nghệ AI bao gồm nhiều phương pháp và kỹ thuật khác nhau, bao gồm:

Trang 19

• Học máy (Machine Learning): Là một phương pháp cho phép máy tính học hỏi

từ dữ liệu mà không cần phải được lập trình một cách rõ ràng Các thuật toán họcmáy bao gồm học có giám sát, không giám sát và học tăng cường

• Học sâu (Deep Learning): Là một phương pháp học máy sử dụng các mạng

neural sâu có nhiều lớp ẩn Deep learning đã đóng vai trò quan trọng trong nhiềuứng dụng AI thành công, như nhận dạng hình ảnh, xử lý ngôn ngữ tự nhiên và xe

tự lái

• Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP): Là một lĩnh

vực của AI tập trung vào việc hiểu và tạo ra ngôn ngữ tự nhiên NLP được sử dụngtrong các ứng dụng như dịch máy, xử lý ngôn ngữ tự nhiên và sinh tổng hợp vănbản

• Thị giác máy tính (Computer Vision - CV): Là lĩnh vực của AI tập trung vào

việc làm cho máy tính có khả năng nhìn và hiểu hình ảnh Các ứng dụng của thịgiác máy tính bao gồm nhận dạng khuôn mặt, nhận dạng vật thể và xe tự lái

AI đang ngày càng trở nên phổ biến và quan trọng trong cuộc sống hàng ngày, từcông nghiệp đến giáo dục, y tế và nhiều lĩnh vực khác Tuy nhiên, cũng có những tháchthức và vấn đề đạo đức cần được giải quyết khi triển khai AI, như đảm bảo sự minh bạch

và công bằng trong việc sử dụng dữ liệu, cũng như quản lý rủi ro về an toàn thông tin vàquyền riêng tư

2.2 Tổng quan về học máy và học sâu

Học máy (Machine Learning - ML) và Học sâu (Deep Learning - DL) là các lĩnhvực con của AI tập trung vào việc xây dựng các hệ thống có thể học từ dữ liệu và đưa racác quyết định hoặc dự đoán Trong khi học máy liên quan đến các thuật toán học cácmẫu từ dữ liệu, học sâu là một nhánh chuyên biệt của học máy sử dụng các mạng neuralvới nhiều lớp để phân tích các mức độ trừu tượng khác nhau trong dữ liệu

2.2.1 Tổng quan về học máy

Học máy là một lĩnh vực nghiên cứu giúp máy tính có khả năng học từ dữ liệu màkhông cần được lập trình rõ ràng Mục tiêu là phát triển các thuật toán có thể tổng quáthóa từ dữ liệu huấn luyện đến dữ liệu chưa thấy

Các loại học máy:

một đầu vào đến một đầu ra dựa trên các cặp đầu vào - đầu ra mẫu Các thuật

Trang 20

toán phổ biến bao gồm hồi quy tuyến tính (Linear Regression), máy vector hỗ trợ(Support Vector Machines - SVM) và mạng neural.

liệu không gán nhãn Hệ thống cố gắng học cấu trúc cơ bản của dữ liệu Các thuậttoán phổ biến bao gồm phân cụm (K-Means, Hierarchical), phân tích thành phầnchính (Principal Component Analysis - PCA) và mã hóa tự động (Autoencoders)

hoặc ra quyết định bằng cách tương tác với môi trường và nhận phần thưởng hoặchình phạt Các thuật toán chính bao gồm Q-Learning và Deep Q Networks (DQN).Các khái niệm chính của học máy:

Tập huấn luyện được sử dụng để xây dựng mô hình, trong khi tập kiểm tra đánhgiá hiệu suất của nó

quá tốt, bao gồm cả nhiễu, và hoạt động kém trên dữ liệu mới Thiếu khớp xảy rakhi mô hình quá đơn giản để nắm bắt mẫu cơ bản của dữ liệu

hình Nó bao gồm việc chia dữ liệu thành các tập con và xác thực mô hình trên cáctập con khác nhau theo cách lặp lại

hồi tưởng (recall), F1-score và ROC-AUC được sử dụng để đánh giá hiệu suất củacác mô hình ML

2.2.2 Tổng quan về học sâu

Học sâu là một nhánh con của học máy sử dụng các mạng neural với nhiều lớp(mạng neural sâu) để mô hình hóa các mẫu phức tạp trong dữ liệu Nó xuất sắc trongcác nhiệm vụ liên quan đến lượng dữ liệu lớn và cấu trúc phức tạp, như nhận diện hìnhảnh và giọng nói

Các dạng mạng neural:

cảm hứng từ neural sinh học Nó nhận đầu vào, xử lý và truyền tới lớp tiếp theo

Trang 21

• Các lớp (layers): Mạng neural được cấu thành từ lớp đầu vào, các lớp ẩn và lớpđầu ra Mỗi lớp gồm các neural chuyển đổi dữ liệu đầu vào thành các biểu diễnngày càng trừu tượng.

(Rectified Linear Unit) đưa tính phi tuyến vào mạng, cho phép nó học các mẫuphức tạp

cho các mạng neural Nó bao gồm việc truyền tiếp đầu vào và lan truyền ngượccác lỗi để cập nhật trọng số của mạng

Các kiến trúc học sâu:

CNNs sử dụng các lớp tích chập để tự động học các phân cấp không gian của cácđặc trưng

nhớ của các đầu vào trước đó bằng cách sử dụng các vòng lặp trong mạng LongShort-Term Memory (LSTM) và Gated Recurrent Unit (GRU) là các dạng RNNstiên tiến giải quyết vấn đề phụ thuộc dài hạn

một mạng phân biệt (discriminator), GANs được sử dụng để tạo ra các mẫu dữ liệumới không thể phân biệt được so với dữ liệu thực

2.2.3 Ứng dụng của học máy và học sâu

Cả học máy và học sâu đều có các ứng dụng rộng rãi trong nhiều lĩnh vực khácnhau:

mặt Hình 2.1 là ví dụ ứng dụng của AI trong lĩnh vực thị giác máy tính, cụ thể lànhận dạng và phát hiện đối tượng

Trang 22

Hình 2.1: Ứng dụng AI vào trong lĩnh vực thị giác máy tính.

ứng dụng của AI trong việc hỗ trợ chuẩn đoán hình ảnh bệnh ung thư ở 1 số nướctrên thế giới

Hình 2.2: Ứng dụng AI vào trong lĩnh vực y tế

• Tài chính: Phát hiện gian lận, giao dịch thuật toán và quản lý rủi ro

2.2.4 Những thách thức và hướng đi trong tương lai

Hiện nay, công cuộc nghiên cứu và ứng dụng các mô hình ML và DL vẫn còn gặpnhững thách thức khó nhằn:

không phải lúc nào cũng có sẵn

Trang 23

• Tài nguyên tính toán: Huấn luyện các mạng sâu có thể tốn nhiều tài nguyên, đòihỏi các GPU mạnh và bộ nhớ rộng lớn.

coi là "hộp đen", khiến việc giải thích quá trình ra quyết định của chúng trở nênkhó khăn

Nghiên cứu trong tương lai tập trung vào việc cải thiện khả năng giải thích của môhình, giảm yêu cầu về dữ liệu và tính toán và mở rộng khả năng áp dụng của ML và DLtrong nhiều lĩnh vực khác nhau

2.3 Tổng quan về trí tuệ nhân tạo tạo sinh

2.3.1 Trí tuệ nhân tạo tạo sinh là gì?

Trí tuệ nhân tạo tạo sinh (Generative AI) là một phần quan trọng của lĩnh vực trítuệ nhân tạo, tập trung vào việc phát triển các mô hình máy học có khả năng tạo ra dữliệu mới và chất lượng từ dữ liệu đã tồn tại Cụ thể, Generative AI tập trung vào việc tạo

ra hình ảnh, âm nhạc, văn bản, video, và các loại dữ liệu khác một cách tự động và sángtạo.Trong thế giới số ngày nay, Generative AI đã trở thành một công cụ quan trọng chonhiều ứng dụng sáng tạo và thương mại [2]

Công nghệ Generative AI phát triển từ các mô hình học sâu như GANs (GenerativeAdversarial Networks), VAEs (Variational Autoencoders) và Transformers Các mô hìnhnày có khả năng học từ dữ liệu và tạo ra dữ liệu mới bằng cách ánh xạ từ không giantiềm ẩn thành không gian dữ liệu mong muốn Chúng hoạt động dựa trên các nguyên lýtoán học và thống kê phức tạp, cho phép chúng tạo ra dữ liệu mới một cách độc lập vàsáng tạo

2.3.2 Ứng dụng của trí tuệ nhân tạo tạo sinh

Công nghệ Generative AI đã và đang được phát triển và áp dụng rộng rãi trên nhiềulĩnh vực cụ thể:

cáo, một cách tự nhiên Mô hình ngôn ngữ GPT-3 có thể tạo ra các bài viết khôngthể phân biệt được với bài viết do con người viết

tả, hoặc biến đổi hình ảnh hiện có theo ý muốn Ví dụ, mô hình DALL-E 2 có thểtạo ra hình ảnh từ các câu mô tả đơn giản, hoặc biến đổi ảnh chân dung thành ảnh

Trang 24

phong cách hoạt hình.

nhạc cho video Nó có thể tạo ra các bản nhạc theo phong cách mong muốn, hoặctạo hiệu ứng âm thanh cho phim điện ảnh

phẩm phù hợp với sở thích và nhu cầu của từng khách hàng, từ đó tăng tỷ lệ chuyểnđổi và doanh thu

từng người dùng dựa trên sở thích và hành vi của họ

đoạn mã mẫu giúp các lập trình viên tập trung vào các phần việc phức tạp hơn

nhân hóa cho từng học sinh, giúp học sinh và giáo viên nâng cao chất lượng họctập và giảng dạy

2.4 Tổng quan về mô tả ảnh

2.4.1 Mô tả ảnh là gì?

Mô tả ảnh (Image captioning) là quá trình tạo ra mô tả văn bản mô tả nội dung củamột hình ảnh một cách tự động bằng các thuật toán máy học Mục tiêu của mô tả ảnh làtạo ra một câu hoặc một đoạn văn mô tả chi tiết về nội dung của hình ảnh, như vị trí củacác đối tượng, hoạt động trong hình ảnh, môi trường xung quanh và bất kỳ thông tin nàokhác có thể được trích xuất từ hình ảnh

Quá trình mô tả ảnh thường bao gồm hai phần chính: trích xuất đặc trưng của hìnhảnh và sinh văn bản mô tả từ các đặc trưng này Trong phần trích xuất đặc trưng, các môhình học sâu như mạng neural tích chập (CNN) thường được sử dụng để chuyển đổi hìnhảnh thành một vectơ đặc trưng Sau đó, vectơ đặc trưng này được đưa vào một kiến trúc

xử lý ngôn ngữ như mạng neural hồi quy (RNN), mạng bộ nhớ ngắn-dài hạn (LSTM),Transformer hoặc các biến thể của nó để sinh ra văn bản mô tả.Các phương pháp này đãtạo ra các hệ thống mô tả ảnh có khả năng sinh ra các mô tả chính xác và phong phú chohình ảnh

Ứng dụng của mô tả ảnh rất đa dạng và bao gồm việc tạo ra các hệ thống hỗ trợcho người khiếm thị hiểu hình ảnh, tạo ra mô tả cho video và hình ảnh trên mạng xã hội,

hỗ trợ cho việc tìm kiếm hình ảnh và nhiều ứng dụng khác trong lĩnh vực giáo dục, y tế,

du lịch và công nghiệp

Trang 25

2.4.2 Tiền xử lý dữ liệu cho mô tả ảnh

Tiền xử lý dữ liệu là bước quan trọng trong việc xây dựng mô hình học máy chobài toán mô tả ảnh Quá trình này giúp chuẩn hóa và cải thiện chất lượng dữ liệu, từ đónâng cao hiệu quả của mô hình Tùy thuộc vào tác vụ cần thực hiện như thị giác máytính, xử lý ngôn nhữ, xử lý âm thanh, sẽ có những kỹ thuật khác nhau để xử lý dữ liệu.Trong trường hợp của bài toán mô tả ảnh, dữ liệu đầu vào sẽ là hình ảnh và cả ngôn ngữ(cho việc huấn luyện) nên sẽ cần kết hợp các phương pháp tiền xử lý của cả bài toán thịgiác máy tính và xử lý ngôn ngữ tự nhiên

a) Một số kỹ thuật tiền xử lý dữ liệu phổ biến cho bài toán thị giác máy tính:

đến hiệu quả của mô hình Việc chuẩn hóa kích thước ảnh giúp đảm bảo tất cả ảnhđều có cùng kích thước, cho phép mô hình tập trung vào các đặc điểm quan trọngthay vì kích thước ảnh Các phương pháp chuẩn hóa kích thước ảnh phổ biến baogồm: Thay đổi kích thước ảnh thành kích thước mong muốn, cắt ảnh từ vị trí trungtâm hoặc chọn khu vực có chứa nhiều thông tin nhất, thay đổi tỷ lệ chiều rộng vàchiều cao của ảnh để phù hợp với kích thước mong muốn, Để thực thi kỹ thuậtnày thường sẽ cần sử dụng hàm thay đổi kích thước ảnh trong các thư viện có hỗtrợ xử lý hình ảnh như OpenCV, Keras, PyTorch,

do nhiều yếu tố như ánh sáng, bụi bẩn, cảm biến camera, Nhiễu ảnh hưởng đếnchất lượng dữ liệu và có thể dẫn đến kết quả mô tả ảnh không chính xác Cácphương pháp xử lý nhiễu ảnh phổ biến bao gồm: lọc trung bình(mean filtering),lọc trung vị (median filtering), lọc Gauss,

cao và có chú thích chính xác có thể tốn kém và mất thời gian Tăng cường dữ liệugiúp nhân tạo dữ liệu hiện có, từ đó cải thiện hiệu quả mô hình mà không cần thuthập thêm dữ liệu Một số phương pháp tăng cường dữ liệu ảnh phổ biến như: xoayảnh, lật ảnh, cắt ảnh, thêm nhiễu, thay đổi độ sáng và độ tương phản,

khoảng từ 0 đến 255, sẽ được chuyển đổi sang khoảng từ 0 đến 1 Điều này đượcthực hiện bằng cách chia mỗi giá trị pixel cho 255 Việc chia tỷ lệ này giúp ổn địnhquá trình huấn luyện bằng cách giữ các giá trị trong một phạm vi nhỏ Quá trìnhnày có thể được được biểu thức hóa như sau:

xnorm= x− xmin

Trang 26

với x là giá trị RGB gốc, xminvà xmax lần lượt là giá trị RGB nhỏ nhất và lớn nhấtcủa các ảnh trong tập dữ liệu Sau đó, các giá trị pixel của ảnh được chuẩn hóa thêmbằng cách sử dụng giá trị trung bình (mean) và độ lệch chuẩn (standard deviation).Bước này đảm bảo rằng các giá trị pixel được tập trung quanh số 0 và có độ lệchchuẩn bằng 1, giúp tăng tốc độ hội tụ của quá trình huấn luyện Quá trình này cóthể được biểu thức hóa như sau:

cụ thể của hình ảnh, giúp loại bỏ các phần không liên quan hoặc làm nổi bật cácđặc trưng quan trọng

b) Một số kỹ thuật tiền xử lý dữ liệu phổ biến cho bài toán xử lý ngôn ngữ:

token) Điều này có thể được thực hiện ở các mức độ khác nhau như mức từ, mứcphân từ, hoặc mức ký tự

thành chữ thường để đảm bảo tính nhất quán, vì ‘Word’ và ‘word’ nên được xử lýnhư nhau

chúng thường không đóng góp nhiều vào ý nghĩa trong nhiều tác vụ NLP

Các phương pháp phổ biến bao gồm: Bag of Words (BoW) - biểu diễn văn bản dưới dạng tần suất của các từ TF-IDF (Term Frequency-Inverse Document Frequency)

- điều chỉnh tần suất từ theo mức độ hiếm của từ đó trong các tài liệu Word

Embeddings - sử dụng các mô hình như Word2Vec, GloVe, hoặc FastText để nắmbắt ý nghĩa ngữ nghĩa

Trang 27

• Điều chỉnh độ dài chuỗi (Sequence Padding)Đảm bảo tất cả các chuỗi văn bảntrong một tập dữ liệu có cùng độ dài bằng cách cắt bớt chuỗi dài hơn hoặc phổ biếnhơn là thêm đệm vào chuỗi ngắn hơn bằng các token đệm, các token này thường là

‘PAD’, mục đích chính là để đưa dữ liệu vào các mạng neural

các từ không có trong từ điển huấn luyện bằng cách sử dụng một token đặc biệt (vídụ: ‘UNK’)

2.4.3 Các chỉ số đánh giá mô tả ảnh

Trong lĩnh vực mô tả ảnh, các chỉ số đánh giá (metric) được sử dụng để đo lườngmức độ chính xác và chất lượng của các câu mô tả mà mô hình tạo ra so với các câu mô

tả tham chiếu Một số chỉ số đánh giá phổ biến bao gồm:

lường mức độ trùng khớp giữa các n-grams, các cụm từ và các chuỗi ký tự của câu

mô tả được tạo ra với câu tham chiếu ROUGE thường được sử dụng trong cácnhiệm vụ tóm tắt văn bản và mô tả ảnh [3] ROUGE-L là một biến thể phổ biếncủa ROUGE, tập trung vào độ dài chuỗi con chung dài nhất (Longest CommonSubsequence - LCS) Công thức tính của ROUGE-L như sau:

phổ biến, được sử dụng rộng rãi để đánh giá chất lượng của các mô hình dịch máy

và mô tả ảnh Chỉ số này so sánh n-grams (các cụm từ có độ dài n) của câu mô

tả được tạo ra với các câu mô tả tham chiếu và tính toán mức độ trùng khớp [4].Công thức tính của BLEU như sau:

Trang 28

trong đó BP là hình phạt ngắn gọn (Brevity Penalty), điều chỉnh để tránh việc ưutiên các bản dịch ngắn hơn, pn là tỷ lệ n-gram chính xác cho mỗi n và wn là trọng

số cho mỗi n-gram

• METEOR (Metric for Evaluation of Translation with Explicit ORdering):

METEOR đánh giá các câu mô tả dựa trên mức độ khớp về ngữ nghĩa giữa từngữ trong câu mô tả được tạo ra và câu tham chiếu Chỉ số này cải thiện so vớiBLEU bằng cách xem xét các từ đồng nghĩa và dạng biến thể của từ [5] Công thứctính METEOR như sau:

trong đó Fmean là giá trị trung bình của Precision và Recall Penalty là hình phạtdựa trên sự sắp xếp lại từ và các đoạn không khớp, giúp giảm điểm cho các bảndịch có cấu trúc kém hoặc sắp xếp từ sai

lượng của các câu mô tả bằng cách sử dụng đồng thuận giữa nhiều câu mô tả thamchiếu Chỉ số này chú trọng vào ngữ nghĩa và độ tự nhiên của câu mô tả [6] Côngthức tính CIDEr như sau:

gnj là các n-gram trong chú thích j, Ci là văn bản tham khảo thứ i, S là văn bảnđược tạo ra, Count(a, b) là số lần xuất hiện của a trong b, IDFn là trọng số nghịch

n-gram n, thường được đặt là 1 Ngoài ra còn có biến thể CIDEr-D, biến thể nàythêm vào một yếu tố giảm trọng số (discounting) để giảm thiểu ảnh hưởng của cácn-gram xuất hiện quá thường xuyên, giúp tập trung vào các n-gram có giá trị thôngtin cao hơn Điều này được thực hiện bằng cách điều chỉnh trọng số IDF, sao chocác n-gram phổ biến ít được trọng số hơn

vào việc đánh giá các khía cạnh ngữ nghĩa của câu mô tả bằng cách chuyển cáccâu thành các đồ thị ngữ nghĩa và so sánh các đồ thị này giữa câu mô tả được tạo

ra và câu tham chiếu [7] Công thức tính của SPICE như sau:

Trang 29

Những chỉ số đánh giá này cung cấp các góc nhìn khác nhau về chất lượng của mô hình

mô tả ảnh, giúp các nhà nghiên cứu và phát triển hiểu rõ hơn về hiệu suất của mô hình

và cải thiện nó để đạt được các kết quả tốt hơn

2.4.4 Các kỹ thuật huấn luyện mô hình mô tả ảnh

Các mô hình mô tả ảnh phổ biến hiện nay như OSCAR (Object-Semantics AlignedPre-training), Image Captioning Transformer, NIC (Neural Image Caption), đều sởhữu kiến trúc encoder-decoder và bao gồm cả một backbone đã huấn luyện sẵn làmnhiệm vụ trích xuất đặc trưng ảnh Với kiến trúc phức tạp như thế, việc huấn luyện từđầu (training from scratch) sẽ yêu cầu một lượng lớn dữ liệu và thời gian huấn luyện,điều này kiến cho việc huấn luyện trở nên khó khăn cũng như hao tốn nhiều tài nguyên

Do đó, các kỹ thuật huấn luyện đặc biệt đã được áp dụng cho các mô hình mô tả ảnh đểgiải quyết vấn đề nêu trên, chúng bao gồm:

• Sử dụng trọng số đã được huấn luyện trước (Transfer Learning): Fine-tuning

- phương pháp này bao gồm việc sử dụng một mô hình đã được huấn luyện trướctrên một tập dữ liệu lớn (ví dụ: ImageNet) và điều chỉnh các trọng số của mô hìnhnày trên tập dữ liệu cụ thể của bạn Đây là phương pháp phổ biến cho các mô

hình có backbone Feature Extraction - trong phương pháp này, các trọng số của

backbone (thường là một mạng CNN đã được huấn luyện trước) được giữ cố định

và chỉ các lớp phía trên (decoder) được huấn luyện Điều này giúp giảm thiểu thờigian huấn luyện và yêu cầu ít dữ liệu hơn

thường có trình tự như sau: Giai đoạn 1 - chỉ huấn luyện phần encoder hoặc phần backbone để nắm bắt các đặc trưng cơ bản của hình ảnh Giai đoạn 2 - khóa các

trọng số của phần backbone và huấn luyện phần decoder để học cách tái tạo hoặc

mô tả hình ảnh từ các đặc trưng đã được mã hóa Giai đoạn 3 - huấn luyện toàn bộ

mô hình với một tốc độ học nhỏ để tinh chỉnh cả encoder và decoder cùng lúc

hai dạng như sau: Semi-Supervised Learning - sử dụng một lượng nhỏ dữ liệu có

gán nhãn kết hợp với một lượng lớn dữ liệu không gán nhãn để cải thiện hiệu suất

của mô hình Self-Supervised Learning - tạo các nhiệm vụ tự giám sát để huấn

luyện mô hình, chẳng hạn như dự đoán phần bị che khuất của hình ảnh hoặc dựđoán tương lai của một chuỗi hình ảnh

Trang 30

2.5 Tổng quan về trả lời câu hỏi bằng hình ảnh

Trả lời câu hỏi bằng hình ảnh (Visual Q & A) là một phương pháp trong lĩnh vực

xử lý ngôn ngữ tự nhiên và thị giác máy tính nơi mà một hình ảnh được sử dụng để trảlời một câu hỏi liên quan đến nội dung của hình ảnh đó Phương pháp này thường kếthợp giữa việc hiểu nội dung của hình ảnh và hiểu nội dung của câu hỏi để đưa ra câu trảlời chính xác Các hệ thống trả lời câu hỏi bằng hình ảnh thường sử dụng các mô hìnhhọc sâu như CNN để trích xuất đặc trưng từ hình ảnh và các mô hình như RNN, LSTMhoặc Transformer để hiểu nội dung của câu hỏi và tạo ra câu trả lời

Quá trình này thường bao gồm các bước sau:

Transformer hoặc BERT

chế chú ý (attention) hoặc cơ chế tự chú ý (self-attention) để kết hợp thông tin từ

cả hai nguồn hình Cơ chế này giúp mô hình tập trung vào các phần quan trọngcủa hình ảnh và văn bản khi đưa ra dự đoán hoặc trả lời câu hỏi

Ứng dụng của việc trả lời câu hỏi bằng hình ảnh rất đa dạng và bao gồm việc tạo

ra các hệ thống trả lời câu hỏi tự động cho các hình ảnh y tế, giáo dục, thị trường và giảitrí Đồng thời, nó cũng có thể được sử dụng để xây dựng các công cụ hỗ trợ cho ngườikhiếm thị hoặc những người gặp khó khăn trong việc xử lý văn bản

2.6 Giới thiệu về các công nghệ sử dụng

2.6.1 Ngôn ngữ lập trình Python:

Python là ngôn ngữ lập trình bậc cao, đa năng, được tạo ra bởi Guido van Rossum

và ra mắt lần đầu tiên vào năm 1991 Python được thiết kế với ưu điểm dễ đọc, dễ học

và dễ nhớ, giúp nó trở thành một ngôn ngữ phổ biến cho nhiều đối tượng người dùng, từngười mới bắt đầu đến lập trình viên chuyên nghiệp [8]

Một số ưu điểm của Python:

• Dễ học, dễ sử dụng: Python là ngôn ngữ dễ học nhất trong số các ngôn ngữ lập

trình phổ biến hiện nay Nhờ cú pháp đơn giản, rõ ràng và gần gũi với ngôn ngữ tựnhiên, Python giúp người mới bắt đầu có thể dễ dàng tiếp cận và học ngôn ngữ

Trang 31

• Năng suất cao: Python cho phép viết mã ngắn gọn, súc tích, giúp tăng năng suất

lập trình

• Đa năng: Python có thể được sử dụng cho nhiều mục đích khác nhau như phát

triển web, khoa học dữ liệu, học máy, trí tuệ nhân tạo, tự động hóa,

• Đa nền tảng: Python có thể chạy trên nhiều hệ điều hành khác nhau như Windows,

macOS, Linux,

• Cộng đồng lớn: Python có cộng đồng người dùng và nhà phát triển rộng lớn, luôn

sẵn sàng hỗ trợ và chia sẻ kiến thức

Một số nhược điểm của Python:

• Tốc độ: Python là ngôn ngữ được thông dịch, do đó nó có tốc độ thực thi chậm

hơn so với các ngôn ngữ được biên dịch như C++ hoặc Java

• Bộ nhớ: Python sử dụng bộ nhớ động, do đó nó có thể tốn nhiều bộ nhớ hơn so với

các ngôn ngữ được quản lý bộ nhớ thủ công

Các ứng dụng của Python:

• Phát triển web: Python được sử dụng rộng rãi để phát triển các ứng dụng web

back-end, framework phổ biến như Django và Flask

• Khoa học dữ liệu: Python là ngôn ngữ hàng đầu trong lĩnh vực khoa học dữ liệu

nhờ các thư viện mạnh mẽ như NumPy, Pandas, Scikit-learn

• Học máy: Python được sử dụng để phát triển các mô hình học máy và trí tuệ nhân

tạo nhờ các thư viện như TensorFlow, PyTorch

• Tự động hóa: Python được sử dụng để tự động hóa các tác vụ thủ công, giúp tiết

kiệm thời gian và công sức

• Phát triển game: Python được sử dụng để phát triển các trò chơi 2D và 3D nhờ

các thư viện như PyGame

• Giáo dục: Python được sử dụng để giảng dạy lập trình cho học sinh và sinh viên

nhờ tính dễ học và dễ sử dụng

Trang 32

2.6.2 Thư viện học sâu PyTorch:

PyTorch là một thư viện mã nguồn mở được viết bằng Python, được sử dụng chocác ứng dụng học máy, đặc biệt là học sâu Nó được phát triển bởi Facebook Research

và cộng đồng mã nguồn mở PyTorch được biết đến với sự linh hoạt, dễ sử dụng và hiệuquả, giúp nó trở thành một trong những lựa chọn phổ biến cho các nhà nghiên cứu và kỹ

sư học máy [9]

Một số ưu điểm của PyTorch:

• Dễ sử dụng: PyTorch có cú pháp đơn giản, trực quan, dễ học và dễ sử dụng, ngay

cả đối với những người mới bắt đầu học về học máy

• Linh hoạt: PyTorch cho phép người dùng tự do xây dựng mô hình học máy của

riêng họ, kết hợp các kỹ thuật học máy khác nhau và sử dụng các thư viện bênngoài

• Hiệu quả: PyTorch sử dụng các thuật toán tối ưu hóa hiệu suất cao, giúp tăng tốc

độ đào tạo và triển khai mô hình

• Cộng đồng lớn: PyTorch có cộng đồng người dùng và nhà phát triển rộng lớn,

luôn sẵn sàng hỗ trợ và chia sẻ kiến thức

• Nhiều tài liệu: PyTorch có nhiều tài liệu hướng dẫn, bài viết và video hướng dẫn,

giúp người dùng dễ dàng học hỏi và sử dụng thư viện

Một số tính năng nổi bật của PyTorch:

• Hệ thống tensor: PyTorch sử dụng hệ thống tensor để biểu diễn dữ liệu và các

phép toán học máy, giúp đơn giản hóa việc viết và thực thi mã

• Chế độ tự động đạo hàm: PyTorch hỗ trợ chế độ tự động đạo hàm, giúp tự động

tính toán các đạo hàm của các hàm học máy, tiết kiệm thời gian và công sức chongười dùng

• Hỗ trợ GPU: PyTorch hỗ trợ sử dụng GPU để tăng tốc độ đào tạo và triển khai mô

hình

• Nhiều mô hình học sẵn: PyTorch cung cấp nhiều mô hình học sẵn cho các nhiệm

vụ học máy phổ biến như phân loại ảnh, xử lý ngôn ngữ tự nhiên, nhận dạng giọngnói,

Một số ứng dụng của PyTorch:

Trang 33

• Nhận dạng ảnh: PyTorch được sử dụng để phát triển các mô hình nhận dạng ảnh,

phân loại ảnh, xác định đối tượng trong ảnh,

• Xử lý ngôn ngữ tự nhiên: PyTorch được sử dụng để phát triển các mô hình xử lý

ngôn ngữ tự nhiên, dịch máy, tóm tắt văn bản, phân tích tình cảm,

• Nhận dạng giọng nói: PyTorch được sử dụng để phát triển các mô hình nhận dạng

giọng nói, chuyển đổi giọng nói, hiểu ngôn ngữ tự nhiên,

• Khuyến nghị hệ thống: PyTorch được sử dụng để phát triển các hệ thống đề xuất

sản phẩm, phim ảnh, âm nhạc,

• Chơi game: PyTorch được sử dụng để phát triển các mô hình trí tuệ nhân tạo cho

trò chơi, tạo ra các nhân vật ảo thông minh

2.6.3 Khung phần mềm lập trình web Streamlit:

Streamlit là một khung phần mềm dùng cho việc xây dựng ứng dụng web mã nguồn

mở được viết bằng Python, giúp đơn giản hóa quá trình xây dựng và triển khai các ứngdụng web tương tác Streamlit được thiết kế để giúp các nhà khoa học dữ liệu, kỹ sư họcmáy và các nhà phát triển khác dễ dàng chia sẻ kết quả công việc của họ với người khácthông qua các ứng dụng web trực quan và đẹp mắt [10]

Một số ưu điểm của Streamlit:

• Dễ sử dụng: Streamlit sử dụng cú pháp Python đơn giản, trực quan, giúp người

dùng dễ dàng tạo ra các ứng dụng web mà không cần nhiều kiến thức về lập trìnhweb

• Nhanh chóng: Streamlit cho phép người dùng xây dựng và triển khai các ứng dụng

web chỉ trong vài phút

• Tương tác: Streamlit hỗ trợ tạo các ứng dụng web tương tác với các biểu đồ,

widget và các thành phần giao diện người dùng khác

• Tùy chỉnh giao diện: Streamlit cho phép người dùng tùy chỉnh giao diện của ứng

dụng web bằng CSS

• Chia sẻ: Streamlit giúp người dùng dễ dàng chia sẻ các ứng dụng web của họ với

người khác thông qua URL hoặc nền tảng lưu trữ đám mây

• Miễn phí: Streamlit là mã nguồn mở và miễn phí sử dụng.

Một số ứng dụng của Streamlit:

Trang 34

• Trực quan hóa dữ liệu: Streamlit được sử dụng để tạo các ứng dụng web trực

quan hóa dữ liệu, giúp người dùng dễ dàng khám phá và hiểu dữ liệu

• Học máy: Streamlit được sử dụng để xây dựng các ứng dụng web cho phép người

dùng tương tác với các mô hình học máy và dự đoán

• Báo cáo: Streamlit được sử dụng để tạo các báo cáo web tương tác để chia sẻ kết

quả nghiên cứu và phân tích dữ liệu

• Giáo dục: Streamlit được sử dụng để tạo các ứng dụng web giáo dục giúp học sinh

và sinh viên học tập các khái niệm khoa học dữ liệu và học máy

• Nguyên mẫu: Streamlit được sử dụng để tạo các nguyên mẫu nhanh chóng cho

các ứng dụng web mới

2.6.4 Dịch vụ EC2 trong Amazon Web Services

Amazon Elastic Compute Cloud (Amazon EC2) là dịch vụ điện toán đám mây cungcấp các máy chủ ảo có thể mở rộng theo nhu cầu trên nền tảng đám mây Amazon WebServices (AWS) EC2 cho phép người dùng thuê và quản lý các máy chủ ảo (instance)như máy chủ vật lý riêng, nhưng với khả năng linh hoạt và hiệu quả hơn nhiều

Một số ưu điểm của Amazon EC2:

dung lượng máy tính theo nhu cầu sử dụng

lưu trữ và hệ điều hành khác nhau để phù hợp với nhiều nhu cầu sử dụng khácnhau

cho những gì họ sử dụng

Một số ứng dụng của Amazon EC2:

web

Trang 35

• Big data: EC2 được sử dụng để xử lý và phân tích dữ liệu lớn.

2.6.5 OpenAI API

OpenAI API là một tập hợp các giao diện lập trình ứng dụng (API) cho phép cácnhà phát triển tích hợp các mô hình ngôn ngữ và trí tuệ nhân tạo của OpenAI vào các ứngdụng của họ API cung cấp quyền truy cập vào các mô hình như GPT, Codex, DALL-E2, với nhiều chức năng như tạo văn bản, dịch ngôn ngữ, viết mã, tạo hình ảnh [11].Các ưu điểm của OpenAI API:

hợp các mô hình ngôn ngữ và trí tuệ nhân tạo tiên tiến nhất của OpenAI vào cácứng dụng của họ

mới mẻ và sáng tạo bằng cách sử dụng các khả năng của mô hình ngôn ngữ và trítuệ nhân tạo

gian và công sức cho các nhà phát triển

Một số mô hình phổ biến có trong OpenAI API:

ngôn ngữ tự nhiên

Các ứng dụng của OpenAI API:

với con người một cách tự nhiên và thông minh

hỗ trợ sáng tạo giúp các nhà văn, nghệ sĩ, nhà thiết kế, trong công việc của họ

Trang 36

• Công cụ giáo dục: OpenAI API có thể được sử dụng để tạo ra các công cụ giáodục giúp học sinh học tập hiệu quả hơn.

hàng tự động và hiệu quả

2.6.6 Tập dữ liệu Microsoft Common Object in Context

Tập dữ liệu Microsoft Common Objects in Context (MS-COCO) là một tập dữ liệulớn được thiết kế để nâng cao trình độ của các thuật toán trong thị giác máy tính và họcmáy Nó chứa các hình ảnh về những cảnh sinh hoạt hàng ngày với các đối tượng thôngthường trong bối cảnh tự nhiên, làm cho nó rất hữu ích cho nhiều tác vụ thị giác khácnhau [12]

Tập dữ liệu mô tả hình ảnh trong MS-COCO được chọn lọc đặc biệt để hỗ trợnhiệm vụ tạo ra các mô tả văn bản mô tả nội dung của hình ảnh một cách mạch lạc vàchi tiết, một số ví dụ về hình ảnh có trong tập dữ liệu MS-COCO và mô tả văn bản củachúng được thể hiện ở Hình 2.3 Dưới đây là các đặc điểm chính của bộ dữ liệu này:

nhau, do các nhà chú thích cung cấp Các mô tả này miêu tả nội dung hình ảnhbằng ngôn ngữ tự nhiên, nắm bắt các khía cạnh và chi tiết khác nhau

hoạt động, với các đối tượng xuất hiện ở các vị trí, tương tác và điều kiện ánh sángkhác nhau Sự đa dạng này đảm bảo rằng các mô hình được huấn luyện trên bộ dữliệu này có thể xử lý sự phức tạp của thế giới thực

có nhãn và hơn 80.000 trong số đó có chú thích mô tả Quy mô lớn này cung cấpnền tảng vững chắc để huấn luyện các mô hình học sâu

phân đoạn đối tượng và định vị, cho phép các kịch bản huấn luyện và đánh giá đachiều

và kiểm tra, tạo điều kiện thuận lợi cho việc đánh giá và so sánh nhất quán giữacác mô hình khác nhau

Ngày đăng: 19/12/2024, 14:56

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w