50 3.3.7 So sánh giữa mô hình SmallCap với các hướng tiếp cận hiện có về [ số lượng tham số mô hình lan về chất lượng của câu mô tả được [ sinh ra trên tập dữ liệu COCOHT| Nguồn: paperl2
Trang 1ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
LƯƠNG PHAM BẢO
DOAN NGUYEN NHẬT QUANG
ĐÁNH GIA KIEN TRÚC MÔ HÌNH NGON
NGỮ DỰA TRÊN TRANSFORMER KẾT HỢP
VỚI ĐẶC TRƯNG NGÔN NGỮ-HÌNH ẢNH
ĐƯỢC ĐÀO TẠO TRƯỚC CHO BÀI TOÁN
SINH MÔ TA ANH TIENG VIET
CU NHAN NGANH KHOA HOC MAY TINH
TP HO CHi MINH, 2022
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HOC MAY TiNH
LƯƠNG PHAM BẢO - 19521242
DOAN NGUYEN NHẬT QUANG - 19520235
KHÓA LUẬN TỐT NGHIỆP
ĐÁNH GIÁ KIEN TRÚC MÔ HÌNH NGÔN
NGỮ DUA TREN TRANSFORMER KET HỢP
VGI DAC TRUNG NGON NGU-HINH ANH
DUGC DAO TAO TRUGC CHO BAI TOAN
SINH MO TA ANH TIENG VIET
CỬ NHÂN NGANH KHOA HOC MAY TÍNH
GIANG VIEN HUGNG DAN
TS LE MINH HUNG
TP HO CHi MINH, 2022
Trang 3DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
ngầy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
1 = Chủ tịch.
Am - Thư ký.
` - Uy vién.
Trang 4LỜI CẢM ƠN
Lời đầu tiên, chúng em xin chân thành cảm ơn đội ngũ cán bộ, giảng viên,công nhân viên trường Đại học Công nghệ thông tin Đặc biệt là gửi lời cảm ơnsâu sắc đến thầy Lê Minh Hưng đã dẫn dắt chúng em từ những bước đầu tiên,
cho chúng em nhiều kiến thức cũng như nhiều bài học quý báu để tạo điều kiện
cho chúng em thực hiện khoá luận này Bên cạnh đó, chúng em cũng gửi lời cảm
ơn đến anh Đặng Văn Thìn đã hỗ trợ chúng em rất nhiều trong quá trình thực hiện khoá luận này Ngoài ra, chúng em cũng gửi lời cảm ơn đến các bạn cộng
tác viên đã phụ giúp trong quá trình làm dữ liệu của nhóm Cảm ơn gia đình
đã luôn ủng hộ chúng em Em xin chân thành cảm ơn tất cả mọi người đã cho
chúng em những góp ý quý báu để chúng em hoàn thiện hơn
Ngoài những kiến thức, kỹ năng đã được học từ trước đến nay, chúng em
cũng đã cố gắng tìm hiểu những kiến thức mới để có thể thực hiện khoá luận
này Trong quá trình thực hiện còn nhiều sai sót, mong thầy cô góp ý để chúng
em kịp thời sửa chữa, bổ sung và đó cũng là hành trang để giúp chúng em tự
tin hơn trong công việc sau này.
Xin chân thành cảm ơn!
Lương Phạm Bảo - Doàn Nguyễn Nhật Quang
Trang 5Mục lục
1 Tổng quan 1
1 Giới thiệu đề tài 1
1.1.1 Giới thiệu bài toán sinh mô tả ảnh | 2
1.1.2 Ứng dụng của bài toán sinh mô tả Anh 2
3
3 5
5
7
8
2.1 Các hướng tiếp cận đối với bài toán sinh mô ta ảnh| 9
cải tiến bộ mã hóa hình ảnh 9
2.1.2 Hướng cải tiến mô hình ngôn ngữ 12
Trang 63.1 Mô hình đặc trưng ngôn ngữ-hình ảnh được đào tạo trước (CLIP)| 30
B.1.1 Tổng quan về mô hình CUIP| - 30
3.1.2 Hướng tiếp cận của mô hình CLIP 30
3.1.3 Kiến trúc mô hình và cách thức hoạt động] ee 33
3.2_ Mô hình ngôn ngữ dựa trên Transformer| 36
3.2.1 Tổng quan mô hình ngôn ngữ GPT-2| ¬ 36
3.2.2_ Hướng tiếp cận của mô hình GPT-2| 3ĩ
3.23 Kiến trúc môhình| 39
3.3 Áp dụng vào bài toán sinh mô tả ảnh| ¬ ee 40
3.3.1 Mô hình ChpCap| 40
3.3.2 Mô hình SmallCap] ¬ 51 B33
MohnhCapbej : 62
65 4.1 BoOdt@ligul 0.6 ee ee 66
4.2 Độ đođánhgiá 67
M22 ROUGRH| 71 4.2 TDRn| 71
Trang 76.2 Hướng p hat trien
5.3 Giao diện ứng dung Ta
5.4 Đánh giá ứng dụng| ee ee
90
90
91 91 92 93
94
Trang 8Danh sách hình vẽ
1.1.1 Minh hoa đầu vào-đẩu ra của bài toán| 2
1.1.2 Minh họa ứng dụng bài toán| See 3
1.3.1 Minh hoa thách thức bai toán| - 4 1.3.2 Minh họa thách thức bài toán| - 4
2.1.1 Các hướng tiếp cận liên quan đối với bài toán sinh mô tả anh} 9
2.1.2 (a) Dac trưng CNN toàn cục; (b) Đặc trưng chỉ tiết được trích
xuất từ kích hoạt lớp tích chập, cùng với đó là cơ chế tập trun
dẫn bởi mô hình ngôn ngữ; (c) Đặc trưng hình ảnh theo vùng
=Ẳ 4 ÔÉÔ'.`.ÓÚ Š ŠŠ—— 0
2.1.3 Tóm tắt 2 chiến lược mã hóa hình ảnh cho bài toán sinh mô tả
2.1.4 Lược đồ về hướng tiếp cận sử dụng mô hình ngôn ngữ dựa trên
Po LEPM Qua 2
2.1.5 Lược đồ về hướng tiếp cận sử dung mô hình ngôn ngữ dua trên
Translormerl cSS ee 2
2.1.6 Lược đồ về hướng tiếp cận sử dụng mô hình ngôn ngữ dựa trên
kiến trúc tương tự BERT| 3
2.1.7 Mô hình kiến trúc VLPÌ - 6
2.2.1 Kiến trúc mạng RNN| 8
Trang 92.2.2 Dữ liệu được vector hoá và đưa vào mô hình xử lý lần lượt từng
2.2.3 Quá trình tính trạng thái ẩn của RNN| 20
2.2.4 Kiến trúc Transformerl - 21
2.2.5 Ví dụ trực quan hóa của SelEattetion| 23
2.2.6 Quá trình tính toán vector attention| - 24
2.2.7 Quá trình tính toán vector attention với nhiều đầu| 26
2.2.8 Các thành phan trong bộ mã hóa của Transformer| ¬ 27 2.2.9 Các thành phần trong bộ giải mã của Transformer| 28
3.1.1 Tạo nhãn mới là câu ngôn ngữ tự nhiên từ tập lớp của các đối tượng cho trước} ca 32 3.1.2 Mã giả mô tả cách cốt lõi để thực thi mô hình CLIP| 33
trưng hình ảnh và một bộ phân loại tuyến tính để dự đoán của các hình đó thì CLIP cùng lúc đào tạo một bộ mã hóa hình ảnh và một bộ mã hóa văn bản để dự đoán được chính xác cặp (hình ảnh, văn bản) Trong đó, nhãn là cả một văn bản mô tả bức ảnh tương ứng, chỉ tiết hơn nhãn phân loại truyền thống 3.1.4 Sử dụng CLIP như một bộ phân loại zero-shot Chuyển tất cả lớp của đối tượng trong ảnh cho trước thông qua việc sử CLIP để ước tính câu mô tả nào là khớp nhất với bức ảnh đã cho.| 35
3.2.1 Tổng quan kiến trúc mô hình GPT-2 Mô hình GPT-2 có thể xử lý đầu vào được 1024 tokens.| ¬ 39 3.3.1 5o sánh mô hình ClipCap với các h SOTAs (Nguồn: paper[18|) 3.3.2 Tổng quan kiến trúc mô hình ClipCap.| - 42
3.3.3 Phương pháp Adapter-tuning (Nguồn: paper[l2l)| 46
Trang 103.3.4 Ap dụng phương pháp Prefix-tuning trên mô hình ngôn ngữ
GPT-2 (Nguồn: paperHỗl)| 47
3.3.5 Kiến trúc mô hình MLP mapping với prefix length=10| ¬ 49
3.3.6 Kiến trúc mô hình Transformer Mapping| 50
3.3.7 So sánh giữa mô hình SmallCap với các hướng tiếp cận hiện có về
[ số lượng tham số mô hình lan về chất lượng của câu mô tả được
[ sinh ra trên tập dữ liệu COCOHT| (Nguồn: paperl25l)| 52
3.3.8 Kiến trúc mô hình SmallCap| : 53
3.3.9 So sánh 2 cơ chế Cross-attetion với Self-attention (Nguồn: InternetlJ| 54
3.3.10Tổng quan cơ chế Cross-attention trong mô hình Smal Cap] ¬ 5D
-liCach thức hoạt động của Cross-attetion.| - 56
3.3.15ử dụng prompt để đưa vào mô hình GPT-3 (Nguồn: 57
3.3.13Minh hoa cho mô hình đào tạo trước được tinh chỉnh dựa trên
[ prompt (Nguồn: paper BỈ)| 58
3.3.144iến trúc mô đun truy van văn bản từ hình ảnh của mô hình
THEEEEEaINIaR 7A
4.3.4 Pipeline tăng cường dữ liệu hoàn chinh| 75
4.4.1 Ví du mẫu về các lỗi sai của câu mô tả do may sinh raj 79
Trang 114.5.1 Một số kết quả trên bộ VieCap4H Trong đó, a) là mô hình
Small-; dòng vừa được in
[ có gạch chân là câu mô tả đúng và đầy đủ hơn câu của mô hình
Cap và b) là mô hình ClipCap; dòng bình thường là câu mô tả
[ sai; dòng in đậm là câu mô tả đúng; dòng vừa được in đâm vừa
[ Cap và b) là mô hình ClipCap; dòng bình thường là câu mô tả
[ sai; dòng in đậm là câu mô tả đúng; dòng vừa được in đâm vừa
4.5.4 Một số kết quả trên bộ UIT-ViIC Trong đó, a) là mô hình Smal
[ Cap và b) là mô hình ClipCap; dòng bình thường là câu mô tả
[ sai; dòng in đậm là câu mô tả đúng; dòng vừa được in đâm vừa
con lai} a 89
5.2.1 Sơ đồ hoạt động ứng dụng] ¬ 92
5.3.1 Giao diện ứng dụng ban đầu| 935.3.2 Minh họa kết quả chạy thử| 94
Trang 12Danh sách bảng
4.1.1 Thống kê thông số của 2 bộ dữ
liệu| -4.3.1 Kết quả so sánh các phép back translation|
4.4.1 Kết quả đánh giá bằng con người trên bộ dữ liệu VietCap4H|
4.4.2 Kết quả đánh giá bằng con người trên bộ dữ liệu UIT-ViC] va
4.4.3 Kết quả so sánh lỗi của các mô hình trên bộ dữ liệu VietCap4
4.4.4 Kết quả so sánh lỗi của các mô hình trên bộ dữ liệu UIT-ViIC]
4.4.5 Kết quả so sánh các mô hình ngôn ngữ GPT2 dành cho Tiếng Việt | 814.4.6 Thực nghiệm mô hình ClipCap và CapDec trên tập dữ liệu Viet-
JITLVNIG|
4.4.9 Thực nghiệm mô hình SmallCap trên bộ dữ liệu UIT-VIC|
4.5.1 Kết quả so sánh các mô hình sinh mô tả ảnh trên bộ dữ liệu
Trang 13Danh mục các ký hiệu, chữ viết tắt
Từ viết tắt | Nội dung
DL Deep Learning
CV Computer Vision
NLP Natural Language Processing
SOTA State Of The Art
CNN(s) Convolutional Neural Networks
RNN(s) Recurrent Neural Networks
LSTM Long Short Term Memory Seq2Seq Sequence to Sequence
Conv Convolution
ANN(s) Artificial Neural Networks
VLP Vision-Language Pretraining CLIP Contrastive Language-Image
Pretraining GPT Generative Pre-trained Transformer BERT Bidirectional Encoder Representation
from Transformer
BART Bidirectional and Auto-Regressive
Transformer
Trang 14Tóm tắt
Một trong các chú đề nghiên cứu tiềm năng hiện nay là các bài toán có
sử dung cả NLP và CV, nổi bật trong đó là bài toán sinh mô tả ảnh (image
captioning) Cùng với sự phát triển Transformer thì các mô hình mạnh mẽ
được huấn luyện trên hàng trăm triệu cũng ra đời chẳng hạn như GPT-2 E4
CLIP [22], Các cách tiếp cận hiện đại nhất cho bài toán này dang tập trung
vào hướng tiếp cận Vision Language Pretraining (VLP), yêu cầu rất nhiều vê
mặt thời gian huấn luyện cũng như lượng dữ liệu (ảnh, nhãn nhận diện) vì vậy
a
sẽ rất khó khi ta triển khai các ứng dựng sủ dung sinh mô tả ảnh trong thực
Vì
On
t vậy trong khóa luận này, chúng tôi nghiên cứu một cách tiếp cận khác
hiệu quả hơn về mặt thời gian huấn luyện và yêu câu dữ liệu nhưng vẫn có hiệu suất cạnh tranh, tận dụng được các mô hình được đào tạo trước ở trên và chỉ
cần đào tạo một số phần rất nhỏ giúp dé dang áp dụng cho các ứng dụng trong
thực tế.
Trang 15Chương 1
Tổng quan
1.1 Giới thiệu đề tài
Ngày nay với sự phát triển của Deep Learning thì cái bài toán về xử lý ảnh
cũng như xử lý ngôn ngữ tự nhiên ngày càng có nhiều cách giải quyết hiệu quả
Từ đó các tác vụ cần có sự kết hợp giữa các hai lĩnh vực trên cũng có những bướctiến đột phá Trong đó bài toán Image Captioning (sinh mô tả từ ảnh) nhậnđược nhiều sự quan tâm và có nhiều nghiên cứu về cách giải quyết bài toán này.Tuy nhiên hiện nay đa phần các nghiên cứu về bài image captioning chủ yếu tập
trung cho ngôn ngữ pho biến chính là Tiếng Anh,Tiếng Nhật,Tiếng Trung,
Trong khóa luận lần này nhóm chúng tôi tập trung và nghiên cứu một hướng
tiếp cận khác phù hợp hơn với các bộ dữ liệu chưa quá nhiều như các dữ liệu
về sinh mô tả ảnh tiếng việt hiện nay, sử dụng các mô hình CLIP(Connecting Image and Text) [22] và các mô hình ngôn ngữ dựa trên kiến trúc transformer
như BART [14, GPT [23] [24] [3] được đào tạo trước trên các bộ dữ liệu chuẩn
để tiết kiệm thời gian huấn luyện và tài nguyên tính toán (số lượng tham số cần
huấn luyện thường dưới 100 triệu) mà vẫn đạt được hiệu suất cạnh tranh với
mô hình tiên tiến khác trên bộ dữ liệu Tiếng Việt Ngoài ra chúng tôi còn kết
hợp với các phương pháp tăng cường dữ liệu khác để tăng cường tính chính xác
Trang 16Trường Đại Học Công Nghệ Thông Tin Tp.Hồ Chí Minh
Khoa Khoa Học Máy Tính
của mô hình, nhằm giúp mô hình khắc phục các vấn đề về mặt thiếu dữ liệu đốivới dữ liệu tiếng việt nói riêng cũng như dữ liệu ngôn ngữ khác nói chung
1.1.1 Giới thiệu bài toán sinh mô tả ảnh
Sinh mô tả ảnh hay Image captioning là một bài toán trong lĩnh vực xử lý
ngôn ngữ tự nhiên (NLP) và xử lý hình ảnh (CV) có nhiệm vụ là tạo ra một mô
tả ngữ nghĩa của một hình ảnh cho người dùng.
e Input: một bức ảnh về các sự vật, đối tượng.
e Output: câu mô tả đầy đủ và hợp lệ mô tả bức ảnh.
Input Output
Dita trẻ mặc váy hong dang leo lên câu
thang theo lôi vào.
Cô gái đi vào một tòa nhà bằng gỗ.
Hình 1.1.1 Minh họa đầu vao-dau ra của bài toán
1.1.2 Ung dụng của bài toán sinh mô ta ảnh
e Cung cấp cho người dùng mô tả cho hình ảnh để họ có thể hiểu rõ hơn về
nội dung của hình ảnh.
e Tạo ra mô tả cho hình ảnh để có thể tìm kiếm hình ảnh dựa trên nội dung
của hình ảnh.
e Tạo ra mô tả cho hình ảnh để có thể hiển thị cho người dùng khi họ không
Khóa luận tốt nghiệp Trang 2
Trang 17Khoa Khoa Học Máy Tính
Trường Đại Học Công Nghệ Thông Tin Tp.Hồ Chí Minh
thể xem được hình ảnh (ví dụ,
hình ảnh bị lỗi).
"người đàn ông mặc "công nhân xây dựng mặc "hai cô gái đang
áo đen đang chơi áo bảo hộ màu cam đang chơi đồ chơi lego."
guitar." làm việc trên đường."
Hình 1.1.2 Minh hoa ứng dung bài toán
1.2 Mô tả đề tài
Bài toán sinh mô tả ảnh là một ài toán có kết hợp giữa xử lý ngôn ngữ tự
nhiên cũng như xử lý ảnh , là một trong các chủ đề được cộng đồng nghiên cứu
AI rất quan tâm cũng như có nhiều ứng dụng thực tế Chính vì vậy chúng ta
cần có khả năng huấn luyện các mô
nhanh cũng như lượng dữ liệu cung
hình sinh mô tả ảnh có thời gian huấn luyện
cấp không quá nhiều Trong khóa luận này,chúng tôi sẽ trình bày chỉ tiết về một hướng tiêp cận tương đối mới cho bài toánsinh mô tả ảnh, một cách tiếp cận áp ứng các yêu cầu trên nhờ việc tận dụng
sức mạnh của các mô hình mạnh mẽ có sẵn đã được đào tạo trước, cũng như một đường ống dữ liệu giúp tăng cường số lượng và chất lượng dữ liệu mô tả
ảnh giúp cải thiện rất nhiều hiệu suất cho bài toán sinh mô tả ảnh
1.3 Thách thức của đề tài
Một số thách thức của đề tài:
Trang 18fas) Trường Đại Hoc Công Nghệ Thông Tin Tp.Hồ Chí Minh
_ Khoa Khoa Hoc Máy Tính
e Các phương pháp về hướng tiếp cận còn khá ít và một số trong chúng không
có công bố mã nguồn
e Mô hình CLIP hiện chỉ được huấn luyện và đào tạo trước trên một số ngôn
ngữ như tiếng Anh, tiếng Nhật, tiếng Trung Quốc, Dẫn đến việc gặp khóhăn khi thử nghiệm các phương pháp cần sử dụng mô đun encode text củaCLIP khi chưa được huấn luyện cho tiếng Việt
e Dữ liệu cho Tiếng Việt còn hạn chế (hiện chỉ có khoảng 2 bộ dữ liệu là công
ố rộng rãi với cộng đồng) và khá nhỏ
e Các mô hình ngôn ngữ cho tiếng Việt còn khá ít cũng như khá chung chung
oặc chưa thích hợp về domain so với bộ dữ liệu
Đối tượng chính Mối quan hệ đến các đối tượng còn lại
Hình 1.3.1 Minh hoa thách thúc bài toán
Caption 1: Người đàn ông mặc áo khoác đang nhìn
xuống hồ.
Caption 2: Một người áo trắng, tóc vàng đứng
trước mặt hồ.
Hình 1.8.2 Minh họa thách thúc bài toán
Khóa luận tốt nghiệp Trang 4
Trang 19Trường Đại Học Công Nghệ Thông Tin Tp.Hồ Chí Minh
Khoa Khoa Học Máy Tính
1.4 Đóng góp của đề tài
Một số đóng góp của khóa luận:
e Khảo sát và trình bày chỉ tiết các hướng tiếp cận dựa trên CLIP và mô hình
ngôn ngữ dựa trên kiến trúc Transformer được đào tạo trước phù hợp cho
dit liệu tiếng Việt.
e Đánh giá dược ưu và nhược điểm của nhóm phương pháp trên, tính khả thi
cho miền tiếng Việt
sÁp dụng một số thử nghiệm và các phương pháp tăng cường dữ liệu dựa
trên các bài toán về CV va NLP để đánh giá và nâng cao chất lượng mô
hình phù hợp với các bộ dữ liêu tiếng Việt.
1.5 Lý do chọn dé tài
Hiện nay các mô hình SOTA cho bài toán sinh mô tả ảnh chủ yếu sử dụng
hướng tiếp cận VLP(vision-language-pretraining), hướng tiếp cận được huấn
luyện trước trên một lượng dữ liệu doi dào gồm các cặp hình ảnh-văn và trích
xuất được tập các đặc trưng về hình ảnh-ngôn ngữ hay đặc trưng đa phươngthức (multimodal features) Từ đó có thể tỉnh chỉnh mô hình để phục vụ cho
các tác vụ cụ thể hơn từ bài toán sinh mô tả ảnh Tuy vậy, với kích thước lớn
của các mô hình sinh mô tả ảnh tiên tiến nhất hiện nay sẽ phải cần một lượng
lớn tài nguyên tính toán để có thể huấn luyện và triển khai mô hình trên các bài
toán thực tế, ngoài ra các mô hình trên còn phụ thuộc vào các object detector
để phát hiện các vật thể cũng như các mối tương quan giữa chúng, vì vậy sẽ khó
khăn cho việc áp dụng các mô hình trên vào thực tế vì khó có thể đáp ứng các
yêu cầu trên, ngoài ra với việc cần nhiều thời gian huấn luyện sẽ khiến chúng ta
có it thời gian để tinh chỉnh và cải thiện mô hình Vì vậy ta cần một mô hình có
số lượng tham số vừa phải , cũng như các mô hình đó có thể được huấn luyệnKhóa luận tốt nghiệp Trang 5
Trang 20Trường Đại Học Công Nghệ Thông Tin Tp.Hồ Chí Minh
Khoa Khoa Học Máy Tính
dé dàng với nhiều bộ dit liệu khác nhau Hiện tại ở bài toán sinh mô tả ảnh
đang có một hướng tiếp cận tiềm năng hơn do tận dụng các mô hình được huấn
luyện sẵn trên các tập dữ liệu lớn như CLIP và GPT2, sử dụng các kiến trúc
cross-attention hoặc mapping network để liên kết các mô hình này với nhau và
tận dụng sức mạnh của các mô hình trên mà vẫn đạt hiệu quả trên các tập dữ
liệu với các ngôn ngữ riêng hoặc phạm vi dữ liệu khác biệt( vì y tế,thể thao,giáo
dục, ) Các bài toán sử dụng ảnh đề tạo ra văn bản, chẳng hạn như sinh mô
tả ảnh(image captioning) hay trả lời câu hỏi bằng hình ảnh( visual question
answering), đã có nhiều nghiên cứu và đã đạt được các kết quả đáng kể Các
mô hình SOTA cho bài toán hầu hết đều sử dụng các mô hình phát hiện đối
tuongự như một bộ mã hoá hình ảnh để nắm bắt các đặc điểm hình ảnh, từ đó
sẽ tao văn bản thông qua bộ giải mã (Decoder) cho văn bản mở rộng các mô
hình ngôn ngữ tổng quát được đào tạo trước để có khả năng tiêu thụ tín hiệu
thị giác.
1 Dịch hình ảnh thành các tính năng nhúng có thể được đào tạo chung với
nhúng mã thông báo.
2 Học cách nhúng hình ảnh tốt có thể hoạt động như tiền tố cho mô hình
ngôn ngữ được đào tạo trước, cố định
3 Sử dụng cơ chế chú ý chéo được thiết kế đặc biệt để kết hợp thông tin trực
quan vào các lớp của mô hình ngôn ngữ.
4 Kết hợp các mô hình tầm nhìn và ngôn ngữ mà không cần đào tạo.
Trong khóa luận này nhóm sẽ sử dụng các cách tiếp cận 2 và 3 là các cách tiếpcận đang thực sự hiệu quả cũng như có nhiều tiềm năng nhất (trong năm 2022
đã có hơn 4 bài báo đề cập đến các hướng tiếp cận này)
Khóa luận tốt nghiệp Trang 6