1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học máy tính: Đánh giá kiến trúc mô hình ngôn ngữ dựa trên transformer kết hợp với đặc trưng ngôn ngữ hình ảnh được đào tạo trước cho bài toán sinh mô tả ảnh tiếng Việt

40 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Đánh giá kiến trúc mô hình ngôn ngữ dựa trên transformer kết hợp với đặc trưng ngôn ngữ-hình ảnh được đào tạo trước cho bài toán sinh mô tả ảnh tiếng Việt
Tác giả Lương Phạm Bảo, Doan Nguyễn Nhật Quang
Người hướng dẫn TS. Lê Minh Hưng
Trường học Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành Khoa học máy tính
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2022
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 40
Dung lượng 11,1 MB

Nội dung

50 3.3.7 So sánh giữa mô hình SmallCap với các hướng tiếp cận hiện có về [ số lượng tham số mô hình lan về chất lượng của câu mô tả được [ sinh ra trên tập dữ liệu COCOHT| Nguồn: paperl2

Trang 1

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

LƯƠNG PHAM BẢO

DOAN NGUYEN NHẬT QUANG

ĐÁNH GIA KIEN TRÚC MÔ HÌNH NGON

NGỮ DỰA TRÊN TRANSFORMER KẾT HỢP

VỚI ĐẶC TRƯNG NGÔN NGỮ-HÌNH ẢNH

ĐƯỢC ĐÀO TẠO TRƯỚC CHO BÀI TOÁN

SINH MÔ TA ANH TIENG VIET

CU NHAN NGANH KHOA HOC MAY TINH

TP HO CHi MINH, 2022

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HOC MAY TiNH

LƯƠNG PHAM BẢO - 19521242

DOAN NGUYEN NHẬT QUANG - 19520235

KHÓA LUẬN TỐT NGHIỆP

ĐÁNH GIÁ KIEN TRÚC MÔ HÌNH NGÔN

NGỮ DUA TREN TRANSFORMER KET HỢP

VGI DAC TRUNG NGON NGU-HINH ANH

DUGC DAO TAO TRUGC CHO BAI TOAN

SINH MO TA ANH TIENG VIET

CỬ NHÂN NGANH KHOA HOC MAY TÍNH

GIANG VIEN HUGNG DAN

TS LE MINH HUNG

TP HO CHi MINH, 2022

Trang 3

DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số

ngầy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

1 = Chủ tịch.

Am - Thư ký.

` - Uy vién.

Trang 4

LỜI CẢM ƠN

Lời đầu tiên, chúng em xin chân thành cảm ơn đội ngũ cán bộ, giảng viên,công nhân viên trường Đại học Công nghệ thông tin Đặc biệt là gửi lời cảm ơnsâu sắc đến thầy Lê Minh Hưng đã dẫn dắt chúng em từ những bước đầu tiên,

cho chúng em nhiều kiến thức cũng như nhiều bài học quý báu để tạo điều kiện

cho chúng em thực hiện khoá luận này Bên cạnh đó, chúng em cũng gửi lời cảm

ơn đến anh Đặng Văn Thìn đã hỗ trợ chúng em rất nhiều trong quá trình thực hiện khoá luận này Ngoài ra, chúng em cũng gửi lời cảm ơn đến các bạn cộng

tác viên đã phụ giúp trong quá trình làm dữ liệu của nhóm Cảm ơn gia đình

đã luôn ủng hộ chúng em Em xin chân thành cảm ơn tất cả mọi người đã cho

chúng em những góp ý quý báu để chúng em hoàn thiện hơn

Ngoài những kiến thức, kỹ năng đã được học từ trước đến nay, chúng em

cũng đã cố gắng tìm hiểu những kiến thức mới để có thể thực hiện khoá luận

này Trong quá trình thực hiện còn nhiều sai sót, mong thầy cô góp ý để chúng

em kịp thời sửa chữa, bổ sung và đó cũng là hành trang để giúp chúng em tự

tin hơn trong công việc sau này.

Xin chân thành cảm ơn!

Lương Phạm Bảo - Doàn Nguyễn Nhật Quang

Trang 5

Mục lục

1 Tổng quan 1

1 Giới thiệu đề tài 1

1.1.1 Giới thiệu bài toán sinh mô tả ảnh | 2

1.1.2 Ứng dụng của bài toán sinh mô tả Anh 2

3

3 5

5

7

8

2.1 Các hướng tiếp cận đối với bài toán sinh mô ta ảnh| 9

cải tiến bộ mã hóa hình ảnh 9

2.1.2 Hướng cải tiến mô hình ngôn ngữ 12

Trang 6

3.1 Mô hình đặc trưng ngôn ngữ-hình ảnh được đào tạo trước (CLIP)| 30

B.1.1 Tổng quan về mô hình CUIP| - 30

3.1.2 Hướng tiếp cận của mô hình CLIP 30

3.1.3 Kiến trúc mô hình và cách thức hoạt động] ee 33

3.2_ Mô hình ngôn ngữ dựa trên Transformer| 36

3.2.1 Tổng quan mô hình ngôn ngữ GPT-2| ¬ 36

3.2.2_ Hướng tiếp cận của mô hình GPT-2| 3ĩ

3.23 Kiến trúc môhình| 39

3.3 Áp dụng vào bài toán sinh mô tả ảnh| ¬ ee 40

3.3.1 Mô hình ChpCap| 40

3.3.2 Mô hình SmallCap] ¬ 51 B33

MohnhCapbej : 62

65 4.1 BoOdt@ligul 0.6 ee ee 66

4.2 Độ đođánhgiá 67

M22 ROUGRH| 71 4.2 TDRn| 71

Trang 7

6.2 Hướng p hat trien

5.3 Giao diện ứng dung Ta

5.4 Đánh giá ứng dụng| ee ee

90

90

91 91 92 93

94

Trang 8

Danh sách hình vẽ

1.1.1 Minh hoa đầu vào-đẩu ra của bài toán| 2

1.1.2 Minh họa ứng dụng bài toán| See 3

1.3.1 Minh hoa thách thức bai toán| - 4 1.3.2 Minh họa thách thức bài toán| - 4

2.1.1 Các hướng tiếp cận liên quan đối với bài toán sinh mô tả anh} 9

2.1.2 (a) Dac trưng CNN toàn cục; (b) Đặc trưng chỉ tiết được trích

xuất từ kích hoạt lớp tích chập, cùng với đó là cơ chế tập trun

dẫn bởi mô hình ngôn ngữ; (c) Đặc trưng hình ảnh theo vùng

=Ẳ 4 ÔÉÔ'.`.ÓÚ Š ŠŠ—— 0

2.1.3 Tóm tắt 2 chiến lược mã hóa hình ảnh cho bài toán sinh mô tả

2.1.4 Lược đồ về hướng tiếp cận sử dụng mô hình ngôn ngữ dựa trên

Po LEPM Qua 2

2.1.5 Lược đồ về hướng tiếp cận sử dung mô hình ngôn ngữ dua trên

Translormerl cSS ee 2

2.1.6 Lược đồ về hướng tiếp cận sử dụng mô hình ngôn ngữ dựa trên

kiến trúc tương tự BERT| 3

2.1.7 Mô hình kiến trúc VLPÌ - 6

2.2.1 Kiến trúc mạng RNN| 8

Trang 9

2.2.2 Dữ liệu được vector hoá và đưa vào mô hình xử lý lần lượt từng

2.2.3 Quá trình tính trạng thái ẩn của RNN| 20

2.2.4 Kiến trúc Transformerl - 21

2.2.5 Ví dụ trực quan hóa của SelEattetion| 23

2.2.6 Quá trình tính toán vector attention| - 24

2.2.7 Quá trình tính toán vector attention với nhiều đầu| 26

2.2.8 Các thành phan trong bộ mã hóa của Transformer| ¬ 27 2.2.9 Các thành phần trong bộ giải mã của Transformer| 28

3.1.1 Tạo nhãn mới là câu ngôn ngữ tự nhiên từ tập lớp của các đối tượng cho trước} ca 32 3.1.2 Mã giả mô tả cách cốt lõi để thực thi mô hình CLIP| 33

trưng hình ảnh và một bộ phân loại tuyến tính để dự đoán của các hình đó thì CLIP cùng lúc đào tạo một bộ mã hóa hình ảnh và một bộ mã hóa văn bản để dự đoán được chính xác cặp (hình ảnh, văn bản) Trong đó, nhãn là cả một văn bản mô tả bức ảnh tương ứng, chỉ tiết hơn nhãn phân loại truyền thống 3.1.4 Sử dụng CLIP như một bộ phân loại zero-shot Chuyển tất cả lớp của đối tượng trong ảnh cho trước thông qua việc sử CLIP để ước tính câu mô tả nào là khớp nhất với bức ảnh đã cho.| 35

3.2.1 Tổng quan kiến trúc mô hình GPT-2 Mô hình GPT-2 có thể xử lý đầu vào được 1024 tokens.| ¬ 39 3.3.1 5o sánh mô hình ClipCap với các h SOTAs (Nguồn: paper[18|) 3.3.2 Tổng quan kiến trúc mô hình ClipCap.| - 42

3.3.3 Phương pháp Adapter-tuning (Nguồn: paper[l2l)| 46

Trang 10

3.3.4 Ap dụng phương pháp Prefix-tuning trên mô hình ngôn ngữ

GPT-2 (Nguồn: paperHỗl)| 47

3.3.5 Kiến trúc mô hình MLP mapping với prefix length=10| ¬ 49

3.3.6 Kiến trúc mô hình Transformer Mapping| 50

3.3.7 So sánh giữa mô hình SmallCap với các hướng tiếp cận hiện có về

[ số lượng tham số mô hình lan về chất lượng của câu mô tả được

[ sinh ra trên tập dữ liệu COCOHT| (Nguồn: paperl25l)| 52

3.3.8 Kiến trúc mô hình SmallCap| : 53

3.3.9 So sánh 2 cơ chế Cross-attetion với Self-attention (Nguồn: InternetlJ| 54

3.3.10Tổng quan cơ chế Cross-attention trong mô hình Smal Cap] ¬ 5D

-liCach thức hoạt động của Cross-attetion.| - 56

3.3.15ử dụng prompt để đưa vào mô hình GPT-3 (Nguồn: 57

3.3.13Minh hoa cho mô hình đào tạo trước được tinh chỉnh dựa trên

[ prompt (Nguồn: paper BỈ)| 58

3.3.144iến trúc mô đun truy van văn bản từ hình ảnh của mô hình

THEEEEEaINIaR 7A

4.3.4 Pipeline tăng cường dữ liệu hoàn chinh| 75

4.4.1 Ví du mẫu về các lỗi sai của câu mô tả do may sinh raj 79

Trang 11

4.5.1 Một số kết quả trên bộ VieCap4H Trong đó, a) là mô hình

Small-; dòng vừa được in

[ có gạch chân là câu mô tả đúng và đầy đủ hơn câu của mô hình

Cap và b) là mô hình ClipCap; dòng bình thường là câu mô tả

[ sai; dòng in đậm là câu mô tả đúng; dòng vừa được in đâm vừa

[ Cap và b) là mô hình ClipCap; dòng bình thường là câu mô tả

[ sai; dòng in đậm là câu mô tả đúng; dòng vừa được in đâm vừa

4.5.4 Một số kết quả trên bộ UIT-ViIC Trong đó, a) là mô hình Smal

[ Cap và b) là mô hình ClipCap; dòng bình thường là câu mô tả

[ sai; dòng in đậm là câu mô tả đúng; dòng vừa được in đâm vừa

con lai} a 89

5.2.1 Sơ đồ hoạt động ứng dụng] ¬ 92

5.3.1 Giao diện ứng dụng ban đầu| 935.3.2 Minh họa kết quả chạy thử| 94

Trang 12

Danh sách bảng

4.1.1 Thống kê thông số của 2 bộ dữ

liệu| -4.3.1 Kết quả so sánh các phép back translation|

4.4.1 Kết quả đánh giá bằng con người trên bộ dữ liệu VietCap4H|

4.4.2 Kết quả đánh giá bằng con người trên bộ dữ liệu UIT-ViC] va

4.4.3 Kết quả so sánh lỗi của các mô hình trên bộ dữ liệu VietCap4

4.4.4 Kết quả so sánh lỗi của các mô hình trên bộ dữ liệu UIT-ViIC]

4.4.5 Kết quả so sánh các mô hình ngôn ngữ GPT2 dành cho Tiếng Việt | 814.4.6 Thực nghiệm mô hình ClipCap và CapDec trên tập dữ liệu Viet-

JITLVNIG|

4.4.9 Thực nghiệm mô hình SmallCap trên bộ dữ liệu UIT-VIC|

4.5.1 Kết quả so sánh các mô hình sinh mô tả ảnh trên bộ dữ liệu

Trang 13

Danh mục các ký hiệu, chữ viết tắt

Từ viết tắt | Nội dung

DL Deep Learning

CV Computer Vision

NLP Natural Language Processing

SOTA State Of The Art

CNN(s) Convolutional Neural Networks

RNN(s) Recurrent Neural Networks

LSTM Long Short Term Memory Seq2Seq Sequence to Sequence

Conv Convolution

ANN(s) Artificial Neural Networks

VLP Vision-Language Pretraining CLIP Contrastive Language-Image

Pretraining GPT Generative Pre-trained Transformer BERT Bidirectional Encoder Representation

from Transformer

BART Bidirectional and Auto-Regressive

Transformer

Trang 14

Tóm tắt

Một trong các chú đề nghiên cứu tiềm năng hiện nay là các bài toán có

sử dung cả NLP và CV, nổi bật trong đó là bài toán sinh mô tả ảnh (image

captioning) Cùng với sự phát triển Transformer thì các mô hình mạnh mẽ

được huấn luyện trên hàng trăm triệu cũng ra đời chẳng hạn như GPT-2 E4

CLIP [22], Các cách tiếp cận hiện đại nhất cho bài toán này dang tập trung

vào hướng tiếp cận Vision Language Pretraining (VLP), yêu cầu rất nhiều vê

mặt thời gian huấn luyện cũng như lượng dữ liệu (ảnh, nhãn nhận diện) vì vậy

a

sẽ rất khó khi ta triển khai các ứng dựng sủ dung sinh mô tả ảnh trong thực

On

t vậy trong khóa luận này, chúng tôi nghiên cứu một cách tiếp cận khác

hiệu quả hơn về mặt thời gian huấn luyện và yêu câu dữ liệu nhưng vẫn có hiệu suất cạnh tranh, tận dụng được các mô hình được đào tạo trước ở trên và chỉ

cần đào tạo một số phần rất nhỏ giúp dé dang áp dụng cho các ứng dụng trong

thực tế.

Trang 15

Chương 1

Tổng quan

1.1 Giới thiệu đề tài

Ngày nay với sự phát triển của Deep Learning thì cái bài toán về xử lý ảnh

cũng như xử lý ngôn ngữ tự nhiên ngày càng có nhiều cách giải quyết hiệu quả

Từ đó các tác vụ cần có sự kết hợp giữa các hai lĩnh vực trên cũng có những bướctiến đột phá Trong đó bài toán Image Captioning (sinh mô tả từ ảnh) nhậnđược nhiều sự quan tâm và có nhiều nghiên cứu về cách giải quyết bài toán này.Tuy nhiên hiện nay đa phần các nghiên cứu về bài image captioning chủ yếu tập

trung cho ngôn ngữ pho biến chính là Tiếng Anh,Tiếng Nhật,Tiếng Trung,

Trong khóa luận lần này nhóm chúng tôi tập trung và nghiên cứu một hướng

tiếp cận khác phù hợp hơn với các bộ dữ liệu chưa quá nhiều như các dữ liệu

về sinh mô tả ảnh tiếng việt hiện nay, sử dụng các mô hình CLIP(Connecting Image and Text) [22] và các mô hình ngôn ngữ dựa trên kiến trúc transformer

như BART [14, GPT [23] [24] [3] được đào tạo trước trên các bộ dữ liệu chuẩn

để tiết kiệm thời gian huấn luyện và tài nguyên tính toán (số lượng tham số cần

huấn luyện thường dưới 100 triệu) mà vẫn đạt được hiệu suất cạnh tranh với

mô hình tiên tiến khác trên bộ dữ liệu Tiếng Việt Ngoài ra chúng tôi còn kết

hợp với các phương pháp tăng cường dữ liệu khác để tăng cường tính chính xác

Trang 16

Trường Đại Học Công Nghệ Thông Tin Tp.Hồ Chí Minh

Khoa Khoa Học Máy Tính

của mô hình, nhằm giúp mô hình khắc phục các vấn đề về mặt thiếu dữ liệu đốivới dữ liệu tiếng việt nói riêng cũng như dữ liệu ngôn ngữ khác nói chung

1.1.1 Giới thiệu bài toán sinh mô tả ảnh

Sinh mô tả ảnh hay Image captioning là một bài toán trong lĩnh vực xử lý

ngôn ngữ tự nhiên (NLP) và xử lý hình ảnh (CV) có nhiệm vụ là tạo ra một mô

tả ngữ nghĩa của một hình ảnh cho người dùng.

e Input: một bức ảnh về các sự vật, đối tượng.

e Output: câu mô tả đầy đủ và hợp lệ mô tả bức ảnh.

Input Output

Dita trẻ mặc váy hong dang leo lên câu

thang theo lôi vào.

Cô gái đi vào một tòa nhà bằng gỗ.

Hình 1.1.1 Minh họa đầu vao-dau ra của bài toán

1.1.2 Ung dụng của bài toán sinh mô ta ảnh

e Cung cấp cho người dùng mô tả cho hình ảnh để họ có thể hiểu rõ hơn về

nội dung của hình ảnh.

e Tạo ra mô tả cho hình ảnh để có thể tìm kiếm hình ảnh dựa trên nội dung

của hình ảnh.

e Tạo ra mô tả cho hình ảnh để có thể hiển thị cho người dùng khi họ không

Khóa luận tốt nghiệp Trang 2

Trang 17

Khoa Khoa Học Máy Tính

Trường Đại Học Công Nghệ Thông Tin Tp.Hồ Chí Minh

thể xem được hình ảnh (ví dụ,

hình ảnh bị lỗi).

"người đàn ông mặc "công nhân xây dựng mặc "hai cô gái đang

áo đen đang chơi áo bảo hộ màu cam đang chơi đồ chơi lego."

guitar." làm việc trên đường."

Hình 1.1.2 Minh hoa ứng dung bài toán

1.2 Mô tả đề tài

Bài toán sinh mô tả ảnh là một ài toán có kết hợp giữa xử lý ngôn ngữ tự

nhiên cũng như xử lý ảnh , là một trong các chủ đề được cộng đồng nghiên cứu

AI rất quan tâm cũng như có nhiều ứng dụng thực tế Chính vì vậy chúng ta

cần có khả năng huấn luyện các mô

nhanh cũng như lượng dữ liệu cung

hình sinh mô tả ảnh có thời gian huấn luyện

cấp không quá nhiều Trong khóa luận này,chúng tôi sẽ trình bày chỉ tiết về một hướng tiêp cận tương đối mới cho bài toánsinh mô tả ảnh, một cách tiếp cận áp ứng các yêu cầu trên nhờ việc tận dụng

sức mạnh của các mô hình mạnh mẽ có sẵn đã được đào tạo trước, cũng như một đường ống dữ liệu giúp tăng cường số lượng và chất lượng dữ liệu mô tả

ảnh giúp cải thiện rất nhiều hiệu suất cho bài toán sinh mô tả ảnh

1.3 Thách thức của đề tài

Một số thách thức của đề tài:

Trang 18

fas) Trường Đại Hoc Công Nghệ Thông Tin Tp.Hồ Chí Minh

_ Khoa Khoa Hoc Máy Tính

e Các phương pháp về hướng tiếp cận còn khá ít và một số trong chúng không

có công bố mã nguồn

e Mô hình CLIP hiện chỉ được huấn luyện và đào tạo trước trên một số ngôn

ngữ như tiếng Anh, tiếng Nhật, tiếng Trung Quốc, Dẫn đến việc gặp khóhăn khi thử nghiệm các phương pháp cần sử dụng mô đun encode text củaCLIP khi chưa được huấn luyện cho tiếng Việt

e Dữ liệu cho Tiếng Việt còn hạn chế (hiện chỉ có khoảng 2 bộ dữ liệu là công

ố rộng rãi với cộng đồng) và khá nhỏ

e Các mô hình ngôn ngữ cho tiếng Việt còn khá ít cũng như khá chung chung

oặc chưa thích hợp về domain so với bộ dữ liệu

Đối tượng chính Mối quan hệ đến các đối tượng còn lại

Hình 1.3.1 Minh hoa thách thúc bài toán

Caption 1: Người đàn ông mặc áo khoác đang nhìn

xuống hồ.

Caption 2: Một người áo trắng, tóc vàng đứng

trước mặt hồ.

Hình 1.8.2 Minh họa thách thúc bài toán

Khóa luận tốt nghiệp Trang 4

Trang 19

Trường Đại Học Công Nghệ Thông Tin Tp.Hồ Chí Minh

Khoa Khoa Học Máy Tính

1.4 Đóng góp của đề tài

Một số đóng góp của khóa luận:

e Khảo sát và trình bày chỉ tiết các hướng tiếp cận dựa trên CLIP và mô hình

ngôn ngữ dựa trên kiến trúc Transformer được đào tạo trước phù hợp cho

dit liệu tiếng Việt.

e Đánh giá dược ưu và nhược điểm của nhóm phương pháp trên, tính khả thi

cho miền tiếng Việt

sÁp dụng một số thử nghiệm và các phương pháp tăng cường dữ liệu dựa

trên các bài toán về CV va NLP để đánh giá và nâng cao chất lượng mô

hình phù hợp với các bộ dữ liêu tiếng Việt.

1.5 Lý do chọn dé tài

Hiện nay các mô hình SOTA cho bài toán sinh mô tả ảnh chủ yếu sử dụng

hướng tiếp cận VLP(vision-language-pretraining), hướng tiếp cận được huấn

luyện trước trên một lượng dữ liệu doi dào gồm các cặp hình ảnh-văn và trích

xuất được tập các đặc trưng về hình ảnh-ngôn ngữ hay đặc trưng đa phươngthức (multimodal features) Từ đó có thể tỉnh chỉnh mô hình để phục vụ cho

các tác vụ cụ thể hơn từ bài toán sinh mô tả ảnh Tuy vậy, với kích thước lớn

của các mô hình sinh mô tả ảnh tiên tiến nhất hiện nay sẽ phải cần một lượng

lớn tài nguyên tính toán để có thể huấn luyện và triển khai mô hình trên các bài

toán thực tế, ngoài ra các mô hình trên còn phụ thuộc vào các object detector

để phát hiện các vật thể cũng như các mối tương quan giữa chúng, vì vậy sẽ khó

khăn cho việc áp dụng các mô hình trên vào thực tế vì khó có thể đáp ứng các

yêu cầu trên, ngoài ra với việc cần nhiều thời gian huấn luyện sẽ khiến chúng ta

có it thời gian để tinh chỉnh và cải thiện mô hình Vì vậy ta cần một mô hình có

số lượng tham số vừa phải , cũng như các mô hình đó có thể được huấn luyệnKhóa luận tốt nghiệp Trang 5

Trang 20

Trường Đại Học Công Nghệ Thông Tin Tp.Hồ Chí Minh

Khoa Khoa Học Máy Tính

dé dàng với nhiều bộ dit liệu khác nhau Hiện tại ở bài toán sinh mô tả ảnh

đang có một hướng tiếp cận tiềm năng hơn do tận dụng các mô hình được huấn

luyện sẵn trên các tập dữ liệu lớn như CLIP và GPT2, sử dụng các kiến trúc

cross-attention hoặc mapping network để liên kết các mô hình này với nhau và

tận dụng sức mạnh của các mô hình trên mà vẫn đạt hiệu quả trên các tập dữ

liệu với các ngôn ngữ riêng hoặc phạm vi dữ liệu khác biệt( vì y tế,thể thao,giáo

dục, ) Các bài toán sử dụng ảnh đề tạo ra văn bản, chẳng hạn như sinh mô

tả ảnh(image captioning) hay trả lời câu hỏi bằng hình ảnh( visual question

answering), đã có nhiều nghiên cứu và đã đạt được các kết quả đáng kể Các

mô hình SOTA cho bài toán hầu hết đều sử dụng các mô hình phát hiện đối

tuongự như một bộ mã hoá hình ảnh để nắm bắt các đặc điểm hình ảnh, từ đó

sẽ tao văn bản thông qua bộ giải mã (Decoder) cho văn bản mở rộng các mô

hình ngôn ngữ tổng quát được đào tạo trước để có khả năng tiêu thụ tín hiệu

thị giác.

1 Dịch hình ảnh thành các tính năng nhúng có thể được đào tạo chung với

nhúng mã thông báo.

2 Học cách nhúng hình ảnh tốt có thể hoạt động như tiền tố cho mô hình

ngôn ngữ được đào tạo trước, cố định

3 Sử dụng cơ chế chú ý chéo được thiết kế đặc biệt để kết hợp thông tin trực

quan vào các lớp của mô hình ngôn ngữ.

4 Kết hợp các mô hình tầm nhìn và ngôn ngữ mà không cần đào tạo.

Trong khóa luận này nhóm sẽ sử dụng các cách tiếp cận 2 và 3 là các cách tiếpcận đang thực sự hiệu quả cũng như có nhiều tiềm năng nhất (trong năm 2022

đã có hơn 4 bài báo đề cập đến các hướng tiếp cận này)

Khóa luận tốt nghiệp Trang 6

Ngày đăng: 02/10/2024, 05:25

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w