Hướng cải tiến chiến lược huấn luyện (Training

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Đánh giá kiến trúc mô hình ngôn ngữ dựa trên transformer kết hợp với đặc trưng ngôn ngữ hình ảnh được đào tạo trước cho bài toán sinh mô tả ảnh tiếng Việt (Trang 29 - 32)

Chương 1 Tổng quan: Giới thiệu tổng quan về đề tài, mục tiêu của đề

2.1 Các hướng tiếp cận đối với bài toán sinh

2.1.3 Hướng cải tiến chiến lược huấn luyện (Training

Strategy)

Một mô hình image captioning thường được taoc caption dựa trên từng từ

một bằng cách tính các thông tin dựa trên từ ở phía trước và ảnh. O mỗi bước,

output từ được lấy mẫu từ một phân phối đã học trên bộ từ vựng. Trong giải pháp đơn giản nhất cho giai đoạn decode, ta lựa chọn từ có xác suất cao nhất

là output. Hạn chế chính của cách này là có thể tích lũy loss funetion rất nhanh qua các bước suy luận các từ. Để giảm bớt nhược điểm này, một chiến lược hiệu quả là sử dụng beamsearch (tìm kiếm chùm) thay vì xuất ra từ với xác suất cao nhất tại mỗi time step, duy trì k candidates (những người có xác suất cao nhất ở mỗi time step) và cuối cùng là kết quả có thể xảy ra nhất. Trong quá trình training, mô hình tạo caption phải học cách dự đoán đúng xác suất của các từ xuất hiện trong câu caption. Để đạt được điều này, cách đào tạo phổ biến

nhất là các chiến lược dựa trên: Cross-entropy loss [6], Masked language model, Reinforcement learning [27], Vison-language pretraining [35].

Trong đó Masked language model (BERT) va VLP dang dem lại hiệu suất cao nhất vì các mô hình trên, đặc biệt là VLP đã được huấn luyện trên các tập dữ liệu lớn và đa tác vu cũng như kết hợp tốt hơn thông tin từ image và Khóa luận tốt nghiệp Trang 15

Trường Đại Học Công Nghệ Thông Tin Tp.Hồ Chí Minh

Khoa Khoa Học Máy Tính

caption. Day là hướng tiêp cận mới nhất cũng như hiệu quả nhất cho các bài image captioning và có nhiều phương pháp mới dat SOTA như VINVL [34], OCSAR [16], VLP [35]... .

Cows on the high mountain pasture.

Unified Encoder-Decoder

| | |

BES . BeSSss . See

Hình 2.1.7. Mô hành kiến trúc VLP

Mô hình VLP(Vision Language Pretraining ) cần yêu cầu một lượng dữ liệu hình ảnh văn bản là cách tiếp cận hiệu quả nhất , mô hình trên học cách biễu

iễn hình anh và văn ban phù hợp cho bài toán sinh mô tả ảnh. Mô hình giúp

liên kết các mối quan hệ giữa ngôn ngữ và hình ảnh và tận dụng được chất lượng

của các mô tả để mô hình tạo ra các câu có kết quả ấn tượng. Kiến trúc mạng thường bao gồm hai thành phần chính: Visual Encoder xử lý hình ảnh để trích xuất một biểu diễn nhỏ gon và Language Decoder ding tạo mô tả văn bản dựa

trên thông tin hình ảnh được mã hóa. Bộ mã hóa và bộ giải mã được đào tạo

ộc lập với nhau, sử dung cross entropy để tối ưu mô hình. Sau đó, kết quả của

mô hình có thể được tỉnh chỉnh trên các bộ dữ liệu nhỏ hơn dành riêng cho từng tác vụ khác nhau.Tuy nhiênvẫn còn khó khăn để đào tạo trước một mô hình thống nhất, duy nhất có thể áp dụng phổ biến, thông qua tỉnh chỉnh, cho một loạt các nhiệm vụ ngôn ngữ thị giác khác nhau. Hầu hết các mô hình được đào tạo trước hiện có hoặc chỉ được phát triển để hiểu nhiệm vụ, Điều này gây ra sự

Khóa luận tốt nghiệp Trang 16

Trường Đại Học Công Nghệ Thông Tin Tp.Hồ Chí Minh

Khoa Khoa Học Máy Tính

khác biệt giữa các biểu diễn đa phương thức được học bởi bộ mã hóa các thông tin cần thiết và bộ giải mã để tạo văn bản, mà có thể ảnh hưởng đến tính tổng quát của mô hình. VLP cố gắng phát triển một phương pháp đào tạo trước mớit cách thống nhất đại diện cho ca mã hóa và giải mã, loại bỏ sự khác biệt đã nói

ở trên. Ngoài ra, giúp chia sẻ kiến thức giữa các nhiệm vụ hiệu quả hơn, giảm chỉ phí phát triển bằng cách loại bỏ nhu cầu đào tạo trước khác nhau.

Y tưởng Giai đoạn đầu tiên, được gọi là đào tạo trước,mô hình sẽ hoc các

biểu diễn ngôn ngữ hình ảnh được ngữ cảnh hóa bằng cách dự đoán các từ hoặc vùng hình ảnh bị che khuất dựa trên mối quan hệ giữa các phương thức hoặc giữa các phương thức trên các nhiệm vụ riêng biệt bằng cách sử dụng mô hình được huấn luyện trước khác nhau. Thứ hai, áp dụng quá trình kết hợp huấn luyện duy nhất trước khi đào tạo dẫn đến một kiến trúc mô hình duy nhất cho hai ngôn ngữ tầm nhìn riêng biệt nhiệm vụ dự đoán, tức là, hai chiều và seq2seq, giảm bớt sự cần thiết của nhiều mô hình đào tạo trước cho các loại khác nhau của các nhiệm vụ mà không có bất kỳ tổn thất hiệu suất đáng kể nào trong các chỉ số cụ thể.

Thách thức đặt ra: Lam thé nào để các thông tin ngữ nghĩa trích xuất từ hình ảnh (from the Visual Encoder) được truyền đạt một cách đầy đủ (feed into

Textual Encoder) để những mô tả tao ra đúng với những gì model trích xuất

từ hình ảnh? Từ đó có thể giải quyết bằng việc sử dụng các model có khả năng chuyển đổi đầy đủ các biểu diễn ngữ nghĩa từ Visual Encoder sang Language Model. Thế nhưng những model này thường yêu cầu rất nhiều tài nguyên về: thời gian huấn luyện mô hình; số lượng tham số mô hình; độ lớn bộ dữ liệu; chú thích (annotation) bổ sung, ví dụ như kết quả phát hiện và khó áp dụng trên thực té, cu thể là khi huấn luyện mô hình với nhiều bộ dữ liệu khác nhau nhằm tạo nhiều câu mô tả cho cùng một hình ảnh trong nhiều trường hợp. Chính vì thế mà ta cần một mô hình nhẹ hơn và linh hoạt hơn đó là các mô hình kích

thước nhỏ hay còn gọi là lightweight model.

Khóa luận tốt nghiệp Trang 17

Fis Trường Dai Hoc Công Nghệ Thông Tin Tp.Hồ Chí Minh

Khoa Khoa Học Máy Tính

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Đánh giá kiến trúc mô hình ngôn ngữ dựa trên transformer kết hợp với đặc trưng ngôn ngữ hình ảnh được đào tạo trước cho bài toán sinh mô tả ảnh tiếng Việt (Trang 29 - 32)

Tải bản đầy đủ (PDF)

(40 trang)