Khóa luận tốt nghiệp Khoa học máy tính: Đánh giá một số phương pháp học sâu cho bài toán hỏi đáp trên ảnh infographics tiếng Việt

Đặc biệt là các phương pháp sử dụng kiến trúc Transformer làm xương sống trong mô hình của mình đã đạt được độ chính xác cao trên nhiều tập dữ liệu hỏi đáp trên hình ảnh.. Bài toán hỏi đ

Vai trò của ảnh infographic trong cuộc sống 11

Bài toán hỏi đáp trên ảnh infographic đang trở nên ngày càng quan trọng trong tương lai, nhờ vào tính ứng dụng cao của nó trong cuộc sống hàng ngày Infographic không chỉ đa dạng mà còn trực quan, giúp người xem dễ dàng nắm bắt và ghi nhớ thông tin Theo các nghiên cứu, việc sử dụng infographic có thể tăng cường sự chú ý của người dùng lên tới 90% so với văn bản đơn thuần, đồng thời nâng cao hiệu quả truyền đạt thông tin lên hơn 30 lần Thống kê từ Forbes năm 2017 cho thấy gần 60% doanh nghiệp đã áp dụng infographic trong hoạt động của họ Những dẫn chứng này khẳng định rằng infographic đóng vai trò thiết yếu trong việc truyền tải thông tin, giúp người dùng tiếp cận và ghi nhớ dễ dàng hơn so với các hình thức trình bày thông thường Do đó, việc nghiên cứu bài toán hỏi đáp trên ảnh infographic là rất cần thiết cho cuộc sống hiện đại.

!https://vitinfo.com.vn/infographic-la-gi.html

?https://www.forbes.com/sites/cherylsnappconner/2017/10/19/the-data-is-in-infographics-are- growing-and-thriving-in-2017-and-beyond/?shA990352137c

2 Bài toán hỏi đáp hình ảnh inforgraphic và các kiến thức liên quan

What does Focal defect in inflamed transverse CT appendiceal wall and image _ periappendiceal demonstrate? inflammatory Stranding.

Are these my blue or orange tennis shoes?

Those tennis shoes are orange.

What is the man In red shirt | He is riding a bicycle.

Why shouldl | |} should drink Absolut buy this Vodka, because they product? support LGBT rights.

Hình 2.4: Một số ứng dung của bài toán VQA Nguồn [1]

Thách thức của bài toán

Dữ liệu đầu vào của bài toán bao gồm hình ảnh và câu hỏi, do đó, các thách thức liên quan đến hình ảnh và ngôn ngữ là những vấn đề quan trọng cần được xem xét.

Để đạt được kết quả dự đoán chính xác trong bài toán hỏi đáp hình ảnh infographic, việc kết hợp hai loại dữ liệu một cách phù hợp là rất quan trọng.

Câu trả lời từ hệ thống hỏi đáp có thể xuất phát từ tập từ vựng có sẵn hoặc từ nguồn bên ngoài, dẫn đến khả năng đưa ra đáp án bị hạn chế Bài viết này sẽ trình bày một số thách thức trong việc giải quyết bài toán hỏi đáp dựa trên thông tin hình ảnh.

Kiến thức nền tảng là yếu tố quan trọng trong việc trả lời các câu hỏi đa dạng, đặc biệt khi yêu cầu liên hệ với kiến thức bên ngoài Ví dụ, câu hỏi về người trên tờ tiền Việt Nam thường dễ dàng với người Việt Nam, nhưng liệu mô hình có thể nhận diện được không? Việc suy luận từ kiến thức tổng quát là điều mà con người làm một cách tự nhiên, nhờ vào quá trình sống và tích lũy kiến thức Thách thức lớn đối với các mô hình là làm sao để dự đoán được những câu trả lời yêu cầu sự liên kết với thông tin bên ngoài câu hỏi và hình ảnh.

Chất lượng hình ảnh và loại hình ảnh là hai yếu tố quan trọng ảnh hưởng đến độ chính xác của dự đoán từ mô hình Ảnh thực tế thường được chụp dưới nhiều điều kiện ánh sáng và góc độ khác nhau, dẫn đến tình trạng ảnh bị mờ, không rõ hoặc chứa nhiều sự vật Do đó, các mô hình cần phải vượt qua những thách thức này để cải thiện độ chính xác trong việc phân tích hình ảnh.

Ảnh infographic nổi bật với sự đa dạng trong các thành phần trình bày, bao gồm không chỉ văn bản và hình ảnh mà còn có biểu đồ, sơ đồ, bảng số liệu, icon và sticker Điều này giúp người thiết kế tạo ra những hình ảnh trực quan sinh động và hấp dẫn, mang lại thông tin một cách rõ ràng và dễ hiểu.

Bài toán hỏi đáp hình ảnh infographic liên quan đến việc sử dụng màu sắc khác nhau trong các hình ảnh, tạo ra những thách thức cho các phương pháp hiện tại Sự kết hợp đa dạng của thuộc tính và màu sắc trong infographic đã đặt ra yêu cầu cao về khả năng phân tích và xử lý thông tin.

Infographic không chỉ phong phú về số lượng và loại thuộc tính mà còn đa dạng trong cách sắp xếp các thành phần, tạo nên sự hấp dẫn cho người xem Các thuộc tính có thể được tổ chức theo thứ tự từ trên xuống dưới, từ trái sang phải, hoặc chia thành các vùng khác nhau Sự đa dạng này là yếu tố thu hút nhưng cũng đặt ra thách thức lớn trong việc giải quyết các câu hỏi liên quan đến nội dung của infographic.

Thách thức ngôn ngữ trong mô hình hỏi đáp không chỉ dừng lại ở việc xử lý dữ liệu hình ảnh, mà còn yêu cầu xử lý văn bản từ câu hỏi và văn bản được trích xuất Sự phức tạp, đa dạng của ngôn ngữ cùng với độ chính xác trong việc trích xuất văn bản từ hình ảnh tạo ra nhiều khó khăn cho bài toán này.

Mối quan hệ giữa thông tin hình ảnh và ngôn ngữ là yếu tố then chốt để mô hình có thể dự đoán câu trả lời từ hình ảnh Để trả lời câu hỏi, mô hình cần hiểu mối liên hệ giữa các đối tượng và hành động trong câu hỏi với các yếu tố tương ứng trong hình ảnh Chẳng hạn, khi câu hỏi đề cập đến việc đếm "khẩu trang", mô hình phải nhận diện và đếm đúng số lượng khẩu trang trong hình ảnh Khả năng kết nối thông tin giữa đặc trưng hình ảnh và văn bản là một trong những thách thức lớn nhất để giúp các mô hình hiểu rõ nội dung của infographic.

Mức độ phức tạp của câu hỏi liên quan đến mỗi ảnh có thể bao gồm nhiều khía cạnh như thời gian, địa điểm, nguyên nhân và kết quả Tùy thuộc vào mục đích của người hỏi, có thể tạo ra nhiều loại câu hỏi khác nhau, thể hiện sự đa dạng như trong tập VilnfographicVQA Hơn nữa, chỉ cần thay đổi một vài từ trong câu hỏi cũng có thể làm thay đổi hoàn toàn nội dung câu hỏi Đặc biệt, một câu trả lời có thể được diễn đạt qua nhiều cách hỏi khác nhau, cho thấy sự linh hoạt trong cách tiếp cận Do đó, yếu tố đa dạng trong câu hỏi là một thách thức quan trọng trong việc giải quyết các bài toán hỏi đáp.

Bệnh nhân Người chăm si Người chăm si

_= BỆNH NHÂN NHÀ KHÔNG CÓ.

GRE) HO HAP. chứng hô hấp

Hình 2.5: Một ví dụ trong tập VilnfographicVQA.

Trong bài toán hỏi đáp trên ảnh, thách thức không chỉ đến từ việc đặt câu hỏi mà còn từ các thao tác cần thiết để tìm ra câu trả lời Những thao tác này có thể bao gồm việc trích xuất thông tin từ hình ảnh, thực hiện các phép toán số học, logic, cũng như so sánh và sắp xếp thông tin để đưa ra câu trả lời chính xác.

What people TM /2 Es are doing to © support their 55% 47% 36% wellbeing listening eading gardening to music

60% watching TV ki 42% secpingin people are doing more 41% scroling throug! than usual social media

Trong bài toán VQA, sự đa dạng trong câu hỏi và câu trả lời là rất quan trọng Nội dung câu trả lời phụ thuộc vào các thành phần khác nhau trên hình ảnh như bản đồ, biểu đồ, và bảng thông tin Việc suy luận từ các thành phần này sẽ khác nhau tùy thuộc vào từng câu hỏi Thống kê về các thành phần được sử dụng để suy luận đáp án cho thấy các thao tác cần thực hiện để trả lời câu hỏi trong bộ dữ liệu InfographicVQA Do đó, việc giải quyết những thách thức này là cần thiết để đạt được hiệu quả trong việc hỏi đáp trên hình ảnh.

2.3 Các nghiên cứu liên quan

Năm 2012, kiến trúc mạng AlexNet đã khẳng định sức mạnh của học sâu trong trí tuệ nhân tạo, thu hút sự chú ý của cộng đồng khoa học Sự phát triển này đã thúc đẩy học sâu đạt được những bước tiến nhanh chóng trong gần một thập kỷ qua.

Imoge-span Question-span Mult-span Non-extrective Text TablelList Figure Map VisualLayout Counting

Number of Questions Number of Question:

(a) Answer-sources and their counts (b) Evidence types and their counts (c) Operation types and their counts

Trong bài viết này, chúng tôi thống kê nguồn gốc câu trả lời, các thành phần suy luận và thao tác để trả lời câu hỏi trong tập dữ liệu InfographicVQA Nhiều phương pháp học sâu đã được phát triển và ứng dụng cho các bài toán thực tế, với các kiến trúc nổi bật như CNN, RNN, YOLO, BERT và Transformer Các nghiên cứu trong lĩnh vực học sâu đã đạt được nhiều thành tựu trên nhiều loại thông tin, bao gồm thông tin thị giác và văn bản Trong thị giác máy tính, các bài toán phổ biến như phân lớp hình ảnh, phát hiện đối tượng và nhận diện đối tượng được giải quyết hiệu quả Tương tự, trong xử lý ngôn ngữ tự nhiên, các phương pháp học sâu cũng giải quyết các vấn đề như dịch máy, hỏi đáp và tóm tắt văn bản Đặc biệt, các phương pháp này còn hữu ích cho các bài toán kết hợp giữa hình ảnh và văn bản, như truy vấn hình ảnh, Image Captioning và hỏi đáp trên ảnh (VQA).

VQA trong những năm gan đây thu hút được sự quan tâm rất lớn trong lĩnh vực trí tuệ nhân tạo.

Hướng tiếp cận modularmethod

Bài toán hỏi đáp trên ảnh là sự kết hợp của nhiều nhiệm vụ như phát hiện và đếm đối tượng, cũng như hiểu ngữ nghĩa câu hỏi Để trả lời câu hỏi liên quan đến thông tin trong ảnh, chúng ta cần xây dựng một phương pháp tích hợp nhiều mô-đun, trong đó mỗi mô-đun sẽ đảm nhiệm các nhiệm vụ riêng biệt.

Một số các phương pháp có thể kể đến tới trong hướng tiếp cận này là Neural

Module Networks [12] và Neural-Symbolic Concept Learner (NS-CL) [13].

Neural Module Networks sử dụng một bộ phân tích cú pháp để chuyển đổi câu hỏi đầu vào thành dạng cây phân tích cú pháp canonical Dựa trên dạng này, mô hình sắp xếp 5 module chính: Attention, Re-attention, Combination, Classification và Measurement để đưa ra kết quả phù hợp Mỗi đầu vào khác nhau sẽ tạo ra cấu trúc mô hình khác nhau, gây khó khăn trong việc phát triển và mở rộng phương pháp Tương tự, Neural-Symbolic Concept Learner (NS-CL) xây dựng công cụ ngôn ngữ miền cụ thể (DSL) giúp xác định số lượng và thứ tự các thao tác cần thực hiện để dự đoán kết quả Mô hình học từ nhiều bài học khác nhau, với mỗi thao tác như Filter, Relate, Query xác định bài học cần hiểu Tất cả thao tác này được thực hiện qua Symbolic Program Executor, giúp NS-CL hoàn thành nhiệm vụ tìm kiếm thông tin trên ảnh để dự đoán câu trả lời, mặc dù vẫn phụ thuộc vào trình phân tích cú pháp.

Nhìn chung hướng tiếp cận modular method thường sử dụng một công cụ

Bài toán hỏi đáp hình ảnh infographic yêu cầu phân tích cú pháp và ngữ nghĩa để xác định các tác vụ cần thực hiện trên ảnh nhằm dự đoán câu trả lời Các phương pháp hiện tại đã học được sự liên kết ngữ nghĩa giữa thông tin hình ảnh và văn bản, nhưng kiến trúc mô hình thay đổi theo đầu vào của bài toán, gây khó khăn cho việc cải tiến Hơn nữa, do trải qua nhiều bước và công đoạn, tốc độ thực thi của các phương pháp này chậm hơn so với việc sử dụng một kiến trúc thống nhất.

2.3.2 Hướng tiếp cận monolithic method

Khác với các phương pháp tiếp cận khác, các phương pháp monolithic sử dụng kiến trúc không thay đổi trong suốt quá trình huấn luyện dữ liệu Để đáp ứng yêu cầu kết hợp thông tin hình ảnh và văn bản, các phương pháp này cố gắng biểu diễn cả hai loại thông tin trong một không gian vector chung Việc đưa các thông tin này về cùng một miền không gian giúp các mô hình học được cơ chế học đa phương thức, từ đó cải thiện khả năng hiểu biết sự liên quan ngữ nghĩa giữa hình ảnh, câu hỏi và kiến thức bên ngoài Nhờ vậy, các mô hình có thể đưa ra các câu trả lời chính xác hơn.

Những nỗ lực đưa thông tin trực quan và văn bản vào một không gian chung Vào năm 2015 Malinowski cùng cộng sự đã đề xuất mạng Neural-Image-QA

Mô hình mạng sử dụng LSTM để rút trích đặc trưng văn bản, trong khi đặc trưng hình ảnh được rút trích bằng kiến trúc mạng CNN Hai vector đặc trưng này được đưa vào một bộ encoder LSTM để biểu diễn trong cùng một không gian Ngoài ra, một số tác giả sử dụng phép nhân element-wise để đưa đặc trưng hình ảnh và văn bản về cùng một gian vector, nhằm tăng cường hiệu quả trong việc biểu diễn.

Bài toán hỏi đáp hình ảnh infographic liên quan đến việc sử dụng kiến thức trong một không gian chung Mô hình DualNet không chỉ áp dụng phép nhân element-wise mà còn kết hợp thêm phép cộng element-wise Hai phép toán này tạo ra hai vector không gian riêng biệt, và sau đó, mô hình sẽ ghép nối các vector này lại với nhau để tạo ra kết quả cuối cùng.

Ngoài việc áp dụng phép toán vector để kết hợp dữ liệu, nhiều phương pháp hiện nay sử dụng cơ chế Attention để tăng cường sự chú ý của mô hình đối với câu hỏi và hình ảnh đầu vào Trong cuộc thi VQA, mô hình mạng SSSA đã giành chiến thắng vào năm 2017 nhờ vào việc sử dụng cơ chế Attention để tập trung vào các vùng trên ảnh liên quan đến câu hỏi Những vùng chú ý này cung cấp thông tin cần thiết để suy luận câu hỏi Tương tự, LoRRA cũng áp dụng cơ chế Attention trong kiến trúc mô hình, trở thành phương pháp SOTA trên tập dữ liệu TextVQA.

Mô hình LoRRA áp dụng ba cơ chế attention: Self-attention, Spatial Attention và Contextual Attention để cải thiện khả năng hiểu thông tin từ hình ảnh Ngoài ra, nó còn sử dụng các token OCR được trích xuất từ ảnh làm đầu vào, giúp mô hình nhận diện và hiểu văn bản xuất hiện trong hình ảnh một cách hiệu quả.

Bước tiến lớn trong việc sử dụng Transformer không chỉ dừng lại ở cơ chế Attention đơn giản Các phương pháp hiện tại đã khai thác sức mạnh của Transformer làm nền tảng cho việc suy luận câu trả lời Tiếp nối thành công của LoRRA, nhóm nghiên cứu từ Facebook đã phát triển mô hình M4C, tập trung vào việc cải thiện khai thác thông tin trực quan từ dữ liệu đầu vào M4C sử dụng kiến trúc Transformer làm xương sống, tận dụng cơ chế self-attention để nhận diện mối tương quan giữa các thành phần thông tin một cách hiệu quả và nhanh chóng.

2 Bài toán hỏi đáp hình ảnh inforgraphic và các kiến thức liên quan một loạt các phương pháp khác như B2T2[21], LXMERT [22], ViLBERT [23],

Các mô hình như TAP, OSCAR, TILT network và LayoutLMv2 sử dụng kiến trúc Transformer hoặc BERT để giải quyết các bài toán kết hợp thông tin trực quan và văn bản Kiến trúc Transformer đã đạt được nhiều thành công trong xử lý ngôn ngữ tự nhiên gần đây, và việc áp dụng nó trong các bài toán hỏi đáp trên ảnh giúp giải quyết các thách thức ngôn ngữ hiệu quả Hơn nữa, cơ chế self-attention trong Transformer đóng vai trò quan trọng trong việc hiểu mối tương quan ngữ nghĩa giữa các dữ liệu đầu vào trong các phương pháp học đa phương thức.

Vision Language Pre-training (VLP) cho bài toán hỏi đáp trên ảnh không chỉ dựa vào thông tin trong ảnh và câu hỏi, mà còn cần kiến thức tổng quát để suy luận đáp án Để huấn luyện mô hình có nền tảng kiến thức cơ bản, phương pháp học tự giám sát (self-supervised learning) đã ra đời Các phương pháp này sử dụng chiến lược học từ một lượng lớn dữ liệu không gán nhãn để thu thập kiến thức tổng quát, quá trình này được gọi là pre-training mô hình Sau đó, các mô hình sẽ được fine-tune cho các nhiệm vụ cụ thể, và những mô hình này trong bài toán hỏi đáp trên ảnh được gọi là nhóm phương pháp học tự giám sát.

Vision Language Pre-training (VLP) Hầu hết các phương pháp VLP vẫn sử dụng Transformer là kiến trúc nền tảng trong kiến trúc chung trong mô hình huấn luyện.

LXMERT, Oscar, TAP , LayoutLMv2 hay TILT network là một trong những phương pháp VLP LXMERT sử dung 3 thành phan encoder khác nhau, trong

Bài toán hỏi đáp hình ảnh infographic sử dụng Object-Relationship Encoder và Language Encoder để giúp mô hình hiểu mối quan hệ đặc trưng trong từng phương thức, bao gồm phương thức trực quan và văn bản LXMERT tiếp tục áp dụng phương pháp Cross- để tối ưu hóa khả năng xử lý thông tin từ cả hai nguồn.

Modality Encoder học các biểu diễn đa phương thức bằng cách huấn luyện trên 5 bộ dữ liệu với 9.18 triệu cặp hình ảnh và văn bản trong giai đoạn Pre-training Các bộ dữ liệu này bao gồm VQAv2.0, GỌA và VG-QA cho bài toán hỏi đáp trên ảnh Phương pháp OSCAR đã cải thiện khả năng dự đoán câu trả lời bằng cách thêm Object Tags vào đầu vào, giúp giảm thiểu sự mơ hồ ngữ nghĩa từ các vùng không chứa đối tượng OSCAR được huấn luyện với 6,5 triệu mẫu dữ liệu, bao gồm câu hỏi, object tags và hình ảnh, và được fine-tune trên 7 task, đạt độ chính xác 73.82% trên VQAv2.0 Trong khi đó, LayoutLMv2 tập trung vào tầm quan trọng của bố cục trong ảnh bằng cách sử dụng thêm 2 tang embedding 1D.

Position embeddings and 2D position embeddings play a crucial role in the LayoutLMv2 model During the pre-training phase, LayoutLMv2 is trained using three self-supervised tasks: Masked Visual-Language Model, Text-Image Alignment, and Text-Image.

The matching process on the IT-CDIP Test Collection, which consists of 11 million scanned document images, yielded an ANLS score of 0.8672.

Giớithệu

Rút trích đặc trưng vănbản

Giớithệu

Rút trích đặc trưng văn bản hay word embeddings là quá trình chuyển đổi các từ từ hình ảnh hoặc câu hỏi thành các vector đặc trưng Một số phương pháp phổ biến hiện nay bao gồm TF-IDF, Word2Vec, GloVe và LSTM.

[15], FastText [37], PHOC [38], BERT [2] LSTM được sử dung trong mô hình

SSSA Trong khi đó TAP va M4C sử dung FastText để rút trích đặc trưng van

!https:/mage-net.org/challenges/ilsvre+mscoco2015

?https://paperswithcode.com/lib/torchvision/faster-r-cnn

2 Bài toán hỏi đáp hình ảnh inforgraphic và các kiến thức liên quan bản trong mô hình của mình Một hương pháp được ưa chuộng dạo gần đây hơn đó là BERT Nó được sử dụng để rút trích đặc trưng văn bản trong một số mô hình như M4C, OSCAR

2.4.2.2 Một số kiến trúc mang dùng để rút trích đặc trưng trong văn ban

LSTM là một kiến trúc mạng nâng cao của RNN, được phát triển để khắc phục vấn đề phụ thuộc xa mà RNN gặp phải Bằng cách sử dụng các cổng để điều chỉnh trạng thái tế bào trong từng module, LSTM có khả năng chọn lọc và loại bỏ thông tin không cần thiết trong quá trình hoạt động.

Nhờ đó nó giải quyết vấn dé mà RNN gap phải. x+ Ì o (W - [he-1, #:]) r, = 0 (W,.- [he-1, #;]) hy = tanh (W - [rz * he_1, 24]) hy = (1 — %) x*hụ—1 + z¡ *hụ

Hình 2.12: Kiến trúc trong mỗi module của LSTM!

FastText, được phát triển bởi nhóm nghiên cứu Facebook, là một phương pháp cải tiến cho word embeddings so với Word2Vec Kỹ thuật n-gram của FastText chia nhỏ mỗi từ trong tập huấn luyện thành các đoạn nhỏ hơn, ví dụ, từ "mobile" sẽ được tách thành "mo", "bi", "le" Nhờ vào cách tiếp cận này, FastText có khả năng biểu diễn tốt các từ không có trong từ điển cũng như những từ hiếm gặp Do đó, FastText thường được áp dụng trong giai đoạn rút trích đặc trưng văn bản cho các mô hình hỏi đáp trên ảnh.

!https://dominhhai.github.io/vi/2017/10/what-is-Istm/

Kếthợp thông tin thị giác và văn bản

Các mô hình sử dụng các vector đặc trưng đã được rút trích để tạo ra một vector hoặc ma trận đặc trưng duy nhất, đại diện cho thông tin thị giác-văn bản Để kết hợp thông tin này, có thể thực hiện các thao tác như ghép vector hoặc sử dụng phép toán cộng nhân element-wise Trước khi kết hợp, việc chuẩn hóa giá trị của từng vector là cần thiết để cải thiện hiệu quả và tốc độ huấn luyện của mô hình Sự kết hợp giữa thông tin thị giác và ngôn ngữ giúp mô hình hiểu rõ hơn về mối quan hệ giữa các đối tượng và bố cục trong hình ảnh với câu hỏi được đặt ra.

Dựđoánkếtquả

Một số phương pháp hiệu quả cho bài toán hỏi đáp dựa trên hình ảnh bao gồm việc sử dụng khối decoder để xử lý thông tin kết hợp, hoặc áp dụng bộ phân lớp để đưa ra câu trả lời chính xác cho các câu hỏi.

Khi sử dụng bộ phân lớp để dự đoán câu trả lời, người cài đặt cần định nghĩa một tập từ điển câu trả lời, trong đó mỗi đáp án tương ứng với một lớp mà mô hình phân loại Các mô hình sẽ tính xác suất cho từng lớp và chọn đáp án có xác suất cao nhất làm câu trả lời cuối cùng Tuy nhiên, phương pháp này hạn chế khả năng tạo ra câu trả lời đa dạng và phức tạp, đặc biệt khi câu hỏi không nằm trong từ điển Hơn nữa, việc xây dựng một tập từ điển câu trả lời hợp lý với bài toán cũng đặt ra nhiều thách thức cho người cài đặt mô hình.

Sử dụng cơ chế decoding, các bộ hình sẽ áp dụng khối decoder để giải mã từng từ trong câu trả lời qua từng bước thời gian, giúp mô hình dừng lại một cách hợp lý.

Bài toán hỏi đáp hình ảnh thông qua infographic và các kiến thức liên quan có khả năng dự đoán câu trả lời khi gặp token kết thúc đã được quy định Phương pháp này giúp mô hình tạo ra nhiều câu trả lời đa dạng, không phụ thuộc vào định nghĩa của tập từ điển câu trả lời, từ đó nâng cao độ chính xác của các mô hình.

Chương này cung cấp cái nhìn tổng quan về bài toán hỏi đáp trên ảnh infographic, nhấn mạnh tầm quan trọng của nó trong đời sống Bên cạnh đó, chúng tôi cũng chỉ ra những thách thức khi giải quyết bài toán này Hơn nữa, chúng tôi đã khảo sát một số phương pháp trong hai hướng tiếp cận: phương pháp modular và phương pháp monolithic Từ đó, chúng tôi trình bày kiến trúc tổng quan của các phương pháp giải quyết bài toán hỏi đáp trên ảnh infographic.

Trong bài toán hỏi đáp dựa trên hình ảnh, có nhiều phương pháp thuật toán với ưu điểm và nhược điểm riêng Một trong những hướng tiếp cận tiềm năng là phương pháp monolithic sử dụng Transformer Nhóm nghiên cứu đã thử nghiệm một số phương pháp như BERT, LayoutLMv2 và M4C để đánh giá tính chính xác và các đặc điểm của chúng Đặc biệt, do chưa có bộ dữ liệu hỏi đáp trên infographic tiếng Việt, nhóm đã xây dựng bộ dữ liệu riêng và tiến hành thử nghiệm các phương pháp đã tìm hiểu.

Chương 3 ĐÁNH GIÁ MỘT SỐ PHƯƠNG

PHÁP HỌC SÂU CHO BÀI TOÁN

HỎI ĐÁP DỰA TRÊN ẢNH

Trong chương này, nhóm sinh viên giới thiệu các phương pháp học sâu cho bài toán hỏi đáp dựa vào hình ảnh, chủ yếu dựa trên kiến trúc Transformer Chương cũng sẽ cung cấp kiến thức cơ bản về Transformer và lý thuyết của các phương pháp đã được nhóm nghiên cứu và đánh giá trong khóa luận.

3 Một số phương pháp học sâu cho bài toán hỏi đáp dựa vào hình ảnh

TransfOrmer ẶẶ ee 32

Giớithệu Ốc 32

Mạng Nơ-ron Tích Chập (CNN) và Mạng Nơ-ron Tái Phát (RNN) là hai kiến trúc phổ biến trong các bài toán học sâu Mạng CNN có khả năng thực hiện song song hiệu quả ở từng tầng, nhưng lại không thể nắm bắt được các phụ thuộc chuỗi với độ dài thay đổi.

RNN có khả năng nắm bắt thông tin trong chuỗi dài nhưng không thể thực hiện song song Để kết hợp ưu điểm của CNN và RNN, nhóm tác giả Vaswani đã phát triển kiến trúc Transformer Kiến trúc này sử dụng cơ chế tập trung để học chuỗi phản hồi và mã hóa vị trí của từng phần tử, giúp tăng cường khả năng song song hóa Kết quả là một mô hình với thời gian đào tạo giảm đáng kể.

Máy biến áp, giống như mô hình seq2seq, sử dụng kiến trúc bộ mã hóa và bộ giải mã, nhưng thay thế lớp phản hồi bằng lớp chú ý nhiều đầu Kiến trúc này kết hợp thông tin vị trí thông qua mã hóa vị trí và áp dụng chuẩn hóa lớp Cả hai mô hình đều tương tự nhau, với chuỗi nguồn được nhúng và cung cấp cho n khối lặp lại Đầu ra từ khối mã hóa cuối cùng đóng vai trò là bộ lưu trữ tập trung cho bộ giải mã, trong khi chuỗi đích cũng được nhúng và cung cấp cho bộ giải mã Cuối cùng, đầu ra được nhận bằng cách áp dụng lớp mật độ cao có kích thước như từ điển cho đầu ra của khối bộ giải mã cuối cùng.

Kiến trúc Transformer

3.2.2.1 Các thành phần cơ ban trong Transformer

Tập trung đa đầu (multi-head attention) là một phần quan trọng trong kiến trúc tự tập trung, nơi các truy vấn, khóa và giá trị được sao chép từ các phần tử của chuỗi đầu vào Tầng tự lấy nét tạo ra đầu ra tuần tự có độ dài tương đương với đầu vào, cho phép tính toán các phần tử đầu ra một cách song song, từ đó tạo ra mã tốc độ cao một cách dễ dàng.

Hình 3.2: Kiến trúc tự tập trung.!

Lớp nhiều đầu tập trung bao gồm h đầu tiên, là lớp tự tập trung song song Trước khi nhập mỗi kết thúc, truy vấn, khóa và giá trị được chiếu lên ba lớp dày đặc, với các thứ nguyên ẩn pq, pk và pv Đầu ra của h đầu tiên được nối và xử lý bởi tầng dày đặc cuối cùng.

Giả sử chiêu của câu truy vấn, khóa và giá trị lần lượt là dq, dk và dv Tại mỗi đầu i = 1, ,h, chúng ta có thể học các tham số wi thuộc RPaX aq và Ww? thuộc RPRX A.

"https://www.researchgate.net/figure/Transformer-model-architecture-described-in-Attention-Is-

!https://d21.aivivn.com/;nages /sel f — attention.svg

3 Một số phương pháp học sâu cho bài toán hỏi đáp dựa vào hình ảnh và Wi e R*% Do đó, đầu ra tại mỗi đầu là: ot) = attention(W¿' 9, W, Ok, W Dy)

, trong đó attention có thé là bat kỳ tang tập trung nào, chang han như DotPro- ductAttention và MLP Attention.

Các đầu ra có độ dài p được kết nối với các đầu ra có độ dài hp ở cả hai đầu, sau đó được gửi đến lớp dày đặc cuối cùng với d nút ẩn Trọng số của lớp mật độ cao này được ký hiệu là W, thuộc tập hợp R”*"?", do đó, lớp nhiều đầu tập trung sẽ được xác định.

Truyvấn Từ khoá Giá trị

Hình 3.3: Tập trung đa đầu!

'https://d21.aivivn.com/jmages /multi — head — attention.svg

Mạng truyền xuôi theo vị trí (position-wise feed-forward network) là một thành phần quan trọng trong kiến trúc Transformer, chấp nhận đầu vào 3D với kích thước bao gồm kích thước batch, độ dài chuỗi và kích thước tính năng Mạng này bao gồm hai lớp dày đặc, được áp dụng cho kích thước cuối cùng của đầu vào, và được gọi là mạng truyền dẫn chuyển tiếp vì chúng hoạt động cùng nhau tại mỗi vị trí trong chuỗi Điều này tương ứng với việc sử dụng hai lớp tích chập 1x1.

Trong kiến trúc Transformer, tầng "cộng và chuẩn hóa" đóng vai trò quan trọng trong việc kết nối đầu vào và đầu ra của các tầng khác Cụ thể, cấu trúc phần dư và tầng chuẩn hóa được thêm vào sau tầng tập trung đa đầu và mạng truyền xuôi theo vị trí Chuẩn hóa theo tầng tương tự như chuẩn hóa theo batch, nhưng khác biệt ở chỗ giá trị trung bình và phương sai được tính theo chiều cuối cùng (X.mean(axis = —1)) thay vì theo chiều đầu tiên (X.mean(axis = 0)) Tầng chuẩn hóa giúp ngăn chặn sự biến đổi quá lớn trong phạm vi giá trị, từ đó cải thiện tốc độ huấn luyện và khả năng khái quát hóa của mô hình.

của X và trả về đầu ra P + X Ma trận vị trí P có hai chiều, trong đó ¡ đại diện cho thứ tự trong câu và 7 là vị trí theo chiều embedding, cho phép mỗi vị trí trong chuỗi ban đầu được biểu diễn một cách hiệu quả.

-—— Độ dài chuỗi Ma trận chuỗi đầu vào Ma tran ma hoa vi tri

Hình 3.4: Biểu diễn vị trí!.

Tạo bộ mã hóa cho máy biến áp của bạn bằng cách sử dụng các thành phần quan trọng, bao gồm lớp nhiều đầu tập trung, mạng truyền tải xuống và hai khối kết nối "bổ sung và chuẩn hóa" Mã nguồn cho thấy rằng cả lớp tập trung của EncoderBlock và mạng hạ lưu đều có đầu ra kích thước num_hiddens, điều này cần thiết để cho phép thêm vào giá trị đầu vào, với các phần dư được kết nối trong quá trình "bổ sung và chuẩn hóa".

!https://d21.aivivn.com/nages/positionalyncoding.svs

Khối giải mã tương tự như khối mã hóa, nhưng bổ sung thêm một lớp tập trung nhiều đầu cho đầu ra của bộ mã hóa, bên cạnh hai lớp con là tiêu điểm nhiều đầu và biểu diễn vị trí Các lớp này được kết nối thông qua lớp Thêm và Chuẩn hóa, bao gồm cả kết nối còn lại và chuẩn hóa tang Tại thời điểm t, đầu vào hiện tại là truy vấn x, với các khóa và giá trị của lớp tiêu điểm bao gồm các truy vấn cho bước thời gian hiện tại và tất cả các truy vấn trước đó.

Từ khoá, giá trị Truy van

Hình 3.5: Dự đoán ở bước thời gian ¢ của một tang tự tập trung!.

Phương phápBERT

Giớithiệu eee ee 38

BERT, viết tắt của "Biểu diễn Mã hóa Hai chiều của Transformer", là một mô hình biểu diễn từ được phát triển dựa trên công nghệ Transformer, cho phép hiểu ngữ nghĩa trong ngữ cảnh hai chiều.

!https://d21.aivivn.com/;nages /sel f — attention — predict.svg

3 Một số phương pháp học sâu cho bài toán hỏi đáp dựa vào hình ảnh được thiết kế để đào tạo trước việc nhúng từ Điểm đặc biệt của BERT là khả năng cân bằng bối cảnh ở cả bên trái và bên phải Cơ chế chú ý của Biến áp biến tất cả các từ trong một câu thành một mô hình cùng một lúc, bất kể chiều của câu đó là gì Do đó, trong khi Transformer được coi là huấn luyện hai chiều, thì chính xác hơn khi nói rằng nó thực sự là huấn luyện đa hướng Tính năng này cho phép mô hình học ngữ cảnh của từ dựa trên tất cả các từ xung quanh, bao gồm cả từ trái và phải.

Hình 3.6: Quá trình pre-training và fine-tuning trong mô hình BERT [2]

Các giai đoạn trong mô hình BERT

Task 1: Masked LM Masked ML là một tác vu cho phép chúng ta fine-tuning lại các biểu diễn từ trên các bộ dữ liệu unsupervised-text bat kỳ Chúng ta có thể áp dung Masked ML cho những ngôn ngữ khác nhau để tạo ra biểu diễn embedding cho chúng Các bộ dữ liệu của tiếng anh có kích thước lên tới vài vài trăm tới vài nghìn GB được huấn luyện trên BERT đã tạo ra những kết quả khá ấn tượng Theo đó:

* Khoảng 15% các token của câu đầu vào được thay thế bởi [MASK] token trước khi truyền vào model đại diện cho những từ bị che dấu (masked).

Mô hình dựa trên các từ không bị che dấu xung quanh [MASK] và bối cảnh của [MASK] để dự đoán giá trị gốc của từ bị che Số lượng từ bị che là 15%, trong khi bối cảnh chiếm 85% Kiến trúc BERT là một mô hình seq2seq với hai phase encoder để tạo embedding cho các từ đầu vào và decoder để xác định phân phối xác suất cho các từ đầu ra Kiến trúc Transformer encoder được giữ lại trong tác vụ Masked ML Sau khi thực hiện self-attention và feed forward, chúng ta thu được các véc tơ embedding ở đầu ra Để tính toán phân phối xác suất cho từ đầu ra, một Fully connected layer được thêm vào ngay sau Transformer Encoder, với hàm softmax để tính toán phân phối xác suất, và số lượng units của layer này phải tương ứng với kích thước của từ điển.

Cuối cùng, chúng ta thu được véc tơ nhúng cho mỗi từ tại vị trí MASK, đây là véc tơ đã được giảm chiều sau khi đi qua lớp fully connected, như được mô tả trong hình vẽ bên phải.

Hàm mất mát của BERT chỉ tính đến các từ bị che dấu và bỏ qua những từ không bị che dấu, dẫn đến việc mô hình cần thời gian hội tụ lâu hơn Tuy nhiên, điều này bù đắp cho việc nâng cao khả năng nhận thức về bối cảnh Việc ngẫu nhiên chọn 1% số từ bị che dấu tạo ra nhiều kịch bản đầu vào khác nhau cho quá trình huấn luyện, do đó mô hình cần một thời gian dài để học hỏi toàn diện các khả năng của mình.

Task 2: Next Sentence Prediction (NSP) Đây là một bài toán phân loại học có giám sát với 2 nhãn (hay còn gọi là phân loại nhị phân) Đầu vào của mô hình là một cặp câu (pair-sequence) sao cho 50% câu thứ 2 được lựa chọn là câu tiếp theo của câu thứ nhất và 50% được lựa chọn một cách ngẫu nhiên từ bộ văn bản mà không có mối liên hệ gì với câu thứ nhất Nhãn của mô hình sẽ tương ứng với IsNext khi cặp câu là liên tiếp hoặc NotNext néu cặp câu không liên tiếp.

Giống như mô hình Question and Answering, chúng ta cần đánh dấu vị trí bắt đầu của câu đầu tiên bằng token [CLS] và vị trí kết thúc của câu bằng token [SEP] Những token này giúp xác định rõ ràng vị trí bắt đầu và kết thúc của từng câu trong quá trình xử lý.

Thông tin đầu vào được tiền xử lý trước khi đưa vào mô hình huấn luyện bao gồm ngữ nghĩa của từ thông qua các embedding véc tơ cho từng từ, với các véc tơ này được khởi tạo từ mô hình pretrain.

Ngoài embedding biểu diễn từ của các từ trong câu, mô hình còn embedding thêm một số thông tin:

Segment embeddings consist of two vectors, E1 and E2, indicating whether a word belongs to the first or second sentence Position embeddings are represented by vectors P1, P2, , Pn, which denote the position of each word within the sentence.

Tương tự như positional embedding trong Transformer.

Vector đầu vào sẽ bằng tổng của cả ba thành phan embedding theo word, sentence va vị tri.

Sau khi hoàn thành giai đoạn Pre-training, tùy thuộc vào tác vụ mong muốn, cần định nghĩa thêm các lớp trên kiến trúc mô hình.

Số lượng tham số là 110 triệu, với 340 triệu hành động huấn luyện lại tất cả các tham số của mô hình trong vài epochs Quá trình fine-tuning này ít tốn kém hơn so với đào tạo từ đầu, chỉ mất khoảng 1 giờ trên Cloud TPU hoặc vài giờ trên GPU, bắt đầu từ một mô hình đã được đào tạo trước.

Các kiến trúc môhình BERT

Sự khác biệt về siêu tham số trong kiến trúc Transformer tạo ra các mô hình BERT đa dạng Hai mô hình BERT phổ biến thường được sử dụng là BERT-base và BERT-large.

Các kiến trúc biến thể mới của BERT hiện tại vẫn dang được nghiên cứu và tiếp tục phát triển như ROBERTA [39], ALBERT [40], CAMEBERT [41],

3.3.4 Áp dung BERT cho bài toán hỏi dap Để tạo dữ liệu huấn luyện và kiểm thử cho mô hình BERT Question Answer- ing, nhóm xem bài toán hỏi đáp dựa trên hình ảnh như bài toán hỏi đáp trong đó câu trả lời được rút trích từ nội dung văn bản trong hình ảnh Hình 3.7 mô tả việc tạo một sample trong bài toán hỏi đáp từ dữ liệu hỏi đáp dựa trên hình ảnh.

3.3.5 Ưu điểm và hạn chế Ưu điểm ô Cú thể sử dụng mụ hỡnh BERT đó huấn luyện trong giai đoạn Pre-training để fine-tuning với các tác vụ cụ thể khác nhau.

Ưu điểm vàhạnchế

Ưu điểm ô Cú thể sử dụng mụ hỡnh BERT đó huấn luyện trong giai đoạn Pre-training để fine-tuning với các tác vụ cụ thể khác nhau.

Phuong phapM4C

Giới thiệu @ 5⁄77 x.mù .Ổ ` 43

Trong bài báo "Iterative Answer Prediction with Pointer-Augmented Multi- modal Transformers for TextVQA" [5] nhóm tác giả đến từ Microsoft đã giới

3 Một số phương pháp học sâu cho bài toán hỏi đáp dựa vào hình ảnh thiệu kiến trúc M4C được lấy cảm hứng từ kiến trúc Transformer [7] cho bài toán hỏi đáp trên ảnh Bài toán hỏi đáp trên ảnh đòi hỏi các phương pháp phải có sự kết hợp hiệu quả giữa các thông tin hình ảnh và văn bản Tuy nhiên các phương pháp trước đó lại không làm tốt điều này vì sử dụng các tham số khác nhau cho từng loại thông tin Thêm vào đó, giai đoạn dự đoán câu trả lời của các phương pháp này được xem như là giai đoạn phân lớp - các câu trả lời được định nghĩa trước được xem như là các lớp cần chọn Vì vậy câu trả lời không có tính đa dạng và độ chính xác cao. Để khắc phục các hạn chế của các phương pháp kể trên, mô hình M4C biến các đặc trưng thông tin về câu hỏi, đối tượng trong ảnh và OCR token (tập văn bản xuất hiện trong ảnh) về cùng một không gian embedding chung Ngoài ra để sử dụng hiệu quả các thông tin về thị giác của văn bản, M4C còn tập trung vào việc trích xuất các thông tin về font chữ, màu sắc, vị trí, của tất cả văn bản được sử dụng bao gồm OCR token và câu hỏi Còn đối với giai đoạn dự đoán câu trả lời, M4C sử dụng cơ chế decoder từ Transformer để dự đoán từng từ trong câu trả lời theo mỗi bước thời gian t Điều này cho phép mô hình tao ra sự đa dạng trong câu trả lời giúp cải thiện độ chính xác Không những thế, tác giả còn sử dung dynamic pointer network để tăng hiệu quả trong việc dự đoán câu trả lời.

Mô hình M4C được cấu trúc với các thành phần chính là tầng embedding và tầng multimodal Transformer Tầng embedding có nhiệm vụ tạo ra vector embedding từ dữ liệu đầu vào, bao gồm câu hỏi, các đối tượng trong ảnh và OCR token, cùng với kết quả dự đoán tại mỗi bước thời gian Sau đó, các vector embedding này sẽ được xử lý qua tầng Transformer, cho phép mô hình học được sự phụ thuộc và mối liên hệ giữa các thông tin thông qua cơ chế attention.

3 Một số phương pháp học sâu cho bài toán hỏi đáp dựa vào hình ảnh giai đoạn này sẽ được sử dụng để dự đoán câu trả lời ở giai đoạn tiếp theo nhờ vào việt áp dụng cơ chế decoding của Transformer Trong suốt quá trình decode câu trả lời, tại mỗi bước thời gian từng từ trong câu trả lời sẽ được chọn tự tập

OCR tokens or predefined vocabulary sets refer to the specific terms used in response generation These vocabulary sets are created from the answers found in the training data For example, a question like "What is the speed limit of this road?" could be represented in a structured format for processing.

Si (75) mph í › score 1 scores 2 scores T vocab | Rees vocab

— pointer network scores 1 i= - To scores T detected objects; car | road |\sign)

+ * + + + + + * +® | + + + question word embedding detected object embedding OCR token embedding previous prediction embedding

+ + + + + + * k + + + + question question question detected detected detected OCR OCR OCR previous previous word1 word2 word K object1 object 2 objectM token1 token2 token N output 1 output T-1

Hình 3.8: Kiến trúc mô hình của M4C [5]

Mỗi câu hỏi sẽ bao gồm K từ, và mỗi từ sẽ được nhúng dưới dạng một vector xf" * (với k = 1,2,3, ,K) Nhóm tác giả sử dụng mô hình BERT đã được huấn luyện trước để nhúng tất cả các vector này.

Trong bài báo này, mô hình M4C đã sử dụng mô hình pretrain Faster-RCNN để phát hiện các đối tượng trong ảnh Giả sử có M đối tượng được trích xuất, các đối tượng này không chỉ được chuyển đổi thành các vector đặc trưng về hình dạng mà còn bao gồm cả vector đặc trưng về vị trí Các vector này giúp khai thác triệt để thông tin hình ảnh Vector đặc trưng sẽ được tạo ra thông qua bộ trọng số của Faster R-CNN fc7, trong khi các vector khác sẽ sử dụng tọa độ xác định bounding box, bao gồm Xmin, Ymin, Xmax, và Ymax.

3 Một số phương pháp học sâu cho bài toán hỏi đáp dựa vào hình ảnh được tính như sau:

XÃ = [Xmin/Wim;¥min/Him,Xmax/Wim,¥max/Him|

Với Win, Him là chiều rộng và chiều dài của ảnh đang được xem xét Hai vector xi và xP sẽ được kết hợp để tạo ra một vector chung, được biểu diễn như sau: x0?/= LN(Wi xi") + LN(W2x° ) m 14m Xm.

W and W; represent the learned projection matrices The LN() layer is a normalization component used to standardize the data, ensuring that the embeddings of question words have consistent values.

OCR token embedding là quá trình trích xuất 4 loại đặc trưng khác nhau từ kết quả OCR của mỗi ảnh Đầu tiên, mô hình sử dụng FastText để tạo ra vector đặc trưng cho từng từ với kích thước 300 Tiếp theo, Pyramidal Histogram of Characters (PHOC) được áp dụng cho mỗi ký tự trong tập OCR token, cho ra vector đặc trưng có kích thước 604 Cuối cùng, hai loại đặc trưng còn lại được trích xuất là hình dạng và tọa độ của mỗi token, với vector tương ứng được tính toán tương tự như các giai đoạn trước.

Sau khi thu thập được 4 vector tương ứng với 4 loại đặc trưng, mô hình sẽ tiến hành kết hợp các đặc trưng này theo công thức: x2 = LN(WaxƑT + Wax/" + Wsx„p) + LN(Woxnb).

Với W3,W4, Ws, va We đều là ma tran learned projection. obj, ocr

The input data will be processed through a Transformer layer to enhance attention among various information vectors This approach enables improved answer prediction by effectively capturing relationships between the input elements.

3 Một số phương pháp học sâu cho bài toán hỏi đáp dựa vào hình ảnh dự đoán thông qua iterative decoding trong 7 bước thời gian với cùng cấu trúc Transformer ở giai đoạn trước Tại mỗi mỗi bước thời gian , bang cách tính toán điểm số cho từng từ từ tập từ vựng câu trả lời và tap OCR token mô hình sé lấy từ có điểm số cao nhất cho kết quả tại bước thời gian đó.

Nhóm tác giả đã áp dụng một lớp tuyến tính đơn giản để dự đoán điểm số dựa trên tập từ vựng của câu trả lời Công thức được sử dụng là: voc voc\T dec voc vị = (wee)! ee +bị.

Vector đầu ra của Transformer tại bước thời gian thứ t, ký hiệu là z/°°, được xem như đầu vào x tại thời điểm đó Ma trận w; là ma trận tham số liên kết giữa mỗi từ thứ i và vector z/°° Các tham số khác bao gồm i = 1, 2, , V (V là kích thước của tập từ vựng) và b7““ là hệ số tự do Để tính toán điểm số cho mỗi OCR token, mô hình sử dụng dynamic pointer network nhằm nâng cao hiệu suất của Transformer, với điểm số được tính theo công thức đã nêu.

Trong đó °°" là dau ra của từng OCR token sau khi qua tang Transformer W°°" va We là ma tran dXd chiều; 5°" và p#“° là các vectors d chiéu.

Kiến trúc mô hình M4C có một số ưu điểm và nhược điểm như sau: Ưu điểm

M4C tối ưu hóa việc sử dụng thông tin thị giác từ dữ liệu đầu vào, đặc biệt là khả năng khai thác hiệu quả thông tin văn bản có trong hình ảnh, so với các phương pháp trước đây.

UƯuđiểm,hạnchế

Áp dụng kiến trúc Transformer giúp mô hình học được sự chú ý giữa các phương thức, từ đó cải thiện khả năng xử lý thông tin Bên cạnh đó, việc sử dụng cơ chế decoding trong mô hình cho phép dự đoán câu trả lời một cách chính xác và hiệu quả hơn.

M4C sử dụng đa dạng các đặc trưng cho bài toán, do đó, trước khi tiến hành huấn luyện, người cài đặt thuật toán cần chuẩn bị các đặc trưng này, bao gồm đặc trưng thị giác của hình ảnh và tập token OCR.

Mô hình phức tạp với nhiều đặc trưng thường có kích thước lớn, gây khó khăn trong việc triển khai trên các thiết bị di động có bộ nhớ hạn chế.

Phương pháp LayouLMv2

Phương pháp LayoutLM được giới thiệu trong cuộc thi Document Visual

Question Answering (DocVQA) !, một trong những cuộc thi được tổ chức bởi

ICDAR2021 Cu thể, phiên bản thứ 2 của phương pháp này đạt độ chính xác đáng kể trên task 1 của thuộc (Single Document Visual Question Answering).

LayoutLMv2 là một kiến trúc tiên tiến giúp hiểu tài liệu, được đào tạo trên một lượng lớn hình ảnh tài liệu quét không gắn nhãn từ tập dữ liệu IIT-CDIP Mô hình này thực hiện việc thay thế ngẫu nhiên một số hình ảnh trong cặp hình ảnh văn bản bằng hình ảnh tài liệu khác, nhằm giúp nhận diện mối quan hệ giữa hình ảnh và văn bản OCR Đặc biệt, LayoutLMv2 tích hợp cơ chế tự nhận thức không gian vào kiến trúc Transformer, cho phép mô hình nắm bắt mối quan hệ vị trí tương đối giữa các khối văn bản khác nhau một cách hiệu quả.

!https://rrc.cvc.uab.es/?ch

GihiểmP7ee “œ@I\R./7 4 ee, 48

Kiếntrúcmôhình

Nhóm tác giả của bài báo LayoutLMv2 đã phát triển mô hình LayoutLMv2 dựa trên kiến trúc Transformer để thực hiện các tác vụ hiểu biết tài liệu phong phú về mặt hình ảnh (VrDU) Mô hình này sử dụng Transformer đa phương thức, cho phép tiếp nhận đầu vào từ ba nguồn: văn bản, hình ảnh và bố cục Mỗi loại đầu vào được chuyển đổi thành trình tự nhúng và được kết hợp bởi bộ mã hóa LayoutLMv2 thiết lập các tương tác sâu giữa các phương thức bằng cách tận dụng sức mạnh của các lớp Transformer, mặc dù một số lớp bỏ qua và chuẩn hóa không được đề cập chi tiết.

Phương pháp LayoutLMv2 nhận dạng văn bản và sắp xếp theo thứ tự hợp lý bằng cách sử dụng công cụ OCR độc quyền và trình phân tích cú pháp PDE Để mã hóa chuỗi văn bản, ta áp dụng WordPiece (Wu và cộng sự, 2016), gán mỗi mã thông báo cho một phân đoạn thuộc {[A], [B]} Chuỗi mã thông báo sẽ có [CLS] ở đầu và [SEP] ở cuối mỗi đoạn Độ dài chuỗi văn bản được giới hạn để không vượt quá độ dài tối đa L, và các mã thông báo [PAD] sẽ được thêm vào sau mã thông báo [SEP] cuối cùng để lấp đầy khoảng trống nếu chuỗi ngắn hơn L token.

+ + + + + + + Visual Test renee [vi v2 [va] [ T5 lI T6 | T7 [seri]

BỊ | Line l(eovered); TỊ [MASK] T3

= | Line 2(not covered); [MASK] T5 T6 T7 } vị v2 i i

Document Page with Covered OCR Lines Document Page

Hình 3.9: Kiến trúc mô hình LayoutLMv? [3]. cách này, ta nhận được chuỗi mã thông báo dau vào như thé nào.

Nhúng văn bản cuối cùng được tạo ra từ ba loại nhúng: nhúng mã thông báo đại diện cho mã thông báo, nhúng vị trí 1D thể hiện chỉ số mã thông báo, và nhúng phân đoạn dùng để phân biệt các phân đoạn văn bản khác nhau Cụ thể, nhúng văn bản thứ i được tính bằng công thức: í¡ = TokEmb(w;) + PosEmb1D(i) + SegEmb(s;), với điều kiện 0 < ¡ < L.

Nhóm tác giả trong bài báo đã áp dụng kiến trúc ResNeXt-FPN làm xương sống cho bộ mã hóa trực quan Hình ảnh trang tài liệu I được thay đổi kích thước thành 224 x 224 và đưa vào xương sống Ban đồ tính năng đầu ra được tổng hợp trung bình thành kích thước cố định với chiều rộng W và chiều cao H, sau đó được làm phẳng thành chuỗi nhúng trực quan có chiều dài WH Một lớp chiếu tuyến tính được áp dụng cho mỗi nhúng mã thông báo để thống nhất kích thước Do xương sống dựa trên CNN không thể nắm bắt thông tin vị trí, nhúng vị trí 1D được thêm vào các nhúng mã thông báo hình ảnh Tính năng nhúng vị trí 1D được chia sẻ với lớp nhúng văn bản Đối với nhúng phân đoạn, tất cả các mã thông báo trực quan được đính kèm vào phân đoạn trực quan [C], với nhúng trực quan thứ i được biểu diễn như sau: vị = Proj(VisTokEmb(7);) + PosEmb1D(i) + SegEmb([C]), 0 < i < WH.

Lớp nhúng bố cục trong phiên bản thứ hai của LayoutLM được thiết kế để nhúng thông tin bố cục không gian thông qua các hộp giới hạn mã thông báo, với tọa độ góc và hình hộp được xác định rõ ràng Khác với phiên bản đầu tiên, nhóm tác giả đã chuẩn hóa các tọa độ thành các số nguyên trong khoảng [0, 1000] và sử dụng hai lớp nhúng riêng biệt cho các đối tượng trục x và y Với hộp giới hạn chuẩn hóa của mã thông báo văn bản thứ i, lớp nhúng bố cục kết hợp sáu tính năng của hộp giới hạn để tạo ra bố cục cấp mã thông.

3 Một số phương pháp học sâu cho bài toán hỏi đáp dựa vào hình ảnh báo nhúng, hay còn gọi là nhúng vi trí 2D: ẽ; = Concat(PosEmb2D,(xọ,xị, w), PosEmb2D,(yọ,yị,h)), 0

Tiêu đề	Đánh Giá Một Số Phương Pháp Học Sâu Cho Bài Toán Hỏi Đáp Trên Ảnh Infographics Tiếng Việt
Tác giả	Nguyen Van Tiến, Pham Xuan Trí
Người hướng dẫn	TS. Ngô Đức Thành, ThS. Đỗ Văn Tiến
Trường học	Đại học Công nghệ Thông tin
Chuyên ngành	Khoa học máy tính
Thể loại	khóa luận tốt nghiệp
Năm xuất bản	2021
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	115
Dung lượng	63,19 MB