Luận văn thạc sĩ Khoa học máy tính: Mô hình kết hợp cho bài toán rút trích thông tin từ ảnh

Hiện tại nhiều phương pháp đã được đề xuất nhầm giải quyết hai bài toán này, tuy nhiên với loại dữ liệu có thông tin đa dạng và vị trí các trường thông tin không cố định như hóa đơn vẫn

Trang 1

ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH

TRUONG DAI HỌC CÔNG NGHỆ THONG TIN

Trang 2

ĐẠI HỌC QUỐC GIA THÀNH PHÓ HÒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

NGUYEN NGỌC THỪA.

Mô hình kết hợp cho bài toán

rút trích thông tin từ ảnh

LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH

Mã số: 8 48 01 01

NGƯỜI HƯỚNG DAN KHOA HỌC

TS NGÔ ĐỨC THÀNH

THÀNH PHÓ HÒ CHÍ MINH - 2023

Trang 3

DANH SÁCH HOI DONG PHAN BIEN

Hội đồng Phản biện Luận văn Thạc sĩ được thành lập theo Quyết định số

¬—— của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

Trang 4

Lời cảm ơn

Toi xin gửi lời cảm ơn chân thành đến Thầy Ngo Đức Thành và Thay

Đỗ Văn Tiền đã hết lòng hướng dẫn và hỗ trợ tôi trong suốt quá trình

thực hiện luận văn của mình tại Trường Dai Học Công Nghệ Thông tin.

Fhầy Ngô Dức Thành và Thầy Đỗ Văn Tiến đã đóng vai trò vô cùng

quan trọng trong việc định hình và hướng dẫn tôi qua từng bước của

dự án nghiên cứu này Thầy không chỉ là người hướng dẫn mà còn là

nguồn động viên và nguồn cảm hứng vô cùng lớn cho tôi Thầy luôn sẵn sàng lắng nghe ý kiến của tôi, trả lời mọi câu hỏi và giúp tôi vượt

qua những khó khăn trong quá trình nghiên cứu.

[oi thật sự biết ơn sự kiên nhãn và tận tâm của các Thay trong việc

am bảo rằng luận văn của tôi được hoàn thành một cách tốt nhất có

thể Các Thay đã hướng dan tôi trong việc phát triển ý tưởng nghiên cứu, thu thập dit liệu, phân tích kết quả, và viết báo cáo Sự hiểu biết

và kiến thức sâu rộng của Thầy đã giúp tôi xây dựng một luận văn có

giá trị và ý nghĩa.

Xin chân thành cam ơn Thầy Ngo Đức Thanh và Thầy Đỗ Văn Tiến

với tất cả sự tận tâm và hỗ trợ trong suốt thời gian qua Tôi hy vọng sẽ

có cơ hội được học hỏi thêm nhiều từ các Thay trong tương lai.

Tôi cũng xin gửi lời cảm ơn chân thành đến trường Dại học Công nghệ Thông tin vì sự hỗ trợ trong quá trình làm luận văn Sự tận tâm và

chuyên nghiệp của giáo viên hướng dẫn, cùng với sự đồng lòng của đồng

nghiệp và bạn bè, đã giúp tôi vượt qua những thách thức nghiên cứu.

Cơ sở vật chất và tài nguyên mà trường cung cấp cũng đóng vai trò quan trọng trong hành trình này Tôi tự hào và biết ơn vì có cơ hội

được học tập và phát triển tại trường.

Ky tên

ar

Nguyén Ngoc Thita

Trang 5

Lời cam đoan

Tôi xin cam đoan luận văn này là công trình nghiên cứu của tôi và những nội dung được trình bày trong luận văn này là hoàn toàn trung

thực Các cá nhân, tổ chức hỗ trợ tôi trong quá trình thực hiện luận

văn đã được đề cập đến trong Lời cảm ơn Các công trình khoa học

được tôi tham khảo có trích dẫn rõ ràng và liệt kê cụ thể, chính xác

trong phan Tài liệu tham khảo Tôi hoàn toàn chịu trách nhiệm về tính

xác thực của luận văn này.

Ky tên

Nguyễn Ngọc Thừa.

Trang 6

Tóm tắt

Trong đời sống thực tế, quá trình xác định vị trí và trích xuất thông tin quan trọng từ các tài liệu bán cấu trúc (tài liệu chứa thong tin cần tìm nằm rải rác không có vị trí cố định) như hóa đơn, đóng một vai trò quan trọng đối với việc quản lý thông tin Vấn đề này rất phức tạp và

ao gồm hai bài toán chính là bài toán xác định vị trí, trích xuất thông

tin quan trong (Key Information Localization and Extraction - KILE)

và bài toán nhận dang các mục dong (Line Item Recognition - LIR).

Bai toán KILE doi hỏi khả năng xác định vi trí chính xác của thong

tin quan trọng trên tài liệu, như số hóa đơn, ngày thanh toán, và các chi tiết khác Trong khi đó, LIR đòi hỏi khả năng nhận biết và phân

loại các mục dòng, như các sản phẩm hoặc dịch vụ cu thể được liệt kê

trên hóa đơn Hiện tại nhiều phương pháp đã được đề xuất nhầm giải quyết hai bài toán này, tuy nhiên với loại dữ liệu có thông tin đa dạng

và vị trí các trường thông tin không cố định như hóa đơn vẫn tạo nhiều

hó khăn cho các phương pháp hiện tại.

RoBERTa (Robustly optimized BERT approach) {20}, một phiên bản

cải tiến được phát triển từ mô hình ngôn ngữ BERT đã thể hiện được

ưu điểm của mình về độ chính xác trong các tác vụ xử lý ngôn ngữ tự

nhiên LION (EvoLved Sign Momentum)

Google phat triển, nhằm tối ưu hóa các mô hình hoc sâu So với hai bộ

một thuật toán mới được

tối uu hóa khác được sử dụng rộng rãi trong cộng đồng nghiên cứu học

sâu, cụ thể là AdamW và Adafactor , LION đã cho thấy những

ết quả vượt trội Với mong muốn nâng cao độ chính xác cho hai bài

toán KILE và LIR cho tài liệu hóa đơn, trong luận văn này học viên thực hiện nghiên cứu kết hợp RoBERTa và LION như hai thành phần

chính cùng với một số thao tác hậu xử lý như gom nhóm các hộp giới

hạn (bouding box) để xác định và trích xuất thông tin quan trọng trên

6 dit liệu DocILE

rằng phương pháp đề xuất cải thiện đáng kể độ chính xác đối với bài

toán KILE với mức tăng 7,24% so với kết quả cơ sở Ngoài ra, phương

hap này cũng tăng cường khả năng nhận diện đúng với bài toán LIR.

Kết quả thử nghiệm của nghiên cứu cho thay

Trang 7

Như vậy, trong luận văn này cung cấp một hướng tiếp cận mới cho việc

giải quyết thách thức về trích xuất thông tin quan trọng và nhận dạng

các mục dong trong các tài liệu hóa đơn Việc sử dụng RoBERTa và

LION trong nghiên cứu này đã nâng cao đáng kể hiệu suất của quy trình và đóng góp vào sự phát triển của lĩnh vực phân tích và nhận

điện tài liệu hóa đơn.

ii

Trang 8

Mục lục

1 Giới thiệu đề tài

1.1 Giới thiệu bài toán

12 Các thách thức |

13 Mục tiêu| Qua 14 Pham vil sếðl x77 „sẽ Ổ Ö ` -5 1.5 Đóng góp chnh| ốc Ặ ee 16 Bố cục luận văn| ee B Các nghiên cứu liên quan 2.1 Bài toán rút trích thông tin từ

ảnh| -2.2 Một số tập dữ liệu liên quan bài toán] rs 2.2.1 Tập dữ liệu ICDAR-SROIH

2.2.2 Tập dữ liệu CORD|L

2.2.3 Tập dữ liệu EUNSD|

2.2.4 Tập dữ lệu

MCOCR| -Phan tích cấu trúc văn bản - Document Layout Analysis 2.3.1 Các phương pháp dựa trên quy tắc và các thuật giả heuristics| 2.3.2 Các phương pháp dựa trên mô hình hoc sau)

2.4 Rút trích và xác định vi trí thông tin chính - Key Information [ Extraction and Localizaton|

2.6 Kết chương| cv.

ili

Trang 9

B Một mô hình kết hợp cho bài toán rút trích thông tin từ ảnh |

3.1 Tong quan phương pháp| -. - se

14t hiện và nhận diện văn bản|

B.1.1.1 Phát hiện văn bản] MA: ee

B.1.1.2 Nhận diện văn bản| ee

3.12 Tiền xử lý[ eee

Phân loại văn bản| ¬ ee

3.1.4 Hậu xứ lýí{|_ SSSSC Phương phấp cơ so) ST.

35

36 37

38

39

39 40 41 42 43

44

AT

48 48

51

52 52

52

55 57

Trang 10

Danh sách hình vẽ

1.2_ Việc tự động hóa nhập liệu có nhiều lợi ích, giúp tiết kiệm thời

gian, công sức và tăng độ chính xác của dữ liệu được nha cà 8

13 Ảnh mô tả của các bài toán KIB, KILE và LIR| 4

2.1 Ảnh mô tả các cách gán nhãn dữ liệu cho các bài toán KILE và

LIR Tập dữ liệu được g4n nhãn bao gồm dữ liệu gán nhãn thủ công và dữ liệu tạo sinh, tập dữ liệu cung cấp đầy đủ các thông

tin phục vụ cho bài toán KILE và LIR {31]] 2

2.2 Ảnh mô tả đầu vào, đầu ra của bài toán rút trích thông tin từ ảnh | 12

2.3 Hình ảnh này là một vài hóa đơn từ tập dữ liệu SROIE.| 4 2.4 Hình minh họa một nhãn trong tập dữ liệu SROIE cho phục vụ

cho bài toán KIE|] 5

2.5 Hình minh hoa một mẫu ảnh hóa đơn của tap CORD (bên trái);

và nhãn của tương ứng của hóa đơn đó (bên phải) Có thể thấy,

hóa đơn được gan nhãn rất chỉ tiết| : 6

2.6 Hình minh họa một ảnh của tập dữ liệu FEUNSD.| ĩ

2.7 Một vài ảnh minh trong bộ dữ liệu MCOCR.| 9

2.8 Hình minh họa cách hoạt động của LayoutLM Ngoài thông tin

thông tin nhúng 2 chiều - là vị trí tương đối của các từ có trong,

ảnh hóa đơn Ngoài ra thông tin nhúng anh (từ đầu ra của Faster

RCNN) còn được thêm vào quá trình huấn luyện của LayoutLM

dé tăng thêm hiệu quả cho thuật toán |3ï7|| 22

Trang 11

2.9 Hình minh họa cơ chế hoạt động của LayoutLmv2 Trong đó cơ

chế self-attention spatial-aware được đề xuất |36|| 22

2.10 Thông tin văn bản và thông tin bố cục được nhúng một cách riêng hiện sự tương tác giữa các chế độ khác nhau Tại đầu ra của mô | hình, các đặc trưng văn bản và bố cục được ghép lại cho việc tự idm sát trong quá trình tiền huấn luyện hoặc việc điều chỉnh chi tiết ở các bước dưới Ở đây, N; đại diện cho số lớp Transformer |35|| 24 2.11 Hình minh hoa cách hoạt động của thuật toán trong công trình "An Mô hình sẽ bao gồm 5 lớp GCN Đặc trưng đầu vào sẽ vào được đi qua 4 lớp an, hàm kích hoạt ReLU (bằng mũi tên màu xanh lá 2.12 Hình mô tả cách hoạt động của SPADES Trong đó hình a) mô ta toán SPADES Trong đó a) biểu điễn cho hộp bao, nội dung văn bản; b) Biểu diễn mục tiêu thuật toán SPADES, phân loại hai lớp như sau rel-s và rel-g, tương ứng là đường liên kết giữa các nội dung thuộc cùng thuộc một trường (màu xanh), và liên kết giữa các nhóm (màu cam); e) Biều diễn cho kết quả của thuật toán [12|| 28 2.14 Hình minh họa dif liệu ảnh hóa đơn và thuật toán BERTgrid (a) Minh hoa ảnh hóa đơn; (b) Hình minh hoa theo từng trường (phân biệt bằng các màu); (c) Ngoài ra, ảnh hóa đơn còn được gán nhãn tọa độ; (d) Minh họa việc biểu diễn W, BERTgrid sẽ nhúng ảnh hóa đơn ở mức từng từ (trong hình sẽ biểu diễn các màu khác nhau) IS TH 29 2.15 Hình minh hoa cách hoạt động của thuật toán ViBERTGrid {19]} 30 3.1 Sơ đồ mô tả tổng quan luồng xử lý của mô hình| 33

3.2 Ảnh ví dụ cho các bước xử lý của mô hình| 35

3.3 Ảnh mô tả bài toán phát hiện văn ban} 36

3.4 Ảnh mô tả bài toán nhận diện văn bản| 37

Hình mô tả chi tiết từn ầ ớc tiền xử lý dữ liệu| 37

Trang 12

3.6 Hình mô tả sơ lược các bước trong bài toán KIE và LIR, trong đó

ban hóa đơn thành một chuỗi kéo dai (serialize

3.7 Ảnh mô tả bước hậu xử lý Các vùng có cùng lớp sẽ ở gần nhau

3.10 Bang so sánh kết quả của RoBERTa và một số phương pháp khác

trên tập dữ liệu GLUE [20 Po ee 44

3.11 Bang so sánh kết qua của Lion so với AdamW trên tap dữ liệu

ImageNet, ImageNet ReaL, and ImageNet V2 BỊ.

4.1 Một số mẫu dữ liệu trong tập DocILE Vùng được tô màu là nơi

được gán nhãn với mỗi màu đại diện cho một lớp khác nhau.| 48

Trang 13

Danh sách bảng

4.1 Chi tiết số liệu của ba tập con trong tập dữ liệu DocILE]} 51

Độ chính xác của baseline được cải thiện khi thay thế bộ

Adam bằng bộ tối u LION] 55

4.3 Bảng kết quả đánh giá các phương pháp cho bài toán KILE.| 55

uả được cải thiện khi thay đổi các ngưỡng gộ 55

4.5 Bảng điểm đánh giá cho bài toán Line Item Recogmition| 56

viii

Trang 14

Danh mục từ viết tắt

Convolutional Neural Network CNN

RNN Recurrent Neural Networks

LSTM Long Short-Term Memory

RCNN Region-Based Convolutional Neural Network

LiLT Language-Independent Layout Transformer

SPADE SPatially-Adaptive (DE)normalization

GCN Graph Convolution Networks

ReLU Rectified Linear Unit

BERT Bidirectional Encoder Representations from Transformers

FPN Feature Pyramid Network

LIR Line Item Recognition

KILE Key Information Localization and Extraction

KIE Key Information Extraction

TSR Table Structure Recognition

TGRNet Table Graph Reconstruction Network

ABCNet Adaptive Bezier-Curve Network

EAST An Efficient and Accurate Scene Text Detector

CRAFT Character Region Awareness for Text Detection

DBNet Differentiable Binarization Network

PARSeq Permuted Autoregressive Sequence Models

CRNN Convolutional Recurrent Neural Network

OCR Optical Character Recognition

DocTR Document Text Recognition

AP Average Precision

GPU Graphics Processing Unit

ICDAR | The International Conference on Document Analysis and Recognition

ix

Trang 15

Chương 1

Giới thiệu đề tài

1.1 Giới thiệu bài toán

Trong bối cảnh hiện nay, khi lượng dữ liệu tăng lên một cách đáng kể, việc định

vị và trích xuất thông tin từ tài liệu, đặc biệt là những tài liệu không có cấu

trúc chứa các thông tin không xác định trước hoặc chỉ có cấu trúc hạn chế chứa

thông tin đã xác định nhưng chưa biết chính xác vị trí(Hình [Ly , đặt ra những

thách thức lớn đối với các tổ chức Một trong những hướng giải quyết được đưa

su và quản lý thông tin.

ra là tự động hóa quy trình nhập dữ

Tự động hóa quy trình định vị và trích xuất thông tin từ tài liệu mang lại nhiều lợi ích Đầu tiên, nó giúp giảm bớt khả năng phạm lỗi và sai sót mà con

người có thể gặp phải khi thực hiện công việc này thủ công Điều này đồng nghĩa

với việc cải thiện độ chính xác và tính tin cậy của dữ liệu đã trích xuất Thứ hai,

tự động hóa giúp tăng cường tốc độ xử lý tài liệu Công nghệ có thể xử lý lượng

lón dữ liệu một cách nhanh chóng và hiệu quả, giảm thời gian mà con người phải đành cho công việc này Diéu này không chỉ tăng cường hiệu suất mà còn giảm

bớt áp lực công việc cho nhân viên Cuối cùng, tự động hóa quy trình giúp cho

các tổ chức tối ưu hóa việc sử dụng tài nguyên Nhân viên không còn phải dành

nhiều thời gian và công sức cho công việc trích xuất dữ liệu Thay vào đó, họ có

thể tập trung vào các công việc khác, sáng tạo và tạo ra giá trị thực sự cho tổ

chức Điều này đồng nghĩa với việc cải thiện năng suất và khả năng đóng góp

của nhân viên vào mục tiêu chung của tổ chức (Hình

http://midas.portici.enea.it/talks/53_presentation pdf|

“Hình thu thập từ internet.

Trang 16

Fixed-form / structured documents Semi-structured documents Unstructured documents

e = Surveys © Invoices « Contracts

œ _ Claim forms © EOBs « Notes

Hình 1.1: Anh mô tả các loại dit liệu có cấu trúc, bán cấu trúc va không có cấu

trúc theo thứ tự từ trái sang ph:

Quá trình trích xuất thông tin từ dit liệu có cầu trúc phức tạp đòi hỏi nhiều

công đoạn xử lý hơn so với các bài toán nhận dạng ký tự quang học (OCR) Bài

bài toán nhằm chuyển đổi hình ảnh của ký

tự được viết, đánh máy hoặc in trong tài liệu scan, ảnh chụp sang dang ký tự có

thể được lưu trữ trong máy tính Trong khi các bài toán OCR thông thường chỉ chú trọng vào việc chuyển đổi từ dữ liệu ảnh sang dữ liệu ký tự mà không quan

tâm đến nội dung cũng như bố cục của tài liệu thì bài toán trích xuất thông tin yêu cầu đầu ra là các thông tin hữu ích mà người dùng cần được ghi trong tài

liệu đó Dể trích xuất được nội dung này cần xác định được vị trí của nội dung cũng như hiểu được ý nghĩa mà dữ liệu đang thể hiện Không chỉ cần kết nối các mục với nhau dựa trên bố cục, mà còn đòi hỏi sự hiểu biết về mặt ngữ nghĩa và ngôn ngữ để xác định và liên kết các mục chính xác với nhau Diều này bao gồm việc hiểu rõ ý nghĩa của các đối tượng, mối quan hệ giữa chúng, và ngữ cảnh xung quanh để đảm bảo rằng thông tin được trích xuất là đầy dt và chính xác theo yêu cầu của từng bài toán cụ thể Do đó những bài toán về định vị và trích

xuất thông tin, thông tin quan trọng từ văn bản được ra đời nhằm giải quyết các yêu cầu trên.

#Ký tự quang học là ký tự được viết, đánh máy hoặc in trong tài liệu scan, ảnh chụp.

Trang 17

Hình 1.2: Việc tự động hóa nhập liệu có nhiều lợi ích, giúp tiết kiệm thời gian,

công sức và tăng độ chính xác của dữ liệu được nhập

Quá trình định vị và trích xuất thông tin từ tài liệu gồm nhiều bài toán

con quan trọng, điển hình là bài toán trích xuất thông tin quan trọng (Key

Information Extraction - gọi tắt là KIE), định vị và trích xuất thông tin quan trọng (Key Information Localization and Extraction gọi tắt là KILE), và nhận dang hạng mục dòng (Line Item Recognition - gọi tắt là LIR).

Bài toán trích xuất thông tin quan trọng (KIE) tập trung vào việc xác định

các trường hoặc loại thông tin cụ thể mà không yêu cầu biết vị trí cụ thể của

chúng trong tài liệu Nó đóng vai trò quan trong trong việc nhận điện và phân

loại thông tin chính, tạo nền tảng cho các bước xử lý tiếp theo O mức độ khó

hơn là bài toán định vi và trích xuất thông tin quan trọng (KILE), trong đó

không chỉ xác định loại thông tin mà còn định vị chính xác vị trí của chúng

trong tài liệu Bằng cách này, KILE không chỉ nhận biết mà còn có thể thu thập

thông tin chi tiết từ các trường đã xác định vị trí Một khía cạnh quan trọng

khác là bài toán nhận dạng hạng mục dòng (LIR), bài toán này chú trọng vào

việc phát hiện và trích xuất các mục dòng trong tài liệu LIR đặt ra thách thức trong việc phân loại các mục dòng vào các lớp đã xác định trước đó và trích xuất

thông tin quan trọng tương ứng với từng mục dòng Diéu này đặc biệt hữu ích

trong việc xử lý các văn bản chứa danh sách hoặc các mục liệt kê, nơi mỗi mục

dòng có thể mang thông tin đặc biệt và quan trọng Các ví dụ của bài toán KIE,

KILE, LIR được mô tả trong hình [L.3|

Các bài toán KIE, KILE và LIR sử dụng các nguyên tắc của xử lý ngôn ngữ

Trang 18

Ảnh đầu vào Kết quả đầu ra

KIE ¡ KILE i LIR

20% VAT Net 850 20% VAT NH B50 20% VAT 170 20% VAT 170 20% VAT Total 1020

'

h '

Ũ

' 1

Ũ

i 1

f

f q

'

' '

Hình 1.3: Anh mô tả của các bài toán KIE, KILE và LIR

tự nhiên (NLP) để trích xuất và phân tích thông tin từ dt liệu Trong số nhiều

phương pháp thuộc lĩnh vực NLP, BERT |7| và RoBERTa đã trở thành các

mô hình ngôn ngữ tiên tiến tiêu biểu BERT, một mô hình dựa trên kiến thức

trước, đã đạt được thành công đáng kể trong việc hiểu biểu đồ ngôn ngữ và

ngữ cảnh RoBERTa, một phiên bản mở rộng của BERT, đã cải thiện hiệu suất thông qua việc giới thiệu thêm các mục tiêu tiền huấn luyện.

Trong lĩnh vực tối ưu hóa mạng neural, các nhà nghiên cứu đã phát triển

nhiều thuật toán, bao gồm Adam và AdamW

tạo Tuy nhiên, những bộ tối ưu hóa này, đặc biệt là AdamW, đòi hỏi tài nguyên

, để cải thiện hiệu suất đào

tính toán và thời gian đáng kể do cần theo dõi lịch sử gradient trong quá trình

tối ưu hóa, như đã được đề cập trong nghiên cứu LION bj Bộ tối ưu hóa LION

đã giải quyết những thách thức này Nó có khả năng giảm thời gian đào tao từ 2-15% so với các tối ưu hóa truyền thống và cải thiện việc sử dụng bộ nhớ Hơn

nữa, LION đã thể hiện hiệu suất xuất sắc, vượt qua Adam và AdamW trong

nhiều nhiệm vụ xử lý ngôn ngữ tự nhiên (NLP) Đáng chú ý, còn một khoảng

trống trong nghiên cứu về việc áp dụng bộ tối ưu hóa LION cho các bài toán KIE, KILE và LIR Trong nghiên cứu này, học viên đề xuất nghiên cứu và tận dụng tiềm năng của bộ tối ưu hóa LION trong các bài toán này.

Do đó trong luận văn này học viên sẽ tiến hành nghiên cứu thử nghiệm và

Trang 19

Hình 1.4: Bố cục có trong các tài liệu rất đa dạng, như vị trí tiêu đề, dia chỉ,

ngày tháng, bảng biểu.

đánh giá khi kết hợp phương pháp RoBERTa và bộ tối ưu hóa LION khi được

sử dung trong quá trình huấn luyện để giải các bài toán KILE và LIR trên tập

dữ liệu tiếng anh.

1.2 Cac thách thức

Quá trình thực hiện đề tài có nhiều trở ngại trong đó các thách thức chính là:

e Việc sử dung dataset về hóa đơn trong nghiên cứu gặp nhiều vấn đề Dau

tiên, bố cục có trong tài liệu rất đa dạng, thông tin không được đặt tại vị

trí cố định trong tài liệu Điều này dẫn tới việc xác định vị trí để rút trích

thông tin trở nên khó khăn hơn (Hình [-4|)

e Thách thức thứ hai liên quan đến chất lượng hình ảnh của các hóa đơn Do

tính chất của giấy in hóa đơn nên thường các ảnh hóa đơn có chất lượng

kém, dé bị phai màu, nhiễu, hoặc chứa các đặc điểm khác nhau phụ thuộc

) Điều này đặt ra thách thức

trong việc xử lý ảnh và trích xuất thông tin chính xác từ các hình ảnh này vào nơi lưu trữ và điều kiện quét (Hình

Cần có các phương pháp xử lý ảnh và kỹ thuật nhận dạng thông tin linh

hoạt để đối mặt với sự đa dạng này.

e Các kiểu dữ liệu có trong hóa đơn đa dạng có thể là hình ảnh, chữ viết, các

ký hiệu điều này cũng gây ảnh hưởng đến việc rút trích thông tin.

Trang 20

Kiệt eon scoch eck,

Hình 1.5: Chất lượng hóa đơn kém, a) hóa đơn khi in bị thiếu mực b) các hóa đơn nhiệt sau một thời gian mực sẽ bị phay mờ.

1.3 Mục tiêu

Mục tiêu chính của luận văn này bao gồm:

e Tìm hiểu tổng quan về bài toán rút trích thông tin chính từ ảnh.

e Phân tích và đánh giá các phương pháp tiên tiến hiện nay trên các tập dữ

Pham vi khuôn khổ của luận văn được xác định như sau:

e Nghiên cứu về vấn đề rút trích thông tin trong văn bản: Tập trung vào việc

khảo sát và giải quyết các thách thức liên quan đến rút trích thông tin từ văn bản, với hai bài toán chính là xác định vị trí, trích xuất thông tin quan

trọng (KILE) và nhận dạng hạng mục dòng (LIR).

Trang 21

e Bài toán xác định vị trí và trích xuất thong tin quan trọng (KILE): Tap trung vào nghiên cứu và giải quyết các vấn đề liên quan đến việc xác định

vị trí của thông tin quan trọng trong văn bản.

e Bài toán nhận dang hạng mục dòng (LIR): Nghiên cứu về nhận dạng và

phân loại các mục dòng trong văn bản, với mục tiêu là tối ưu hóa khả năng

nhận diện đúng.

e Tìm hiểu phương pháp RoBERTa và LION để kết hợp ứng dụng vào hai bài

toán KILE và LIR.

e Thực nghiệm và đánh giá trên tập dữ liệu DocILE: Sử dụng tập dữ liệu

DocILE để thực hiện các thử nghiệm và đánh giá hiệu suất của phương

pháp được đề xuất trong phạm vi các bài toán KILE và LIR trên dữ liệu tiếng việt.

1.55 Đóng góp chính

Đóng góp quan trọng của tôi trong luận văn này có thể tổng kết như sau:

e Dé xuất mô hình kết hợp mô-đun RoBERTa và bộ tối ưu hóa LION như

hai thành phần chính trong giải quyết bài toán KILE Sự kết hợp này đã

cải thiện đáng kể độ chính xác, tăng từ 56,6% lên 61,8% Điều này chứng

minh rằng việc tích hợp RoBERTa và bộ tối ưu hóa LION mang lại hiệu

suất tốt hơn cho bài toán định vị và trích xuất thông tin quan trọng.

e Dựa trên nhận thức về sự gần nhau giữa các hộp giới hạn cùng loại trường

và sự xa cách giữa các loại trường khác nhau để đề xuất một phương pháp

hậu xử lý mới.

e Nội dung của các phương pháp đề xuất trong luận văn được tổng hợp và

được công bố tại hội nghị MAPR 2023.

1.6 Bố cục luận văn

Luận văn này gồm 5 chương với bố cục như sau:

Trang 22

e Chương 1: Nội dung chương 1 bao gồm các thông tin tổng quan giới thiệu

về bài toán, các thách thức đã gặp phải trong quá trình thực hiện luận văn, mục tiêu và phạm vi được đặt ra khi thực hiện luận văn này và tóm tắt các

đóng góp chính của luận văn.

e Chương 2: Trong chương 2 sẽ giới thiệu một số các nghiên cứu có liên quan

đến bài toán bao gồm các phương pháp và tập dữ liệu liên quan mà học

viên đã tham khảo qua.

e Chương 3: Phương pháp đề xuất sẽ được giới thiệu trong chương 3 Dầu

chương học viên sẽ giới thiệu tổng quan phương pháp và các phần sau sẽ đi

sâu vào chỉ tiết của từng thành phần có trong phương pháp đã đề xuất.

e Chương 4: Trong chương 4 học viên sẽ giới thiệu về tập dữ liệu được sử

dụng, độ đo cho từng bài toán, phương pháp huấn luyện và kết quả đánh giá của phương pháp đã được đề xuất.

e Chương 5: Tại chương 5 học viên sẽ tổng kết lại các nội dung đã thực hiện

và bàn luận về hướng mà luận văn có thể phát triển thêm trong tương lai.

Trang 23

Chương 2

Các nghiên cứu liên quan

Trong lĩnh vực phân tích xác định vị trí và trích xuất thông tin, đã xuất hiện

một số các nghiên cứu liên quan nhằm giải quyết những thách thức về việc hiểu,

trích xuất và nhận dạng thông tin quan trọng từ các tài liệu có cấu trúc Các

phương pháp và kỹ thuật trong lĩnh vực này đang liên tục được phát triển nhằm

tìm ra lời giải phù hợp với tính phức tạp và đa dạng của dữ liệu tài liệu.

Một trong những hướng nghiên cứu quan trọng là sự kết hợp giữa các kỹ thuật

OCR (Nhận dạng ký tự quang hoc) và xử lý ngôn ngữ tự nhiên Các phương

pháp này giúp chuyển đổi hình ảnh văn bản thành dạng văn bản có thể xử lý, từ

đó mở ra khả năng trích xuất thông tin từ văn bản Một số phương pháp tiên

tiến còn kết hợp sức mạnh của học máy và xử lý ngôn ngữ tự nhiên để hiểu ngữ

cảnh và nghĩa của thông tin.

Tóm lại, sự tiến triển trong lĩnh vực này ngày càng phản ánh sự tích hợp đa

ngành, từ OCR và xử lý ngôn ngữ tự nhiên đến học má

có cấu trúc, nhằm nâng cao khả năng hiểu và trích xuất thông tin từ các tài liệu

và mô hình hóa dữ liệu

phức tạp Trong chương này sẽ giới thiệu tổng quan bài toán, một số tập dữ liệu

liên quan cũng như một số phương pháp tiếp cận hiện có.

Trong phần này học viên sẽ giới thiệu sơ lược về bài toán rút trích thông tin

từ ảnh, một số tập dữ liệu liên quan đến bày toán này cũng như một số phương

pháp đã được công bố nhằm giải quyết một số bài toán liên quan.

2.1 Bài toán rút trích thông tin từ ảnh

Các loại văn bản được chia làm ba loại gồm:

Trang 24

e Văn bản có cấu trúc là loại văn bản được tổ chức theo một hệ thống hay

cấu trúc nhất định Cấu trúc này thường bao gồm sự phân chia thành các

phần khác nhau, sử dụng tiêu đề, định dạng đặc biệt, hoặc các yếu tố khác

nhằm làm cho thông tin trở nên rõ ràng, dễ theo dõi, và dễ hiểu hơn Văn

bản có cấu trúc giúp tạo ra một bố cục hợp lý, giúp người đọc dễ dàng xác

định cấu trúc tổng thể của nội dung Trong văn bản có cấu trúc, thường

sẽ thấy các thành phần như đoạn văn, mục lục, tiêu đề, và danh sách Các thành phần này đóng vai trò quan trọng trong việc giúp người đọc tiếp cận

và hiểu thông tin một cách hiệu quả Đoạn văn thường được sắp xếp logic

và có thể chia thành các đoạn con nhỏ Mục lục thường xuất hiện ở đầu văn

bản, giúp người đọc nhanh chóng định vị và truy cập các phần quan trọng.

Tiêu đề có thể được sử dụng để đặt tên cho các phần khác nhau của văn

bản, tạo ra một cấu trúc lồng ghép Các mẫu văn bản có cấu trúc thường thay trong các tài liệu chính thức như bảng khảo sát, bang câu hỏi, hoặc

các bài kiểm tra Cấu trúc này không chỉ giúp cho việc đọc văn bản được

thuận lợi mà còn hỗ trợ quá trình tìm kiếm thông tin và nắm bắt ý chính

của văn bản một cách hiệu quả.

e Văn bản bán câu trúc là loại văn bản mà trong đó thông tin không được tổ

chức theo một cấu trúc rõ ràng hoặc không tuân theo một hệ thống cu thể.

Trái ngược với văn bản có cấu trúc, văn bản bán cấu trúc thường không chứa

các thành phần nhất định như đoạn văn, tiêu đề, hoặc danh sách Thông tin

trong văn bản bán cấu trúc có thể được trình bày một cách tự do và không tuân theo một kế hoạch cụ thể Trong các văn bản bán cấu trúc, thường

không có sự phân chia rõ ràng giữa các phần khác nhau Thông tin có thể

được đặt ở bất kỳ đâu trong văn bản mà không có sự liên kết rõ ràng hoặc

cấu trúc tổ chức Điều này có thể khiến cho việc đọc và hiểu nội dung trở

nên khó khăn, đặc biệt là khi người đọc cần phải tìm kiếm thông tin cụ thể

hoặc theo dõi một luồng logic Các văn bản bán cấu trúc thường xuất hiện

trong các loại tài liệu như hóa đơn, biên lai hay các loại văn bản ghi chú cá

nhân Trong trường hợp này, mục đích chính của văn bản là ghi lại thông

tin cụ thể mà không nhất thiết phải theo một cấu trúc chuẩn Diều này

thường xảy ra trong các tài liệu hàng ngày hoặc thông tin cá nhân, nơi sự

linh hoạt và thuận tiện có thể được ưu tiên hơn so với việc duy trì một cấu trúc tổ chức.

e Văn bản không có cấu trúc là một dạng văn bản đặc biệt, nơi mà thông tin

không được tổ chức hoặc định dạng theo một cấu trúc cụ thể Trái ngược

10

Trang 25

với các loại văn bản có cau trúc, văn bản không có cấu trúc không tuân

theo các quy tắc hay đặc điểm nhất định về định dạng, thứ tự, hoặc tổ chức.

Điều này tạo ra một không gian sáng tạo và tự do trong cách diễn đạt thông

điệp, thường mang đến sự độc lập và linh hoạt Một số ví dụ tiêu biểu về

văn bản không có cấu trúc bao gồm văn bản hợp đồng, thư từ, các bài báo, hoặc các bản ghi chú cá nhân Trong văn bản hợp đồng, tính chất chính thức và pháp lý thường dẫn đến việc không có cấu trúc rõ ràng, vì mỗi hợp

đồng có thể chứa nhiều điều khoản và điều kiện khác nhau Thư từ, mặc dù

có thể có các yêu tô nhất định của cấu trúc thư, vẫn cho phép sự tự do sáng

tạo trong cách diễn đạt ý kiến hoặc cảm xúc cá nhân Trong bài báo, đặc biệt là trong các lĩnh vực nghệ thuật và văn hóa, văn bản không có cấu trúc

thường được sử dụng để thể hiện sự độc lập và sáng tạo trong việc trình

bày thông tin Các bản ghi chú cá nhân, đơn thuần là nơi ghi chú ý tưởng,

ghi chú hay suy nghĩ, thường mang đến tự do tuyệt đối về cách diễn đạt va

tổ chức thông tin Mặc dù sự da dang va sáng tạo trong văn ban không có cấu trúc có thể tạo ra một trải nghiệm đọc thú vi, nhưng cũng có thể đặt ra

thách thức cho người đọc, đặc biệt là khi họ cần tìm kiếm thông tin cụ thể

hoặc theo dõi một luồng ý trong nội dung Tuy nhiên, điều này cũng mở ra

cơ hội cho sự khám phá và đánh giá cá nhân, tạo nên một trải nghiệm đọc

độc đáo và đa chiều.

Để dễ hình dung về ba loại văn bản hơn ta có thể xem lại hình

Trong lĩnh vực phân tích tài liệu và trích xuất thông tin, nghiên cứu ngày càng chú trọng vào việc giải quyết những thách thức phức tạp liên quan đến

hiểu, trích xuất và nhận dạng thông tin từ các tài liệu có cấu trúc Tiến triển

đáng chú ý trong lĩnh vực này không chỉ là kết quả của sự tiến bộ trong các lĩnh

vực cụ thể mà còn là sự kết hợp các kỹ thuật và phương pháp đa dạng để đối

mặt với sự đa dạng và phức tạp của dữ liệu tài liệu Một trong những hướng

nghiên cứu quan trong là sự kết hợp giữa các kỹ thuật OCR (Nhận dang ký tự

quang học) và xử lý ngôn ngữ tự nhiên (NLP) Việc kết hợp này giúp chuyển đổi

hình ảnh văn bản thành dạng văn bản có thể xử lý, mở ra khả năng trích xuất

thông tin từ văn bản một cách hiệu quả Các phương pháp tiên tiến trong lĩnh

vực này thường sử dụng sức mạnh của học máy và xử lý ngôn ngữ tự nhiên để

hiểu ngữ cảnh và nghĩa của thông tin Ngoài ra, các phương pháp dựa trên mô

hình hóa dữ liệu có cấu trúc, như biểu đồ đối tượng, đã xuất hiện để mô phỏng mối quan hệ giữa các thành phần trong tài liệu Điều này hỗ trợ quá trình hiểu

11

Trang 26

Hình 2.1: Ảnh mô tả các cách gan nhãn div liệu cho các bài toán KILE và LIR.

Tập dữ liệu được gán nhãn bao gồm dữ liệu gán nhãn thủ công và dữ liệu tạo

sinh, tap dit liệu cung cấp đầy đủ các thông tin phục vụ cho bài toán KILE và

động hoc các đặc trưng phức tap từ dữ liệu.

Bài toán rút trích thông tin từ ảnh nhận đầu vào là hình ảnh của tài liệu

có chứa thông tin cần rút trích và đầu ra là các thông tin mà người dùng cần,

thường là những thông tin chính trong văn bản như tên người, ngày tháng, số

lượng, giá tiền, (xem mô tả tại hình |2.2)

Hình 2.2:

THỨC COFFEE

22 quang Tong P19 ANN

Dau vao:

Ảnh cua tài liệu có thông tin cần rút trích

Anh mô tả đầu vào, đầu Tra

Nội dung của các trường thông tin cần rút trích

của bài toán rút trích thông tin từ ảnh.

12

Trang 27

2.2 Một số tập dữ liệu liên quan bài toán

Hóa đơn là một trong những nguồn dữ liệu phổ biến, nhưng việc thu thập dữ

liệu cho mục đích nghiên cứu về hóa đơn thường đối mặt với thách thức lớn do

chúng chứa thông tin nhạy cảm Do đó, trong lĩnh vực này, bộ dt liệu tài liệu

hóa đơn mà cộng đồng nghiên cứu có thể sử dụng là khá hiếm Dưới đây là một

số bộ dữ liệu về hóa đơn đã được công bố, mang lại nguồn tài nguyên quan trọng

cho nghiên cứu trong lĩnh vực này.

e SROIE (Receipt OCR Information Extraction) |'} Bộ dữ liệu này tập trung

vào việc nhận diện và trích xuất thong tin từ hóa đơn Nó bao gồm hình ảnh

của hóa đơn và các nhãn tương ứng cho vị trí và nội dung của các trường

dữ liệu quan trọng như ngày, tổng giá, và các mục sản phẩm.

e CORD (Comprehensive Receipt Dataset) [26]: Được thiết kế để nghiên cứu

về tổng hợp thông tin từ hóa đơn, bộ dữ liệu này chứa hình ảnh hóa đơn và

các nhãn chi tiết cho từng trường dữ liệu Nó cung cap sự đa dạng về định dạng và cấu trúc của hóa đơn.

e FUNSD (Table Structure Detection in Form Understanding) SE Mặc dù

chủ yếu tập trung vào bài toán nhận diện cấu trúc bảng trong biểu mẫu,

nhưng FUNSD cũng cung cấp các hình ảnh của hóa đơn và thông tin nhãn

về vị trí của các trường dữ liệu.

e MCOCR (Mobile-Captured Image Document Recognition for Vietnamese

Receipts}† Bộ dữ liệu MCOCR là tập hợp các hình ảnh hóa đơn được chụp

từ thiết bị di động, tập trung vào miền dữ liệu tiếng Việt, khác biệt so với các tập dữ liệu trước đó mà chúng ta đã đề cập Một trong những thách thức lớn nhất của bộ dữ liệu này là sự tồn tại của hình ảnh bị xoay, điều này đặt ra yêu cầu với các đội tham gia cần phải có thuật toán có khả năng

xử lý tình huống này.

Việc sử dụng các bộ dữ liệu này trong nghiên cứu giúp cộng đồng xây dựng và đánh giá mô hình với một cơ sở dữ liệu đa dạng và thực tế Tuy nhiên, cần lưu ý

rằng việc xử lý dữ liệu hóa đơn đôi khi đòi hỏi sự cẩn trọng để bảo vệ thông tin

cá nhân và kinh doanh.

TCDAR2019 Competition on Scanned Receipt OCR and Information Extraction

2RIVF conference 2021

13

Trang 28

2.2.1 Tập dữ liệu ICDAR-SROIE

SROIE (Receipt OCR Information Extraction) là một bộ dữ liệu xuất phát từ

cuộc thi ICDAR2019, chứa hình ảnh của các hóa đơn thương mại được quét từ

máy quét hoặc máy ảnh Mỗi hình ảnh hóa đơn đều chứa đựng nhiều thông tin

như ngày tháng, số hóa đơn, danh sách sản phẩm, giá trị sản phẩm, tên cửa

hang, và nhiều chi tiết khác Nhiệm vụ chính của SROIE là nhận dang và trích

xuất các thông tin quan trọng từ hóa đơn, sau đó biểu diễn chúng dưới dạng văn

bản có cấu trúc.

Bộ dữ liệu này bao gồm tổng cộng 1000 ảnh, được chia thành hai phần: tập huấn luyện/đánh giá ("train/val") và tập kiểm tra ("test") Tập "test"chứa 400

ảnh Phần "train/val"gồm 600 hình ảnh hóa đơn đã được gán nhãn với tọa độ

và nội dung theo định dạng sau (dé phục vu cho tác vu 1 va 2 của cuộc thi

ICDAR2019):

(rr

£1, Y1, £2, Y2, 3, Y3, #4, Ya, “hội dung”

Ngoài ra, để hỗ trợ cho bài toán KIE (tác vu 3 của cuộc thi), nhóm tổ chức

cuộc thi cũng đã gắn thêm nhãn cho 4 trường "company", "date", "address", và

"total"(xem hình [2.3p.

Bộ dữ liệu SROIE là một nguồn tài nguyên quan trọng để phát triển và đánh

giá các mô hình nhận dạng và trích xuất thông tin từ hóa đơn thương mại.

!_ man

POSTED

Hình 2.3: Hình ảnh này là một vài hóa đơn từ tập dữ liệu SROIE.

14

Trang 29

{company”: "STARBUCKS STORE #10208",

Tập dữ liệu CORD (26] đặc trưng với 11.000 hình ảnh hóa đơn tai Indonesia.

Cũng như tập SROIE, mỗi hóa đơn trong tập CORD cũng được gán nhãn bằng

các đa giác để chỉ ra vị trí của các trường dữ liệu Tuy nhiên, để đảm bảo việc

đánh giá hiệu qua cho bài toán KIE, nhóm tác gia đã thực hiện gán nhãn chi

tiết cho mỗi hóa đơn.

Một điểm đặc biệt là số lượng trường dữ liệu tối đa cho một hóa đơn trong tập

CORD là 54, bao gồm nhiều loại thông tin như thông tin cửa hàng (tên, địa chỉ,

), mua bán (thời gian bán), mục hàng (tên mặt hang, số lượng, giá mặt hàng),

giá (tiền cross, net, thuế), và nhiều thông tin khác nữa (xem thêm hình [2.5).

Tap dữ liệu CORD cung cấp một nguồn tài nguyên phong phú cho việc nghiên

cứu và phát triển các mô hình nhận dạng và trích xuất thông tin từ hóa đơn,

đặc biệt là trong bối cảnh các hóa đơn có độ phức tạp cao và chứa đựng nhiều

loại thông tin khác nhau.

2.2.3 Tập dữ liệu FUNSD

Bộ dữ liệu "Form Understanding in Noisy Scanned Documents"(FUNSD)

đóng vai trò quan trong trong lĩnh vực hiểu biểu mẫu trong tài liệu Được tạo ra

để thách thức các mô hình xử lý ngôn ngữ tự nhiên và hiểu biểu mẫu, FUNSD

gồm khoảng 199 hình ảnh tài liệu văn bản được quét, minh họa chỉ tiết trong Hình

Bộ dữ liệu này đặt ra ba nhiệm vụ cụ thể:

15

Trang 30

a {} SON a{} meta

Hình 2.5: Hình minh hoa một mau anh hóa đơn của tap CORD (bên trái); va

nhãn của tương ứng của hóa đơn đó (bên phải) Có thể thấy, hóa đơn được gán

nhãn rất chi tiết.

e Tác vụ nhóm từ (Word Grouping): Mục tiêu của nhiệm vụ này là tổng hợp

các từ có liên quan semantical, tạo ra các nhóm từ chúng có thể tạo thành

các thực thể ngữ nghĩa.

e Tác vụ phân lớp thực thể ngữ nghĩa (Semantic Entity Labeling): Nhiệm vụ

này tập trung vào việc phân loại các thực thể ngữ nghĩa vào một trong bốn

lớp: "question", "answer", "header"hoặc "other" Việc này giúp xác định

loại thông tin mà mỗi thực thể mang lại.

e Tác vụ liên kết thực thể (Entity Linking): Nhiệm vụ cuối cùng nhằm dự

đoán các mối quan hệ giữa các thực thể ngữ nghĩa Diều này cung cấp cái

nhìn chi tiết về cách các thực thể tương tác và kết nối trong văn bản.

16

Trang 31

Với sự phức tạp của nhiệm vụ và tính đa dạng của dữ liệu, FUNSD cung cấp

một thách thức đáng kể cho các nhà nghiên cứu và là một nguồn tài nguyên quan trọng để phát triển và đánh giá các mô hình trong lĩnh vực này.

ACUTE TOXICITY IN MICE

~Hydroxy-3-methylbutanoic acid (Tur 13)

Litchfield, J T and Wilcoxin, F., J of Pharmacol.

REFERENCE FOR CALCULATION

Ther., 90:99, 1948

and Exper

ivi Survivors recovered in 48 hours The recommended safe

dose for a single trial by inhalation in man is 0.3 mg.

Copies to the Following: Dr H J Minnemeyer

Ms L 5 Gray C5

Hình 2.6: Hình minh họa một ảnh của tập dữ liệu FUNSD.

2.2.4 Tập dữ liệu MCOCR

Bộ dữ liệu MCOCR - "Mobile-Captured Image Document Recognition for

Viet-namese Receipts"là bộ dữ liệu được xây dựng để phục vu cho cuộc thi tại hội

nghị RIVF2021 Tập dữ liệu MCOCR ban đầu gồm 2000 hình ảnh biên lai được

phân loại thành các tập con: "Warm Up", "Public Train", "Public Test", và

"Private Test", với số lượng hình ảnh lần lượt là 500, 1.155, 391, và 390.

17

Trang 32

Các đội tham gia một trong hoặc cả hai tác vụ con bao gồm:

e IQA - Dánh giá chất lượng hình ảnh;

e KIE - Trích xuất thông tin quan trọng.

Do đó, tác vụ phù hợp với nội dung của luận văn là tác vụ Key Information

Extraction (KIE) Trong tác vụ này, ban tổ chức cuộc thi đã gán nhãn cho các

hóa đơn trong bộ dữ liệu với bốn trường thông tin cụ thể: "SELLER"(NGƯỜI

BAN), "SELLER_ ADDRESS"(DỊA CHỈ NGƯỜI BAN), "TIMESTAMP"(THỜI

GIAN), va "TOTAL COST" (TONG CHI PHI); và độ do được sử dung để đánh

giá hiệu quả các thuật toán trong tác vụ này là CER - character error rate:

N

1

CER =~ d(iss+i)

với i tượng trưng cho hóa đơn thứ i, (¡+ s + đ) biểu thị khoảng cách Levenshtein

giữa nhãn của nội dung văn bản của hóa đơn thứ ¡ với kết quả dự đoán tương

và sau đó lưu trữ dưới dạng các quy tắc trong một cơ sở kiến thức Những quy

tắc này sau đó được sử dụng với một bộ nhận dạng quy tắc để xác định các yếu

tố logic và hỗ trợ trong tài liệu.

Tuy nhiên, phương pháp này đã bắt đầu thể hiện nhược điểm khi có sự gia

tăng liên tục về số lượng hình ảnh tài liệu theo thời gian Đối mặt với quy mô

18

Trang 33

THE COFFEE HOUSE a

Giờ vào: 09.28 Giờ ra: 09.28

THE COFFEE HOUSE

403 Phan Huy Ích, P.14, Q.Gò Vấp

Số: 27

Nông ngân: CAGE a Thời gian:01.10.2020 13.19 Số HE: 19810000702020

TT Tên món SL Đ,Giá T.Tiềr Thu ngân: cash1

Hình 2.7: Một vài ảnh minh trong bộ dữ liệu MCOCR.

lớn và sự đa dạng ngày càng tăng của dữ liệu, các phương pháp truyền thống

dựa trên quy tắc và heuristics đã không còn đáp ứng đủ để đối mặt với thách

thức của quá trình trích xuất thông tin từ hình ảnh tài liệu.

2.3.2 Các phương pháp dựa trên mô hình học sâu

Việc xuất hiện các mô hình học sâu, như EfficientNet (33}, da dem lai cai tién

đáng kể về độ chính xác, đặc biệt là trong các nhiệm vu phát hiện đối tượng.

Các bộ phát hiện đối tượng hai giai đoạn như Sparse R-CNN và các bộ phát hiện đối tượng giai đoạn một thuộc gia đình YOLO như YOLOv4 |4| đã được sử

dụng phổ biến, tirước hưởng từ các tiến bộ trong lĩnh vực mô hình học sâu.

Trong ngữ cảnh của DLA, có thể xem xét một nhiệm vụ phát hiện các thành

19

Trang 34

phần của tài liệu như tiêu đề, phần đầu, đoạn văn, hình ảnh và bảng như các đối

tượng thông thường Quan điểm này mở ra khả năng áp dụng các kỹ thuật và

phương pháp phát hiện đối tượng để phân tích và hiểu bố cục của tài liệu một

cách hiệu quả Điều này mang lại ưu điểm trong việc tự động xác định vị trí và

giới hạn của các thành phần quan trọng trong tài liệu, góp phần quan trọng vào

quá trình trích xuất thông tin và hiểu nội dung của văn bản.

2.4 Rút trích và xác định vi trí thông tin chính

- Key Information Extraction and

Localiza-tion

Tương tự như Document Layout Analysis (DLA), các nghiên cứu ban đầu về

Knowledge Information Extraction (KIE) thường dựa vào các phương pháp dựa

trên quy tắc, nhưng đã chứng minh hạn chế trong các tình huống thực tế Với

sự xuất hiện của học sâu, các phương pháp KIE hiện đại có thé được phân loại

thành ba loại chính: dựa trên chuỗi, dựa trên đồ thị, và dựa trên lưới.

Phương pháp dựa trên chuỗi thường tập trung vào việc sử dụng mô hình học

sâu, chang hạn như mô hình ngôn ngữ hồi quy, để phân tích và rút trích thông

tin từ văn bản theo chuỗi Diéu này có thể bao gồm việc nhận dạng thực thể

ngữ nghĩa, quan hệ giữa chúng, và các thông tin liên quan.

Phương pháp dựa trên đồ thị tập trung vào biểu diễn tri thức dưới dạng đồ thị, trong đó các thực thể và mối quan hệ giữa chúng được biểu diễn bằng các

đỉnh và cạnh trong đồ thị Các mô hình hoc sâu như Graph Neural Networks

thường được áp dụng để làm việc với cấu trúc đồ thị này.

Phương pháp dựa trên lưới tổ chức thông tin theo các cấu trúc lưới hoặc bảng,

thường được sử dụng trong các văn bản có định dạng cố định Các mô hình học

sâu, đặc biệt là mô hình có khả năng xử lý dữ liệu dạng lưới, có thể được tích

hợp để nhận diện và rút trích thông tin từ các cấu trúc này.

Đối với KIE, việc kết hợp các phương pháp truyền thống và các mô hình học

sâu mang lại khả năng hiệu quả cao trong việc xử lý thông tin từ các nguồn văn

bản và tài liệu đa dạng.

20

Trang 35

2.4.1 Các phương pháp dựa trên chuỗi

Các phương pháp dựa trên chuỗi thường bao gồm việc chuyển toàn bộ tài liệu

thành một mảng 1 chiều, sau đó áp dụng các phương pháp dựa trên mạng hồi quy (RNN/LSTM) như đã được thực hiện trong các nghiên cứu như [11] Đồng

thời, phương pháp sử dụng sự chú ý, như BERT [7| và RoBERTa [3], cũng được

áp dụng để thực hiện nhiệm vụ nhận dang thực thể có tên trong văn bản.

Các nghiên cứu gan đây, ví dụ như LayoutLM [37], đã lấy cam hứng từ mô

hình BERT và mở rộng áp dụng của nó bằng cách mô hình hóa ngữ nghĩa hình

ảnh và cấu trúc văn bản Mục tiêu là cải thiện khả năng hiểu bố cục và tương

tác giữa các thành phần trong tài liệu.

Một công trình đáng chú ý khác, LiLT (35), đề xuất một mô hình biến đổi hai

dong riêng biệt Mô hình nay tập trung vào việc mô hình hóa tương tác chéo

giữa dấu vết văn bản và cấu trúc bố cục Điều này giúp nâng cao khả năng hiểu

và tổng hợp thông tin từ cả ngữ nghĩa và hình ảnh.

Phương phấp LayoutLM , hướng tiếp cận bao gồm việc tích hợp thông tin

văn ban lan thông tin về thị giác Cụ thể hơn, lấy cảm hứng từ BERTI, ngoài

việc LayoutLM rút trích đặc trưng nhúng văn bản và đặc trưng nhúng vị trí,

LayoutLM rút trích thông tin nhúng thị giác và nhúng vị trí tương đối giữa các

từ trong không gian 2 chiều (đang xét thông tin tọa độ tương ứng với từ đó trong ảnh hóa đơn) Việc trích xuất thông tin nhúng thị giác sẽ được thực hiện

thông qua sử dụng Faster R-CNN [27] Cu thể về hai thong tin nhúng thi giác

và nhúng vị trí 2 chiều sẽ là như sau:

e Nhúng 2 chiều: Sử dụng thông tin về bounding box (zo,o, #1, 1), trong đó

(xo, yo) là góc trên bên trái va (z1, y1) là góc dưới bên phải của bounding box

(tham khảo hình [2.8) Điều này được biểu diễn qua Position Embeddings là (Z0 Yo, #1 Y1)-

e Nhúng ảnh: Sử dụng đặc trưng từ lớp cuối cùng của thuật toán Faster

RƠNN (với đầu vào là các ảnh của từng từ) Dac biệt, đối với token [CLS],

đặc trưng tương ứng là toàn bộ ảnh hóa đơn (hình |2.8) Tương tự cho việc

nhúng 2 chiều, thông tin hỗ trợ cho toàn bộ ảnh hóa đơn được biểu diễn

bằng vector cột Eeus Eo, Eo, Emaxw: EmaxH:

Ngoài ra, các phương pháp mở rộng của LayoutLm là LayoutLmv2 và

LayoutLmv3 (cùng nhóm tác giả của LayoutLm) Trong đó phiên ban

LayoutLmv2 cải thiện trên công trình trước đó của họ bằng cách đề xuất cơ chế

"self-attention spatial-aware".

21

Trang 36

Embeddings (y1) | Ema) || Fuss Esa) Euaa) Eụuaa) Eụaa) Eqso)

Hình 2.8: Hình minh họa cách hoạt động của LayoutLM Ngoài thông tin nhúng

vị tri (positional embedding), LayoutLM còn tận dụng thêm thông tin nhúng

2 chiều - là vị trí tương đối của các từ có trong ảnh hóa đơn Ngoài ra thông tin nhúng ảnh (từ đầu ra của Faster RCNN) còn được thêm vào quá trình huấn

luyện của LayoutLM để tăng thêm hiệu quả cho thuật toán.

testes LYI w ] Ges

Ì Line 2 (not covered): [MASK] TS T6 T7 |

OCR Lines )

Visual Encoder OCRIPDF Parser

Document Page with Covered OCR Lines Document Page

Hình 2.9: Hình minh hoa cơ chế hoạt động của LayoutLmv2 Trong đó cơ chế

self-attention spatial-aware được đề xuất.

22

Trang 37

Có thể hiểu một cách nom na "spatial-aware self-attention mechanism" là một

cơ chế tự chú ý có khả năng nhận biết và xử lý thông tin không gian, đặc biệt là

trong ngữ cảnh của dữ liệu văn bản, bố cục, và thông tin hình ảnh Cụ thể cách

hoạt động của cơ chế "spatial-aware self-attention"(xem hình bằng việc cải tiến cơ chế attention gốc (mục đích của việc thêm vào chỉ số bias nhằm điều chỉnh việc tính toán các chỉ số attention gốc):

1

a = x¡;W9 x wk 1 2.1 3 tha )( J ) ( )

thanh:

al; = aly + bật + DEP + byes) (2.2)

với ajj là chỉ số attention cho vector "key" x; nhân với vector "query" x;; va hiển

nhiên có các ma tran tương ứng của chúng là W và W® - huấn luyện được.

dread là siêu tham số biểu diễn cho số dau trong kiến trúc transformer Tiếp đến,

giá trị bias bao gồm bị), Be va pe (có thể huấn luyện được).

Một phương pháp thuộc hướng tiếp cận dựa trên chuỗi tiếp theo có thể kế đến

là LiLT l3] Cũng tương tự như cách tiếp cận của LayoutLmv2 vừa nêu, LiLT

đề xuất một module mới với tên gọi là “bi-directional attention complementation

mechanism (BiACM)" (tạm dịch là cơ chế “attention bổ sung hai chiều") Ngoài

ra, cơ chế BiACM còn giúp "hỗ trợ tính chất độc lập ngôn ngữ cho tương tác

hai chiều giữa thông tin thị giác và văn bản"(xem hình [2.10).

Tương tự như Layout LMv2 [36], tác giả của LiLT đã thay đổi phương trình tính chỉ số attention (xem trong hai tác vụ cụ thể - "Tiền huấn luyện"

(Pre-train) và "Tinh chỉnh" (Fine-tune).

ay; = ay, + ai; (2.3)

~ a} + DETACH(aj) Tiền huấn luyện

AE =Á (2.4)

af, + aj; Tinh chinh

Trong đó, of; va aj là chỉ số attention cho "bố cục" và "văn bản" tương ứng;

"Tiền huấn luyện" ám chỉ việc không cho phép gradient tác động qua lại giữa

hai luồng attention "bố cục" và "văn bản" DETACH biểu diễn việc dừng luồng gradient chảy từ phần "văn bản" đến phần "bố cục" (được biểu diễn bằng biểu

23

Trang 38

(7) Concatenate The Text Flow The Layout Flow 123 4 5 6 7 8

(asa (RoBERTa/XLM-RIInfoXLMI ) (itty og H ag R A EH

CHỈ] Detach (only exists in pre-tsining) Llr›m EB —>

Hình 2.10: Thông tin văn bản và thông tin bố cục được nhúng một cách riêng

biệt và đưa vào luồng tương ứng BiACM được đề xuất để thực hiện sự tương

tác giữa các chế độ khác nhau Tại đầu ra của mô hình, các đặc trưng văn bản

và bố cục được ghép lại cho việc tự giám sát trong quá trình tiền huấn luyện

hoặc việc điều chỉnh chỉ tiết ở các bước dưới Ở đây, N; đại diện cho số lớp

Transformer.

tượng > |); ngược lai, trong trường hợp "Tinh chỉnh" ta mong muốn có sự tương

tác qua lại giữa hai luồng khi huấn luyện tinh chỉnh trên các dữ liệu cụ thể.

Tóm gọn lại, các phương pháp dựa trên dạng chuỗi sẽ chuyển đầu vào là thông

tin văn bản của toàn bộ ảnh hóa đơn thành một chuỗi dài Rồi sau đó, tận dụng các mô hình ngôn ngữ như BERT Gk RoBERTa để rút trích đặc trưng của các văn bản này Tuy nhiên các phương pháp này cần chú ý về kĩ thuật

chuyển hóa chuỗi văn bản vì bản chất các mô hình BERT hay RoBERTa rất

nhạy cảm về nhúng thông tin 2 chiều.

Ngoài ra, các phương pháp vừa nêu như LayOutLM hay LiLT tận

dụng các thông tin khác về mặt thị giác (hình ảnh và bố cục) để tăng hiệu quả

của mô hình.

2.4.2 Các phương pháp dựa trên đồ thị

Hướng tiếp cận dựa trên mô hình đồ thị thường bắt đầu bằng quá trình biến đổi

dữ liệu đầu vào, tức là ảnh hóa đơn kèm theo văn bản từ và vị trí của các từ

đó, thành các nút trong một đồ thị Sau đó, mô hình sẽ phân loại các nút này

dựa trên thông tin thu được từ đồ thị Một số phương pháp nổi bật trong hướng

tiếp cận này bao gồm SPADE và phương pháp được giới thiệu trong nghiên

24

Trang 39

Invoice Document Graph

NET HT] [469.04]

[Taxes|Eoumise: 3 BVA, (0.84

[Total] frv.c] [4s4s4

Hidden |Layer 1 Hidden Layer 2 Hidden Layer 3 Hidden Layer 4 Output Layer

I3 68) (imitate Ga) im ad ita Gel) (ad

ÑIRPN (46563 REND (S503 NEHHP (563 NERRN [656 fern (ssm

vai ed “` wa Baa wa va

ous (oa) Ee) [Sim] ae (mi, =— fe) ad oem (roomie BE) aa [imma omaha Oe

IE]ET (S583 Hữ 583 Rey i] cy

(oa) re) (48583 (one (feta) (Ec) [S848] (fetal) —— foal) oad

NEIED (5B fern SEG (S68 Senn IR (35881 wal a ma & wa See nA 8 mal

tai] G83 \ Ni ‹ ` lf7er-qswg, ai LEH ab Na nlf ‹

Invoice Document Graph With Classes

Hình 2.11: Hình minh họa cách hoạt động của thuật toán trong công trình "An

invoice reading sys- tem using a graph convolutional network" (23) Mô hình sẽ

bao gồm 5 lớp GCN Đặc trưng đầu vào sẽ vào được đi qua 4 lớp an, hàm kích

hoạt ReLU (bằng mũi tên mau xanh lá cây Tại lớp cuối cùng, chúng ta sử dụng

hàm kích hoạt Softmax (mũi tên màu tím) để phân loại mỗi nút từ thành một trong 28 lớp Các lớp được dự đoán sẽ được hiển thị bằng các màu khác nhau.

cứu của Lohani và đồng nghiệp [23] Trong quá trình này, thông tin về vị tri của từng từ cũng được tích hợp vào từng nút mạng để giúp mô hình học được vị trí

tương đối của các trường trong ảnh hóa đơn Điều này cung cấp một cách tiếp

cận mạnh mẽ để hiểu và tận dụng cấu trúc không gian của dữ liệu hóa đơn.

Đối với phương pháp [22], tác giả của thuật toán sử dung mang đồ thị tích chập (graph convolutional network - GCN [15}) và xây dựng một lớp mang bao

gồm 4 tang GCN và một tầng phân lớp cho 28 lớp (trên bộ dữ liệu bộ dữ liệu

thu thập và không được công bố) (xem thêm hình Trong đó, đặc trưng cho tầng đầu vào là một vector 317 = (3 + 8 + 4 + 300) chiều được rút trích từ các

thành phần sau đây:

e Dac trưng boolean: dựa trên đầu ra từ mô hình text recognition, ta xây dựng

các thuộc tính như:

—“isDate": Có phải là ngày thang hay không (1/0);

— “isZipCode": Có phải là zipcode mã vùng có sẵn hay không (1/0);

25

Trang 40

We 66

— “isKnownCity", “isKnownDept", “isKnownCountry", lần lượt có phải là

tên của của “thành phố", “sở" hay “đất nước" nào không (1/0);

— nature: gồm 8 phần tử, lần lượt có phải là “kiểu toàn chữ", “toàn số",

e Dac trưng vi frí sé là vị trí tương đối của 4 toa độ:

— RD, = (Right(Wordrest) — Left(Wordgource))/Width page

— RDr = (Left(Wordprignt) — Right(W ordgource))/W idth page

e Dac trưng nhúng 300 chiều - được rút trích từ mô hình BPEmb [idl.

Phương pháp SPADE [12] là một phương pháp đại diện tiếp theo cho hướng

tiếp cận sử dụng đồ thị Đặc biệt hơn, SPADE nêu lên van đề khi bố cục của ảnh tài liệu phức tạp như tài liệu chụp khi xoay nghiêng, ảnh bị nhàu (điều này

có thể là do chủ quan của người chụp ảnh) Để khắc phục khó khăn này, đã có

nhiều phương pháp nhúng thêm thông tin không gian vào trong thuật toán của

mình như các phương pháp đã đề cập LayOutLM(v1-v3) [LI|36|B7|, LiLT

Tuy nhiên các phương pháp đang thực nghiệm trên dữ liệu ảnh tài liệu được

chụp thang đứng, nên việc serialize cũng không gặp bất cứ khó khăn gì Dé dat

được điều này, SPADES encode thông tin tọa độ tương đối (giữa các hộp bao

tương ứng) relative spatial thành một vector như sau:

VỚI #1, 14 Và 2, 2 tương ứng với tam của hai hộp bao mà ta đang xét, đại và 621

sẽ khoảng cách và góc giữa điểm vừa nêu trên (Xem hình c) Vector này là tiền dé để tạo thành vector rig với r là chữ cái đầu của relative spatial (Xem

hình a).

Phần tiếp theo của thuật toán SPADES là quá trình hình thành đồ thị Theo

như SPADES ta cần dự đoán 2 loại liên kết như sau: rel-s để sắp xếp và nhóm

các trường thuộc cùng thuộc một trường (biểu diễn bằng mũi tên màu xanh

26

Tiêu đề	Mô hình kết hợp cho bài toán rút trích thông tin từ ảnh
Tác giả	Nguyễn Ngọc Thừa
Người hướng dẫn	TS. Ngô Đức Thành
Trường học	Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành	Khoa học máy tính
Thể loại	Luận văn Thạc sĩ
Năm xuất bản	2023
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	96
Dung lượng	48,79 MB