Hiện tại nhiều phương pháp đã được đề xuất nhầm giải quyết hai bài toán này, tuy nhiên với loại dữ liệu có thông tin đa dạng và vị trí các trường thông tin không cố định như hóa đơn vẫn
Trang 1ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH
TRUONG DAI HỌC CÔNG NGHỆ THONG TIN
Trang 2ĐẠI HỌC QUỐC GIA THÀNH PHÓ HÒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
NGUYEN NGỌC THỪA.
Mô hình kết hợp cho bài toán
rút trích thông tin từ ảnh
LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH
Mã số: 8 48 01 01
NGƯỜI HƯỚNG DAN KHOA HỌC
TS NGÔ ĐỨC THÀNH
THÀNH PHÓ HÒ CHÍ MINH - 2023
Trang 3DANH SÁCH HOI DONG PHAN BIEN
Hội đồng Phản biện Luận văn Thạc sĩ được thành lập theo Quyết định số
¬—— của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
Trang 4Lời cảm ơn
Toi xin gửi lời cảm ơn chân thành đến Thầy Ngo Đức Thành và Thay
Đỗ Văn Tiền đã hết lòng hướng dẫn và hỗ trợ tôi trong suốt quá trình
thực hiện luận văn của mình tại Trường Dai Học Công Nghệ Thông tin.
Fhầy Ngô Dức Thành và Thầy Đỗ Văn Tiến đã đóng vai trò vô cùng
quan trọng trong việc định hình và hướng dẫn tôi qua từng bước của
dự án nghiên cứu này Thầy không chỉ là người hướng dẫn mà còn là
nguồn động viên và nguồn cảm hứng vô cùng lớn cho tôi Thầy luôn sẵn sàng lắng nghe ý kiến của tôi, trả lời mọi câu hỏi và giúp tôi vượt
qua những khó khăn trong quá trình nghiên cứu.
[oi thật sự biết ơn sự kiên nhãn và tận tâm của các Thay trong việc
am bảo rằng luận văn của tôi được hoàn thành một cách tốt nhất có
thể Các Thay đã hướng dan tôi trong việc phát triển ý tưởng nghiên cứu, thu thập dit liệu, phân tích kết quả, và viết báo cáo Sự hiểu biết
và kiến thức sâu rộng của Thầy đã giúp tôi xây dựng một luận văn có
giá trị và ý nghĩa.
Xin chân thành cam ơn Thầy Ngo Đức Thanh và Thầy Đỗ Văn Tiến
với tất cả sự tận tâm và hỗ trợ trong suốt thời gian qua Tôi hy vọng sẽ
có cơ hội được học hỏi thêm nhiều từ các Thay trong tương lai.
Tôi cũng xin gửi lời cảm ơn chân thành đến trường Dại học Công nghệ Thông tin vì sự hỗ trợ trong quá trình làm luận văn Sự tận tâm và
chuyên nghiệp của giáo viên hướng dẫn, cùng với sự đồng lòng của đồng
nghiệp và bạn bè, đã giúp tôi vượt qua những thách thức nghiên cứu.
Cơ sở vật chất và tài nguyên mà trường cung cấp cũng đóng vai trò quan trọng trong hành trình này Tôi tự hào và biết ơn vì có cơ hội
được học tập và phát triển tại trường.
Ky tên
ar
Nguyén Ngoc Thita
Trang 5Lời cam đoan
Tôi xin cam đoan luận văn này là công trình nghiên cứu của tôi và những nội dung được trình bày trong luận văn này là hoàn toàn trung
thực Các cá nhân, tổ chức hỗ trợ tôi trong quá trình thực hiện luận
văn đã được đề cập đến trong Lời cảm ơn Các công trình khoa học
được tôi tham khảo có trích dẫn rõ ràng và liệt kê cụ thể, chính xác
trong phan Tài liệu tham khảo Tôi hoàn toàn chịu trách nhiệm về tính
xác thực của luận văn này.
Ky tên
Nguyễn Ngọc Thừa.
Trang 6Tóm tắt
Trong đời sống thực tế, quá trình xác định vị trí và trích xuất thông tin quan trọng từ các tài liệu bán cấu trúc (tài liệu chứa thong tin cần tìm nằm rải rác không có vị trí cố định) như hóa đơn, đóng một vai trò quan trọng đối với việc quản lý thông tin Vấn đề này rất phức tạp và
ao gồm hai bài toán chính là bài toán xác định vị trí, trích xuất thông
tin quan trong (Key Information Localization and Extraction - KILE)
và bài toán nhận dang các mục dong (Line Item Recognition - LIR).
Bai toán KILE doi hỏi khả năng xác định vi trí chính xác của thong
tin quan trọng trên tài liệu, như số hóa đơn, ngày thanh toán, và các chi tiết khác Trong khi đó, LIR đòi hỏi khả năng nhận biết và phân
loại các mục dòng, như các sản phẩm hoặc dịch vụ cu thể được liệt kê
trên hóa đơn Hiện tại nhiều phương pháp đã được đề xuất nhầm giải quyết hai bài toán này, tuy nhiên với loại dữ liệu có thông tin đa dạng
và vị trí các trường thông tin không cố định như hóa đơn vẫn tạo nhiều
hó khăn cho các phương pháp hiện tại.
RoBERTa (Robustly optimized BERT approach) {20}, một phiên bản
cải tiến được phát triển từ mô hình ngôn ngữ BERT đã thể hiện được
ưu điểm của mình về độ chính xác trong các tác vụ xử lý ngôn ngữ tự
nhiên LION (EvoLved Sign Momentum)
Google phat triển, nhằm tối ưu hóa các mô hình hoc sâu So với hai bộ
một thuật toán mới được
tối uu hóa khác được sử dụng rộng rãi trong cộng đồng nghiên cứu học
sâu, cụ thể là AdamW và Adafactor , LION đã cho thấy những
ết quả vượt trội Với mong muốn nâng cao độ chính xác cho hai bài
toán KILE và LIR cho tài liệu hóa đơn, trong luận văn này học viên thực hiện nghiên cứu kết hợp RoBERTa và LION như hai thành phần
chính cùng với một số thao tác hậu xử lý như gom nhóm các hộp giới
hạn (bouding box) để xác định và trích xuất thông tin quan trọng trên
6 dit liệu DocILE
rằng phương pháp đề xuất cải thiện đáng kể độ chính xác đối với bài
toán KILE với mức tăng 7,24% so với kết quả cơ sở Ngoài ra, phương
hap này cũng tăng cường khả năng nhận diện đúng với bài toán LIR.
Kết quả thử nghiệm của nghiên cứu cho thay
Trang 7Như vậy, trong luận văn này cung cấp một hướng tiếp cận mới cho việc
giải quyết thách thức về trích xuất thông tin quan trọng và nhận dạng
các mục dong trong các tài liệu hóa đơn Việc sử dụng RoBERTa và
LION trong nghiên cứu này đã nâng cao đáng kể hiệu suất của quy trình và đóng góp vào sự phát triển của lĩnh vực phân tích và nhận
điện tài liệu hóa đơn.
ii
Trang 8Mục lục
1 Giới thiệu đề tài
1.1 Giới thiệu bài toán
12 Các thách thức |
13 Mục tiêu| Qua 14 Pham vil sếðl x77 „sẽ Ổ Ö ` -5 1.5 Đóng góp chnh| ốc Ặ ee 16 Bố cục luận văn| ee B Các nghiên cứu liên quan 2.1 Bài toán rút trích thông tin từ
ảnh| -2.2 Một số tập dữ liệu liên quan bài toán] rs 2.2.1 Tập dữ liệu ICDAR-SROIH
2.2.2 Tập dữ liệu CORD|L
2.2.3 Tập dữ liệu EUNSD|
2.2.4 Tập dữ lệu
MCOCR| -Phan tích cấu trúc văn bản - Document Layout Analysis 2.3.1 Các phương pháp dựa trên quy tắc và các thuật giả heuristics| 2.3.2 Các phương pháp dựa trên mô hình hoc sau)
2.4 Rút trích và xác định vi trí thông tin chính - Key Information [ Extraction and Localizaton|
2.6 Kết chương| cv.
ili
Trang 9B Một mô hình kết hợp cho bài toán rút trích thông tin từ ảnh |
3.1 Tong quan phương pháp| -. - se
14t hiện và nhận diện văn bản|
B.1.1.1 Phát hiện văn bản] MA: ee
B.1.1.2 Nhận diện văn bản| ee
3.12 Tiền xử lý[ eee
Phân loại văn bản| ¬ ee
3.1.4 Hậu xứ lýí{|_ SSSSC Phương phấp cơ so) ST.
35
36 37
38
39
39 40 41 42 43
44
AT
48 48
51
51
52 52
52
55 57
Trang 10Danh sách hình vẽ
1.2_ Việc tự động hóa nhập liệu có nhiều lợi ích, giúp tiết kiệm thời
gian, công sức và tăng độ chính xác của dữ liệu được nha cà 8
13 Ảnh mô tả của các bài toán KIB, KILE và LIR| 4
2.1 Ảnh mô tả các cách gán nhãn dữ liệu cho các bài toán KILE và
LIR Tập dữ liệu được g4n nhãn bao gồm dữ liệu gán nhãn thủ công và dữ liệu tạo sinh, tập dữ liệu cung cấp đầy đủ các thông
tin phục vụ cho bài toán KILE và LIR {31]] 2
2.2 Ảnh mô tả đầu vào, đầu ra của bài toán rút trích thông tin từ ảnh | 12
2.3 Hình ảnh này là một vài hóa đơn từ tập dữ liệu SROIE.| 4 2.4 Hình minh họa một nhãn trong tập dữ liệu SROIE cho phục vụ
cho bài toán KIE|] 5
2.5 Hình minh hoa một mẫu ảnh hóa đơn của tap CORD (bên trái);
và nhãn của tương ứng của hóa đơn đó (bên phải) Có thể thấy,
hóa đơn được gan nhãn rất chỉ tiết| : 6
2.6 Hình minh họa một ảnh của tập dữ liệu FEUNSD.| ĩ
2.7 Một vài ảnh minh trong bộ dữ liệu MCOCR.| 9
2.8 Hình minh họa cách hoạt động của LayoutLM Ngoài thông tin
thông tin nhúng 2 chiều - là vị trí tương đối của các từ có trong,
ảnh hóa đơn Ngoài ra thông tin nhúng anh (từ đầu ra của Faster
RCNN) còn được thêm vào quá trình huấn luyện của LayoutLM
dé tăng thêm hiệu quả cho thuật toán |3ï7|| 22
Trang 112.9 Hình minh họa cơ chế hoạt động của LayoutLmv2 Trong đó cơ
chế self-attention spatial-aware được đề xuất |36|| 22
2.10 Thông tin văn bản và thông tin bố cục được nhúng một cách riêng hiện sự tương tác giữa các chế độ khác nhau Tại đầu ra của mô | hình, các đặc trưng văn bản và bố cục được ghép lại cho việc tự idm sát trong quá trình tiền huấn luyện hoặc việc điều chỉnh chi tiết ở các bước dưới Ở đây, N; đại diện cho số lớp Transformer |35|| 24 2.11 Hình minh hoa cách hoạt động của thuật toán trong công trình "An Mô hình sẽ bao gồm 5 lớp GCN Đặc trưng đầu vào sẽ vào được đi qua 4 lớp an, hàm kích hoạt ReLU (bằng mũi tên màu xanh lá 2.12 Hình mô tả cách hoạt động của SPADES Trong đó hình a) mô ta toán SPADES Trong đó a) biểu điễn cho hộp bao, nội dung văn bản; b) Biểu diễn mục tiêu thuật toán SPADES, phân loại hai lớp như sau rel-s và rel-g, tương ứng là đường liên kết giữa các nội dung thuộc cùng thuộc một trường (màu xanh), và liên kết giữa các nhóm (màu cam); e) Biều diễn cho kết quả của thuật toán [12|| 28 2.14 Hình minh họa dif liệu ảnh hóa đơn và thuật toán BERTgrid (a) Minh hoa ảnh hóa đơn; (b) Hình minh hoa theo từng trường (phân biệt bằng các màu); (c) Ngoài ra, ảnh hóa đơn còn được gán nhãn tọa độ; (d) Minh họa việc biểu diễn W, BERTgrid sẽ nhúng ảnh hóa đơn ở mức từng từ (trong hình sẽ biểu diễn các màu khác nhau) IS TH 29 2.15 Hình minh hoa cách hoạt động của thuật toán ViBERTGrid {19]} 30 3.1 Sơ đồ mô tả tổng quan luồng xử lý của mô hình| 33
3.2 Ảnh ví dụ cho các bước xử lý của mô hình| 35
3.3 Ảnh mô tả bài toán phát hiện văn ban} 36
3.4 Ảnh mô tả bài toán nhận diện văn bản| 37
Hình mô tả chi tiết từn ầ ớc tiền xử lý dữ liệu| 37
Trang 123.6 Hình mô tả sơ lược các bước trong bài toán KIE và LIR, trong đó
ban hóa đơn thành một chuỗi kéo dai (serialize
3.7 Ảnh mô tả bước hậu xử lý Các vùng có cùng lớp sẽ ở gần nhau
3.10 Bang so sánh kết quả của RoBERTa và một số phương pháp khác
trên tập dữ liệu GLUE [20 Po ee 44
3.11 Bang so sánh kết qua của Lion so với AdamW trên tap dữ liệu
ImageNet, ImageNet ReaL, and ImageNet V2 BỊ.
4.1 Một số mẫu dữ liệu trong tập DocILE Vùng được tô màu là nơi
được gán nhãn với mỗi màu đại diện cho một lớp khác nhau.| 48
Trang 13Danh sách bảng
4.1 Chi tiết số liệu của ba tập con trong tập dữ liệu DocILE]} 51
Độ chính xác của baseline được cải thiện khi thay thế bộ
Adam bằng bộ tối u LION] 55
4.3 Bảng kết quả đánh giá các phương pháp cho bài toán KILE.| 55
uả được cải thiện khi thay đổi các ngưỡng gộ 55
4.5 Bảng điểm đánh giá cho bài toán Line Item Recogmition| 56
viii
Trang 14Danh mục từ viết tắt
Convolutional Neural Network CNN
RNN Recurrent Neural Networks
LSTM Long Short-Term Memory
RCNN Region-Based Convolutional Neural Network
LiLT Language-Independent Layout Transformer
SPADE SPatially-Adaptive (DE)normalization
GCN Graph Convolution Networks
ReLU Rectified Linear Unit
BERT Bidirectional Encoder Representations from Transformers
FPN Feature Pyramid Network
LIR Line Item Recognition
KILE Key Information Localization and Extraction
KIE Key Information Extraction
TSR Table Structure Recognition
TGRNet Table Graph Reconstruction Network
ABCNet Adaptive Bezier-Curve Network
EAST An Efficient and Accurate Scene Text Detector
CRAFT Character Region Awareness for Text Detection
DBNet Differentiable Binarization Network
PARSeq Permuted Autoregressive Sequence Models
CRNN Convolutional Recurrent Neural Network
OCR Optical Character Recognition
DocTR Document Text Recognition
AP Average Precision
GPU Graphics Processing Unit
ICDAR | The International Conference on Document Analysis and Recognition
ix
Trang 15Chương 1
Giới thiệu đề tài
1.1 Giới thiệu bài toán
Trong bối cảnh hiện nay, khi lượng dữ liệu tăng lên một cách đáng kể, việc định
vị và trích xuất thông tin từ tài liệu, đặc biệt là những tài liệu không có cấu
trúc chứa các thông tin không xác định trước hoặc chỉ có cấu trúc hạn chế chứa
thông tin đã xác định nhưng chưa biết chính xác vị trí(Hình [Ly , đặt ra những
thách thức lớn đối với các tổ chức Một trong những hướng giải quyết được đưa
su và quản lý thông tin.
ra là tự động hóa quy trình nhập dữ
Tự động hóa quy trình định vị và trích xuất thông tin từ tài liệu mang lại nhiều lợi ích Đầu tiên, nó giúp giảm bớt khả năng phạm lỗi và sai sót mà con
người có thể gặp phải khi thực hiện công việc này thủ công Điều này đồng nghĩa
với việc cải thiện độ chính xác và tính tin cậy của dữ liệu đã trích xuất Thứ hai,
tự động hóa giúp tăng cường tốc độ xử lý tài liệu Công nghệ có thể xử lý lượng
lón dữ liệu một cách nhanh chóng và hiệu quả, giảm thời gian mà con người phải đành cho công việc này Diéu này không chỉ tăng cường hiệu suất mà còn giảm
bớt áp lực công việc cho nhân viên Cuối cùng, tự động hóa quy trình giúp cho
các tổ chức tối ưu hóa việc sử dụng tài nguyên Nhân viên không còn phải dành
nhiều thời gian và công sức cho công việc trích xuất dữ liệu Thay vào đó, họ có
thể tập trung vào các công việc khác, sáng tạo và tạo ra giá trị thực sự cho tổ
chức Điều này đồng nghĩa với việc cải thiện năng suất và khả năng đóng góp
của nhân viên vào mục tiêu chung của tổ chức (Hình
http://midas.portici.enea.it/talks/53_presentation pdf|
“Hình thu thập từ internet.
Trang 16Fixed-form / structured documents Semi-structured documents Unstructured documents
e = Surveys © Invoices « Contracts
© Questionnaires Purchase orders e Letters
© Tests e _ Bills of lading e = Articles
œ _ Claim forms © EOBs « Notes
Hình 1.1: Anh mô tả các loại dit liệu có cấu trúc, bán cấu trúc va không có cấu
trúc theo thứ tự từ trái sang ph:
Quá trình trích xuất thông tin từ dit liệu có cầu trúc phức tạp đòi hỏi nhiều
công đoạn xử lý hơn so với các bài toán nhận dạng ký tự quang học (OCR) Bài
bài toán nhằm chuyển đổi hình ảnh của ký
tự được viết, đánh máy hoặc in trong tài liệu scan, ảnh chụp sang dang ký tự có
thể được lưu trữ trong máy tính Trong khi các bài toán OCR thông thường chỉ chú trọng vào việc chuyển đổi từ dữ liệu ảnh sang dữ liệu ký tự mà không quan
tâm đến nội dung cũng như bố cục của tài liệu thì bài toán trích xuất thông tin yêu cầu đầu ra là các thông tin hữu ích mà người dùng cần được ghi trong tài
liệu đó Dể trích xuất được nội dung này cần xác định được vị trí của nội dung cũng như hiểu được ý nghĩa mà dữ liệu đang thể hiện Không chỉ cần kết nối các mục với nhau dựa trên bố cục, mà còn đòi hỏi sự hiểu biết về mặt ngữ nghĩa và ngôn ngữ để xác định và liên kết các mục chính xác với nhau Diều này bao gồm việc hiểu rõ ý nghĩa của các đối tượng, mối quan hệ giữa chúng, và ngữ cảnh xung quanh để đảm bảo rằng thông tin được trích xuất là đầy dt và chính xác theo yêu cầu của từng bài toán cụ thể Do đó những bài toán về định vị và trích
xuất thông tin, thông tin quan trọng từ văn bản được ra đời nhằm giải quyết các yêu cầu trên.
#Ký tự quang học là ký tự được viết, đánh máy hoặc in trong tài liệu scan, ảnh chụp.
Trang 17Hình 1.2: Việc tự động hóa nhập liệu có nhiều lợi ích, giúp tiết kiệm thời gian,
công sức và tăng độ chính xác của dữ liệu được nhập
Quá trình định vị và trích xuất thông tin từ tài liệu gồm nhiều bài toán
con quan trọng, điển hình là bài toán trích xuất thông tin quan trọng (Key
Information Extraction - gọi tắt là KIE), định vị và trích xuất thông tin quan trọng (Key Information Localization and Extraction gọi tắt là KILE), và nhận dang hạng mục dòng (Line Item Recognition - gọi tắt là LIR).
Bài toán trích xuất thông tin quan trọng (KIE) tập trung vào việc xác định
các trường hoặc loại thông tin cụ thể mà không yêu cầu biết vị trí cụ thể của
chúng trong tài liệu Nó đóng vai trò quan trong trong việc nhận điện và phân
loại thông tin chính, tạo nền tảng cho các bước xử lý tiếp theo O mức độ khó
hơn là bài toán định vi và trích xuất thông tin quan trọng (KILE), trong đó
không chỉ xác định loại thông tin mà còn định vị chính xác vị trí của chúng
trong tài liệu Bằng cách này, KILE không chỉ nhận biết mà còn có thể thu thập
thông tin chi tiết từ các trường đã xác định vị trí Một khía cạnh quan trọng
khác là bài toán nhận dạng hạng mục dòng (LIR), bài toán này chú trọng vào
việc phát hiện và trích xuất các mục dòng trong tài liệu LIR đặt ra thách thức trong việc phân loại các mục dòng vào các lớp đã xác định trước đó và trích xuất
thông tin quan trọng tương ứng với từng mục dòng Diéu này đặc biệt hữu ích
trong việc xử lý các văn bản chứa danh sách hoặc các mục liệt kê, nơi mỗi mục
dòng có thể mang thông tin đặc biệt và quan trọng Các ví dụ của bài toán KIE,
KILE, LIR được mô tả trong hình [L.3|
Các bài toán KIE, KILE và LIR sử dụng các nguyên tắc của xử lý ngôn ngữ
Trang 18Ảnh đầu vào Kết quả đầu ra
KIE ¡ KILE i LIR
20% VAT Net 850 20% VAT NH B50 20% VAT 170 20% VAT 170 20% VAT Total 1020
'
h '
Ũ
' 1
Ũ
i 1
f
f
f q
'
' '
Hình 1.3: Anh mô tả của các bài toán KIE, KILE và LIR
tự nhiên (NLP) để trích xuất và phân tích thông tin từ dt liệu Trong số nhiều
phương pháp thuộc lĩnh vực NLP, BERT |7| và RoBERTa đã trở thành các
mô hình ngôn ngữ tiên tiến tiêu biểu BERT, một mô hình dựa trên kiến thức
trước, đã đạt được thành công đáng kể trong việc hiểu biểu đồ ngôn ngữ và
ngữ cảnh RoBERTa, một phiên bản mở rộng của BERT, đã cải thiện hiệu suất thông qua việc giới thiệu thêm các mục tiêu tiền huấn luyện.
Trong lĩnh vực tối ưu hóa mạng neural, các nhà nghiên cứu đã phát triển
nhiều thuật toán, bao gồm Adam và AdamW
tạo Tuy nhiên, những bộ tối ưu hóa này, đặc biệt là AdamW, đòi hỏi tài nguyên
, để cải thiện hiệu suất đào
tính toán và thời gian đáng kể do cần theo dõi lịch sử gradient trong quá trình
tối ưu hóa, như đã được đề cập trong nghiên cứu LION bj Bộ tối ưu hóa LION
đã giải quyết những thách thức này Nó có khả năng giảm thời gian đào tao từ 2-15% so với các tối ưu hóa truyền thống và cải thiện việc sử dụng bộ nhớ Hơn
nữa, LION đã thể hiện hiệu suất xuất sắc, vượt qua Adam và AdamW trong
nhiều nhiệm vụ xử lý ngôn ngữ tự nhiên (NLP) Đáng chú ý, còn một khoảng
trống trong nghiên cứu về việc áp dụng bộ tối ưu hóa LION cho các bài toán KIE, KILE và LIR Trong nghiên cứu này, học viên đề xuất nghiên cứu và tận dụng tiềm năng của bộ tối ưu hóa LION trong các bài toán này.
Do đó trong luận văn này học viên sẽ tiến hành nghiên cứu thử nghiệm và
Trang 19Hình 1.4: Bố cục có trong các tài liệu rất đa dạng, như vị trí tiêu đề, dia chỉ,
ngày tháng, bảng biểu.
đánh giá khi kết hợp phương pháp RoBERTa và bộ tối ưu hóa LION khi được
sử dung trong quá trình huấn luyện để giải các bài toán KILE và LIR trên tập
dữ liệu tiếng anh.
1.2 Cac thách thức
Quá trình thực hiện đề tài có nhiều trở ngại trong đó các thách thức chính là:
e Việc sử dung dataset về hóa đơn trong nghiên cứu gặp nhiều vấn đề Dau
tiên, bố cục có trong tài liệu rất đa dạng, thông tin không được đặt tại vị
trí cố định trong tài liệu Điều này dẫn tới việc xác định vị trí để rút trích
thông tin trở nên khó khăn hơn (Hình [-4|)
e Thách thức thứ hai liên quan đến chất lượng hình ảnh của các hóa đơn Do
tính chất của giấy in hóa đơn nên thường các ảnh hóa đơn có chất lượng
kém, dé bị phai màu, nhiễu, hoặc chứa các đặc điểm khác nhau phụ thuộc
) Điều này đặt ra thách thức
trong việc xử lý ảnh và trích xuất thông tin chính xác từ các hình ảnh này vào nơi lưu trữ và điều kiện quét (Hình
Cần có các phương pháp xử lý ảnh và kỹ thuật nhận dạng thông tin linh
hoạt để đối mặt với sự đa dạng này.
e Các kiểu dữ liệu có trong hóa đơn đa dạng có thể là hình ảnh, chữ viết, các
ký hiệu điều này cũng gây ảnh hưởng đến việc rút trích thông tin.
Trang 20Kiệt eon scoch eck,
Hình 1.5: Chất lượng hóa đơn kém, a) hóa đơn khi in bị thiếu mực b) các hóa đơn nhiệt sau một thời gian mực sẽ bị phay mờ.
1.3 Mục tiêu
Mục tiêu chính của luận văn này bao gồm:
e Tìm hiểu tổng quan về bài toán rút trích thông tin chính từ ảnh.
e Phân tích và đánh giá các phương pháp tiên tiến hiện nay trên các tập dữ
Pham vi khuôn khổ của luận văn được xác định như sau:
e Nghiên cứu về vấn đề rút trích thông tin trong văn bản: Tập trung vào việc
khảo sát và giải quyết các thách thức liên quan đến rút trích thông tin từ văn bản, với hai bài toán chính là xác định vị trí, trích xuất thông tin quan
trọng (KILE) và nhận dạng hạng mục dòng (LIR).
Trang 21e Bài toán xác định vị trí và trích xuất thong tin quan trọng (KILE): Tap trung vào nghiên cứu và giải quyết các vấn đề liên quan đến việc xác định
vị trí của thông tin quan trọng trong văn bản.
e Bài toán nhận dang hạng mục dòng (LIR): Nghiên cứu về nhận dạng và
phân loại các mục dòng trong văn bản, với mục tiêu là tối ưu hóa khả năng
nhận diện đúng.
e Tìm hiểu phương pháp RoBERTa và LION để kết hợp ứng dụng vào hai bài
toán KILE và LIR.
e Thực nghiệm và đánh giá trên tập dữ liệu DocILE: Sử dụng tập dữ liệu
DocILE để thực hiện các thử nghiệm và đánh giá hiệu suất của phương
pháp được đề xuất trong phạm vi các bài toán KILE và LIR trên dữ liệu tiếng việt.
1.55 Đóng góp chính
Đóng góp quan trọng của tôi trong luận văn này có thể tổng kết như sau:
e Dé xuất mô hình kết hợp mô-đun RoBERTa và bộ tối ưu hóa LION như
hai thành phần chính trong giải quyết bài toán KILE Sự kết hợp này đã
cải thiện đáng kể độ chính xác, tăng từ 56,6% lên 61,8% Điều này chứng
minh rằng việc tích hợp RoBERTa và bộ tối ưu hóa LION mang lại hiệu
suất tốt hơn cho bài toán định vị và trích xuất thông tin quan trọng.
e Dựa trên nhận thức về sự gần nhau giữa các hộp giới hạn cùng loại trường
và sự xa cách giữa các loại trường khác nhau để đề xuất một phương pháp
hậu xử lý mới.
e Nội dung của các phương pháp đề xuất trong luận văn được tổng hợp và
được công bố tại hội nghị MAPR 2023.
1.6 Bố cục luận văn
Luận văn này gồm 5 chương với bố cục như sau:
Trang 22e Chương 1: Nội dung chương 1 bao gồm các thông tin tổng quan giới thiệu
về bài toán, các thách thức đã gặp phải trong quá trình thực hiện luận văn, mục tiêu và phạm vi được đặt ra khi thực hiện luận văn này và tóm tắt các
đóng góp chính của luận văn.
e Chương 2: Trong chương 2 sẽ giới thiệu một số các nghiên cứu có liên quan
đến bài toán bao gồm các phương pháp và tập dữ liệu liên quan mà học
viên đã tham khảo qua.
e Chương 3: Phương pháp đề xuất sẽ được giới thiệu trong chương 3 Dầu
chương học viên sẽ giới thiệu tổng quan phương pháp và các phần sau sẽ đi
sâu vào chỉ tiết của từng thành phần có trong phương pháp đã đề xuất.
e Chương 4: Trong chương 4 học viên sẽ giới thiệu về tập dữ liệu được sử
dụng, độ đo cho từng bài toán, phương pháp huấn luyện và kết quả đánh giá của phương pháp đã được đề xuất.
e Chương 5: Tại chương 5 học viên sẽ tổng kết lại các nội dung đã thực hiện
và bàn luận về hướng mà luận văn có thể phát triển thêm trong tương lai.
Trang 23Chương 2
Các nghiên cứu liên quan
Trong lĩnh vực phân tích xác định vị trí và trích xuất thông tin, đã xuất hiện
một số các nghiên cứu liên quan nhằm giải quyết những thách thức về việc hiểu,
trích xuất và nhận dạng thông tin quan trọng từ các tài liệu có cấu trúc Các
phương pháp và kỹ thuật trong lĩnh vực này đang liên tục được phát triển nhằm
tìm ra lời giải phù hợp với tính phức tạp và đa dạng của dữ liệu tài liệu.
Một trong những hướng nghiên cứu quan trọng là sự kết hợp giữa các kỹ thuật
OCR (Nhận dạng ký tự quang hoc) và xử lý ngôn ngữ tự nhiên Các phương
pháp này giúp chuyển đổi hình ảnh văn bản thành dạng văn bản có thể xử lý, từ
đó mở ra khả năng trích xuất thông tin từ văn bản Một số phương pháp tiên
tiến còn kết hợp sức mạnh của học máy và xử lý ngôn ngữ tự nhiên để hiểu ngữ
cảnh và nghĩa của thông tin.
Tóm lại, sự tiến triển trong lĩnh vực này ngày càng phản ánh sự tích hợp đa
ngành, từ OCR và xử lý ngôn ngữ tự nhiên đến học má
có cấu trúc, nhằm nâng cao khả năng hiểu và trích xuất thông tin từ các tài liệu
và mô hình hóa dữ liệu
phức tạp Trong chương này sẽ giới thiệu tổng quan bài toán, một số tập dữ liệu
liên quan cũng như một số phương pháp tiếp cận hiện có.
Trong phần này học viên sẽ giới thiệu sơ lược về bài toán rút trích thông tin
từ ảnh, một số tập dữ liệu liên quan đến bày toán này cũng như một số phương
pháp đã được công bố nhằm giải quyết một số bài toán liên quan.
2.1 Bài toán rút trích thông tin từ ảnh
Các loại văn bản được chia làm ba loại gồm:
Trang 24e Văn bản có cấu trúc là loại văn bản được tổ chức theo một hệ thống hay
cấu trúc nhất định Cấu trúc này thường bao gồm sự phân chia thành các
phần khác nhau, sử dụng tiêu đề, định dạng đặc biệt, hoặc các yếu tố khác
nhằm làm cho thông tin trở nên rõ ràng, dễ theo dõi, và dễ hiểu hơn Văn
bản có cấu trúc giúp tạo ra một bố cục hợp lý, giúp người đọc dễ dàng xác
định cấu trúc tổng thể của nội dung Trong văn bản có cấu trúc, thường
sẽ thấy các thành phần như đoạn văn, mục lục, tiêu đề, và danh sách Các thành phần này đóng vai trò quan trọng trong việc giúp người đọc tiếp cận
và hiểu thông tin một cách hiệu quả Đoạn văn thường được sắp xếp logic
và có thể chia thành các đoạn con nhỏ Mục lục thường xuất hiện ở đầu văn
bản, giúp người đọc nhanh chóng định vị và truy cập các phần quan trọng.
Tiêu đề có thể được sử dụng để đặt tên cho các phần khác nhau của văn
bản, tạo ra một cấu trúc lồng ghép Các mẫu văn bản có cấu trúc thường thay trong các tài liệu chính thức như bảng khảo sát, bang câu hỏi, hoặc
các bài kiểm tra Cấu trúc này không chỉ giúp cho việc đọc văn bản được
thuận lợi mà còn hỗ trợ quá trình tìm kiếm thông tin và nắm bắt ý chính
của văn bản một cách hiệu quả.
e Văn bản bán câu trúc là loại văn bản mà trong đó thông tin không được tổ
chức theo một cấu trúc rõ ràng hoặc không tuân theo một hệ thống cu thể.
Trái ngược với văn bản có cấu trúc, văn bản bán cấu trúc thường không chứa
các thành phần nhất định như đoạn văn, tiêu đề, hoặc danh sách Thông tin
trong văn bản bán cấu trúc có thể được trình bày một cách tự do và không tuân theo một kế hoạch cụ thể Trong các văn bản bán cấu trúc, thường
không có sự phân chia rõ ràng giữa các phần khác nhau Thông tin có thể
được đặt ở bất kỳ đâu trong văn bản mà không có sự liên kết rõ ràng hoặc
cấu trúc tổ chức Điều này có thể khiến cho việc đọc và hiểu nội dung trở
nên khó khăn, đặc biệt là khi người đọc cần phải tìm kiếm thông tin cụ thể
hoặc theo dõi một luồng logic Các văn bản bán cấu trúc thường xuất hiện
trong các loại tài liệu như hóa đơn, biên lai hay các loại văn bản ghi chú cá
nhân Trong trường hợp này, mục đích chính của văn bản là ghi lại thông
tin cụ thể mà không nhất thiết phải theo một cấu trúc chuẩn Diều này
thường xảy ra trong các tài liệu hàng ngày hoặc thông tin cá nhân, nơi sự
linh hoạt và thuận tiện có thể được ưu tiên hơn so với việc duy trì một cấu trúc tổ chức.
e Văn bản không có cấu trúc là một dạng văn bản đặc biệt, nơi mà thông tin
không được tổ chức hoặc định dạng theo một cấu trúc cụ thể Trái ngược
10
Trang 25với các loại văn bản có cau trúc, văn bản không có cấu trúc không tuân
theo các quy tắc hay đặc điểm nhất định về định dạng, thứ tự, hoặc tổ chức.
Điều này tạo ra một không gian sáng tạo và tự do trong cách diễn đạt thông
điệp, thường mang đến sự độc lập và linh hoạt Một số ví dụ tiêu biểu về
văn bản không có cấu trúc bao gồm văn bản hợp đồng, thư từ, các bài báo, hoặc các bản ghi chú cá nhân Trong văn bản hợp đồng, tính chất chính thức và pháp lý thường dẫn đến việc không có cấu trúc rõ ràng, vì mỗi hợp
đồng có thể chứa nhiều điều khoản và điều kiện khác nhau Thư từ, mặc dù
có thể có các yêu tô nhất định của cấu trúc thư, vẫn cho phép sự tự do sáng
tạo trong cách diễn đạt ý kiến hoặc cảm xúc cá nhân Trong bài báo, đặc biệt là trong các lĩnh vực nghệ thuật và văn hóa, văn bản không có cấu trúc
thường được sử dụng để thể hiện sự độc lập và sáng tạo trong việc trình
bày thông tin Các bản ghi chú cá nhân, đơn thuần là nơi ghi chú ý tưởng,
ghi chú hay suy nghĩ, thường mang đến tự do tuyệt đối về cách diễn đạt va
tổ chức thông tin Mặc dù sự da dang va sáng tạo trong văn ban không có cấu trúc có thể tạo ra một trải nghiệm đọc thú vi, nhưng cũng có thể đặt ra
thách thức cho người đọc, đặc biệt là khi họ cần tìm kiếm thông tin cụ thể
hoặc theo dõi một luồng ý trong nội dung Tuy nhiên, điều này cũng mở ra
cơ hội cho sự khám phá và đánh giá cá nhân, tạo nên một trải nghiệm đọc
độc đáo và đa chiều.
Để dễ hình dung về ba loại văn bản hơn ta có thể xem lại hình
Trong lĩnh vực phân tích tài liệu và trích xuất thông tin, nghiên cứu ngày càng chú trọng vào việc giải quyết những thách thức phức tạp liên quan đến
hiểu, trích xuất và nhận dạng thông tin từ các tài liệu có cấu trúc Tiến triển
đáng chú ý trong lĩnh vực này không chỉ là kết quả của sự tiến bộ trong các lĩnh
vực cụ thể mà còn là sự kết hợp các kỹ thuật và phương pháp đa dạng để đối
mặt với sự đa dạng và phức tạp của dữ liệu tài liệu Một trong những hướng
nghiên cứu quan trong là sự kết hợp giữa các kỹ thuật OCR (Nhận dang ký tự
quang học) và xử lý ngôn ngữ tự nhiên (NLP) Việc kết hợp này giúp chuyển đổi
hình ảnh văn bản thành dạng văn bản có thể xử lý, mở ra khả năng trích xuất
thông tin từ văn bản một cách hiệu quả Các phương pháp tiên tiến trong lĩnh
vực này thường sử dụng sức mạnh của học máy và xử lý ngôn ngữ tự nhiên để
hiểu ngữ cảnh và nghĩa của thông tin Ngoài ra, các phương pháp dựa trên mô
hình hóa dữ liệu có cấu trúc, như biểu đồ đối tượng, đã xuất hiện để mô phỏng mối quan hệ giữa các thành phần trong tài liệu Điều này hỗ trợ quá trình hiểu
11
Trang 26Hình 2.1: Ảnh mô tả các cách gan nhãn div liệu cho các bài toán KILE và LIR.
Tập dữ liệu được gán nhãn bao gồm dữ liệu gán nhãn thủ công và dữ liệu tạo
sinh, tap dit liệu cung cấp đầy đủ các thông tin phục vụ cho bài toán KILE và
động hoc các đặc trưng phức tap từ dữ liệu.
Bài toán rút trích thông tin từ ảnh nhận đầu vào là hình ảnh của tài liệu
có chứa thông tin cần rút trích và đầu ra là các thông tin mà người dùng cần,
thường là những thông tin chính trong văn bản như tên người, ngày tháng, số
lượng, giá tiền, (xem mô tả tại hình |2.2)
Hình 2.2:
THỨC COFFEE
22 quang Tong P19 ANN
Dau vao:
Ảnh cua tài liệu có thông tin cần rút trích
Anh mô tả đầu vào, đầu Tra
Nội dung của các trường thông tin cần rút trích
của bài toán rút trích thông tin từ ảnh.
12
Trang 272.2 Một số tập dữ liệu liên quan bài toán
Hóa đơn là một trong những nguồn dữ liệu phổ biến, nhưng việc thu thập dữ
liệu cho mục đích nghiên cứu về hóa đơn thường đối mặt với thách thức lớn do
chúng chứa thông tin nhạy cảm Do đó, trong lĩnh vực này, bộ dt liệu tài liệu
hóa đơn mà cộng đồng nghiên cứu có thể sử dụng là khá hiếm Dưới đây là một
số bộ dữ liệu về hóa đơn đã được công bố, mang lại nguồn tài nguyên quan trọng
cho nghiên cứu trong lĩnh vực này.
e SROIE (Receipt OCR Information Extraction) |'} Bộ dữ liệu này tập trung
vào việc nhận diện và trích xuất thong tin từ hóa đơn Nó bao gồm hình ảnh
của hóa đơn và các nhãn tương ứng cho vị trí và nội dung của các trường
dữ liệu quan trọng như ngày, tổng giá, và các mục sản phẩm.
e CORD (Comprehensive Receipt Dataset) [26]: Được thiết kế để nghiên cứu
về tổng hợp thông tin từ hóa đơn, bộ dữ liệu này chứa hình ảnh hóa đơn và
các nhãn chi tiết cho từng trường dữ liệu Nó cung cap sự đa dạng về định dạng và cấu trúc của hóa đơn.
e FUNSD (Table Structure Detection in Form Understanding) SE Mặc dù
chủ yếu tập trung vào bài toán nhận diện cấu trúc bảng trong biểu mẫu,
nhưng FUNSD cũng cung cấp các hình ảnh của hóa đơn và thông tin nhãn
về vị trí của các trường dữ liệu.
e MCOCR (Mobile-Captured Image Document Recognition for Vietnamese
Receipts}† Bộ dữ liệu MCOCR là tập hợp các hình ảnh hóa đơn được chụp
từ thiết bị di động, tập trung vào miền dữ liệu tiếng Việt, khác biệt so với các tập dữ liệu trước đó mà chúng ta đã đề cập Một trong những thách thức lớn nhất của bộ dữ liệu này là sự tồn tại của hình ảnh bị xoay, điều này đặt ra yêu cầu với các đội tham gia cần phải có thuật toán có khả năng
xử lý tình huống này.
Việc sử dụng các bộ dữ liệu này trong nghiên cứu giúp cộng đồng xây dựng và đánh giá mô hình với một cơ sở dữ liệu đa dạng và thực tế Tuy nhiên, cần lưu ý
rằng việc xử lý dữ liệu hóa đơn đôi khi đòi hỏi sự cẩn trọng để bảo vệ thông tin
cá nhân và kinh doanh.
TCDAR2019 Competition on Scanned Receipt OCR and Information Extraction
2RIVF conference 2021
13
Trang 282.2.1 Tập dữ liệu ICDAR-SROIE
SROIE (Receipt OCR Information Extraction) là một bộ dữ liệu xuất phát từ
cuộc thi ICDAR2019, chứa hình ảnh của các hóa đơn thương mại được quét từ
máy quét hoặc máy ảnh Mỗi hình ảnh hóa đơn đều chứa đựng nhiều thông tin
như ngày tháng, số hóa đơn, danh sách sản phẩm, giá trị sản phẩm, tên cửa
hang, và nhiều chi tiết khác Nhiệm vụ chính của SROIE là nhận dang và trích
xuất các thông tin quan trọng từ hóa đơn, sau đó biểu diễn chúng dưới dạng văn
bản có cấu trúc.
Bộ dữ liệu này bao gồm tổng cộng 1000 ảnh, được chia thành hai phần: tập huấn luyện/đánh giá ("train/val") và tập kiểm tra ("test") Tập "test"chứa 400
ảnh Phần "train/val"gồm 600 hình ảnh hóa đơn đã được gán nhãn với tọa độ
và nội dung theo định dạng sau (dé phục vu cho tác vu 1 va 2 của cuộc thi
ICDAR2019):
(rr
£1, Y1, £2, Y2, 3, Y3, #4, Ya, “hội dung”
Ngoài ra, để hỗ trợ cho bài toán KIE (tác vu 3 của cuộc thi), nhóm tổ chức
cuộc thi cũng đã gắn thêm nhãn cho 4 trường "company", "date", "address", và
"total"(xem hình [2.3p.
Bộ dữ liệu SROIE là một nguồn tài nguyên quan trọng để phát triển và đánh
giá các mô hình nhận dạng và trích xuất thông tin từ hóa đơn thương mại.
!_ man
POSTED
Hình 2.3: Hình ảnh này là một vài hóa đơn từ tập dữ liệu SROIE.
14
Trang 29{company”: "STARBUCKS STORE #10208",
Tập dữ liệu CORD (26] đặc trưng với 11.000 hình ảnh hóa đơn tai Indonesia.
Cũng như tập SROIE, mỗi hóa đơn trong tập CORD cũng được gán nhãn bằng
các đa giác để chỉ ra vị trí của các trường dữ liệu Tuy nhiên, để đảm bảo việc
đánh giá hiệu qua cho bài toán KIE, nhóm tác gia đã thực hiện gán nhãn chi
tiết cho mỗi hóa đơn.
Một điểm đặc biệt là số lượng trường dữ liệu tối đa cho một hóa đơn trong tập
CORD là 54, bao gồm nhiều loại thông tin như thông tin cửa hàng (tên, địa chỉ,
), mua bán (thời gian bán), mục hàng (tên mặt hang, số lượng, giá mặt hàng),
giá (tiền cross, net, thuế), và nhiều thông tin khác nữa (xem thêm hình [2.5).
Tap dữ liệu CORD cung cấp một nguồn tài nguyên phong phú cho việc nghiên
cứu và phát triển các mô hình nhận dạng và trích xuất thông tin từ hóa đơn,
đặc biệt là trong bối cảnh các hóa đơn có độ phức tạp cao và chứa đựng nhiều
loại thông tin khác nhau.
2.2.3 Tập dữ liệu FUNSD
Bộ dữ liệu "Form Understanding in Noisy Scanned Documents"(FUNSD)
đóng vai trò quan trong trong lĩnh vực hiểu biểu mẫu trong tài liệu Được tạo ra
để thách thức các mô hình xử lý ngôn ngữ tự nhiên và hiểu biểu mẫu, FUNSD
gồm khoảng 199 hình ảnh tài liệu văn bản được quét, minh họa chỉ tiết trong Hình
Bộ dữ liệu này đặt ra ba nhiệm vụ cụ thể:
15
Trang 30a {} SON a{} meta
Hình 2.5: Hình minh hoa một mau anh hóa đơn của tap CORD (bên trái); va
nhãn của tương ứng của hóa đơn đó (bên phải) Có thể thấy, hóa đơn được gán
nhãn rất chi tiết.
e Tác vụ nhóm từ (Word Grouping): Mục tiêu của nhiệm vụ này là tổng hợp
các từ có liên quan semantical, tạo ra các nhóm từ chúng có thể tạo thành
các thực thể ngữ nghĩa.
e Tác vụ phân lớp thực thể ngữ nghĩa (Semantic Entity Labeling): Nhiệm vụ
này tập trung vào việc phân loại các thực thể ngữ nghĩa vào một trong bốn
lớp: "question", "answer", "header"hoặc "other" Việc này giúp xác định
loại thông tin mà mỗi thực thể mang lại.
e Tác vụ liên kết thực thể (Entity Linking): Nhiệm vụ cuối cùng nhằm dự
đoán các mối quan hệ giữa các thực thể ngữ nghĩa Diều này cung cấp cái
nhìn chi tiết về cách các thực thể tương tác và kết nối trong văn bản.
16
Trang 31Với sự phức tạp của nhiệm vụ và tính đa dạng của dữ liệu, FUNSD cung cấp
một thách thức đáng kể cho các nhà nghiên cứu và là một nguồn tài nguyên quan trọng để phát triển và đánh giá các mô hình trong lĩnh vực này.
ACUTE TOXICITY IN MICE
~Hydroxy-3-methylbutanoic acid (Tur 13)
Litchfield, J T and Wilcoxin, F., J of Pharmacol.
REFERENCE FOR CALCULATION
Ther., 90:99, 1948
and Exper
ivi Survivors recovered in 48 hours The recommended safe
dose for a single trial by inhalation in man is 0.3 mg.
Copies to the Following: Dr H J Minnemeyer
Ms L 5 Gray C5
Hình 2.6: Hình minh họa một ảnh của tập dữ liệu FUNSD.
2.2.4 Tập dữ liệu MCOCR
Bộ dữ liệu MCOCR - "Mobile-Captured Image Document Recognition for
Viet-namese Receipts"là bộ dữ liệu được xây dựng để phục vu cho cuộc thi tại hội
nghị RIVF2021 Tập dữ liệu MCOCR ban đầu gồm 2000 hình ảnh biên lai được
phân loại thành các tập con: "Warm Up", "Public Train", "Public Test", và
"Private Test", với số lượng hình ảnh lần lượt là 500, 1.155, 391, và 390.
17
Trang 32Các đội tham gia một trong hoặc cả hai tác vụ con bao gồm:
e IQA - Dánh giá chất lượng hình ảnh;
e KIE - Trích xuất thông tin quan trọng.
Do đó, tác vụ phù hợp với nội dung của luận văn là tác vụ Key Information
Extraction (KIE) Trong tác vụ này, ban tổ chức cuộc thi đã gán nhãn cho các
hóa đơn trong bộ dữ liệu với bốn trường thông tin cụ thể: "SELLER"(NGƯỜI
BAN), "SELLER_ ADDRESS"(DỊA CHỈ NGƯỜI BAN), "TIMESTAMP"(THỜI
GIAN), va "TOTAL COST" (TONG CHI PHI); và độ do được sử dung để đánh
giá hiệu quả các thuật toán trong tác vụ này là CER - character error rate:
N
1
CER =~ d(iss+i)
với i tượng trưng cho hóa đơn thứ i, (¡+ s + đ) biểu thị khoảng cách Levenshtein
giữa nhãn của nội dung văn bản của hóa đơn thứ ¡ với kết quả dự đoán tương
và sau đó lưu trữ dưới dạng các quy tắc trong một cơ sở kiến thức Những quy
tắc này sau đó được sử dụng với một bộ nhận dạng quy tắc để xác định các yếu
tố logic và hỗ trợ trong tài liệu.
Tuy nhiên, phương pháp này đã bắt đầu thể hiện nhược điểm khi có sự gia
tăng liên tục về số lượng hình ảnh tài liệu theo thời gian Đối mặt với quy mô
18
Trang 33THE COFFEE HOUSE a
Giờ vào: 09.28 Giờ ra: 09.28
THE COFFEE HOUSE
403 Phan Huy Ích, P.14, Q.Gò Vấp
Số: 27
Nông ngân: CAGE a Thời gian:01.10.2020 13.19 Số HE: 19810000702020
TT Tên món SL Đ,Giá T.Tiềr Thu ngân: cash1
Hình 2.7: Một vài ảnh minh trong bộ dữ liệu MCOCR.
lớn và sự đa dạng ngày càng tăng của dữ liệu, các phương pháp truyền thống
dựa trên quy tắc và heuristics đã không còn đáp ứng đủ để đối mặt với thách
thức của quá trình trích xuất thông tin từ hình ảnh tài liệu.
2.3.2 Các phương pháp dựa trên mô hình học sâu
Việc xuất hiện các mô hình học sâu, như EfficientNet (33}, da dem lai cai tién
đáng kể về độ chính xác, đặc biệt là trong các nhiệm vu phát hiện đối tượng.
Các bộ phát hiện đối tượng hai giai đoạn như Sparse R-CNN và các bộ phát hiện đối tượng giai đoạn một thuộc gia đình YOLO như YOLOv4 |4| đã được sử
dụng phổ biến, tirước hưởng từ các tiến bộ trong lĩnh vực mô hình học sâu.
Trong ngữ cảnh của DLA, có thể xem xét một nhiệm vụ phát hiện các thành
19
Trang 34phần của tài liệu như tiêu đề, phần đầu, đoạn văn, hình ảnh và bảng như các đối
tượng thông thường Quan điểm này mở ra khả năng áp dụng các kỹ thuật và
phương pháp phát hiện đối tượng để phân tích và hiểu bố cục của tài liệu một
cách hiệu quả Điều này mang lại ưu điểm trong việc tự động xác định vị trí và
giới hạn của các thành phần quan trọng trong tài liệu, góp phần quan trọng vào
quá trình trích xuất thông tin và hiểu nội dung của văn bản.
2.4 Rút trích và xác định vi trí thông tin chính
- Key Information Extraction and
Localiza-tion
Tương tự như Document Layout Analysis (DLA), các nghiên cứu ban đầu về
Knowledge Information Extraction (KIE) thường dựa vào các phương pháp dựa
trên quy tắc, nhưng đã chứng minh hạn chế trong các tình huống thực tế Với
sự xuất hiện của học sâu, các phương pháp KIE hiện đại có thé được phân loại
thành ba loại chính: dựa trên chuỗi, dựa trên đồ thị, và dựa trên lưới.
Phương pháp dựa trên chuỗi thường tập trung vào việc sử dụng mô hình học
sâu, chang hạn như mô hình ngôn ngữ hồi quy, để phân tích và rút trích thông
tin từ văn bản theo chuỗi Diéu này có thể bao gồm việc nhận dạng thực thể
ngữ nghĩa, quan hệ giữa chúng, và các thông tin liên quan.
Phương pháp dựa trên đồ thị tập trung vào biểu diễn tri thức dưới dạng đồ thị, trong đó các thực thể và mối quan hệ giữa chúng được biểu diễn bằng các
đỉnh và cạnh trong đồ thị Các mô hình hoc sâu như Graph Neural Networks
thường được áp dụng để làm việc với cấu trúc đồ thị này.
Phương pháp dựa trên lưới tổ chức thông tin theo các cấu trúc lưới hoặc bảng,
thường được sử dụng trong các văn bản có định dạng cố định Các mô hình học
sâu, đặc biệt là mô hình có khả năng xử lý dữ liệu dạng lưới, có thể được tích
hợp để nhận diện và rút trích thông tin từ các cấu trúc này.
Đối với KIE, việc kết hợp các phương pháp truyền thống và các mô hình học
sâu mang lại khả năng hiệu quả cao trong việc xử lý thông tin từ các nguồn văn
bản và tài liệu đa dạng.
20
Trang 352.4.1 Các phương pháp dựa trên chuỗi
Các phương pháp dựa trên chuỗi thường bao gồm việc chuyển toàn bộ tài liệu
thành một mảng 1 chiều, sau đó áp dụng các phương pháp dựa trên mạng hồi quy (RNN/LSTM) như đã được thực hiện trong các nghiên cứu như [11] Đồng
thời, phương pháp sử dụng sự chú ý, như BERT [7| và RoBERTa [3], cũng được
áp dụng để thực hiện nhiệm vụ nhận dang thực thể có tên trong văn bản.
Các nghiên cứu gan đây, ví dụ như LayoutLM [37], đã lấy cam hứng từ mô
hình BERT và mở rộng áp dụng của nó bằng cách mô hình hóa ngữ nghĩa hình
ảnh và cấu trúc văn bản Mục tiêu là cải thiện khả năng hiểu bố cục và tương
tác giữa các thành phần trong tài liệu.
Một công trình đáng chú ý khác, LiLT (35), đề xuất một mô hình biến đổi hai
dong riêng biệt Mô hình nay tập trung vào việc mô hình hóa tương tác chéo
giữa dấu vết văn bản và cấu trúc bố cục Điều này giúp nâng cao khả năng hiểu
và tổng hợp thông tin từ cả ngữ nghĩa và hình ảnh.
Phương phấp LayoutLM , hướng tiếp cận bao gồm việc tích hợp thông tin
văn ban lan thông tin về thị giác Cụ thể hơn, lấy cảm hứng từ BERTI, ngoài
việc LayoutLM rút trích đặc trưng nhúng văn bản và đặc trưng nhúng vị trí,
LayoutLM rút trích thông tin nhúng thị giác và nhúng vị trí tương đối giữa các
từ trong không gian 2 chiều (đang xét thông tin tọa độ tương ứng với từ đó trong ảnh hóa đơn) Việc trích xuất thông tin nhúng thị giác sẽ được thực hiện
thông qua sử dụng Faster R-CNN [27] Cu thể về hai thong tin nhúng thi giác
và nhúng vị trí 2 chiều sẽ là như sau:
e Nhúng 2 chiều: Sử dụng thông tin về bounding box (zo,o, #1, 1), trong đó
(xo, yo) là góc trên bên trái va (z1, y1) là góc dưới bên phải của bounding box
(tham khảo hình [2.8) Điều này được biểu diễn qua Position Embeddings là (Z0 Yo, #1 Y1)-
e Nhúng ảnh: Sử dụng đặc trưng từ lớp cuối cùng của thuật toán Faster
RƠNN (với đầu vào là các ảnh của từng từ) Dac biệt, đối với token [CLS],
đặc trưng tương ứng là toàn bộ ảnh hóa đơn (hình |2.8) Tương tự cho việc
nhúng 2 chiều, thông tin hỗ trợ cho toàn bộ ảnh hóa đơn được biểu diễn
bằng vector cột Eeus Eo, Eo, Emaxw: EmaxH:
Ngoài ra, các phương pháp mở rộng của LayoutLm là LayoutLmv2 và
LayoutLmv3 (cùng nhóm tác giả của LayoutLm) Trong đó phiên ban
LayoutLmv2 cải thiện trên công trình trước đó của họ bằng cách đề xuất cơ chế
"self-attention spatial-aware".
21
Trang 36Embeddings (y1) | Ema) || Fuss Esa) Euaa) Eụuaa) Eụaa) Eqso)
Hình 2.8: Hình minh họa cách hoạt động của LayoutLM Ngoài thông tin nhúng
vị tri (positional embedding), LayoutLM còn tận dụng thêm thông tin nhúng
2 chiều - là vị trí tương đối của các từ có trong ảnh hóa đơn Ngoài ra thông tin nhúng ảnh (từ đầu ra của Faster RCNN) còn được thêm vào quá trình huấn
luyện của LayoutLM để tăng thêm hiệu quả cho thuật toán.
testes LYI w ] Ges
Ì Line 2 (not covered): [MASK] TS T6 T7 |
OCR Lines )
Visual Encoder OCRIPDF Parser
Document Page with Covered OCR Lines Document Page
Hình 2.9: Hình minh hoa cơ chế hoạt động của LayoutLmv2 Trong đó cơ chế
self-attention spatial-aware được đề xuất.
22
Trang 37Có thể hiểu một cách nom na "spatial-aware self-attention mechanism" là một
cơ chế tự chú ý có khả năng nhận biết và xử lý thông tin không gian, đặc biệt là
trong ngữ cảnh của dữ liệu văn bản, bố cục, và thông tin hình ảnh Cụ thể cách
hoạt động của cơ chế "spatial-aware self-attention"(xem hình bằng việc cải tiến cơ chế attention gốc (mục đích của việc thêm vào chỉ số bias nhằm điều chỉnh việc tính toán các chỉ số attention gốc):
1
a = x¡;W9 x wk 1 2.1 3 tha )( J ) ( )
thanh:
al; = aly + bật + DEP + byes) (2.2)
với ajj là chỉ số attention cho vector "key" x; nhân với vector "query" x;; va hiển
nhiên có các ma tran tương ứng của chúng là W và W® - huấn luyện được.
dread là siêu tham số biểu diễn cho số dau trong kiến trúc transformer Tiếp đến,
giá trị bias bao gồm bị), Be va pe (có thể huấn luyện được).
Một phương pháp thuộc hướng tiếp cận dựa trên chuỗi tiếp theo có thể kế đến
là LiLT l3] Cũng tương tự như cách tiếp cận của LayoutLmv2 vừa nêu, LiLT
đề xuất một module mới với tên gọi là “bi-directional attention complementation
mechanism (BiACM)" (tạm dịch là cơ chế “attention bổ sung hai chiều") Ngoài
ra, cơ chế BiACM còn giúp "hỗ trợ tính chất độc lập ngôn ngữ cho tương tác
hai chiều giữa thông tin thị giác và văn bản"(xem hình [2.10).
Tương tự như Layout LMv2 [36], tác giả của LiLT đã thay đổi phương trình tính chỉ số attention (xem trong hai tác vụ cụ thể - "Tiền huấn luyện"
(Pre-train) và "Tinh chỉnh" (Fine-tune).
ay; = ay, + ai; (2.3)
~ a} + DETACH(aj) Tiền huấn luyện
AE =Á (2.4)
af, + aj; Tinh chinh
Trong đó, of; va aj là chỉ số attention cho "bố cục" và "văn bản" tương ứng;
"Tiền huấn luyện" ám chỉ việc không cho phép gradient tác động qua lại giữa
hai luồng attention "bố cục" và "văn bản" DETACH biểu diễn việc dừng luồng gradient chảy từ phần "văn bản" đến phần "bố cục" (được biểu diễn bằng biểu
23
Trang 38(7) Concatenate The Text Flow The Layout Flow 123 4 5 6 7 8
(asa (RoBERTa/XLM-RIInfoXLMI ) (itty og H ag R A EH
CHỈ] Detach (only exists in pre-tsining) Llr›m EB —>
Hình 2.10: Thông tin văn bản và thông tin bố cục được nhúng một cách riêng
biệt và đưa vào luồng tương ứng BiACM được đề xuất để thực hiện sự tương
tác giữa các chế độ khác nhau Tại đầu ra của mô hình, các đặc trưng văn bản
và bố cục được ghép lại cho việc tự giám sát trong quá trình tiền huấn luyện
hoặc việc điều chỉnh chỉ tiết ở các bước dưới Ở đây, N; đại diện cho số lớp
Transformer.
tượng > |); ngược lai, trong trường hợp "Tinh chỉnh" ta mong muốn có sự tương
tác qua lại giữa hai luồng khi huấn luyện tinh chỉnh trên các dữ liệu cụ thể.
Tóm gọn lại, các phương pháp dựa trên dạng chuỗi sẽ chuyển đầu vào là thông
tin văn bản của toàn bộ ảnh hóa đơn thành một chuỗi dài Rồi sau đó, tận dụng các mô hình ngôn ngữ như BERT Gk RoBERTa để rút trích đặc trưng của các văn bản này Tuy nhiên các phương pháp này cần chú ý về kĩ thuật
chuyển hóa chuỗi văn bản vì bản chất các mô hình BERT hay RoBERTa rất
nhạy cảm về nhúng thông tin 2 chiều.
Ngoài ra, các phương pháp vừa nêu như LayOutLM hay LiLT tận
dụng các thông tin khác về mặt thị giác (hình ảnh và bố cục) để tăng hiệu quả
của mô hình.
2.4.2 Các phương pháp dựa trên đồ thị
Hướng tiếp cận dựa trên mô hình đồ thị thường bắt đầu bằng quá trình biến đổi
dữ liệu đầu vào, tức là ảnh hóa đơn kèm theo văn bản từ và vị trí của các từ
đó, thành các nút trong một đồ thị Sau đó, mô hình sẽ phân loại các nút này
dựa trên thông tin thu được từ đồ thị Một số phương pháp nổi bật trong hướng
tiếp cận này bao gồm SPADE và phương pháp được giới thiệu trong nghiên
24
Trang 39Invoice Document Graph
NET HT] [469.04]
[Taxes|Eoumise: 3 BVA, (0.84
[Total] frv.c] [4s4s4
Hidden |Layer 1 Hidden Layer 2 Hidden Layer 3 Hidden Layer 4 Output Layer
I3 68) (imitate Ga) im ad ita Gel) (ad
ÑIRPN (46563 REND (S503 NEHHP (563 NERRN [656 fern (ssm
vai ed “` wa Baa wa va
ous (oa) Ee) [Sim] ae (mi, =— fe) ad oem (roomie BE) aa [imma omaha Oe
IE]ET (S583 Hữ 583 Rey i] cy
(oa) re) (48583 (one (feta) (Ec) [S848] (fetal) —— foal) oad
trmiznsai3 lImamzwaiF3a Bm| |mn BH| | ðHI| |ẪmeiEzwelifia 6ø]
NEIED (5B fern SEG (S68 Senn IR (35881 wal a ma & wa See nA 8 mal
tai] G83 \ Ni ‹ ` lf7er-qswg, ai LEH ab Na nlf ‹
Invoice Document Graph With Classes
Hình 2.11: Hình minh họa cách hoạt động của thuật toán trong công trình "An
invoice reading sys- tem using a graph convolutional network" (23) Mô hình sẽ
bao gồm 5 lớp GCN Đặc trưng đầu vào sẽ vào được đi qua 4 lớp an, hàm kích
hoạt ReLU (bằng mũi tên mau xanh lá cây Tại lớp cuối cùng, chúng ta sử dụng
hàm kích hoạt Softmax (mũi tên màu tím) để phân loại mỗi nút từ thành một trong 28 lớp Các lớp được dự đoán sẽ được hiển thị bằng các màu khác nhau.
cứu của Lohani và đồng nghiệp [23] Trong quá trình này, thông tin về vị tri của từng từ cũng được tích hợp vào từng nút mạng để giúp mô hình học được vị trí
tương đối của các trường trong ảnh hóa đơn Điều này cung cấp một cách tiếp
cận mạnh mẽ để hiểu và tận dụng cấu trúc không gian của dữ liệu hóa đơn.
Đối với phương pháp [22], tác giả của thuật toán sử dung mang đồ thị tích chập (graph convolutional network - GCN [15}) và xây dựng một lớp mang bao
gồm 4 tang GCN và một tầng phân lớp cho 28 lớp (trên bộ dữ liệu bộ dữ liệu
thu thập và không được công bố) (xem thêm hình Trong đó, đặc trưng cho tầng đầu vào là một vector 317 = (3 + 8 + 4 + 300) chiều được rút trích từ các
thành phần sau đây:
e Dac trưng boolean: dựa trên đầu ra từ mô hình text recognition, ta xây dựng
các thuộc tính như:
—“isDate": Có phải là ngày thang hay không (1/0);
— “isZipCode": Có phải là zipcode mã vùng có sẵn hay không (1/0);
25
Trang 40We 66
— “isKnownCity", “isKnownDept", “isKnownCountry", lần lượt có phải là
tên của của “thành phố", “sở" hay “đất nước" nào không (1/0);
— nature: gồm 8 phần tử, lần lượt có phải là “kiểu toàn chữ", “toàn số",
e Dac trưng vi frí sé là vị trí tương đối của 4 toa độ:
— RD, = (Right(Wordrest) — Left(Wordgource))/Width page
— RDr = (Left(Wordprignt) — Right(W ordgource))/W idth page
e Dac trưng nhúng 300 chiều - được rút trích từ mô hình BPEmb [idl.
Phương pháp SPADE [12] là một phương pháp đại diện tiếp theo cho hướng
tiếp cận sử dụng đồ thị Đặc biệt hơn, SPADE nêu lên van đề khi bố cục của ảnh tài liệu phức tạp như tài liệu chụp khi xoay nghiêng, ảnh bị nhàu (điều này
có thể là do chủ quan của người chụp ảnh) Để khắc phục khó khăn này, đã có
nhiều phương pháp nhúng thêm thông tin không gian vào trong thuật toán của
mình như các phương pháp đã đề cập LayOutLM(v1-v3) [LI|36|B7|, LiLT
Tuy nhiên các phương pháp đang thực nghiệm trên dữ liệu ảnh tài liệu được
chụp thang đứng, nên việc serialize cũng không gặp bất cứ khó khăn gì Dé dat
được điều này, SPADES encode thông tin tọa độ tương đối (giữa các hộp bao
tương ứng) relative spatial thành một vector như sau:
VỚI #1, 14 Và 2, 2 tương ứng với tam của hai hộp bao mà ta đang xét, đại và 621
sẽ khoảng cách và góc giữa điểm vừa nêu trên (Xem hình c) Vector này là tiền dé để tạo thành vector rig với r là chữ cái đầu của relative spatial (Xem
hình a).
Phần tiếp theo của thuật toán SPADES là quá trình hình thành đồ thị Theo
như SPADES ta cần dự đoán 2 loại liên kết như sau: rel-s để sắp xếp và nhóm
các trường thuộc cùng thuộc một trường (biểu diễn bằng mũi tên màu xanh
26