Để xây dựng một ứng dụng đã dé cập ở trên, chúng tôi xây dựng dựa trên sự kết hợp 3 phương pháp 1a: Text Localization/Detection phát hiện văn ban, TextRecognition nhận diện van bản va Ke
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
KHOA KHOA HỌC MAY TÍNH
NGUYEN TRUNG BAO ANH
vU LE HOANG PHUC
KHOA LUAN TOT NGHIEP
CU NHAN NGANH KHOA HOC MAY TINH
TP HO CHI MINH, 2020
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HỌC MAY TÍNH
NGUYEN TRUNG BAO ANH - 17520245
VŨ LE HOANG PHÚC - 17520913
KHOA LUAN TOT NGHIEP
CU NHÂN NGANH KHOA HOC MAY TÍNH
GIANG VIEN HUONG DAN
PGS TS LE DINH DUY
TP HO CHI MINH, 2020
Trang 3Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết
định sô 523/QD-DHCNTT ngày 25 tháng 08 năm 2020
của Hiệu trưởng Trường Đại học Công nghệ Thông tin
Trang 4LỜI CẢM ƠN
Trước tiên, chúng em xin chân thành cảm ơn thầy Lê Đình Duy đã tận tình giúp
đỡ hướng dẫn và định hướng chúng em để có thể hoàn thành khóa luận tốt nhất.Sau, chúng em xin gửi lời cảm ơn đến các thầy cô, anh chị và các bạn sinh viêntại phòng thí nghiệm Truyền thông Đa phương tiện trường Đại học Công nghệthông tin đã nhiệt tình hỗ trợ chúng em về cả kiến thức và trang thiết bị trong
quá trình làm khóa luận.
Chúng em xin chân thành cảm ơn!
Trang 52.1.1 Tổng quan về phat hién vănbản| - 7
2.1.1.1 Phương pháp dua trên máy học cổ điển (Classical
¬ 8
Le ee 9
2.1.2.1 Kiếntrúc 112.1.2.2 Huấnluyện 12
See eee 15
¬ 17
2.2.1 Tổng quan về Nhận diện văn bản 17
2.2.1.1 Phương pháp dựa trên máy học| 18
_— 19
"MU <«- a4 19
Trang 62.3.2.1 Đặc trưng nut (nodefeatures)| 27
2.3.2.2 Xay dựng đô thị (Feature Engineering)| 27
¬ LH 28
2.3.3 Processing Key Information Extraction from Documents
us-ing Improved Graph Learnus-ing-Convolutional Networks (PICK)
4.1 Bộ du liệu sử dung trong khóa luận 49
4.11 Tap anh UIT-ReceiptsinTheWHid| 49
Trang 741.2 Bộ dữ liệu SROIH 49
4.2 Các độ đo sử dụng trong khóa luận| 50
4.2.1 Độ do mean entity accuracy (mEA)| 50
4.2.2 Độ đo mean entity precision (mEP), mean entity recall (mER), and mean entity F-measure (mEE)| 50
4.2.3 Độ đo Độ chính xác (Precision) và Độ phủ (Recall) 50 4.2.4 Độ đo tỉ lệ kí tự sai (Character error rate (CER))| 51
4.2.5 Độ đo ti lệ từ sai (Word error rate (WER))} 52
Le ee eee 52 4.2.6.1 So sánh CRAFT với phương pháp khác| 52
4.2.7 Thực nghiệm về nhận diện văn bản 53 54 4.2.9 Đánh giá và so sánh kết quả trên toàn bộ pipeline 55 57 5.1 Cài đặtứngdụng| Ặ Ặ ẶẶ 00000000008 57 ] / 57
D.1.1.1 Gidi thiệu thư viện gradio 57 5.1.1.2 Cách cài đặt và sử dụng| 58
5.1.2 Hướng giải quyết của ứng dụng| - 59
b13 Giao diệnứngdụng| 59
5.14 Đánh giá ứng dụng minh họa| 60
6 KÊTLUẬN 62
6.1 Tóm tắt khóa luận và những van đề đã giải quyết 62
6.3 Hướng pháttriển Ặ S S So 63
Trang 95.1 Minh họa giao diện Gradio
5.2_ Giao diện ứng dụng web minh hoa ban đầu|
5.3 Minh họa kết quả chạy thử
Trang 10Danh sách bảng
hư at rẽ 52
4.2 So sánh Nhận diện văn ban (Recognition) giữa Tesseract và
Trans-formerOCR trên bộ dữ liệu của chúng tôi| 53 4.3 So sánh pretrained model TransformerOCR và TransformerOCR
fine-tuning với Data augmentation trên bộ dữ liệu UII-RIW| 53 4.4 So sánh các cách thực nghiệm PICK| 54 4.5 So sánh toàn trên toàn pipeline phương pháp chúng tôi sử dụng
với baseline trên UII-RIW| 55
Trang 11Danh mục từ viết tắt
CNN Convolutional Neural Network
GCN Grahp Convolutional Network
PICK Processing Key Information Extraction from Documents using Improved Graph CRAFT Character Region Awareness for Text Detection
SROIE Scanned Receipts OCR and Information Extraction
OCR Optical Character Recognition
HOG Histogram of Oriented Gradients
SSD Single Shot multibox Detector
SVM Support Vector Machine
YOLO You Only Look Once
FCN Fully Convolutional Network
SIFT Scale-Invariant Feature Transform
Trang 12Danh mục tu tạm dịch
Bộ dữ liệu đataset Phát hiện văn bản Text Localization/Detection Nhận điện văn bản Text Recognition
Key Information Extraction Image Inpainting
Kiến trúc architecture
Vùng /đoạn mask Khung/Hộp giới hạn boundary box Đặc trưng feature
Đặc trưng học sâu deep feature Đặc trưng thủ công hand-crafted feature
Độ lỗi tái tạo reconstruction error
Huấn luyện train / training
Kiểm tra test / testing
Trang 13TÓM TẮT KHOÁ LUẬN
Nguồn thông tin được trích xuất từ hóa đơn mua sắm của khách hàng có thể
phục vụ được cho nhiều nhu cầu của doanh nghiệp thông qua việc: chuyển đổi,lưu trữ, tìm kiếm thông tin nhanh, marketing, thu thập và phân tích dữ liệu hành
vi khách hàng Hiện nay nhu cau trích xuất thông tin từ hình ảnh hóa đơn khách
hàng ngày càng lớn, một vài quốc gia trên thế giới đã xuất hiện các ứng dụng cho
phép người dùng chụp ảnh hóa đơn mua hàng của mình và nhận lại một khoản
điểm quy đổi như: Ibotta, Receipt Hog, Fetch Reward Đơn cử ở Việt Nam, ứngdụng Reward+ cho phép người dùng tích điểm bằng cách chụp ảnh hóa đơn muahàng từ các cửa hàng thành viên thuộc hệ thống trung tâm thương mại EstellaPlace và Saigon Centre Tuy nhiên việc trích xuất được thực hiện trong vòng 10ngày từ khi hóa đơn được gửi Điều đó gây nên một sự tiêu tốn chỉ phí nhân công
và thời gian không hề nhỏ, đồng thời gây ảnh hưởng trực tiếp đến trải nghiệm
người sử dụng Theo tìm hiểu của chúng tôi, hiện nay vẫn chưa có, hoặc chưa
được công bố ứng dụng trích xuất nào tại Việt Nam có tính năng tự động trích
xuất trong thời gian thực để giải quyết hạn chế trên Do đó, mục tiêu của chúng
tôi trong khóa luận này là tìm hiểu và xây dựng một ứng dụng cho mục đích trích
xuất các đối tượng trong hóa đơn một cách tự động để giúp cho doanh nghiệp
có những thông tin từ những hóa đơn một cách nhanh chóng nhất, cũng như cải
thiện trải nghiệm của khách hàng khi sử dụng dịch vụ.
Để xây dựng một ứng dụng đã dé cập ở trên, chúng tôi xây dựng dựa trên sự
kết hợp 3 phương pháp 1a: Text Localization/Detection (phát hiện văn ban), TextRecognition (nhận diện van bản) va Key Information Extraction (trích xuất thông
tin đáng quan tâm) Ứng dụng hoạt động theo các bước: Đầu tiên dùng phương
pháp Text Localization/Detection (phát hiện văn bản) và Text Recognition (nhận
điện văn bản) để xác định và đọc ra văn bản trong hóa đơn, kết quả quả bước này
là đầu vào của bước cuối cùng - Key Information Extraction (trích xuất thông tin
đáng quan tâm) Kết quả cuối cùng là ta có được những thông tin mà ta cần quan
tâm được trích xuất từ hóa đơn đó
Trong khóa luận này, chúng tôi sử dụng phương pháp CRAFT [3] cho bài
toán Text Localization/Detection (phát hiện văn bản), và phương pháp có tên là
VietOCR dựa trên kiến trúc Transformer được thiết kế cho bài toán nhận diện văn
1
Trang 14bản tiếng Việt dùng để đọc ra thông tin văn bản trong hình ảnh hóa đơn TiếngViệt Sau đó chúng tôi sử dung PICK [47] cho phần trích xuất thông tin.
Trong khóa luận này, chúng tôi thu được 3 kết quả chính: thứ nhất đó là bộdit liệu hình ảnh hóa đơn Tiếng Việt UIT-ReceiptsInTheWild có thể sử dụng cho
cả 3 bài toán: Text Detection, Text Recognition và Key Information Extraction tại
Việt Nam, thứ hai là kết quả thử nghiệm, đánh giá việc kết hợp các phương pháp
để giải quyết bài toán trích xuất thông tin hóa đơn tự động trên dữ liệu hóa đơnViệt Nam và cuối cùng đó là chương trình minh hoa bài toán bài toán trích xuất
thông tin hóa đơn tự động tại Việt Nam.
Trang 15Chương 1
GIỚI THIỆU
Trong chương này, chúng tôi trình bày định nghĩa về bài toán trích xuất hóa đơn
tự động, các ứng dụng trong thực tế và các thách thức mà bài toán đang gặp phải
Chúng tôi trình bày các phương pháp mà chúng tôi tập trung tìm hiểu và tại sao chúng tôi chọn các phương pháp đó Chúng tôi đưa ra mục tiêu, nội dung cụ thể
và phương pháp thực hiện Cấu trúc của khóa luận tốt nghiệp cũng sẽ được dé
cập trong chương này.
11 Giới thiệu bài toán
Thời đại kinh tế xã hội phát triển, vì thế mà nhu cầu mua sắm và trao đổi hànghóa ngày càng diễn sôi nổi và tấp nập hơn Chính vì thế, nhiều ứng dụng phân
tích xu hướng nhu cầu của khách hàng để phục vụ cho doanh nghiệp ra đời Tuy
nhiên, để làm được điều đó cần phải có một lượng dữ liệu lớn được thu thập từkhách hàng Một số doanh nghiệp lớn vẫn phải đi thuê người để lấy thông tin
khách hàng về nhu cầu mua sắm của họ Một số doanh nghiệp khác nhận ra dữ
liệu mua sắm của khách hàng đến từ những hóa đơn từ những cửa hàng, siêu thị,
trung tâm mua sắm là một nguồn dit liệu déi dào, tuy nhiên không phải thông
tin trên hóa đơn nào cũng cần thiết cho doanh nghiệp Chính vì thế mà ta cầnphải trích xuất những thông tin đáng quan tâm trên hóa đơn cụ thể trong khóaluận này chúng tôi định nghĩa đó là thông tin về tên công ty (company), thời gian(date), tổng tiền (total), và địa chỉ công ty (address) Theo truyền thống thì việctrích xuất này được các công nhân thực hiện và nhập thủ công vào cơ sở dữ liệu,đây là một quá trình cực kỳ tốn kém cả về sức người lẫn thời gian Với sự phát
Trang 16Chương 1 GIỚI THIỆU
triển đột phá mạnh mẽ gần đây của công nghệ 4.0 - Trí tuệ nhân tạo, nhiều ứngdụng dựa trên các phương pháp học sâu liên quan đến nhận diện và phát hiệnchữ trong hình ảnh được nghiên cứu và phát triển Chính vì thế mà chúng tôimuốn áp dụng chúng vào bài toán trích xuất hóa đơn Tiếng Việt tự động của
chúng tôi.
© Đầu vào: Hình ảnh hóa đơn mua hàng tại Việt Nam
© Đầu ra: Những thông tin đáng quan tâm trong hóa đơn (company, address,
date, total)
Guitar Cafe Vel, 096 526 8459
28 Phan Chas Vinh, Hep Phú, đoạt 9 (02 E
Woke lạ 01/1 Company Guitar Cafe
Trang 17Chương 1 GIỚI THIỆU
12 Thách thức
e Về mặt kỹ thuật: Bài toán gồm ba phần chính là Text Localization/Detection
(phát hiện văn ban), Text Recognition (nhận diện văn bản) va Key
Informa-tion ExtracInforma-tion (trích xuất thông tin đáng quan tâm) Trong phan Text
Lo-calization/Detection (phát hiện văn bản), phải phát hiện được hoàn toàn và
chính xác văn bản trong hóa đơn, một số hóa đơn bị nhàu, ánh sáng khôngđều, hình ảnh bị mờ/kém chất lượng, chữ trong background lẫn với chữtrong hóa gây cản trở cho việc phát hiện văn bản Trong phần Text Recogni-tion (nhận điện văn bản), thách thức lớn là văn bản đa hướng/cong, nhiềubiến thể của phông chữ và nhiều ngôn ngữ khác nhau (tiếng Anh, tiếng
Việt, ).
Kết quả của 2 phần trước ảnh hưởng trực tiếp đến kết quả của phần sau
Trong phần Key Information Extraction (trích xuat thong tin dang quan
tâm) thì phải xác định đâu là nội dung cần được trích xuất từ những kếtquả của 2 bước trên Nếu kết quả hai bước đầu làm không tốt thì ảnh hướng
rât nhiêu đên phân sau.
e Về mặt dữ liệu: Thách thức lớn nhất của bài toán này khi áp dụng ở Việt
Nam đó chính là việc không có dt liệu hóa don Tiếng Việt có sẵn Các bộ
dữ liệu có sẵn như bộ SROIE trong cuộc thi là hóa đơn nước ngoài
không phù hợp với mục tiêu của khóa luận Chi phí rất tốn kém (tự thu
thập va gan nhãn) cho việc xây dụng bộ dw liệu này.
1.3 Dong góp khóa luận
Tóm lại trong khóa luận này chúng tôi đã thực hiện được các nội dung chính như
sau:
© Tìm hiểu tổng quan về bai toán trích xuất hóa đơn Tiếng Việt tự động và
một số kiến thức liên quan
Trang 18Chương 1 GIỚI THIỆU
1.4
Kết hợp cả 3 phương pháp Text Localization/Detection (phát hiện văn bản),
Text Recognition (nhận điện văn bản) và Key Information Extraction (trích
xuất thông tin đáng quan tâm) thành một bài toán cụ thể
Xây dựng một bộ dw liệu UTT-ReceiptsInTheWild khoảng 514 hóa đơn thu
thập từ các cửa hàng ở Việt Nam.
Xây dựng ứng dụng web minh họa cho bài toán Trích xuất hóa đơn tự động
Câu trúc khóa luận
Câu trúc Khóa luận tốt nghiệp được tổ chức như sau:
Chương 1: Giới thiệu - trình bày giới thiệu về bài toán cần giải quyết, minh
họa đầu vào, đầu ra, các thách thức, đóng góp và cấu trúc của khóa luận
Chương 2: Công trình liên quan và Kiến thức cơ bản - trình bày các công
trình liên quan và các phương pháp sử dụng trong các bài toán con (Phát
hiện văn bản, Nhận diện văn bản, Trích xuất thông tin) để nghiên cứu
Chương 3: Xây dựng bộ hóa đơn Tiếng Việt
Chương 4: Thực nghiệm - trình bày các bộ dữ liệu, độ đo sử dụng trong
khóa luận, thực nghiệm, đánh giá từng phương pháp trong các bài toán con
với một số phương pháp liên quan và thử nghiệm để cái thiện ứng dụng
khóa luận.
Chương 5: Ứng dụng minh họa - trình bày cài đặt ứng dụng, đánh giá, so
sánh với ứng dụng liên quan khác và một số kết quả của ứng dụng
Chương 6: Kết luận - trình bày tóm tắt khóa luận, những vấn dé đã giải
quyết, các hạn chế và hướng phát triển tiếp theo của khóa luận tốt nghiệp
Trang 19Chương 2
CÔNG TRÌNH LIÊN QUAN VÀ
KIÊN THỨC CƠ BẢN
2.1 Phát hiện văn bản
2.1.1 Tổng quan về phát hiện văn bản
Những phương pháp phát hiện văn bản trong hình ảnh có thể được phân loại
thành classical machine learning-based và deep learning-based
Text Detection Methods
Deep-Learning Classical Machine-
Trang 20Chương 2 CÔNG TRINH LIÊN QUAN VÀ KIÊN THUC CƠ BẢN
2.1.1.1 Phuong pháp dựa trên máy học cổ điển (Classical Machine
Learning-based)
Phần này tóm tắt các phương pháp truyền thống được sử dụng cho phát hiện
văn bản trong hình ảnh, có thể được phân loại thành hai phương pháp tiếp cận
chính, cụ thể là cửa sổ trượt (sliđing-window) và các phương pháp tiếp cận dựa
trên thành phần kết nối (connected-component)
* Cửa số trượt: Sử dụng một cửa số trượt với kích thước xác định, sau đó
những đặc trưng của tam ảnh sẽ được trích xuất (như là sự khác biệt trung
bình và độ lệch chuẩn [9], biểu đồ định hướng (HOG) [6] và những vùng
cạnh [19}) từ những cửa sổ trượt (sliding-window) và sau đó sẽ được phân
loại vào những lớp với nhiều bộ phân lớp khác nhau (ví dụ: cây quyết định
(decision trees) [19], log-likelihood El, kiểm tra tỷ lệ khả năng (likelihood
ratio test) (91) để phát hiện văn ban trong mỗi cửa sổ trượt Tuy nhiên, những
phương pháp này chỉ có thể áp dụng để phát hiện văn bản nằm ngang và
có hiệu suất phát hiện thấp trên hình ảnh mà có nhiều hướng của văn bản
¢ Thanh phần kết nối: nhằm mục đích trích xuất các vùng hình ảnh có các
thuộc tính tương tự (màu sắc (44), kết cầu [46], ranh gidi [20], các điểm góc 48|) để tạo thành các thành phần ứng viên có thể được phân loại thành
văn bản hoặc không phải văn bản sử dụng các thuật toán phân loại truyền
thống: support vector machine (SVM) 0], Random Eorest [27], va
nearest-neighbor [31] Các phương pháp này phát hiện những ky tự của một bức
ảnh và kết hợp các ký tự được trích xuất thành một từ hoặc dòng chữ
IHỆ Không giống như cửa sổ trượt, các phương pháp dựa trên các thành
phần được kết nối hiệu quả và nhanh hơn và luôn cho một tỉ lệ lỗi thấp hơn,điều này rất quan trọng trong việc phát hiện văn bản trong hình ảnh
Tuy nhiên các phương pháp cổ điển được dé cập trên nhằm mục đích phát hiện
những ky tự độc lập do đó dé dàng gây ra việc loại bỏ các vùng ký tự không rõ
ràng hoặc tạo ra một số lượng lớn phát hiện sai lầm làm giảm hiệu suất phát hiện
của chúng.
1 Ảnh lay từ
Trang 21Chương 2 CÔNG TRÌNH LIEN QUAN VÀ KIÊN THUC CƠ BẢN
2.1.1.2 Phương pháp dựa trên học sâu (Deep Learning-based)
Sự xuất hiện và phát triển nhanh chóng của học sâu|17] đã thay đổi cách các nhà
nghiên cứu tiếp cận bài toán phát hiện văn bản và đã mở rộng phạm vi nghiên
cứu trong lĩnh vực này cho đến nay Kể từ khi các kỹ thuật dựa trên học sâu có
nhiều lợi thế hơn so với những kỹ thuật dựa trên máy học cổ điển (chẳng hạn
như nhanh hơn và đơn giản hơn) Trong phần này, chúng tôi trình bày đánh giá
về những ưu điểm và sự tiến bộ gần đây trong các phương pháp phát hiện văn
bản dựa trên học sâu được tóm tắt trong|2.5|
IF Neural Network Detection Challenges có ie Model Training Datasets
a — BB SB Hy Architecture Backbone Target Quad Curved Foe Colle Name First-Staze Fine-Tune
Jaderberger af[33] 2014 — CNN Ww DR DSOL MJSynth Huang eral [30] 2014 — — CNN - Ww - - D - RSTD - TCI1 or ICIS Tian et al [34] 2016 “ - Faster R-CNN VGG-16 TW ~ - D ư CTPN PD ICI3
-Zhang efal.(39] 2016 - wv FCN VOG-16 Ww vĩ D MOTD - 1C13, IC15 or M500
Yao et al [40] 216 - ¥ FCN VGG-16 Ww Zw D ¥ STDH - 1C13, IC15 or M500
Shi et al [59] MT — 55D VGG-l6 cw ¥ - Dv SegLink ST 1013, IC15 or M500
He er anf [103] 2017 - ¥ 55D VGOG-16 Ww vể - D SSTD - 1C13 or ICIS
Hu et al [105] 20T - v FCN VGG-16 C “ - D - Wordsup ST IC15 or COCO
Zhou et al [35] MIT — FCN VOG-16 WT w - Dw EAST - IC15*, COCO or M500
He et al [106] WT — DenseBox - WT v D - DDR - IC13, IC15 & PD
Ma et al [38] 2018 w# — Faster R-CNN VGG-l6 Ww vĩ - D ¥ RRPN M500 TC13 or ICIS Jiang etal [107] 21S — Faster R-CNN VGG-l6 WwW v - Dw R2CNN ICl5&PD - Long et al [42] 218 - ¥ U-Net VGŒ-l6 Ww ¥ LẢ D / TextSnake ST TC15, M500, TOT or CTW
Liao er al [37] 2018 4 - ssn VGG-16 Ww w — DR TextBoxcs++ ST ICI5
He et al [50] 218 - FCN PVA cw v - DR w E2ET 5T IC13 or ICIS
Lyu er af [48] 2018 - ¥ Mask-RCNN ResNet-50 Ww w - DR # MTSpotter ST IC13 1C15 or TOT
Liao etal [108] 2018 ¥ — 53D VGG-16 Ww Pa D ¥ RED 5T 1013, IC15, COCO or M500
Lyu et al [10%] 218 - ¥ FCN VOG-16 Ww v - D ¥ MOSTD 5T TC13 or ICIS
Deng et al.*[43] 2018 4 — FCN VGG-16 Ww w - D # Pixellink* ICI5 1C13, IC15* or M500
Liu et al.[49] 2018 w#'ˆ — CNN ResNet-50) Ww v - DR # POTS 5T IC13 IC15 of IC17
Back et al.*[46] 2019 — ¥ U-Net VGG-16 CWT “ D # CRAFT* ST IC13, IC15* or ICT
Wang et af.*[110] 2019 - ¥ FPEM+FFM ResNet-lä Ww “ we D ¥ PAN* 5T IC15*, M500, TOT or CTW Liu et al.*[47] 2019 - -— & Mask-RCNN ResNet-50 WwW w“ “ D # PMTD* ICI7 1C13 of IC15*
Xu et al [111] 20198 - ¥ FCN VGG-16 Ww w v D w Trxtirld ST IC15, M500, TOT or CTW Livetal.*[112] 2019 - ¥ Mask-RCNN ResNet-101 Ww w “ D MB* ST IC15*, ICL7 or M500
Wang eral.*[{113] 2019 - v FPN ResNet Ww w“ w D w# PSENet* ICIT ICH3 of IC15*
HÌNH 2.2: Tóm tắt sự so sánh giữa một số kỹ thuật hiện đại nhất
trong lĩnh vực này 2
Các phương pháp phát hiện van bản dựa trên học sâu gần đây lay cảm hứng
từ các pipelines phát hiện vật thể (object detection)|12j [14] có thể được phân loại
thành các phương pháp tiếp cận dựa trên hồi quy hộp giới hạn (bounding-box
regression based), dựa trên phân đoạn (segmentation-based) và cách tiếp cận lai
(hybrid approaches) được minh họa trongl2.1|
2 Ảnh lay từ
Trang 22Chương 2 CÔNG TRINH LIÊN QUAN VÀ KIÊN THUC CƠ BẢN
® Bounding-box regression based methods: coi văn bản như một đối tượng
với mục đích dự đoán trực tiếp các bounding-box sử dụng một số thuật
toán như Yolo[35], Faster-RCN N56], SSD(21] Tuy nhiên các phương pháp
này được lay cảm hứng từ phát hiện đối tượng, có thể không xử lý được vănbản nhiều hướng bởi vì không giống như phát hiện đối tượng, phát hiện văn
bản hoặc các vùng văn bản nhiều hướng yêu cầu các bounding-box có tỷ lệ
cỡ ảnh lớn Mặc dù các phương pháp dựa trên Bounding-box regression có
kiến trúc đơn giản, chúng yêu cầu thiết kế trước các anchor phức tạp khó
điều chỉnh trong quá trình đào tạo, không thể khái quát hóa được hình ảnh
văn bản trong thế giới thực và có thể không xử lý được khi phát hiện vănbản cong và nhiều hướng
* Segmentation-based methods: coi phát hiện văn bản như một van dé của
phân đoạn ngữ nghĩa với mục đích là phân loại văn bản trong hình ảnh
có cùng các mức độ pixel Các phương pháp này, trước tiên trích xuất cáckhối văn bản từ bản đồ phân đoạn do FCN tạo ra và sau đó có được
các bounding-box của văn bản bằng các bước xử lý sau đó Với một số công
trình gần đây đã coi việc phát hiện văn bản như là một vấn dé của phânđoạn cá thể (instance segmentation) và một trong số đó áp dụng Mask R-CNN để cải thiện hiệu suất của phát hiện văn bản cho văn bản có nhiềuhình dạng bắt kỳ
¢ Hybrid methods: dựa trên phương pháp phân đoạn để dự đoán score maps
của văn bản và đồng thời nhắm đến việc thu được các bounding-box thông
qua sự hồi quy
10
Trang 23Chương 2 CÔNG TRÌNH LIÊN QUAN VÀ KIEN THUC CƠ BẢN
2.1.2 Phương pháp Character Region Awareness for Text
Detec-tion (CRAFT)
2.1.2.1 Kiến trúc
Mô hình phát hiện văn ban CRAFT được công bố trong hội nghị CVPR2019 vớihiệu suất cực kỳ ấn tượng khi đạt SoTA trên cả 6 bộ dữ liệu IC13, IC15, IC17, Total-
Text, CTW1500, TD500, trong đó 3 bộ dữ liệu TotalText, CTW1500,
MSRA-TD500 hoàn toàn không can trải qua quá trình fine-tuning, hứa hẹn sẽ mang lại
tính tổng quát hóa cao phù hợp cho dữ liệu UIT-RIW (UIT-ReceiptsInTheWild).
CRAFT bao gồm một kiến trúc fully convolutional network dựa trên VGG-16
với batch normalization được sử dụng như mạng trích xuất đặc trưng Mô hìnhCRAFT bỏ qua phần kết nối ở Decoder tương tự như U-net trong đó nó tổnghợp các tính năng cấp thấp Đầu ra cudi cùng có 2 nhánh score maps: region score(vùng có khả năng là ký tự) va affinity score (vùng chỉ ra liên kết giữa các ký tự)
được minh họa trong hình
11
Trang 24Chương 2 CÔNG TRINH LIÊN QUAN VÀ KIÊN THUC CƠ BẢN
Image Region score
® Tạo nhãn Ground Truth
Với mỗi hình ảnh được huấn luyện, chúng ta tạo ra một nhãn Ground Truth
cho region score va affinity score với characterlevel bounding boxes Sau đó
region score thể hiện xác suất một pixel đã cho nằm giữa một ký tự, va affinityscore xác suất trung tâm của khoảng cách giữa các ký tự liền kể Chúng ta
3 Ảnh lay từ
12
Trang 25Chương 2 CÔNG TRINH LIÊN QUAN VÀ KIÊN THUC CƠ BẢN
sử dụng sự biểu diễn của heatmap để học cả hai region score và affinity score
được minh họa ở hình bên dưới.
| Affinity Box Generation | Character Boxes Each Region Score GT
Character | Score Generation Module
| CO Affinity box peace”
| + Center of a character box |
tinh và tạo ra ground truth cho cả region score va affinity score
- Chuẩn bi một bản dé Gaussian dang hướng 2 chiều
— Tính toán chuyển đổi phối cảnh giữa vùng bản đồ Gaussian và từng 6
ký tự
— Di chuyển bản đồ Gaussian đến khu vực bounding-box
se Học tập có giám sát yếu
Không giống như tập dữ liệu được tổng hợp, hình anh trong tập dữ liệu
thường được chú thích ở word-level Ở đây, chúng ta tạo các hộp ký tự từ
mỗi chú thích word-level theo cách thức giám sát yêu được minh học trong
hình bên dưới.
* Ảnh lấy từ
13
Trang 26Chương 2 CÔNG TRÌNH LIEN QUAN VÀ KIÊN THUC CƠ BẢN
=—> Train with Real Image
From: ==> Train with Synthetic Image
Synthetic Image Synthetic GT
HINH 2.5: Minh họa tổng hợp về quy trình dao tao của phương
pháp °
Khi một hình ảnh thực được cung cấp với cách gán nhãn ở word-level, mô
hình sẽ dự đoán ra các điểm vùng ký tự của hình ảnh từ những hình ảnh
đã được cắt để ra các bounding-box character-level
Word-level annotation Character-level annotation
Trang 27Chương 2 CÔNG TRINH LIÊN QUAN VÀ KIÊN THUC CƠ BẢN
Đầu tiên, các hình ảnh word-level của cắt từ những hình ảnh gốc Thứ hai, các
mô hình đã được huấn luyện được sử dụng để dự đoán các region score Thứ ba,
thuật toán watershed được sử dụng cắt các vùng ký tự Cuối cùng, các tọa
độ của các hộp ký tự được chuyển đổi trở lại thành tọa độ hình ảnh gốc sử dụng
phép biến đổi nghịch đảo từ bước cắt xén
Ví dụ cho một chú thích word-level w của tập huấn luyện, gọi R(w) và I(0)
tương ứng với vùng chứa boundind-box và độ dài của từ w Thông qua quá trình
tách ký tự, chúng ta có thể có được các boundind-box ước tính ký tự và độ dài
ky tự tương ứng của chúng /°(w) Sau đó độ đo confident s¿ạ„(zø) của từ w được
Với S*(p) và S*(p) biểu thị tương ứng với pseudo-ground truth region score
và affinity map, , và S;(p) và Sq(p) biểu thị dự đoán tương ứng của region score và
affinity score Khi huấn luyện với dữ liệu,chúng ta có thể có được ground truth,vi
thé S.(p) được gan là 1
2.1.2.3 Kếtluận
Đầu ra cuối cùng có thể được biểu diễn ở nhiều hình đáng khác nhau ví dụ như
hộp các từ hoặc hộp các ký tự, hoặc ở dạng các đa giác khác nhau.
6 Anh lay từ
15
Trang 28Chương 2 CÔNG TRINH LIÊN QUAN VÀ KIÊN THUC CƠ BẢN
: Character region
4 » : Local maxima along scanning direction
: Center line of local maxima
<«——> : Line of control points (tilted from local maxima)
e _: Control points of text polygon
: Polygon text instance
HINH 2.7: Cách tao ra da giác cho van ban có hình dang tùy ý 7
Ngoài ra, phương pháp này có thé tạo một da giác xung quanh toàn bộ vùng
ký tự để xử lý các văn bản cong một cách hiệu quả Quy trình tạo đa giác được
minh họa trong HINHB.3|
Bước dau tiên là tim dòng ký tự cực đại cục bộ các vùng doc theo hướng quét
có mũi tên màu xanh dương Độ dài của các đường cực đại cục bộ đều được đặt
bằng chiều dài tối đa giữa chúng để ngăn kết quả đa giác cuối cùng trở nên khôngđồng đều Các đường nối tất cả các điểm chính giữa của cực đại địa phương làđược gọi là đường trung tâm, được hiển thị bằng màu vàng Sau đó, các đường
7 Ảnh lấy từ
16
Trang 29Chương 2 CÔNG TRINH LIÊN QUAN VÀ KIÊN THUC CƠ BẢN
cực đại cục bộ được quay để vuông góc với đường trung tâm để phản ánh góc
nghiêng của các ký tự, được thể hiện bằng màu đỏ mũi tên Các điểm cuối của
các dòng cực đại cục bộ là ứng cử viên cho các điểm kiểm soát của đa giác vănbản Dé day đủ che vùng văn bản, chúng tôi di chuyển hai đường cực đại cục bộnghiêng bên ngoài nhất ra ngoài đọc theo tâm cực đại cục bộ dòng, làm cho các
điểm kiểm soát cuối cùng (cham màu xanh lá cây)
2.2 Nhận diện van bản
2.2.1 Tổng quan về Nhận diện văn ban
Mục tiêu của nhận diện văn bản là nhằm chuyển đổi vùng văn bản đã được phát
hiện thành những ký tự hoặc những từ bao gồm 10 chữ số, 26 chữ thường, 26 chữ
hoa, 32 dau câu ASCII và ký hiệu kết thúc câu (EOS) Vì các thuộc tính của các
hình anh văn bản được chụp trong điều kiện thực tế là so với dang văn bản/hóađơn được scan, điều đó rất khó để phát triển phương pháp nhận dạng văn bảndựa trên những thuật toán OCR hoặc phương pháp nhận diện chữ viết tay sửdụng cho đữ liệu văn bản truyền thống Như đã dé cập trước đó, hình ảnh đượcchụp trong tự nhiên thường có độ phân giải thấp, chói sáng, điều kiện môi trườngkhông tốt, lẫn nhiều hình ảnh nền phía sau, tỷ lệ không đồng đều, phân bố tùy ý
của văn bản trong ảnh và có nhiều phông chữ khác nhau, nhiều góc xoay, ngôn
ngữ và từ vựng Các nhà nghiên cứu đã đề xuất các kỹ thuật khác nhau để giảiquyết những thách thức này, được chia thành hai loại là phương pháp dựa trên
máy học và phương pháp dựa trên học sâu.
17
Trang 30Chương 2 CÔNG TRINH LIÊN QUAN VÀ KIÊN THUC CƠ BẢN
Method Model Year Feature Extraction Sequence modeling Prediction Training Dataset? Irregular recognition Task # classes Code
Wang et al [80] E2ER 2012 CNN SVM PD C 62 Bissacco ef aÍ.[22| PhotoOCR 2013 HÖG.NN - - PD - L8) 99 - Jaderberg eral [6O] SYNTR 2014 CNN „ _ MI _ Cc 36 v
-Jaderberg eral [60 SYNTR 2014 CNN x - MJ — Ww 90k v
He et al [150] DTRN 2015 DCNN LSTM cre MJ Seq 37 Shi et al.* [53] RARE 2016 STN+VGGI6 BLSTM Attn MI “ Seq 37 vw
Lee et al [61 R2AM 2016 Recursive CNN LTSM Attn MJ _ _ 37
-Liu et al.* [54] STARNet 2016 STN+RSB BLSTM crc MJ+PD vw Seq 37 v
Shi et al.* [52] CRNN 2017 VGG16 BLSTM cre MI _ Seq 37 “ Wang et al [62] GRCNN 2017 GRCNN BLSTM CTC MI _ Seq 62 -
Yang et al [63] L2RI 2017 VGGI6 RNN Attn PD+CL vw Seq
Cheng et al [64] FAN 2017 ResNet BLSTM Attn MI+ST+CL Seq 37
Liu et al (65 CharNet 2018 CNN LTSM Att MJ vw Bs 37
-Cheng et ai [66] AON 2018 AON+VGGI6 BLSTM Attn MI+ST v Seq 37 x
Bai et al [67 EP 2018 ResNet Attn MI+ST = Seq 37
Liao et al [151] CAFCN 2018 VGG ST vw es 37 Borisyuk ef ø_* [55] ROS 2018 ResNet = CTC PD _ Seq — =
-Shi et al.* [16] AS] 2018 STN+ResNet BLSTM Attn MI+ST vw Seq 4 v
Liu et al [68 là 2018 VGG16 BLSTM cre MI wv Seq 37
-Back et al.* [56] CLOVA 2018 STN+ResNet BLSTM Attn MI+ST “ Seq 36 vw
Xie er al [69] ACE 2019 ResNet - ACE ST+MI vw Seq 37 L4
Zhan et al [TU] ESIR 2019 IRN+ResNet, WGG BLSTM Attn ST+MI “ Seq 68 Wang et al [71] SSCAN 2019 ResNet, VGG _ Attn ST v Seq 4 -
-Wang ef al [152] 2DCTC 2019 PSPNet - 2D-CTC ST‡+MI “ Seq 36 x
HÌNH 2.8: Tóm tắt sự so sánh giữa một số kỹ thuật gần đây nhất
trong lĩnh vựcŠ
2.2.1.1 Phương pháp dựa trên máy học
Khoảng hai thé ki vừa qua, các phương pháp nhận dạng van bản đã sử dụng các
tính tiêu chuẩn hình ảnh như là HOG [6] và SIFT [26] với một bộ phân lớp như
SVM hoặc k-nearest neighbors [1] sau đó một mô hình ngôn ngữ thống kê
hoặc dự đoán cấu trúc trực quan được áp dụng để loại bỏ các ký tự được phân
loại sai Hầu hết các phương pháp này đều tuân theo hướng tiếp cận bottom-up
mà các ký tự đã được phân loại được liên kết với nhau thành một từ Ví dụ, trong
[43], đặc trưng HOG dau tiên sẽ trích xuất từ cửa sổ trượt sau đó một bộ phân
lớp đã được huấn luyên trước đó (SVM) được áp dụng để phân loại các ký tự củahình ảnh từ đầu vào Một số khác theo hướng tiếp cận top-down mà các từ được
nhận dạng trực tiếp từ những thực thể đầu vào hình ảnh thay vì nhận dạng các
ký tự riêng lẻ.
8 Ảnh lấy từ
18
Trang 31Chương 2 CÔNG TRINH LIÊN QUAN VÀ KIÊN THUC CƠ BẢN
2.2.1.2 Phương pháp dựa trên học sâu
Với những tiến bộ gần đây của kiến trúc mạng nơron, nhiều nhà nghiên cứu đã
dé xuất phương pháp dựa trên học sâu giải quyết các thách thức về nhận dang
văn bản trong tự nhiên được minh họa trong Hình|2.9| Ví dụ đã đề xuất dựa
trên trích xuất tính năng của CNN để nhận diện ký tự, sau đó áp dụng kỹ thuật
của NMS để có được những từ dự đoán cuối cùng
2.2.2 Nhận Dạng Tiếng Việt Sử Dung Mô Hình Transformer va
AttentionOCR
Trong khóa luận này, trong phần nhận dạng Tiếng Việt chúng tôi sử dụng một
mô hình có tên là VietOCR ? ứng dụng kiến trúc của mạng Transformer đã đạtđược nhiều tiến bộ vượt bậc cho cộng đồng NLP cho bài toán nhận dạng hình
ảnh văn bản.
2.2.2.1 Tìm hiểu mô hình Transformer
Transformer giải quyết được nhược điểm của mô hình tuần tự truyền thống nhờchủ yếu vào hai cau trúc là Multi-head attention và Positional encoding
"https: //pbcquoc github.1o/vietocr/
19
Trang 32Chương 2 CÔNG TRÌNH LIEN QUAN VÀ KIÊN THUC CƠ BẢN
Trang 33Chương 2 CÔNG TRINH LIÊN QUAN VÀ KIÊN THUC CƠ BẢN
Kiến trúc transformer cũng giống với các mô hình sequence-to-sequence baogồm hai phan là encoder (trái) và decoder (phải)
e Encoder
Gồm N block, mỗi block bao gồm hai sub-layer: Multi-Head Attention va
Feed forward network Tác giả dùng một residual connection ở mỗi
sub-layer nay Theo sau mỗi sub-sub-layer đó là một lớp Layer Norm có ý nghĩa
tương tự như lớp Batch Norm trong CNN Residual connection cũng góp
phần giúp mô hình có thể sâu hơn, deep hơn nhờ giảm tác động của
van-ishing gradient.
® Decoder
Phan Decoder cũng tương tự như Encoder gồm N block, mỗi block gồm
2 sub-layer Tuy nhiên, nó có một lớp Masked Multi-Head Attention Lớp
này chính là lớp Multi-Head Attention Nó có chức năng chú ý đến toàn bộ
những decoder hidden state trước Lý do mà nó lại được đặt tên như vậy là
khi huấn luyện Transformer, ta đưa toàn bộ câu vào cùng một lúc nên nếu
ta đưa toàn bộ target sentence cho decoder trước thì mô hình sẽ chang học
được gì cả Do đó phải che (mask) bớt một phan token ở decoder hidden
state sau trong quá trình decode được minh họa trong hình dưới.
Next Token (Correct Answer)
sms
Source sentence info a > Source sentence info a à
The model can “cheat”
nnnnnn “= nnnnnn SSB
Previous tokens Target sentence
nooo š8 [3E EIIEI E
ĐÚNG sal
HINH 2.10
21
Trang 34Chương 2 CÔNG TRINH LIÊN QUAN VÀ KIÊN THUC CƠ BẢN
2.2.2.2 Multi-Head Attention
Input sentences sẽ được nhân tuyến tinh với ba ma trận dé sinh ra ba giá tri keys,
values, queries Keys va Queries gan giống nhau Values chính là giá trị của keys
Ví du, keys là mã một từ, queries là truy van dé tim mã từ đó (keys) va values
chính là nghĩa của từ Dựa trên ba giá trị này, ta tính attention score Attention
score thể hiện mức liên quan giữa các values với nhau hay các nghĩa của từ với
nhau Nếu Trong mô hình, các giá trị được kí hiệu lần lượt là: {Values: V, Keys: K,
Query: Q}
HINH 2.11
Có một khó khan trong các mô hình truyền thống đó là rất khó khái quát
được input sentences theo nhiều góc độ khác nhau vì chỉ có duy nhất một cơ chế
1lẢnh lấy từ
https://viblo.asia/p/nhan-dang-tieng-viet-cung-voi-transformer-ocr-Qpmlej jmord
Ảnh lẫy từ
22
Trang 35Chương 2 CÔNG TRINH LIÊN QUAN VÀ KIÊN THUC CƠ BẢN
attention Ví dụ xử lý một câu "The animal didn’t cross the street because it was
too tired" Nếu ta chỉ có duy nhất một attention weights, attention có khả năng chi
chú ý đến "animal" hay "street" Tuy nhiên , "it" trong câu là để chi "animal" hay
"street" Do đó để nắm bắt đa chú ý, Transformer thay vì sử dụng self-attetion (1
head) đã sử dụng nhiều linear attention cùng một lúc (multi-head) để học được
nhiều attention weight khác nhau giúp chú ý đến nhiều chỗ khác nhau trong
cùng một câu Các giá trị V, K, Q cùng một lúc được biến đổi tuyến tính sau đó
ta dùng một cơ chế attention có tên là Scaled Dot-Product Attention để tổng hợp
attention weight của cả V, Q, K Công thức tính của Scaled Dot-Product Attention như sau:
QK
Vax
Ý tưởng dang sau công thức nay đơn giản chỉ là nhân query với key Kết qua
Attention(Q,K,V) = softmax( )V (2.4)
sẽ cho ra độ liên quan giữa các từ với nhau Tuy nhiên kết quả này sẽ tăng phi
mã theo kích thước (dimension) của query và key Do đó cần phải chia cho cănbậc hai kích thước của keys để ngăn chặn hiện tượng số quá lớn Hàm softmax
để tính phân bố xác suất liên quan giữa các từ Cuéi cùng ta nhân thêm value để
loại bỏ những từ không cần thiết trong câu (có xác suất qua hàm softmax nhỏ)
Sau khi tính từng attention weight bang cơ chế Scaled Dot-Product Attention,
chúng ta kết hợp chúng lại với nhau thành một ma trận rồi nhân tuyến tính vớimột ma trận đưa ra output cuối cùng
2.2.2.3 Positional Encoding (Mã hóa vị trí )
Vị trí và thứ tự của các từ trong một câu là điều cần thiết đối với mọi mô hình
ngôn ngữ kể cả trong NLP hay CV Các mô hình như RNN hay LSTM sử dụng
tính tuần tự để học được vị trí của các câu trong văn bản Nhưng như mình đã
vừa dé cập ở trên, để khắc phục thời gian huấn luyện quá lâu do tính tuần tự gây
ra, Transfomer đã hoàn toàn loại bỏ điều này Vậy làm thế nào để mô hình có thểhọc được thông tin về vị trí ? Đó chính là mã hóa thêm thông tin biểu diễn vị trí
vào từng từ câu Và người ta gọi đó là Positional Encoding.
Một positional encoding tốt được đánh giá dựa trên những tiêu chí sau:
23
Trang 36Chương 2 CÔNG TRINH LIÊN QUAN VÀ KIÊN THUC CƠ BẢN
® Mỗi time-step phải có một mã hóa (encoding) duy nhất: Nếu hai time-step
khác nhau mà có cùng một mã hóa sẽ gây ra nhằm lẫn vị trí giữa các từ với
nhau.
¢ Khoảng cách giữa hai vi trí được embedding của hai time-step giữa hai câu
có độ dài khác nhau phải bằng nhau
* Có khả năng biểu diễn được vị trí cho những câu dai hơn khi huấn luyện
Cách mà transformer mã hóa vị trí đáp ứng được hết tất cả những điều mà tamong đợi của một positional encoding Công thức mà trong paper, tác giả đã dé
xuất như sau:
PE (pos,2i) = sin(pos/10000/2)
PE (pos,2i-+1) = cos(pos /10000~” )
Với pos là vị tri thứ ¡ trong dimension.
2.3 Trích xuất thong tin
2.3.1 Tổng quan về trích xuất thông tin
Trích xuất thông tin là một nhiệm vụ trích xuất tự động thông tin có cầu trúc từ
các tài liệu không có cấu trúc hoặc bán câu trúc mà máy có thể đọc được Có thể
được chia thành hai bước chính :
¢ Bước 1: Nhận diện ký tự quang hoc (Optical Character Recognition (OCR)):
OCR xử lý việc trích xuất các ký tự hoặc các từ của một bức ảnh Dau ra cầnphải cực kỳ chỉ tiết và chính xác để đễ dàng cho việc trích xuất được tốt hơn
24
Trang 37Chương 2 CÔNG TRINH LIÊN QUAN VÀ KIÊN THUC CƠ BẢN
OCR
DUNDER INVOICE
MIHUR
n DUNDER INVOICE MIFFLIN
INV-2167 1725 Dunder Mifflin, Inc
HỆ mem, ———kè Date ul 23 2018 Scranton,
: Pennsylvania Payment terms
ee ee eee NET-14 Client * Due Date
HÌNH 2.12: Minh họa OCR'®
¢ Bước 2 Trích xuất thông tin: Từ những từ được trích xuất được ở Bước 1,
dùng các thuật toán để lay ra những thông tin quan trong cần trích xuất
Những phương pháp tiếp cận truyền thống:
¢ Dựa vào khuôn mẫu (Template-based): Cách tiếp cận này bắt đầu bang cách
trích xuất thông tin bồ cục Sau đó so sánh nó với một bố cục hóa đơn đã
biết hay áp dụng một số quy tắc để kết luận kiểu thông tin nào chứa trên
mỗi vị trí bức ảnh Ví dụ [8] sử dụng tính năng hình ảnh trực quan để xử
lý việc trích xuất, nó chỉ tập trung vào các đặc trưng của hình ảnh và khôngquan tâm đến đặc trưng của văn bản
¢ Dựa vào xử ngôn ngữ tự nhiên (NLP-based): Cách tiếp cận này bắt đầu
bằng cách chuyển đổi văn bản thành một khối văn bản sử dụng OCR và sau
đó sử dụng một số kỹ thuật NLP được gọi là nhận dạng đối được gán tên
(Named-entity recognition) với mục tiêu gán các thẻ cho từng thành
phần của văn bản và sau đó trích xuất ra những thông tin quan trọng
13Ảnh lây từ https : //nanonets
com/b1og/information-extraction-graph-convolutional-networks/
25
Trang 38Chương 2 CÔNG TRINH LIÊN QUAN VÀ KIÊN THUC CƠ BẢN
“person! apparently wasn’t aware that his company SpaceX had a page The SpaceX and
CEO has responded to a comment on calling for him to take down the SpaceX, Tesla and
oro! official pages in support of the #deletefacebook movement by (first oroma acknowledging he didn’t know
one existed, and then following up with promises that he would indeed take them down.
He’s done just that, as the SpaceX Facebook page is now gone, after having been live earlier (as you can
see from the screenshot included taken at “around 1210 PMET) me.
HINH 2.13: Minh hoa nhận dang đối tượng được gan tên
(Named-entity recognition) +
¢ Dựa vào mạng chuyển đổi đồ thi (Graph convolutional network): Các nghiên
cứu gần đây sử dụng cả đặc trưng hình ảnh và đặc trưng văn bản cho việctrích xuất thông tin dựa vào dé thị thông qua graph convolutional networks
(GCN) — GCN kết hợp cả hai phương pháp trên (Template-based va
NLP-based).
- Kiến trúc của GCN tổng thể giống như CNN (ví du CNN hoạt động
trên hình ảnh có thể được xem như một trường hợp đặc biệt của GCN
chỉ hoạt động trên dé thị có câu trúc kết nói thông thường
— GCN là một giải pháp mạnh mẽ cho van đề trích xuất thông tin từ tài
liệu trực quan (visually rich document) như hóa đơn hoặc biên lai.
2.3.2 Trích xuất thông tin sử dụng mạng chuyển đổi đồ thị (Graph
convolutional network)
Để sử dụng GCN cho trích xuất thông tin hóa đơn, chúng ta cần chuyển mỗi hìnhảnh thành một đồ thị Cách phổ biến nhất là biểu diễn mỗi phân đoạn văn bảntrên hình ảnh thành bằng một nút (node), phần thông tin sẽ được mã hóa dưới
dang vector đặc trưng của mỗi node.
MAnh lay từ https:
//nanonets.com/blog/named-entity-recognition-ner-information-26
Trang 39Chương 2 CÔNG TRÌNH LIEN QUAN VÀ KIÊN THUC CƠ BẢN
2.3.2.1 Đặc trưng nút (node features)
Các tính năng của một node bao gồm biểu diễn của một từ (word-embedding)
và một biểu diễn khác cho ngữ cảnh (các cạnh biểu diễn khoảng cách từ node
hiện tai tới các nút lân cận) Hầu hết các mô hình khác nhau về cách chúng xây
dựng biểu dién ngữ cảnh, một số mô hình mã hóa khoảng cách đến từng từ trong
hình ảnh, các mô hình khác chỉ mã hóa khoảng cách đến bốn từ gần nhất theo
mỗi hướng (trên, dưới, trái, phải)
2.3.2.2 Xây dựng đồ thị (Feature Engineering)
Có nhiều kỹ thuật để xây dựng một đồ thị, hầu hết chúng biến đổi từng vùng
văn bản thành một nút và có thể khác nhau về cách xây dựng các cạnh Một trong
những kỹ thuật như vậy tạo ra tối đa bốn cạnh cho mỗi node, các cạnh kết
nối mỗi vùng văn bản với bốn vùng văn bản lân cận gần nhất của nó theo mỗihướng (Lên, Xuống, Trái và Phải)
HÌNH 2.14: [Minh hoa sự kết nối của các node trong hóa don!
27
Trang 40Chương 2 CÔNG TRÌNH LIEN QUAN VÀ KIÊN THUC CƠ BẢN
2.3.2.3 Phân loại node
GCN học cách nhúng vectơ đặc trưng của nút (kết hợp giữa word embedding và
kết nối câu trúc với các nút khác) bang cách tạo vector gồm các số thực biểu thị
node đầu vào dưới dạng một điểm trong không gian N chiều và các nút tương
tự sẽ được ánh xạ tớ các điểm lân cận gần trong không gian nhúng (embedding
space) [24], cho phép huấn luyện một mô hình có thé phân loại các node.
"“-
c.
Ẫ encode nodes
original network embedding space
HINH 2.15: Minh họa không gian nhting!®
2.3.3 Processing Key Information Extraction from Documents
us-ing Improved Graph Learnus-ing-Convolutional Networks (PICK)
47]
2.3.3.1 Giới thiệu
Các phương pháp sử dụng Graph convolutional network liên quan gần đây nhất
tới phương pháp của chúng tôi sử dụng là sử dung module dé thị để
lây được các tính năng non-local và multimodal cho việc trích xuất Đầu tién, [33]
15 Anh lay từ https:
//nanonets.com/blog/information-extraction-graph-convolutional-networks/
°"Anh lây từ https:
//nanonets.com/blog/information-extraction-graph-convolutional-networks/
28