Khóa luận tốt nghiệp Khoa học máy tính: Trích xuất thông tin hóa đơn sử dụng End-To-End Scene Text Spotting và Graph Convolutional Network-Based Key Information Extraction

Để xây dựng một ứng dụng đã dé cập ở trên, chúng tôi xây dựng dựa trên sự kết hợp 3 phương pháp 1a: Text Localization/Detection phát hiện văn ban, TextRecognition nhận diện van bản va Ke

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

KHOA KHOA HỌC MAY TÍNH

NGUYEN TRUNG BAO ANH

vU LE HOANG PHUC

KHOA LUAN TOT NGHIEP

CU NHAN NGANH KHOA HOC MAY TINH

TP HO CHI MINH, 2020

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HỌC MAY TÍNH

NGUYEN TRUNG BAO ANH - 17520245

VŨ LE HOANG PHÚC - 17520913

KHOA LUAN TOT NGHIEP

CU NHÂN NGANH KHOA HOC MAY TÍNH

GIANG VIEN HUONG DAN

PGS TS LE DINH DUY

TP HO CHI MINH, 2020

Trang 3

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết

định sô 523/QD-DHCNTT ngày 25 tháng 08 năm 2020

của Hiệu trưởng Trường Đại học Công nghệ Thông tin

Trang 4

LỜI CẢM ƠN

Trước tiên, chúng em xin chân thành cảm ơn thầy Lê Đình Duy đã tận tình giúp

đỡ hướng dẫn và định hướng chúng em để có thể hoàn thành khóa luận tốt nhất.Sau, chúng em xin gửi lời cảm ơn đến các thầy cô, anh chị và các bạn sinh viêntại phòng thí nghiệm Truyền thông Đa phương tiện trường Đại học Công nghệthông tin đã nhiệt tình hỗ trợ chúng em về cả kiến thức và trang thiết bị trong

quá trình làm khóa luận.

Chúng em xin chân thành cảm ơn!

Trang 5

2.1.1 Tổng quan về phat hién vănbản| - 7

2.1.1.1 Phương pháp dua trên máy học cổ điển (Classical

¬ 8

Le ee 9

2.1.2.1 Kiếntrúc 112.1.2.2 Huấnluyện 12

See eee 15

¬ 17

2.2.1 Tổng quan về Nhận diện văn bản 17

2.2.1.1 Phương pháp dựa trên máy học| 18

_— 19

"MU <«- a4 19

Trang 6

2.3.2.1 Đặc trưng nut (nodefeatures)| 27

2.3.2.2 Xay dựng đô thị (Feature Engineering)| 27

¬ LH 28

2.3.3 Processing Key Information Extraction from Documents

us-ing Improved Graph Learnus-ing-Convolutional Networks (PICK)

4.1 Bộ du liệu sử dung trong khóa luận 49

4.11 Tap anh UIT-ReceiptsinTheWHid| 49

Trang 7

41.2 Bộ dữ liệu SROIH 49

4.2 Các độ đo sử dụng trong khóa luận| 50

4.2.1 Độ do mean entity accuracy (mEA)| 50

4.2.2 Độ đo mean entity precision (mEP), mean entity recall (mER), and mean entity F-measure (mEE)| 50

4.2.3 Độ đo Độ chính xác (Precision) và Độ phủ (Recall) 50 4.2.4 Độ đo tỉ lệ kí tự sai (Character error rate (CER))| 51

4.2.5 Độ đo ti lệ từ sai (Word error rate (WER))} 52

Le ee eee 52 4.2.6.1 So sánh CRAFT với phương pháp khác| 52

4.2.7 Thực nghiệm về nhận diện văn bản 53 54 4.2.9 Đánh giá và so sánh kết quả trên toàn bộ pipeline 55 57 5.1 Cài đặtứngdụng| Ặ Ặ ẶẶ 00000000008 57 ] / 57

D.1.1.1 Gidi thiệu thư viện gradio 57 5.1.1.2 Cách cài đặt và sử dụng| 58

5.1.2 Hướng giải quyết của ứng dụng| - 59

b13 Giao diệnứngdụng| 59

5.14 Đánh giá ứng dụng minh họa| 60

6 KÊTLUẬN 62

6.1 Tóm tắt khóa luận và những van đề đã giải quyết 62

6.3 Hướng pháttriển Ặ S S So 63

Trang 9

5.1 Minh họa giao diện Gradio

5.2_ Giao diện ứng dụng web minh hoa ban đầu|

5.3 Minh họa kết quả chạy thử

Trang 10

Danh sách bảng

hư at rẽ 52

4.2 So sánh Nhận diện văn ban (Recognition) giữa Tesseract và

Trans-formerOCR trên bộ dữ liệu của chúng tôi| 53 4.3 So sánh pretrained model TransformerOCR và TransformerOCR

fine-tuning với Data augmentation trên bộ dữ liệu UII-RIW| 53 4.4 So sánh các cách thực nghiệm PICK| 54 4.5 So sánh toàn trên toàn pipeline phương pháp chúng tôi sử dụng

với baseline trên UII-RIW| 55

Trang 11

Danh mục từ viết tắt

CNN Convolutional Neural Network

GCN Grahp Convolutional Network

PICK Processing Key Information Extraction from Documents using Improved Graph CRAFT Character Region Awareness for Text Detection

SROIE Scanned Receipts OCR and Information Extraction

OCR Optical Character Recognition

HOG Histogram of Oriented Gradients

SSD Single Shot multibox Detector

SVM Support Vector Machine

YOLO You Only Look Once

FCN Fully Convolutional Network

SIFT Scale-Invariant Feature Transform

Trang 12

Danh mục tu tạm dịch

Bộ dữ liệu đataset Phát hiện văn bản Text Localization/Detection Nhận điện văn bản Text Recognition

Key Information Extraction Image Inpainting

Kiến trúc architecture

Vùng /đoạn mask Khung/Hộp giới hạn boundary box Đặc trưng feature

Đặc trưng học sâu deep feature Đặc trưng thủ công hand-crafted feature

Độ lỗi tái tạo reconstruction error

Huấn luyện train / training

Kiểm tra test / testing

Trang 13

TÓM TẮT KHOÁ LUẬN

Nguồn thông tin được trích xuất từ hóa đơn mua sắm của khách hàng có thể

phục vụ được cho nhiều nhu cầu của doanh nghiệp thông qua việc: chuyển đổi,lưu trữ, tìm kiếm thông tin nhanh, marketing, thu thập và phân tích dữ liệu hành

vi khách hàng Hiện nay nhu cau trích xuất thông tin từ hình ảnh hóa đơn khách

hàng ngày càng lớn, một vài quốc gia trên thế giới đã xuất hiện các ứng dụng cho

phép người dùng chụp ảnh hóa đơn mua hàng của mình và nhận lại một khoản

điểm quy đổi như: Ibotta, Receipt Hog, Fetch Reward Đơn cử ở Việt Nam, ứngdụng Reward+ cho phép người dùng tích điểm bằng cách chụp ảnh hóa đơn muahàng từ các cửa hàng thành viên thuộc hệ thống trung tâm thương mại EstellaPlace và Saigon Centre Tuy nhiên việc trích xuất được thực hiện trong vòng 10ngày từ khi hóa đơn được gửi Điều đó gây nên một sự tiêu tốn chỉ phí nhân công

và thời gian không hề nhỏ, đồng thời gây ảnh hưởng trực tiếp đến trải nghiệm

người sử dụng Theo tìm hiểu của chúng tôi, hiện nay vẫn chưa có, hoặc chưa

được công bố ứng dụng trích xuất nào tại Việt Nam có tính năng tự động trích

xuất trong thời gian thực để giải quyết hạn chế trên Do đó, mục tiêu của chúng

tôi trong khóa luận này là tìm hiểu và xây dựng một ứng dụng cho mục đích trích

xuất các đối tượng trong hóa đơn một cách tự động để giúp cho doanh nghiệp

có những thông tin từ những hóa đơn một cách nhanh chóng nhất, cũng như cải

thiện trải nghiệm của khách hàng khi sử dụng dịch vụ.

Để xây dựng một ứng dụng đã dé cập ở trên, chúng tôi xây dựng dựa trên sự

kết hợp 3 phương pháp 1a: Text Localization/Detection (phát hiện văn ban), TextRecognition (nhận diện van bản) va Key Information Extraction (trích xuất thông

tin đáng quan tâm) Ứng dụng hoạt động theo các bước: Đầu tiên dùng phương

pháp Text Localization/Detection (phát hiện văn bản) và Text Recognition (nhận

điện văn bản) để xác định và đọc ra văn bản trong hóa đơn, kết quả quả bước này

là đầu vào của bước cuối cùng - Key Information Extraction (trích xuất thông tin

đáng quan tâm) Kết quả cuối cùng là ta có được những thông tin mà ta cần quan

tâm được trích xuất từ hóa đơn đó

Trong khóa luận này, chúng tôi sử dụng phương pháp CRAFT [3] cho bài

toán Text Localization/Detection (phát hiện văn bản), và phương pháp có tên là

VietOCR dựa trên kiến trúc Transformer được thiết kế cho bài toán nhận diện văn

1

Trang 14

bản tiếng Việt dùng để đọc ra thông tin văn bản trong hình ảnh hóa đơn TiếngViệt Sau đó chúng tôi sử dung PICK [47] cho phần trích xuất thông tin.

Trong khóa luận này, chúng tôi thu được 3 kết quả chính: thứ nhất đó là bộdit liệu hình ảnh hóa đơn Tiếng Việt UIT-ReceiptsInTheWild có thể sử dụng cho

cả 3 bài toán: Text Detection, Text Recognition và Key Information Extraction tại

Việt Nam, thứ hai là kết quả thử nghiệm, đánh giá việc kết hợp các phương pháp

để giải quyết bài toán trích xuất thông tin hóa đơn tự động trên dữ liệu hóa đơnViệt Nam và cuối cùng đó là chương trình minh hoa bài toán bài toán trích xuất

thông tin hóa đơn tự động tại Việt Nam.

Trang 15

Chương 1

GIỚI THIỆU

Trong chương này, chúng tôi trình bày định nghĩa về bài toán trích xuất hóa đơn

tự động, các ứng dụng trong thực tế và các thách thức mà bài toán đang gặp phải

Chúng tôi trình bày các phương pháp mà chúng tôi tập trung tìm hiểu và tại sao chúng tôi chọn các phương pháp đó Chúng tôi đưa ra mục tiêu, nội dung cụ thể

và phương pháp thực hiện Cấu trúc của khóa luận tốt nghiệp cũng sẽ được dé

cập trong chương này.

11 Giới thiệu bài toán

Thời đại kinh tế xã hội phát triển, vì thế mà nhu cầu mua sắm và trao đổi hànghóa ngày càng diễn sôi nổi và tấp nập hơn Chính vì thế, nhiều ứng dụng phân

tích xu hướng nhu cầu của khách hàng để phục vụ cho doanh nghiệp ra đời Tuy

nhiên, để làm được điều đó cần phải có một lượng dữ liệu lớn được thu thập từkhách hàng Một số doanh nghiệp lớn vẫn phải đi thuê người để lấy thông tin

khách hàng về nhu cầu mua sắm của họ Một số doanh nghiệp khác nhận ra dữ

liệu mua sắm của khách hàng đến từ những hóa đơn từ những cửa hàng, siêu thị,

trung tâm mua sắm là một nguồn dit liệu déi dào, tuy nhiên không phải thông

tin trên hóa đơn nào cũng cần thiết cho doanh nghiệp Chính vì thế mà ta cầnphải trích xuất những thông tin đáng quan tâm trên hóa đơn cụ thể trong khóaluận này chúng tôi định nghĩa đó là thông tin về tên công ty (company), thời gian(date), tổng tiền (total), và địa chỉ công ty (address) Theo truyền thống thì việctrích xuất này được các công nhân thực hiện và nhập thủ công vào cơ sở dữ liệu,đây là một quá trình cực kỳ tốn kém cả về sức người lẫn thời gian Với sự phát

Trang 16

Chương 1 GIỚI THIỆU

triển đột phá mạnh mẽ gần đây của công nghệ 4.0 - Trí tuệ nhân tạo, nhiều ứngdụng dựa trên các phương pháp học sâu liên quan đến nhận diện và phát hiệnchữ trong hình ảnh được nghiên cứu và phát triển Chính vì thế mà chúng tôimuốn áp dụng chúng vào bài toán trích xuất hóa đơn Tiếng Việt tự động của

chúng tôi.

date, total)

Guitar Cafe Vel, 096 526 8459

28 Phan Chas Vinh, Hep Phú, đoạt 9 (02 E

Woke lạ 01/1 Company Guitar Cafe

Trang 17

12 Thách thức

e Về mặt kỹ thuật: Bài toán gồm ba phần chính là Text Localization/Detection

(phát hiện văn ban), Text Recognition (nhận diện văn bản) va Key

Informa-tion ExtracInforma-tion (trích xuất thông tin đáng quan tâm) Trong phan Text

Lo-calization/Detection (phát hiện văn bản), phải phát hiện được hoàn toàn và

chính xác văn bản trong hóa đơn, một số hóa đơn bị nhàu, ánh sáng khôngđều, hình ảnh bị mờ/kém chất lượng, chữ trong background lẫn với chữtrong hóa gây cản trở cho việc phát hiện văn bản Trong phần Text Recogni-tion (nhận điện văn bản), thách thức lớn là văn bản đa hướng/cong, nhiềubiến thể của phông chữ và nhiều ngôn ngữ khác nhau (tiếng Anh, tiếng

Việt, ).

Kết quả của 2 phần trước ảnh hưởng trực tiếp đến kết quả của phần sau

Trong phần Key Information Extraction (trích xuat thong tin dang quan

tâm) thì phải xác định đâu là nội dung cần được trích xuất từ những kếtquả của 2 bước trên Nếu kết quả hai bước đầu làm không tốt thì ảnh hướng

rât nhiêu đên phân sau.

e Về mặt dữ liệu: Thách thức lớn nhất của bài toán này khi áp dụng ở Việt

Nam đó chính là việc không có dt liệu hóa don Tiếng Việt có sẵn Các bộ

dữ liệu có sẵn như bộ SROIE trong cuộc thi là hóa đơn nước ngoài

không phù hợp với mục tiêu của khóa luận Chi phí rất tốn kém (tự thu

thập va gan nhãn) cho việc xây dụng bộ dw liệu này.

1.3 Dong góp khóa luận

Tóm lại trong khóa luận này chúng tôi đã thực hiện được các nội dung chính như

sau:

một số kiến thức liên quan

Trang 18

1.4

Kết hợp cả 3 phương pháp Text Localization/Detection (phát hiện văn bản),

Text Recognition (nhận điện văn bản) và Key Information Extraction (trích

xuất thông tin đáng quan tâm) thành một bài toán cụ thể

Xây dựng một bộ dw liệu UTT-ReceiptsInTheWild khoảng 514 hóa đơn thu

thập từ các cửa hàng ở Việt Nam.

Xây dựng ứng dụng web minh họa cho bài toán Trích xuất hóa đơn tự động

Câu trúc khóa luận

Câu trúc Khóa luận tốt nghiệp được tổ chức như sau:

Chương 1: Giới thiệu - trình bày giới thiệu về bài toán cần giải quyết, minh

họa đầu vào, đầu ra, các thách thức, đóng góp và cấu trúc của khóa luận

Chương 2: Công trình liên quan và Kiến thức cơ bản - trình bày các công

trình liên quan và các phương pháp sử dụng trong các bài toán con (Phát

hiện văn bản, Nhận diện văn bản, Trích xuất thông tin) để nghiên cứu

Chương 3: Xây dựng bộ hóa đơn Tiếng Việt

Chương 4: Thực nghiệm - trình bày các bộ dữ liệu, độ đo sử dụng trong

khóa luận, thực nghiệm, đánh giá từng phương pháp trong các bài toán con

với một số phương pháp liên quan và thử nghiệm để cái thiện ứng dụng

khóa luận.

Chương 5: Ứng dụng minh họa - trình bày cài đặt ứng dụng, đánh giá, so

sánh với ứng dụng liên quan khác và một số kết quả của ứng dụng

Chương 6: Kết luận - trình bày tóm tắt khóa luận, những vấn dé đã giải

quyết, các hạn chế và hướng phát triển tiếp theo của khóa luận tốt nghiệp

Trang 19

Chương 2

CÔNG TRÌNH LIÊN QUAN VÀ

KIÊN THỨC CƠ BẢN

2.1 Phát hiện văn bản

2.1.1 Tổng quan về phát hiện văn bản

Những phương pháp phát hiện văn bản trong hình ảnh có thể được phân loại

thành classical machine learning-based và deep learning-based

Text Detection Methods

Deep-Learning Classical Machine-

Trang 20

Chương 2 CÔNG TRINH LIÊN QUAN VÀ KIÊN THUC CƠ BẢN

2.1.1.1 Phuong pháp dựa trên máy học cổ điển (Classical Machine

Learning-based)

Phần này tóm tắt các phương pháp truyền thống được sử dụng cho phát hiện

văn bản trong hình ảnh, có thể được phân loại thành hai phương pháp tiếp cận

chính, cụ thể là cửa sổ trượt (sliđing-window) và các phương pháp tiếp cận dựa

trên thành phần kết nối (connected-component)

* Cửa số trượt: Sử dụng một cửa số trượt với kích thước xác định, sau đó

những đặc trưng của tam ảnh sẽ được trích xuất (như là sự khác biệt trung

bình và độ lệch chuẩn [9], biểu đồ định hướng (HOG) [6] và những vùng

cạnh [19}) từ những cửa sổ trượt (sliding-window) và sau đó sẽ được phân

loại vào những lớp với nhiều bộ phân lớp khác nhau (ví dụ: cây quyết định

(decision trees) [19], log-likelihood El, kiểm tra tỷ lệ khả năng (likelihood

ratio test) (91) để phát hiện văn ban trong mỗi cửa sổ trượt Tuy nhiên, những

phương pháp này chỉ có thể áp dụng để phát hiện văn bản nằm ngang và

có hiệu suất phát hiện thấp trên hình ảnh mà có nhiều hướng của văn bản

¢ Thanh phần kết nối: nhằm mục đích trích xuất các vùng hình ảnh có các

thuộc tính tương tự (màu sắc (44), kết cầu [46], ranh gidi [20], các điểm góc 48|) để tạo thành các thành phần ứng viên có thể được phân loại thành

văn bản hoặc không phải văn bản sử dụng các thuật toán phân loại truyền

thống: support vector machine (SVM) 0], Random Eorest [27], va

nearest-neighbor [31] Các phương pháp này phát hiện những ky tự của một bức

ảnh và kết hợp các ký tự được trích xuất thành một từ hoặc dòng chữ

IHỆ Không giống như cửa sổ trượt, các phương pháp dựa trên các thành

phần được kết nối hiệu quả và nhanh hơn và luôn cho một tỉ lệ lỗi thấp hơn,điều này rất quan trọng trong việc phát hiện văn bản trong hình ảnh

Tuy nhiên các phương pháp cổ điển được dé cập trên nhằm mục đích phát hiện

những ky tự độc lập do đó dé dàng gây ra việc loại bỏ các vùng ký tự không rõ

ràng hoặc tạo ra một số lượng lớn phát hiện sai lầm làm giảm hiệu suất phát hiện

của chúng.

1 Ảnh lay từ

Trang 21

Chương 2 CÔNG TRÌNH LIEN QUAN VÀ KIÊN THUC CƠ BẢN

2.1.1.2 Phương pháp dựa trên học sâu (Deep Learning-based)

Sự xuất hiện và phát triển nhanh chóng của học sâu|17] đã thay đổi cách các nhà

nghiên cứu tiếp cận bài toán phát hiện văn bản và đã mở rộng phạm vi nghiên

cứu trong lĩnh vực này cho đến nay Kể từ khi các kỹ thuật dựa trên học sâu có

nhiều lợi thế hơn so với những kỹ thuật dựa trên máy học cổ điển (chẳng hạn

như nhanh hơn và đơn giản hơn) Trong phần này, chúng tôi trình bày đánh giá

về những ưu điểm và sự tiến bộ gần đây trong các phương pháp phát hiện văn

bản dựa trên học sâu được tóm tắt trong|2.5|

IF Neural Network Detection Challenges có ie Model Training Datasets

a — BB SB Hy Architecture Backbone Target Quad Curved Foe Colle Name First-Staze Fine-Tune

Jaderberger af[33] 2014 — CNN Ww DR DSOL MJSynth Huang eral [30] 2014 — — CNN - Ww - - D - RSTD - TCI1 or ICIS Tian et al [34] 2016 “ - Faster R-CNN VGG-16 TW ~ - D ư CTPN PD ICI3

-Zhang efal.(39] 2016 - wv FCN VOG-16 Ww vĩ D MOTD - 1C13, IC15 or M500

Yao et al [40] 216 - ¥ FCN VGG-16 Ww Zw D ¥ STDH - 1C13, IC15 or M500

Shi et al [59] MT — 55D VGG-l6 cw ¥ - Dv SegLink ST 1013, IC15 or M500

He er anf [103] 2017 - ¥ 55D VGOG-16 Ww vể - D SSTD - 1C13 or ICIS

Hu et al [105] 20T - v FCN VGG-16 C “ - D - Wordsup ST IC15 or COCO

Zhou et al [35] MIT — FCN VOG-16 WT w - Dw EAST - IC15*, COCO or M500

He et al [106] WT — DenseBox - WT v D - DDR - IC13, IC15 & PD

Ma et al [38] 2018 w# — Faster R-CNN VGG-l6 Ww vĩ - D ¥ RRPN M500 TC13 or ICIS Jiang etal [107] 21S — Faster R-CNN VGG-l6 WwW v - Dw R2CNN ICl5&PD - Long et al [42] 218 - ¥ U-Net VGŒ-l6 Ww ¥ LẢ D / TextSnake ST TC15, M500, TOT or CTW

Liao er al [37] 2018 4 - ssn VGG-16 Ww w — DR TextBoxcs++ ST ICI5

He et al [50] 218 - FCN PVA cw v - DR w E2ET 5T IC13 or ICIS

Lyu er af [48] 2018 - ¥ Mask-RCNN ResNet-50 Ww w - DR # MTSpotter ST IC13 1C15 or TOT

Liao etal [108] 2018 ¥ — 53D VGG-16 Ww Pa D ¥ RED 5T 1013, IC15, COCO or M500

Lyu et al [10%] 218 - ¥ FCN VOG-16 Ww v - D ¥ MOSTD 5T TC13 or ICIS

Deng et al.*[43] 2018 4 — FCN VGG-16 Ww w - D # Pixellink* ICI5 1C13, IC15* or M500

Liu et al.[49] 2018 w#'ˆ — CNN ResNet-50) Ww v - DR # POTS 5T IC13 IC15 of IC17

Back et al.*[46] 2019 — ¥ U-Net VGG-16 CWT “ D # CRAFT* ST IC13, IC15* or ICT

Wang et af.*[110] 2019 - ¥ FPEM+FFM ResNet-lä Ww “ we D ¥ PAN* 5T IC15*, M500, TOT or CTW Liu et al.*[47] 2019 - -— & Mask-RCNN ResNet-50 WwW w“ “ D # PMTD* ICI7 1C13 of IC15*

Xu et al [111] 20198 - ¥ FCN VGG-16 Ww w v D w Trxtirld ST IC15, M500, TOT or CTW Livetal.*[112] 2019 - ¥ Mask-RCNN ResNet-101 Ww w “ D MB* ST IC15*, ICL7 or M500

Wang eral.*[{113] 2019 - v FPN ResNet Ww w“ w D w# PSENet* ICIT ICH3 of IC15*

HÌNH 2.2: Tóm tắt sự so sánh giữa một số kỹ thuật hiện đại nhất

trong lĩnh vực này 2

Các phương pháp phát hiện van bản dựa trên học sâu gần đây lay cảm hứng

từ các pipelines phát hiện vật thể (object detection)|12j [14] có thể được phân loại

thành các phương pháp tiếp cận dựa trên hồi quy hộp giới hạn (bounding-box

regression based), dựa trên phân đoạn (segmentation-based) và cách tiếp cận lai

(hybrid approaches) được minh họa trongl2.1|

2 Ảnh lay từ

Trang 22

® Bounding-box regression based methods: coi văn bản như một đối tượng

với mục đích dự đoán trực tiếp các bounding-box sử dụng một số thuật

toán như Yolo[35], Faster-RCN N56], SSD(21] Tuy nhiên các phương pháp

này được lay cảm hứng từ phát hiện đối tượng, có thể không xử lý được vănbản nhiều hướng bởi vì không giống như phát hiện đối tượng, phát hiện văn

bản hoặc các vùng văn bản nhiều hướng yêu cầu các bounding-box có tỷ lệ

cỡ ảnh lớn Mặc dù các phương pháp dựa trên Bounding-box regression có

kiến trúc đơn giản, chúng yêu cầu thiết kế trước các anchor phức tạp khó

điều chỉnh trong quá trình đào tạo, không thể khái quát hóa được hình ảnh

văn bản trong thế giới thực và có thể không xử lý được khi phát hiện vănbản cong và nhiều hướng

* Segmentation-based methods: coi phát hiện văn bản như một van dé của

phân đoạn ngữ nghĩa với mục đích là phân loại văn bản trong hình ảnh

có cùng các mức độ pixel Các phương pháp này, trước tiên trích xuất cáckhối văn bản từ bản đồ phân đoạn do FCN tạo ra và sau đó có được

các bounding-box của văn bản bằng các bước xử lý sau đó Với một số công

trình gần đây đã coi việc phát hiện văn bản như là một vấn dé của phânđoạn cá thể (instance segmentation) và một trong số đó áp dụng Mask R-CNN để cải thiện hiệu suất của phát hiện văn bản cho văn bản có nhiềuhình dạng bắt kỳ

¢ Hybrid methods: dựa trên phương pháp phân đoạn để dự đoán score maps

của văn bản và đồng thời nhắm đến việc thu được các bounding-box thông

qua sự hồi quy

10

Trang 23

Chương 2 CÔNG TRÌNH LIÊN QUAN VÀ KIEN THUC CƠ BẢN

2.1.2 Phương pháp Character Region Awareness for Text

Detec-tion (CRAFT)

2.1.2.1 Kiến trúc

Mô hình phát hiện văn ban CRAFT được công bố trong hội nghị CVPR2019 vớihiệu suất cực kỳ ấn tượng khi đạt SoTA trên cả 6 bộ dữ liệu IC13, IC15, IC17, Total-

Text, CTW1500, TD500, trong đó 3 bộ dữ liệu TotalText, CTW1500,

MSRA-TD500 hoàn toàn không can trải qua quá trình fine-tuning, hứa hẹn sẽ mang lại

tính tổng quát hóa cao phù hợp cho dữ liệu UIT-RIW (UIT-ReceiptsInTheWild).

CRAFT bao gồm một kiến trúc fully convolutional network dựa trên VGG-16

với batch normalization được sử dụng như mạng trích xuất đặc trưng Mô hìnhCRAFT bỏ qua phần kết nối ở Decoder tương tự như U-net trong đó nó tổnghợp các tính năng cấp thấp Đầu ra cudi cùng có 2 nhánh score maps: region score(vùng có khả năng là ký tự) va affinity score (vùng chỉ ra liên kết giữa các ký tự)

được minh họa trong hình

11

Trang 24

Image Region score

® Tạo nhãn Ground Truth

Với mỗi hình ảnh được huấn luyện, chúng ta tạo ra một nhãn Ground Truth

cho region score va affinity score với characterlevel bounding boxes Sau đó

region score thể hiện xác suất một pixel đã cho nằm giữa một ký tự, va affinityscore xác suất trung tâm của khoảng cách giữa các ký tự liền kể Chúng ta

3 Ảnh lay từ

12

Trang 25

sử dụng sự biểu diễn của heatmap để học cả hai region score và affinity score

được minh họa ở hình bên dưới.

| Affinity Box Generation | Character Boxes Each Region Score GT

Character | Score Generation Module

| CO Affinity box peace”

| + Center of a character box |

tinh và tạo ra ground truth cho cả region score va affinity score

- Chuẩn bi một bản dé Gaussian dang hướng 2 chiều

— Tính toán chuyển đổi phối cảnh giữa vùng bản đồ Gaussian và từng 6

ký tự

— Di chuyển bản đồ Gaussian đến khu vực bounding-box

se Học tập có giám sát yếu

Không giống như tập dữ liệu được tổng hợp, hình anh trong tập dữ liệu

thường được chú thích ở word-level Ở đây, chúng ta tạo các hộp ký tự từ

mỗi chú thích word-level theo cách thức giám sát yêu được minh học trong

hình bên dưới.

* Ảnh lấy từ

13

Trang 26

=—> Train with Real Image

From: ==> Train with Synthetic Image

Synthetic Image Synthetic GT

HINH 2.5: Minh họa tổng hợp về quy trình dao tao của phương

pháp °

Khi một hình ảnh thực được cung cấp với cách gán nhãn ở word-level, mô

hình sẽ dự đoán ra các điểm vùng ký tự của hình ảnh từ những hình ảnh

đã được cắt để ra các bounding-box character-level

Word-level annotation Character-level annotation

Trang 27

Đầu tiên, các hình ảnh word-level của cắt từ những hình ảnh gốc Thứ hai, các

mô hình đã được huấn luyện được sử dụng để dự đoán các region score Thứ ba,

thuật toán watershed được sử dụng cắt các vùng ký tự Cuối cùng, các tọa

độ của các hộp ký tự được chuyển đổi trở lại thành tọa độ hình ảnh gốc sử dụng

phép biến đổi nghịch đảo từ bước cắt xén

Ví dụ cho một chú thích word-level w của tập huấn luyện, gọi R(w) và I(0)

tương ứng với vùng chứa boundind-box và độ dài của từ w Thông qua quá trình

tách ký tự, chúng ta có thể có được các boundind-box ước tính ký tự và độ dài

ky tự tương ứng của chúng /°(w) Sau đó độ đo confident s¿ạ„(zø) của từ w được

Với S*(p) và S*(p) biểu thị tương ứng với pseudo-ground truth region score

và affinity map, , và S;(p) và Sq(p) biểu thị dự đoán tương ứng của region score và

affinity score Khi huấn luyện với dữ liệu,chúng ta có thể có được ground truth,vi

thé S.(p) được gan là 1

2.1.2.3 Kếtluận

Đầu ra cuối cùng có thể được biểu diễn ở nhiều hình đáng khác nhau ví dụ như

hộp các từ hoặc hộp các ký tự, hoặc ở dạng các đa giác khác nhau.

6 Anh lay từ

15

Trang 28

: Character region

4 » : Local maxima along scanning direction

: Center line of local maxima

<«——> : Line of control points (tilted from local maxima)

e _: Control points of text polygon

: Polygon text instance

HINH 2.7: Cách tao ra da giác cho van ban có hình dang tùy ý 7

Ngoài ra, phương pháp này có thé tạo một da giác xung quanh toàn bộ vùng

ký tự để xử lý các văn bản cong một cách hiệu quả Quy trình tạo đa giác được

minh họa trong HINHB.3|

Bước dau tiên là tim dòng ký tự cực đại cục bộ các vùng doc theo hướng quét

có mũi tên màu xanh dương Độ dài của các đường cực đại cục bộ đều được đặt

bằng chiều dài tối đa giữa chúng để ngăn kết quả đa giác cuối cùng trở nên khôngđồng đều Các đường nối tất cả các điểm chính giữa của cực đại địa phương làđược gọi là đường trung tâm, được hiển thị bằng màu vàng Sau đó, các đường

7 Ảnh lấy từ

16

Trang 29

cực đại cục bộ được quay để vuông góc với đường trung tâm để phản ánh góc

nghiêng của các ký tự, được thể hiện bằng màu đỏ mũi tên Các điểm cuối của

các dòng cực đại cục bộ là ứng cử viên cho các điểm kiểm soát của đa giác vănbản Dé day đủ che vùng văn bản, chúng tôi di chuyển hai đường cực đại cục bộnghiêng bên ngoài nhất ra ngoài đọc theo tâm cực đại cục bộ dòng, làm cho các

điểm kiểm soát cuối cùng (cham màu xanh lá cây)

2.2 Nhận diện van bản

2.2.1 Tổng quan về Nhận diện văn ban

Mục tiêu của nhận diện văn bản là nhằm chuyển đổi vùng văn bản đã được phát

hiện thành những ký tự hoặc những từ bao gồm 10 chữ số, 26 chữ thường, 26 chữ

hoa, 32 dau câu ASCII và ký hiệu kết thúc câu (EOS) Vì các thuộc tính của các

hình anh văn bản được chụp trong điều kiện thực tế là so với dang văn bản/hóađơn được scan, điều đó rất khó để phát triển phương pháp nhận dạng văn bảndựa trên những thuật toán OCR hoặc phương pháp nhận diện chữ viết tay sửdụng cho đữ liệu văn bản truyền thống Như đã dé cập trước đó, hình ảnh đượcchụp trong tự nhiên thường có độ phân giải thấp, chói sáng, điều kiện môi trườngkhông tốt, lẫn nhiều hình ảnh nền phía sau, tỷ lệ không đồng đều, phân bố tùy ý

của văn bản trong ảnh và có nhiều phông chữ khác nhau, nhiều góc xoay, ngôn

ngữ và từ vựng Các nhà nghiên cứu đã đề xuất các kỹ thuật khác nhau để giảiquyết những thách thức này, được chia thành hai loại là phương pháp dựa trên

máy học và phương pháp dựa trên học sâu.

17

Trang 30

Method Model Year Feature Extraction Sequence modeling Prediction Training Dataset? Irregular recognition Task # classes Code

Wang et al [80] E2ER 2012 CNN SVM PD C 62 Bissacco ef aÍ.[22| PhotoOCR 2013 HÖG.NN - - PD - L8) 99 - Jaderberg eral [6O] SYNTR 2014 CNN „ _ MI _ Cc 36 v

-Jaderberg eral [60 SYNTR 2014 CNN x - MJ — Ww 90k v

He et al [150] DTRN 2015 DCNN LSTM cre MJ Seq 37 Shi et al.* [53] RARE 2016 STN+VGGI6 BLSTM Attn MI “ Seq 37 vw

Lee et al [61 R2AM 2016 Recursive CNN LTSM Attn MJ _ _ 37

-Liu et al.* [54] STARNet 2016 STN+RSB BLSTM crc MJ+PD vw Seq 37 v

Shi et al.* [52] CRNN 2017 VGG16 BLSTM cre MI _ Seq 37 “ Wang et al [62] GRCNN 2017 GRCNN BLSTM CTC MI _ Seq 62 -

Yang et al [63] L2RI 2017 VGGI6 RNN Attn PD+CL vw Seq

Cheng et al [64] FAN 2017 ResNet BLSTM Attn MI+ST+CL Seq 37

Liu et al (65 CharNet 2018 CNN LTSM Att MJ vw Bs 37

-Cheng et ai [66] AON 2018 AON+VGGI6 BLSTM Attn MI+ST v Seq 37 x

Bai et al [67 EP 2018 ResNet Attn MI+ST = Seq 37

Liao et al [151] CAFCN 2018 VGG ST vw es 37 Borisyuk ef ø_* [55] ROS 2018 ResNet = CTC PD _ Seq — =

-Shi et al.* [16] AS] 2018 STN+ResNet BLSTM Attn MI+ST vw Seq 4 v

Liu et al [68 là 2018 VGG16 BLSTM cre MI wv Seq 37

-Back et al.* [56] CLOVA 2018 STN+ResNet BLSTM Attn MI+ST “ Seq 36 vw

Xie er al [69] ACE 2019 ResNet - ACE ST+MI vw Seq 37 L4

Zhan et al [TU] ESIR 2019 IRN+ResNet, WGG BLSTM Attn ST+MI “ Seq 68 Wang et al [71] SSCAN 2019 ResNet, VGG _ Attn ST v Seq 4 -

-Wang ef al [152] 2DCTC 2019 PSPNet - 2D-CTC ST‡+MI “ Seq 36 x

HÌNH 2.8: Tóm tắt sự so sánh giữa một số kỹ thuật gần đây nhất

trong lĩnh vựcŠ

2.2.1.1 Phương pháp dựa trên máy học

Khoảng hai thé ki vừa qua, các phương pháp nhận dạng van bản đã sử dụng các

tính tiêu chuẩn hình ảnh như là HOG [6] và SIFT [26] với một bộ phân lớp như

SVM hoặc k-nearest neighbors [1] sau đó một mô hình ngôn ngữ thống kê

hoặc dự đoán cấu trúc trực quan được áp dụng để loại bỏ các ký tự được phân

loại sai Hầu hết các phương pháp này đều tuân theo hướng tiếp cận bottom-up

mà các ký tự đã được phân loại được liên kết với nhau thành một từ Ví dụ, trong

[43], đặc trưng HOG dau tiên sẽ trích xuất từ cửa sổ trượt sau đó một bộ phân

lớp đã được huấn luyên trước đó (SVM) được áp dụng để phân loại các ký tự củahình ảnh từ đầu vào Một số khác theo hướng tiếp cận top-down mà các từ được

nhận dạng trực tiếp từ những thực thể đầu vào hình ảnh thay vì nhận dạng các

ký tự riêng lẻ.

8 Ảnh lấy từ

18

Trang 31

2.2.1.2 Phương pháp dựa trên học sâu

Với những tiến bộ gần đây của kiến trúc mạng nơron, nhiều nhà nghiên cứu đã

dé xuất phương pháp dựa trên học sâu giải quyết các thách thức về nhận dang

văn bản trong tự nhiên được minh họa trong Hình|2.9| Ví dụ đã đề xuất dựa

trên trích xuất tính năng của CNN để nhận diện ký tự, sau đó áp dụng kỹ thuật

của NMS để có được những từ dự đoán cuối cùng

2.2.2 Nhận Dạng Tiếng Việt Sử Dung Mô Hình Transformer va

AttentionOCR

Trong khóa luận này, trong phần nhận dạng Tiếng Việt chúng tôi sử dụng một

mô hình có tên là VietOCR ? ứng dụng kiến trúc của mạng Transformer đã đạtđược nhiều tiến bộ vượt bậc cho cộng đồng NLP cho bài toán nhận dạng hình

ảnh văn bản.

2.2.2.1 Tìm hiểu mô hình Transformer

Transformer giải quyết được nhược điểm của mô hình tuần tự truyền thống nhờchủ yếu vào hai cau trúc là Multi-head attention và Positional encoding

"https: //pbcquoc github.1o/vietocr/

19

Trang 32

Trang 33

Kiến trúc transformer cũng giống với các mô hình sequence-to-sequence baogồm hai phan là encoder (trái) và decoder (phải)

e Encoder

Gồm N block, mỗi block bao gồm hai sub-layer: Multi-Head Attention va

Feed forward network Tác giả dùng một residual connection ở mỗi

sub-layer nay Theo sau mỗi sub-sub-layer đó là một lớp Layer Norm có ý nghĩa

tương tự như lớp Batch Norm trong CNN Residual connection cũng góp

phần giúp mô hình có thể sâu hơn, deep hơn nhờ giảm tác động của

van-ishing gradient.

® Decoder

Phan Decoder cũng tương tự như Encoder gồm N block, mỗi block gồm

2 sub-layer Tuy nhiên, nó có một lớp Masked Multi-Head Attention Lớp

này chính là lớp Multi-Head Attention Nó có chức năng chú ý đến toàn bộ

những decoder hidden state trước Lý do mà nó lại được đặt tên như vậy là

khi huấn luyện Transformer, ta đưa toàn bộ câu vào cùng một lúc nên nếu

ta đưa toàn bộ target sentence cho decoder trước thì mô hình sẽ chang học

được gì cả Do đó phải che (mask) bớt một phan token ở decoder hidden

state sau trong quá trình decode được minh họa trong hình dưới.

Next Token (Correct Answer)

sms

Source sentence info a > Source sentence info a à

The model can “cheat”

nnnnnn “= nnnnnn SSB

Previous tokens Target sentence

nooo š8 [3E EIIEI E

ĐÚNG sal

HINH 2.10

21

Trang 34

2.2.2.2 Multi-Head Attention

Input sentences sẽ được nhân tuyến tinh với ba ma trận dé sinh ra ba giá tri keys,

values, queries Keys va Queries gan giống nhau Values chính là giá trị của keys

Ví du, keys là mã một từ, queries là truy van dé tim mã từ đó (keys) va values

chính là nghĩa của từ Dựa trên ba giá trị này, ta tính attention score Attention

score thể hiện mức liên quan giữa các values với nhau hay các nghĩa của từ với

nhau Nếu Trong mô hình, các giá trị được kí hiệu lần lượt là: {Values: V, Keys: K,

Query: Q}

HINH 2.11

Có một khó khan trong các mô hình truyền thống đó là rất khó khái quát

được input sentences theo nhiều góc độ khác nhau vì chỉ có duy nhất một cơ chế

1lẢnh lấy từ

https://viblo.asia/p/nhan-dang-tieng-viet-cung-voi-transformer-ocr-Qpmlej jmord

Ảnh lẫy từ

22

Trang 35

attention Ví dụ xử lý một câu "The animal didn’t cross the street because it was

too tired" Nếu ta chỉ có duy nhất một attention weights, attention có khả năng chi

chú ý đến "animal" hay "street" Tuy nhiên , "it" trong câu là để chi "animal" hay

"street" Do đó để nắm bắt đa chú ý, Transformer thay vì sử dụng self-attetion (1

head) đã sử dụng nhiều linear attention cùng một lúc (multi-head) để học được

nhiều attention weight khác nhau giúp chú ý đến nhiều chỗ khác nhau trong

cùng một câu Các giá trị V, K, Q cùng một lúc được biến đổi tuyến tính sau đó

ta dùng một cơ chế attention có tên là Scaled Dot-Product Attention để tổng hợp

attention weight của cả V, Q, K Công thức tính của Scaled Dot-Product Attention như sau:

QK

Vax

Ý tưởng dang sau công thức nay đơn giản chỉ là nhân query với key Kết qua

Attention(Q,K,V) = softmax( )V (2.4)

sẽ cho ra độ liên quan giữa các từ với nhau Tuy nhiên kết quả này sẽ tăng phi

mã theo kích thước (dimension) của query và key Do đó cần phải chia cho cănbậc hai kích thước của keys để ngăn chặn hiện tượng số quá lớn Hàm softmax

để tính phân bố xác suất liên quan giữa các từ Cuéi cùng ta nhân thêm value để

loại bỏ những từ không cần thiết trong câu (có xác suất qua hàm softmax nhỏ)

Sau khi tính từng attention weight bang cơ chế Scaled Dot-Product Attention,

chúng ta kết hợp chúng lại với nhau thành một ma trận rồi nhân tuyến tính vớimột ma trận đưa ra output cuối cùng

2.2.2.3 Positional Encoding (Mã hóa vị trí )

Vị trí và thứ tự của các từ trong một câu là điều cần thiết đối với mọi mô hình

ngôn ngữ kể cả trong NLP hay CV Các mô hình như RNN hay LSTM sử dụng

tính tuần tự để học được vị trí của các câu trong văn bản Nhưng như mình đã

vừa dé cập ở trên, để khắc phục thời gian huấn luyện quá lâu do tính tuần tự gây

ra, Transfomer đã hoàn toàn loại bỏ điều này Vậy làm thế nào để mô hình có thểhọc được thông tin về vị trí ? Đó chính là mã hóa thêm thông tin biểu diễn vị trí

vào từng từ câu Và người ta gọi đó là Positional Encoding.

Một positional encoding tốt được đánh giá dựa trên những tiêu chí sau:

23

Trang 36

® Mỗi time-step phải có một mã hóa (encoding) duy nhất: Nếu hai time-step

khác nhau mà có cùng một mã hóa sẽ gây ra nhằm lẫn vị trí giữa các từ với

nhau.

¢ Khoảng cách giữa hai vi trí được embedding của hai time-step giữa hai câu

có độ dài khác nhau phải bằng nhau

* Có khả năng biểu diễn được vị trí cho những câu dai hơn khi huấn luyện

Cách mà transformer mã hóa vị trí đáp ứng được hết tất cả những điều mà tamong đợi của một positional encoding Công thức mà trong paper, tác giả đã dé

xuất như sau:

PE (pos,2i) = sin(pos/10000/2)

PE (pos,2i-+1) = cos(pos /10000~” )

Với pos là vị tri thứ ¡ trong dimension.

2.3 Trích xuất thong tin

2.3.1 Tổng quan về trích xuất thông tin

Trích xuất thông tin là một nhiệm vụ trích xuất tự động thông tin có cầu trúc từ

các tài liệu không có cấu trúc hoặc bán câu trúc mà máy có thể đọc được Có thể

được chia thành hai bước chính :

¢ Bước 1: Nhận diện ký tự quang hoc (Optical Character Recognition (OCR)):

OCR xử lý việc trích xuất các ký tự hoặc các từ của một bức ảnh Dau ra cầnphải cực kỳ chỉ tiết và chính xác để đễ dàng cho việc trích xuất được tốt hơn

24

Trang 37

OCR

DUNDER INVOICE

MIHUR

n DUNDER INVOICE MIFFLIN

INV-2167 1725 Dunder Mifflin, Inc

HỆ mem, ———kè Date ul 23 2018 Scranton,

: Pennsylvania Payment terms

ee ee eee NET-14 Client * Due Date

HÌNH 2.12: Minh họa OCR'®

¢ Bước 2 Trích xuất thông tin: Từ những từ được trích xuất được ở Bước 1,

dùng các thuật toán để lay ra những thông tin quan trong cần trích xuất

Những phương pháp tiếp cận truyền thống:

¢ Dựa vào khuôn mẫu (Template-based): Cách tiếp cận này bắt đầu bang cách

trích xuất thông tin bồ cục Sau đó so sánh nó với một bố cục hóa đơn đã

biết hay áp dụng một số quy tắc để kết luận kiểu thông tin nào chứa trên

mỗi vị trí bức ảnh Ví dụ [8] sử dụng tính năng hình ảnh trực quan để xử

lý việc trích xuất, nó chỉ tập trung vào các đặc trưng của hình ảnh và khôngquan tâm đến đặc trưng của văn bản

¢ Dựa vào xử ngôn ngữ tự nhiên (NLP-based): Cách tiếp cận này bắt đầu

bằng cách chuyển đổi văn bản thành một khối văn bản sử dụng OCR và sau

đó sử dụng một số kỹ thuật NLP được gọi là nhận dạng đối được gán tên

(Named-entity recognition) với mục tiêu gán các thẻ cho từng thành

phần của văn bản và sau đó trích xuất ra những thông tin quan trọng

13Ảnh lây từ https : //nanonets

com/b1og/information-extraction-graph-convolutional-networks/

25

Trang 38

“person! apparently wasn’t aware that his company SpaceX had a page The SpaceX and

CEO has responded to a comment on calling for him to take down the SpaceX, Tesla and

oro! official pages in support of the #deletefacebook movement by (first oroma acknowledging he didn’t know

one existed, and then following up with promises that he would indeed take them down.

He’s done just that, as the SpaceX Facebook page is now gone, after having been live earlier (as you can

see from the screenshot included taken at “around 1210 PMET) me.

HINH 2.13: Minh hoa nhận dang đối tượng được gan tên

(Named-entity recognition) +

¢ Dựa vào mạng chuyển đổi đồ thi (Graph convolutional network): Các nghiên

cứu gần đây sử dụng cả đặc trưng hình ảnh và đặc trưng văn bản cho việctrích xuất thông tin dựa vào dé thị thông qua graph convolutional networks

(GCN) — GCN kết hợp cả hai phương pháp trên (Template-based va

NLP-based).

- Kiến trúc của GCN tổng thể giống như CNN (ví du CNN hoạt động

trên hình ảnh có thể được xem như một trường hợp đặc biệt của GCN

chỉ hoạt động trên dé thị có câu trúc kết nói thông thường

— GCN là một giải pháp mạnh mẽ cho van đề trích xuất thông tin từ tài

liệu trực quan (visually rich document) như hóa đơn hoặc biên lai.

2.3.2 Trích xuất thông tin sử dụng mạng chuyển đổi đồ thị (Graph

convolutional network)

Để sử dụng GCN cho trích xuất thông tin hóa đơn, chúng ta cần chuyển mỗi hìnhảnh thành một đồ thị Cách phổ biến nhất là biểu diễn mỗi phân đoạn văn bảntrên hình ảnh thành bằng một nút (node), phần thông tin sẽ được mã hóa dưới

dang vector đặc trưng của mỗi node.

MAnh lay từ https:

//nanonets.com/blog/named-entity-recognition-ner-information-26

Trang 39

2.3.2.1 Đặc trưng nút (node features)

Các tính năng của một node bao gồm biểu diễn của một từ (word-embedding)

và một biểu diễn khác cho ngữ cảnh (các cạnh biểu diễn khoảng cách từ node

hiện tai tới các nút lân cận) Hầu hết các mô hình khác nhau về cách chúng xây

dựng biểu dién ngữ cảnh, một số mô hình mã hóa khoảng cách đến từng từ trong

hình ảnh, các mô hình khác chỉ mã hóa khoảng cách đến bốn từ gần nhất theo

mỗi hướng (trên, dưới, trái, phải)

2.3.2.2 Xây dựng đồ thị (Feature Engineering)

Có nhiều kỹ thuật để xây dựng một đồ thị, hầu hết chúng biến đổi từng vùng

văn bản thành một nút và có thể khác nhau về cách xây dựng các cạnh Một trong

những kỹ thuật như vậy tạo ra tối đa bốn cạnh cho mỗi node, các cạnh kết

nối mỗi vùng văn bản với bốn vùng văn bản lân cận gần nhất của nó theo mỗihướng (Lên, Xuống, Trái và Phải)

HÌNH 2.14: [Minh hoa sự kết nối của các node trong hóa don!

27

Trang 40

2.3.2.3 Phân loại node

GCN học cách nhúng vectơ đặc trưng của nút (kết hợp giữa word embedding và

kết nối câu trúc với các nút khác) bang cách tạo vector gồm các số thực biểu thị

node đầu vào dưới dạng một điểm trong không gian N chiều và các nút tương

tự sẽ được ánh xạ tớ các điểm lân cận gần trong không gian nhúng (embedding

space) [24], cho phép huấn luyện một mô hình có thé phân loại các node.

"“-

c.

Ẫ encode nodes

original network embedding space

HINH 2.15: Minh họa không gian nhting!®

2.3.3 Processing Key Information Extraction from Documents

us-ing Improved Graph Learnus-ing-Convolutional Networks (PICK)

47]

2.3.3.1 Giới thiệu

Các phương pháp sử dụng Graph convolutional network liên quan gần đây nhất

tới phương pháp của chúng tôi sử dụng là sử dung module dé thị để

lây được các tính năng non-local và multimodal cho việc trích xuất Đầu tién, [33]

15 Anh lay từ https:

//nanonets.com/blog/information-extraction-graph-convolutional-networks/

°"Anh lây từ https:

//nanonets.com/blog/information-extraction-graph-convolutional-networks/

28

Tiêu đề	Trích xuất thông tin hóa đơn sử dụng End-To-End Scene Text Spotting và Graph Convolutional Network-Based Key Information Extraction
Tác giả	Nguyen Trung Bao Anh, Vu Le Hoang Phuc
Người hướng dẫn	PGS. TS. Le Dinh Duy
Trường học	Trường Đại học Công nghệ Thông tin
Chuyên ngành	Khoa học máy tính
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2020
Thành phố	TP. Ho Chi Minh

Định dạng
Số trang	80
Dung lượng	43,11 MB