Khóa luận tốt nghiệp Khoa học máy tính: Tìm hiểu và xây dựng hệ thống trích xuất thông tin văn bản trên dữ liệu ảnh văn bản hành chính

Hình 1: Minh hoa dau vào và đầu ra của bài toản- Về cơ bản thi đây là một bài toán thuộc lĩnh vực xử lý ngôn ngữ tự nhiên natural language processing - NLP, ta có thé sử dụng các phương

Trang 1

ĐẠI HỌC QUOC GIA THÀNH PHO HỒ CHÍ MINH

ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

NGUYỄN HỮU KHANG - 18520892

CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH

GIẢNG VIÊN HƯỚNG DẪN

ThS ĐỖ VĂN TIEN

TP HỒ CHÍ MINH, 2021

Trang 2

DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo quyết định số

35/QD-DHCNTT ngày 17/01/2022 của Hiệu trưởng Trường Đại học

Công nghệ Thông tin.

ne - Chi tich.

Qe cessscseessessee PME - Thu ky.

Ae eee ae GA a8 - Uy vién.

Trang 3

ĐẠI HỌC QUOC GIA TP HO CHI MINH CONG HÒA XÃ HOI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHỆ THÔNG TIN

ĐĂNG KÝ ĐÈ TÀI KHÓA LUẬN TÓT NGHIỆP

TÊN DE TÀI: Tìm hiểu và xây dựng hệ thống trích xuất thông tin văn bản trên dữ liệu ảnh

văn bản hành chính

TÊN DE TÀI TIENG ANH: Research and build Key Information Extraction System for

Official Dispatch

Ngôn ngir thực hiện: Tiếng

Cán bộ hướng dẫn: ThS Đỗ Văn Tiến

Thời gian thực hiện: Từ 09/2021 đến 01/2022

Sinh viên thực hiện:

Nguyễn Hữu Khang Lớp: KMHT2018

Email:18520892@)gm.ui(.edu.vn Điện thoại: 0945466497

Hồ Đặng Thanh Hồ Lớp: KHMT2018

Email:18520760@gm.uit.edu.vn Dién thoai: 0937075219

1 Giới thiệu:

e Hiện nay dữ liệu văn bản đã xuất hiện rất nhiều trên internet, chúng xuất hiện với rất nhiều

định dạng khác nhau và hình ảnh văn bản chiếm một phần rất lớn trong số trên Công việc

quản lý loại đữ liệu này tốn rất nhiều tài nguyên, chi phí, nhân công vì vậy các giải pháp dé

tự động hóa quá trình trên đã trở thành một vấn nhận được rất nhiều sự quan tâm từ cộng đồng nghiên cứu và các doanh nghiệp Bài toán Trích xuất thông tin quan trọng từ hình

ảnh văn ban đã được ra đời dé phục vụ quá trình tự động hóa trên

e Bài toán được mô tả như sau:

o Đầu vào là hình ảnh văn bản mà ta cần rút trích thông tin

Trang 4

Hình 1: Minh hoa dau vào và đầu ra của bài toản

- Về cơ bản thi đây là một bài toán thuộc lĩnh vực xử lý ngôn ngữ tự nhiên (natural

language processing - NLP), ta có thé sử dụng các phương pháp nhận diện ký tự

quang học (optical character recognition - OCR) như các phương pháp ở các bai

báo [1][2][3] đề trích xuất các ky tự từ hình ảnh, từ đó áp dụng các kĩ thuật NLPnhư [4] dé thực hiện việc rút trích các thông tin từ văn bản, tuy nhiên nhữngnghiên cứu gần đây [5][6][7][8][9] đã chỉ ra rằng ngoài nội dung của văn bản thìcác yếu tố như bồ cục văn bản, vị trí các câu đối với toàn cục cũng là những yếu

tố góp phan rất quan trọng dé có thé rút trích các thông tin từ văn bản Các

nghiên cứu áp dụng các cơ chế Attention phối hợp với các đặc trưng hình ảnhcũng như đặc trưng văn bản cũng mang lại những kết quả rất khả quan[8][9][10], thêm vào đó với sự phát triển của các mô hình học sâu về đồ thị cụthê hơn là đồ thị tích chập (graph convolutional neural network) [11][7] cũng đã

mở ra một hướng phát trién mới cho bài toán trên Trong đề tài này, sinh viên

chú trọng việc áp dụng các mô hình trích xuất thông tin tiên tiến lên bộ dit liệuvăn bản tiếng việt cụ thể hơn là văn bản hành chính của trường Đại học Côngnghệ Thông tin từ đó làm tiền đề cho các tác vụ khác

2 Mục tiêu:

e Tìm hiểu tổng quan về bài toán trích xuất thông tin từ hình anh văn bản, các

hướng tiếp cận

Xây dựng bộ dữ liệu phục vụ cho việc trích xuất thông tin văn bản tiếng Việt

Thử nghiệm các phương pháp tiên tiến cho bài toán trích xuất thông tin từ văn

bản.

Trang 5

4 Phương pháp & Kết quả dự kiến:

e Đối với việc tìm hiểu tổng quan về bài toán trích xuất thông tin từ hình ảnh

văn bản, các hướng tiếp cận

toán, các phương pháp, hướng giải quyết

o Kết quả dự kiến: Tài liệu tong hợp một số phương pháp, hướng tiếp cận

phổ biến

bản tiếng Việt:

trường đại hoc Công nghệ Thông tin, gan nhãn cho các văn bản trên.

o Kết quả dự kiến: Bộ đữ liệu hình ảnh của các văn ban đã được gan nhãn

phục vụ cho mục đích huấn luyện, và kiểm thử mô hình

e_ Đối với việc thử nghiệm các phương pháp tiên tiến cho bài toán trích xuất

thông tin từ văn bản:

đã xây dựng, đánh giá độ hiệu quả của các phương pháp nảy trên bộ dữ

liệu đã xây dựng.

©_ Kết quả dự kiến: kết quả huấn luyén/kiém thử của các mô hình này trên

bộ dữ liệu đã xây dựng, mô hình có thể dự đoán và cho ra kết quả như

mong muốn trên văn bản tiếng Việt

e - Đối với việc xây dựng ứng dụng hỗ trợ cho việc trích xuất thông tin trên

văn bản tiếng Việt:

° Phương pháp: xây dựng một hệ thống nhận đầu vào là hình ảnh văn bản

và trả về kết quả các trường thông tin được rút trích từ hình ảnh văn bản.

Kết quả dự kiến: hệ thống có thê thực hiện được tác vụ rút trích

thông tin.

Trang 6

5 Thách thức

e Tài nguyên tính toán dé có thé huấn luyện các mô hình học sâu là rất tốn

kém.

e Dữ liệu đầu vào có chất lượng hình ảnh kém, thông tin nhập nhằng, nhiều

loại chữ khác nhau, nền văn bản phức tạp

e Các công nghệ áp dung cho bài toán này là những công nghệ mới như Graph

neural network, Transformer, Attention,

6 Tai liệu tham khảo

[1] Ebin Zacharias, Martin Teuchler and Bénédicte Bernier "Image Processing Based Scene-Text Detection and Recognition with Tesseract".

[2] Yuliang Liu, Hao Chen, Chunhua Shen, Tong He, Lianwen Jin, Liangwei Wang.

"ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve Network" Accepted to Proc IEEE Conf Comp Vis Pattern Recogn (CVPR) 2020.

[3] Nguyen Nguyen, Thu Nguyen, Vinh Tran, Minh-Triet Tran, Thanh Duc Ngo, Thien Huu Nguyen, Minh Hoai "Dictionary-guided Scene Text Recognition".

for Keyphrase Extraction from Scholarly Documents".

[5] Anoop R Katti, Christian Reisswig, Cordula Guder, Sebastian Brarda, Steffen Bickel,

Johannes Hohne, Jean Baptiste Faddoul "Chargrid: Towards Understanding 2D Documents" Published as a conference paper at EMNLP 2018.

[6] Sun, H., Kuang, Z., Yue, X., Lin, C., & Zhang, W (2021) Spatial Dual-Modality Graph Reasoning for Key Information Extraction arXiv preprint arXiv:2103.14470.

[7] Wenwen Yu, Ning Lu, Xianbiao Qi, Ping Gong, Rong Xiao "PICK: Processing Key Information Extraction from Documents using Improved Graph Learning-Convolutional

Networks"

[8] Srikar Appalaraju, Bhavan Jasani, Bhargava Urala Kota, Yusheng Xie "DocFormer:

End-to-End Transformer for Document Understanding"

[9] Lukasz Garncarek, Rafat Powalski, Tomasz Stanistawek, Bartosz Topolski, Piotr Halama, Michat Turski, and Filip Gralinski "LAMBERT: Layout-Aware Language Modeling for Information Extraction"

[10]Rafal Powalski, Lukasz Borchmann, Dawid Jurkiewicz, Tomasz Dwojak, Michal Pietruszka, Gabriela Palka "Going Full-TILT Boogie on Document Understanding with Text-Image-Layout Transformer"

Trang 7

e Giai đoạn 1 (09/2021 - 11/2021): Tìm hiểu các tài liệu liên quan đến đề tài, các kĩ thuật tiền

xử lý đữ liệu và các phương pháp tốt nhất hiện nay cho việc trích xuất thông tin từ văn bản.Tiến hành thu thập, gán nhãn trên bộ dữ liệu mà nhóm thu thập được

Giai đoạn 2 (10/2021 - 12/2021): Tìm hiểu và xây dựng một mô hình có thể trích xuấtthông tin từ các văn bản tiếng Việt, đánh giá được kết quả của mô hình

Phân công công việc:

Tên sinh viên

Tìm hiểu đề tài

Nghiên cứu và triển khai các phương

pháp xử lý dữ liệu, phân loại ảnh.

Nguyễn Hữu Khang Tìm kiếm các phương pháp về trích xuất

thông tin trong văn bản va áp dụng các phương pháp đó.

Viết báo cáo

Tìm hiểu đề tài

Nghiên cứu và triển khai các phương

Hồ Đặng Thanh Hồ pháp xử lý dữ liệu, phân loại ảnh

Tìm kiếm các phương pháp về trích xuất

thông tin trong văn bản va áp dụng các phương pháp đó.

Viết báo cáo

Xác nhận của CBHD TP HCM, ngày tháng năm 2021

(Ký tên và ghi rõ họ tên) Sinh viên

(Ký tên và ghi rõ họ tên)

Trang 8

LỜI CẢM ƠN

Đầu tiên, chúng em xin chân thành cảm ơn Ths Đỗ Văn Tiến, là ngườithầy đã tận tình hướng dẫn giúp đố chúng em trong những khó khăn

của khóa luận, đưa ra những lời khuyên bổ ích không chỉ áp dụng

cho khóa luận mà còn là kim chỉ nam cho chúng em sau này.

Đồng thời, chúng em cũng muốn gửi lời cảm ơn tới toàn thể thầy cô

giáo trong Khoa Khoa học máy tính, và những thầy cô đã giảng dạy

chúng em trong thời gian học tập và rèn luyện tại trường Đại học

Cuối cùng, chúng em xin cảm ơn ba mẹ, các anh chị, bạn bè đã luôn

bên cạnh động viên, ủng hộ và là chỗ dựa tinh thần vững chãi trongsuốt thời gian học tập ở trường Đại học Công nghệ Thông tin

TP Hồ Chí Minh, tháng 12 năm 2021

Sinh viên thực hiện

Trang 9

13 Dong góp củakhóaluận

14 Cấutrúckhóaluận

2_ TỔNG QUAN

21 Médau Q Q Q Q Q2

2.2 Giới thiệu các bài toán rút trích thông tin trong hình ảnh văn bản

và các bài toán lên quan

2.2.1 Bài toán rút trích thôngtin

2.2.2 Bài toán phát hiện vănbản

Trang 10

MỤC LỤC

2.2.3 Bài toán nhận diệnchữ 13

2.3 Một số nghiên cứu liên quan đối với bài toán rút trích thông tin 14

2.3.1 Hướng tiếp cận truyềnthống 14

3.1.1.3 Positional Encoding (Ma hóa vitri) 25

3.1.2 Mạng thần kinh đồ thị học sâu (Graph neural network

3.1.2.1 Một số khai niệm trong lí thuyết dé thi 273.1.2.2 Cac bài toán điển hình đố v6iGNN 283.1.2.3 Nhúng thông tin trong đồ thị (Graph-based

Embedding) 29

3.2 Áp dung Deep Learning vào bài toán nhận diện chữ viết tiếng Việt 30

3.2.1 Phát hiện dòng văn ban bằng Pixel Aggregation

Trang 11

MỤC LỤC

4_ THỰC NGHIỆM VÀ ĐÁNH GIÁ 42

4.2 Xây dựng tập dữ liệu 42

4.2.1 Giai đoạn phát hiện dòng văn ban (Text line Detection) 43 4.2.1.1 Quá trình thu thập dữ liệu 44

4.2.1.2 Quá trình tiền xử lý dữliệu 44

42.13 Cáchthựchiện 44

4.2.1.4 Thống kê số liệu tập dữ liệu 45

4.2.2 Giai đoạn nhận diện chữ (Text Recogmtlon) 46

4.2.2.1 - Quá trình thu thập dữ liệu 46

42.23 Cách thứ thựchiện 47

4.2.3 Giai đoạn trích xuất thông tin từ trong văn bản (Key information extracion) - 48

42.3.1 Qua trình thu thập dữ lệu 49

4.2.3.3 Cách thứcthựchiện 49

4.3 Mộtsố độ đođánhgiá 50

43.1 Một số khái nệm cơbản 50

43.2 loU ee ee ee ee v và 51 4.3.3 PrecisionvàRecal 52

44 Kết quả và đánhgiá 54

4.4.1 Kếtquảthựenghiệm 54

4.4.1.1 Giai đoạn phát hiện chữ (Text Detection) 54

4.4.1.2 — Giai đoạn nhận diện chữ (Text Recognition) 55

Trang 12

MỤC LỤC

4.4.1.3 Giai đoạn trích xuất thông tin (Key

informa-tion exfracton) 57

45 Đánh giátoànhệthống: - 58

4.6 Kétchuong 20.0.0 00 eee ee 59 XAY DUNG UNG DUNG MINH HOA THUC NGHIEM 60 5.1 Médau ee 60 5.2 Sd dd Use-case 2 ee 60 5.2.1 Danhsach Actor 2 02 200004 61 5.2.2 Danhsach Use-case 61

5.2.3 Dac taUse-case 2 ee ee 62 5.2.3.1 Đặc tả Use-case "Chọn ảnh từ thu muc" 62

5.2.3.2 Đặc tả Use-case "Chon ảnh từ đường dẫn" 62

53 Sod6tuantd Ặ Q 00000000000 63 5.3.1 Chọn ảnh từthưmục 63

5.3.2 Chọn ảnh từ đường dẫn 64

5.4 _ Mô hình hoáứngxử 66

54.1 Sơđồtrạangthá 66

5.4.1.1 Chọnảnhtừthưmục 66

5.4.1.2 Chọnảnh từ đườngdẫn 67

5.4.2 Luông xử lý dữliệu 67

55 Thiétkéhéthéng 69

5.5.1 Thiếtkếkiếntrúc - 69

5.5.2 Mô tả chỉ tiết từng thành phan trong hệ thống 71

56 Caidithéthéng 0.20.00 00200000022 eee 71 5.6.1 Các API hệ thống rút trích thông tin từ hình ảnh van ban 71 5.6.2 Giaodiện Ặ 202000002 ee 72 5.6.2.1 Sơ đồ luồngmànhình 72

XI

Trang 13

MỤC LỤC

5.6.2.2 Mô tả chỉ tếtmànhình 735.6.3 Kétqua 0 ee Qua 745.64 Kétchuong 0 000.0000 00 ee 74

6 KẾT LUẬN VA HƯỚNG PHÁT TRIEN 75

62 Hướng pháttriển ee 76

Tài liệu tham khảo 78

xI

Trang 14

Danh sách hình ve

1.1 Ví dụ về hình ảnh đầu vào (Trái) và kết quả trả về (Phả) 4

1.2 Cac trường thông tin được rút trích 8

2.1 Luông xử ly của các hệ thống trích xuất thông tin từ hình ảnh 11

2.2_ Đầu vào - dau ra của bài toán rút trích thôngtin 12

2.3 Đầu vào - đầu ra của bài toán phát hiện văn bản 13

2.4 Đầu vào - đầu ra của bài toán nhận diện văn bản 14

3.1 Kiến trúc tổng thể của Transformer - 23

3.2 Multi-Head Attention 24

3.3 Dự đoán liênkết 28

3.4 Phân loạđỉnh Ặ.Ặ.ẶẶẶ 28 3.55 Gomcum QC Q Q Q Q HQ HQ Q2 v2 29 3.6 Một số kết quả thu đượctừPAN 31

3.7 Quy trình tổng thểcủaPAN 31

3.8 CácchitếtcủaFPEM 32

3.9 Mô hình tổng thể của PANet 33

3.10 Các chỉ tiết của FEM 34

3.11 Ví dụ về chữ được nhận diện trong VietOCR 35

3.12 Kiến trúc TransformerOCR trong VietOCR 36

3.13 Kiến trúc Attentionocr trong Vie€tOCR 37

xiil

Trang 15

DANH SÁCH HÌNH VẼ

3.14 Kiến trúc mô hình SDMGR

3.15 Kiến trúc mô-đun Dual Modality Fusion

4.1 4.2 4.3 4.4 4.5 4.6 4.7 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 Mau dữ liệu trên văn bản mà nhóm sẽ xử lý

Thống kê số lượng dữ liệu trên các loại và các tập dif liéu

Thống kê số lượng dữ liệu trên các loại và các tập dữ liéu

Thống kê số lượng dữ liệu trên các loại và các tập dữ liệu

Minh hoa cho Confusion matrix

Minh hoạ các độ đo qualoU

Hình minh hoa cách tính Precision và Recall

Sơ đồ Use-case của ứng dụng

Sơ đồ tuần tự chức năng "Chọn hình ảnh từ thư mục"

Sơ đồ tuần tự chức năng "Chọn hình ảnh từ đường dẫn"

Sơ đồ trạng thái chức năng "Chọn hình ảnh từ thư mục" Sơ đồ trạng thái chức năng "Chọn hình ảnh từ đường dẫn" Kiến trúc3lớp 2 co Sơ đồ luồng màn hình của ứng dụng nhận diện chữ trong hình ảnh Màn hình webste

XIV

43

46

48

50 51 52 53

61 64 65 66 67 69 72

Trang 16

Thống kê đánh giá giữa AttentionOCR và TransformerOCR

Thống kê đánh giá giữa PICK vaSDMGR Đánh giá sự ảnh hưởng của thông tin trực quan đến độ hiệu quả

của mô hình SDMRG

Đánh giá hệ

thống -Bảng danh sách Actor 2 ốc Bảng danh sách Use-case

Ý nghĩa các lớp trong kiến trúc 3lớp

-Mô tả chỉ tiết BUS Đầu vào của APl/Mieđ ẶẶẶ Ặ SoĐầu ra của API /kie 2 ee

Danh sách mànhình

Thông số giao diện website

XV

Trang 17

Danh mục từ viết tắt

Từ viết tắt | Nội dung

DL Deep Learning

CNN(s) Convolutional Neural Networks

RNN Recurrent Neural Network LSTM Long Short Term Memory GNN Graph neural network

Conv Convolution

Seq2seq Sequence to sequence

LIEP Learning Information Extraction Patterns

XVI

Trang 18

TÓM TẮT KHÓA LUẬN

Văn bản là loại dữ liệu không có cấu trúc cũng như tổn tại với rấtnhiều định dạng khác nhau chính vì vậy quá trình số hóa và rút tríchthông tin từ văn bản tốn rất nhiều chi phí, tài nguyên, sức người chonên các giải pháp tự động hóa quá trình trên luôn là vấn đề được

các doanh nghiệp, cũng như cộng đồng nghiên cứu quan tâm Các

hệ thống rút trích thông tin văn bản ra đời nhằm phục vụ những nhucầu đó Cụ thể, hệ thống này có thể giúp con người đọc qua một văn

bản dưới dạng hình ảnh sau đó đưa ra các thông tin mà người dùng

đã quy định trước đó một cách nhanh chóng và tự động, Trong thực

tế cũng đã có một số trang web triển khai thành công hệ thống nàynhư Nano-Net!, SAP? và một số trang web hỗ trợ cho tiếng việt như

computervisionỶ Tuy nhiên hầu hết các hệ thống này đều tính phí

cho người sử dụng, công nghệ sử dụng bên trong của các hệ thốngnày không được công bố Chính vì những lý do trên, nhóm đã quyết

định nghiên cứu và xây dựng một hệ thống phục vụ việc rút trích

thông tin cho dữ liệu Hình ảnh văn bản hành chính của Trường

Dai học Công nghệ Thông tin thông qua khoá luận lần này

Hướng tiếp cận học sâu hiện nay được cho là đạt kết quả tốt và được

sử dụng rất phổ biến trong các hệ thống rút trích thông tin Đây cũng

là một hệ thống có nhiều bước cho nên việc lựa chọn phương pháp

!https://nanonets.com

?https://www.sapstore.com/solutions/44901/Document-Information-Extraction

3https://demo.computervision.com.vn/ocr/

Trang 19

phù hợp với từng bài toán con ứng với mỗi bước cũng là một thử

thách lớn.

Tóm lại, khóa luận này đã thực hiện những nội dung sau:

« Tim hiểu tổng quan về hệ thống rút trích thông tin cho hình ảnh

văn bản đặc biệt là các văn bản hành chính cho tiếng Việt

¢ Khảo sát các phương pháp tương ứng với từng mô-đun của hệ

thống rút trích thông tin

» Xây dựng tập dữ liệu huấn luyện bao gồm hơn 1800 trang văn

bản cho hệ thống rút trích thông tin từ văn bản hành chính

¢ Huấn luyện, đánh giá một số phương pháp tương ứng với từng

mô-đun trên tập dữ liệu đã xây dựng cụ thể:

— Đối với bài toán phát hiện dong văn bản là PANet[ 1], FCENet[2],

DGGR[3] Trong đó PANet cho kết quả và hiệu năng tốtnhất với Fl-score là 94.6% với tốc độ xử lí 14.68 fps

— Đối với bài toán nhận diện dòng văn bản là STARNet[4]

và VietOCR! Trong đó VietOCR kết quả và hiệu năng tốt

nhất với Precision-full-sequence là 87.49% và tốc độ xử lí

là 27 fps.

— Đối với bài toán rút trích thông tin là PICK[5], SDMGR[6]

trong đó SDMGR có hiệu năng tốt nhất với fl-score là98.3% và tốc độ 2.5 fps

s Xây dựng ứng dụng web rút trích thông tin từ van bản hành

chính của trường Đại học Công nghệ Thông tin theo sáu trường

thông tin chính là: Số, ngày gửi, số kế hoạch, ngày kế hoạch,

nơi nhận và người ký.

'https://github.com/pbcquoc/vietocr

Trang 20

Chương 1

MỞ ĐẦU

1.1 Đặt van đề

Văn bản là phương tiện để con người lưu trữ thông tin và trong cuộc cách

mạng 4.0 khối lượng lưu trữ trên internet của loại dữ liệu này đã tăng trưởng rấtmạnh Văn bản được lưu trữ với rất nhiều định dạng khác nhau, và chúng là loại

dữ liệu không có cau trúc nên việc số hoá loại dữ liệu này tốn rất nhiều chi phí,

tài nguyên cũng như nhân lực Chính vì vậy các nhà nghiên cứu cũng như các

doanh nghiệp, công ty công nghệ hàng đầu đang cố gắng tìm cách tự động hoá

quá trình trên và hệ thống Trích xuất thông tin quan trọng từ hình ảnh vănbản đã được ra đời để phục vụ mục đích này.

Mô tả bài toán trích xuất thông tin từ hình ảnh văn bản:

« Ta sẽ định nghĩa trước các trường thông tin mà ta cần rút trích (information

Trang 21

1 Mở dau

gửi về Ban KH&CN — ĐHQG-HCM, phường Lin Văn bản góp ý của Quý đơn vị gửi về Ban KH&CN — ĐHQG-HCM, phường Linh

edu.vn trước ngày 09/11/2021 (Thứ Ba) đi trước ngây 09/11/2021 (Thi la)

ơn sự quan tim và phối hợp thực hiện của Quy đơn vị Trân trọng cám om sự quan tâm và phối hợp thực hiện của Quý đơn

Hình 1.1: Ví dụ về hình ảnh đầu vào (Trái) và kết quả trả về (Phải)

Dựa trên sự hiểu biết có hạn của nhóm trong thời gian khảo sát, nhóm nhậnthấy việc xử lý rút trích thông tin quan trọng từ hình ảnh văn bản tiếng Việt hiệntại ở Việt Nam không có nhiều công bố khoa học Hiện nay có một số dịch vụ

nổi bật của nước ngoài đã được triển khai để giải quyết bài toán này như SAP!,

ở Việt Nam thì có computervision.com.vn’, tuy nhiên các dịch vụ này đều là

dịch vụ thương mại và công nghệ sử dụng trong đó vẫn là một hộp đen mà người

ngoài không biết được Để giảm bớt chi phí sử dụng, nắm bắt công nghệ, và góp

một phần sức lực cho việc số hóa văn bản của trường Đại học Công nghệ Thôngtin Nhóm đã quyết định nghiên cứu và xây dựng hệ thống trích xuất thông tinvăn bản Hệ thống tập trung giải quyết việc rút trích thông tin từ các văn bảnđược scan, hoặc ảnh chụp văn bản chính diện Với hệ thống này, chúng ta có thểrút trích các thông tin mà ta mong muốn trong hình ảnh Việc này sẽ làm giảmbớt sức lao động của con người, tự động hóa được quá trình số hóa văn bản nhằm

'https://www.sapstore.com/solutions/44901/Document-Information-Extraction/

?https://demo.computervision.com.vn/ocr/?type=hoa-don-full

Trang 22

1 Mở dau

phục vụ cho các mục đích lưu trữ, truy vấn, quản lý được dễ dàng hơn

Những năm gan đây, lượng dif liệu xuất hiện trên internet ngày càng nhiễu,

điều này góp phần cho học sâu (deep learning - DL) phát triển nhanh chóng vàdần trở thành một xu hướng với tốc độ tính toán cũng như độ chính xác ngàycàng được cải tiến Các phương pháp và thuật toán áp dung DL đa số đều đạtđược kết quả tốt hơn so với phương pháp tiếp cận sử dụng đặc trưng chuyêngia (hand-crafted feature) Chính vì thế mà hướng tiếp cận DL được cộng đồngnghiên cứu rất quan tâm Cho nên trong quá trình nghiên cứu phát triển DL, sốlượng các thuật toán, phương pháp từ đó xuất hiện ngày càng phong phú và đa

dạng Để biết được đâu là thuật toán phù hợp với mục đích sử dụng trong hệ

thống này, nhóm đã tiền hành khảo sát đánh giá trên nhiều phương pháp để chọn

ra phương pháp phù hợp nhất cho từng bước Từ đó áp dụng các phương pháp

này xây dựng nên hệ thống

Thách thức:

» Về dữ liệu:

— Quá trình rút trích thông tin sẽ có một số trường thông tin bị nhập

nhằng với nhau gây ra khó khăn cho các mô hình học sâu về rút trích

thông tin.

— Các văn bản hành chính ở trường Dai học Công nghệ Thông tin

thường rất đa dạng về cách trình bày, kiểu chữ, và vì là dữ liệu trêngiấy in và được quét sau đó đưa lên mạng nên chất lượng hình ảnhcủa các văn bản mà nhóm có được là tương đối thấp, gây rất nhiềukhó khăn cho việc gán nhãn, huấn luyện cũng như là chạy thử các mô

hình của nhóm.

— Các dữ liệu dưới dạng văn bản hành chính thường có nền khá phức

tạp khi các dấu mộc hiện nay được đóng trực tiếp và đè lên các nội

Trang 23

1 Mở dau

dung khác bên trong văn bản.

— Trong các văn bản hành chính của trường Đại học Công nghệ Thông

tin không chỉ có những ký tự chữ in đánh máy mà còn có rất nhiềuchữ viết tay

* Về phương pháp:

- Luồng xử lý của hệ thống rút trích thông tin từ hình ảnh văn bản

thường được phân thành ba mô-đun chính là phát hiện văn bản, nhận

diện và cuối cùng là rút trích thông tin, với mỗi mô-đun sẽ có rất

nhiều các phương pháp và mô hình cần phải tìm hiểu, thử nghiệm và

đánh giá Chính vì vậy việc cân bằng giữa thời gian xử lý cũng như là

độ chính xác cũng là một thách thức lớn đối với hệ thống

« VỀ tài nguyên:

— Các mô hình cũng như là phương pháp phục vụ cho bài toán rút trích

thông tin từ văn bản thường là những mô hình học sâu, chính vì vậy

chúng đòi hỏi một lượng tài nguyên về phần cứng đủ lớn để có thể

huấn luyện, đánh giá và triển khai thành một ứng dụng thức tế

1.2 Mục tiêu và phạm vi

1.21 Mục tiêu

Nhóm tập trung giải quyết bài toán rút trích thông tin trong hình ảnh Để

hoàn thành công việc, nhóm đã dé ra mục tiêu cụ thé sau:

« Tìm hiểu tổng quan về bài toán trích xuất thông tin từ hình ảnh văn bản,

các hướng tiếp cận

Trang 24

« Xây dựng bộ dữ liệu tiếng Việt về văn bản hành chính của trường Dai học

¢ Thử nghiệm các phương pháp PANet[1], FCENet[2], DGGR[3] cho qua

trình phát hiện dòng văn bản, VietOCR!, STARNet[4] cho quá trình nhận

diện dòng văn bản, SDMGR[6], PICK[5] cho quá trình trích xuất thông

tin từ văn bản trên tập dữ liệu tiếng Việt được xây dựng

» Xây dựng một ứng dụng minh hoa cho khoá luận của nhóm.

¢ Các trường thông tin mà nhóm sẽ tập trung rút trích trong dữ liệu được

minh họa ở Hình 1.2

!https://github.com/pbcquoc/vietocr

Trang 25

1 Mở dau

BO KHOA HOC [VA CONG NGHỆ CONG HOA XÃ HOI CHU NGHĨA VIET NAM

cuc SỞ HỮU TRÍ TUỆ Độc lập - Tự do - Hạnh phúc.

Tà Nội, ngày 20 tháng O1 năm 2017 }

|pẾN Ngày OÉ.C2 2, Vé việc chấp nhận đơn hợp lệ

| = CUC TRUONG CỤC SỞ HỮU TRÍ TUỆ

Can cứ Điều lệ Tổ chức và Hoạt động của Cục Sở hữu trí tuệ ban hành theo Quyết định số

69/QĐ-BKHCN ngày 15/01/2014 của Bộ trưởng Bộ Khoa học và Cong nghệ:

2 và điểm 13.6.b của Thông tư số 01/2007/TT-BKHCN ngày 14.02.2007 của BO Khoa học và Công nghệ hướng dẫn thi hành Nghị định số 103/2006/NĐ-CP;

Can cứ kết quả thẩm định hình thức đơn đăng ký giải pháp hữu ích:

Số đơn: 2-2016-00434

QUYẾT ĐỊNH:

Điều 1 Chấp nhận đơn hợp lệ với những ghi nhận sau đây:

Ngày nộp đơn: 09/12/2016

Chủ đơn(*): Trường Đại học Công nghệ Thông tin (VN)

Dia chỉ: Khu phố 6, phường Linh Trung, quận Thủ Đức, thành phố Hồ Chí Minh

“Tên giải pháp hữu ích: Phương pháp phát hiện biển báo giao thông sử dụng kết hợp đa đặc

trưng

Điều 2 Công bố đơn trên Công báo sở hữu công nghiệp và thẩm định nội dung trong trường hop

có yêu cầu theo quy định tại điểm 25.1 của Thông tư số 01/2007/TT-BKHCN.

Điều 3 Chánh Văn phòng, Trưởng phòng Đăng ky, Trưởng phòng Thông tin chịu trách nhiệm thi

hành Quyết định này.

TL CỤC TRUONG Noi nhận: ING ANG CHẾ SỐ 1

[Chis don/ đại điện của chủ đơn:

> Người ky

Hình 1.2: Các trường thông tin được rut trích

1.3 Đóng góp của khóa luận

> Ngay gửi

Sau đây là một số đóng góp mà nhóm thực hiện có được sau quá trình thực

hiện khóa luận:

» Hệ thống lại các kiến thức, hướng tiếp cận và giải quyết bài toán rút trích

thông tin từ trong hình ảnh văn bản tiếng Việt.

« Đánh giá một số phương pháp tiên tiến ứng với từng mô-đun của bài toán

- Đối với bài toán phát hiện dòng văn bản là PANet[1], FCENet[2],

DGGR[3] Trong đó PANet cho kết quả và hiệu năng tốt nhất vớiF1-score là 94.6% với tốc độ xử lý 14.68fps

— Đối với bài toán nhận diện dòng văn bản là Starnet[4] và VietOCR!

Trong đó VietOCR kết quả và hiệu năng tốt nhất với

Precision-full-sequence là 87.49% và tốc độ xử lý là 27fps

'https://github.com/pbcquoc/vietocr

Trang 26

1 Mở dau

— Đối với bài toán rút trích thông tin là PICK[5], SDMGR[6] trong đó

SDMGR có hiệu năng tốt nhất với f1-score là 98.3% và tốc độ 2.5

fps.

» Xây dựng được mot tập dữ liệu tiếng Việt để phục vụ cho bài toán rút trích

thông tin từ trong hình ảnh văn bản tiếng Việt (cho cả 3 giai đoạn bao gồm

phát hiện dòng văn bản, nhận diện dòng văn bản và rút trích thông tin từ

văn bản).

» Xây dựng chương trình minh họa cho phép người dùng sử dụng để nhận

diện, rút trích thông tin có trong hình ảnh.

1.4 Cấu trúc khóa luận

Chương 1: Giới thiệu tổng quan đề tài

Chương 2: Trình bày tổng quát các hướng tiếp cận có thể giải quyết bài toán

rút trích thông tin quan trọng từ hình ảnh văn bản.

Chương 3: Trình bày các kiến thức cơ bản về Transformer, Attention, Graph

Neural Networks và các mô hình mang Deep Learning được áp dụng cho bài toán.

Chương 4: Trình bày cách đánh giá phương pháp trên bộ dữ liệu và kết quả

so sánh giữa các phương pháp.

Chương 5: Trình bày cách xây dung ứng dụng va áp dụng các mô hình mạng

đã nghiên cứu vào trong dé tài

Chương 6: Trình bày kết luận và hướng phát triển của đề tài

Trang 27

Chương 2

TỔNG QUAN

2.1 Mở đầu

Để hiểu rõ hệ thống rút trích thông tin trong hình ảnh văn bản, ta cần làm rõ

các khái niệm liên quan, các bài toán con liên quan, đồng thời tìm hiểu một sốphương pháp tiếp cận hiện nay Vì vậy, trong chương này, nhóm thực hiện sẽ giới

thiệu một số khái niệm cơ bản đồng thời khảo sát một số phương pháp nghiên

cứu đã từng được áp dụng từ trước đến nay, nêu ra những thành công và thất bại

trong từng phương pháp.

Một hệ thống trích xuất thông tin từ hình ảnh văn bản thường sẽ chia thành

3 mô-đun chính bao gồm

¢ Phát hiện dòng văn ban

¢ Nhận diện dòng van ban

* Rút trích thông tin

Và đây cũng chính là luồng xử lý mà nhóm sẽ thực hiện trong xuyên suốt khóa

luận lần này (Hình 2.1)

10

Trang 28

2 Tổng quan

2.2 Giới thiệu các bài toán rút trích thông tin trong

hình ảnh văn bản và các bài toán liên quan

2.2.1 Bài toán rút trích thông tin

Văn bản là một loại dữ liệu không có cấu trúc và xuất hiện với nhiều địnhdạng khác nhau trên internet Chúng mang rất nhiều thông tin mà con người có

thể khai thác được, tuy nhiên quá trình khai thác thông tin với loại tài liệu này

tốn rất nhiều nhân lực và chi phí Bài toán rút trích thông tin từ văn bản đã ra

đời để nhằm mục đích tự động hóa quá trình trên

Bài toán rút trích thông tin ban đầu được xem là một bài toán con của lĩnh

vực xử lý ngôn ngữ tự nhiên với mục tiêu là phân loại một chuỗi ký tự vào một

trong các trường thông tin được định nghĩa trước bởi con người Tuy nhiên, trên

thực tế văn bản được lưu trữ ở nhiều dạng khác nhau trên Internet và hình ảnhvăn bản là một trong những loại dữ liệu văn bản phổ biến, kiểu dữ liệu này đãđặt ra thêm rất nhiều thách thức cho các nhà nghiên cứu, và vô số hướng tiếp

11

Trang 29

2 Tổng quan

cận đã ra đời Vì là dữ liệu dạng hình ảnh nên chúng ta không có sẵn các ký tự

trong văn bản mà ta cần phải thực hiện các bước tiền xử lý để rút trích các chuỗi

ký tự trong hình ảnh để đưa bài toán về dạng rút trích thông tin từ văn bản thôngthường, từ đó áp dụng các phương pháp về rút trích thông tin từ văn bản để giảiquyết bài toán, ngoài ra ta có thể khai thác các thông tin trực quan về vị trí của

các chuỗi ký tự so với toàn cục văn ban, , những thông tin nay cũng đóng vai

trò rất quan trọng có thể cải thiện độ chính xác của mô hình

¢ Dữ liệu đầu vào: Hình ảnh tài liệu/văn bản.

» Dư liệu đầu ra: Là các chuỗi ký tự thuộc các trường thông tin mà ta muốn

fd phối hop thực hiện của Quy đơn v =e TRUONG BAN BAN KH&CN

Nei nhận TL GIAM DOC

Như tr TRUONG BAN BAN KH&CN

Hình 2.2: Đầu vào - dau ra của bài toán rút trích thông tinh

2.2.2 Bài toán phát hiện van ban

Mục đích của bài toán này là phát hiện ra các ứng cử viên có thể là chữ, hoặc

câu có trong ảnh, đây là một trong 2 bước nhằm rút trích ký tự/câu từ hình ảnh

văn bản phục vụ rât nhiêu cho việc sô hóa

12

Trang 30

2 Tổng quan

* Dữ liệu đầu vào: Hình ảnh tài liệu/văn bản.

» Dư liệu đầu ra: Là thông tin các hộp giới hạn bao xung quanh các dòng

văn bản trong hình ảnh văn bản.

Vin bản góp ý của Quý đơn vị gửi về Ban KH&CN ~ ĐHQG-HCM, phường Linl

XE 2n ni co _— “Trang, quận Thủ Đức; điện thoại 0837 242 160 - 1364 và qua email?

Trung, quận Thủ Đức; điện thoại 0837 242 160 - 1364 và qua email *

Äoyduag/@vnuhem.edu.vn trước ngày 09/11/2021 (Thi Ba) để tổng hop,

nvdung@vnuhem.edu.vn trước ngày 09/11/2021 (Thứ Ba) để tổng hợp.

F : ˆ

Trân trọng cảm ơn sự quan tim và phối hợp thực hiện của Quý đơn vị Trân trong cảm ơn sự quan tắm và phối hợp thực hiện của Quý đơn vj

Noi nhận TL GIÁM ĐÓC Noi nhận) | ŸTL, GIAM DOG

Law VT, KHCN JAN BAN KH&CN tTrruc TRƯỜNG BAN BAN KH&CN

“ng

aD

`=—

Hình 2.3: Đầu vào - đầu ra của bài toán phát hiện văn bản

2.2.3 Bài toán nhận diện chữ

Mục đích của bài toán này là nhận diện các chữ/câu từ hình ảnh Trong hệ

thống nhận diện chữ quang học (optical character recognition) thì bước này sẽ

nhận các ảnh đầu vào được cắt từ ảnh gốc theo vị trí của các hộp giới hạn, đây

là một trong 2 bước nhằm rút trích ký tự/câu từ hình ảnh văn bản phục vụ rat

nhiều cho việc số hóa.

¢ Dữ liệu đầu vào: Hình ảnh chữ/câu văn bản.

° Du liệu đầu ra: Chữ viết nếu có được rút trích trong hình ảnh (Hình 2.4).

13

Trang 31

2 Tổng quan

xay4p.I4 #4] Kink biti: TRƯỜNG ĐẠI HỌC,

10.02.2017 Kính gửi: TRƯỜNG ĐẠI HỌC

Nguyén Hội Nghĩa We Đức Nghĩa Này:

Nguyễn Hội Nghĩa Nguyễn Đức Nghĩa Ngày: 05.01.2017

+ Dữ liệu bài thi tuyển sinh Tiến sĩ: NCS- MATRUONG.xIs(x) Số AÓ

+ Dữ liệu bài thi tuyển sinh Tiến sĩ: NCS-MATRUONG.xIs(x) Số: 10

CBCT nhắc thí sinh còn 15 phút làm bài 1 Nguyên tắc chung Chuyén: DEN

CBCT nhắc thí sinh còn 15 phút làm bài 1 Nguyễn tắc chung Chuyển DEN

Hình 2.4: Dau vào - dau ra của bài toán nhận diện văn ban

2.3 Một số nghiên cứu liên quan đối với bài toán rút

trích thông tin

Các hướng tiếp cận đối với bài toán Rút trích thông tin từ hình ảnh văn bản

rất đa dạng Trong phần này nhóm sẽ chỉ ra các cách tiếp cận phổ biến cũng nhưcác phương pháp tiêu biểu thuộc những cách tiếp cận trên

2.3.1 Hướng tiếp cận truyền thông

Các phương pháp tiếp cận truyền thống sử dụng các đặc trưng được khuyến

nghị từ chuyên gia (hand-crafted features) để rút trích thông tin từ các hình ảnh

Trang 32

2 Tổng quan

được phân loại tương ứng với các mẫu văn bản trong bộ dữ liệu dựa vào bố cục

hình ảnh, từ đó ta có thể định nghĩa trước các luật để rút trích thông tin và trả về

kết quả cho người dùng, người dùng sẽ sửa lỗi các dữ liệu rút trích bị sai và gửikết quả lại hệ thống Hệ thống sẽ chỉnh sửa lại các luật dựa trên các dữ liệu sai

được gửi lại bởi người dùng.

Uu điểm:

« Phương pháp trên có tốc độ xử lý nhanh chóng, vì các mẫu văn bản đều

được định nghĩa sẵn các luật.

* Có khả năng cập nhật các luật sẵn có thông qua cơ chế sửa lỗi được phản

hồi bởi người dùng

Nhược điểm:

* Cần phải chuẩn bị bộ dữ liệu với các mẫu văn bản có sẵn

¢ Không thể áp dụng rộng rãi trên các văn bản có các bố cục khác nhau.

On-Demand Information Extactor - ODIE [8]: Hệ thống sử dụng bộ trích chon

đặc trưng LIEP (Learning Information Extraction Patterns) để so khớp các cầu

trúc câu có sẵn được lưu trữ với câu đầu vào từ đó sẽ phân tích câu đầu vào và

lấy được các thông tin cần rút trích LIEP sẽ cố gắng xây dựng một từ điển các

mẫu cấu trúc câu (extraction pattern dictionary) chứa các trường thông tin cầntrích xuất Đầu tiên ODIE sẽ nhận dữ liệu đầu vào là văn bản, thực hiện bước mã

hóa và tách văn bản thành các câu ODIE sẽ kiểm tra xem các câu này có chứa

các từ khóa có khả năng là là các trường thông tin mà ta quan tâm hay không.

Nếu không có từ khóa nào thì câu này sẽ bỏ qua, nếu có thì các từ khóa sẽ đượcgắn với các từ loại tương ứng, câu đó cũng sẽ được phân tích để lấy các thànhphần cấu trúc câu (như các tính từ, các danh từ, động từ ) Kế đến các câu có từkhóa sẽ được đưa qua LIEP để so khớp với các mẫu câu có sẵn trong tập từ điển

15

Trang 33

2 Tổng quan

được xây dựng trước đó, và đưa ra kết quả cuối cùng Khi có một câu đầu vàomới không khớp với các mẫu câu có sẵn trong từ điển trích xuất được xây dựng

trước đó thì LIEP sẽ cố gắng tổng quát hóa một mẫu câu có sẵn trong từ điển để

có thể bao hàm được dữ liệu đầu vào, từ đó tiếp tục xử lý, nếu không thể tổngquát hóa thành công thì LIEP sẽ xây dựng một mẫu câu dùng để trích xuất mớidựa trên dữ liệu đầu vào và thêm vào trong từ điển mau trích xuất

Uu điểm:

« Phương pháp trên có tốc độ xử lý nhanh chóng.

« Có khả năng bổ sung thêm các câu mới vào tập từ điển câu có sẵn từ đó

mở rộng phạm vi xử lý.

Nhược điểm:

« Các mẫu câu có san sẽ không thể bao hàm hết tat cả các câu dữ liệu đầu

vào, tuy mô hình có thể học được các mẫu câu mới để nâng cấp, nhưng không thể chính xác được như con người định nghĩa trước, và cách học của mô hình chịu ảnh hưởng nhiều từ các luật mà con người định nghĩa từ

trước.

* Với các loại dữ liệu không không có cấu trúc ngữ pháp, sẽ rất khó dé cho

LIEP có thể so khớp với các mẫu câu sẵn có.

2.3.2 Sử dụng các kĩ thuật học sâu

Với sự phát triển của phần cứng, những năm gần đây học sâu (deep learning)

đã có những bước tiến rất nhanh Học sâu có thể giúp mô hình có tính tổng quáthóa nhiều hơn với dữ liệu và chính điều này đã giúp cho nhiều bài toán đã đạt

được độ chính xác cao nhờ vào học sâu.

16

Trang 34

2 Tổng quan

2.3.2.1 Sử dụng nội dung chữ viết trong văn ban

Một hướng tiếp cận khác cho bài toán rút trích thông tin từ hình ảnh văn bản

đó là sử dụng các phương pháp xử lý ngôn ngữ tự nhiên, các văn bản sẽ được

xem như các chuỗi ký tự dài tuyến tính, và áp dụng các kĩ thuật gắn thẻ trình tự

(sequence tagging)! để giải quyết bài toán

Long-Short Term Memory with Conditional Random Fields (LSTM-CRF) [9]:

đầu tiên mô hình sẽ sử dung một phương pháp tao từ nhúng (word embedding)

để biến đổi các từ trong câu ban đầu về dạng biểu diễn vector, sau đó các vectornay sẽ được đi qua một kiến trúc mang học sâu là BiLSTM[10] (Bi-directionalLong-Short Term Memory) để rút trích các thông tin liên quan đến ý nghĩa, và

ngữ cảnh của từ đó trong câu, các vector rút trích được từ mạng BILSTM sẽ

được kết nối lại với nhau bằng toán tử ghép (Concanatation Operator)”, cuối

cùng vector được ghép lại này sẽ được đi qua lớp mô hình gắn thé CRF (CRF

Tagging Model) để phân loại câu vào một trong những trường dữ liệu mà ta quan

tâm.

Ưu điểm:

« Có áp dung cơ chế học sâu, cho nên sẽ có tính tổng quát hóa cao hơn, và

có thé áp dụng vào nhiều loại văn bản khác nhau.

* Áp dụng mô hình gắn thẻ CRF cho việc phân loại các thé của từ trong câu,

CRF sẽ sử dụng thông tin về mối quan hệ của các từ trong câu, từ đó đưa rakết quả chính xác hơn so với những phương pháp trước đây khi luôn xem

các từ trong câu độc lập.

‘https://en.wikipedia.org/wiki/Sequence;abeling

*https://en.wikipedia.org/wiki/Concatenation

17

Trang 35

2 Tổng quan

Nhược điểm:

¢ Phương pháp này khi áp dụng cho loại dữ liệu dạng hình ảnh văn bản lại

bỏ qua các thông tin quan trọng như vị trí của câu so với toàn cục, bố cục

văn bản

2.3.2.2 Sử dụng phối hợp các đặc trưng trực quan và nội dung chữ viết:

Ngoài nội dung của ký tự trong văn bản thì các thông tin trực quan như vị trí

của câu, bố cục văn bản, hình ảnh cũng là những thông tin rất quan trọng có thể

góp phần tăng cường độ chính xác

SDMGR: Spatial Dual-Modality Graph Reasoing for Key Information Extraction[6]

(SDMGR) mô hình hóa các văn ban dưới dạng một đồ thi bao gồm các đỉnh va

các cạnh, với các đỉnh được đại diện bởi một hộp chứa giới hạn (bounding box)

và sẽ bao gồm các thông tin đặc trưng văn bản và hình ảnh ở vị trí hộp chứa đó

và các đặc trưng này sẽ được hoc qua các mô hình BiLSTM cho đặc trưng van

bản và Convolutional neural network (CNN) cho đặc trưng hình ảnh, hai thông

tin trên sẽ được kết hợp với nhau tạo thành đỉnh, các cạnh của đồ thị sẽ là mối

quan hệ không gian giữa các đỉnh của đồ thị trên ảnh và được khởi tạo thông

qua cơ chế chú ý động (dynamic-attention) mà tác giả giới thiệu Mô hình sẽ cố

gắng học để phân loại các đỉnh của đồ thị về một trong các trường thông tin mà

ta quan tâm.

Uu điểm:

« Có áp dụng cơ chế học sâu, cho nên sẽ có tính tổng quát hóa cao hơn, và

có thể áp dụng vào nhiễu loại văn bản khác nhau.

* Tận dung được thông tin về các đặc trưng trực quan và van bản nhằm tăng

độ chính xác cho mô hình.

18

Trang 36

2 Tổng quan

Nhược điểm:

* Dé đạt được kết quả cao theo bài báo thì can phải gán nhãn theo dạng khóa

- trường dif liệu (key - category information), điều này sẽ làm khó khăntrong quá trình gán nhãn dữ liệu, ngoài ra một số trường dif liệu sẽ không

phương pháp PICK áp dụng cơ chế học đồ thị (graph learning) để có thể học

được ma trận tương quan giữa các đỉnh thay vì phải định nghĩa trước, ngoài ra

PICK cũng sẽ phối hợp tất cả các đặc trưng về câu trong văn bản, hình ảnh, vị

trí của câu so với toàn cục thông qua mạng tích chập đồ thị (graph convolution)

nhằm giúp mô hình có được vector biểu diễn tốt hơn cho các thông tin có trong

hình ảnh văn bản.

Uu điểm:

* Có áp dụng cơ chế học sâu, cho nên sẽ có tính tổng quát hóa cao hơn, và

có thể áp dụng vào nhiễu loại văn bản khác nhau.

° Áp dụng cơ chế học đồ thị giúp mô hình tự học ra mối tương quan giữa

các đỉnh mà không cần có sự định nghĩa trước từ con người

» Tận dụng được cả thông tin về trực quan cũng như các thông tin về văn bản

để cho kết quả tốt nhất

Nhược điểm:

19

Trang 37

2 Tổng quan

* Mô hình phải học tự học về việc biểu diễn ma trận tương quan giữa các

đỉnh trong đồ thị, nên quá trình huấn luyện diễn ra khá lâu.

2.4 Kết chương

Qua chương này, nhóm thực hiện hiểu được các vấn đề gặp phải ở các bàitoán Thêm vào đó là biết cách chọn ra cách tiếp cận, hướng giải quyết phù hợpđối với bài toán đang giải quyết Đề từ đó chọn ra được các phương pháp hiệu

quả.

VỀ bài toán rút trích thông tin trong hình ảnh văn bản, chúng ta có khá nhiều

phương pháp được hiện thực, tiếp cận Mỗi phương pháp thuật toán lại có những

ưu điểm và nhược điểm riêng, không phải phương pháp nào cũng hoàn hảo để

cho ra mô hình rút trích thông tin trong hình ảnh văn bản tốt Tuỳ vào mục đích

sử dụng mà chúng ta có thể chọn ra phương pháp phù hợp nhất đối với bài toánchúng ta giải quyết Theo đó, trong phạm vi đề tài khoá luận, nhóm chúng em

tập trung xử lý dữ liệu hình ảnh văn bản hành vì vậy việc tận dụng các thông tin

về bố cục cũng như hình ảnh là rất cần thiết SDMGR[6] là phương pháp phùhợp nhất cho bài toán vì có cơ chế học sâu sẽ làm mô hình tổng quát hơn, ngoài

ra tận dụng được các thông tin trực quan cũng như nội dung văn bản Bên cạnh

đó, để đánh giá mô hình được, nhóm còn thực hiện nghiệm so sánh đánh giá

giữa thuật toán SDMGR và PICK với những độ đo phù hợp.

20

Trang 38

Chương 3

CƠ SỞ LÝ THUYET

3.1 Mở đầu

Trong chương này, nhóm thực hiện sẽ trình bày tổng quan một số các kiến

thức và phương pháp có liên quan tới các phương pháp cũng như là mô hình mà

nhóm đã áp dụng vào trong hệ thống trích xuất thông tin từ văn bản hành chính

Cụ thể hơn, nhóm sẽ trình bày qua các kiến thức như Transformer áp dụng vào

các mô hình nhận diện ký tự có trong anh, graph neural network được áp dụng vào các bài toán rút trích thông tin và nhóm cũng sẽ liệt kê những phương pháp

mà nhóm đã sử dụng trong hệ thống trích xuất thông tin từ văn bản hành chính

của nhóm.

3.1.1 Transformer

Transformer là một kiến trúc được công bố trong bài báo khoa học có tên

là Attention Is All You Need [11] bởi Google và được đăng lần đầu tiên tai

Advances in neural information processing systems năm 2017 Transformer sử

dung kiến trúc hồi quy va cả kỹ thuật Attention để giải quyết các bài toán về

nhận diện ky tự quang học Trước khi có Transformer chúng ta có LSTM va

RNN là những mô hình có thể giải quyết các vấn đề về phụ thuộc xa nên rất phù

21

Trang 39

3 Cơ sở lý thuyết.

hợp với khả năng nhận diện các chuỗi ký tự trong hình ảnh Tuy nhiên, RNN hay

LSTM tốn quá nhiều thời gian cho việc huấn luyện mặc dù chúng có thể không

tốt ở một vài trường hợp Chính vì vậy ngay khi Transformer được dé xuất đã

mang lại cho cộng đồng khoa học một phương pháp với độ chính xác cao trong

NLP và hiện tại là trong xử lý ảnh.

3.1.1.1 Ý tưởng cốt lõi trong Transformer

Transformer giải quyết được nhược điểm của mô hình tuần tự truyền thốngnhờ chủ yếu vào hai cau trúc là Multi-head attention va Positional encoding

(Hinh 3.1)

Về kiến trúc transformer cũng giống với các mô hình sequence-to-sequence

bao gồm hai phan encoder va decoder.

* Encoder, Gồm N khối, mỗi khối bao gồm hai sub-layer: Multi-Head

At-tention va Feed forward network Tác gia dùng một residual connection

ở mỗi sub-layer này Theo sau mỗi sub-layer đó là một lớp Layer Norm giúp mô hình có thể sâu hơn nhờ vào đó giảm tác động của vanishing

gradient.

* Decoder gồm N block, mỗi block gồm 2 sub-layer Tuy nhiên, nó có một

lớp Masked Multi-Head Attention Lớp này chính là lớp Multi-Head

At-tention Nó có chức năng chú ý đến toàn bộ những decoder hidden state

trước Nhiệm vụ của nó khi huấn luyện Transformer là khi ta đưa toàn bộ

câu vào cùng một lúc nên nếu ta đưa toàn bộ target sentence cho decoder

trước thì mô hình sẽ chẳng học được gì cả Do đó phải che (mask) bớt một

phan token 6 decoder hidden state sau trong quá trình decode

22

Trang 40

tìm mã của từ đó và values chính là nghĩa cua từ Dựa trên ba giá tri này, ta tinh

được attention score Attention score thể hiện được mức độ liên quan giữa các

values với nhau hay các nghĩa của từ với nhau Nếu trong mô hình các giá trịđược kí hiệu lần lượt là: Values: V, Keys: K, Query: Q

23

Tiêu đề	Tìm hiểu và xây dựng hệ thống trích xuất thông tin văn bản trên dữ liệu ảnh văn bản hành chính
Tác giả	Nguyễn Hữu Khang, Hồ Đặng Thanh Hồ
Người hướng dẫn	ThS. Đỗ Văn Tiến
Trường học	Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành	Khoa học máy tính
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2021
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	96
Dung lượng	48,08 MB