Hình 1: Minh hoa dau vào và đầu ra của bài toản- Về cơ bản thi đây là một bài toán thuộc lĩnh vực xử lý ngôn ngữ tự nhiên natural language processing - NLP, ta có thé sử dụng các phương
Trang 1ĐẠI HỌC QUOC GIA THÀNH PHO HỒ CHÍ MINH
ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
NGUYỄN HỮU KHANG - 18520892
CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH
GIẢNG VIÊN HƯỚNG DẪN
ThS ĐỖ VĂN TIEN
TP HỒ CHÍ MINH, 2021
Trang 2DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo quyết định số
35/QD-DHCNTT ngày 17/01/2022 của Hiệu trưởng Trường Đại học
Công nghệ Thông tin.
ne - Chi tich.
Qe cessscseessessee PME - Thu ky.
Ae eee ae GA a8 - Uy vién.
Trang 3ĐẠI HỌC QUOC GIA TP HO CHI MINH CONG HÒA XÃ HOI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN
ĐĂNG KÝ ĐÈ TÀI KHÓA LUẬN TÓT NGHIỆP
TÊN DE TÀI: Tìm hiểu và xây dựng hệ thống trích xuất thông tin văn bản trên dữ liệu ảnh
văn bản hành chính
TÊN DE TÀI TIENG ANH: Research and build Key Information Extraction System for
Official Dispatch
Ngôn ngir thực hiện: Tiếng
Cán bộ hướng dẫn: ThS Đỗ Văn Tiến
Thời gian thực hiện: Từ 09/2021 đến 01/2022
Sinh viên thực hiện:
Nguyễn Hữu Khang Lớp: KMHT2018
Email:18520892@)gm.ui(.edu.vn Điện thoại: 0945466497
Hồ Đặng Thanh Hồ Lớp: KHMT2018
Email:18520760@gm.uit.edu.vn Dién thoai: 0937075219
1 Giới thiệu:
e Hiện nay dữ liệu văn bản đã xuất hiện rất nhiều trên internet, chúng xuất hiện với rất nhiều
định dạng khác nhau và hình ảnh văn bản chiếm một phần rất lớn trong số trên Công việc
quản lý loại đữ liệu này tốn rất nhiều tài nguyên, chi phí, nhân công vì vậy các giải pháp dé
tự động hóa quá trình trên đã trở thành một vấn nhận được rất nhiều sự quan tâm từ cộng đồng nghiên cứu và các doanh nghiệp Bài toán Trích xuất thông tin quan trọng từ hình
ảnh văn ban đã được ra đời dé phục vụ quá trình tự động hóa trên
e Bài toán được mô tả như sau:
© Ta sẽ định nghĩa trước các trường thông tin mà ta muốn rút trích từ văn bản
o Đầu vào là hình ảnh văn bản mà ta cần rút trích thông tin
© Đầu ra là các thông tin thuộc các trường thông tin mà ta muốn rút trích từ văn bản
Trang 4Hình 1: Minh hoa dau vào và đầu ra của bài toản
- Về cơ bản thi đây là một bài toán thuộc lĩnh vực xử lý ngôn ngữ tự nhiên (natural
language processing - NLP), ta có thé sử dụng các phương pháp nhận diện ký tự
quang học (optical character recognition - OCR) như các phương pháp ở các bai
báo [1][2][3] đề trích xuất các ky tự từ hình ảnh, từ đó áp dụng các kĩ thuật NLPnhư [4] dé thực hiện việc rút trích các thông tin từ văn bản, tuy nhiên nhữngnghiên cứu gần đây [5][6][7][8][9] đã chỉ ra rằng ngoài nội dung của văn bản thìcác yếu tố như bồ cục văn bản, vị trí các câu đối với toàn cục cũng là những yếu
tố góp phan rất quan trọng dé có thé rút trích các thông tin từ văn bản Các
nghiên cứu áp dụng các cơ chế Attention phối hợp với các đặc trưng hình ảnhcũng như đặc trưng văn bản cũng mang lại những kết quả rất khả quan[8][9][10], thêm vào đó với sự phát triển của các mô hình học sâu về đồ thị cụthê hơn là đồ thị tích chập (graph convolutional neural network) [11][7] cũng đã
mở ra một hướng phát trién mới cho bài toán trên Trong đề tài này, sinh viên
chú trọng việc áp dụng các mô hình trích xuất thông tin tiên tiến lên bộ dit liệuvăn bản tiếng việt cụ thể hơn là văn bản hành chính của trường Đại học Côngnghệ Thông tin từ đó làm tiền đề cho các tác vụ khác
2 Mục tiêu:
e Tìm hiểu tổng quan về bài toán trích xuất thông tin từ hình anh văn bản, các
hướng tiếp cận
Xây dựng bộ dữ liệu phục vụ cho việc trích xuất thông tin văn bản tiếng Việt
Thử nghiệm các phương pháp tiên tiến cho bài toán trích xuất thông tin từ văn
bản.
Trang 54 Phương pháp & Kết quả dự kiến:
e Đối với việc tìm hiểu tổng quan về bài toán trích xuất thông tin từ hình ảnh
văn bản, các hướng tiếp cận
© Phương pháp: Tham khảo các tài liệu, bài báo khoa học liên quan về bài
toán, các phương pháp, hướng giải quyết
o Kết quả dự kiến: Tài liệu tong hợp một số phương pháp, hướng tiếp cận
phổ biến
© Đối với việc xây dựng bộ dữ liệu phục vụ cho việc trích xuất thông tin văn
bản tiếng Việt:
© Phương pháp: sẽ thu thập các hình anh của các văn bản công bồ từ
trường đại hoc Công nghệ Thông tin, gan nhãn cho các văn bản trên.
o Kết quả dự kiến: Bộ đữ liệu hình ảnh của các văn ban đã được gan nhãn
phục vụ cho mục đích huấn luyện, và kiểm thử mô hình
e_ Đối với việc thử nghiệm các phương pháp tiên tiến cho bài toán trích xuất
thông tin từ văn bản:
© Phương pháp: huấn luyện lại các mô hình này trên bộ dit liệu tiếng Việt
đã xây dựng, đánh giá độ hiệu quả của các phương pháp nảy trên bộ dữ
liệu đã xây dựng.
©_ Kết quả dự kiến: kết quả huấn luyén/kiém thử của các mô hình này trên
bộ dữ liệu đã xây dựng, mô hình có thể dự đoán và cho ra kết quả như
mong muốn trên văn bản tiếng Việt
e - Đối với việc xây dựng ứng dụng hỗ trợ cho việc trích xuất thông tin trên
văn bản tiếng Việt:
° Phương pháp: xây dựng một hệ thống nhận đầu vào là hình ảnh văn bản
và trả về kết quả các trường thông tin được rút trích từ hình ảnh văn bản.
Kết quả dự kiến: hệ thống có thê thực hiện được tác vụ rút trích
thông tin.
Trang 65 Thách thức
e Tài nguyên tính toán dé có thé huấn luyện các mô hình học sâu là rất tốn
kém.
e Dữ liệu đầu vào có chất lượng hình ảnh kém, thông tin nhập nhằng, nhiều
loại chữ khác nhau, nền văn bản phức tạp
e Các công nghệ áp dung cho bài toán này là những công nghệ mới như Graph
neural network, Transformer, Attention,
6 Tai liệu tham khảo
[1] Ebin Zacharias, Martin Teuchler and Bénédicte Bernier "Image Processing Based Scene-Text Detection and Recognition with Tesseract".
[2] Yuliang Liu, Hao Chen, Chunhua Shen, Tong He, Lianwen Jin, Liangwei Wang.
"ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve Network" Accepted to Proc IEEE Conf Comp Vis Pattern Recogn (CVPR) 2020.
[3] Nguyen Nguyen, Thu Nguyen, Vinh Tran, Minh-Triet Tran, Thanh Duc Ngo, Thien Huu Nguyen, Minh Hoai "Dictionary-guided Scene Text Recognition".
for Keyphrase Extraction from Scholarly Documents".
[5] Anoop R Katti, Christian Reisswig, Cordula Guder, Sebastian Brarda, Steffen Bickel,
Johannes Hohne, Jean Baptiste Faddoul "Chargrid: Towards Understanding 2D Documents" Published as a conference paper at EMNLP 2018.
[6] Sun, H., Kuang, Z., Yue, X., Lin, C., & Zhang, W (2021) Spatial Dual-Modality Graph Reasoning for Key Information Extraction arXiv preprint arXiv:2103.14470.
[7] Wenwen Yu, Ning Lu, Xianbiao Qi, Ping Gong, Rong Xiao "PICK: Processing Key Information Extraction from Documents using Improved Graph Learning-Convolutional
Networks"
[8] Srikar Appalaraju, Bhavan Jasani, Bhargava Urala Kota, Yusheng Xie "DocFormer:
End-to-End Transformer for Document Understanding"
[9] Lukasz Garncarek, Rafat Powalski, Tomasz Stanistawek, Bartosz Topolski, Piotr Halama, Michat Turski, and Filip Gralinski "LAMBERT: Layout-Aware Language Modeling for Information Extraction"
[10]Rafal Powalski, Lukasz Borchmann, Dawid Jurkiewicz, Tomasz Dwojak, Michal Pietruszka, Gabriela Palka "Going Full-TILT Boogie on Document Understanding with Text-Image-Layout Transformer"
Trang 7e Giai đoạn 1 (09/2021 - 11/2021): Tìm hiểu các tài liệu liên quan đến đề tài, các kĩ thuật tiền
xử lý đữ liệu và các phương pháp tốt nhất hiện nay cho việc trích xuất thông tin từ văn bản.Tiến hành thu thập, gán nhãn trên bộ dữ liệu mà nhóm thu thập được
Giai đoạn 2 (10/2021 - 12/2021): Tìm hiểu và xây dựng một mô hình có thể trích xuấtthông tin từ các văn bản tiếng Việt, đánh giá được kết quả của mô hình
© Giai đoạn 3 (12/2021 - 01/2022): Viết báo cáo
Phân công công việc:
Tên sinh viên
Tìm hiểu đề tài
Nghiên cứu và triển khai các phương
pháp xử lý dữ liệu, phân loại ảnh.
Nguyễn Hữu Khang Tìm kiếm các phương pháp về trích xuất
thông tin trong văn bản va áp dụng các phương pháp đó.
Viết báo cáo
Tìm hiểu đề tài
Nghiên cứu và triển khai các phương
Hồ Đặng Thanh Hồ pháp xử lý dữ liệu, phân loại ảnh
Tìm kiếm các phương pháp về trích xuất
thông tin trong văn bản va áp dụng các phương pháp đó.
Viết báo cáo
Xác nhận của CBHD TP HCM, ngày tháng năm 2021
(Ký tên và ghi rõ họ tên) Sinh viên
(Ký tên và ghi rõ họ tên)
Trang 8LỜI CẢM ƠN
Đầu tiên, chúng em xin chân thành cảm ơn Ths Đỗ Văn Tiến, là ngườithầy đã tận tình hướng dẫn giúp đố chúng em trong những khó khăn
của khóa luận, đưa ra những lời khuyên bổ ích không chỉ áp dụng
cho khóa luận mà còn là kim chỉ nam cho chúng em sau này.
Đồng thời, chúng em cũng muốn gửi lời cảm ơn tới toàn thể thầy cô
giáo trong Khoa Khoa học máy tính, và những thầy cô đã giảng dạy
chúng em trong thời gian học tập và rèn luyện tại trường Đại học
Công nghệ Thông tin.
Cuối cùng, chúng em xin cảm ơn ba mẹ, các anh chị, bạn bè đã luôn
bên cạnh động viên, ủng hộ và là chỗ dựa tinh thần vững chãi trongsuốt thời gian học tập ở trường Đại học Công nghệ Thông tin
TP Hồ Chí Minh, tháng 12 năm 2021
Sinh viên thực hiện
Trang 913 Dong góp củakhóaluận
14 Cấutrúckhóaluận
2_ TỔNG QUAN
21 Médau Q Q Q Q Q2
2.2 Giới thiệu các bài toán rút trích thông tin trong hình ảnh văn bản
và các bài toán lên quan
2.2.1 Bài toán rút trích thôngtin
2.2.2 Bài toán phát hiện vănbản
Trang 10MỤC LỤC
2.2.3 Bài toán nhận diệnchữ 13
2.3 Một số nghiên cứu liên quan đối với bài toán rút trích thông tin 14
2.3.1 Hướng tiếp cận truyềnthống 14
3.1.1.3 Positional Encoding (Ma hóa vitri) 25
3.1.2 Mạng thần kinh đồ thị học sâu (Graph neural network
3.1.2.1 Một số khai niệm trong lí thuyết dé thi 273.1.2.2 Cac bài toán điển hình đố v6iGNN 283.1.2.3 Nhúng thông tin trong đồ thị (Graph-based
Embedding) 29
3.2 Áp dung Deep Learning vào bài toán nhận diện chữ viết tiếng Việt 30
3.2.1 Phát hiện dòng văn ban bằng Pixel Aggregation
Trang 11MỤC LỤC
4_ THỰC NGHIỆM VÀ ĐÁNH GIÁ 42
4.2 Xây dựng tập dữ liệu 42
4.2.1 Giai đoạn phát hiện dòng văn ban (Text line Detection) 43 4.2.1.1 Quá trình thu thập dữ liệu 44
4.2.1.2 Quá trình tiền xử lý dữliệu 44
42.13 Cáchthựchiện 44
4.2.1.4 Thống kê số liệu tập dữ liệu 45
4.2.2 Giai đoạn nhận diện chữ (Text Recogmtlon) 46
4.2.2.1 - Quá trình thu thập dữ liệu 46
4.2.2.2 Quá trình tiền xử lý dữliệu 47
42.23 Cách thứ thựchiện 47
4.2.2.4 Thống kê số liệu tập dữ liệu 48
4.2.3 Giai đoạn trích xuất thông tin từ trong văn bản (Key information extracion) - 48
42.3.1 Qua trình thu thập dữ lệu 49
4.2.3.2 Quá trình tiền xử lý dữliệu 49
4.2.3.3 Cách thứcthựchiện 49
4.2.3.4 Thống kê số liệu tập dữ liệu 50
4.3 Mộtsố độ đođánhgiá 50
43.1 Một số khái nệm cơbản 50
43.2 loU ee ee ee ee v và 51 4.3.3 PrecisionvàRecal 52
44 Kết quả và đánhgiá 54
4.4.1 Kếtquảthựenghiệm 54
4.4.1.1 Giai đoạn phát hiện chữ (Text Detection) 54
4.4.1.2 — Giai đoạn nhận diện chữ (Text Recognition) 55
Trang 12MỤC LỤC
4.4.1.3 Giai đoạn trích xuất thông tin (Key
informa-tion exfracton) 57
45 Đánh giátoànhệthống: - 58
4.6 Kétchuong 20.0.0 00 eee ee 59 XAY DUNG UNG DUNG MINH HOA THUC NGHIEM 60 5.1 Médau ee 60 5.2 Sd dd Use-case 2 ee 60 5.2.1 Danhsach Actor 2 02 200004 61 5.2.2 Danhsach Use-case 61
5.2.3 Dac taUse-case 2 ee ee 62 5.2.3.1 Đặc tả Use-case "Chọn ảnh từ thu muc" 62
5.2.3.2 Đặc tả Use-case "Chon ảnh từ đường dẫn" 62
53 Sod6tuantd Ặ Q 00000000000 63 5.3.1 Chọn ảnh từthưmục 63
5.3.2 Chọn ảnh từ đường dẫn 64
5.4 _ Mô hình hoáứngxử 66
54.1 Sơđồtrạangthá 66
5.4.1.1 Chọnảnhtừthưmục 66
5.4.1.2 Chọnảnh từ đườngdẫn 67
5.4.2 Luông xử lý dữliệu 67
55 Thiétkéhéthéng 69
5.5.1 Thiếtkếkiếntrúc - 69
5.5.2 Mô tả chỉ tiết từng thành phan trong hệ thống 71
56 Caidithéthéng 0.20.00 00200000022 eee 71 5.6.1 Các API hệ thống rút trích thông tin từ hình ảnh van ban 71 5.6.2 Giaodiện Ặ 202000002 ee 72 5.6.2.1 Sơ đồ luồngmànhình 72
XI
Trang 13MỤC LỤC
5.6.2.2 Mô tả chỉ tếtmànhình 735.6.3 Kétqua 0 ee Qua 745.64 Kétchuong 0 000.0000 00 ee 74
6 KẾT LUẬN VA HƯỚNG PHÁT TRIEN 75
62 Hướng pháttriển ee 76
Tài liệu tham khảo 78
xI
Trang 14Danh sách hình ve
1.1 Ví dụ về hình ảnh đầu vào (Trái) và kết quả trả về (Phả) 4
1.2 Cac trường thông tin được rút trích 8
2.1 Luông xử ly của các hệ thống trích xuất thông tin từ hình ảnh 11
2.2_ Đầu vào - dau ra của bài toán rút trích thôngtin 12
2.3 Đầu vào - đầu ra của bài toán phát hiện văn bản 13
2.4 Đầu vào - đầu ra của bài toán nhận diện văn bản 14
3.1 Kiến trúc tổng thể của Transformer - 23
3.2 Multi-Head Attention 24
3.3 Dự đoán liênkết 28
3.4 Phân loạđỉnh Ặ.Ặ.ẶẶẶ 28 3.55 Gomcum QC Q Q Q Q HQ HQ Q2 v2 29 3.6 Một số kết quả thu đượctừPAN 31
3.7 Quy trình tổng thểcủaPAN 31
3.8 CácchitếtcủaFPEM 32
3.9 Mô hình tổng thể của PANet 33
3.10 Các chỉ tiết của FEM 34
3.11 Ví dụ về chữ được nhận diện trong VietOCR 35
3.12 Kiến trúc TransformerOCR trong VietOCR 36
3.13 Kiến trúc Attentionocr trong Vie€tOCR 37
xiil
Trang 15DANH SÁCH HÌNH VẼ
3.14 Kiến trúc mô hình SDMGR
3.15 Kiến trúc mô-đun Dual Modality Fusion
4.1 4.2 4.3 4.4 4.5 4.6 4.7 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 Mau dữ liệu trên văn bản mà nhóm sẽ xử lý
Thống kê số lượng dữ liệu trên các loại và các tập dif liéu
Thống kê số lượng dữ liệu trên các loại và các tập dữ liéu
Thống kê số lượng dữ liệu trên các loại và các tập dữ liệu
Minh hoa cho Confusion matrix
Minh hoạ các độ đo qualoU
Hình minh hoa cách tính Precision và Recall
Sơ đồ Use-case của ứng dụng
Sơ đồ tuần tự chức năng "Chọn hình ảnh từ thư mục"
Sơ đồ tuần tự chức năng "Chọn hình ảnh từ đường dẫn"
Sơ đồ trạng thái chức năng "Chọn hình ảnh từ thư mục" Sơ đồ trạng thái chức năng "Chọn hình ảnh từ đường dẫn" Kiến trúc3lớp 2 co Sơ đồ luồng màn hình của ứng dụng nhận diện chữ trong hình ảnh Màn hình webste
XIV
43
46
48
50 51 52 53
61 64 65 66 67 69 72
Trang 16Thống kê đánh giá giữa AttentionOCR và TransformerOCR
Thống kê đánh giá giữa PICK vaSDMGR Đánh giá sự ảnh hưởng của thông tin trực quan đến độ hiệu quả
của mô hình SDMRG
Đánh giá hệ
thống -Bảng danh sách Actor 2 ốc Bảng danh sách Use-case
Ý nghĩa các lớp trong kiến trúc 3lớp
-Mô tả chỉ tiết BUS Đầu vào của APl/Mieđ ẶẶẶ Ặ SoĐầu ra của API /kie 2 ee
Danh sách mànhình
Thông số giao diện website
XV
Trang 17Danh mục từ viết tắt
Từ viết tắt | Nội dung
DL Deep Learning
CNN(s) Convolutional Neural Networks
RNN Recurrent Neural Network LSTM Long Short Term Memory GNN Graph neural network
Conv Convolution
Seq2seq Sequence to sequence
LIEP Learning Information Extraction Patterns
XVI
Trang 18TÓM TẮT KHÓA LUẬN
Văn bản là loại dữ liệu không có cấu trúc cũng như tổn tại với rấtnhiều định dạng khác nhau chính vì vậy quá trình số hóa và rút tríchthông tin từ văn bản tốn rất nhiều chi phí, tài nguyên, sức người chonên các giải pháp tự động hóa quá trình trên luôn là vấn đề được
các doanh nghiệp, cũng như cộng đồng nghiên cứu quan tâm Các
hệ thống rút trích thông tin văn bản ra đời nhằm phục vụ những nhucầu đó Cụ thể, hệ thống này có thể giúp con người đọc qua một văn
bản dưới dạng hình ảnh sau đó đưa ra các thông tin mà người dùng
đã quy định trước đó một cách nhanh chóng và tự động, Trong thực
tế cũng đã có một số trang web triển khai thành công hệ thống nàynhư Nano-Net!, SAP? và một số trang web hỗ trợ cho tiếng việt như
computervisionỶ Tuy nhiên hầu hết các hệ thống này đều tính phí
cho người sử dụng, công nghệ sử dụng bên trong của các hệ thốngnày không được công bố Chính vì những lý do trên, nhóm đã quyết
định nghiên cứu và xây dựng một hệ thống phục vụ việc rút trích
thông tin cho dữ liệu Hình ảnh văn bản hành chính của Trường
Dai học Công nghệ Thông tin thông qua khoá luận lần này
Hướng tiếp cận học sâu hiện nay được cho là đạt kết quả tốt và được
sử dụng rất phổ biến trong các hệ thống rút trích thông tin Đây cũng
là một hệ thống có nhiều bước cho nên việc lựa chọn phương pháp
!https://nanonets.com
?https://www.sapstore.com/solutions/44901/Document-Information-Extraction
3https://demo.computervision.com.vn/ocr/
Trang 19phù hợp với từng bài toán con ứng với mỗi bước cũng là một thử
thách lớn.
Tóm lại, khóa luận này đã thực hiện những nội dung sau:
« Tim hiểu tổng quan về hệ thống rút trích thông tin cho hình ảnh
văn bản đặc biệt là các văn bản hành chính cho tiếng Việt
¢ Khảo sát các phương pháp tương ứng với từng mô-đun của hệ
thống rút trích thông tin
» Xây dựng tập dữ liệu huấn luyện bao gồm hơn 1800 trang văn
bản cho hệ thống rút trích thông tin từ văn bản hành chính
¢ Huấn luyện, đánh giá một số phương pháp tương ứng với từng
mô-đun trên tập dữ liệu đã xây dựng cụ thể:
— Đối với bài toán phát hiện dong văn bản là PANet[ 1], FCENet[2],
DGGR[3] Trong đó PANet cho kết quả và hiệu năng tốtnhất với Fl-score là 94.6% với tốc độ xử lí 14.68 fps
— Đối với bài toán nhận diện dòng văn bản là STARNet[4]
và VietOCR! Trong đó VietOCR kết quả và hiệu năng tốt
nhất với Precision-full-sequence là 87.49% và tốc độ xử lí
là 27 fps.
— Đối với bài toán rút trích thông tin là PICK[5], SDMGR[6]
trong đó SDMGR có hiệu năng tốt nhất với fl-score là98.3% và tốc độ 2.5 fps
s Xây dựng ứng dụng web rút trích thông tin từ van bản hành
chính của trường Đại học Công nghệ Thông tin theo sáu trường
thông tin chính là: Số, ngày gửi, số kế hoạch, ngày kế hoạch,
nơi nhận và người ký.
'https://github.com/pbcquoc/vietocr
Trang 20Chương 1
MỞ ĐẦU
1.1 Đặt van đề
Văn bản là phương tiện để con người lưu trữ thông tin và trong cuộc cách
mạng 4.0 khối lượng lưu trữ trên internet của loại dữ liệu này đã tăng trưởng rấtmạnh Văn bản được lưu trữ với rất nhiều định dạng khác nhau, và chúng là loại
dữ liệu không có cau trúc nên việc số hoá loại dữ liệu này tốn rất nhiều chi phí,
tài nguyên cũng như nhân lực Chính vì vậy các nhà nghiên cứu cũng như các
doanh nghiệp, công ty công nghệ hàng đầu đang cố gắng tìm cách tự động hoá
quá trình trên và hệ thống Trích xuất thông tin quan trọng từ hình ảnh vănbản đã được ra đời để phục vụ mục đích này.
Mô tả bài toán trích xuất thông tin từ hình ảnh văn bản:
« Ta sẽ định nghĩa trước các trường thông tin mà ta cần rút trích (information
Trang 211 Mở dau
gửi về Ban KH&CN — ĐHQG-HCM, phường Lin Văn bản góp ý của Quý đơn vị gửi về Ban KH&CN — ĐHQG-HCM, phường Linh
edu.vn trước ngày 09/11/2021 (Thứ Ba) đi trước ngây 09/11/2021 (Thi la)
ơn sự quan tim và phối hợp thực hiện của Quy đơn vị Trân trọng cám om sự quan tâm và phối hợp thực hiện của Quý đơn
Hình 1.1: Ví dụ về hình ảnh đầu vào (Trái) và kết quả trả về (Phải)
Dựa trên sự hiểu biết có hạn của nhóm trong thời gian khảo sát, nhóm nhậnthấy việc xử lý rút trích thông tin quan trọng từ hình ảnh văn bản tiếng Việt hiệntại ở Việt Nam không có nhiều công bố khoa học Hiện nay có một số dịch vụ
nổi bật của nước ngoài đã được triển khai để giải quyết bài toán này như SAP!,
ở Việt Nam thì có computervision.com.vn’, tuy nhiên các dịch vụ này đều là
dịch vụ thương mại và công nghệ sử dụng trong đó vẫn là một hộp đen mà người
ngoài không biết được Để giảm bớt chi phí sử dụng, nắm bắt công nghệ, và góp
một phần sức lực cho việc số hóa văn bản của trường Đại học Công nghệ Thôngtin Nhóm đã quyết định nghiên cứu và xây dựng hệ thống trích xuất thông tinvăn bản Hệ thống tập trung giải quyết việc rút trích thông tin từ các văn bảnđược scan, hoặc ảnh chụp văn bản chính diện Với hệ thống này, chúng ta có thểrút trích các thông tin mà ta mong muốn trong hình ảnh Việc này sẽ làm giảmbớt sức lao động của con người, tự động hóa được quá trình số hóa văn bản nhằm
'https://www.sapstore.com/solutions/44901/Document-Information-Extraction/
?https://demo.computervision.com.vn/ocr/?type=hoa-don-full
Trang 221 Mở dau
phục vụ cho các mục đích lưu trữ, truy vấn, quản lý được dễ dàng hơn
Những năm gan đây, lượng dif liệu xuất hiện trên internet ngày càng nhiễu,
điều này góp phần cho học sâu (deep learning - DL) phát triển nhanh chóng vàdần trở thành một xu hướng với tốc độ tính toán cũng như độ chính xác ngàycàng được cải tiến Các phương pháp và thuật toán áp dung DL đa số đều đạtđược kết quả tốt hơn so với phương pháp tiếp cận sử dụng đặc trưng chuyêngia (hand-crafted feature) Chính vì thế mà hướng tiếp cận DL được cộng đồngnghiên cứu rất quan tâm Cho nên trong quá trình nghiên cứu phát triển DL, sốlượng các thuật toán, phương pháp từ đó xuất hiện ngày càng phong phú và đa
dạng Để biết được đâu là thuật toán phù hợp với mục đích sử dụng trong hệ
thống này, nhóm đã tiền hành khảo sát đánh giá trên nhiều phương pháp để chọn
ra phương pháp phù hợp nhất cho từng bước Từ đó áp dụng các phương pháp
này xây dựng nên hệ thống
Thách thức:
» Về dữ liệu:
— Quá trình rút trích thông tin sẽ có một số trường thông tin bị nhập
nhằng với nhau gây ra khó khăn cho các mô hình học sâu về rút trích
thông tin.
— Các văn bản hành chính ở trường Dai học Công nghệ Thông tin
thường rất đa dạng về cách trình bày, kiểu chữ, và vì là dữ liệu trêngiấy in và được quét sau đó đưa lên mạng nên chất lượng hình ảnhcủa các văn bản mà nhóm có được là tương đối thấp, gây rất nhiềukhó khăn cho việc gán nhãn, huấn luyện cũng như là chạy thử các mô
hình của nhóm.
— Các dữ liệu dưới dạng văn bản hành chính thường có nền khá phức
tạp khi các dấu mộc hiện nay được đóng trực tiếp và đè lên các nội
Trang 231 Mở dau
dung khác bên trong văn bản.
— Trong các văn bản hành chính của trường Đại học Công nghệ Thông
tin không chỉ có những ký tự chữ in đánh máy mà còn có rất nhiềuchữ viết tay
* Về phương pháp:
- Luồng xử lý của hệ thống rút trích thông tin từ hình ảnh văn bản
thường được phân thành ba mô-đun chính là phát hiện văn bản, nhận
diện và cuối cùng là rút trích thông tin, với mỗi mô-đun sẽ có rất
nhiều các phương pháp và mô hình cần phải tìm hiểu, thử nghiệm và
đánh giá Chính vì vậy việc cân bằng giữa thời gian xử lý cũng như là
độ chính xác cũng là một thách thức lớn đối với hệ thống
« VỀ tài nguyên:
— Các mô hình cũng như là phương pháp phục vụ cho bài toán rút trích
thông tin từ văn bản thường là những mô hình học sâu, chính vì vậy
chúng đòi hỏi một lượng tài nguyên về phần cứng đủ lớn để có thể
huấn luyện, đánh giá và triển khai thành một ứng dụng thức tế
1.2 Mục tiêu và phạm vi
1.21 Mục tiêu
Nhóm tập trung giải quyết bài toán rút trích thông tin trong hình ảnh Để
hoàn thành công việc, nhóm đã dé ra mục tiêu cụ thé sau:
« Tìm hiểu tổng quan về bài toán trích xuất thông tin từ hình ảnh văn bản,
các hướng tiếp cận
Trang 24« Xây dựng bộ dữ liệu tiếng Việt về văn bản hành chính của trường Dai học
Công nghệ Thông tin.
¢ Thử nghiệm các phương pháp PANet[1], FCENet[2], DGGR[3] cho qua
trình phát hiện dòng văn bản, VietOCR!, STARNet[4] cho quá trình nhận
diện dòng văn bản, SDMGR[6], PICK[5] cho quá trình trích xuất thông
tin từ văn bản trên tập dữ liệu tiếng Việt được xây dựng
» Xây dựng một ứng dụng minh hoa cho khoá luận của nhóm.
¢ Các trường thông tin mà nhóm sẽ tập trung rút trích trong dữ liệu được
minh họa ở Hình 1.2
!https://github.com/pbcquoc/vietocr
Trang 251 Mở dau
BO KHOA HOC [VA CONG NGHỆ CONG HOA XÃ HOI CHU NGHĨA VIET NAM
cuc SỞ HỮU TRÍ TUỆ Độc lập - Tự do - Hạnh phúc.
Tà Nội, ngày 20 tháng O1 năm 2017 }
|pẾN Ngày OÉ.C2 2, Vé việc chấp nhận đơn hợp lệ
| = CUC TRUONG CỤC SỞ HỮU TRÍ TUỆ
Can cứ Điều lệ Tổ chức và Hoạt động của Cục Sở hữu trí tuệ ban hành theo Quyết định số
69/QĐ-BKHCN ngày 15/01/2014 của Bộ trưởng Bộ Khoa học và Cong nghệ:
2 và điểm 13.6.b của Thông tư số 01/2007/TT-BKHCN ngày 14.02.2007 của BO Khoa học và Công nghệ hướng dẫn thi hành Nghị định số 103/2006/NĐ-CP;
Can cứ kết quả thẩm định hình thức đơn đăng ký giải pháp hữu ích:
Số đơn: 2-2016-00434
QUYẾT ĐỊNH:
Điều 1 Chấp nhận đơn hợp lệ với những ghi nhận sau đây:
Ngày nộp đơn: 09/12/2016
Chủ đơn(*): Trường Đại học Công nghệ Thông tin (VN)
Dia chỉ: Khu phố 6, phường Linh Trung, quận Thủ Đức, thành phố Hồ Chí Minh
“Tên giải pháp hữu ích: Phương pháp phát hiện biển báo giao thông sử dụng kết hợp đa đặc
trưng
Điều 2 Công bố đơn trên Công báo sở hữu công nghiệp và thẩm định nội dung trong trường hop
có yêu cầu theo quy định tại điểm 25.1 của Thông tư số 01/2007/TT-BKHCN.
Điều 3 Chánh Văn phòng, Trưởng phòng Đăng ky, Trưởng phòng Thông tin chịu trách nhiệm thi
hành Quyết định này.
TL CỤC TRUONG Noi nhận: ING ANG CHẾ SỐ 1
[Chis don/ đại điện của chủ đơn:
> Người ky
Hình 1.2: Các trường thông tin được rut trích
1.3 Đóng góp của khóa luận
> Ngay gửi
Sau đây là một số đóng góp mà nhóm thực hiện có được sau quá trình thực
hiện khóa luận:
» Hệ thống lại các kiến thức, hướng tiếp cận và giải quyết bài toán rút trích
thông tin từ trong hình ảnh văn bản tiếng Việt.
« Đánh giá một số phương pháp tiên tiến ứng với từng mô-đun của bài toán
- Đối với bài toán phát hiện dòng văn bản là PANet[1], FCENet[2],
DGGR[3] Trong đó PANet cho kết quả và hiệu năng tốt nhất vớiF1-score là 94.6% với tốc độ xử lý 14.68fps
— Đối với bài toán nhận diện dòng văn bản là Starnet[4] và VietOCR!
Trong đó VietOCR kết quả và hiệu năng tốt nhất với
Precision-full-sequence là 87.49% và tốc độ xử lý là 27fps
'https://github.com/pbcquoc/vietocr
Trang 261 Mở dau
— Đối với bài toán rút trích thông tin là PICK[5], SDMGR[6] trong đó
SDMGR có hiệu năng tốt nhất với f1-score là 98.3% và tốc độ 2.5
fps.
» Xây dựng được mot tập dữ liệu tiếng Việt để phục vụ cho bài toán rút trích
thông tin từ trong hình ảnh văn bản tiếng Việt (cho cả 3 giai đoạn bao gồm
phát hiện dòng văn bản, nhận diện dòng văn bản và rút trích thông tin từ
văn bản).
» Xây dựng chương trình minh họa cho phép người dùng sử dụng để nhận
diện, rút trích thông tin có trong hình ảnh.
1.4 Cấu trúc khóa luận
Chương 1: Giới thiệu tổng quan đề tài
Chương 2: Trình bày tổng quát các hướng tiếp cận có thể giải quyết bài toán
rút trích thông tin quan trọng từ hình ảnh văn bản.
Chương 3: Trình bày các kiến thức cơ bản về Transformer, Attention, Graph
Neural Networks và các mô hình mang Deep Learning được áp dụng cho bài toán.
Chương 4: Trình bày cách đánh giá phương pháp trên bộ dữ liệu và kết quả
so sánh giữa các phương pháp.
Chương 5: Trình bày cách xây dung ứng dụng va áp dụng các mô hình mạng
đã nghiên cứu vào trong dé tài
Chương 6: Trình bày kết luận và hướng phát triển của đề tài
Trang 27Chương 2
TỔNG QUAN
2.1 Mở đầu
Để hiểu rõ hệ thống rút trích thông tin trong hình ảnh văn bản, ta cần làm rõ
các khái niệm liên quan, các bài toán con liên quan, đồng thời tìm hiểu một sốphương pháp tiếp cận hiện nay Vì vậy, trong chương này, nhóm thực hiện sẽ giới
thiệu một số khái niệm cơ bản đồng thời khảo sát một số phương pháp nghiên
cứu đã từng được áp dụng từ trước đến nay, nêu ra những thành công và thất bại
trong từng phương pháp.
Một hệ thống trích xuất thông tin từ hình ảnh văn bản thường sẽ chia thành
3 mô-đun chính bao gồm
¢ Phát hiện dòng văn ban
¢ Nhận diện dòng van ban
* Rút trích thông tin
Và đây cũng chính là luồng xử lý mà nhóm sẽ thực hiện trong xuyên suốt khóa
luận lần này (Hình 2.1)
10
Trang 282 Tổng quan
2.2 Giới thiệu các bài toán rút trích thông tin trong
hình ảnh văn bản và các bài toán liên quan
2.2.1 Bài toán rút trích thông tin
Văn bản là một loại dữ liệu không có cấu trúc và xuất hiện với nhiều địnhdạng khác nhau trên internet Chúng mang rất nhiều thông tin mà con người có
thể khai thác được, tuy nhiên quá trình khai thác thông tin với loại tài liệu này
tốn rất nhiều nhân lực và chi phí Bài toán rút trích thông tin từ văn bản đã ra
đời để nhằm mục đích tự động hóa quá trình trên
Bài toán rút trích thông tin ban đầu được xem là một bài toán con của lĩnh
vực xử lý ngôn ngữ tự nhiên với mục tiêu là phân loại một chuỗi ký tự vào một
trong các trường thông tin được định nghĩa trước bởi con người Tuy nhiên, trên
thực tế văn bản được lưu trữ ở nhiều dạng khác nhau trên Internet và hình ảnhvăn bản là một trong những loại dữ liệu văn bản phổ biến, kiểu dữ liệu này đãđặt ra thêm rất nhiều thách thức cho các nhà nghiên cứu, và vô số hướng tiếp
11
Trang 292 Tổng quan
cận đã ra đời Vì là dữ liệu dạng hình ảnh nên chúng ta không có sẵn các ký tự
trong văn bản mà ta cần phải thực hiện các bước tiền xử lý để rút trích các chuỗi
ký tự trong hình ảnh để đưa bài toán về dạng rút trích thông tin từ văn bản thôngthường, từ đó áp dụng các phương pháp về rút trích thông tin từ văn bản để giảiquyết bài toán, ngoài ra ta có thể khai thác các thông tin trực quan về vị trí của
các chuỗi ký tự so với toàn cục văn ban, , những thông tin nay cũng đóng vai
trò rất quan trọng có thể cải thiện độ chính xác của mô hình
¢ Dữ liệu đầu vào: Hình ảnh tài liệu/văn bản.
» Dư liệu đầu ra: Là các chuỗi ký tự thuộc các trường thông tin mà ta muốn
fd phối hop thực hiện của Quy đơn v =e TRUONG BAN BAN KH&CN
Nei nhận TL GIAM DOC
Như tr TRUONG BAN BAN KH&CN
Hình 2.2: Đầu vào - dau ra của bài toán rút trích thông tinh
2.2.2 Bài toán phát hiện van ban
Mục đích của bài toán này là phát hiện ra các ứng cử viên có thể là chữ, hoặc
câu có trong ảnh, đây là một trong 2 bước nhằm rút trích ký tự/câu từ hình ảnh
văn bản phục vụ rât nhiêu cho việc sô hóa
12
Trang 302 Tổng quan
* Dữ liệu đầu vào: Hình ảnh tài liệu/văn bản.
» Dư liệu đầu ra: Là thông tin các hộp giới hạn bao xung quanh các dòng
văn bản trong hình ảnh văn bản.
Vin bản góp ý của Quý đơn vị gửi về Ban KH&CN ~ ĐHQG-HCM, phường Linl
XE 2n ni co _— “Trang, quận Thủ Đức; điện thoại 0837 242 160 - 1364 và qua email?
Trung, quận Thủ Đức; điện thoại 0837 242 160 - 1364 và qua email *
Äoyduag/@vnuhem.edu.vn trước ngày 09/11/2021 (Thi Ba) để tổng hop,
nvdung@vnuhem.edu.vn trước ngày 09/11/2021 (Thứ Ba) để tổng hợp.
F : ˆ
Trân trọng cảm ơn sự quan tim và phối hợp thực hiện của Quý đơn vị Trân trong cảm ơn sự quan tắm và phối hợp thực hiện của Quý đơn vj
Noi nhận TL GIÁM ĐÓC Noi nhận) | ŸTL, GIAM DOG
Law VT, KHCN JAN BAN KH&CN tTrruc TRƯỜNG BAN BAN KH&CN
“ng
aD
`=—
Hình 2.3: Đầu vào - đầu ra của bài toán phát hiện văn bản
2.2.3 Bài toán nhận diện chữ
Mục đích của bài toán này là nhận diện các chữ/câu từ hình ảnh Trong hệ
thống nhận diện chữ quang học (optical character recognition) thì bước này sẽ
nhận các ảnh đầu vào được cắt từ ảnh gốc theo vị trí của các hộp giới hạn, đây
là một trong 2 bước nhằm rút trích ký tự/câu từ hình ảnh văn bản phục vụ rat
nhiều cho việc số hóa.
¢ Dữ liệu đầu vào: Hình ảnh chữ/câu văn bản.
° Du liệu đầu ra: Chữ viết nếu có được rút trích trong hình ảnh (Hình 2.4).
13
Trang 312 Tổng quan
xay4p.I4 #4] Kink biti: TRƯỜNG ĐẠI HỌC,
10.02.2017 Kính gửi: TRƯỜNG ĐẠI HỌC
Nguyén Hội Nghĩa We Đức Nghĩa Này:
Nguyễn Hội Nghĩa Nguyễn Đức Nghĩa Ngày: 05.01.2017
+ Dữ liệu bài thi tuyển sinh Tiến sĩ: NCS- MATRUONG.xIs(x) Số AÓ
+ Dữ liệu bài thi tuyển sinh Tiến sĩ: NCS-MATRUONG.xIs(x) Số: 10
CBCT nhắc thí sinh còn 15 phút làm bài 1 Nguyên tắc chung Chuyén: DEN
CBCT nhắc thí sinh còn 15 phút làm bài 1 Nguyễn tắc chung Chuyển DEN
Hình 2.4: Dau vào - dau ra của bài toán nhận diện văn ban
2.3 Một số nghiên cứu liên quan đối với bài toán rút
trích thông tin
Các hướng tiếp cận đối với bài toán Rút trích thông tin từ hình ảnh văn bản
rất đa dạng Trong phần này nhóm sẽ chỉ ra các cách tiếp cận phổ biến cũng nhưcác phương pháp tiêu biểu thuộc những cách tiếp cận trên
2.3.1 Hướng tiếp cận truyền thông
Các phương pháp tiếp cận truyền thống sử dụng các đặc trưng được khuyến
nghị từ chuyên gia (hand-crafted features) để rút trích thông tin từ các hình ảnh
Trang 322 Tổng quan
được phân loại tương ứng với các mẫu văn bản trong bộ dữ liệu dựa vào bố cục
hình ảnh, từ đó ta có thể định nghĩa trước các luật để rút trích thông tin và trả về
kết quả cho người dùng, người dùng sẽ sửa lỗi các dữ liệu rút trích bị sai và gửikết quả lại hệ thống Hệ thống sẽ chỉnh sửa lại các luật dựa trên các dữ liệu sai
được gửi lại bởi người dùng.
Uu điểm:
« Phương pháp trên có tốc độ xử lý nhanh chóng, vì các mẫu văn bản đều
được định nghĩa sẵn các luật.
* Có khả năng cập nhật các luật sẵn có thông qua cơ chế sửa lỗi được phản
hồi bởi người dùng
Nhược điểm:
* Cần phải chuẩn bị bộ dữ liệu với các mẫu văn bản có sẵn
¢ Không thể áp dụng rộng rãi trên các văn bản có các bố cục khác nhau.
On-Demand Information Extactor - ODIE [8]: Hệ thống sử dụng bộ trích chon
đặc trưng LIEP (Learning Information Extraction Patterns) để so khớp các cầu
trúc câu có sẵn được lưu trữ với câu đầu vào từ đó sẽ phân tích câu đầu vào và
lấy được các thông tin cần rút trích LIEP sẽ cố gắng xây dựng một từ điển các
mẫu cấu trúc câu (extraction pattern dictionary) chứa các trường thông tin cầntrích xuất Đầu tiên ODIE sẽ nhận dữ liệu đầu vào là văn bản, thực hiện bước mã
hóa và tách văn bản thành các câu ODIE sẽ kiểm tra xem các câu này có chứa
các từ khóa có khả năng là là các trường thông tin mà ta quan tâm hay không.
Nếu không có từ khóa nào thì câu này sẽ bỏ qua, nếu có thì các từ khóa sẽ đượcgắn với các từ loại tương ứng, câu đó cũng sẽ được phân tích để lấy các thànhphần cấu trúc câu (như các tính từ, các danh từ, động từ ) Kế đến các câu có từkhóa sẽ được đưa qua LIEP để so khớp với các mẫu câu có sẵn trong tập từ điển
15
Trang 332 Tổng quan
được xây dựng trước đó, và đưa ra kết quả cuối cùng Khi có một câu đầu vàomới không khớp với các mẫu câu có sẵn trong từ điển trích xuất được xây dựng
trước đó thì LIEP sẽ cố gắng tổng quát hóa một mẫu câu có sẵn trong từ điển để
có thể bao hàm được dữ liệu đầu vào, từ đó tiếp tục xử lý, nếu không thể tổngquát hóa thành công thì LIEP sẽ xây dựng một mẫu câu dùng để trích xuất mớidựa trên dữ liệu đầu vào và thêm vào trong từ điển mau trích xuất
Uu điểm:
« Phương pháp trên có tốc độ xử lý nhanh chóng.
« Có khả năng bổ sung thêm các câu mới vào tập từ điển câu có sẵn từ đó
mở rộng phạm vi xử lý.
Nhược điểm:
« Các mẫu câu có san sẽ không thể bao hàm hết tat cả các câu dữ liệu đầu
vào, tuy mô hình có thể học được các mẫu câu mới để nâng cấp, nhưng không thể chính xác được như con người định nghĩa trước, và cách học của mô hình chịu ảnh hưởng nhiều từ các luật mà con người định nghĩa từ
trước.
* Với các loại dữ liệu không không có cấu trúc ngữ pháp, sẽ rất khó dé cho
LIEP có thể so khớp với các mẫu câu sẵn có.
2.3.2 Sử dụng các kĩ thuật học sâu
Với sự phát triển của phần cứng, những năm gần đây học sâu (deep learning)
đã có những bước tiến rất nhanh Học sâu có thể giúp mô hình có tính tổng quáthóa nhiều hơn với dữ liệu và chính điều này đã giúp cho nhiều bài toán đã đạt
được độ chính xác cao nhờ vào học sâu.
16
Trang 342 Tổng quan
2.3.2.1 Sử dụng nội dung chữ viết trong văn ban
Một hướng tiếp cận khác cho bài toán rút trích thông tin từ hình ảnh văn bản
đó là sử dụng các phương pháp xử lý ngôn ngữ tự nhiên, các văn bản sẽ được
xem như các chuỗi ký tự dài tuyến tính, và áp dụng các kĩ thuật gắn thẻ trình tự
(sequence tagging)! để giải quyết bài toán
Long-Short Term Memory with Conditional Random Fields (LSTM-CRF) [9]:
đầu tiên mô hình sẽ sử dung một phương pháp tao từ nhúng (word embedding)
để biến đổi các từ trong câu ban đầu về dạng biểu diễn vector, sau đó các vectornay sẽ được đi qua một kiến trúc mang học sâu là BiLSTM[10] (Bi-directionalLong-Short Term Memory) để rút trích các thông tin liên quan đến ý nghĩa, và
ngữ cảnh của từ đó trong câu, các vector rút trích được từ mạng BILSTM sẽ
được kết nối lại với nhau bằng toán tử ghép (Concanatation Operator)”, cuối
cùng vector được ghép lại này sẽ được đi qua lớp mô hình gắn thé CRF (CRF
Tagging Model) để phân loại câu vào một trong những trường dữ liệu mà ta quan
tâm.
Ưu điểm:
« Có áp dung cơ chế học sâu, cho nên sẽ có tính tổng quát hóa cao hơn, và
có thé áp dụng vào nhiều loại văn bản khác nhau.
* Áp dụng mô hình gắn thẻ CRF cho việc phân loại các thé của từ trong câu,
CRF sẽ sử dụng thông tin về mối quan hệ của các từ trong câu, từ đó đưa rakết quả chính xác hơn so với những phương pháp trước đây khi luôn xem
các từ trong câu độc lập.
‘https://en.wikipedia.org/wiki/Sequence;abeling
*https://en.wikipedia.org/wiki/Concatenation
17
Trang 352 Tổng quan
Nhược điểm:
¢ Phương pháp này khi áp dụng cho loại dữ liệu dạng hình ảnh văn bản lại
bỏ qua các thông tin quan trọng như vị trí của câu so với toàn cục, bố cục
văn bản
2.3.2.2 Sử dụng phối hợp các đặc trưng trực quan và nội dung chữ viết:
Ngoài nội dung của ký tự trong văn bản thì các thông tin trực quan như vị trí
của câu, bố cục văn bản, hình ảnh cũng là những thông tin rất quan trọng có thể
góp phần tăng cường độ chính xác
SDMGR: Spatial Dual-Modality Graph Reasoing for Key Information Extraction[6]
(SDMGR) mô hình hóa các văn ban dưới dạng một đồ thi bao gồm các đỉnh va
các cạnh, với các đỉnh được đại diện bởi một hộp chứa giới hạn (bounding box)
và sẽ bao gồm các thông tin đặc trưng văn bản và hình ảnh ở vị trí hộp chứa đó
và các đặc trưng này sẽ được hoc qua các mô hình BiLSTM cho đặc trưng van
bản và Convolutional neural network (CNN) cho đặc trưng hình ảnh, hai thông
tin trên sẽ được kết hợp với nhau tạo thành đỉnh, các cạnh của đồ thị sẽ là mối
quan hệ không gian giữa các đỉnh của đồ thị trên ảnh và được khởi tạo thông
qua cơ chế chú ý động (dynamic-attention) mà tác giả giới thiệu Mô hình sẽ cố
gắng học để phân loại các đỉnh của đồ thị về một trong các trường thông tin mà
ta quan tâm.
Uu điểm:
« Có áp dụng cơ chế học sâu, cho nên sẽ có tính tổng quát hóa cao hơn, và
có thể áp dụng vào nhiễu loại văn bản khác nhau.
* Tận dung được thông tin về các đặc trưng trực quan và van bản nhằm tăng
độ chính xác cho mô hình.
18
Trang 362 Tổng quan
Nhược điểm:
* Dé đạt được kết quả cao theo bài báo thì can phải gán nhãn theo dạng khóa
- trường dif liệu (key - category information), điều này sẽ làm khó khăntrong quá trình gán nhãn dữ liệu, ngoài ra một số trường dif liệu sẽ không
phương pháp PICK áp dụng cơ chế học đồ thị (graph learning) để có thể học
được ma trận tương quan giữa các đỉnh thay vì phải định nghĩa trước, ngoài ra
PICK cũng sẽ phối hợp tất cả các đặc trưng về câu trong văn bản, hình ảnh, vị
trí của câu so với toàn cục thông qua mạng tích chập đồ thị (graph convolution)
nhằm giúp mô hình có được vector biểu diễn tốt hơn cho các thông tin có trong
hình ảnh văn bản.
Uu điểm:
* Có áp dụng cơ chế học sâu, cho nên sẽ có tính tổng quát hóa cao hơn, và
có thể áp dụng vào nhiễu loại văn bản khác nhau.
° Áp dụng cơ chế học đồ thị giúp mô hình tự học ra mối tương quan giữa
các đỉnh mà không cần có sự định nghĩa trước từ con người
» Tận dụng được cả thông tin về trực quan cũng như các thông tin về văn bản
để cho kết quả tốt nhất
Nhược điểm:
19
Trang 372 Tổng quan
* Mô hình phải học tự học về việc biểu diễn ma trận tương quan giữa các
đỉnh trong đồ thị, nên quá trình huấn luyện diễn ra khá lâu.
2.4 Kết chương
Qua chương này, nhóm thực hiện hiểu được các vấn đề gặp phải ở các bàitoán Thêm vào đó là biết cách chọn ra cách tiếp cận, hướng giải quyết phù hợpđối với bài toán đang giải quyết Đề từ đó chọn ra được các phương pháp hiệu
quả.
VỀ bài toán rút trích thông tin trong hình ảnh văn bản, chúng ta có khá nhiều
phương pháp được hiện thực, tiếp cận Mỗi phương pháp thuật toán lại có những
ưu điểm và nhược điểm riêng, không phải phương pháp nào cũng hoàn hảo để
cho ra mô hình rút trích thông tin trong hình ảnh văn bản tốt Tuỳ vào mục đích
sử dụng mà chúng ta có thể chọn ra phương pháp phù hợp nhất đối với bài toánchúng ta giải quyết Theo đó, trong phạm vi đề tài khoá luận, nhóm chúng em
tập trung xử lý dữ liệu hình ảnh văn bản hành vì vậy việc tận dụng các thông tin
về bố cục cũng như hình ảnh là rất cần thiết SDMGR[6] là phương pháp phùhợp nhất cho bài toán vì có cơ chế học sâu sẽ làm mô hình tổng quát hơn, ngoài
ra tận dụng được các thông tin trực quan cũng như nội dung văn bản Bên cạnh
đó, để đánh giá mô hình được, nhóm còn thực hiện nghiệm so sánh đánh giá
giữa thuật toán SDMGR và PICK với những độ đo phù hợp.
20
Trang 38Chương 3
CƠ SỞ LÝ THUYET
3.1 Mở đầu
Trong chương này, nhóm thực hiện sẽ trình bày tổng quan một số các kiến
thức và phương pháp có liên quan tới các phương pháp cũng như là mô hình mà
nhóm đã áp dụng vào trong hệ thống trích xuất thông tin từ văn bản hành chính
Cụ thể hơn, nhóm sẽ trình bày qua các kiến thức như Transformer áp dụng vào
các mô hình nhận diện ký tự có trong anh, graph neural network được áp dụng vào các bài toán rút trích thông tin và nhóm cũng sẽ liệt kê những phương pháp
mà nhóm đã sử dụng trong hệ thống trích xuất thông tin từ văn bản hành chính
của nhóm.
3.1.1 Transformer
Transformer là một kiến trúc được công bố trong bài báo khoa học có tên
là Attention Is All You Need [11] bởi Google và được đăng lần đầu tiên tai
Advances in neural information processing systems năm 2017 Transformer sử
dung kiến trúc hồi quy va cả kỹ thuật Attention để giải quyết các bài toán về
nhận diện ky tự quang học Trước khi có Transformer chúng ta có LSTM va
RNN là những mô hình có thể giải quyết các vấn đề về phụ thuộc xa nên rất phù
21
Trang 393 Cơ sở lý thuyết.
hợp với khả năng nhận diện các chuỗi ký tự trong hình ảnh Tuy nhiên, RNN hay
LSTM tốn quá nhiều thời gian cho việc huấn luyện mặc dù chúng có thể không
tốt ở một vài trường hợp Chính vì vậy ngay khi Transformer được dé xuất đã
mang lại cho cộng đồng khoa học một phương pháp với độ chính xác cao trong
NLP và hiện tại là trong xử lý ảnh.
3.1.1.1 Ý tưởng cốt lõi trong Transformer
Transformer giải quyết được nhược điểm của mô hình tuần tự truyền thốngnhờ chủ yếu vào hai cau trúc là Multi-head attention va Positional encoding
(Hinh 3.1)
Về kiến trúc transformer cũng giống với các mô hình sequence-to-sequence
bao gồm hai phan encoder va decoder.
* Encoder, Gồm N khối, mỗi khối bao gồm hai sub-layer: Multi-Head
At-tention va Feed forward network Tác gia dùng một residual connection
ở mỗi sub-layer này Theo sau mỗi sub-layer đó là một lớp Layer Norm giúp mô hình có thể sâu hơn nhờ vào đó giảm tác động của vanishing
gradient.
* Decoder gồm N block, mỗi block gồm 2 sub-layer Tuy nhiên, nó có một
lớp Masked Multi-Head Attention Lớp này chính là lớp Multi-Head
At-tention Nó có chức năng chú ý đến toàn bộ những decoder hidden state
trước Nhiệm vụ của nó khi huấn luyện Transformer là khi ta đưa toàn bộ
câu vào cùng một lúc nên nếu ta đưa toàn bộ target sentence cho decoder
trước thì mô hình sẽ chẳng học được gì cả Do đó phải che (mask) bớt một
phan token 6 decoder hidden state sau trong quá trình decode
22
Trang 40tìm mã của từ đó và values chính là nghĩa cua từ Dựa trên ba giá tri này, ta tinh
được attention score Attention score thể hiện được mức độ liên quan giữa các
values với nhau hay các nghĩa của từ với nhau Nếu trong mô hình các giá trịđược kí hiệu lần lượt là: Values: V, Keys: K, Query: Q
23