Xây dựng đồ thị (Feature Engineering)

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Trích xuất thông tin hóa đơn sử dụng End-To-End Scene Text Spotting và Graph Convolutional Network-Based Key Information Extraction (Trang 39 - 47)

KIÊN THỨC CƠ BẢN

2.3. Trích xuất thong tin

2.3.2 Trích xuất thông tin sử dụng mạng chuyển đổi đồ thị (Graph

2.3.2.2. Xây dựng đồ thị (Feature Engineering)

Có nhiều kỹ thuật để xây dựng một đồ thị, hầu hết chúng biến đổi từng vùng văn bản thành một nút và có thể khác nhau về cách xây dựng các cạnh. Một trong những kỹ thuật như vậy tạo ra tối đa bốn cạnh cho mỗi node, các cạnh kết nối mỗi vùng văn bản với bốn vùng văn bản lân cận gần nhất của nó theo mỗi hướng (Lên, Xuống, Trái và Phải).

HÌNH 2.14: [Minh hoa sự kết nối của các node trong hóa don!

27

Chương 2. CÔNG TRÌNH LIEN QUAN VÀ KIÊN THUC CƠ BẢN

2.3.2.3. Phân loại node

GCN học cách nhúng vectơ đặc trưng của nút (kết hợp giữa word embedding và

kết nối câu trúc với các nút khác) bang cách tạo vector gồm các số thực biểu thị

node đầu vào dưới dạng một điểm trong không gian N chiều và các nút tương

tự sẽ được ánh xạ tớ các điểm lân cận gần trong không gian nhúng (embedding

space) [24], cho phép huấn luyện một mô hình có thé phân loại các node.

"“-...

c.

Ẫ encode nodes

original network embedding space

HINH 2.15: Minh họa không gian nhting!®

2.3.3. Processing Key Information Extraction from Documents us-

ing Improved Graph Learning-Convolutional Networks (PICK)

47]

2.3.3.1 Giới thiệu

Các phương pháp sử dụng Graph convolutional network liên quan gần đây nhất

tới phương pháp của chúng tôi sử dụng là sử dung module dé thị để

lây được các tính năng non-local và multimodal cho việc trích xuất. Đầu tién, [33]

15 Anh lay từ https: //nanonets.com/blog/information-extraction-graph-

convolutional-networks/

°"Anh lây từ https: //nanonets.com/blog/information-extraction-graph-

convolutional-networks/

28

Chương 2. CÔNG TRINH LIÊN QUAN VÀ KIÊN THUC CƠ BẢN

chỉ sử dụng các tính năng văn bản và vị trí mà trong đó hình ảnh không được sử

dụng và cần xác định trước loại cạnh cụ thể của nhiệm vụ và kết nối giữa các nút của biểu dé. Tuy nhiên, phương pháp của tác giả có thể tự động tìm ra mối quan

hệ giữa các nút bằng module graph learning , sử dụng nó để tinh chỉnh hiệu quả cấu trúc của dé thị mà không có bat kỳ kiến thức trước nào để tổng hợp thông tin hữu ích hon bằng tích chập đồ thị. Thứ hai, cũng không sử dụng các tính năng hình ảnh để cải thiện hiệu suất của các nhiệm vụ trích xuất. Trong khi đó,

đo [22] đơn giản và đại khái coi đồ thị là kết nối đầy đủ dù cho các tài liệu phức

tạp đến đâu, graph convolution sẽ tổng hợp thông tin vô ích và dư thừa giữa các

điểm. Tuy nhiên, phương pháp PICK[47] kết hợp thêm graph learning vào mô

hình, có thể lọc các nút không quan trọng và hoạt động tốt trong các hóa đơn có cau trúc bố cục phức tap.

29

Chương 2. CÔNG TRÌNH LIEN QUAN VÀ KIÊN THUC CƠ BẢN

(a) (b) (c) (d)

HINH 2.16: Cac phuong phap done trong trích xuất thông tin. (a) Dua vào bồ cục. (b) Dựa vào xử ngôn ngữ tự nhiên. (c) Dựa vào

dé thị trong [33 ee) (d) PICK (47)

17 Anh lay từ

30

Chương 2. CÔNG TRINH LIÊN QUAN VÀ KIÊN THUC CƠ BẢN

Encoder | | Decoder HE ‹:‹:ê›.

owt TM ce

H

ơr—r

1 > CRF loss Lo |

al

: : Graph learning

> loss Let

HÌNH 2.17: Minh họa kiến trúc PICK!®

Nhìn vào sơ đồ HÌNH ta có thể thấy phương pháp PICK [47] được chia

thành 3 modules:

® Encoder: Module này mã hóa phân đoạn van ban (text segments) sử dụng

Transformer để nhúng văn bản (text embeddings) và phân đoạn hình ảnh (image segments) để nhúng hình anh (image embeddings) sử dung CNN.

Phân đoạn van ban và phân đoạn hình anh đại diện cho thông tin van bản

và hình ảnh có trên hóa đơn, sau đó chúng được kết hợp thành một đại diện cục bộ mới X sẽ được coi như là một node đầu vào ở module Graph Module.

s Graph Module: Ở giai đoạn nay, module có thể nắm bắt được mối quan

hệ tiềm ẩn giữa các nodes và làm rõ hơn đồ thị nhúng (graph embed-

dings) của nodes thông qua sự cải thiện sự hoạt động của graph learning- convolutional.

® Decoder: Sau khi có được đồ thị nhúng (graph embeddings) của tài liệu,

module này sử dung gắn thẻ trình tự (sequence tagging) thông qua BiLSTM

và CRE. Bằng cách này, mô hình [22] biến đổi các nhiệm vụ trích xuất thông tin quan trọng thành một van dé của gắn thẻ trình tự bằng cách xem xét thông tin bố cục và thông tin văn bản của tài liệu.

18 Ả nh lấy từ

31

Chương 2. CÔNG TRINH LIÊN QUAN VÀ KIÊN THUC CƠ BẢN

2.3.3.2 Ký hiệu

Cho một tài liệu D với N câu/đoạn văn bản, ký hiệu của nó được biểu diễn là

S = {sq,...,sN}, với s¡ là một tập hợp các ký tự cho thứ i câu/đoạn văn bản.

Chúng ta biểu diễn s!$ và s”” như là phân đoạn phân ảnh và bounding-box ở vị

trí i tướng ứng. Với mỗi câu s¡ = (c1, . cH), chúng ta gan nhãn mỗi từ là

M= (y\”, Ley yi )) tuần tự sử dung thẻ IOB (bên trong, bên ngoài, bắt đầu), với T

là chiều dài của câu s;.

Một đồ thị của một tài liệu được ký hiệu là G = (V, R,E), với V = {04,...,0n}

là một tập hợp của N nút, R = {aj1,..., aj}, ai là tap hợp các quan hệ giữa hai

nút, và E C V x R x V là một tập hợp cạnh và mỗi cạnh Cif = (0i,8&¡j,0j) € E biéu

thị mối quan hệ a;; € R tồn tai từ nút 9; tới 0.

2.3.3.3. Encoder

Như đã đề cập trong Hình vị trí trên cùng bên trái trong biểu đồ là mô-đun

Encoder, chứa hai nhánh:

Một nhánh của Encoder tạo ra các text-embeddings bằng cách sử dụng bộ

Encoder của Transformer [41| để nắm bắt nội dung văn bản. Cho một câu s; =

(cl, Ley củ), text embeddings của câu s; được định nghĩa như sau:

te] T — TransformerEncoder (<r ; tenc) , (2.5)1

Với cụ) = [e1, " yt € R?*4modet biểu diễn cõu dau vào, cị? € IR#ằo4! đại điện

một token embedding (ví dụ: Word2Vec) cho mỗi từ c „ Amodel là kích thước của

model, te\!). = [te(”, ` .„te)|T € IRT*đằs4! biểu diộn cõu đầu ra, te(’) € RA model

đại điện cho dau ra của Encoder bộ Transformer cho ky tự thứ i c\)), va @tenc dai

diện cho bộ thông số encoder của Transformer. Mỗi câu được mã hóa độc lập và

chúng ta có thể nhận một tài liệu D text embeddings, định nghĩa là:

TE = [te|);...;tel 2] © RNXTX đua , (2.6)

32

Chương 2. CÔNG TRINH LIÊN QUAN VÀ KIÊN THUC CƠ BẢN

Multi-Head Attention

L Add & Norm }

Nx

Masked Multi-Head Attention

= ly,

Positional Positional

Input Output

Embedding Embedding

Inputs Outputs

(shifted right)

HÌNH 2.18: Mô hình Transformer được sử dung dé tạo ra các text-

embeddings!”

Một nhánh khác của Bộ Encoder là tạo hình anh nhúng (image embedding)

sử dụng CNN để bắt thông tin hình thái học của hóa đơn. Cho một đoạn hình ảnh s°, hình ảnh nhúng (image embeddings) được định nghĩa như sau:

ie) = cnn (sẻ ; cnn) , (2.7)

với 5;° € IRH'*W'*3 biểu thị vector của đoạn hình ảnh đầu vào, H’ và W’ đại điện cho chiều cao và chiều rộng của đoạn hình ảnh tương ting sis, ie) € IRM XW *Amoder

đại diện đầu ra của CNN cho 7-thứ đoạn hình ảnh sis, và @enn đại diện bộ thông

số của CNN. Thực hiện CNN sử dụng ResNet và thay đổi kích thước hình

ảnh H x W = T sau đó mã hóa từng phân đoạn hình ảnh riêng lẻ và chúng ta có

19 Ảnh lây từ

33

Chương 2. CÔNG TRÌNH LIEN QUAN VÀ KIÊN THUC CƠ BẢN

thể nhận được một tài liệu D image embeddings, định nghĩa là:

TE = [ief;...;ietM)] © IRN XP Amoder (2.8)

an" uy unặặg

[se sd

Conv(7x7 + 2(s))

= BatchNormalization

x2 | [em@m]

BatchNormalization

X3 BatchNormalization

BatchNormalization

AveragePool

HINH 2.19: Mô hình Resnet50 được sử dung cho CNN”?

Cuối cùng, kết hợp text embeddings TE va image embeddings IE ta được X của tài liệu D, có thể biểu diễn dưới dạng:

X=TE+IE, (2.9)

20 Ảnh lay từ

34

Chương 2. CÔNG TRINH LIÊN QUAN VÀ KIÊN THUC CƠ BẢN

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Trích xuất thông tin hóa đơn sử dụng End-To-End Scene Text Spotting và Graph Convolutional Network-Based Key Information Extraction (Trang 39 - 47)

Tải bản đầy đủ (PDF)

(80 trang)