IRNXT4zzi đại điện cho một tập hợp các nút của đồ thị X sẽ được sử dụng là đầu vào Xọ của Graph Module tiếp theo hoạt động gộp va Xo € RNX#„.a,

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Trích xuất thông tin hóa đơn sử dụng End-To-End Scene Text Spotting và Graph Convolutional Network-Based Key Information Extraction (Trang 47 - 52)

2.3.3.4 Graph Module

¢ Graph Learning

T € RN*4model của đồ thị các nút, với 0; € Roma! là nút thứ i của dé thi và giá trị ban đầu của V bằng Xo, Graph

Dua một đầu vào V = [ơ,...,0N]

Module tạo ra một ma trận liền kề A đại điện cho trọng số mối quan hệ theo cặp giữa hai node thông qua hoạt động của graph learning và trích xuất cỏc tớnh nang (extract features) H cho mỗi nỳt ứ; sử dụng một mạng multi-

layer perception (MLP) như trên đầu vào V và embedding mối quan hệ tương đương ứ. Sau đú biểu diễn graph convolution trờn cỏc tinh năng H, truyền thông tin giữa các nút và tổng hợp thông tin đó thành một biểu diễn tính năng mới V’. Về mặt toán hoc, chúng tôi học một ma trận liền ké A sử

dụng một single-layer neural work như

A; = softmax(e;), 7= 1,...,N, j=1,...,N,

(2.10)

ej; = LeakRelu(w/ |; — 0|)) ,

với WĂ € IRằs+2 vector trọng số cú thể học được. Dộ giải quyết van dộ gra-

đients vanishing ở giai đoạn huấn luyện, sử dụng LeakRelu thay vì Relu activation function. Chức năng softmax(-) được tiến hành trên mỗi hang của A, mà có thể đảm bảo rằng ma trận liền ké A có thể đáp ứng tinh chất

sau

N Ai = 1,Aj > 0, (2.11)N

Chúng tôi sử dung ham mắt mát được sửa đổi dựa trên [15] để tối ưu hóa vectơ trọng số w; như sau

LoL = N2 2u exp(4 + 1/|\ứĂ — ứ/llŠ) + VIALE, (2.12)1 GN

với || - ||: đại điện cho Frobenius-Norm. Theo trực quan, hạng tử đầu tiên có

nghĩa là cỏc nut ứĂ và v; xa nhau ở cỏc kớch thước cao hơn cho giỏ trị trọng

35

Chương 2. CÔNG TRINH LIÊN QUAN VÀ KIÊN THUC CƠ BẢN

số nhỏ hon Ajj „và phép toán lũy thừa có thể mở rộng điều này. Tương tự, các nút gần nhau trong không gian chiều cao hơn có thể có trọng số kết nối mạnh hơn. Quá trình này có thể ngăn chặn graph convolution tổng hợp thông tin của nút nhiễu. 7 là một tham số đánh đổi kiểm soát tầm quan trọng của các nút của đồ thị. Chúng tôi cũng tính trung bình tổn thất do số

lượng nút động trên các tài liệu khác nhau. Hạng tử thứ hai được sử dụng

để kiểm soát sự thưa thớt của ma trận liền kê A. + tham số đánh đổi và lớn hơn + mang lại sự thua thớt hơn ma trận liền kề A của đồ thị. Chúng tôi sử dụng £œr như một thuật ngữ chính quy trong hàm mất mát cuối cùng của

chúng tôi như thể hiện trong công thức để ngăn chặn các nút không

quan trong. w; = 0 được thảo luận trong (15].

® Graph Convolution

Graph convolutional network (GCN) được áp dụng dé nắm bắt thông tin trực quan toàn cục và cách bồ trí các nút từ dé thị. Chúng ta thực hiện graph

convolution trên bộ ba niit-canh-nut (0, 0;;,0;) như được sử dụng trong

hơn là trờn nỳt ứ; một mỡnh.

Đầu tiên, cho một đầu vào VŨ = Xo € IRN*4mode là đầu vào lớp ban đầu của

đồ thị, khởi tạo mối quan hệ embedding a?. Ă giữa nut ứĂ va 0 như sau:

W; T:

J -JỊT

ae (2.13)

ay = Wali Min n

với We € IR?”"9#!*6 là một ma trận trọng số. x; và yi; là khoảng cách ngang

và doc giữa nỳt ứ; và Ú tương ứng. w;, hj, w;, hj tương ung với chiều rộng và

chiều cao của 0; và 0;. it ¿ là tỉ lệ hình dang của nut v;, và i, 7 su mons chiéu

cao của nut v; để chuẩn hóa và có bat biến affine. Khác với z2l, chúng ta

cũng sử dụng tỷ lệ độ dài câu 1 giữa nút 0; và Vj. Về mặt trực quan, độ dài

của câu chứa thông tin quan trọng tiềm ẩn. Ví dụ: trong hóa đơn y tế, thực thể giá trị tuổi thường không quá ba chữ số, đóng vai trò quan trọng trong việc cải thiện hiệu suất trích xuất thông tin chính. Hơn nữa, với độ dài của câu và hình ảnh, mô hình có thể suy ra kích thước phông chữ thô của các

36

Chương 2. CÔNG TRINH LIÊN QUAN VÀ KIÊN THUC CƠ BẢN

đoạn văn bản, điều này làm cho mối quan hệ embedding có được nhiều biểu diễn phong phú hơn.

l

ij

nut-canh-nut (ứĂ, &Ă;„ứĂ) đữ liệu trong lớp tớch chập thứ i, được tinh toỏn bởi:

Sau đó trích xuất tính năng ẩn hị, giữa nút 0; va 0; từ dé thị sử dụng bộ ba

hị = ơ(Wj,vị + Wyn; + ij +b’), (2.14)

VỚI Wj Woh € Ra model *4model là những ma trận trong sỐ trong lớp tích chập

thứ ¡, và b! € IR#”° là một tham số bias. ơ(-) = max(0, -) là một hàm kích

hoạt phi tuyến tính. Các tính năng ẩn hij € IR4moae! đại diện cho tổng các đặc

điểm trực quan và mỗi quan hệ embedding giữa nỳt ứ; và ứ; điều này rất quan trọng để tổng hợp các biểu diễn phong phú hơn cho tác vụ ở dưới.

Cuối cùng, node embedding vị"! tổng hợp thông tin từ các tính năng ẩn hij

sử graph convolution để cập nhật biểu diễn nút. Vì lớp graph learning có

thể có được một dé thị thích ứng tối ưu ma trận liền ké A, Các lớp graph convolution có thể đạt những nhiệm vụ rõ ràng node embedding bằng cách thực hiện quy tắc lan truyền theo lớp. Với nút v;, chúng ta có

vi) — ứ(A,hèW), (2.15)

1

với W! € Rémodel*4model là ma trận trọng số có thể học theo lớp cu thể trong

lớp tích chập thứ i, và vị € IRfzez' cho node embedding for nút v; trong

lớp tích chập thứ / + 1. Sau L lớp, chúng ta có thể nhận được thông tin theo

ngữ cảnh v chứa thụng tin bố cục và thụng tin trực quan cho mọi nỳt ứĂ. Sau đó vi được truyền tới bộ decoder cho nhiệm vụ gan the.

Múi quan hệ embedding ait trong lớp tích chập tht! + 1 cho nút 9; được xây

dựng như:

ai} = 0(Wjhj), (2.16)

trong dé wi. € [Ro moder X4model là ma trận trong số có thể dao tạo cu thể theo

lớp trong lớp tích chập thứ ¡.

37

Chương 2. CÔNG TRINH LIÊN QUAN VÀ KIÊN THUC CƠ BẢN

2.3.3.5 Decoder

Mô hình decoder thay ở Hình|2.17|bao gồm lớp Union, lớp BiLSTM [7] lớp CRF

để trớch xuất thụng tin chớnh. Lớp Union nhận đầu vào X € IRN*X#ằsz! cú độ dài

T thay đổi được tao từ bộ Encoder, sau đó đóng gói các chuỗi đầu vào có đệm và

điền giỏ trị đệm vào cuối trỡnh tự mang lại chuỗi được đúng gúi ẹ € RINT) *4mode

Trinh tự đóng gói X có thể được coi là biểu diễn tài liệu không cục bộ thay vì biểu diễn phân đoạn văn bản cục bộ khi thực hiện gắn thẻ trình tự bằng CRF. Bên cạnh

đó, chúng ta đã nối node embedding của đầu ra Graph Module để đóng gói chuỗi

X ở mỗi dau thời gian. Một cách trực quan, việc node embedding chứa bố cục của tài liệu và các tính năng theo ngữ cảnh làm thông tin bổ trợ có thể cải thiện hiệu suất trích xuất mà không bị mơ hồ. BiLSTM có thể sử dụng cả thông tin ngữ cảnh quá khứ/trái và tương lai/phải để tạo thành đầu ra cuối cùng. Đầu ra của BiLSTM được cung cấp bởi

Z = BiLSTM (X ;0, Ojstm) Wz, (2.17)

với Z = |Z\,...,ZN.r]'T € RINT) dour là đầu ra của BiLSTM và biểu thị số điểm

của ma trận, doytput là số thực thể khác nhau, Z;,; đại diện cho số điểm của thực

thể thứ j của ký tự thứ t, c; theo trình tự đóng gói X, 0 có nghĩa là trạng thái ẩn ban đầu bằng không, và ©\. biểu dién thông số của BiLSTM. W; € Rémode* output

là ma trận trọng số có thể huấn luyện được.

Dua ra một chuỗi đóng gói X của những dự đoán y, số điểm của nó có thể

được xác định như sau:

- N-T N-T

s(X,y) = ằ ID Tiờu ằ Ziyi (2.18)

i=0 i=l

với T € R(N-T+2)x(N-T+2) là số điểm của ma trận chuyển tiếp vay = (W,.. -,VN-T)-

Yo và n.r+ biểu diễn ‘SOS’ và ‘EOS’ thực thể của một câu, có nghĩa là bắt đầu trình tự và kết thúc trình tự tương ứng. T;; đại diện cho điểm của quá trình chuyển đổi từ thực thể thứ ¡ đến thực thể ƒ.

38

Chương 2. CÔNG TRINH LIÊN QUAN VÀ KIÊN THUC CƠ BẢN

Sau đó lớp CRF tạo ra một họ xác suất có điều kiện thông qua một softmax cho chuỗi trình tự y cho X như sau

X)=————x=-, 2.19

p(y|X) —— (2.19)

với V(X) là tat cả các chuỗi thực thể có thé có cho X.

Đối với huấn luyện CRF, chúng ta giảm thiểu ước tính xảy ra log-likelihood của chuỗi thực thể chính xác và được cho bởi

Lat = — log(p(y|X)) = —s(X,y) +Z,ô ộ

- (2.20)

= 7 s(Xÿ)\ — Ỹ

Các tham số mô hình của toàn bộ mạng được huấn luyện chung bang cách giảm thiểu hàm mắt mát sau đây như

Leotat = Lert + ALCL, (2.21)

với Let va Log được định nghĩa trong công thức|2.12|và công thttc [2.20] va A là một tham số đánh đổi.

Decoding của lớp CRF là tìm kiếm chuỗi đầu ra y* có xác suất có điều kiện cao nhất

Y” =yey(x) PÚ|X) - (2.22)a

39

Chương 3

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Trích xuất thông tin hóa đơn sử dụng End-To-End Scene Text Spotting và Graph Convolutional Network-Based Key Information Extraction (Trang 47 - 52)

Tải bản đầy đủ (PDF)

(80 trang)