2.3.3.4 Graph Module
¢ Graph Learning
T € RN*4model của đồ thị các nút, với 0; € Roma! là nút thứ i của dé thi và giá trị ban đầu của V bằng Xo, Graph
Dua một đầu vào V = [ơ,...,0N]
Module tạo ra một ma trận liền kề A đại điện cho trọng số mối quan hệ theo cặp giữa hai node thông qua hoạt động của graph learning và trích xuất cỏc tớnh nang (extract features) H cho mỗi nỳt ứ; sử dụng một mạng multi-
layer perception (MLP) như trên đầu vào V và embedding mối quan hệ tương đương ứ. Sau đú biểu diễn graph convolution trờn cỏc tinh năng H, truyền thông tin giữa các nút và tổng hợp thông tin đó thành một biểu diễn tính năng mới V’. Về mặt toán hoc, chúng tôi học một ma trận liền ké A sử
dụng một single-layer neural work như
A; = softmax(e;), 7= 1,...,N, j=1,...,N,
(2.10)
ej; = LeakRelu(w/ |; — 0|)) ,
với WĂ € IRằs+2 vector trọng số cú thể học được. Dộ giải quyết van dộ gra-
đients vanishing ở giai đoạn huấn luyện, sử dụng LeakRelu thay vì Relu activation function. Chức năng softmax(-) được tiến hành trên mỗi hang của A, mà có thể đảm bảo rằng ma trận liền ké A có thể đáp ứng tinh chất
sau
N Ai = 1,Aj > 0, (2.11)N
Chúng tôi sử dung ham mắt mát được sửa đổi dựa trên [15] để tối ưu hóa vectơ trọng số w; như sau
LoL = N2 2u exp(4 + 1/|\ứĂ — ứ/llŠ) + VIALE, (2.12)1 GN
với || - ||: đại điện cho Frobenius-Norm. Theo trực quan, hạng tử đầu tiên có
nghĩa là cỏc nut ứĂ và v; xa nhau ở cỏc kớch thước cao hơn cho giỏ trị trọng
35
Chương 2. CÔNG TRINH LIÊN QUAN VÀ KIÊN THUC CƠ BẢN
số nhỏ hon Ajj „và phép toán lũy thừa có thể mở rộng điều này. Tương tự, các nút gần nhau trong không gian chiều cao hơn có thể có trọng số kết nối mạnh hơn. Quá trình này có thể ngăn chặn graph convolution tổng hợp thông tin của nút nhiễu. 7 là một tham số đánh đổi kiểm soát tầm quan trọng của các nút của đồ thị. Chúng tôi cũng tính trung bình tổn thất do số
lượng nút động trên các tài liệu khác nhau. Hạng tử thứ hai được sử dụng
để kiểm soát sự thưa thớt của ma trận liền kê A. + tham số đánh đổi và lớn hơn + mang lại sự thua thớt hơn ma trận liền kề A của đồ thị. Chúng tôi sử dụng £œr như một thuật ngữ chính quy trong hàm mất mát cuối cùng của
chúng tôi như thể hiện trong công thức để ngăn chặn các nút không
quan trong. w; = 0 được thảo luận trong (15].
® Graph Convolution
Graph convolutional network (GCN) được áp dụng dé nắm bắt thông tin trực quan toàn cục và cách bồ trí các nút từ dé thị. Chúng ta thực hiện graph
convolution trên bộ ba niit-canh-nut (0, 0;;,0;) như được sử dụng trong
hơn là trờn nỳt ứ; một mỡnh.
Đầu tiên, cho một đầu vào VŨ = Xo € IRN*4mode là đầu vào lớp ban đầu của
đồ thị, khởi tạo mối quan hệ embedding a?. Ă giữa nut ứĂ va 0 như sau:
W; T:
J -JỊT
ae (2.13)
ay = Wali Min n
với We € IR?”"9#!*6 là một ma trận trọng số. x; và yi; là khoảng cách ngang
và doc giữa nỳt ứ; và Ú tương ứng. w;, hj, w;, hj tương ung với chiều rộng và
chiều cao của 0; và 0;. it ¿ là tỉ lệ hình dang của nut v;, và i, 7 su mons chiéu
cao của nut v; để chuẩn hóa và có bat biến affine. Khác với z2l, chúng ta
cũng sử dụng tỷ lệ độ dài câu 1 giữa nút 0; và Vj. Về mặt trực quan, độ dài
của câu chứa thông tin quan trọng tiềm ẩn. Ví dụ: trong hóa đơn y tế, thực thể giá trị tuổi thường không quá ba chữ số, đóng vai trò quan trọng trong việc cải thiện hiệu suất trích xuất thông tin chính. Hơn nữa, với độ dài của câu và hình ảnh, mô hình có thể suy ra kích thước phông chữ thô của các
36
Chương 2. CÔNG TRINH LIÊN QUAN VÀ KIÊN THUC CƠ BẢN
đoạn văn bản, điều này làm cho mối quan hệ embedding có được nhiều biểu diễn phong phú hơn.
l
ij
nut-canh-nut (ứĂ, &Ă;„ứĂ) đữ liệu trong lớp tớch chập thứ i, được tinh toỏn bởi:
Sau đó trích xuất tính năng ẩn hị, giữa nút 0; va 0; từ dé thị sử dụng bộ ba
hị = ơ(Wj,vị + Wyn; + ij +b’), (2.14)
VỚI Wj Woh € Ra model *4model là những ma trận trong sỐ trong lớp tích chập
thứ ¡, và b! € IR#”° là một tham số bias. ơ(-) = max(0, -) là một hàm kích
hoạt phi tuyến tính. Các tính năng ẩn hij € IR4moae! đại diện cho tổng các đặc
điểm trực quan và mỗi quan hệ embedding giữa nỳt ứ; và ứ; điều này rất quan trọng để tổng hợp các biểu diễn phong phú hơn cho tác vụ ở dưới.
Cuối cùng, node embedding vị"! tổng hợp thông tin từ các tính năng ẩn hij
sử graph convolution để cập nhật biểu diễn nút. Vì lớp graph learning có
thể có được một dé thị thích ứng tối ưu ma trận liền ké A, Các lớp graph convolution có thể đạt những nhiệm vụ rõ ràng node embedding bằng cách thực hiện quy tắc lan truyền theo lớp. Với nút v;, chúng ta có
vi) — ứ(A,hèW), (2.15)
1
với W! € Rémodel*4model là ma trận trọng số có thể học theo lớp cu thể trong
lớp tích chập thứ i, và vị € IRfzez' cho node embedding for nút v; trong
lớp tích chập thứ / + 1. Sau L lớp, chúng ta có thể nhận được thông tin theo
ngữ cảnh v chứa thụng tin bố cục và thụng tin trực quan cho mọi nỳt ứĂ. Sau đó vi được truyền tới bộ decoder cho nhiệm vụ gan the.
Múi quan hệ embedding ait trong lớp tích chập tht! + 1 cho nút 9; được xây
dựng như:
ai} = 0(Wjhj), (2.16)
trong dé wi. € [Ro moder X4model là ma trận trong số có thể dao tạo cu thể theo
lớp trong lớp tích chập thứ ¡.
37
Chương 2. CÔNG TRINH LIÊN QUAN VÀ KIÊN THUC CƠ BẢN
2.3.3.5 Decoder
Mô hình decoder thay ở Hình|2.17|bao gồm lớp Union, lớp BiLSTM [7] lớp CRF
để trớch xuất thụng tin chớnh. Lớp Union nhận đầu vào X € IRN*X#ằsz! cú độ dài
T thay đổi được tao từ bộ Encoder, sau đó đóng gói các chuỗi đầu vào có đệm và
điền giỏ trị đệm vào cuối trỡnh tự mang lại chuỗi được đúng gúi ẹ € RINT) *4mode
Trinh tự đóng gói X có thể được coi là biểu diễn tài liệu không cục bộ thay vì biểu diễn phân đoạn văn bản cục bộ khi thực hiện gắn thẻ trình tự bằng CRF. Bên cạnh
đó, chúng ta đã nối node embedding của đầu ra Graph Module để đóng gói chuỗi
X ở mỗi dau thời gian. Một cách trực quan, việc node embedding chứa bố cục của tài liệu và các tính năng theo ngữ cảnh làm thông tin bổ trợ có thể cải thiện hiệu suất trích xuất mà không bị mơ hồ. BiLSTM có thể sử dụng cả thông tin ngữ cảnh quá khứ/trái và tương lai/phải để tạo thành đầu ra cuối cùng. Đầu ra của BiLSTM được cung cấp bởi
Z = BiLSTM (X ;0, Ojstm) Wz, (2.17)
với Z = |Z\,...,ZN.r]'T € RINT) dour là đầu ra của BiLSTM và biểu thị số điểm
của ma trận, doytput là số thực thể khác nhau, Z;,; đại diện cho số điểm của thực
thể thứ j của ký tự thứ t, c; theo trình tự đóng gói X, 0 có nghĩa là trạng thái ẩn ban đầu bằng không, và ©\. biểu dién thông số của BiLSTM. W; € Rémode* output
là ma trận trọng số có thể huấn luyện được.
Dua ra một chuỗi đóng gói X của những dự đoán y, số điểm của nó có thể
được xác định như sau:
- N-T N-T
s(X,y) = ằ ID Tiờu ằ Ziyi (2.18)
i=0 i=l
với T € R(N-T+2)x(N-T+2) là số điểm của ma trận chuyển tiếp vay = (W,.. -,VN-T)-
Yo và n.r+ biểu diễn ‘SOS’ và ‘EOS’ thực thể của một câu, có nghĩa là bắt đầu trình tự và kết thúc trình tự tương ứng. T;; đại diện cho điểm của quá trình chuyển đổi từ thực thể thứ ¡ đến thực thể ƒ.
38
Chương 2. CÔNG TRINH LIÊN QUAN VÀ KIÊN THUC CƠ BẢN
Sau đó lớp CRF tạo ra một họ xác suất có điều kiện thông qua một softmax cho chuỗi trình tự y cho X như sau
X)=————x=-, 2.19
p(y|X) —— (2.19)
với V(X) là tat cả các chuỗi thực thể có thé có cho X.
Đối với huấn luyện CRF, chúng ta giảm thiểu ước tính xảy ra log-likelihood của chuỗi thực thể chính xác và được cho bởi
Lat = — log(p(y|X)) = —s(X,y) +Z,ô ộ
- (2.20)
= 7 s(Xÿ)\ — Ỹ
Các tham số mô hình của toàn bộ mạng được huấn luyện chung bang cách giảm thiểu hàm mắt mát sau đây như
Leotat = Lert + ALCL, (2.21)
với Let va Log được định nghĩa trong công thức|2.12|và công thttc [2.20] va A là một tham số đánh đổi.
Decoding của lớp CRF là tìm kiếm chuỗi đầu ra y* có xác suất có điều kiện cao nhất
Y” =yey(x) PÚ|X) - (2.22)a
39
Chương 3