Dựa trên các kiến thức nền tảng trong lĩnh vực Khoa Học Dữ Liệu cùng với đó là Lý Thuyết Đồ Thị được áp dụng xuyên suốt trong mô hình thực nghiệm, em đã thành công trong việc triển khai
Trang 1ĐẠI HỌC QUÓC GIA TP HÒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN
PHÒNG LAI BẢO MINH - 20522217
KHÓA LUẬN TÓT NGHIỆP
NHẬN DIỆN KÝ TỰ QUANG HỌC DỰA TRÊN PHƯƠNG
Optical Character Recognition Based on Graph Method
CU NHAN NGANH KHOA HOC DU LIEU
GIANG VIEN HUONG DAN
TS DO TRONG HOP
TS TRAN VAN THANH
TP HO CHÍ MINH, 2024
Trang 2Em đặc biệt cảm ơn đến TS Đỗ Trọng Hợp và TS Trần Văn Thành đã hướng dẫn
và đưa ra những chỉ dẫn cho em một cách tận tình trong thời gian làm KLTN.
Em cũng xin gửi lời cảm ơn sâu sắc đến anh/chi, bạn bẻ tại trường đã luôn hỗ trợđộng viên em xuyên suốt quá trình học tập tại trường
Cuối cùng, em muốn gửi lời biết ơn đến gia đình người thân của mình, họ chính
là nguồn động viên to lớn nhất trong suốt quá trình học tập của em, nhờ có giađình đã tạo điều kiện cho em hoàn thành quá trình học tập này
Một lần nữa, xin chân thành cảm ơn tat ca!
Trang 3MỤC LỤC
Chương 1._ MỞ ĐẦU 2-:cccetreeEEtrreEEEriEEEErirEErrrdrtrrirrrtrrirrrrrreerrre 2
1.1 LÝ DO CHON DE TÀI 22 icccccttreeeEEtrreeretrrrtrertrrrrsrrrrrrrrerre 21.2 MỤC DICH NGHIÊN CỨU -++eecvEEEt.22EEEEEEEEEtSSEEEEEErrirerke 31.3 ĐỐI TƯỢNG NGHIÊN CỨU cc52ireeccSttrrerrvtrtrrrrrrrrrrrerre 31.4 PHAM VI NGHIÊN CỨU 2:++eccettrreeverrrrerrrtrrrrrrrrrrrrrrrre 4
Chương 2 TONG QUAN -.2 cec2+tee2E+2EEESEEEEEEEEEiEEEEEieEtrrretrrrrreerre 5
2.1 Cac Phương Pháp Trước ĐÓ «-cscckrerikrkritkrtriikiririkrrrrrrrrrirrrrrke 5
2.1.1 Rule-based Method c-s- sec sSssseeeskkerreerkersrkrsrtsrkrrsrssrsrrsrsrrk 5
2.2 Hướng Giải Quyết Trong Dé Tài Này -iiceccccccrrrreeeeevrrrrrrrree 14
Chương 3 _ PHƯƠNG PHÁP -+:cc552ireccvvEttrrrvvrtrtrrrvrrrtrrrrrrrrrrrre 16
Trang 43.1.2.1 _ Sự tương quan giữa đồ thị và học sâu - ccccccccrccee 20
3.1.2.2 _ Cơ sở tính toán Graph Neural Network essere 22
(a) Message Passing che 23
3.3 Graph Convolutional NefWOFK ‹ escxescrxerrrrerrrrrrrrerrrrrrrrrrrrkerrre 36
3.3.1 Tổng quan về GON ceccscssssesssssosesssssssesssssosesssssnsessssssensssasnsesssasesesesnssnsesssses 36
3.3.2 Cheb Net cissstascssssssteccsssssatsnassesnstibisiceesssssssnsssesesssesnsssesnsssesnassesnassesnaseesness 37
3.3.3 Node Classification sử dụng mô hình GCN ban giám sắt 39
Chương 4 TRIỂN KHAI BÀI TOÁN -: cccerrceceerrreeeerrtrrerrrrrrrsertr 44
4.1 _ Thu Thập Và Xử Lý Dữ Liệu cce.-eeceereceerrreeerrrereerre 44
4.2 Mô Hình Hóa Đồ Thị -ci+t++22225215152122221222 22311112211EEEirrrrd 47
4.3 Quy Dinh Đặc Trưng ÌNOde s-cc<crekseretkirekiririirriirrrie 51
4.4 Triển Khai Mô Hình 2-+ccssreevvtrrevetrrervtrtrrtrrirrvrrrrrerrre 524.5 Kết Quả Thực Nghiệm 22++ce2trecEtrrerEtrtrrErrrrrrrrrrrrrrre 56
Chương 5 TONG KẾT eco+ieecSEE22EEEEEE.211121 1111 111 te 60Chương 6 _ HƯỚNG PHÁT TRIỂN -2::cce2trceettrrerttrrerrrrrrrrrrrzer 61
TÀI LIEU THAM KHAO -+-ecc2tt+++e2SEEEEEEEr22EEEEEEEtrrrrrrrrrrrrrrrrrrrrrrree 62
Trang 5DANH MỤC HÌNH
Hình 2-1 Mô hình CRE -5< 5x HH HH HH re 9
Hình 2-2 Mô hình LS TÌM . -©ccccErtEriEHHHHHHH 10
Hình 2-3 Mô hình BiLSTM -.-5 +.kcSLHEHHHH HH Hà 11
Hình 2-4 Mô hình Transformer - ©55<©++SY+EExeEExtsrkerrketrkrtkrrtrrrrrkrrrkrrre 12
Hình 3-1 Hình ảnh dưới dạng Euclide và đồ thị đưới dang phi Euclide 16
Hình 3-8 Tích chập truyền thong và tích chập trên đồ thị - 32
Hình 3-9 Tổng quan các bước mô hình GON -ces.xeceetrrecerree 37
Hình 4-1 Ảnh hóa đơn trong bộ dữ liỆu -5cccsrseerirerirrrirerrrrirrree 44
Hình 4-2 Kết quả trích xuất từ Pytesseract -.ecececceerrrrreererrrrrrrrrrrrrrrrrree 45
Hình 4-3 Tọa độ các box và nội dung tương Ứng e ceecxecxrerreerverrrerrrs 46
Hình 4-4 Dữ liệu sau khi bổ sung nhãn -++ccssi+reccttrreevvvrrrrrvrrrrrre 47Hình 4-5 Sự đa dạng trong cau trúc của các hóa đơn . -::-ccccccerrree 48Hình 4-6 Quy tắc kết nối giữa các bounding box .cccccecrrrrccccccerrree 49Hình 4-7 Các bước mô hình thành dit liệu đồ thị cs2+-cccssrrcce 51Hình 4-8 Kết quả mô hình thực nghiệm +-ccccccttirrreevvvvtrrrrrrererrrrrre 56Hình 4-9 Sự không nhất quán giữa các bounding box . : .cccccerrree 59
Trang 6DANH MỤC BANG
Bang 4-1 Phân phối số lượng nhãn trong bộ dữ liệu -:-.cccccerrrre 54Bảng 4-2 Trọng số sử dụng dé cân bằng cho các nhãn -: -ccccsrrre 54Bang 4-3 Thống kê số lượng node và cạnh trong bộ đữ liệu - 55Bảng 4-4 Bộ tham số được sử dụng cho mô hình s-©c«exsereerxeerrerreee 56
Bảng 4-5 Accuracy của các mô hình thực nghiệm « c<©c«+seeeresceee 57
Bang 4-6 Confusion Matrix của GCN tại epochs 521 vests 57
Bang 4-7 Kết quả so sánh các mô hình -::+:++eeeevvrtrrrreervvrtrrrrrzrrerrrrrre 58Bảng 4-8 Thời gian huấn luyện các mô hình -+-ccs2++rcccettrrecverrrrce 58
Trang 7DANH MỤC TỪ VIET TAT
Các từ viết tắt Ý nghĩa
NLP Natural Language Processing
CRF Conditional Random Field
LSTM Long Short-Term Memory
BiLSTM Bidirectional Long Short-Term Memory
CNN Convolutional Neural Network
GNN Graph Neural Network
GCN Graph Convolutional Network
SGNN Spectral Graph Neural Network
Trang 8TOM TAT KHÓA LUẬN
Đây là một báo cáo trình bày các cơ sở khoa học, cách triển khai thực hiện cho
bài toán “Nhận Diện Ký Tự Quang Học Dựa Trên Phương Pháp Đồ Thị” Mục tiêu
của bài toán này là nhận diện và trích xuất được các nội dung (thực thé) trong một
bức ảnh biên lai, hóa đơn có các cấu trúc khác nhau, các thực thê này có thê bao gồmtên sản phẩm, giá cả, ngày tháng, và các thông tin khác có trên biên lai hoặc hóa đơn
Dựa trên các kiến thức nền tảng trong lĩnh vực Khoa Học Dữ Liệu cùng với
đó là Lý Thuyết Đồ Thị được áp dụng xuyên suốt trong mô hình thực nghiệm, em đã
thành công trong việc triển khai được mô hình trích xuất ra được hau hết các thực thé
được gán nhãn trong bài toán, qua đó khăng định được ưu thế của mô hình thực
nghiệm so với các mô hình trước đây.
Các mô hình graph-based lần lượt cho ra các kết quả rất tốt trong tác vụ nàyvới Fl-score lần lượt cho các mô hình GCN, ChebNet, ARMA-GNN là 0.8848,
0.8718, 0.8636 Kết quả cho thấy các mô hình dựa trên đồ thị đều đạt được hiệu quả
cao trong bài toán nhận điện ký tự quang học từ biên lai, hóa đơn Điều này khangđịnh rằng việc áp dụng lý thuyết đồ thị trong bài toán OCR không chỉ khả thi mà cònmang lại những cải tiền đáng kế so với các phương pháp trước đây
Trang 9Chương 1 MỞ ĐẦU
1.1 LÝ DO CHỌN ĐÈ TÀI
Quyết định chọn đề tài “Nhận diện kí tự quang học dựa trên phương pháp đồthị” xuất phát từ nhu cầu thực tế của xã hội và sự phát triển mạnh mẽ trong lĩnh vực
công nghệ Việc xử lý các đữ liệu từ các hình ảnh như biên lai hay hóa đơn trở nên
thiết yếu hơn trong các công cụ tự động hóa, ứng dụng của nó đang ngày càng được
áp dụng rộng rãi trong nhiều lĩnh vực khác nhau như bảo hiểm, tài chính, ngân hàng,quản lý doanh nghiệp, Mỗi ngày có hàng triệu tài liệu cần được số hóa và thông tincủa nó cần được thu thập một cách nhanh chóng và thật chính xác Vì vậy ta có thểnhìn nhận được thách thức trong bài toán này đó là đảm bảo độ chính xác, năng suất
và thời gian trong việc trích xuất thông tin
OCR (Optical Character Recognition) từ lâu đã trở thành một công cụ hữu ích
trong việc chuyên đồi thông tin từ định dang ảnh sang định dạng văn bản Thế nhưng
dé đạt được kết quả tối ưu nhất thì việc áp dụng các kỹ thuật tiên tiến là điều thiết yếunhất Việc kiến thức về đồ thị được áp dụng vào bài toán này là một hướng tiếp cậnmới mẻ và ngoài ra nó còn rất thích hợp trong việc xử lý các bài toán mà ở đó dữ liệu
có cầu trúc ngẫu nhiên, rời rạc
Khi kết hợp cộng nghệ OCR và phương pháp đồ thị chúng ta không những tận
dụng được tối đa sức mạnh của cả hai công nghệ mà còn biết cách vận hành cũng như
hiểu được các ưu điểm của phương pháp này Đồng thời đây cũng là cách tiếp cậngiúp tăng cường hiệu suất so với các hướng tiếp cận trước đây ma qua đó giảm thiểu
các bước trung gian và tôi ưu hóa được các thuật toán.
Tom lại việc thực hiện bai toán “Nhận diện kí tự quang học dựa trên phương
pháp đồ thị” không những tận dụng được giá trị lý thuyết mà còn đáp ứng được cácgiá trị thực tiễn Nó đã mở ra một hướng đi khác trong việc vận dụng trí tuệ nhân tạovào các vấn đề thực tế cũng như góp phần nâng cao chất lượng và tính chính xác củacác hệ thống xử lý thông tin từ hình ảnh và từ đó đáp ứng được nhu cầu ngày càng
cao trong xã hội hiện đại.
Trang 101.2 MỤC DICH NGHIÊN CỨU
Mục tiêu chính của nghiên cứu này là phát triển một hệ thống nhận diện kí tự
quang học (OCR) tiên tiến, sử dụng đồ thị để cải thiện, tăng cường khả năng tríchxuất thông tin từ hình ảnh biên lai Với việc vẫn còn tồn tại nhiều hạn chế về độ chínhxác cũng như là năng suất thì nghiên cứu này sẽ vận dụng tiêm năng của phương pháp
đồ thị nhằm mang lại một bước cải tiến mới trong lĩnh vực xử ly thông tin từ hình
ảnh.
Ngoài ra thông qua việc tiến hành đề tài nghiên cứu này nó còn giúp ta hiểu
được các lý thuyết của các phương pháp từ đó thấy được các ưu điểm và hạn chế
trong từng cách làm Mà thông qua kiến thức về lý thuyết đồ thì chúng ta có thể môhình hóa và phân tích các mối quan hệ phức tạp giữa các đối tượng, hứa hẹn sẽ mang
lại kết quả tích cực hơn so với các phương pháp OCR truyền thống
Cuối cùng, mục tiêu của em với đề tài này là tạo ra một hệ thong OCR không
chỉ có kha năng hoạt động tự động ma còn có tính linh hoạt cao, có thể dễ dàng điềuchỉnh và mở rộng đề phù hợp với nhiều loại tài liệu và ứng dụng khác nhau Thông
qua việc đạt được những mục tiêu trên, nghiên cứu này kỳ vọng sẽ đóng góp một
phần quan trọng vào sự phát triển của công nghệ OCR, mở ra những hướng đi mớitrong việc ứng dụng trí tuệ nhân tạo và phương pháp đồ thị vào các bài toán thực tiễn
1.3 ĐÓI TƯỢNG NGHIÊN CỨU
Đối tượng nghiên cứu chính của dự án này là các hình ảnh chứa thông tin vănbản từ các loại biên lai, đặc biệt là những biên lai liên quan đến giao dịch thương mại,
hóa đơn thanh toán và các tài liệu tài chính khác Mục tiêu của nghiên cứu là áp dụng
kiến thức đồ thị để mô hình hóa mối quan hệ giữa các nội dung và cấu trúc văn bảntrên biên lai Đồng thời, sử dụng các kỹ thuật của mô hình học sâu để phát triển một
hệ thống nhận diện mẫu cấu trúc và liên kết giữa các ký tự Kết hợp giữa học sâu vàkiến thức đồ thị nhằm cải thiện, nâng cao tính xác thực va tính hiệu quả cua quá trình
nhận dạng là mục tiêu chính của đê tai nay.
Trang 11Mô hình dự kiến sẽ cung cấp một phương pháp tiên tiến và hiệu quả để nhậndiện các ký tự từ các hình ảnh biên lai, hỗ trợ tự động hóa quy trình kế toán và quản
lý tài chính Giúp tăng cường khả năng xử lý, trích xuất đữ liệu từ các tài liệu văn bản
phức tạp trong môi trường thương mại và tài chính.
1.4 PHAM VI NGHIÊN CỨU
Dự án tập trung vào áp dụng lý thuyết đồ thị, deep learning, spectral graphtheory và các phép tính toán liên quan để trích rút thông tin từ hóa đơn và các vănbản tương tự Kết hợp đồ thị và deep learning giúp mô hình hóa mối quan hệ phức
tạp giữa các thành phần dữ liệu trong các hóa đơn có cấu trúc không đồng nhất và đa
dạng nội dung.
Nghiên cứu sẽ khám phá và áp dụng các phương pháp biến đổi toán học đề biểudiễn đồ thị với các đặc trưng đặc thù của từng vùng văn bản trên hóa đơn Cụ thể,việc sử dụng ma trận kề và phép biến đôi Laplace sẽ giúp tính toán các đặc trưng đồ
thi, trong khi các mô hình hoc sâu như Graph Convolutional Network (GCN) sẽ được
áp dụng đê học câu trúc và biêu diễn dữ liệu trên đô thi một cách hiệu quả.
Nghiên cứu cũng sẽ tập trung vào phân tích ưu và nhược điểm của các phươngpháp trước đó trong lĩnh vực này Các mô hình truyền thống thường gặp khó khăntrong việc xử lý các hình ảnh chất lượng kém, hoặc bố cục phức tạp trên hóa đơn.Bằng việc nghiên cứu và cải tiễn các mô hình đồ thị kết hợp học sâu, dự án mong
muốn giải quyết các thách thức này và cung cấp giải pháp tự động hóa hiệu quả hơn
cho việc trích rút thông tin từ các tài liệu văn bản phức tạp trong thực tế
Trang 12Chuong 2 TONG QUAN
2.1 Cac Phương Pháp Trước Đó
2.1.1 Rule-based Method
Đây sẽ là một phương pháp cơ bản nhưng hiệu quả [1] để trích xuất thông tin
quan trọng trên hóa đơn nếu chúng có cấu trúc có định và ít thay đôi Phương phápnày hoạt động dựa trên việc áp dụng quy tắc được định nghĩa trước và sử dụng kỹthuật so khớp văn bản/từ khóa dé trích xuất thông tin quan trọng trên hóa đơn có cấutrúc cô định và it thay đôi
Quy tắc trích xuất thông tin có thể dựa trên nhiều yếu tố khác nhau như cấu trúcvan ban, vi trí thông tin hóa đơn, định dạng và các từ khóa, ký hiệu Va tất nhiên các
quy tắc này được xây dựng dựa trên sự quan sát, kinh nghiệm và domain knowledge
của từng người Hai phương pháp pho biến cho rule-based method chính là Regular
Expression va Heuristic Rules.
2.1.1.1 Regular Expression
Regular Expression (Regex) là một công cụ mạnh mẽ trong việc xử lí văn ban,
Regex được dùng cho việc tìm kiếm, thay thế và trích xuất các phần tử trong văn bản
theo các quy tắc được mô tả, định nghĩa trước đó
Vi du:
Trích xuất số hóa don:
e Văn bản mẫu: "Invoice Number: INV123456"
© Quy tắc: \bDINV\d{6}\b
e Két quả: INV123456
Trich xuat ngay thang:
e Văn ban mẫu: "Date: 25/05/2024"
© Quy tac: \b\d{2}/\d{2}\d{4}\b
e Két qua: 25/05/2024
Trang 13Trích xuât tông sô tiên:
e Văn bản mau: "Total Amount: $1,234.56"
© Quy tac: \$?\d{1,33(,\d{3})*(\.\d {2})?
e Kết qua: $1,234.56
Những vi dụ nêu trên chi là những trường hợp cơ ban về ứng dụng của Regex
Trong thực tế, Regex có thể đạt mức độ phức tạp và sức mạnh vượt trội, hỗ trợ giải
quyết các vấn đề xử lý dữ liệu văn bản một cách hiệu quả và tinh vi hơn
2.1.1.2 Heuristic Rules
Heuristic Rules là các quy tac dựa trên kinh nghiệm va quan sát, được dùng dé
xử lí thông tin từ văn bản một cách nhanh chóng Phương pháp này dựa trên các đặc
điểm và mẫu định trước trong văn bản từ đó nhận diện và trích xuất ra được các thông
tin Khác với các phương pháp máy hoc, Heuristic Rules dựa vào từ khóa, vi tri trong
văn bản hoặc các định dạng cụ thể nào đó được quy định trước
Vi dụ:
Trích xuất tên công ty:
e Văn ban mẫu: "Company: ABC Corp"
¢ Quy tắc: Tim từ khóa "Company" và lay văn ban liền kề sau go
e Két quả: ABC Corp
Trích xuất địa chỉ:
e Văn bản mẫu: "Address: 123 Main St, Cityville"
e_ Quy tắc: Tìm từ khóa "Address" và lay văn bản liền kề sau đó
e Kết quả: 123 Main St, Cityville
Trích xuât sô điện thoại:
e Văn bản mau: "Phone: (123) 456-7890"
¢ Quy tắc: Tim từ khóa "Phone" và lay văn ban liền kề sau đó
Trang 14e Kết quả: (123) 456-7890
Heuristic Rules là một phương pháp mạnh mẽ và trực quan dé trích xuất thongtin từ văn bản, đặc biệt là trong những tình huống cần phản hồi nhanh chóng và chínhxác mà không cần đến các mô hình phức tạp Mặc dù phương pháp này có thể không
có độ chính xác tuyệt đối như các mô hình máy học hiện đại, nhưng nó mang lại sựđơn giản, dễ triển khai và hiệu quả tức thời trong nhiều trường hợp
Rule-based systems cung cấp cách tiếp đơn giản nhất cho bài toán này, đây sẽ
là phương pháp tốt cho một số trường hợp Tuy nhiên khi phạm vi của bài toán được
mở rộng chúng sẽ có những nhược điêm khó khắc phục.
Hạn chế lớn nhất của Rule-based Method là sự phụ thuộc quá nhiều vào việc
định nghĩa các luật cụ thể cho từng định dạng dữ liệu Mỗi luật phải được thiết kế và
cau hình một cách chi tiết dé phù hợp với từng loại form hoặc tài liệu cụ thể, điều này
gây ra sự phức tạp và tôn kém về mặt thời gian và công sức.
Đặc biệt, phương pháp rule-based thiếu đi tính linh hoạt và khả năng thích
nghi với các định dạng dữ liệu mới Khi xuất hiện một dạng form mới, việc áp dụng
lại các luật hiện tại thường đòi hỏi sự can thiệp và điều chỉnh từng chỉ tiết một, do đókhông thể tự động hóa quá trình này một cách hiệu quả Chính vì điều này mà phương
pháp rule-based không thê đáp ứng được yêu cầu về độ linh hoạt và mở rộng khi cần
áp dụng vào các điều kiện, bối cảnh khác nhau hoặc trong những tình huống khôngchuẩn mà không có sự can thiệp từ domain knowledge của các chuyên gia
2.1.2 NLP-based Method
Với phương pháp này các thực thé sau khi được trích xuất từ hình anh sẽ đượcđưa qua mô hình Text Classification hay NER dé xác định thực thé này thuộc trường
thông tin nào So với Rule-based Method thì NLP-based Method có khả năng tương
thích với các câu tric/kiéu dữ liệu mới cho phép mô hình cải thiện và mở rộng khả
năng xử lý thông tin một cách linh động hơn so với Rule-based.
Trang 152.1.2.1 CREs-BiLSTM
(a) CRFs
Conditional Random Fields là một mô hình đồ thị xác suất được thiết kế dé
gan nhãn cho các chuỗi dữ liệu CRFs hoạt động theo nguyên lý học có giám sát, khi
đó mô hình được huấn luyện dé gan một chuỗi các nhãn cho mỗi chuỗi đầu vào, môhình sẽ tối ưu hóa sác suất điều kiện của chuỗi nhãn dựa trên quan sát từ chuỗi đầu
vào.
Đặc biệt, CRFs có khả năng mô hình hóa các phụ thuộc giữa các nhãn liền kề
và không liền ké, vi thé nó có thé năm bắt được các mối quan hệ phức tạp giữa cácnhãn trong chuỗi Điều này làm cho CRFs trở thành một mô hình mạnh mẽ dé giảiquyết các bài toán có dữ liệu chuỗi Được phát triển từ Naive Bayes, trong khi NaiveBayes tốt trong việc phân loại nhưng lại kém trong việc ước lượng sản xuất CRFsgiải quyết van đề này bằng việc sử dụng Hidden Markov Model dé cung cấp phânphối chung p(y, x) và xác xuất có điều kiện p(y|x)
Cho x và y là các vector ngầu nhiên, ƒ„(y¿,y;_,x¿) là một tập hợp các hàm
đặc trưng có giá trị thực, Ø = {A,} là tập tham số của CRFs Chuỗi tuyến tính CRFs
là một phân bố p(y|x) thỏa:
Ước lượng hợp lý tối đa có trừng phat (maximum likelihood function) là một
kỹ thuật phổ biến trong việc ước lượng tham số Trong trường hợp giả thiết phân phối
Gaussian, hàm /og hợp lý sử dụng phân phối điều kiện là phù hợp:
Trang 16từ cả 2 phía của chuỗi dữ liệu: từ quá khứ đến hiện tại và từ tương lai về hiện tại Do
đó BiLSTM có thé nắm bắt ngữ cảnh 2 chiều của đữ liệu, giúp cải thiện độ chính xác
và hiệu suất của mô hình trong nhiều tác vụ
Mô hình RNN (Recurrent Neural Network) là một loại neural network nhân
tạo được thiết kế dé xử lý dữ liệu tuần tự Khác với các neural network thông thường,
RNN có khả năng lưu trữ thông tin từ các bước trước đó trong chuỗi dữ liệu, cho phép
nó nhận diện và dự đoán các mâu dựa trên ngữ cảnh.
Câu trúc của RNN gôm:
Trang 17e x; là dau vào của t, là một one-hot vector.
e s¿ là bộ nhớ ân của t, nó được tính toán băng cách sử dung hidden state phía
trước s;¿_¡ và dau vào #¿, Ss, = ƒ(Ux¿ + WS_).
0; là kết quả của t
LSTM cũng là một dạng neural network hồi quy (RNN), nhưng chúng đượcthiết kế đặc biệt dé giải quyết van đề về gradient vanishing thường gặp ở RNN truyền
thống Cau trúc cơ bản của LSTM bao gồm:
e Forget Gate: cổng này sẽ giúp xác định giữ và loại bỏ thông tin nao trong bộ
nhớ.
e Input Gate: đưa ra quyết định thông tin nào sẽ được cập nhật vào hidden state
¢ Output Gate: quyết định phần nào của hidden state ở hiện tại sẽ được xuất ra
bảo toàn thông tin đến từ tương lai bằng cách sử dụng LSTM, mô hình sẽ chạy ngược
lại và kết hợp với cả 2 hidden state
10
Trang 18dữ liệu đa dạng và phức tạp Nhờ vào tính linh hoạt và hiệu quả của CRF-BILSTM
[5] phương pháp này trở thành một lựa chọn mạnh mẽ và đáng tin cậy trong đề tài
này.
2.1.2.2 Transformer
Transformer là một mô hình hàng đầu trong lĩnh vực NLP, đã mang đến sự
đột phá với những cơ chế đặc trưng và khả năng song song hóa, đây còn là mô hình
nên tảng cho các kiến trúc mạnh mẽ như TrOCR [6] hay LayoutLM [7] Trong đó cơchế Attention [8] của Transformer chính là chìa khóa giúp mô hình này đạt được kết
quả thành công như hiện tại.
Vé cơ bản mô hình gôm hai phân:
11
Trang 19e Encoder: tiếp nhận input và xây dựng các feature từ input đó, điều này giúp
mô hình có thể hiểu và nắm được thông tin từ input
e Decoder: Sử dụng các feature từ Encoder và các input khác dé tạo ra output,
viéc két hợp như trên sé tao ra được kết quả tối ưu nhất.
Output Probabilities
attention(attention(src input), attention(tgt input))
attention(sre input)
Encoder
Hinh 2-4 M6 hinh Transformer [9].
Nhu đã đề cập bên trên thi cơ chế Attention là thành phan cốt lỗi, giúp mô hình
tập trung vào những phan quan trọng trong input và từ đó xử lý thông tin hiệu quả
hơn, dưới đây là tông quan vê cơ chê của nó:
Trang 20e V (Value) là thông tin thật của các từ khác.
ed, là chiều của vector truy van/khoa
Cơ chế self-attention giúp mô hình vào các từ quan trọng trong câu đầu vào,
nâng cao kha năng thấu hiểu thông tin giữa các từ Bên cạnh đó, self-attention cho
phép xử lý tính toán nhanh hơn qua cơ chế song song, giúp tăng tốc quá trình huấn
luyện và suy luận.
Multi-head Self-attention mở rộng Self-attention bằng cách thực hiện nhiều
phép attention song song trên các không gian con khác nhau của dữ liệu, giúp mô
hình học được các mối quan hệ da dạng gitra các từ Đồng thời, việc sử dụng nhiều
"head" giúp giảm nguy cơ overfitting băng cách cung cấp nhiều con đường học hỏi
e pos la vi tri cua tu.
e i là chỉ sô chiêu của.
© dmode là chiêu của vector nhúng.
13
Trang 21Bởi vi transformer không có cau tạo gồm RNN hay CNN nên nó sẽ không biếtđược thứ tự của các token đầu vào Vì vậy, cần phải có một phương pháp nào đó cungcấp thông tin này cho mô hình, đó chính là vai trò của positional encoding.
NLP-based Method như CRF-BiLSTM hay Transformer hoàn thiện so với
Rule-based Method như Regular Expression và Heuristic Rules bằng cách có khả
năng học tập từ dữ liệu lớn, tong quát hóa tốt trên các nhiều kiểu dit liệu khác nhau,
cải thiện độ chính xác thông qua việc kết hợp nhiều đặc trưng và ngữ cảnh, linh hoạt
trong việc điêu chỉnh và mở rộng, dong thời đem lại hiệu suât ôn định hơn.
Tuy nhiên CRF-BiLSTM cần một lượng lớn đữ liệu huấn luyện đề việc họcđược hiệu quả, đặc biệt là khi phải xử lý các định dạng dữ liệu mới, không được biểudiễn rõ ràng Mặc dù mô hình Transformer rất mạnh mẽ trong xử lý ngôn ngữ tựnhiên, nhưng khi áp dụng vào bài toán này, nó gặp phải một số hạn chế như: cầnnhiều đữ liệu huấn luyện và tài nguyên tính toán, khả năng xử lý kém với thông tin
có cau trúc phức tạp, thiếu thông tin vi trí trực tiếp, dễ bị overfitting, chi phí tính toán
và dung lượng bộ nhớ cao, cùng với khó khăn trong việc tinh chỉnh mô hình cho các
nhiệm vụ cụ thê.
2.2 Hướng Giải Quyết Trong Đề Tài Này
Dé giải quyết những thách thức này một cách hiệu quả hơn, việc sử dung đồ thị
đã trở thành một lựa chọn hứa hẹn So với các phương pháp như Rule-based,
NLP-based hay các mô hình khác thì trong bài toán này việc sử dụng đồ thị có những ưu
điêm sau:
Biểu diễn mối quan hệ phức tạp: không chỉ dừng lại ở việc xác định được các
thực thê một cách riêng lẻ mà đô thị còn giúp ta hiêu các môi quan hệ giữa các thực
thê đó Điêu này giúp cải thiện độ chính xác và tính toàn vẹn của quá trình trích xuât
thông tin.
Khả năng tổng hợp kiến thức: đồ thị giúp ta tổng hợp được thông tin từ cácnguồn khác nhau từ đó giúp ta hiểu bối cảnh của đữ liệu Nó có thể tổng hợp các
14
Trang 22thông tin liên quan và xây dựng một cấu trúc kiến thức toàn diện hơn về các yếu tốtrong dữ liệu, so với việc đơn thuần áp dụng các quy tắc (rule-based) hoặc phụ thuộcvào dữ liệu huấn luyện (NLP-based).
Sự linh hoạt và khả năng mở rộng: đồ thị có thể đễ dàng mở rộng khi có sự
biến đổi trong dữ liệu hoặc yêu cầu mới Việc thêm mới các đỉnh (node) và cạnh
(edges) vào đồ thị là khả thi và không đòi hỏi nhiều công sức như việc điều chỉnh lạicác quy tắc hay huấn luyện lại mô hình NLP
Sử dụng hiệu quả dữ liệu không có cấu trúc rõ ràng: đồ thị có thể xử lý vàphân tích dữ liệu không có cấu trúc rõ ràng một cách hiệu quả Trong khi các phươngpháp rule-based yêu cầu các quy tắc rõ ràng và NLP-based cần phải có dữ liệu huấnluyện đủ lớn và đại diện, đồ thị rõ rang không có những rang buộc trên
Giúp hiểu dữ liệu toàn cảnh hơn: đồ thị cho phép phân tích toàn diện hơn vềmối quan hệ giữa các yếu tố trong dữ liệu Nó không chỉ giúp xác định các đối tượng
và sự kiện mà còn lấy được thông tin về mối quan hệ giữa chúng, điều mà các phươngpháp khác có thể không thực hiện được một cách hiệu quả
15
Trang 23Chương 3 PHƯƠNG PHAP
3.1 Cơ sở lý thuyết
3.1.1 Ly thuyết về đồ thị
Phần lớn các kiến trúc mô hình học sâu truyền thống hoạt động dựa trên dữ
liệu Euclide, tức là loại dit liệu được biểu diễn dưới dang 1 chiều hoặc 2 chiều Tuynhiên trên thực tế những gì mà chúng ta quan sát được đều tổn tại đưới dạng 3 chiều,chính vì thế mà khái niệm dữ liệu phi Euclide ra đời dé có thé diễn tả và mô phỏngmột cách chính xác hơn về thé giới Và dựa trên cơ sở này khái niệm này Geometric
Deep Learning [10] ra đời với mục đích xây dựng các mô hình học sâu có khả năng
học từ dữ liệu không gian phi Euclide Điều này mở ra những tiềm năng mới trongviệc hiểu và xử lý thông tin từ các thế giới ba chiều phức tạp mà chúng ta đang sống
Hình 3-1 Hình ảnh đưới dạng Euclide và đồ thị dưới dạng phi Euclide
Ví dụ tiêu biểu cho kiểu dé liệu phi Euclide này là đồ thị Dé thị là kiểu dữ
liệu có cấu trúc bao gồm các node hay entities (chứa đựng thông tin) và các cạnh (kết
nối các node với nhau) và chính vì cấu trúc đặc biệt này mà đồ thị có thể mô hình hoa
được hầu như mọi thứ, do đó kiểu đữ liệu này rất phù hợp áp dụng vào học chuyểngiao (Transductive Learning) [11] Trong học chuyên giao, dit liệu huấn luyện vàkiểm tra đều hiện điện trong cùng một đồ thị, nơi các node từ mỗi tập dữ liệu được
kết nối với nhau Trong quá trình huấn luyện, nhãn của các node kiểm tra bị ân đi,
trong khi nhãn của các node huân luyện được hiên thi.
16
Trang 24Một đồ thị có thé biểu dién một cách đơn giản G = {V, E}, trong đó V là các
node và # là tập các cạnh, đồ thị được mô tả qua 3 thành phần chính:
e 4: Ma trận kề của đồ thị thé hiện sự liên kết giữa các node
e D: Ma trận bậc đô thi của các node thê hiện bậc két nôi giữa các node.
Hinh 3-2 Cac ma tran quan trong [12].
3.1.1.1 Ma trận ké A
Ma trận A với ø node là một ma trận vuông có kích thước nxn Từng phần tửthể hiện mối quan hệ giữa các node trong đồ thị Giả sử có một cạnh nối giữa 2 node
i và j thì phần tử A; j của ma trận sẽ bằng 1 Ngược lại, nếu không có cạnh nối giữa
chúng thì giá trị của 4;; là 0 Có thé hiểu qua công thức sau:
A = li _ i,j€E
17
Trang 25, đối với một đồ thi vô hướng ma trận kề của chúng chính là ma trận đối xứng, do đó
nó có đầy đủ các eigenvalue (giá trị riêng) và các eigenvector (vector riêng) tươngứng, mà các eigenvector này trực giao với nhau Tập hợp các eigenvalue của đồ thịđược gọi là phổ của đồ thị, một khái niệm sẽ được giải thích chi tiết trong các phầntiếp theo của bài viết
3.1.1.2 Ma trận bậc D
Ma trận bậc D là một ma trận chéo biêu thị thông tin vê bậc của các node, bậc
của mỗi node sẽ là sô cạnh kêt thúc ở node đó hay có thê nói theo một cách khác bậc
chính là tong của mỗi hàng trong ma trận kề A
_ (D(i),nếu ¡ = j
Di =|{ 0, con lại G2)
, VỚI (7) là sô lang giêng của node 7.
18
Trang 26Ending Points
A B C OD A B ¢ O Afo 1 0 1 8 Af 0 1 0 0
Bl1 o 1/2 a BN\N 0 W% 1 1
c/o 1 Ws z c/o 0 0 0 |
Dii1 @7 0 #_p|li/⁄0 o oa
Undirected Directed
Hinh 3-4 Ma tran bac D [14].
Đôi với đô thi vô hướng, bậc của một node được tinh băng tông sô cạnh liên
kêt đên node đó và đôi với đô thị có hướng chúng ta sẽ cân quan tâm đên khái niệm
bậc vào (indegree) và bậc ra (outdegree), bậc của node từ đó được tính băng sô lượng
Trang 27—1,néui,j € E Lij = 4 D(,nếu ¡ = j (3.4)
cụm đỉnh Ma trận Laplace tương ứng của một đồ thị G luôn có các eigenvector sao
cho Ay SA, S++ SAn_y, và Vi thì A; luôn lớn hơn hoặc bằng 0 Số lượngeigenvector có giá trị bang 0 thể hiện thành phan liên thông của đồ thị và Ay thì luônbằng 0
3.1.2 Graph Neural Network
3.1.2.1 Sự tương quan giữa đồ thị va học sâu
Các neural network trong học sâu là một kiên trúc mô phỏng lại tương tác của
các nơ-ron bên trong não người, đây là ý tưởng nên tảng và được áp dụng rộng rãi
trong lĩnh vực AI Bắt đầu từ phương trình tuyến tính:
y=mx+b (3.5)
, chúng ta có thé cau trúc lại công thức trên như một perceptron như hình bên dưới:
20
Trang 28Hình 3-6 Cau tao một perceptron.
, trong đó với đầu ra (y) là tong (#) của đầu vào (x) nhân với trọng số (m) cộng với
bias (b) Mỗi neural networks sẽ tồn tại một hàm kích hoạt (activation function), hàm
nay sẽ quyết định một no-ron có được kích hoạt hay không và đồng thời nó cũng giúpgiữ giá trị đầu ra của nơ-ron đó ở trong một phạm vi tính toán nhất định Khi ta đặt
nhiều perceptron kết nối lại với nhau từ đó hình thành ra được một neural network
đơn giản.
Quá trình huân luyện neural network chính là việc tính toán sai sô giữa đâu ra
thực tế so với đầu ra dự kiến thông qua hàm mat mát (loss function):
đị = Ï¡ — Vi (3.6), trong đó e là sai số Y output mong đợi và là output thực tế Mục tiêu của quá trình
học của một perceptron đó là giảm thiểu sai số ít nhất có thể, sai số sẽ được giảmthiểu thông qua việc cập nhật trọng số thông quá trình lan truyền ngược (back
propagation).
21
Trang 29Do vậy ta thấy thực chất neural network chỉ là một dạng đồ thị với 3 node: đầuvào (x), bias (b), tổng (E) và trọng số (m) là giá trị cạnh kết nối giữa đầu vào (x) vàtổng (E).
Sự tương đồng giữa lý thuyết đồ thị và học sâu đó chính là khả năng mô hình
hóa được các kiểu dữ liệu [16], ở đồ thị các node liên kết với nhau thông qua cạnh
mà từ đó ta có thê biết được các mối quan hệ giữa chúng tương tự như cách các
nơ-ron được kết nôi với nhau và biêu diễn thông tin qua toàn bộ mạng lưới.
Hơn nữa, cấu trúc của neural network có thể được xem như một đồ thị với các
node đại diện cho các nơ-ron và các cạnh đại diện cho các kết nối giữa chúng, nơi
mỗi kết nối có một trọng số xác định Quá trình học của neural network có thê đượchình dung như việc điều chỉnh trọng số của các cạnh sao cho lỗi giữa đầu ra dự đoán
và đầu ra thực tế được giảm thiêu Điều này tương tự như việc tối ưu hóa trong lý
thuyết đồ thị, nơi chúng ta tìm kiếm các cau trúc tôi ưu dé giảm thiêu chi phí hoặc
năng lượng.
Tóm lại, sự liên hệ giữa đồ thị và học sâu không chỉ tương đồng nhau về cấu
trúc dit liệu mà còn ở cách chúng ta hiệu và giải quyết các bài toán, từ đó mở rộng
khả năng ứng dụng của các kỹ thuật học sâu trong nhiều lĩnh vực khác nhau
3.1.2.2 Cơ sở tính toán Graph Neural Network
Đề áp dụng lý thuyết đồ thị vào bài toán sử dụng đữ liệu ảnh, chúng ta có thể
mô hình hóa mỗi pixel trong ảnh thành một node trong đồ thị Mỗi node này kết nối
với các node láng giềng thông qua các "cạnh ảo" Điều này cho phép chúng ta áp
dụng các phương pháp và thuật toán từ lý thuyết đồ thị để phân tích và xử lý thông
tin từ bức ảnh một cách hiệu quả và đa dạng.
Graph Neural Networks (GNNs) [17] là một mô hình học sâu mạnh mẽ dành
cho dữ liệu đồ thị Chúng hoạt động dựa trên nguyên tắc rang dit liệu có thé được
biểu diễn như một tập hợp các node và cạnh, tạo thành một đồ thị GNNs sử dụng cầutrúc này dé học cách mã hóa thông tin từ các node và cạnh liền kề, cho phép chúngnam bắt được cấu trúc và đặc tinh phức tạp của dữ liệu đồ thị
22
Trang 30Mỗi lớp GNN sẽ bao gồm một số bước được thực thi trên từng node trong đồ
thị như sau:
e_ Message Passing: Mỗi node i gửi thông tin đến các node lân cận của nó thông
qua các cạnh Thông tin này thường là các feature vectors cua node đó.
e Aggregation: Các node lân cận của node i sẽ nhận các message và kết hợp
chúng lại bằng một hàm téng hợp
e©_ Update: Sau khi đã tong hợp các thông tin từ các node lân cận, node i sẽ cập
nhật feature của nó dựa trên thông tin tổng hợp nay, thường thông qua một
hàm kích hoạt.
Và như ta đã biết mỗi node sẽ chứa nhiều đặc trưng cho thực thé mà nó đại
diện, các thuộc tính này của node sẽ tạo thành những feature node hay có cách gọi
khác là embedding node Các feature node này sẽ là đầu vào của GNN, tóm gọn lạivới mỗi node i sẽ có feature node x; € R# đi cùng với nhãn y¡ Tương tự như vậy cáccạnh cũng có đặc trưng riêng của chính nó với aj; € R® Khi đã biết cách biểu diễncho cả node và cạnh thì chúng ta sẽ mở rộng số lượng của chúng ra đề hình thành nênmột đồ thị đúng nghĩa
(a) Message Passing
GNN được biết đến với khả năng tìm hiệu thông tin qua cau trúc dit liệu, ở cácnode có đặc trưng giống nhau sẽ liên kết với nhau, từ đó GNN sẽ khai thác đặc điểmnày vả tìm hiểu cách thức cũng như lý do tại sao các node cụ thé lại kết node với nhautrong khi một số node lại không Đề làm điều đó GNN sẽ xem xét các node láng giềng
N; (Neighborhoods) của mỗi node, trong đó N; của mỗi node i được định nghĩa là tập
hợp các node j kết nối với i qua một cạnh:
, GNN có thé học từ node i thông qua các láng giéng của nó thông qua MessagePassing hay nói một cách dễ hiểu đây là quá trình lấy các đặc trưng của N; biến đôi
23
Trang 31chúng và truyền đến node nguồn thông qua một neural network hoặc thông qua một
phép ánh xạ đơn giản, chăng hạn như:
F(x;) = Wjx; + b (3.8)
(b) Aggregation
Khi đã có những messages đã được biến đôi F (x;), thì những messages này sẽđược chuyền tới node nguồn và tại đây chúng ta phải kết hợp các messages này lạitheo một cách nao đó Có rất nhiều cách dé có thé tong hợp chúng:
hị = ø(K(H(,)) + Tmị) (3.14)
24
Trang 32Trong đó:
e o là hàm kích hoạt.
e Ha một neural network đơn giản hay là một phép biến đổi affine [18]
e K là một neural network đơn giản dé chiều các vector đã cộng vào một không
gian khác.
Hoặc ta có thể áp dụng công thức nối như sau:
hị = ø(K(HŒ,)) ® mị) (3.15)
, nhìn chung ta có thé hiểu K ở đây giống như một hàm chiếu bất kì có chức năng
biến đối các messages và các embedding node cùng với nhau:
hị = ø(K(H(x¡)),Tị (3.16)
Các đặc trưng ban đầu sẽ được kí hiệu là x;, trong lần lan truyền xuôi đầu tiênthông qua lớp GNN chúng ta sẽ ký hiệu nó là h; va giả sử chúng ta có nhiều lớp GNN
hơn chúng ta sẽ ký hiệu cho các node đặc trưng là hi, ở đó 7 là chỉ số lớp hiện tại Từ
đó ta có thé suy ra h?=x; (đầu vào của GNN)
Khi đã hiểu rõ cách hoạt động của 3 bước Message Passing, Aggregation vàUpdate ta hãy cùng kết hợp cả 3 lại để tạo thành một lớp GNN với một node i bên
trong nó:
hị = ø (W,h,, @(W;h,)) (3.17)
Và tất nhiên kích thước của W,,W, phải phù hợp với các node embedding
tương ứng, nếu h; € R¢ thiW,,W, © R“*#' trong đó đ' là kích thước của embedding
Giả sử các cạnh có đặc trưng đ;; € R# để cập nhật chúng tại một lớp / nào đó,chúng ta sẽ xem xét embedding của 2 node ở 2 đầu cạnh:
aj; =T (hi, hj, aly? (3.18)
25
Trang 33, trong đó 7 là một neural network đơn giản nhận vào các embedding từ các node i và
7 được kết nôi với nhau và với embedding của cạnh trước đó aij Do la cach ma
chúng ta sẽ làm với đặc trưng của cạnh thông qua quá trình lan truyên xuôi cua lớp
GNN.
Chúng ta đã tìm hiểu cách GNN thực hiện quá trình lan truyền xuôi đưới gócnhìn của riêng mỗi node i va node láng giéng Ñ; của nó Vậy với trường hợp ta đã cómột ma trận kề A và tập tat cả các đặc trưng của node trong N = ||V|| thì cách chúnghoạt động sẽ như thế nào?
Ở lĩnh vực học sâu, trong quá trinh lan truyền xuôi chúng ta sẽ gán trọng sốcho từng phan từ vector đặc trưng x;, thông qua phép tích vô hướng giữa x; € R@ va
ma trận tham số W CG RY? :
Zz, = Wx; € RY (3.19)
Nếu chúng ta muốn làm điều này cho tất cả các mẫu trong tập dữ liệu (đãvector hóa) thì ta chỉ cần nhân ma trận tham số với các đặc trưng dé có được featurenode đã biến đồi:
Z = (WX)T = XW c RM (3.20)
Tiếp đến dé có được tất cả messages đã thông qua quá trình aggregation cho
cả N node trong đồ thị thông qua các kết nối của chúng, chúng ta sẽ nhân toàn bộ matrận kề A với các đặc trưng đã được biến đồi:
Y=AZ=AXW (3.21)
Và như vậy, đây là cách chúng ta có thể thực hiện quá trình truyền xuôi củaGNN bằng cách sử dụng các ma trận thay vì các node đơn lẻ
26
Trang 34(d) Kết nối các lớp GNN
Ta đã tìm hiểu được chỉ tiết cách hoạt động của một lớp GNN, vậy vấn đề tiếptheo cần giải quyết đó chính là việc tạo nên một mạng lưới bao gồm nhiều lớp GNN
và cách chúng truyền thông tin qua các lớp sẽ diễn ra như thế nào
e Đầu vào của lớp GNN đầu tiên là một feature node X G R**# đầu ra là một
node embedding trung gian H1 G RÄ*#: , trong đó đ; là kích thước nhúng đầutiên được tạo thành từ h}.,,y € R%
e H? là đầu vào của lớp thứ 2, đầu ra tiếp tục là H* © RN*%2 , với đ; là kích
thước nhúng của lớp thứ 2, H? được tạo thành từ h?,_,y € R®.
e Khi đã thông qua vài lớp, tại lớp L đầu ra là Hh G R®*#+ , và H1 vẫn được tạo
thành từ heyy € RY.
Việc lựa chọn {d;,d>,d3, d,} hoàn toàn thuộc về chúng ta và là siêu tham
số của GNN Cứ như vậy các feature node sẽ được truyền đi từ lớp này sang lớp kháccau trúc của chúng van giữ nguyên chỉ thay đồi cách biểu diễn, tương tự cho các edge
feature cách biểu diễn sẽ thay đôi nhưng vẫn giữ nguyên kết nối và hướng
Và để hoàn thành việc xác lập mô hình GNN chúng ta sẽ đi tới việc training
mô hình theo các bước sau:
e Dua hi vào một lớp phân loại để đưa ra dự đoán ÿ
e Tính loss bằng nhãn thực tế y; và dự đoán ÿ ; > J(ÿ i Vi)
vs oWr
e Sử dụng backpropagation dé tính đạo ham , trong đó W; là ma trận tham
số từ lớp L
e Dùng một hàm optimize nào đó dé cập nhật tham số W; cho từng lớp GNN
Với cách tiếp cận này, chúng ta có thé hiểu được cách mà GNN sử dụng các ma
trận để hiệu quả hóa quá trình học và tổng hợp thông tin từ đữ liệu đồ thị Quá trìnhnày cũng mở ra nhiều tiềm năng dé áp dụng và mở rộng GNN trong nhiều ứng dungthực tế
27
Trang 353.2 Spectral Graph Convolution
3.2.1 Ly Thuyết Pho Đồ Thị
Trong lĩnh vực thị giác may tính, các mang CNN (Convolutional Neural
Networks) đã đạt rất nhiều thành công bằng việc sử dụng các phép tích chập
(Convolution) trên các bức ảnh dé các mô hình CNN từ đó có thé học được các đặctrưng trong ảnh Tuy nhiên đối với đề tài này như đã đề cập thì dữ liệu đầu vào của
chúng ta không phải là một bức ảnh thông thường mà là một bức ảnh được mô hình
hoá dưới dạng đồ thị Vì thế nên phép tích chập truyền thống trong trường hợp này
sẽ không đáp ứng được yêu câu cho bài toán với các lý do sau:
e Đồ thị là kiểu dit liệu phi Euclide, không tồn tại khái niệm hướng trong đồ thị
e Khác với ảnh có cấu trúc các pixel đồng nhất, có định thì đồ thị không có cau
trúc nhất quán
e CNN dựa vào tính chất cục bộ của các pixel liền kề, trong khi đồ thị không có
tính chất cục bộ
Một trong những cách tiếp cận dé giải quyết các van đề còn tồn đọng của phép
tích chập truyền thống là tích chập đồ thị quang phô (spectral graph convolution)
Spectral Graph Convolutions là phương pháp áp dụng các phép biến đổi tín hiệu lên
đồ thi, chúng sử dụng lý thuyết đồ thị và tín hiệu trên đồ thị Trong đó lý thuyết phổ(spectral theory) tập trung vào các tính chất liên quan đến eigenvalues và
eigenvectors.
Trong bối cảnh ly thuyết đồ thi, lý thuyết phổ [19] tập trung vào việc kiểm tracác tính chất của ma trận kề và ma trận Laplace liên kết với đồ thị Đối với một đồthị thông thường G = {V, E}, với n node ta có thê xác định được ma trận kề A thông
qua sự kết nối giữa các node, chúng ta cũng sẽ biết ma trận D thông qua các liên kết
cục bộ hướng đến node đó và từ đó ta dé dàng suy ra được ma trận Laplace với công
thc L = D—A.
Trong nhiêu trường hợp, một sô node thê hiện sô lượng kết nôi cao hon so với
các node khác Sự chênh lệch này trong bậc của các node có thể ảnh hưởng đến hiệu
28
Trang 36suất của các thuật toán của chúng ta Dé giải quyết van dé này, chúng ta áp dụng một
kỹ thuật chuẩn hóa dựa trên các bước ngẫu nhiên (random walks) Kỹ thuật nay gan
trọng số cho các cạnh dựa trên bậc của các node, do đó cân băng ảnh hưởng của cácnode có kết nối cao, và đảm bảo rằng các node có bậc thấp hon không bi lu mờ Điều
này được thực hiện băng cách chia mỗi phần tử cho tổng của các bậc của node tương
ung.
L=D-1(D—A)=I—D1A (3.22)
Eigen decomposition [20] là một khái niệm cơ bản cho phép chúng ta phân rã
một ma trận vuông thành một tập hợp các eigenvalues và eigenvectors Bằng cáchbiểu diễn ma trận dưới đạng tích của ba ma trận, qua đó ma trận Laplace có thể biểudiễn như sau:
L = UAU~1 = UAUT (3.23)
trong đó ma trận chứa các eigenvectors của ma trận L, và ma tran A bên trong là
ma trận đường chéo với các eigenvalues làm các phân tử của nó.
(3.24)
Tuy nhiên, chúng ta gặp phải một vấn đề: các eigenvalues của một ma trận có
thê là số phức May mắn thay, điều này không xảy ra đối với ma trận Laplace Đểhiểu ly do tại sao, chúng ta giới thiệu một ma tran mới chỉ xem xét Laplace cua từng
cạnh u,v € E.
—1,néui = jvai € u,v
Lạ„„(,J) = 4-1, néui = u vai = v hoặc ngược lại (3.25)
0, con lại
Su dụng các ma trận này, chung ta có thê đưa ra một định nghĩa mới vê ma
trận Laplace như là tổng của từng ma trận đã đề cập ở phần trước đó
29