1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận diện kí tự quang học dựa trên phương pháp đồ thị

73 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 73
Dung lượng 77,99 MB

Nội dung

Dựa trên các kiến thức nền tảng trong lĩnh vực Khoa Học Dữ Liệu cùng với đó là Lý Thuyết Đồ Thị được áp dụng xuyên suốt trong mô hình thực nghiệm, em đã thành công trong việc triển khai

Trang 1

ĐẠI HỌC QUÓC GIA TP HÒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

PHÒNG LAI BẢO MINH - 20522217

KHÓA LUẬN TÓT NGHIỆP

NHẬN DIỆN KÝ TỰ QUANG HỌC DỰA TRÊN PHƯƠNG

Optical Character Recognition Based on Graph Method

CU NHAN NGANH KHOA HOC DU LIEU

GIANG VIEN HUONG DAN

TS DO TRONG HOP

TS TRAN VAN THANH

TP HO CHÍ MINH, 2024

Trang 2

Em đặc biệt cảm ơn đến TS Đỗ Trọng Hợp và TS Trần Văn Thành đã hướng dẫn

và đưa ra những chỉ dẫn cho em một cách tận tình trong thời gian làm KLTN.

Em cũng xin gửi lời cảm ơn sâu sắc đến anh/chi, bạn bẻ tại trường đã luôn hỗ trợđộng viên em xuyên suốt quá trình học tập tại trường

Cuối cùng, em muốn gửi lời biết ơn đến gia đình người thân của mình, họ chính

là nguồn động viên to lớn nhất trong suốt quá trình học tập của em, nhờ có giađình đã tạo điều kiện cho em hoàn thành quá trình học tập này

Một lần nữa, xin chân thành cảm ơn tat ca!

Trang 3

MỤC LỤC

Chương 1._ MỞ ĐẦU 2-:cccetreeEEtrreEEEriEEEErirEErrrdrtrrirrrtrrirrrrrreerrre 2

1.1 LÝ DO CHON DE TÀI 22 icccccttreeeEEtrreeretrrrtrertrrrrsrrrrrrrrerre 21.2 MỤC DICH NGHIÊN CỨU -++eecvEEEt.22EEEEEEEEEtSSEEEEEErrirerke 31.3 ĐỐI TƯỢNG NGHIÊN CỨU cc52ireeccSttrrerrvtrtrrrrrrrrrrrerre 31.4 PHAM VI NGHIÊN CỨU 2:++eccettrreeverrrrerrrtrrrrrrrrrrrrrrrre 4

Chương 2 TONG QUAN -.2 cec2+tee2E+2EEESEEEEEEEEEiEEEEEieEtrrretrrrrreerre 5

2.1 Cac Phương Pháp Trước ĐÓ «-cscckrerikrkritkrtriikiririkrrrrrrrrrirrrrrke 5

2.1.1 Rule-based Method c-s- sec sSssseeeskkerreerkersrkrsrtsrkrrsrssrsrrsrsrrk 5

2.2 Hướng Giải Quyết Trong Dé Tài Này -iiceccccccrrrreeeeevrrrrrrrree 14

Chương 3 _ PHƯƠNG PHÁP -+:cc552ireccvvEttrrrvvrtrtrrrvrrrtrrrrrrrrrrrre 16

Trang 4

3.1.2.1 _ Sự tương quan giữa đồ thị và học sâu - ccccccccrccee 20

3.1.2.2 _ Cơ sở tính toán Graph Neural Network essere 22

(a) Message Passing che 23

3.3 Graph Convolutional NefWOFK ‹ escxescrxerrrrerrrrrrrrerrrrrrrrrrrrkerrre 36

3.3.1 Tổng quan về GON ceccscssssesssssosesssssssesssssosesssssnsessssssensssasnsesssasesesesnssnsesssses 36

3.3.2 Cheb Net cissstascssssssteccsssssatsnassesnstibisiceesssssssnsssesesssesnsssesnsssesnassesnassesnaseesness 37

3.3.3 Node Classification sử dụng mô hình GCN ban giám sắt 39

Chương 4 TRIỂN KHAI BÀI TOÁN -: cccerrceceerrreeeerrtrrerrrrrrrsertr 44

4.1 _ Thu Thập Và Xử Lý Dữ Liệu cce.-eeceereceerrreeerrrereerre 44

4.2 Mô Hình Hóa Đồ Thị -ci+t++22225215152122221222 22311112211EEEirrrrd 47

4.3 Quy Dinh Đặc Trưng ÌNOde s-cc<crekseretkirekiririirriirrrie 51

4.4 Triển Khai Mô Hình 2-+ccssreevvtrrevetrrervtrtrrtrrirrvrrrrrerrre 524.5 Kết Quả Thực Nghiệm 22++ce2trecEtrrerEtrtrrErrrrrrrrrrrrrrre 56

Chương 5 TONG KẾT eco+ieecSEE22EEEEEE.211121 1111 111 te 60Chương 6 _ HƯỚNG PHÁT TRIỂN -2::cce2trceettrrerttrrerrrrrrrrrrrzer 61

TÀI LIEU THAM KHAO -+-ecc2tt+++e2SEEEEEEEr22EEEEEEEtrrrrrrrrrrrrrrrrrrrrrrree 62

Trang 5

DANH MỤC HÌNH

Hình 2-1 Mô hình CRE -5< 5x HH HH HH re 9

Hình 2-2 Mô hình LS TÌM . -©ccccErtEriEHHHHHHH 10

Hình 2-3 Mô hình BiLSTM -.-5 +.kcSLHEHHHH HH Hà 11

Hình 2-4 Mô hình Transformer - ©55<©++SY+EExeEExtsrkerrketrkrtkrrtrrrrrkrrrkrrre 12

Hình 3-1 Hình ảnh dưới dạng Euclide và đồ thị đưới dang phi Euclide 16

Hình 3-8 Tích chập truyền thong và tích chập trên đồ thị - 32

Hình 3-9 Tổng quan các bước mô hình GON -ces.xeceetrrecerree 37

Hình 4-1 Ảnh hóa đơn trong bộ dữ liỆu -5cccsrseerirerirrrirerrrrirrree 44

Hình 4-2 Kết quả trích xuất từ Pytesseract -.ecececceerrrrreererrrrrrrrrrrrrrrrrree 45

Hình 4-3 Tọa độ các box và nội dung tương Ứng e ceecxecxrerreerverrrerrrs 46

Hình 4-4 Dữ liệu sau khi bổ sung nhãn -++ccssi+reccttrreevvvrrrrrvrrrrrre 47Hình 4-5 Sự đa dạng trong cau trúc của các hóa đơn . -::-ccccccerrree 48Hình 4-6 Quy tắc kết nối giữa các bounding box .cccccecrrrrccccccerrree 49Hình 4-7 Các bước mô hình thành dit liệu đồ thị cs2+-cccssrrcce 51Hình 4-8 Kết quả mô hình thực nghiệm +-ccccccttirrreevvvvtrrrrrrererrrrrre 56Hình 4-9 Sự không nhất quán giữa các bounding box . : .cccccerrree 59

Trang 6

DANH MỤC BANG

Bang 4-1 Phân phối số lượng nhãn trong bộ dữ liệu -:-.cccccerrrre 54Bảng 4-2 Trọng số sử dụng dé cân bằng cho các nhãn -: -ccccsrrre 54Bang 4-3 Thống kê số lượng node và cạnh trong bộ đữ liệu - 55Bảng 4-4 Bộ tham số được sử dụng cho mô hình s-©c«exsereerxeerrerreee 56

Bảng 4-5 Accuracy của các mô hình thực nghiệm « c<©c«+seeeresceee 57

Bang 4-6 Confusion Matrix của GCN tại epochs 521 vests 57

Bang 4-7 Kết quả so sánh các mô hình -::+:++eeeevvrtrrrreervvrtrrrrrzrrerrrrrre 58Bảng 4-8 Thời gian huấn luyện các mô hình -+-ccs2++rcccettrrecverrrrce 58

Trang 7

DANH MỤC TỪ VIET TAT

Các từ viết tắt Ý nghĩa

NLP Natural Language Processing

CRF Conditional Random Field

LSTM Long Short-Term Memory

BiLSTM Bidirectional Long Short-Term Memory

CNN Convolutional Neural Network

GNN Graph Neural Network

GCN Graph Convolutional Network

SGNN Spectral Graph Neural Network

Trang 8

TOM TAT KHÓA LUẬN

Đây là một báo cáo trình bày các cơ sở khoa học, cách triển khai thực hiện cho

bài toán “Nhận Diện Ký Tự Quang Học Dựa Trên Phương Pháp Đồ Thị” Mục tiêu

của bài toán này là nhận diện và trích xuất được các nội dung (thực thé) trong một

bức ảnh biên lai, hóa đơn có các cấu trúc khác nhau, các thực thê này có thê bao gồmtên sản phẩm, giá cả, ngày tháng, và các thông tin khác có trên biên lai hoặc hóa đơn

Dựa trên các kiến thức nền tảng trong lĩnh vực Khoa Học Dữ Liệu cùng với

đó là Lý Thuyết Đồ Thị được áp dụng xuyên suốt trong mô hình thực nghiệm, em đã

thành công trong việc triển khai được mô hình trích xuất ra được hau hết các thực thé

được gán nhãn trong bài toán, qua đó khăng định được ưu thế của mô hình thực

nghiệm so với các mô hình trước đây.

Các mô hình graph-based lần lượt cho ra các kết quả rất tốt trong tác vụ nàyvới Fl-score lần lượt cho các mô hình GCN, ChebNet, ARMA-GNN là 0.8848,

0.8718, 0.8636 Kết quả cho thấy các mô hình dựa trên đồ thị đều đạt được hiệu quả

cao trong bài toán nhận điện ký tự quang học từ biên lai, hóa đơn Điều này khangđịnh rằng việc áp dụng lý thuyết đồ thị trong bài toán OCR không chỉ khả thi mà cònmang lại những cải tiền đáng kế so với các phương pháp trước đây

Trang 9

Chương 1 MỞ ĐẦU

1.1 LÝ DO CHỌN ĐÈ TÀI

Quyết định chọn đề tài “Nhận diện kí tự quang học dựa trên phương pháp đồthị” xuất phát từ nhu cầu thực tế của xã hội và sự phát triển mạnh mẽ trong lĩnh vực

công nghệ Việc xử lý các đữ liệu từ các hình ảnh như biên lai hay hóa đơn trở nên

thiết yếu hơn trong các công cụ tự động hóa, ứng dụng của nó đang ngày càng được

áp dụng rộng rãi trong nhiều lĩnh vực khác nhau như bảo hiểm, tài chính, ngân hàng,quản lý doanh nghiệp, Mỗi ngày có hàng triệu tài liệu cần được số hóa và thông tincủa nó cần được thu thập một cách nhanh chóng và thật chính xác Vì vậy ta có thểnhìn nhận được thách thức trong bài toán này đó là đảm bảo độ chính xác, năng suất

và thời gian trong việc trích xuất thông tin

OCR (Optical Character Recognition) từ lâu đã trở thành một công cụ hữu ích

trong việc chuyên đồi thông tin từ định dang ảnh sang định dạng văn bản Thế nhưng

dé đạt được kết quả tối ưu nhất thì việc áp dụng các kỹ thuật tiên tiến là điều thiết yếunhất Việc kiến thức về đồ thị được áp dụng vào bài toán này là một hướng tiếp cậnmới mẻ và ngoài ra nó còn rất thích hợp trong việc xử lý các bài toán mà ở đó dữ liệu

có cầu trúc ngẫu nhiên, rời rạc

Khi kết hợp cộng nghệ OCR và phương pháp đồ thị chúng ta không những tận

dụng được tối đa sức mạnh của cả hai công nghệ mà còn biết cách vận hành cũng như

hiểu được các ưu điểm của phương pháp này Đồng thời đây cũng là cách tiếp cậngiúp tăng cường hiệu suất so với các hướng tiếp cận trước đây ma qua đó giảm thiểu

các bước trung gian và tôi ưu hóa được các thuật toán.

Tom lại việc thực hiện bai toán “Nhận diện kí tự quang học dựa trên phương

pháp đồ thị” không những tận dụng được giá trị lý thuyết mà còn đáp ứng được cácgiá trị thực tiễn Nó đã mở ra một hướng đi khác trong việc vận dụng trí tuệ nhân tạovào các vấn đề thực tế cũng như góp phần nâng cao chất lượng và tính chính xác củacác hệ thống xử lý thông tin từ hình ảnh và từ đó đáp ứng được nhu cầu ngày càng

cao trong xã hội hiện đại.

Trang 10

1.2 MỤC DICH NGHIÊN CỨU

Mục tiêu chính của nghiên cứu này là phát triển một hệ thống nhận diện kí tự

quang học (OCR) tiên tiến, sử dụng đồ thị để cải thiện, tăng cường khả năng tríchxuất thông tin từ hình ảnh biên lai Với việc vẫn còn tồn tại nhiều hạn chế về độ chínhxác cũng như là năng suất thì nghiên cứu này sẽ vận dụng tiêm năng của phương pháp

đồ thị nhằm mang lại một bước cải tiến mới trong lĩnh vực xử ly thông tin từ hình

ảnh.

Ngoài ra thông qua việc tiến hành đề tài nghiên cứu này nó còn giúp ta hiểu

được các lý thuyết của các phương pháp từ đó thấy được các ưu điểm và hạn chế

trong từng cách làm Mà thông qua kiến thức về lý thuyết đồ thì chúng ta có thể môhình hóa và phân tích các mối quan hệ phức tạp giữa các đối tượng, hứa hẹn sẽ mang

lại kết quả tích cực hơn so với các phương pháp OCR truyền thống

Cuối cùng, mục tiêu của em với đề tài này là tạo ra một hệ thong OCR không

chỉ có kha năng hoạt động tự động ma còn có tính linh hoạt cao, có thể dễ dàng điềuchỉnh và mở rộng đề phù hợp với nhiều loại tài liệu và ứng dụng khác nhau Thông

qua việc đạt được những mục tiêu trên, nghiên cứu này kỳ vọng sẽ đóng góp một

phần quan trọng vào sự phát triển của công nghệ OCR, mở ra những hướng đi mớitrong việc ứng dụng trí tuệ nhân tạo và phương pháp đồ thị vào các bài toán thực tiễn

1.3 ĐÓI TƯỢNG NGHIÊN CỨU

Đối tượng nghiên cứu chính của dự án này là các hình ảnh chứa thông tin vănbản từ các loại biên lai, đặc biệt là những biên lai liên quan đến giao dịch thương mại,

hóa đơn thanh toán và các tài liệu tài chính khác Mục tiêu của nghiên cứu là áp dụng

kiến thức đồ thị để mô hình hóa mối quan hệ giữa các nội dung và cấu trúc văn bảntrên biên lai Đồng thời, sử dụng các kỹ thuật của mô hình học sâu để phát triển một

hệ thống nhận diện mẫu cấu trúc và liên kết giữa các ký tự Kết hợp giữa học sâu vàkiến thức đồ thị nhằm cải thiện, nâng cao tính xác thực va tính hiệu quả cua quá trình

nhận dạng là mục tiêu chính của đê tai nay.

Trang 11

Mô hình dự kiến sẽ cung cấp một phương pháp tiên tiến và hiệu quả để nhậndiện các ký tự từ các hình ảnh biên lai, hỗ trợ tự động hóa quy trình kế toán và quản

lý tài chính Giúp tăng cường khả năng xử lý, trích xuất đữ liệu từ các tài liệu văn bản

phức tạp trong môi trường thương mại và tài chính.

1.4 PHAM VI NGHIÊN CỨU

Dự án tập trung vào áp dụng lý thuyết đồ thị, deep learning, spectral graphtheory và các phép tính toán liên quan để trích rút thông tin từ hóa đơn và các vănbản tương tự Kết hợp đồ thị và deep learning giúp mô hình hóa mối quan hệ phức

tạp giữa các thành phần dữ liệu trong các hóa đơn có cấu trúc không đồng nhất và đa

dạng nội dung.

Nghiên cứu sẽ khám phá và áp dụng các phương pháp biến đổi toán học đề biểudiễn đồ thị với các đặc trưng đặc thù của từng vùng văn bản trên hóa đơn Cụ thể,việc sử dụng ma trận kề và phép biến đôi Laplace sẽ giúp tính toán các đặc trưng đồ

thi, trong khi các mô hình hoc sâu như Graph Convolutional Network (GCN) sẽ được

áp dụng đê học câu trúc và biêu diễn dữ liệu trên đô thi một cách hiệu quả.

Nghiên cứu cũng sẽ tập trung vào phân tích ưu và nhược điểm của các phươngpháp trước đó trong lĩnh vực này Các mô hình truyền thống thường gặp khó khăntrong việc xử lý các hình ảnh chất lượng kém, hoặc bố cục phức tạp trên hóa đơn.Bằng việc nghiên cứu và cải tiễn các mô hình đồ thị kết hợp học sâu, dự án mong

muốn giải quyết các thách thức này và cung cấp giải pháp tự động hóa hiệu quả hơn

cho việc trích rút thông tin từ các tài liệu văn bản phức tạp trong thực tế

Trang 12

Chuong 2 TONG QUAN

2.1 Cac Phương Pháp Trước Đó

2.1.1 Rule-based Method

Đây sẽ là một phương pháp cơ bản nhưng hiệu quả [1] để trích xuất thông tin

quan trọng trên hóa đơn nếu chúng có cấu trúc có định và ít thay đôi Phương phápnày hoạt động dựa trên việc áp dụng quy tắc được định nghĩa trước và sử dụng kỹthuật so khớp văn bản/từ khóa dé trích xuất thông tin quan trọng trên hóa đơn có cấutrúc cô định và it thay đôi

Quy tắc trích xuất thông tin có thể dựa trên nhiều yếu tố khác nhau như cấu trúcvan ban, vi trí thông tin hóa đơn, định dạng và các từ khóa, ký hiệu Va tất nhiên các

quy tắc này được xây dựng dựa trên sự quan sát, kinh nghiệm và domain knowledge

của từng người Hai phương pháp pho biến cho rule-based method chính là Regular

Expression va Heuristic Rules.

2.1.1.1 Regular Expression

Regular Expression (Regex) là một công cụ mạnh mẽ trong việc xử lí văn ban,

Regex được dùng cho việc tìm kiếm, thay thế và trích xuất các phần tử trong văn bản

theo các quy tắc được mô tả, định nghĩa trước đó

Vi du:

Trích xuất số hóa don:

e Văn bản mẫu: "Invoice Number: INV123456"

© Quy tắc: \bDINV\d{6}\b

e Két quả: INV123456

Trich xuat ngay thang:

e Văn ban mẫu: "Date: 25/05/2024"

© Quy tac: \b\d{2}/\d{2}\d{4}\b

e Két qua: 25/05/2024

Trang 13

Trích xuât tông sô tiên:

e Văn bản mau: "Total Amount: $1,234.56"

© Quy tac: \$?\d{1,33(,\d{3})*(\.\d {2})?

e Kết qua: $1,234.56

Những vi dụ nêu trên chi là những trường hợp cơ ban về ứng dụng của Regex

Trong thực tế, Regex có thể đạt mức độ phức tạp và sức mạnh vượt trội, hỗ trợ giải

quyết các vấn đề xử lý dữ liệu văn bản một cách hiệu quả và tinh vi hơn

2.1.1.2 Heuristic Rules

Heuristic Rules là các quy tac dựa trên kinh nghiệm va quan sát, được dùng dé

xử lí thông tin từ văn bản một cách nhanh chóng Phương pháp này dựa trên các đặc

điểm và mẫu định trước trong văn bản từ đó nhận diện và trích xuất ra được các thông

tin Khác với các phương pháp máy hoc, Heuristic Rules dựa vào từ khóa, vi tri trong

văn bản hoặc các định dạng cụ thể nào đó được quy định trước

Vi dụ:

Trích xuất tên công ty:

e Văn ban mẫu: "Company: ABC Corp"

¢ Quy tắc: Tim từ khóa "Company" và lay văn ban liền kề sau go

e Két quả: ABC Corp

Trích xuất địa chỉ:

e Văn bản mẫu: "Address: 123 Main St, Cityville"

e_ Quy tắc: Tìm từ khóa "Address" và lay văn bản liền kề sau đó

e Kết quả: 123 Main St, Cityville

Trích xuât sô điện thoại:

e Văn bản mau: "Phone: (123) 456-7890"

¢ Quy tắc: Tim từ khóa "Phone" và lay văn ban liền kề sau đó

Trang 14

e Kết quả: (123) 456-7890

Heuristic Rules là một phương pháp mạnh mẽ và trực quan dé trích xuất thongtin từ văn bản, đặc biệt là trong những tình huống cần phản hồi nhanh chóng và chínhxác mà không cần đến các mô hình phức tạp Mặc dù phương pháp này có thể không

có độ chính xác tuyệt đối như các mô hình máy học hiện đại, nhưng nó mang lại sựđơn giản, dễ triển khai và hiệu quả tức thời trong nhiều trường hợp

Rule-based systems cung cấp cách tiếp đơn giản nhất cho bài toán này, đây sẽ

là phương pháp tốt cho một số trường hợp Tuy nhiên khi phạm vi của bài toán được

mở rộng chúng sẽ có những nhược điêm khó khắc phục.

Hạn chế lớn nhất của Rule-based Method là sự phụ thuộc quá nhiều vào việc

định nghĩa các luật cụ thể cho từng định dạng dữ liệu Mỗi luật phải được thiết kế và

cau hình một cách chi tiết dé phù hợp với từng loại form hoặc tài liệu cụ thể, điều này

gây ra sự phức tạp và tôn kém về mặt thời gian và công sức.

Đặc biệt, phương pháp rule-based thiếu đi tính linh hoạt và khả năng thích

nghi với các định dạng dữ liệu mới Khi xuất hiện một dạng form mới, việc áp dụng

lại các luật hiện tại thường đòi hỏi sự can thiệp và điều chỉnh từng chỉ tiết một, do đókhông thể tự động hóa quá trình này một cách hiệu quả Chính vì điều này mà phương

pháp rule-based không thê đáp ứng được yêu cầu về độ linh hoạt và mở rộng khi cần

áp dụng vào các điều kiện, bối cảnh khác nhau hoặc trong những tình huống khôngchuẩn mà không có sự can thiệp từ domain knowledge của các chuyên gia

2.1.2 NLP-based Method

Với phương pháp này các thực thé sau khi được trích xuất từ hình anh sẽ đượcđưa qua mô hình Text Classification hay NER dé xác định thực thé này thuộc trường

thông tin nào So với Rule-based Method thì NLP-based Method có khả năng tương

thích với các câu tric/kiéu dữ liệu mới cho phép mô hình cải thiện và mở rộng khả

năng xử lý thông tin một cách linh động hơn so với Rule-based.

Trang 15

2.1.2.1 CREs-BiLSTM

(a) CRFs

Conditional Random Fields là một mô hình đồ thị xác suất được thiết kế dé

gan nhãn cho các chuỗi dữ liệu CRFs hoạt động theo nguyên lý học có giám sát, khi

đó mô hình được huấn luyện dé gan một chuỗi các nhãn cho mỗi chuỗi đầu vào, môhình sẽ tối ưu hóa sác suất điều kiện của chuỗi nhãn dựa trên quan sát từ chuỗi đầu

vào.

Đặc biệt, CRFs có khả năng mô hình hóa các phụ thuộc giữa các nhãn liền kề

và không liền ké, vi thé nó có thé năm bắt được các mối quan hệ phức tạp giữa cácnhãn trong chuỗi Điều này làm cho CRFs trở thành một mô hình mạnh mẽ dé giảiquyết các bài toán có dữ liệu chuỗi Được phát triển từ Naive Bayes, trong khi NaiveBayes tốt trong việc phân loại nhưng lại kém trong việc ước lượng sản xuất CRFsgiải quyết van đề này bằng việc sử dụng Hidden Markov Model dé cung cấp phânphối chung p(y, x) và xác xuất có điều kiện p(y|x)

Cho x và y là các vector ngầu nhiên, ƒ„(y¿,y;_,x¿) là một tập hợp các hàm

đặc trưng có giá trị thực, Ø = {A,} là tập tham số của CRFs Chuỗi tuyến tính CRFs

là một phân bố p(y|x) thỏa:

Ước lượng hợp lý tối đa có trừng phat (maximum likelihood function) là một

kỹ thuật phổ biến trong việc ước lượng tham số Trong trường hợp giả thiết phân phối

Gaussian, hàm /og hợp lý sử dụng phân phối điều kiện là phù hợp:

Trang 16

từ cả 2 phía của chuỗi dữ liệu: từ quá khứ đến hiện tại và từ tương lai về hiện tại Do

đó BiLSTM có thé nắm bắt ngữ cảnh 2 chiều của đữ liệu, giúp cải thiện độ chính xác

và hiệu suất của mô hình trong nhiều tác vụ

Mô hình RNN (Recurrent Neural Network) là một loại neural network nhân

tạo được thiết kế dé xử lý dữ liệu tuần tự Khác với các neural network thông thường,

RNN có khả năng lưu trữ thông tin từ các bước trước đó trong chuỗi dữ liệu, cho phép

nó nhận diện và dự đoán các mâu dựa trên ngữ cảnh.

Câu trúc của RNN gôm:

Trang 17

e x; là dau vào của t, là một one-hot vector.

e s¿ là bộ nhớ ân của t, nó được tính toán băng cách sử dung hidden state phía

trước s;¿_¡ và dau vào #¿, Ss, = ƒ(Ux¿ + WS_).

0; là kết quả của t

LSTM cũng là một dạng neural network hồi quy (RNN), nhưng chúng đượcthiết kế đặc biệt dé giải quyết van đề về gradient vanishing thường gặp ở RNN truyền

thống Cau trúc cơ bản của LSTM bao gồm:

e Forget Gate: cổng này sẽ giúp xác định giữ và loại bỏ thông tin nao trong bộ

nhớ.

e Input Gate: đưa ra quyết định thông tin nào sẽ được cập nhật vào hidden state

¢ Output Gate: quyết định phần nào của hidden state ở hiện tại sẽ được xuất ra

bảo toàn thông tin đến từ tương lai bằng cách sử dụng LSTM, mô hình sẽ chạy ngược

lại và kết hợp với cả 2 hidden state

10

Trang 18

dữ liệu đa dạng và phức tạp Nhờ vào tính linh hoạt và hiệu quả của CRF-BILSTM

[5] phương pháp này trở thành một lựa chọn mạnh mẽ và đáng tin cậy trong đề tài

này.

2.1.2.2 Transformer

Transformer là một mô hình hàng đầu trong lĩnh vực NLP, đã mang đến sự

đột phá với những cơ chế đặc trưng và khả năng song song hóa, đây còn là mô hình

nên tảng cho các kiến trúc mạnh mẽ như TrOCR [6] hay LayoutLM [7] Trong đó cơchế Attention [8] của Transformer chính là chìa khóa giúp mô hình này đạt được kết

quả thành công như hiện tại.

Vé cơ bản mô hình gôm hai phân:

11

Trang 19

e Encoder: tiếp nhận input và xây dựng các feature từ input đó, điều này giúp

mô hình có thể hiểu và nắm được thông tin từ input

e Decoder: Sử dụng các feature từ Encoder và các input khác dé tạo ra output,

viéc két hợp như trên sé tao ra được kết quả tối ưu nhất.

Output Probabilities

attention(attention(src input), attention(tgt input))

attention(sre input)

Encoder

Hinh 2-4 M6 hinh Transformer [9].

Nhu đã đề cập bên trên thi cơ chế Attention là thành phan cốt lỗi, giúp mô hình

tập trung vào những phan quan trọng trong input và từ đó xử lý thông tin hiệu quả

hơn, dưới đây là tông quan vê cơ chê của nó:

Trang 20

e V (Value) là thông tin thật của các từ khác.

ed, là chiều của vector truy van/khoa

Cơ chế self-attention giúp mô hình vào các từ quan trọng trong câu đầu vào,

nâng cao kha năng thấu hiểu thông tin giữa các từ Bên cạnh đó, self-attention cho

phép xử lý tính toán nhanh hơn qua cơ chế song song, giúp tăng tốc quá trình huấn

luyện và suy luận.

Multi-head Self-attention mở rộng Self-attention bằng cách thực hiện nhiều

phép attention song song trên các không gian con khác nhau của dữ liệu, giúp mô

hình học được các mối quan hệ da dạng gitra các từ Đồng thời, việc sử dụng nhiều

"head" giúp giảm nguy cơ overfitting băng cách cung cấp nhiều con đường học hỏi

e pos la vi tri cua tu.

e i là chỉ sô chiêu của.

© dmode là chiêu của vector nhúng.

13

Trang 21

Bởi vi transformer không có cau tạo gồm RNN hay CNN nên nó sẽ không biếtđược thứ tự của các token đầu vào Vì vậy, cần phải có một phương pháp nào đó cungcấp thông tin này cho mô hình, đó chính là vai trò của positional encoding.

NLP-based Method như CRF-BiLSTM hay Transformer hoàn thiện so với

Rule-based Method như Regular Expression và Heuristic Rules bằng cách có khả

năng học tập từ dữ liệu lớn, tong quát hóa tốt trên các nhiều kiểu dit liệu khác nhau,

cải thiện độ chính xác thông qua việc kết hợp nhiều đặc trưng và ngữ cảnh, linh hoạt

trong việc điêu chỉnh và mở rộng, dong thời đem lại hiệu suât ôn định hơn.

Tuy nhiên CRF-BiLSTM cần một lượng lớn đữ liệu huấn luyện đề việc họcđược hiệu quả, đặc biệt là khi phải xử lý các định dạng dữ liệu mới, không được biểudiễn rõ ràng Mặc dù mô hình Transformer rất mạnh mẽ trong xử lý ngôn ngữ tựnhiên, nhưng khi áp dụng vào bài toán này, nó gặp phải một số hạn chế như: cầnnhiều đữ liệu huấn luyện và tài nguyên tính toán, khả năng xử lý kém với thông tin

có cau trúc phức tạp, thiếu thông tin vi trí trực tiếp, dễ bị overfitting, chi phí tính toán

và dung lượng bộ nhớ cao, cùng với khó khăn trong việc tinh chỉnh mô hình cho các

nhiệm vụ cụ thê.

2.2 Hướng Giải Quyết Trong Đề Tài Này

Dé giải quyết những thách thức này một cách hiệu quả hơn, việc sử dung đồ thị

đã trở thành một lựa chọn hứa hẹn So với các phương pháp như Rule-based,

NLP-based hay các mô hình khác thì trong bài toán này việc sử dụng đồ thị có những ưu

điêm sau:

Biểu diễn mối quan hệ phức tạp: không chỉ dừng lại ở việc xác định được các

thực thê một cách riêng lẻ mà đô thị còn giúp ta hiêu các môi quan hệ giữa các thực

thê đó Điêu này giúp cải thiện độ chính xác và tính toàn vẹn của quá trình trích xuât

thông tin.

Khả năng tổng hợp kiến thức: đồ thị giúp ta tổng hợp được thông tin từ cácnguồn khác nhau từ đó giúp ta hiểu bối cảnh của đữ liệu Nó có thể tổng hợp các

14

Trang 22

thông tin liên quan và xây dựng một cấu trúc kiến thức toàn diện hơn về các yếu tốtrong dữ liệu, so với việc đơn thuần áp dụng các quy tắc (rule-based) hoặc phụ thuộcvào dữ liệu huấn luyện (NLP-based).

Sự linh hoạt và khả năng mở rộng: đồ thị có thể đễ dàng mở rộng khi có sự

biến đổi trong dữ liệu hoặc yêu cầu mới Việc thêm mới các đỉnh (node) và cạnh

(edges) vào đồ thị là khả thi và không đòi hỏi nhiều công sức như việc điều chỉnh lạicác quy tắc hay huấn luyện lại mô hình NLP

Sử dụng hiệu quả dữ liệu không có cấu trúc rõ ràng: đồ thị có thể xử lý vàphân tích dữ liệu không có cấu trúc rõ ràng một cách hiệu quả Trong khi các phươngpháp rule-based yêu cầu các quy tắc rõ ràng và NLP-based cần phải có dữ liệu huấnluyện đủ lớn và đại diện, đồ thị rõ rang không có những rang buộc trên

Giúp hiểu dữ liệu toàn cảnh hơn: đồ thị cho phép phân tích toàn diện hơn vềmối quan hệ giữa các yếu tố trong dữ liệu Nó không chỉ giúp xác định các đối tượng

và sự kiện mà còn lấy được thông tin về mối quan hệ giữa chúng, điều mà các phươngpháp khác có thể không thực hiện được một cách hiệu quả

15

Trang 23

Chương 3 PHƯƠNG PHAP

3.1 Cơ sở lý thuyết

3.1.1 Ly thuyết về đồ thị

Phần lớn các kiến trúc mô hình học sâu truyền thống hoạt động dựa trên dữ

liệu Euclide, tức là loại dit liệu được biểu diễn dưới dang 1 chiều hoặc 2 chiều Tuynhiên trên thực tế những gì mà chúng ta quan sát được đều tổn tại đưới dạng 3 chiều,chính vì thế mà khái niệm dữ liệu phi Euclide ra đời dé có thé diễn tả và mô phỏngmột cách chính xác hơn về thé giới Và dựa trên cơ sở này khái niệm này Geometric

Deep Learning [10] ra đời với mục đích xây dựng các mô hình học sâu có khả năng

học từ dữ liệu không gian phi Euclide Điều này mở ra những tiềm năng mới trongviệc hiểu và xử lý thông tin từ các thế giới ba chiều phức tạp mà chúng ta đang sống

Hình 3-1 Hình ảnh đưới dạng Euclide và đồ thị dưới dạng phi Euclide

Ví dụ tiêu biểu cho kiểu dé liệu phi Euclide này là đồ thị Dé thị là kiểu dữ

liệu có cấu trúc bao gồm các node hay entities (chứa đựng thông tin) và các cạnh (kết

nối các node với nhau) và chính vì cấu trúc đặc biệt này mà đồ thị có thể mô hình hoa

được hầu như mọi thứ, do đó kiểu đữ liệu này rất phù hợp áp dụng vào học chuyểngiao (Transductive Learning) [11] Trong học chuyên giao, dit liệu huấn luyện vàkiểm tra đều hiện điện trong cùng một đồ thị, nơi các node từ mỗi tập dữ liệu được

kết nối với nhau Trong quá trình huấn luyện, nhãn của các node kiểm tra bị ân đi,

trong khi nhãn của các node huân luyện được hiên thi.

16

Trang 24

Một đồ thị có thé biểu dién một cách đơn giản G = {V, E}, trong đó V là các

node và # là tập các cạnh, đồ thị được mô tả qua 3 thành phần chính:

e 4: Ma trận kề của đồ thị thé hiện sự liên kết giữa các node

e D: Ma trận bậc đô thi của các node thê hiện bậc két nôi giữa các node.

Hinh 3-2 Cac ma tran quan trong [12].

3.1.1.1 Ma trận ké A

Ma trận A với ø node là một ma trận vuông có kích thước nxn Từng phần tửthể hiện mối quan hệ giữa các node trong đồ thị Giả sử có một cạnh nối giữa 2 node

i và j thì phần tử A; j của ma trận sẽ bằng 1 Ngược lại, nếu không có cạnh nối giữa

chúng thì giá trị của 4;; là 0 Có thé hiểu qua công thức sau:

A = li _ i,j€E

17

Trang 25

, đối với một đồ thi vô hướng ma trận kề của chúng chính là ma trận đối xứng, do đó

nó có đầy đủ các eigenvalue (giá trị riêng) và các eigenvector (vector riêng) tươngứng, mà các eigenvector này trực giao với nhau Tập hợp các eigenvalue của đồ thịđược gọi là phổ của đồ thị, một khái niệm sẽ được giải thích chi tiết trong các phầntiếp theo của bài viết

3.1.1.2 Ma trận bậc D

Ma trận bậc D là một ma trận chéo biêu thị thông tin vê bậc của các node, bậc

của mỗi node sẽ là sô cạnh kêt thúc ở node đó hay có thê nói theo một cách khác bậc

chính là tong của mỗi hàng trong ma trận kề A

_ (D(i),nếu ¡ = j

Di =|{ 0, con lại G2)

, VỚI (7) là sô lang giêng của node 7.

18

Trang 26

Ending Points

A B C OD A B ¢ O Afo 1 0 1 8 Af 0 1 0 0

Bl1 o 1/2 a BN\N 0 W% 1 1

c/o 1 Ws z c/o 0 0 0 |

Dii1 @7 0 #_p|li/⁄0 o oa

Undirected Directed

Hinh 3-4 Ma tran bac D [14].

Đôi với đô thi vô hướng, bậc của một node được tinh băng tông sô cạnh liên

kêt đên node đó và đôi với đô thị có hướng chúng ta sẽ cân quan tâm đên khái niệm

bậc vào (indegree) và bậc ra (outdegree), bậc của node từ đó được tính băng sô lượng

Trang 27

—1,néui,j € E Lij = 4 D(,nếu ¡ = j (3.4)

cụm đỉnh Ma trận Laplace tương ứng của một đồ thị G luôn có các eigenvector sao

cho Ay SA, S++ SAn_y, và Vi thì A; luôn lớn hơn hoặc bằng 0 Số lượngeigenvector có giá trị bang 0 thể hiện thành phan liên thông của đồ thị và Ay thì luônbằng 0

3.1.2 Graph Neural Network

3.1.2.1 Sự tương quan giữa đồ thị va học sâu

Các neural network trong học sâu là một kiên trúc mô phỏng lại tương tác của

các nơ-ron bên trong não người, đây là ý tưởng nên tảng và được áp dụng rộng rãi

trong lĩnh vực AI Bắt đầu từ phương trình tuyến tính:

y=mx+b (3.5)

, chúng ta có thé cau trúc lại công thức trên như một perceptron như hình bên dưới:

20

Trang 28

Hình 3-6 Cau tao một perceptron.

, trong đó với đầu ra (y) là tong (#) của đầu vào (x) nhân với trọng số (m) cộng với

bias (b) Mỗi neural networks sẽ tồn tại một hàm kích hoạt (activation function), hàm

nay sẽ quyết định một no-ron có được kích hoạt hay không và đồng thời nó cũng giúpgiữ giá trị đầu ra của nơ-ron đó ở trong một phạm vi tính toán nhất định Khi ta đặt

nhiều perceptron kết nối lại với nhau từ đó hình thành ra được một neural network

đơn giản.

Quá trình huân luyện neural network chính là việc tính toán sai sô giữa đâu ra

thực tế so với đầu ra dự kiến thông qua hàm mat mát (loss function):

đị = Ï¡ — Vi (3.6), trong đó e là sai số Y output mong đợi và là output thực tế Mục tiêu của quá trình

học của một perceptron đó là giảm thiểu sai số ít nhất có thể, sai số sẽ được giảmthiểu thông qua việc cập nhật trọng số thông quá trình lan truyền ngược (back

propagation).

21

Trang 29

Do vậy ta thấy thực chất neural network chỉ là một dạng đồ thị với 3 node: đầuvào (x), bias (b), tổng (E) và trọng số (m) là giá trị cạnh kết nối giữa đầu vào (x) vàtổng (E).

Sự tương đồng giữa lý thuyết đồ thị và học sâu đó chính là khả năng mô hình

hóa được các kiểu dữ liệu [16], ở đồ thị các node liên kết với nhau thông qua cạnh

mà từ đó ta có thê biết được các mối quan hệ giữa chúng tương tự như cách các

nơ-ron được kết nôi với nhau và biêu diễn thông tin qua toàn bộ mạng lưới.

Hơn nữa, cấu trúc của neural network có thể được xem như một đồ thị với các

node đại diện cho các nơ-ron và các cạnh đại diện cho các kết nối giữa chúng, nơi

mỗi kết nối có một trọng số xác định Quá trình học của neural network có thê đượchình dung như việc điều chỉnh trọng số của các cạnh sao cho lỗi giữa đầu ra dự đoán

và đầu ra thực tế được giảm thiêu Điều này tương tự như việc tối ưu hóa trong lý

thuyết đồ thị, nơi chúng ta tìm kiếm các cau trúc tôi ưu dé giảm thiêu chi phí hoặc

năng lượng.

Tóm lại, sự liên hệ giữa đồ thị và học sâu không chỉ tương đồng nhau về cấu

trúc dit liệu mà còn ở cách chúng ta hiệu và giải quyết các bài toán, từ đó mở rộng

khả năng ứng dụng của các kỹ thuật học sâu trong nhiều lĩnh vực khác nhau

3.1.2.2 Cơ sở tính toán Graph Neural Network

Đề áp dụng lý thuyết đồ thị vào bài toán sử dụng đữ liệu ảnh, chúng ta có thể

mô hình hóa mỗi pixel trong ảnh thành một node trong đồ thị Mỗi node này kết nối

với các node láng giềng thông qua các "cạnh ảo" Điều này cho phép chúng ta áp

dụng các phương pháp và thuật toán từ lý thuyết đồ thị để phân tích và xử lý thông

tin từ bức ảnh một cách hiệu quả và đa dạng.

Graph Neural Networks (GNNs) [17] là một mô hình học sâu mạnh mẽ dành

cho dữ liệu đồ thị Chúng hoạt động dựa trên nguyên tắc rang dit liệu có thé được

biểu diễn như một tập hợp các node và cạnh, tạo thành một đồ thị GNNs sử dụng cầutrúc này dé học cách mã hóa thông tin từ các node và cạnh liền kề, cho phép chúngnam bắt được cấu trúc và đặc tinh phức tạp của dữ liệu đồ thị

22

Trang 30

Mỗi lớp GNN sẽ bao gồm một số bước được thực thi trên từng node trong đồ

thị như sau:

e_ Message Passing: Mỗi node i gửi thông tin đến các node lân cận của nó thông

qua các cạnh Thông tin này thường là các feature vectors cua node đó.

e Aggregation: Các node lân cận của node i sẽ nhận các message và kết hợp

chúng lại bằng một hàm téng hợp

e©_ Update: Sau khi đã tong hợp các thông tin từ các node lân cận, node i sẽ cập

nhật feature của nó dựa trên thông tin tổng hợp nay, thường thông qua một

hàm kích hoạt.

Và như ta đã biết mỗi node sẽ chứa nhiều đặc trưng cho thực thé mà nó đại

diện, các thuộc tính này của node sẽ tạo thành những feature node hay có cách gọi

khác là embedding node Các feature node này sẽ là đầu vào của GNN, tóm gọn lạivới mỗi node i sẽ có feature node x; € R# đi cùng với nhãn y¡ Tương tự như vậy cáccạnh cũng có đặc trưng riêng của chính nó với aj; € R® Khi đã biết cách biểu diễncho cả node và cạnh thì chúng ta sẽ mở rộng số lượng của chúng ra đề hình thành nênmột đồ thị đúng nghĩa

(a) Message Passing

GNN được biết đến với khả năng tìm hiệu thông tin qua cau trúc dit liệu, ở cácnode có đặc trưng giống nhau sẽ liên kết với nhau, từ đó GNN sẽ khai thác đặc điểmnày vả tìm hiểu cách thức cũng như lý do tại sao các node cụ thé lại kết node với nhautrong khi một số node lại không Đề làm điều đó GNN sẽ xem xét các node láng giềng

N; (Neighborhoods) của mỗi node, trong đó N; của mỗi node i được định nghĩa là tập

hợp các node j kết nối với i qua một cạnh:

, GNN có thé học từ node i thông qua các láng giéng của nó thông qua MessagePassing hay nói một cách dễ hiểu đây là quá trình lấy các đặc trưng của N; biến đôi

23

Trang 31

chúng và truyền đến node nguồn thông qua một neural network hoặc thông qua một

phép ánh xạ đơn giản, chăng hạn như:

F(x;) = Wjx; + b (3.8)

(b) Aggregation

Khi đã có những messages đã được biến đôi F (x;), thì những messages này sẽđược chuyền tới node nguồn và tại đây chúng ta phải kết hợp các messages này lạitheo một cách nao đó Có rất nhiều cách dé có thé tong hợp chúng:

hị = ø(K(H(,)) + Tmị) (3.14)

24

Trang 32

Trong đó:

e o là hàm kích hoạt.

e Ha một neural network đơn giản hay là một phép biến đổi affine [18]

e K là một neural network đơn giản dé chiều các vector đã cộng vào một không

gian khác.

Hoặc ta có thể áp dụng công thức nối như sau:

hị = ø(K(HŒ,)) ® mị) (3.15)

, nhìn chung ta có thé hiểu K ở đây giống như một hàm chiếu bất kì có chức năng

biến đối các messages và các embedding node cùng với nhau:

hị = ø(K(H(x¡)),Tị (3.16)

Các đặc trưng ban đầu sẽ được kí hiệu là x;, trong lần lan truyền xuôi đầu tiênthông qua lớp GNN chúng ta sẽ ký hiệu nó là h; va giả sử chúng ta có nhiều lớp GNN

hơn chúng ta sẽ ký hiệu cho các node đặc trưng là hi, ở đó 7 là chỉ số lớp hiện tại Từ

đó ta có thé suy ra h?=x; (đầu vào của GNN)

Khi đã hiểu rõ cách hoạt động của 3 bước Message Passing, Aggregation vàUpdate ta hãy cùng kết hợp cả 3 lại để tạo thành một lớp GNN với một node i bên

trong nó:

hị = ø (W,h,, @(W;h,)) (3.17)

Và tất nhiên kích thước của W,,W, phải phù hợp với các node embedding

tương ứng, nếu h; € R¢ thiW,,W, © R“*#' trong đó đ' là kích thước của embedding

Giả sử các cạnh có đặc trưng đ;; € R# để cập nhật chúng tại một lớp / nào đó,chúng ta sẽ xem xét embedding của 2 node ở 2 đầu cạnh:

aj; =T (hi, hj, aly? (3.18)

25

Trang 33

, trong đó 7 là một neural network đơn giản nhận vào các embedding từ các node i và

7 được kết nôi với nhau và với embedding của cạnh trước đó aij Do la cach ma

chúng ta sẽ làm với đặc trưng của cạnh thông qua quá trình lan truyên xuôi cua lớp

GNN.

Chúng ta đã tìm hiểu cách GNN thực hiện quá trình lan truyền xuôi đưới gócnhìn của riêng mỗi node i va node láng giéng Ñ; của nó Vậy với trường hợp ta đã cómột ma trận kề A và tập tat cả các đặc trưng của node trong N = ||V|| thì cách chúnghoạt động sẽ như thế nào?

Ở lĩnh vực học sâu, trong quá trinh lan truyền xuôi chúng ta sẽ gán trọng sốcho từng phan từ vector đặc trưng x;, thông qua phép tích vô hướng giữa x; € R@ va

ma trận tham số W CG RY? :

Zz, = Wx; € RY (3.19)

Nếu chúng ta muốn làm điều này cho tất cả các mẫu trong tập dữ liệu (đãvector hóa) thì ta chỉ cần nhân ma trận tham số với các đặc trưng dé có được featurenode đã biến đồi:

Z = (WX)T = XW c RM (3.20)

Tiếp đến dé có được tất cả messages đã thông qua quá trình aggregation cho

cả N node trong đồ thị thông qua các kết nối của chúng, chúng ta sẽ nhân toàn bộ matrận kề A với các đặc trưng đã được biến đồi:

Y=AZ=AXW (3.21)

Và như vậy, đây là cách chúng ta có thể thực hiện quá trình truyền xuôi củaGNN bằng cách sử dụng các ma trận thay vì các node đơn lẻ

26

Trang 34

(d) Kết nối các lớp GNN

Ta đã tìm hiểu được chỉ tiết cách hoạt động của một lớp GNN, vậy vấn đề tiếptheo cần giải quyết đó chính là việc tạo nên một mạng lưới bao gồm nhiều lớp GNN

và cách chúng truyền thông tin qua các lớp sẽ diễn ra như thế nào

e Đầu vào của lớp GNN đầu tiên là một feature node X G R**# đầu ra là một

node embedding trung gian H1 G RÄ*#: , trong đó đ; là kích thước nhúng đầutiên được tạo thành từ h}.,,y € R%

e H? là đầu vào của lớp thứ 2, đầu ra tiếp tục là H* © RN*%2 , với đ; là kích

thước nhúng của lớp thứ 2, H? được tạo thành từ h?,_,y € R®.

e Khi đã thông qua vài lớp, tại lớp L đầu ra là Hh G R®*#+ , và H1 vẫn được tạo

thành từ heyy € RY.

Việc lựa chọn {d;,d>,d3, d,} hoàn toàn thuộc về chúng ta và là siêu tham

số của GNN Cứ như vậy các feature node sẽ được truyền đi từ lớp này sang lớp kháccau trúc của chúng van giữ nguyên chỉ thay đồi cách biểu diễn, tương tự cho các edge

feature cách biểu diễn sẽ thay đôi nhưng vẫn giữ nguyên kết nối và hướng

Và để hoàn thành việc xác lập mô hình GNN chúng ta sẽ đi tới việc training

mô hình theo các bước sau:

e Dua hi vào một lớp phân loại để đưa ra dự đoán ÿ

e Tính loss bằng nhãn thực tế y; và dự đoán ÿ ; > J(ÿ i Vi)

vs oWr

e Sử dụng backpropagation dé tính đạo ham , trong đó W; là ma trận tham

số từ lớp L

e Dùng một hàm optimize nào đó dé cập nhật tham số W; cho từng lớp GNN

Với cách tiếp cận này, chúng ta có thé hiểu được cách mà GNN sử dụng các ma

trận để hiệu quả hóa quá trình học và tổng hợp thông tin từ đữ liệu đồ thị Quá trìnhnày cũng mở ra nhiều tiềm năng dé áp dụng và mở rộng GNN trong nhiều ứng dungthực tế

27

Trang 35

3.2 Spectral Graph Convolution

3.2.1 Ly Thuyết Pho Đồ Thị

Trong lĩnh vực thị giác may tính, các mang CNN (Convolutional Neural

Networks) đã đạt rất nhiều thành công bằng việc sử dụng các phép tích chập

(Convolution) trên các bức ảnh dé các mô hình CNN từ đó có thé học được các đặctrưng trong ảnh Tuy nhiên đối với đề tài này như đã đề cập thì dữ liệu đầu vào của

chúng ta không phải là một bức ảnh thông thường mà là một bức ảnh được mô hình

hoá dưới dạng đồ thị Vì thế nên phép tích chập truyền thống trong trường hợp này

sẽ không đáp ứng được yêu câu cho bài toán với các lý do sau:

e Đồ thị là kiểu dit liệu phi Euclide, không tồn tại khái niệm hướng trong đồ thị

e Khác với ảnh có cấu trúc các pixel đồng nhất, có định thì đồ thị không có cau

trúc nhất quán

e CNN dựa vào tính chất cục bộ của các pixel liền kề, trong khi đồ thị không có

tính chất cục bộ

Một trong những cách tiếp cận dé giải quyết các van đề còn tồn đọng của phép

tích chập truyền thống là tích chập đồ thị quang phô (spectral graph convolution)

Spectral Graph Convolutions là phương pháp áp dụng các phép biến đổi tín hiệu lên

đồ thi, chúng sử dụng lý thuyết đồ thị và tín hiệu trên đồ thị Trong đó lý thuyết phổ(spectral theory) tập trung vào các tính chất liên quan đến eigenvalues và

eigenvectors.

Trong bối cảnh ly thuyết đồ thi, lý thuyết phổ [19] tập trung vào việc kiểm tracác tính chất của ma trận kề và ma trận Laplace liên kết với đồ thị Đối với một đồthị thông thường G = {V, E}, với n node ta có thê xác định được ma trận kề A thông

qua sự kết nối giữa các node, chúng ta cũng sẽ biết ma trận D thông qua các liên kết

cục bộ hướng đến node đó và từ đó ta dé dàng suy ra được ma trận Laplace với công

thc L = D—A.

Trong nhiêu trường hợp, một sô node thê hiện sô lượng kết nôi cao hon so với

các node khác Sự chênh lệch này trong bậc của các node có thể ảnh hưởng đến hiệu

28

Trang 36

suất của các thuật toán của chúng ta Dé giải quyết van dé này, chúng ta áp dụng một

kỹ thuật chuẩn hóa dựa trên các bước ngẫu nhiên (random walks) Kỹ thuật nay gan

trọng số cho các cạnh dựa trên bậc của các node, do đó cân băng ảnh hưởng của cácnode có kết nối cao, và đảm bảo rằng các node có bậc thấp hon không bi lu mờ Điều

này được thực hiện băng cách chia mỗi phần tử cho tổng của các bậc của node tương

ung.

L=D-1(D—A)=I—D1A (3.22)

Eigen decomposition [20] là một khái niệm cơ bản cho phép chúng ta phân rã

một ma trận vuông thành một tập hợp các eigenvalues và eigenvectors Bằng cáchbiểu diễn ma trận dưới đạng tích của ba ma trận, qua đó ma trận Laplace có thể biểudiễn như sau:

L = UAU~1 = UAUT (3.23)

trong đó ma trận chứa các eigenvectors của ma trận L, và ma tran A bên trong là

ma trận đường chéo với các eigenvalues làm các phân tử của nó.

(3.24)

Tuy nhiên, chúng ta gặp phải một vấn đề: các eigenvalues của một ma trận có

thê là số phức May mắn thay, điều này không xảy ra đối với ma trận Laplace Đểhiểu ly do tại sao, chúng ta giới thiệu một ma tran mới chỉ xem xét Laplace cua từng

cạnh u,v € E.

—1,néui = jvai € u,v

Lạ„„(,J) = 4-1, néui = u vai = v hoặc ngược lại (3.25)

0, con lại

Su dụng các ma trận này, chung ta có thê đưa ra một định nghĩa mới vê ma

trận Laplace như là tổng của từng ma trận đã đề cập ở phần trước đó

29

Ngày đăng: 08/12/2024, 15:31

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w