Tăng cường hiệu năng cho bài toán phân loại nút trong đồ thị khuyết thiếu cạnh bằng phương pháp học tích cực

Bài toán dự đoán liên kết

Dự đoán liên kêt là một van đê cơ bản cô gang ước tính kha năng sự tôn tại cua một liên kết giữa hai nút [26] Quá trình nay cải thiện sự hiệu biệt của chúng ta vê môi quan hệ giữa các nút cụ thê và sự tiên hóa của toàn bộ mạng. aa Peter oc games ơ— â aa @ wo’ same Colin —~ cy Sports aa

L predictiNn games Bill sia ts © 027 games

2 gi e ` ® sports comics games aa

@ _——— Alistair x aa arts Kate ve] xen

Hình 1.2: Ví dụ về bài toán dự đoạn liên kết giữa các người dùng trong mạng xã hội.

Nguồn: https://aws.amazon.com/blogs/machine-learning/graph-based-recommendation-system- with-neptune-ml-an-illustration-on-social-network-link-prediction-challenges

Dự đoán liên kết đã được áp dụng rộng rãi trong nhiều lĩnh vực như sinh học [3] và mang xã hội [41, 39] Có một loạt các phương pháp cho việc dự đoán liên kết trong các mạng [7] cung cấp một khảo sát toàn điện bao gồm các thuật toán dự đoán đa dạng các liên kết, với sự tập trung đặc biệt vào việc xem xét các hạn chế tổn tai trong các phương pháp đó [3] trình bày một khảo sát bang cách tóm tắt các phương pháp khác nhau, giới thiệu các ứng dụng điền hình và chỉ ra các thách thức trong tương lai của các thuật toán dự đoán liên kết Dựa trên nền tảng này, [6] cung cấp một góc nhìn hiện đại hơn bằng cách tích hợp các phương pháp gần đây và thực hiện một phân tích so sánh tỉ mỉ của các kỹ thuật dựa trên độ tương tự.

Một số cách thường được sử dụng dé thực hiện bai toán này bao gồm:

* Phương pháp Heuristic: Phương pháp này tập trung chủ yếu vào việc tính toán sự giống nhau giữa hai nút một cách heuristic (ví dụ như bậc của nút, lân cận chung ) để dự đoán xác suất có một liên kết giữa hai nút này Cách này thì sẽ dựa chủ yếu vào các đặc trưng về mặt cấu trúc của nút thay vì đi sâu vào các đặc trưng về nội dung của nút.

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 8

CHƯƠNG I TONG QUAN BÀI TOÁN

* Phương pháp đặc trưng ân (Latent-feature): Ý tưởng của phương pháp này giống với ý tưởng của bài toán Embedding (hoặc là bài toán là Matrix Factorization), tức là sẽ tính toán sự giống nhau giữa các nút nhưng trước đó thì sẽ phân rã ma trận biểu diễn đồ thị về một chiều không gian có số chiều nhỏ hơn dé dễ tính toán hơn Phương pháp này thì sẽ đi sâu hơn vào việc chọn lọc đặc trưng về nội dung của nút để so sánh sự giống nhau, từ đó sẽ dự đoán có kết nối giữa hai node nảy hay không. ằ Phương phỏp dựa trờn nội dung (Content-based): Ca hai phương phỏp phộp heuristic và phương pháp đặc trưng ân đối mặt với vấn đề khởi đầu lạnh (cold- start prob- lem) Điều này có nghĩa rằng khi một nút mới tham gia vào đồ thị, cả hai phương pháp này có thể không dự đoán liên kết của nó một cách chính xác do thiếu thông tin liên kết hoặc chỉ có một vài liên kết hiện có với các nút khác.

Trong trường hợp này, các phương pháp dựa trên nội dung (content-based methods) có thé hữu ích Các phương pháp này sử dụng đặc trưng nội dung rõ ràng liên kết với các nút để dự đoán liên kết, và chúng có ứng dụng rộng rãi trong hệ thống đề xuất (rec- ommender systems) Tuy nhiên, thường thì các phương pháp dựa trên nội dung có hiệu suất kém hơn so với các phương pháp heuristic và đặc trưng an do không sử dụng cấu trúc đồ thị Ví dụ, trong mạng xã hội, hồ sơ của một người dùng, chang hạn như thông tin về độ tuổi và sở thích, có thể được sử dụng làm đặc trưng nội dung (content features) của họ dé dự đoán các liên kết tiềm năng với những người khác Tuy nhiên, thông tin về mối quan hệ bạn bè của họ không được sử dụng vì thông tin đó thuộc về đặc trưng cấu trúc đồ thị và được tính toán từ cấu trúc đồ thị mạng xã hội Việc sử dụng cả hai loại đặc trưng này có thể giúp dự đoán liên kết một cách chính xác hơn trong mạng xã hội Do đó, phương pháp dựa trên nội dung thường được sử dụng cùng với hai loại phương pháp trên để cải thiện hiệu suất dự đoán liên kết.

Do khó khăn trong việc xác định một phương pháp có hiệu suất tốt nhất trong tất cả các mạng phức tạp, phụ thuộc mạnh vào các đặc điểm cấu trúc của mạng, nên tác giả trong [27] đã phân loại các chiến lược dự đoán liên kết khác nhau, bao gồm dựa trên các hàng xóm chung, dựa trên đường dẫn, dựa trên mô hình xác suất và thống kê, dựa trên bộ phân loại và dựa trên nhúng mạng.

1.1.3 Mang no-ron đồ thị

Mang Neuron Đồ Thị (Graph Neural Network - GNN) là một loại mạng nơ-ron được thiết kế để làm việc với dữ liệu có cấu trúc dạng đồ thị GNN đã đạt được sự pho bién rong rai trong nhiều lĩnh vực như xử lý ngôn ngữ tự nhiên, phân loại đồ thị, và dự đoán đồ thị Đặc biệt, GNN thường được sử dụng khi bạn muốn mô hình hóa các mối quan hệ phức tạp giữa các phan tử trong dit liệu dạng đồ thị Các mô hình GNN đã cho thấy hiệu năng, kết quả vượt trội so với các giải thuật nhúng đặc trưng đã được khi áp dụng với bài toán phân loại nút, dự đoán liên kết Điểm mạnh của mạng nơ-ron đồ thị GNN là khả năng kết hợp giữa thuộc tinh cau trúc và thuộc tinh nút Trong GNN, dữ liệu được biểu diễn dưới dạng đồ thị, bao gồm các nút (nodes) và các cạnh (edges) kết nối các nút với nhau Ta ký hiệu đồ thi bằng G = (V, E) với: ô_Ƒ là tập hợp cỏc đỉnh, mỗi đỉnh thể hiện một thực thộ hoặc đối tượng. ¢ EF là tập hợp các cạnh, biểu thị mối quan hệ hoặc kết nối giữa các đỉnh.

Mỗi đỉnh v € V có các đặc trưng (features) tương ứng, thường được biểu diễn dưới dạng vector x,. Ý tưởng trung tâm trong GNN là học cách nhúng (embed) mỗi nút trong đồ thị. Nhung nút (node embeddings) chứa thông tin về cau trúc và mối quan hệ giữa các nút bằng cách tổng hợp thông tin từ các nút lân cận Quá trình tính toán nhúng nút trong GNN có thê chia thành các bước sau:

Ban dau, mỗi nút v được khởi tạo với vector trạng thái ban đầu: h, _ f(x)0 —_ Ở đây, ƒ (x,) là một hàm biểu diễn định dang nút v với x, là vector đặc trưng của nút.

Sau đó, thông tin từ các nút lân cận được truyên qua các cạnh đên nút hiện tại.

Công thức cho quá trình này có thể được ký hiệu như sau: h'*' = AGGREGATE 7 :u € Nv) y u

Trong do: ° h- *! là trạng thái của nút v tại bước thời gian / + 1. ¢ N(v) là tập hợp các nút lân cận của nút v.

* AGGREGATE là hàm tổng hợp thông tin từ các nút lân cận.

Cuối cùng, trạng thái của các nút được cập nhật dựa trên thông tin đã truyền tải: ÿ*' = UPDATE(„', „*') v M y

Ham UPDATE thường là một hàm kết hợp thông tin mới và trạng thái cũ của nút để tạo ra trạng thái mới.

GNN - Mạng nơ-ron đồ thị

(6) mm | Hàm tổng hợp ti ⁄

YY Lựa chọn / Ỳ - được cập nhật

Hình 1.3: Kiến trac GNN Đầu tiên, GNN lựa chon các hàng xóm theo một chiến lược cụ thé Sau đó, một hàm tổng hợp được áp dụng dé trích xuất thông tin xung quanh nút trung tâm Cuối cùng, thông tin đã tổng hợp đi qua một mạng nơ-ron đề thực hiện biến đổi phi tuyến tính Dau ra là biéu diễn cập nhật của nút trung tâm.

Nguồn: https://www.researchgate.net/figure/A-typical-and-basic-architecture-and- processing-procedures-of-GNN-First-GNN-selects_fig2 352526255

Nhung đồ thi (graph embedding), kỹ thuật biến đổi một đồ thi đã cho thành một không gian chiều thấp (lower-dimensional space) trong khi vẫn bảo tồn các đặc điểm cau trúc cơ bản và các đặc điểm vốn có khác, hiện đang thu hút sự chú ý đáng ké trong các lĩnh vực nghiên cứu ([22], [2]) Bằng cách tao ra các nhúng nút, một loạt các nhiệm vụ phân tích đồ thị, như là phân loại nút, phân cụm nút và dự đoán liên kết, có thể được thực hiện một cách hiệu quả, tối ưu hóa cả mặt thời gian và không gian [16]. Các thuật toán nhúng đồ thị bán giám sát (semi-supervised graph embedding algorithms) thường giả định rằng dữ liệu được gán nhãn đào tạo đã được cung cấp, điều này có thể không luôn đúng trong thực tế [23] Với một ngân sách gán nhãn (labeling budget), chiến lược lựa chọn các nút dé gan nhãn cho đào tạo dé tôi đa hóa hiệu suất cuối cùng (eventual performance) là một van dé quan trọng Dé giải quyết vấn đề này, khái niệm Học tập chủ động (Active Learning - AL) đã được giới thiệu như một giải pháp [11] Các chiến lược AL cung cấp một cơ chế hiệu qua dé cải thiện quá trình gán nhãn dữ liệu bằng cách ưu

CHƯƠNG I TONG QUAN BÀI TOÁN tiên xác định và gán nhãn các trường hợp có nhiều thông tin nhất Điều này giúp tối ưu hóa hiệu suất và hiệu quả tong thé của các mô hình học máy Đặc biệt, các nhiệm vụ dựa trên đồ thị, bao gồm nhiều ứng dụng như phân tích mạng xã hội, hệ thống đề xuất và suy luận mang sinh học, đã hưởng lợi lớn từ những phát triển này ([36], [40]).

Trong nhiều lĩnh vực, đữ liệu đã được gán nhãn thường tốn kém về chỉ phí và thời gian Do đó, học chủ động (Active Learning - AL) được đề xuất dé huấn luyện một bộ phân loại có khả năng dự đoán nhãn của các trường hợp mới một cách chính xác trong khi yêu cầu ít nhãn đào tạo nhất có thể Một khung làm việc AL thường bao gồm hai thành phần chính: một hệ thống truy vấn chọn một trường hợp từ dữ liệu dao tao dé yêu cầu nhãn của nó và một "chuyên gia" gan nhãn cho trường hợp được truy van Cac nhà nghiên cứu đã đề xuất nhiều thuật toán đề tối ưu hóa hiệu suất đào tạo trong một lượng gán nhãn cô định Nói chung, các triển khai khác nhau của AL có thé được đề xuất cho các thuật toán phân loại khác nhau Không tồn tại một giải pháp AL "tối ưu" cho tất cả nhiệm vụ phân loại. học một mô hình mô hình học máy tập nhãn đào tạo nhãn u

Hình 1.4: Tổng quát các bước của phương thức hoc chủ động.

Nguồn: hftps:/medium.com/better-ml/introduetion-to-active-learning-23f50725ca§5

Các thuật toán học tập chủ động truyền thống hoạt động bang cách truy vấn từng mau dé gan nhãn một cách tuần tự Tuy nhiên, cách tiếp cận như vậy thường không tối ưu khi áp dụng cho các mô hình học sâu vì thường xuyên tạo lại mô hình nhưng cập nhật rất ít và có nguy cơ quá khớp (overfitting) [5] Do đó, trong học tập chủ động sâu, truy van theo lô (batch-mode setting), trong đó một tập hợp đa dạng các trường hợp được lấy mẫu và truy vấn, thường được sử dụng nhiều hơn Trong những năm gần

CHƯƠNG I TONG QUAN BÀI TOÁN đây, nguyên

Mạng nơ-ron đồ thị SE

Lay mẫu bat định -2¿©22©2++2xczxvzzxrrxsrrzxee 12

Có lẽ chiến lực truy vấn đơn giản nhất và được sử dụng phô biến nhất là lấy mẫu không chắc chắn [4] Trong chiến lực này, một chiến lực học tích cực truy vẫn các trường hợp mà nó ít chắc chắn nhất về cách gắn nhãn Cách tiếp cận này thường đơn giản đối với các mô hình học tập xác suất Ví dụ: khi sử dụng mô hình xác suất để phân loại nhị phân, chiến lược lay mẫu không chắc chan chi cần truy vấn trường hop có xác suất đương là 0,5 gần nhất.

Chiến lược lấy mẫu bắt định tông quát hơn sử dụng entropy làm thước đo độ không chắc chắn: x* =aremax— 5 PÚ|x; 8 ) log P(yilx; ỉ ), (1.1)

Trong đó y; là tat cả các nhãn có thé có Entropy là thước đo về ly thuyết thông tin thé hiện lượng thông tin cần thiết dé “ma hóa” một phân phối Vì vậy, nó thường được coi là thước đo độ không chắc chắn trong học máy Đối với phân loại nhị phân, việc lấy mẫu bất định dựa trên entropy giống hệt với việc chọn mẫu có hậu nghiệm gần nhất với 0,5 Tuy nhiên, cách tiếp cận dựa trên entropy có thé được khái quát hóa dé dang thành các bộ phân loại đa nhãn xác suất và các mô hình xác suất cho các trường hợp có cấu trúc phức tạp hơn.

Chiến lược lay mẫu bat định cũng có thê được sử dụng với các mô hình phi xác suất Một trong những công trình đầu tiên khám phá việc lay mẫu không chắc chắn đã sử dụng bộ phân loại cây quyết định bang cách sửa đổi nó dé có đầu ra xác suất Các cách tiếp cận tương tự đã được áp dụng cho việc học tập tích cực với các bộ phân loại hàng xóm gần nhất, bằng cách cho phép mỗi người hàng xóm bỏ phiếu về nhãn lớp

CHUONG I TONG QUAN BÀI TOÁN của x, với tỷ lệ phiêu bâu này đại diện cho xác suât nhãn sau.

CHƯƠNG 1 TONG QUAN BÀI TOÁN

1.1.4.2 Phuong thức Query-By-Committee

Một khung lựa chọn truy van khác là thuật toán truy vấn theo commitee (Query- By-Committee) (QBC) Cách tiếp cận QBC liên quan đến việc duy trì một commitee C= 6(I), , ỉ (C) của cỏc mụ hỡnh đều được huấn luyện trờn tập L được gan nhón hiện tại, nhưng đại diện cho các giả thuyết cạnh tranh với nhau Sau đó, mỗi thành viên trong commitee được phép bỏ phiếu về việc gan nhãn cho các ứng cử viên truy van. Truy vấn có nhiều thông tin nhất được coi là trường hợp mà họ không đồng tình nhất.

Tiền đề cơ bản đăng sau chiến lực QBC là giảm thiểu không gian phiên bản, là tập hợp các giả thuyết phù hợp với dir liệu huấn luyện được gắn nhãn hiện tại L Nếu chúng ta xem học máy là một cuộc tìm kiếm mô hình “tốt nhất” trong không gian phiên bản thì mục tiêu của chúng ta trong học tích cực là hạn chế kích thước của không gian này càng nhiều càng tốt (dé việc tìm kiếm có thé chính xác hơn) với càng it trường hợp được gán nhãn càng tốt Đây chính xác là những gì QBC thực hiện bằng cách truy vân trong các vùng gây tranh cãi của không gian đâu vào.

1.1.4.3 Phuong thức Estimated Error Reduction

Các chiến lược truy van cô gang giảm thiểu lỗi tong quát hóa một cách trực tiếp cũng đã được xem xét như một chiến lực truy van (Estimated Error Reduction) (EER). Các thuật toán trong phần trước giảm thiểu lỗi một cách gián tiếp bằng cách giảm phương sai mô hình, tuy nhiên, điều này không thể thực hiện được ở dạng đóng cho tất cả các lớp mô hình Thay vào đó, chúng ta có thé ước tính lỗi dự kiến trong tương lai sẽ xảy ra nếu một số phiên bản x mới được gắn nhãn và thêm vào L, sau đó chọn phiên bản giảm thiểu kỳ vọng đó Khung giảm lỗi ước tính có ưu điểm kép là gần tối ưu và không phụ thuộc vào lớp mô hình Tất cả những gì cần thiết là một hàm mất mát thích hợp và một cách ước tính xác suất nhãn sau Ví dụ, các chiến lược trong khuôn khô này đã được sử dụng thành công với nhiều mô hình khác nhau bao gồm Naive Bayes,

Gaussian random fields, logistic regression va SVM.

Ngược lại, việc giảm lỗi ước tính cũng có thể là chiến lực lựa chọn truy vẫn cực ky tốn kém Nó không chi yêu cầu ước tính lỗi dự kiến trong tương lai trên U cho mỗi truy van mà một mô hình mới còn phải được dao tạo lại dan dần cho từng nhãn truy vấn có thé, từ đó lặp lại trên toàn bộ nhóm Điều này dẫn đến sự gia tăng mạnh mẽ trong chỉ phí tính toán Do đó, các ứng dụng của khung giảm lỗi ước tính hầu hết chỉ xem xét các nhiệm vụ phân loại nhị phân đơn giản Hơn nữa, do cách tiếp cận này thường không thực tế nên một số nhà nghiên cứu đã sử dụng đến việc lấy mẫu con

CHƯƠNG I TONG QUAN BÀI TOÁN nhóm U khi chọn truy

CHƯƠNG I TONG QUAN BÀI TOÁN van hoặc chỉ sử dụng các kỹ thuật dao tạo gần đúng.

1.2 Học chủ động cho bài toán phân loại nút trên đồ thị

Phương pháp AL trên đồ thị khác biệt với hầu hết các thuật toán AL theo hai cách: các nút đào tạo nằm trong cấu trúc đồ thị thay vì độc lập và biểu dién của các nút đào tạo được học trong quá trình đào tạo bộ phân loại thay vì được đưa vào như là một đầu vào có định Phan lớn AL trên đồ thị có thé được chia thành bốn loại, bao gồm: EER,

Heuristics, Uncertainty và GraphPart EER (Expected Error Reduction) ({19], [43],

[42]) là một tiêu chí trong hoc tập chủ động chon các trường hợp có kha năng giảm lỗi phân loại dự kiến cao nhất, nhằm tối ưu hóa hiệu suất mô hình một cách hiệu quả. Heuristics ([43], [S]) là các chiến lược theo nguyên tắc thông thường được sử dụng trong học tập chủ động dé hướng dan việc lựa chon các điểm dữ liệu thông tin cho việc đánh nhãn, thường dựa trên các độ đo như sự không chắc chắn, đa dạng hoặc không đồng tình giữa các mô hình Lay mẫu không chắc chắn (Uncertainty sampling) ([38],

[8], [14], [33]) là một phương pháp học tập chủ động chọn các trường hợp dé đánh nhãn dựa trên độ không chắc chắn của xác suất phân loại dự kiến của họ, nhắm vào các trường hợp mà mô hình ít tự tin nhất trong dự đoán của mình Gần đây, GraphPart

[33] đầu tiên chia đồ thị thành các phần không giao nhau và sau đó chọn các nút đại diện trong mỗi phần để truy vấn Cần lưu ý rằng tất cả công việc trước đây đều hoạt động dưới giả định về đồ thị day đủ, điều này không phan ánh hiện thực do tính không day đủ của hầu hết các đồ thị thực tế Trong Bảng 1.1, em tóm tắt các phương pháp học tập chủ động nêu trên cho nhiệm vụ phân loại nút. ơ- Phương phỏp or so hi a

Thử nghiệm — - Đô thi không hoàn chỉnh | Thích ứng

Zhu et al [19] x Khong Không

Gu and Han [42] x Khong Không

Ma and Yifei [38] x Không Không

Cai et al [8] x x Không Có

Wu et al [14] x Khong Co

Ma and Jiaqi [33] x x Không Có

Bang 1.1: Tom tắt về các kỹ thuật học tập chủ động cho việc phân loại nút trên đồ thị. Ở đây, cột "Thích ứng" cho biết rằng học tập chủ động được cập nhật dựa trên các trường hop đã được gan nhãn mới.

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 1§

CHUONG 1 TONG QUAN BÀI TOÁN

1.3 Bài toán phân loại nút trên do thị không hoàn chỉnh

Các phương pháp mới của AL trên đồ thị thường giả định rằng đồ thị gốc là hoàn toàn đầy đủ ([33]) Tuy nhiên, giả định này thường quá đơn giản vì đồ thị gốc không thể được quan sát hoàn toàn trong nhiều ứng dụng thực tế của phân tích đồ thị ([24], [29]) Mặc dù, trong lý thuyết, có thể tận dụng thêm nguồn lực để khám phá toàn bộ cấu trúc đồ thị, việc thu thập cau trúc đồ thị toàn điện thường tỏ ra quá tốn kém, đòi hỏi công sức hoặc hoàn toàn không khả thi trong thực tế [24] Ví dụ, dữ liệu mạng trích xuất từ các nền tảng truyền thông xã hội mang lại hạn chế về quyền riêng tư khi một tỷ lệ lớn 52,6% người dùng Facebook đã thực hiện biện pháp dé che giấu kết nối bạn bè của họ trong quá trình phân tích dân số của Facebook tại New York City vào tháng 6 năm 2011.' Do đó, khi làm việc với dữ liệu đồ thị, người ta nên giả định một trường hợp thực tế hơn là chỉ một phan cấu trúc đồ thị có sẵn trong thực tế ([28], [35], [20]) Điều này đặt ra một thách thức quan trọng: Làm thế nào chúng ta có thể điều chỉnh các phương pháp AL dé hoạt động hiệu quả trên những đồ thị không đầy đủ như vậy?

Dé giải quyết thách thức này, em giới thiệu một khung học tập chủ động mới được điều chỉnh một cách rõ ràng dé xử lý đồ thị không hoàn chỉnh: ALIN (Active Learning for Incomplete Networks) Em đề xuất một khung học tập chủ động mà tích hợp cơ chế điểm số dựa trên cạnh vào khung làm việc Thông thường, các phương pháp AL trên đồ thị đã ưu tiên mục tiêu liên quan đến nút, chăng hạn như tối ưu hóa độ chính xác trong việc phân loại nút, điều này không còn đủ và cần phải chọn các nút một cách chiến lược để đóng góp vào tính đầy đủ của đồ thị Tuy nhiên, việc đơn giản chỉ giới thiệu điểm cạnh có thé anh hưởng đến mục tiêu chính của việc phân loại nút, dẫn đến sự giảm độ chính xác tông thé Dé tạo ra sự cân bằng giữa việc nâng cao độ đầy đủ của đồ thị và bảo toàn độ chính xác trong việc phân loại nút, em giới thiệu một quy trình đào tạo hai pha Trong các kỷ nguyên (epoch) ban đầu, em tập trung vào dự đoán liên kết giữa các nút như một nhiệm vụ phụ Giai đoạn sớm này nhằm thiết lập một sự hợp tác hiệu quả giữa điểm số nút và điểm số cạnh, tạo điều kiện thuận lợi cho việc tạo ra các cạnh có thông tin trong đồ thị không đầy đủ Trong các kỷ nguyên sau, phương pháp của em chuyền một cách mượt mà đến việc ưu tiên nhiệm vụ cốt lõi của phân loại nút, đảm bảo rằng mục tiêu cuối cùng được đạt được với độ chính xác cao Bằng cách kết hợp mục tiêu nâng cao độ đầy đủ của đồ thị và tăng cường độ chính xác trong việc phân loại nút, khung học tập chủ động mà em đề xuất giải quyết những thách thức đặc biệt của các đồ thị không đầy đủ Phương pháp đột phá này không chỉ mở rộng khả năng áp dụng của các kỹ thuật học tập chủ động đối với các tình huống thực tế mả còn mở ra cửa cho việc phân tích dữ liệu

'Em tham khảo [21] cho thống kê này.

CHƯƠNG I TONG QUAN BÀI TOÁN dựa trên đồ thị toàn điện và chính xác hơn.

1.4 Mục tiêu của đô án

Trong đồ án của em, em sẽ trình bày một tập hợp các đóng góp, mỗi đóng góp đề cập đến một khía cạnh riêng biệt của vấn đề học tập chủ động trong ngữ cảnh của các đồ thi không day đủ:

Phuong thức Estimated Error Reduction

Các chiến lược truy van cô gang giảm thiểu lỗi tong quát hóa một cách trực tiếp cũng đã được xem xét như một chiến lực truy van (Estimated Error Reduction) (EER). Các thuật toán trong phần trước giảm thiểu lỗi một cách gián tiếp bằng cách giảm phương sai mô hình, tuy nhiên, điều này không thể thực hiện được ở dạng đóng cho tất cả các lớp mô hình Thay vào đó, chúng ta có thé ước tính lỗi dự kiến trong tương lai sẽ xảy ra nếu một số phiên bản x mới được gắn nhãn và thêm vào L, sau đó chọn phiên bản giảm thiểu kỳ vọng đó Khung giảm lỗi ước tính có ưu điểm kép là gần tối ưu và không phụ thuộc vào lớp mô hình Tất cả những gì cần thiết là một hàm mất mát thích hợp và một cách ước tính xác suất nhãn sau Ví dụ, các chiến lược trong khuôn khô này đã được sử dụng thành công với nhiều mô hình khác nhau bao gồm Naive Bayes,

Gaussian random fields, logistic regression va SVM.

Ngược lại, việc giảm lỗi ước tính cũng có thể là chiến lực lựa chọn truy vẫn cực ky tốn kém Nó không chi yêu cầu ước tính lỗi dự kiến trong tương lai trên U cho mỗi truy van mà một mô hình mới còn phải được dao tạo lại dan dần cho từng nhãn truy vấn có thé, từ đó lặp lại trên toàn bộ nhóm Điều này dẫn đến sự gia tăng mạnh mẽ trong chỉ phí tính toán Do đó, các ứng dụng của khung giảm lỗi ước tính hầu hết chỉ xem xét các nhiệm vụ phân loại nhị phân đơn giản Hơn nữa, do cách tiếp cận này thường không thực tế nên một số nhà nghiên cứu đã sử dụng đến việc lấy mẫu con

CHƯƠNG I TONG QUAN BÀI TOÁN nhóm U khi chọn truy

CHƯƠNG I TONG QUAN BÀI TOÁN van hoặc chỉ sử dụng các kỹ thuật dao tạo gần đúng.

1.2 Học chủ động cho bài toán phân loại nút trên đồ thị

Phương pháp AL trên đồ thị khác biệt với hầu hết các thuật toán AL theo hai cách: các nút đào tạo nằm trong cấu trúc đồ thị thay vì độc lập và biểu dién của các nút đào tạo được học trong quá trình đào tạo bộ phân loại thay vì được đưa vào như là một đầu vào có định Phan lớn AL trên đồ thị có thé được chia thành bốn loại, bao gồm: EER,

Heuristics, Uncertainty và GraphPart EER (Expected Error Reduction) ({19], [43],

[42]) là một tiêu chí trong hoc tập chủ động chon các trường hợp có kha năng giảm lỗi phân loại dự kiến cao nhất, nhằm tối ưu hóa hiệu suất mô hình một cách hiệu quả. Heuristics ([43], [S]) là các chiến lược theo nguyên tắc thông thường được sử dụng trong học tập chủ động dé hướng dan việc lựa chon các điểm dữ liệu thông tin cho việc đánh nhãn, thường dựa trên các độ đo như sự không chắc chắn, đa dạng hoặc không đồng tình giữa các mô hình Lay mẫu không chắc chắn (Uncertainty sampling) ([38],

[8], [14], [33]) là một phương pháp học tập chủ động chọn các trường hợp dé đánh nhãn dựa trên độ không chắc chắn của xác suất phân loại dự kiến của họ, nhắm vào các trường hợp mà mô hình ít tự tin nhất trong dự đoán của mình Gần đây, GraphPart

[33] đầu tiên chia đồ thị thành các phần không giao nhau và sau đó chọn các nút đại diện trong mỗi phần để truy vấn Cần lưu ý rằng tất cả công việc trước đây đều hoạt động dưới giả định về đồ thị day đủ, điều này không phan ánh hiện thực do tính không day đủ của hầu hết các đồ thị thực tế Trong Bảng 1.1, em tóm tắt các phương pháp học tập chủ động nêu trên cho nhiệm vụ phân loại nút. ơ- Phương phỏp or so hi a

Thử nghiệm — - Đô thi không hoàn chỉnh | Thích ứng

Zhu et al [19] x Khong Không

Gu and Han [42] x Khong Không

Ma and Yifei [38] x Không Không

Cai et al [8] x x Không Có

Wu et al [14] x Khong Co

Ma and Jiaqi [33] x x Không Có

Bang 1.1: Tom tắt về các kỹ thuật học tập chủ động cho việc phân loại nút trên đồ thị. Ở đây, cột "Thích ứng" cho biết rằng học tập chủ động được cập nhật dựa trên các trường hop đã được gan nhãn mới.

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 1§

CHUONG 1 TONG QUAN BÀI TOÁN

1.3 Bài toán phân loại nút trên do thị không hoàn chỉnh

Các phương pháp mới của AL trên đồ thị thường giả định rằng đồ thị gốc là hoàn toàn đầy đủ ([33]) Tuy nhiên, giả định này thường quá đơn giản vì đồ thị gốc không thể được quan sát hoàn toàn trong nhiều ứng dụng thực tế của phân tích đồ thị ([24], [29]) Mặc dù, trong lý thuyết, có thể tận dụng thêm nguồn lực để khám phá toàn bộ cấu trúc đồ thị, việc thu thập cau trúc đồ thị toàn điện thường tỏ ra quá tốn kém, đòi hỏi công sức hoặc hoàn toàn không khả thi trong thực tế [24] Ví dụ, dữ liệu mạng trích xuất từ các nền tảng truyền thông xã hội mang lại hạn chế về quyền riêng tư khi một tỷ lệ lớn 52,6% người dùng Facebook đã thực hiện biện pháp dé che giấu kết nối bạn bè của họ trong quá trình phân tích dân số của Facebook tại New York City vào tháng 6 năm 2011.' Do đó, khi làm việc với dữ liệu đồ thị, người ta nên giả định một trường hợp thực tế hơn là chỉ một phan cấu trúc đồ thị có sẵn trong thực tế ([28], [35], [20]) Điều này đặt ra một thách thức quan trọng: Làm thế nào chúng ta có thể điều chỉnh các phương pháp AL dé hoạt động hiệu quả trên những đồ thị không đầy đủ như vậy?

Dé giải quyết thách thức này, em giới thiệu một khung học tập chủ động mới được điều chỉnh một cách rõ ràng dé xử lý đồ thị không hoàn chỉnh: ALIN (Active Learning for Incomplete Networks) Em đề xuất một khung học tập chủ động mà tích hợp cơ chế điểm số dựa trên cạnh vào khung làm việc Thông thường, các phương pháp AL trên đồ thị đã ưu tiên mục tiêu liên quan đến nút, chăng hạn như tối ưu hóa độ chính xác trong việc phân loại nút, điều này không còn đủ và cần phải chọn các nút một cách chiến lược để đóng góp vào tính đầy đủ của đồ thị Tuy nhiên, việc đơn giản chỉ giới thiệu điểm cạnh có thé anh hưởng đến mục tiêu chính của việc phân loại nút, dẫn đến sự giảm độ chính xác tông thé Dé tạo ra sự cân bằng giữa việc nâng cao độ đầy đủ của đồ thị và bảo toàn độ chính xác trong việc phân loại nút, em giới thiệu một quy trình đào tạo hai pha Trong các kỷ nguyên (epoch) ban đầu, em tập trung vào dự đoán liên kết giữa các nút như một nhiệm vụ phụ Giai đoạn sớm này nhằm thiết lập một sự hợp tác hiệu quả giữa điểm số nút và điểm số cạnh, tạo điều kiện thuận lợi cho việc tạo ra các cạnh có thông tin trong đồ thị không đầy đủ Trong các kỷ nguyên sau, phương pháp của em chuyền một cách mượt mà đến việc ưu tiên nhiệm vụ cốt lõi của phân loại nút, đảm bảo rằng mục tiêu cuối cùng được đạt được với độ chính xác cao Bằng cách kết hợp mục tiêu nâng cao độ đầy đủ của đồ thị và tăng cường độ chính xác trong việc phân loại nút, khung học tập chủ động mà em đề xuất giải quyết những thách thức đặc biệt của các đồ thị không đầy đủ Phương pháp đột phá này không chỉ mở rộng khả năng áp dụng của các kỹ thuật học tập chủ động đối với các tình huống thực tế mả còn mở ra cửa cho việc phân tích dữ liệu

'Em tham khảo [21] cho thống kê này.

CHƯƠNG I TONG QUAN BÀI TOÁN dựa trên đồ thị toàn điện và chính xác hơn.

1.4 Mục tiêu của đô án

Trong đồ án của em, em sẽ trình bày một tập hợp các đóng góp, mỗi đóng góp đề cập đến một khía cạnh riêng biệt của vấn đề học tập chủ động trong ngữ cảnh của các đồ thi không day đủ:

+ Em giới thiệu khung học tập chủ động trên các đồ thị không day đủ (ALIN) được thiết kế tỉ mi dé giải quyết những thách thức mà cấu trúc đồ thị không day đủ đặt ra, đồng thời cung cấp một giải pháp mạnh mẽ từ đầu đến cuối (end-to- end solution).

- Em mở rộng phương pháp tính điểm nút thông thường bằng cách giới thiệu điểm cạnh Sáng kiến này được thiết kế đặc biệt để đáp ứng các yêu cầu tối ưu hóa của các đồ thị không đầy đủ, cho phép việc lựa chọn nút truy vấn một cách hiệu quả hơn.

+ Em đề xuất một hàm mat mát chung mới kết hợp một cách mượt mà giữa phân loại nút và dự đoán liên kết Sự kết hợp này đảm bảo rang tương tác giữa hai thành phần quan trọng này được tối ưu hóa Hơn nữa, em giới thiệu một phương pháp dé điều hòa hai hàm mất mát này, từ đó đạt được kết quả xuất sắc trong nhiệm vụ cuôi cùng của phân loại nút.

* Các đóng góp của em được chứng minh thông qua một loạt các thử nghiệm mở rộng được tiến hành trên các bộ dit liệu Các thử nghiệm này không chỉ xác định hiệu suất vượt trội của ALIN so với các phương pháp học tập chủ động truyền thống trên các đồ thị thử nghiệm chuẩn mà còn nhấn mạnh tính 6n định của phương pháp của em trên nhiều bộ đữ liệu và với các nền tảng GNN khác nhau.

Như vậy, trong chương 1 của đồ án, em đã trình bày kiến thức cơ sở liên quan đến bài toán học chủ động cho bai toán phân loại trên đồ thị nói chung và trên đồ thị không hoàn chỉnh Bên cạnh đó, em cũng đưa ra mục tiêu đồ án của mình đó là giới thiệu khung học tập mới tinh chỉnh trên đồ thị khuyết cạnh và đưa ra các kết quả thử nghiệm chứng minh tính hiệu quả.

CHƯƠNG 2 MÔ HÌNH DE XUẤT

Giai đoạn truy 0 —

Kết hợp điểm - 252221 2E212212212210212111212110121 2 e0 22

Trong ngữ cảnh của việc truy van các thành phần của đồ thị, với một số lượng b truy van đã cho, hàm truy van được xây dựng dựa trên tiêu chí cân bằng bao gồm giá trị thông tin của các nút là điểm nút @ TM và giá trị thông tin của các cạnh là điểm cạnh @ ®), Sự Ns kết hợp của @ va @ TM với một tham số được ký hiệu là đ tạo ra điểm tổng hợp ợ 6,

NS ES Điểm Nút Việc sử dung entropy như một chỉ số điểm cho phép chúng ta hiểu rõ hon

CHƯƠNG 2 MÔ HÌNH DE XUẤT về độ tin cậy của dự đoán của mô hình GNN đối với từng nút cụ thể Giá trị entropy cao cho thay sự không chắc chan lớn hơn, gợi ý rằng việc phân loại của một nút không chắc chắn và có thê cần thêm sự khám phá hoặc điều chỉnh trong các lần lặp sau của quá trình Ngược lại, giá trị entropy thấp cho thấy sự tự tin cao hơn trong phân loại của nut, làm cho nó ít có khả năng được chon cho các lần truy van bồ sung Thông qua [8],

(ys của nút ứng cử v; tại lần lặp thứ & được tính như sau:

~(k ở đú M*đ9 = P(Y 0— 1G, v7 ơ 5 x) la xỏc suất của nut v; thuộc lớp c được dự đoỏn bởi

GNN tai lần lặp thứ ; Y, = 1 chỉ ra rằng nút i có nhãn c Hơn nữa, tính hiệu suất của phương pháp tính điểm nút dựa trên entropy của em đóng vai trò quan trọng trong việc tăng tốc quá trình truy vấn tổng thể Với khả năng giảm độ phức tạp tính toán, khung công việc của em tạo điều kiện thuận lợi cho việc khám phá đồ thị nhanh chóng và cải thiện hiệu suất tổng thé của khung học chủ động. Điểm Cạnh Trong tình huống mà đồ thị không hoàn chỉnh, mục tiêu không chi là chọn các nút có entropy cao mà còn là các nút dé cho phép mô hình học trên một đồ thị hoàn chỉnh hơn Một cách trực quan, các nút với sự khác biệt lớn về bậc quan sát và bậc dự đoán được ưu tiên cho việc bao gồm trong quá trình học máy chủ động vì chúng có tiềm năng cải thiện tổng thé biểu diễn đồ thị và hiệu suất phân loại Do đó, es của nút v; tại lần lặp thứ & được tính như sau:

@ 9() =S PE = 116%, E9, x) — DE), (23) ES in i n=1 mie do YN P = 1|G * Xd) la xác suất của nút v; có kết nối với nut v, và

“WY là bậc bế, nút y; Ce ‘Elk );ƑE = | chỉ ra rằng nút ¡ có một kết nối đến nút n in tai lần lặp thứ k Một cách trực quan, @y #)(w,} có thé được hiểu là bậc dư thừa của nút v¡ Bang cách kết hợp @ !° cùng với @ !, khung công việc học chủ động của em đảm bảo ES NS ; ; việc chọn các nut không chi có sự không chăc chăn mà còn đóng góp vào việc cải thiện tính hoàn chỉnh và khả năng phân loại của đồ thị.

(Kk) Ps ? và @ đại diện cho một hướng hứa hẹn trong việc học chủ Œ) ES động dựa trên đồ thị Bằng cách tận dụng sự không chắc chan và hoàn chỉnh của đồ thị, phương pháp của em đạt được sự cân bằng giữa khám phá và khai thác, từ đó đảm bảo việc học máy chủ động hiệu quả và đáng tin cậy trong các tình huống thực tế Khả năng thích ứng đa dạng của phương pháp của em làm cho nó phù hợp cho nhiều ứng

CHƯƠNG 2 MO HÌNH DE XUẤT dụng khác nhau, bao gôm mạng xã hội, hệ thông đê xuât và sinh thái học, giữa các ứng dụng khác.

CHƯƠNG 2 MÔ HÌNH DE XUẤT

Giai đoạn đào tạO 2 1011111311 S ST 1T 1kg hy 24

Trong khung học chủ động của em, em sử dụng hai hàm mất mát trong quá trình đào tạo mô hình GNN Đối với việc phân loại nút, em sử dụng hàm mat mát entropy chéo (cross entropy loss), và đối với việc dự đoán liên kết, em sử dụng hàm mat mat entropy nhị phân với logits (binary cross entropy with logits loss) Ly do dang sau việc sử dung mat mát kết hợp là vì cả @ “ và @ TM đều bị ảnh hưởng bởi dự đoán của mô hình GNN.

Ham mắt mát entropy chéo Thường được gọi là ham mat mát log, là một phương pháp thường được sử dụng trong bai toán phân loại nút trong đồ thị, với mục đích đánh giá sự tương quan giữa dự đoán và nhãn thực tế (ground truth) của các mẫu dữ liệu. Hàm mất mát này thường được sử dụng trong bài toán phân loại nhị phân và phân loại đa lớp.

Công thức toán học của hàm mat mát entropy chéo cho bài toán phân loại đa lớp là:

* Aly, yˆ) là ham mat mat entropy chéo.

+ y; là giá trị thực tế (ground truth) của lớp thứ ¡ y; có giá trị bằng 1 nếu nút thực tế thuộc lớp 7, và 0 trong trường hợp ngược lại. ằ y2; là gia tri dự đoỏn của mạng GNN cho lớp thứ ¿ sau khi ỏp dụng hàm softmax

(hoặc một hàm kích hoạt tương tự) để biến đồi các giá trị dự đoán thành xác suât.

Hàm mắt mát entropy chéo đo lường khoảng cách giữa phân phối xác suất dự đoán và phân phối xác suất thực tế (được biểu diễn bởi biến đổi one-hot vector của nhãn thực tế) Nó cố gắng tối ưu hóa dự đoán của mạng GNN sao cho no xp xi gần với phân phối thực tế, và nó thé hiện sự không chắc chắn trong dự đoán thông qua việc đánh phạt các dự đoán sai lệch so với thực tế bang cách tính log của chúng Khi ham mất mát đạt giá trị nhỏ nhất, dự đoán của mô hình sẽ gần với nhãn thực tế Ham mat mát entropy chéo thường được kết hợp với một thuật toán tối ưu hóa như gradient descent dé điều chỉnh trọng số mạng GNN sao cho hàm mất mát giảm xuống và mô hình được đào tạo tốt hơn cho bài toán phân loại nút.

CHUONG 2 MÔ HÌNH DE XUẤT

Ham mat mat entropy nhị phân với logits Thường được gọi là BCE Loss (Binary Cross-Entropy with Logits Loss), là một phương pháp thường được sử dung trong bai

CHƯƠNG 2 MÔ HÌNH DE XUẤT toán dự đoán liên kết Bài toán du đoán liên kết là một bai toán trong đồ thị, trong đó mục tiêu là dự đoán xem có liên kết (hay cạnh) giữa hai nút trong đồ thị hay không. Hàm mất mát này được sử dung dé đo lường khoảng cách giữa dự đoán và nhãn thực tê cho bài toán này.

Công thức toán học của hàm mat mát BCE với logits cho bài toán dự đoán liên kết là: N

* Hy, yˆ) là hàm mat mát entropy nhị phân với logits.

* N là số cạnh hoặc liên kết trong đồ thị.

* y; là nhãn thực tế cho cạnh thứ i, có giá trị băng 1 nếu cạnh thực tế tồn tại và 0 nếu không tồn tại.

+ yˆ, là giá trị dự đoán cho cạnh thứ i trước khi áp dụng hàm sigmoid dé biến đổi giá trị dự đoán thành một giá trị nằm trong khoảng [0, 1] yˆ; thường được gọi là

Hàm mat mat BCE với logits do lường khoảng cách giữa xác suất dự đoán va xác suất thực tế cho bai toán dự đoán liên kết Nó sử dụng hai thành phan chính:

* o (y?) biéu thị xác suất dự đoán răng cạnh thứ ¡ tồn tai, trong khi (1 — 0 (y°)) biểu thị xác suất dự đoán rằng cạnh không tôn tại.

* Khi y; = 1 (cạnh thực tế tồn tai), ham mat mỏt ước tớnh khoảng cỏch bằng —log(ỉ

(y*,)), và khi y; = 0 (cạnh không tồn tai), nó ước tính khoảng cách bằng —log(1 — o (yˆ)) Khi dự đoán gần với nhãn thực tế, hàm mắt mát là nhỏ; ngược lại, khi dự đoán xa khỏi nhãn thực tế, ham mat mát tăng lên.

Bằng cách đào tạo đồng thời cả mô hình phân loại nút và mô hình phân loại cạnh, em đảm bảo rằng điểm tổng hợp bắt kịp thông tin có giá trị về cả thông tin thuộc tính của nút và thông tin cấu trúc xung quanh mỗi nút Việc đào tạo đồng thời mô hình phân loại cạnh được thúc đây bởi mục tiêu là truy vấn các nút có giá trị thông tin cao cho cả hai khía cạnh, từ đó cải thiện biéu diễn tổng thể của đồ thị Trong quá trình tái đào tạo mô hình, em cập nhật mô hình GNN dựa trên thông tin mới được thu thập từ các nút được

CHƯƠNG 2_ MÔ HÌNH ĐỀ XUẤT truy van Sự cải tiến lặp lại của mụ hỡnh GNN này giỳp tinh chỉnh cỏc tham số ỉ ẫ) với mỗi lân truy van, dân đên một mô hình ngày càng chính xác và có nhiêu thông tin hơn.

CHƯƠNG 2 MÔ HÌNH ĐỀ XUẤT

Kết chương 2 2 22 E1 E2E211217111711121121121121111211211 11111 xe 27

Trong chương 2 của đồ án, em đã trình bày về hướng giải quyết bài toán và đề xuất khung học tập mới Khung hoc tập của em được tinh chỉnh ở cả hai giai đoạn truy vấn là giới thiệu điểm cho cạnh và giai đoạn dao tạo là kết hợp thêm hàm mất mát cho cạnh Điều này giúp tăng cường hiệu năng trên đồ thị khuyết cạnh.

Trong chương 3 của đồ án, em sẽ trình bày quá trình thiết lập thực nghiệm, mô tả phương pháp thực nghiệm và cách đánh giá mô hình phân loại nút trên đồ thị không đầy đủ Em cũng trình bày các kết quả của quá trình thực nghiệm, bao gồm:

* Kết Quả Thử Nghiệm trên GCN

* Khả năng tổng quát cho các mô hình GNN khác

* Độ Nhạy Cảm Của Siêu Tham Số a

Thiết lập thựcnghiệm

CácmôhìnhhGNN ẶẶẶ 29

Em thực hiện các thử nghiệm trên ba mô hình GNN phô biến, bao gồm GCN 3 lớp

[37] với số nơ-ron ân là 128 và 64, GraphSAGE 3 lớp [25] với số nơ-ron an là 128 và

64, và GAT 8 dau chú ý (attention head) [25] với 2 lớp ẩn kích thước 16 và 8 Dé đào tạo mỗi mô hình, em sử dụng bộ tối ưu hóa Adam với tỷ lệ học ban đầu là 1 x 10? và sự suy giảm trọng lượng (weight decay) là 5 x 1071 Như trong thiết lập học chủ động, không có đủ mẫu có nhãn để sử dụng làm tập kiểm định, nên em đảo tạo mô

CHUONG 3 THỰC NGHIỆM hình GNN với 200 epoch cô định trong tat cả các thử nghiệm và đánh giá trên toàn bộ đồ thị.

GCN sử dụng mạng no-ron dé học các biểu dién biểu đồ ân của các nút trong đồ thị Điều này cho phép nó học các đặc trưng phức tạp và biểu dién tốt cho mỗi nút. GCN sử dụng phép tích chập trên đồ thị để tổng hợp thông tin từ các nút láng giềng của một nút cụ thé Điều này giúp GCN hiểu cách thông tin lây lan và tương tác trong đồ thị Một lớp an của GCN có thê được biểu diễn như sau:

5H biểu diễn đầu ra của lớp thứ i, mỗi lớp 7# tương ững với một ma trân có kích thước N x F’ Với F’ là số thuộc tính đầu ra của từng nút tại lớp 77. ¢ H® = X được khởi tạo như là thuôc tính nút của từng nút. °Ò X € R*`*? là ma trận thuộc tính ứng với các nút của đô thị, Với N là tông sô nút và D là sô chiêu của thuộc tính nút.

* Alama trận kề, thé hiện kết nối giữa các nút trong đồ thị.

Hàm ƒ có thé được biểu diễn đơn giản bằng 1 công thức sau:

+ W' là ma trận trọng số ứng với lớp thứ i.

* oO là 1 hàm kích hoạt phi tuyến tính, VD: Sigmoid, ReLU,

Nhưng với công thức trên, có 2 điểm hạn chế như sau:

* V6i việc nhân ma trận kề A, ta có thể tổng hợp hàng xóm của nút v; nhưng chưa bao gồm nút v; Do đó, ta có thể cộng thêm ma trận đường chéo chính vào ma trận 4, tức lad = At]

* Với những nút có bậc lớn (nghĩa là nút có nhiều kết nối với các nút khác) thì chúng gây ảnh hưởng lớn hơn trong quá trình lan truyền ngược trong đào tạo mô hình Bên cạnh đó, các khoảng giá trị của ma trận kề 4 chưa được chuẩn hóa (normalize), vì thế có thé dẫn đến việc bùng nô hoặc tiêu biến độ đốc trong quá trình lan truyền ngược Do đó, ta có thể chuẩn hóa A bằng cách lay trung bình thuộc tính của các nút hàng xóm, nghĩa là D"!⁄4 với D là ma trận bậc của nút.

Hoặc ta có thé sử kĩ thuật Symmetric Normalization: 2~14 thành D~!24D~!2

Từ đó, công thức ban đầu được biến đổi thành:

Hình 3.1: Sơ đồ mô tả Mạng tích chập đồ thị nhiều lớp (GCN) cho việc học bán giám sát với C nhãn đầu vào và F thuộc tính ở lớp đầu ra Cấu trúc đồ thị (cạnh là đường màu đen) được chia sẻ trên các lớp, nhãn được ký hiệu là Y;.

Nguồn: https://arxiv.org/pdf/1609.02907.pdf Tuy nhiên GCN vẫn còn một số hạn chế nhất định:

* Yêu cầu bộ nhớ: Trọng số của mô hình vẫn được cập nhật qua từng kỉ nguyên, nhưng với mỗi kỉ nguyên, việc cập nhật trọng số được thực hiện bằng phương pháp full-batch gradient descent, tức là chúng ta cập nhật trên toàn bộ dt liệu cùng một lúc Điều nay cũng dé hiểu bởi vì công thức cập nhật đòi hỏi mô hình phải duy trì toàn bộ trọng số và ma trận kề A Trong trường hợp tập dit liệu nhỏ như CORA dataset (với 2708 nút và 5429 liên kết/cạnh), việc này không gây ra

CHƯƠNG 3 THỰC NGHIEM van đề nhiều Tuy nhiên, đối với tập dit liệu lớn hơn với hàng triệu nút và ma trận kề có độ mật độ cao, phương pháp này không thích hợp do yêu cầu bộ nhớ rất lớn! ằ Cạnh cú hướng và thuộc tớnh cạnh: Mụ hỡnh GCN hiện tại, như đó cụng bố trong bài báo [37], chưa tích hợp các yếu tố bổ sung như thuộc tính cạnh (ma trận ké A hiện tai chỉ là ma trận nhị phân) và đồ thị có hướng Phương pháp trong bài báo giới hạn việc xử lý đồ thị vô hướng.

* Giới hạn giả định: việc cộng ma trận ké 4 với ma trận đường chéo I dé có thêm thuộc tinh của chính nút đó Cách làm này đang giả định rằng nút v; đóng góp tới chính cho như các hàng xóm Ta có thể nhân thêm tham số có thể học cho ma trận 7 khi công vào ma trận A.

* Cài đặt chuyển đổi: Với những nút mới thêm vào đồ thị (kèm theo các kết nối mới), mô hình GCN có khả năng tổng quan hóa (generalization) rất kém với những nút mới đó và yêu câu cân đảo tạo lại đê cập nhật lại mô hình.

GAT 000200002 2 eee 32

Cho một đồ thị hướng với tập nút V và tập cạnh E Mỗi nút v € V được biểu diễn bang một vectơ đặc trưng đầu vào h; (có thé là các số thực hoặc vecto đặc trưng) GAT sử dụng hàm tính trọng số chú ý để xác định mức độ quan trọng của các nút lân cận đối với mỗi nút Hàm này được tính như sau: a= LeakyReLU(a '[ W: hi | : h,]) (3.4)

Trong đó, e; ; là trong số chú ý của nút 7 đối với nút i a là một vectơ trọng số học được, LeakyReLU là hàm kích hoạt Leaky Rectified Linear Unit W là ma trận trọng số học được dùng để biến đổi vectơ đặc trưng đầu vào.

Sau khi tính toán trọng số chú ý, chúng được chuẩn hóa bằng hàm softmax để đảm bao tông cua trọng sô cho tat cả các nút lân cận của môi nút là 1: exp(e,;j)_ — ij = Sen) eXp(e¿) (3.5)

Trong đó, N(i) là tập hợp các nút lân cận của nút i.

Cuối cùng, dé tính biéu diễn mới cho mỗi nut ¿, ta tính tong có trọng sô của các nút lân cận theo trọng sô chuân hóa: h=ỉ( 3 gu.y.p) (3.6)

—_— „ Tổng theo từng phần tử Thuộc tính của nút

Thuộc tính đã được tống hợp của nút

Hình 3.2: Minh họa về GAT GAT chỉ định các trọng số khác nhau cho các nút lân cận khác nhau và tổng hợp các tính năng của chúng.

Nguồn: https://ieeexplore.ieee.org/document/9607725 Trong đú, ỉ cú thộ là một hàm kớch hoạt như LeakyReLU.

GraphSAGE cải tiến khá nhiều về mặt mô hình so với GCN, cụ thé: GraphSage có khả năng tổng quát hóa tốt hơn với các đữ liệu chưa được nhìn thấy mà vẫn dựa trên ý tưởng sinh các nút nhúng dựa trên các nút lân cận, GraphSage thiết kế các hàm tông hợp (aggrerate) nhằm tổng hop lại thông tin từ các nút lân cận và đề xuất ba hàm aggrerate tương ứng, GraphSage sử dụng cập nhật gradient descent bang bộ mẫu nhỏ khắc phục được hạn chế lớn nhất của GCN là việc cập nhật gradient descent thao toàn bộ mâu yêu câu bộ nhớ.

Tổng quan, mô hình GraphSage được xây dựng cũng dựa trên ý tưởng là tong hợp thông tin từ các nút lân cận Chi tiết giải thuật như sau:

Ta có, h? = x,, và với từng hàm tông hợp thứ #, tại từng nút v € V, ta tong hợp thông tin từ các nút hàng xóm uw, Vu € M(v), thu được 1 vector biểu diễn „(„) Các hàm tông h* hợp biéu diễn có thé sử dụng một số các hàm đơn giản như trung bình, gộp, hay thậm chí các mạng như LSTM Với thông tin Với thông tin thu được tông hợp từ các nút hàng Nữ) xóm Âu , ta tiên hành kêt hợp với thông tin của nút v tại bước trước đó Với vector hh vừa mới tổng hợp, ta đưa qua một lớp kết nối đầy đủ và một hàm kích hoạt phi tuyến

CHUONG 3 THUC NGHIỆM : tính ở cuôi Sau K bước tính toán qua các hàm tông hợp, ta thu được vector thuộc tính zy = k*, Vy © ƑV Chúng ta có thể xếp nhiều hàm tổng hợp liên tiếp nhau với mong muôn

Require: G = (V, E), các thuộc tính nút x,€ X, Vy€ V,Vk€ 1, , K với Klà số hàm tông hợp được áp dụng liên tiếp nhau

4: hin) c (REC ATEN Kl Yu € N(v))

9: Zy LÊP Wy€CƑ nút có các thông tin của các nút xa hơn Tuy nhiên thường chỉ sử dụng một đến hàm tong hợp đã cho kết quả tốt Trọng số mô hình sẽ được cập nhật hay được học vào các hàm tong hợp Do đó, mô hình có khả năng tổng quát hóa. Í | Hàm tổng hợp 1

2 Tổng hợp thông tin các thuộc 3 Dự đoán cạnh và nhãn dựa vào

1 Lấy mẫu các nút hàng xóm mm -= tính từ các hàng xóm thông tin đã tổng hợp

Hình 3.3: Tổng quan về kiến trúc của

GraphSAGE Nguồn: https://snap.stanford.edu/graphsage/

Dữ liệu dang đồ thi không có tinh chất tương đối hay thứ tự về vi trí như các dang dữ liệu như từ hay ảnh nên giả định rằng các hàm tổng hợp phải có tính chất là đối xứng (tức ít bị ảnh hưởng bởi hoán vị của các nút hàng xóm) Dưới đây là ba hàm tổng hợp:

* Hàm trung bình là một hàm không có tham số và đối xứng, đơn giản là việc lay trung bình vector của các nút hàng xóm.

- Hàm tổng hợp LSTM là 1 hàm có tham số LSTM được thiết kế cho các bài toán dạng tuần tự, tức không phải đối xứng Tuy nhiên, trong bài báo gốc có đề cập tới việc sử dụng các hoán vị ngẫu nhiên từ đầu vào là các nút hàng xóm Kết quả thu được cũng khá khả quan so với các hàm tổng hơp khác

+ Hàm tổng hop Pooling là một phương thức tổng hop đữ liệu trong đồ thị, nó thường sử dụng một phép toán gọi là "max-pooling" (phép gộp giá trị lớn nhất) và có tham số Phương pháp này được thiết kế sao cho nó có tính đối xứng và có dạng công thức.

AGGREGATETM = max(ỉ + b), Vụ, € N(v)), (3.8) pool k Uj

Trong đó, "max" là một phép toán tìm giá trị lớn nhất từ các giá trị được so sánh element-wise (tức là từng phan tử tương ứng) trong một tập dir liệu Phương pháp này có thê được dùng đề tổng hợp thông tin từ các nút hàng xóm và tạo ra một giá trị tương tự trong đồ thị đối với mỗi nút.

3.1.3 Các phương pháp cơ sở

Em so sánh các phương pháp học chủ động có thé áp dụng trong thiết lập lặp lại, chia thành hai loại: 1) các phương pháp thông dụng không biết đến cấu trúc đồ thị, gồm Random, Density, Uncertainty và CoreSet; và 2) các phương pháp được điều chỉnh cho dữ liệu có cấu trúc đồ thi, bao gồm Centrality, AGE, FeatProp,

* Random: Chon các nut một cách ngau nhiên mà không có tiêu chi cụ thê.

* Density [8]: Ban đầu áp dụng gom cụm cho biểu diễn ân của các nút Sau đó chọn các nút có điểm mật độ (density score) cao nhất, điểm mật độ gần như nghịch dao tỷ lệ với khoảng cách 7; giữa mỗi nút và trung tâm cụm tương ứng của nó.

* Uncertainty [15]: Chọn các nút có entropy cao nhất trong phân phối lớp dự đoán.

* CoreSet [13]: Sử dụng phân cụm K-Center trên biểu diễn an của các nút Do van đề về kha năng mở rộng của phiên bản tối ưu hóa MIP, em sử dụng một phương pháp xấp xỉ tham lam hiệu quả về thời gian (time-efficient greedy), như mô tả trong công trình gốc.

* Centrality: Chọn các nút có giá trị cao nhất trong các phép đo trung tâm của đồ

CHUONG 3 THỰC NGHIỆM - : thị Đáng chú ý, phương pháp này chỉ xem xét câu trúc đô thị và không xem xét đặc trưng của các nút Bằng chứng thực nghiệm từ [8] cho thay rằng trung tam

Tiêu đề	Tăng cường hiệu năng cho bài toán phân loại nút trong đồ thị khuyết thiếu cạnh bằng phương pháp học tích cực
Tác giả	Không Mạnh Tùng
Người hướng dẫn	TS. Trần Tiến Công
Trường học	Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành	Công nghệ thông tin
Thể loại	Đồ án tốt nghiệp
Năm xuất bản	2023
Thành phố	Hà Nội

Định dạng
Số trang	88
Dung lượng	16,57 MB