2.3.2. Mạng nơ-ron đồ thị tích chập
Mạng nơ-ron tích chập tính toán đầu ra dựa trên phép tính tích chập trên dữ liệu ảnh còn mạng nơ-ron đồ thị tích chập xây dựng các lớp của nó dựa trên việc định nghĩa một phép tích chập dành cho dữ liệu biểu diễn dưới dạng đồ thị. Tùy vào cách xây dựng biểu thức tích chập trên đồ thị mà mạng nơ-ron đồ thị tích chập được chia làm hai nhóm chính: mạng nơ-ron đồ thị dựa trên miền phổ (spectral-based) và mạng nơ-ron đồ thị dựa trên miền không gian (spatial- based).
2.3.2.1. Mạng nơ-ron đồ thị tích chập trên miền phổ
Các mạng nơ-ron đồ thị được xây dựng trên miền phổ đều dựa trên các lý thuyết về xử lý tín hiệu đồ thị [44] . Các đồ thị trong phương pháp này luôn là đồ thị vô hướng và từ ma trận kề của một đồ thị n đỉnh, người ta định nghĩa một ma trận Laplacian chuẩn hóa được tính theo công thức [52] :
(2.4)
là ma trận Laplacian chuẩn hóa
là ma trận đơn vị có kích thước n × n
là ma trận kề của đồ thị
là ma trận bậc của đồ thị và được định nghĩa như sau: với và ∑ .
Ma trận Laplacian chuẩn hóa này là ma trận nửa xác định dương và do đó nó có thể được phân tích thành tích các ma trận như sau:
(2.5)
Trong đó:
là ma trận tạo bởi các vec-tơ riêng của ma trận L, kí hiệu là:
, - trong đó các vec-tơ riêng , lần lượt tạo thành các cột của ma trận U
là ma trận đường chéo ( với ) và đường chéo của nó chính là các giá trị riêng λ ứng với các vec-tơ riêng trong U: .
Các vec-tơ riêng của ma trận L tạo thành một hệ cơ sở trực chuẩn, tức là
.
Trong xử lý tín hiệu đồ thị, người ta định nghĩa tín hiệu đồ thị là một vec-
tơ là vec-tơ đặc trưng cho tất cả các đỉnh trong đồ thị mà ở đó (thành
phần thứ i) là giá trị tương ứng với đỉnh i. Khi đó, biến đổi Fourier cho tín hiệu đồ thị x được định nghĩa là:
( ) (2.6) Trong đó:
( ) là biến đổi Fourier của x
U là ma trận các vec-tơ riêng theo công thức (2.5)
là tín hiệu đồ thị
và phép biến đổi Fourier ngược được định nghĩa như sau:
( ̂) ̂ (2.7)
Trong đó:
( ̂) là biến đổi Fourier của ̂
U là ma trận các vec-tơ riêng
̂ là biến đổi Fourier của đồ thị theo công thức (2.6)
Phép biến đổi Fourier trên đồ thị này có thể coi như một phép chiếu vec- tơ x từ không gian ban đầu sang không gian có hệ cơ sở được tạo thành từ các vec-tơ riêng của ma trận Laplacian L (các cột trong ma trận U). Các thành phần của vec-tơ sau khi biến đổi Fourier ̂ cũng chính là các tọa độ của vec-tơ x trong không gian mới này, hay có thể viết thành:
∑ ̂ (2.8)
với
là vec-tơ tín hiệu đồ thị ban đầu
̂ là vec-tơ sau khi áp dụng biến đổi Fourier lên là các vec-tơ riêng của ma trận L.
Và đây cũng chính là công thức biến đổi Fourier ngược cho ở công thức (2.7).
Khi đã có định nghĩa về biến đổi Fourier của đồ thị, người ta xây dựng công thức tích chập với bộ lọc như sau:
( ( ) ( )) ( ) (2.9)
Trong đó:
được hiểu như là phép tích chập trên đồ thị G
là vec-tơ tín hiệu đồ thị
( ), ( ) lần lượt là biến đổi Fourier và Fourier ngược
U là ma trận cột của các vec-tơ riêng.
là phép nhân từng phần tử tương ứng của 2 vec-tơ (element-wise product) Nếu ta đặt ( ), tức là ma trận đường chéo tạo ra từ vec- tơ , thì công thức (2.9) trở thành:
(2.10)
Các loại mạng nơ-ron đồ thị đều xây dựng dựa trên công thức (2.10), khác nhau là ở cách chọn của mỗi mạng:
Mạng Spectral CNN (Spectral Convolutional Neural Network) [6] , giả thiết bộ lọc có dạng ( )và ma trận đặc trưng của các đỉnh qua từng lớp mạng đồ thị tích chập được cập nhật theo công thức:
( ) ( ∑ ( ) ( )) (2.11) Với Trong đó: k là số thứ tự của lớp mạng
và lần lượt là số kênh của đặc trưng đỉnh ở lớp thứ k - 1 và k (cũng chính là độ dài vec-tơ đặc trưng của mỗi đỉnh ở lớp thứ k - 1 và k).
( )
là ma trận chéo của các tham số được huấn luyện
là ma trận các vec-tơ riêng là hàm kích hoạt phi tuyến
và (ma trận đặc trưng của đồ thị được giới thiệu ở mục 2.3.1.1). Mạng này có những hạn chế nhất định:
- Thay đổi thứ tự các đỉnh sẽ làm thay đổi ma trận vec-tơ riêng
- Các bộ lọc không thể áp dụng cho đồ thị với cấu trúc kết nối khác đồ thị G đầu vào
- Việc tính toán ma trận vec-tơ riêng yêu cầu độ phức tạp O(n3) nên nếu số đỉnh lớn việc tính toán sẽ đòi hỏi rất nhiều thời gian.
Mạng ChebNet (Chebyshev Spectral CNN) có sự cải thiện về thời gian tính toán so với mạng Spectral CNN. Mạng này sử dụng các đa thức Chebyshev [11] để xây dựng nên bộ lọc :
∑
( ̃) (2.12)
mà ở đó:
: là các tham số được huấn luyện
K là giá trị được chọn trước cho bộ lọc
là đa thức Chebyshev thứ i. Các đa thức Chebyshev được định nghĩa dưới dạng truy hồi như sau:
( ) ( ) ( ) (2.13)
với
( )
( ) (2.14)
̃ (2.15)
Ma trận Laplacian có trị riêng lớn nhất là và các phần tử trong ̃ luôn nằm trong khoảng [-1, 1].
Từ đó phép tích chập theo mạng Chebyshev sẽ trở thành: (∑ ( ̃)) (2.16) Với U là ma trận các vec-tơ riêng x là vec-tơ tín hiệu đồ thị. Ta thấy rằng với: ̃ (2.17)
thì bằng phương pháp quy nạp, có thể chứng minh được:
( ̃) ( ̃) (2.18)
∑
( ̃) (2.19)
Đây là công thức cho đầu vào với đặc trưng đồ thị chỉ có một kênh dữ liệu (vec-tơ ), với đồ thị mà đặc trưng của nó có nhiều kênh, ta có thể thêm các bộ lọc theo từng kênh.
Mạng CayleyNet thay vào đó lại sử dụng các đa thức Cayley [34], công thức tính tích chập của mạng này có dạng:
*∑ ( ) ( )
+ (2.20)
Trong đó:
Re{z} là hàm lấy phần thực của giá trị phức z
: vec-tơ tín hiệu đồ thị
ma trận Laplacian được tính theo công thức (2.4)
là ma trận đơn vị
với j = 0,.. r và h là các tham số được huấn luyện của mạng
r được coi là bậc cao nhất của đa thức Cayley và là một giá trị được chọn trước. Mạng GCN (Graph Convolutional Network) [29] sử dụng xấp xỉ bậc 1 của đa thức Chebyshev, tương tự như ChebNet nhưng sử dụng K = 1 và = 2. Công thức (2.19) sẽ trở trành:
(2.21)
Và để ràng buộc số lượng tham số (tránh xảy ra overfitting), GCN sẽ giả
sử [52] và công thức tích chập giờ đây trở thành:
( ) (2.22)
Với dữ liệu các đỉnh gồm chiều kênh (độ dài vec-tơ đặc trưng lớn hơn 1), công thức cập nhật cho mạng GCN được suy ra từ công thức (2.22) và trở thành:
( ̅ ) (2.23)
trong đó:
̅ (2.24)
f là hàm phi tuyến kích hoạt
là ma trận gồm đặc trưng các đỉnh đầu ra (giả sử số kênh của đặc trưng đầu ra là )
: là ma trận gồm đặc trưng các đỉnh đầu vào (số kênh đầu vào giả
sử là )
: là ma trận các tham số được huấn luyện của mạng cũng chính là tham số của các bộ lọc
2.3.2.2. Mạng nơ-ron đồ thị tích chập trên miền không gian
Phép tích chập trên miền không gian đồ thị có sự tương đồng nhất định với phép tích chập trên ảnh. Mỗi ảnh có thể được coi là một dạng đồ thị mà ở đó mỗi pixel được coi là một đỉnh và mỗi đỉnh này (pixel) được kết nối đến với các đỉnh (pixel) lân cận của nó trên ảnh, như minh họa trong hình 2.13 [52] . Một bộ lọc có kích thước 3 × 3 được áp dụng cho ảnh bằng cách lấy trung bình có trọng số của các giá trị pixel của nút trung tâm (màu đỏ) và các nút lân cận của nó trên mỗi kênh.