Lớp Pooling áp dụng lên khối đầu vào

Cách tính kích thước khối đầu ra của lớp Pooling tương tự cách tính của lớp tích chập, tuy nhiên lớp Pooling thường không có tham số giá trị đệm (zero- padding):

( )

(2.3)

Trong đó:

: kích thước chiều rộng (dài) ở đầu ra : kích thước chiều rộng (dài) ở khối đầu vào : kích thước chiều rộng (dài) của bộ lọc : Bước nhảy (stride) theo chiều rộng (dài)

Kích thước chiều sâu khối đầu vào bằng khối đầu ra.

2.2.4. Một số mạng nơ-ron tích chập

Các kiến trúc mạng nơ-ron tích chập được sử dụng rất phổ biến trong các bài toán xử lý ảnh. Điển hình trong đó có thể kể đến một số kiến trúc:

- LeNet [33] : là kiến trúc mạng đánh dấu thành công đầu tiên của mạng nơ-ron tích chập được phát triển bởi Yann LeCun vào năm 1990. Kiến trúc LeNet được sử dụng trong các bài toán đọc mã zip, chữ số, v.v. - AlexNet [31] : là kiến trúc đã làm cho mạng tích chập trở nên phổ biến

trong lĩnh vực Thị giác máy tính, được phát triển bởi Alex Krizhevsky, Ilya Sutskever và Geoff Hinton. AlexNet đã được sử dụng trong cuộc thi phân loại ảnh ImageNet ILSVRC (ImageNet Large Scale Visual Recognition Challenge) [13] vào năm 2012 và cho kết quả vượt trội hơn đáng kể so với kiến trúc mạng đứng thứ hai. Mạng có kiến trúc rất giống với LeNet, nhưng sâu hơn (nhiều lớp hơn), các lớp có kích

thước lớn hơn và có nhiều lớp tích chập được xếp chồng lên nhau (trước đó người ta thường chỉ dùng một lớp tích chập và theo sau đó luôn là một lớp Pooling).

- ZF Net [57] : Là kiến trúc mạng đã chiến thắng trong cuộc thi ILSVRC 2013 của tác giả Matthew Zeiler và Rob Fergus. ZFNet viết tắt của Zeiler & Fergus Net. Nó cải tiến dựa trên AlexNet bằng cách tinh chỉnh các siêu tham số của kiến trúc mạng, cụ thể là bằng cách tăng kích thước của các lớp tích chập trung gian và giảm bước dịch (stride), kích thước bộ lọc trên lớp đầu tiên.

- GoogLeNet [49] Là kiến trúc mạng đã chiến thắng trong cuộc thi ILSVRC 2014 đến từ tác giả Szegedy và cộng sự ở Google. Đóng góp chính của nó là sự phát triển của một thành phần mạng mới - Mô-đun Inception, giúp giảm đáng kể số lượng tham số trong mạng (số lượng tham số giảm xuống còn 4 triệu so với AlexNet là khoảng 60 triệu). Ngoài ra, kiến trúc mạng này sử dụng lớp Pooling với hàm lấy trung bình (Average Pooling) thay vì các lớp kết nối đầy đủ (Fully connected layer) ở các lớp gần đầu ra của mạng, loại bỏ một lượng lớn các tham số được cho là không quá quan trọng. Có rất nhiều các phiên bản khác ra đời theo sau mạng GoogleNet như:Inception-V3, Inception-V4 [48] .

- VGGNet [45]: Tuy chỉ là á quân trong cuộc thi ILSVRC 2014, VGGNet đã có một đóng góp quan trọng, đó là nó đã chỉ ra rằng độ sâu của mạng là một thành phần quan trọng để có hiệu suất tốt. Mạng chỉ sử dụng các bộ lọc có kích thước 3x3 cho lớp tích chập và 2x2 cho lớp Pooling.

- ResNet là viết tắt của Residual Network, được phát triển bởi [21] là mạng nơ-ron tích chập chiến thắng cuộc thi ILSVRC 2015. Nó sử dụng cơ chế được gọi là "bỏ qua kết nối" (skip connection) và một lớp đặc biệt gọi là Batch Normalization [24]. Kiến trúc mạng này cũng không có các lớp kết nối đầy đủ ở cuối mạng.

2.3. Mạng nơ-ron đồ thị

2.3.1. Tổng quan mạng nơ-ron đồ thị

2.3.1.1. Giới thiệu mạng nơ-ron đồ thị

Các mạng nơ-ron đặc biệt là các mạng nơ-ron học sâu (Deep Learning) ra đời đã giúp giải quyết rất nhiều bài toán trong các lĩnh vực từ phân loại, nhận dạng ảnh, xử lý video cho đến nhận dạng âm thanh, đọc hiểu ngôn ngữ tự nhiên.

Những dữ liệu đầu vào của các bài toán này là những dữ liệu có thể biểu diễn được trong không gian Euclide dưới dạng các vec-tơ. Trong thực tế vẫn còn nhiều bài toán mà đầu vào của nó không biểu diễn trong không gian Euclide mà được biểu diễn dưới dạng các đồ thị gồm các đối tượng và mối liên hệ giữa chúng.

Ví dụ như trong lĩnh vực hóa học: người ta mô hình hóa các phân tử dưới dạng các đồ thị để đi xác định các phản ứng hóa học giữa chúng, hay trong lĩnh vực thương mại điện tử, để xác định các tương tác giữa khách hàng và sản phẩm, người cũng mô hình hóa các đối tượng này dưới dạng các đồ thị từ đó khai thác, dự đoán các mối quan hệ và đưa ra các khuyến nghị về sản phẩm với người tiêu dùng.

Để biểu diễn dữ liệu đồ thị thì chỉ các vec-tơ là chưa đủ, vì trong đồ thị ngoài việc phải biểu diễn các đối tượng còn cần biểu diễn được mối liên hệ giữa chúng. Các mạng nơ-ron thông thường hay mạng nơ-ron tích chập không thể áp dụng được lên những đồ thị này mà thay vào đó người ta tạo ra các mạng nơ-ron đồ thị (graph neural network) để làm việc với loại dữ liệu này.

Các đồ thị là cấu trúc trữ liệu gồm các đỉnh được và cách cạnh liên kết các đỉnh này , thường được kí hiệu dưới dạng G = (V, E), trong đó V là tập hợp chứa các đỉnh và E là tập chứa các cạnh. Giả sử là một đỉnh của đồ thị G thì ta có kí hiệu: và nếu tồn tại một cạnh nối hai đỉnh và trong đồ thị thì ta có kí hiệu: ( ) . Sự liên kết giữa các đỉnh của đồ thị được biểu diễn bằng một ma trận được gọi là ma trận kề có dạng , với đồ thị có N đỉnh, , trong đó nếu ( ) và nếu .

Mỗi đỉnh trong đồ thị có thể được biểu diễn bằng các vec-tơ thể hiện các đặc trưng của đỉnh đó. Ta kí hiệu đặc trưng của các đỉnh trong đồ thị bằng ma trận , trong đó N là số đỉnh đồ thị, và d là độ dài vec-tơ đặc trưng của mỗi đỉnh. Mỗi dòng của ma trận sẽ tương ứng với một vec-tơ đặc trưng của một đỉnh trong đồ thị. Trong nhiều trường hợp, các cạnh của đồ thị cũng có những đặc trưng của nó và cũng được biểu diễn bằng một vec-tơ, ta kí hiệu ma trận: , là ma trận đặc trưng cạnh của đồ thị, trong đó M là số cạnh và c là độ dài vec-tơ đặc trưng cho cạnh. Tương tự thì mỗi dòng của ma trận

là một vec-tơ biểu diễn đặc trưng cho cạnh tương ứng với dòng đó.

2.3.1.2. Các loại mạng nơ-ron đồ thị

Các loại mạng nơ-ron đồ thị nhìn chung có thể được chia vào các nhóm sau [52] :

- Mạng nơ-ron đồ thị hồi quy (Recurrent graph neural network): Nhóm mạng này là nhắm đến việc học các biểu diễn của các đỉnh (các nút) trong đồ thị bằng kiến trúc tương tự mạng nơ-ron hồi quy (recurrent neural network). Đây là các mạng tiên phong làm nền tảng cho rất nhiều các loại mạng nơ-ron đồ thị sau này [46] .

- Mạng nơ-ron đồ thị tích chập (Convolutional graph neural network): Nhóm mạng này dựa trên việc định nghĩa một phép tích chập trên dữ liệu đồ thị tương tự như tích chập trên ảnh. Ý tưởng của mạng này xoay quanh việc cập nhật đặc trưng của một đỉnh dựa trên các đỉnh xung quanh có liên kết với nó [52] . Hình 2.10 là ví dụ về một mạng nơ-ron đồ thị tích chập điển hình.

Lớp Pooling áp dụng lên khối đầu vào

Thống kê dữ liệu huấn luyện

Ảnh cực được tiền xử lý