Trong suốt q trình huấn luyện, mạng neural tích chập tự động học được các thơng số cho các bộ lọc. CNN cĩ 02 phần chính: Lớp trích lọc đặc trưng của ảnh (Conv, Relu và Pool) và Lớp phân loại (FC và softmax)
1.4.2. Cấu trúc tổng quát của mạng nơron tích chập
Mạng CNN là một tập hợp các lớp Convolution chồng lên nhau và sử dụng các hàm nonlinear activation như ReLU và tanh để kích hoạt các trọng số trong các node. [5]
Mỗi một lớp được sử dụng các filter khác nhau thơng thường cĩ hàng trăm hàng nghìn filter như vậy và kết hợp kết quả của chúng lại. Ngồi ra cĩ một số layer khác như pooling/subsampling layer dùng để chắt lọc lại các thơng tin hữu ích hơn (loại bỏ các thơng tin nhiễu). Trong quá trình huấn luyện mạng, CNN tự động học các giá trị qua các lớp filter dựa vào cách thức mà bạn thực hiện. Ví dụ trong tác vụ phân lớp ảnh, CNNs sẽ cố gắng tìm ra thơng số tối ưu cho các filter tương ứng theo thứ tự raw pixel > edges > shapes > facial > high-level features. Layer cuối cùng được dùng để phân lớp ảnh.
30
Hình 1.15. Cấu trúc tổng quát của mạng nơron tích chập Cấu trúc tổng quát của mạng nơron tích chập gồm các lớp sau Cấu trúc tổng quát của mạng nơron tích chập gồm các lớp sau
Lớp tích chập
Tích chập (Convolution) là phép tốn thực hiện với hai hàm số, kí hiệu là “*” . Phép tích chập được ứng dụng trong thống kê, thị giác máy tính, xử lý ảnh và xử lý tín hiệu.
Tích chập của hàm số f và g được viết là f *g, là một phép biến đổi tích phân đặc biệt
(f *g t)( ) + f( ) ( g t )d + f t( ) ( )g d
− −
= − = −
Một cách tổng quát, các hàm f g, là hàm số phức trong khơng gian ℝd, tích chập được định nghĩa là
( * )( ) ( ) ( ) ( ) ( )
d d
f g x = f y g x−y dy= f x−y g y dy
¡ ¡
Đối với Tích chập rời rạc, với hàm số phức f g, xác định trên tập số nguyên ℤ, thì tích chập được định nghĩa ( * )( ) ( ) ( ) m n f m g n m dm f g =− = − ( ) ( ) m f n m g m dm =− = −
31
Tích chập trong xử lý ảnh: Tích chập lần đầu tiên được sử dụng trong xử lý tín hiệu số. nhờ vào nguyên lý biến đổi thơng tin, các nhà khoa học đã áp dụng kỹ thuật này vào xử lý ảnh và video.
Để dễ hình dung, ta cĩ thể xem tích chập như một cửa sổ trượt áp lên một ma trận. Cửa sổ trượt cịn được gọi là nhân (kernel).
Hình 1.16 minh họa cách tính tích chập trên ma trận ảnh đen trắng. Ma trận
ảnh đen trắng cĩ mỗi ơ giá trị là một điểm ảnh, 0 là màu đen, 1 là màu trắng. Ta dùng một ma trận nhân 3 x 3, nhân từng thành phần tương ứng với ma trận ảnh. Giá trị đầu ra do tích các thành phần này cộng lại. Kết quả của tích chập là một ma trận sinh ra từ việc trượt ma trận nhân và thực hiện tích chập cùng lúc lên tồn bộ ma trận ảnh gốc.