8 Tổng kết
2.5 Minh họa phép tính tích chập chuyển vị Nguồn [8]
Một điểm cần lưu ý, đó là phép tích chập chuyển vị không phải là phép tích chập nghịch đảo (deconvolution). Vì bản chất, chúng giống nhau về cách thức thực hiện và đều khôi phục lại ma trận đặc trưng về không gian kích thước ban đầu, nhưng khác nhau về giá trị. Trong khi phép tích chập chuyển vị chỉ nhằm khôi phục lại kích thước và tính liên kết giữa các đặc trưng trước khi đưa vào lớp tích chập, thì phép tích chập nghịch đảo nhằm khôi phục lại toàn bộ cả không gian kích thước lẫn giá trị của các đặc trưng của dữ liệu ban đầu. Chi tiết về cách thức hoạt động cũng như sự khác nhau giữa các phép tích chập được trình bày chi tiết hơn trong tài liệu [8].
Phép tích chập chuyển vị là xương sống trong các thuật toán phân đoạn ảnh (image segmen- tation) và siêu phân giải (super-resolution), hoặc các kiến trúc mạng có cầu trúc phiên mã - dịch mã (encoder - decoder) vì những thuật toán và kiến trúc như vậy có thể rút trích được thông tin toàn cục trong quá trình phiên mã, đồng thời sử dụng phép tích chập chuyển vị để "tái cấu trúc" lại ảnh với độ phân giải ban đầu trong quá trình dịch mã.
2.1.4 Phép hợp nhất (Pooling)
Phép hợp nhất (pooling) giúp giảm kích thước của đầu ra của các tầng mạng nhằm giảm số lượng tính toán, tham số cho mô hình và dễ kiểm soát được vấn đề quá khớp (overfitting). Thông thường phép pooling được chèn vào giữa các lớp tích chập trong kiến trúc mạng. Hình
thức được áp dụng phổ biến nhất của phép pooling là max pooling với kích thước kernel là2×2
và stride bằng 2 để giảm kích thước của ma trận đại diện (representation matrix) hai lần theo cả chiều rộng (width) và chiều cao (height), đồng thời bỏ qua 75% các hàm kích hoạt.