6 Tổng kết
3.3 Mô hình Convolution Neural Network
• Filter: Bộ lọc, có chức năng học các đặc trưng khác nhau của ảnh.
• Stride: Độ dời của cửa số, giá trị trên xác định cửa sổ dời bao nhiêu đơn vị. • Padding: Xác định kích thước dữ liệu đầu ra so với dữ liệu đầu vào.
So với ANN, CNN có nhiều ưu điểm hơn khi áp dụng vào bài toán thị giác máy tính. Đầu tiên là về số trọng số cần phải học. Với mạng ANN thông thường, ta cần duỗi thẳng bức ảnh ra và tất cả các giá trị đầu vào của ảnh đều nối với các nơ-ron, làm cho số trọng số cần phải học rất hơn. Trong khi đó, CNN chỉ gồm một bộ trọng số cố định trượt trên ảnh và học từ các vùng ảnh. Số lượng trọng số sẽ được giảm xuống rất nhiều giúp cho thời gian học cũng như tính toán được rút ngắn đáng kể. Thứ hai, như đã đề cập ở trên, để mạng ANN có thể học được, ta cần duỗi thẳng ảnh ra và nối vào các nơ-ron. Điều này làm mất đi tính chất đặc trưng của ảnh là cục bộ, một điểm ảnh có liên hệ mật thiết với các điểm ảnh xung quanh nó. Mất đi tính chất này sẽ mất đi rất nhiều thông tin quan trọng của ảnh. Ngoài ra, ngày càng có nhiều mô hình sử dụng CNN hoàn toàn mà không cần bất cứ tầng FC nào. Đây là một xu thế phát triển rất mạnh gần đây và cũng đạt được độ chính xác rất cao.
3.3 Residual Neural Network
Vùng ảnh hưởng (Receptive field) là kích thước vùng hình ảnh đầu vào của một giá trị đầu ra. Với một cửa sổ có kích thước 7×7, một điểm giá trị đầu ra được tính từ một vùng ảnh có kích thước 7×7. Với 3 cửa sổ 3×3 xếp chồng lên nhau, vùng ảnh hưởng của giá trị đầu ra cũng có kích thước 7×7. Nhưng mô hình với 3 cửa sổ 3×3 lại có ưu điểm cũng như là phương pháp phù hợp hơn khi sử dụng để giải các bài toán về thị giác máy tính. Đầu tiên, một vùng 7×7 cần số trọng số là 7×7×(số bộ lọc) hay 49×(số bộ lọc). Còn 3 bộ lọc 3×3 xếp chồng lại cần (3×3+3×3+3×3)×(số bộ lọc) nếu cả ba tầng đều cùng sử dụng số bộ lọc tương tự với cửa sổ 7×7. Kết quả là 27×(số bộ lọc). Số trọng số