2.2.4. Lớp kết nối đầy đủ
Lớp kết nối đầy đủ tương tự với lớp trong mạng nơ-ron truyền thẳng, các giá trị ảnh được liên kết đầy đủ vào phần tử trong lớp tiếp theo. Sau khi ảnh được xử lý và rút trích đặc trưng từ các lớp trước đó, dữ liệu ảnh sẽ không còn quá lớn so với mô hình truyền thẳng nên ta có thể sử dụng mô hình truyền thẳng để tiến hành nhận dạng. Tóm lại, lớp kết nối đầy đủ đóng vai trò như một mô hình phân lớp và tiến hành dựa trên dữ liệu đã được xử lý ở các lớp trước đó.
2.2.5. Nguyên lý hoạt động của mạng nơ-ron tích chập
Mạng nơ-ron tích chập là một tập hợp các lớp tích chập chồng lên nhau và sử dụng các hàm nonlinear activation như ReLU và tanh để kích hoạt các trọng số trong các phần tử. Mỗi một lớp sau khi thông qua các hàm kích hoạt sẽ tạo ra các thông tin cho các lớp tiếp theo. Trong mô hình mạng truyền ngược thì mỗi nơ-ron đầu vào cho mỗi nơ-ron đầu ra trong các lớp tiếp theo. Mô hình này gọi là mạng kết nối đầy đủ hay mạng toàn vẹn. Còn trong mô hình CNN thì ngược lại; Các tầng liên kết được với nhau thông qua cơ chế tích chập. Tầng tiếp theo là kết quả tích chập từ tầng trước đó, nhờ vậy mà ta có được các kết nối cục bộ. Như vậy mỗi nơ-ron ở lớp kế tiếp sinh ra từ kết quả của bộ lọc áp đặt lên một vùng ảnh cục bộ của nơ-ron trước đó, hình 2.8.
một số lớp khác như lớp Pooling, lớp subsampling dùng để chắt lọc lại các thông tin hữu ích hơn (loại bỏ các thông tin nhiễu).
Hình 2.8. Nguyên lý hoạt động của mạng nơ-ron tích chập
Trong quá trình huấn luyện mạng CNN tự động học các giá trị qua các bộ lọc dựa vào cách thức mà bạn thực hiện. Ví dụ trong tác vụ phân lớp ảnh, CNN sẽ cố gắng tìm ra thông số tối ưu cho các bộ lọc tương ứng theo thứ tự raw pixel > edges > shapes > facial > high-level features. Lớp cuối cùng được dùng để phân lớp ảnh.
2.3. Mô hình YOLO
Khi con người quan sát một hình ảnh thì ngay lập tức biết được các đối tượng có trong hình ảnh, vị trí của chúng. Trong thị giác máy tính thì điều này không dễ dàng, trước đây việc phát hiện đối tượng bằng cách sử dụng các trình phân loại. Để phát hiện một đối tượng các hệ thống này phân loại cho đối tượng đó và đánh giá nó ở các vị trí khác nhau và dựa vào tỉ lệ trong một hình ảnh thử nghiệm. Các hệ thống sử dụng cách tiếp cận cửa sổ trượt, nơi trình phân loại được chạy ở các vị trí cách đều nhau trên toàn bộ hình ảnh [15]. Cụ thể như R- CNN sử dụng phương pháp đề xuất khu vực để tạo ra các bao biên đối tượng
hộp được đề xuất này. Sau khi phân loại, xử lý điều chỉnh các bao biên đối tượng loại bỏ các phát hiện trùng lặp và định lại các hộp dựa trên các đối tượng khác trong cảnh [16]. Với phương pháp này phức tạp rất chậm và khó tối ưu vì mỗi thành phần phải được huấn luyện riêng lẻ.
“Bạn chỉ nhìn một lần” – YOLO – là một biến thể của CNN cho phép có thể dự đoán sự hiện diện của đối tượng và đối tượng đó ở đâu nhờ vào bài toán hồi quy từ điểm ảnh đến tọa độ và xác suất của các lớp liên quan bằng cách sử dụng mạng nơ-ron, hình 2.9. và đây là cách tiếp cận dùng để phát hiện đối tượng.