Mơ hình của CNN

Một phần của tài liệu (Luận văn thạc sĩ) HỆ THỐNG ĐIỂM DANH HỌC SINH THEO VẾT CHUYỂN ĐỘNG KẾT HỢP NHẬN DẠNG ĐẦU HỌC SINH TRONG VIDEO (Trang 27 - 29)

CNN là một tập hợp các tầng tích chập chồng lên nhau và sử dụng các hàm kích hoạt phi tuyến như ReLU và tanh để kích hoạt các trọng số trong các phần tử. Mỗi một lớp sau khi thông qua các hàm kích hoạt sẽ tạo ra các thông tin trừu tượng hơn cho các lớp tiếp theo. Trong mơ hình mạng truyền thẳng thì mỗi

nơ-ron đầu vào cho mỗi nơ-ron đầu ra trong các lớp tiếp theo. Mơ hình này gọi

là mạng kết nối đầy đủ hay còn gọi là mạng tồn vẹn. Cịn trong mơ hình CNN

thì ngược lại. Các lớp liên kết được với nhau thơng qua cơ chế tích chập. Lớp

tiếp theo là kết quả tích chập từ lớp trước đó, nhờ vậy mà ta có được các kết nối cục bộ. Như vậy mỗi nơ-ron ở lớp kế tiếp sinh ra từ kết quả của bộ lọc áp đặt

lên một vùng ảnh cục bộ của nơ-ron trước đó.

Mỗi một lớp được sử dụng các bộ lọc khác nhau thông thường có hàng trăm hàng nghìn bộ lọc như vậy và kết hợp kết quả của chúng lại. Ngồi ra có một số tầng khác dùng để chắt lọc lại các thơng tin hữu ích hơn (loại bỏ các thơng tin

nhiễu). Trong quá trình huấn luyện CNN tự động học các giá trị qua các lớp lọc dựa vào cách thức thực hiện. Ví dụ trong tác vụ phân lớp ảnh, CNN sẽ cố gắng tìm ra thơng số tối ưu cho các bộ lọc tương ứng theo thứ tự: điểm ảnh ban đầu

 cạnh  hình dáng  vùng mặt  đặc trưng cấp cao. Lớp cuối cùng được

Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014 Hình 2.3 Cấu trúc các lớp của CNN [3] ĐẦU VÀO Ánh xạ đặc trưng (AXĐT) AXĐT AXĐT Tích chập Đ Ầ U RA Giảm kích thước Tích chập Giảm kích thước Kết nối đầy đủ AXĐT

Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014

Trong mơ hình CNN có 2 vấn đề cần quan tâm là tính bất biến và tính kết hợp. Với cùng một đối tượng, nếu đối tượng này được chiếu theo các góc độ khác nhau (biến dạng, bị quay, hay bị biến dạng) thì độ chính xác của thuật toán sẽ bị ảnh hưởng đáng kể. Lớp tổng hợp sẽ cho bạn tính bất biến đối với phép

dịch chuyển, phép quay và phép co giãn. Tính kết hợp cục bộ cho ta các cấp độ biểu diễn thông tin từ mức độ thấp đến mức độ cao và trừu tượng hơn thơng qua tích chập từ các bộ lọc. Đó là lý do tại sao CNN cho ra mơ hình với độ chính xác rất cao. Cũng giống như cách con người nhận biết các vật thể trong tự nhiên [24].

Một phần của tài liệu (Luận văn thạc sĩ) HỆ THỐNG ĐIỂM DANH HỌC SINH THEO VẾT CHUYỂN ĐỘNG KẾT HỢP NHẬN DẠNG ĐẦU HỌC SINH TRONG VIDEO (Trang 27 - 29)