Mơ hình CNN

Một phần của tài liệu LA_Nguyễn-Tuấn-Linh (Trang 113 - 114)

5. Bố cục của luận án

3.2.1. Mơ hình CNN

Ban đầu CNN được phát triển để xử lý hình ảnh, CNN thực hiện so sánh hình ảnh theo từng mảnh (cịn gọi là các đặc trưng), trong trường hợp cần xem xét một hình ảnh mới, CNN khơng biết chính xác các đặc trưng nào sẽ khớp nên sẽ thử tất cả các đặc trưng cĩ thể. Khi tính tốn sự khớp của một đặc trưng trên tồn bộ ảnh, CNN sẽ tạo ra các bộ lọc (filter), các bộ lọc được xây dựng nhờ sử dụng cơng thức nhân chập. Cấu trúc của CNN cụ thể như sau:

CNN bao gồm các lớp nhân chập xếp chồng, sử dụng các hàm kích hoạt phi tuyến như ReLU để kích hoạt các trọng số tại các node. Sau khi sử dụng các hàm kích hoạt này sẽ tạo ra các thơng tin trừu tượng hơn cho lớp tiếp theo. Đối với mơ hình mạng truyền ngược (feedforward neural network) cịn gọi là mơ hình kết nối đầy đủ (fully connected layer) hay mạng tồn vẹn (affine layer) thì mỗi nơ-ron đầu vào (input node) sẽ tương ứng với mỗi nơ-ron đầu ra trong lớp tiếp theo. Trong mơ hình CNN, các lớp liên kết với nhau thơng qua cơ chế nhân chập. Lớp tiếp theo hình thành là kết quả nhân chập của lớp trước đĩ, do đĩ các kết nối cục bộ cĩ thể được thực hiện. Cĩ thể thấy trong mơ hình này, các nơ-ron ở lớp sau được tạo ra từ kết quả lọc áp dụng lên một vùng ảnh cục bộ của nơ-ron trước đĩ.

Do các lớp sử dụng các bộ lọc khác nhau nên sẽ cĩ rất nhiều bộ lọc được tạo ra. Đặc biệt, cĩ một số lớp như pooling/subsampling cịn được sử dụng để tạo ra những thơng tin cĩ trọng số cao hơn. CNN sẽ tự động học điều này qua các lớp lọc trong quá trình mạng được huấn luyện. Lớp cuối cùng được dùng để phân lớp và nhận dạng.

Khi sử dụng CNN cần lưu ý đến hai yêu tố là phụ thuộc cục bộ và bất biến. Phụ thuộc cục bộ sẽ cho phép biểu diễn thơng tin theo cấp độ từ thấp đến cao và trừu tượng hơn thơng qua nhân chập từ các bộ lọc. Cịn bất biến thể hiện trong trường hợp khi một đối tượng cần nhận dạng ở các trạng thái và gĩc độ khác nhau thì hiệu suất của thuật tốn sẽ bị ảnh hưởng đáng kể, khi đĩ các lớp Pooling cần được sử dụng sẽ giúp nâng cao hiệu suất của thuật tốn. Điều này cũng giúp lý giải tại sao CNN là mơ hình cĩ độ chính xác cao và được nhiều nghiên cứu sử dụng để giải quyết các bài tốn liên quan đến nhận dạng.

Một phần của tài liệu LA_Nguyễn-Tuấn-Linh (Trang 113 - 114)