CHƯƠNG 2 Mô hình mạng Neuron tích chập
2.1. Tổng quan về mạng nơ-ron tích chập (CNN)
2.1.3. Kiến trúc mạng nơ-ron tích chập
CNN sử dụng một hệ thống giống như một thuật toán nhiều lớp đã được thiết kế để giảm các yêu cầu xử lý. Các lớp của CNN bao gồm một lớp đầu vào, một lớp đầu ra và một lớp ẩn bao gồm nhiều lớp tích chập, các lớp gộp, các lớp được kết nối đầy đủ và các lớp chuẩn hóa. Việc loại bỏ các hạn chế và tăng hiệu quả xử lý hình ảnh trong một hệ thống hiệu quả hơn, đơn giản hơn nhiều đối với các chuyến đào tạo hạn chế để xử lý hình ảnh và xử lý ngôn ngữ tự nhiên.
Các tế bào thần kinh trong mỗi lớp của CNN được sắp xếp theo cách 3D, chuyển đổi đầu vào 3D thành đầu ra 3D. Ví dụ, đối với đầu vào hình ảnh, lớp đầu tiên (lớp đầu vào) giữ hình ảnh dưới dạng đầu vào 3D, với kích thước là chiều cao, chiều rộng và các kênh màu của hình ảnh. Các tế bào thần kinh trong lớp phức tạp đầu tiên kết nối với các vùng của những hình ảnh này và biến chúng thành đầu ra 3D. Các đơn vị ẩn (tế bào thần kinh) trong mỗi lớp học các kết hợp phi tuyến của các đầu vào ban đầu, được gọi là chiết xuất tính năng. Những tính năng đã học này, cịn được gọi là kích hoạt, từ một lớp trở thành đầu vào cho lớp tiếp theo. Cuối cùng, các tính năng đã học trở thành đầu vào cho bộ phân loại hoặc chức năng hồi quy ở cuối mạng.
Kiến trúc của CNN có thể thay đổi tùy thuộc vào loại và số lớp bao gồm. Các loại và số lớp bao gồm phụ thuộc vào ứng dụng hoặc dữ liệu cụ thể. Ví dụ: nếu bạn có phản hồi phân loại, bạn phải có chức năng phân loại và lớp phân loại, trong khi nếu phản hồi của bạn liên tục, bạn phải có một lớp hồi quy ở cuối mạng. Một mạng nhỏ hơn chỉ với một hoặc hai lớp phức tạp có thể đủ để tìm hiểu một số lượng nhỏ dữ liệu hình ảnh quy mơ màu xám. Mặt khác, để có dữ liệu phức tạp hơn với hàng triệu hình ảnh màu, bạn có thể cần một mạng phức tạp hơn với nhiều lớp phức tạp và được kết nối đầy đủ.
31
Hình 2.1: Sơ đồ khối.
Hình 2.2: Cách thức hoạt động của CNN.
- Convolutional Layer( Lớp tích chập): Trong lớp tích chập sẽ điều chỉnh ảnh đầu vào với các thơng số: kích thước bộ lọc( đó là chiều cao và chiều rộng của các bộ lọc mà chức năng đào tạo sử dụng trong khi qt dọc theo hình ảnh), số lượng bộ lọc( đó là số lượng tế bào thần kinh kết nối với cùng một khu vực của đầu vào)…
- Lớp ReLU: Chức năng kích hoạt phổ biến nhất là đơn vị tuyến tính được sửa chữa (ReLU)
- Max Pooling Layer (Lớp gộp tối đa): Các lớp phức tạp (với các chức năng kích hoạt) đơi khi được theo sau bởi một hoạt động lấy mẫu xuống làm giảm kích thước khơng gian của bản đồ tính năng và loại bỏ thơng tin khơng gian dư thừa. Việc lấy mẫu xuống giúp tăng số lượng bộ lọc trong các lớp phức tạp sâu hơn mà không làm tăng số lượng tính tốn cần thiết cho mỗi lớp. Một cách để lấy mẫu xuống là sử dụng gộp tối đa, mà bạn tạo bằng cách sử dụng maxPooling2dLayer. Lớp gộp tối đa trả về các giá trị tối đa của các vùng đầu vào hình chữ nhật, được chỉ định bởi đối số đầu tiên, .
32 - Fully Connected Layer( Lớp được kết nối đầy đủ): Các lớp tích chập và các mẫu xuống được theo sau bởi một hoặc nhiều lớp được kết nối đầy đủ. Như tên gọi của nó, một lớp được kết nối đầy đủ là một lớp trong đó các tế bào thần kinh kết nối với tất cả các tế bào thần kinh trong lớp trước. Lớp này kết hợp tất cả các tính năng được học bởi các lớp trước đó trên hình ảnh để xác định các mẫu lớn hơn. Lớp kết nối đầy đủ cuối cùng kết hợp các tính năng để phân loại hình ảnh. Do đó, tham số trong lớp kết nối đầy đủ cuối cùng bằng với số lớp trong dữ liệu mục tiêu.