CHƢƠNG 1 : GIỚI THIỆU TỔNG QUAN VỀ HỌC MÁY VÀ HỌC SÂU
2.4. Mạng Neural tích chập
Mạng Neural tích chập (CNN - Convolutional Neural Network) là một trong những mơ hình Deep Learning phổ biến nhất hiện nay. CNN đem lại hiệu quả cao với các bài tốn “phân loại hình ảnh” (Krizhevsky , 2012), “ phân loại văn bản” (Kim , 2014), “phân tích Protein” (Zacharaki , 2017), “phân tích ảnh y khoa” (Li , 2014) nên mơ hình CNN đƣợc sử dụng khá rộng rãi và phổ biến trong lĩnh vực máy học. Facebook , Google hay Amazon, ... cũng đang phát triển, ứng dụng mơ hình này vào hệ thống xử lý ảnh cho các muc đích nhƣ: thuật tốn tagging tự động , tìm kiếm ảnh hoặc gợi ý sản phẩm cho ngƣời tiêu dùng, ...
2.4.1. Ý tưởng mạng neural tích chập
Ý tƣởng của CNN đƣợc lấy cảm hứng từ khả năng nhận biết thị giác của bộ não ngƣời. CNN đƣợc xây dựng dựa trên ba ý tƣởng chính: “ tính kết nối cục bộ” (Local connectivity hay compositionality), “Tính bất biến” ( Location invairiance) và “Tính bất biến đối với quá trình chuyển đổi cục bộ” ( Invariance to local transition) (LeCun,2015) [4].
Nĩ đã đạt đƣợc nhiều thành tựu quan trọng trong các bài tốn liên quan đến hình ảnh nhƣ nhận dạng hình ảnh (image recognition) và phân lớp hình ảnh(image classification).. Ngồi ra Mạng CNN cịn đƣợc ứng dụng mạnh mẽ trong các bài tốn xử lý ngơn ngữ tự nhiên nhƣ phát hiện thƣ rác (spam detection), phân loại văn bản (topic categorization)…
2.4.2. Cấu trúc cơ bản của mạng Neural tích chập
Cấu trúc cơ bản của CNN gồm: - Lớp tích chập (Convolutional).
- Lớp kích hoạt phi tuyến ReLU (Rectified Linear Unit). - Lớp lấy mẫu ( Pooling).
45
Hình 2.18: Cấu trúc cơ bản của một mạng Neural tích chập
Bản chất của mạng CNN là tập hợp các lớp tích chập (Convolution) chồng lên nhau và sử dụng các hàm nonlinear activation nhƣ ReLU và tanh để kích hoạt các trọng số trong các node. Mỗi một lớp sau khi thơng qua các hàm kích hoạt sẽ tạo ra các thơng tin trừu tƣợng hơn cho các lớp tiếp theo.
Mỗi một lớp sau khi thơng qua các hàm kích hoạt sẽ tạo ra các thơng tin trừu tƣợng hơn cho các lớp tiếp theo. Trong mơ hình mạng truyền ngƣợc (feedforward neural network) thì mỗi neural đầu vào (input node) cho mỗi neural đầu ra trong các lớp tiếp theo.
Mơ hình này gọi là mạng kết nối đầy đủ (fully connected layer) hay mạng tồn vẹn (affine layer). Cịn trong mơ hình CNNs thì ngƣợc lại. Các layer liên kết đƣợc với nhau thơng qua cơ chế convolution.
Layer tiếp theo là kết quả convolution từ layer trƣớc đĩ, nhờ vậy mà ta cĩ đƣợc các kết nối cục bộ. Nhƣ vậy mỗi neural ở lớp kế tiếp sinh ra từ kết quả của filter áp đặt lên một vùng ảnh cục bộ của neural trƣớc đĩ.
Mỗi một lớp đƣợc sử dụng các filter khác nhau thơng thƣờng cĩ hàng trăm hàng nghìn filter nhƣ vậy và kết hợp kết quả của chúng lại. Ngồi ra cĩ một số layer
46
khác nhƣ pooling/subsampling layer dùng để chắt lọc lại các thơng tin hữu ích hơn (loại bỏ các thơng tin nhiễu).
Trong mơ hình CNN cĩ 2 khía cạnh cần quan tâm là tính bất biến (Location Invariance) và tính kết hợp (Compositionality). Với cùng một đối tƣợng, nếu đối tƣợng này đƣợc chiếu theo các gốc độ khác nhau (translation, rotation, scaling) thì độ chính xác của thuật tốn sẽ bị ảnh hƣởng đáng kể.
Pooling layer sẽ cho bạn tính bất biến đối với phép dịch chuyển (translation), phép quay (rotation) và phép co giãn (scaling). Tính kết hợp cục bộ cho ta các cấp độ biểu diễn thơng tin từ mức độ thấp đến mức độ cao và trừu tƣợng hơn thơng qua convolution từ các filter [4].
Đĩ là lý do tại sao mạng CNN cho ra mơ hình với độ chính xác rất cao. Cũng giống nhƣ cách con ngƣời nhận biết các vật thể trong tự nhiên.
Kết luận chƣơng
Chƣơng 2 của luận văn đã đề cập chi tiết tới một số mơ hình đặc trƣng phổ biến của mạng học sâu. Nội dung đã đi phân tích, trình bày các hoạt động của mơ hình cũng nhƣ ứng dụng của chúng trong thực tế hiện nay. Từ đĩ lựa chọn đƣợc mơ hình cho bài tốn “Dự báo điểm tốt nghiệp của sinh viên Trƣờng Cao Đẳng Cơ Khí Nơng Nghiệp”.
47
CHƢƠNG 3 : ỨNG DỤNG MƠ HÌNH MẠNG HỌC SÂU CHO BÀI TỐN DỰ BÁO ĐIỂM TỐT NGHIỆP CHO SINH VIÊN
TRƢỜNG CAO ĐẲNG CƠ KHÍ NƠNG NGHIỆP