Kỹ thuật nhận dạng đối tượng bằng mạng nơ-ron tích chập [6][24][26]

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu và ứng dụng deep learning phát hiện người xâm nhập (Trang 50 - 51)

5. Cấu trúc luận văn

3.1. Kỹ thuật nhận dạng đối tượng bằng mạng nơ-ron tích chập [6][24][26]

Convolutional Neural Network (CNN – Mạng nơ-ron tích chập) là một trong

những mô hình Deep Learning tiên tiến giúp cho chúng ta xây dựng được những hệ thống thông minh với độ chính xác cao hiện nay.

Sự ra đời của mạng nơ-ron tích chập là dựa trên ý tưởng cải tiến cách thức các mạng nơ-ron nhân tạo truyền thống học thông tin trong ảnh. Do sử dụng các liên kết đầy đủ giữa các điểm ảnh vào node, các mạng nơ-ron nhân tạo truyền thẳng (Feedforward

Neural Network) bị hạn chế rất nhiều bởi kích thước của ảnh, ảnh càng lớn thì số lượng liên kết càng tăng nhanh, kéo theo sự bùng nổ khối lượng tính toán. Ngoài ra, sự liên kết đầy đủ này cũng là sự dưthừa với mỗi bức ảnh, các thông tin chủ yếu thể hiện qua sự phụ thuộc giữa các điểm ảnh với những điểm xung quanh nó mà không quan tâm nhiều đến các điểm ảnh ở cách xa nhau. Mạng nơ-ron tích chậpvới kiến trúc thay đổi, có khả

năng xây dựng liên kết chỉ sử dụng một phần cục bộ trong ảnh kết nối đến node trong lớp tiếp theo thay vì toàn bộ ảnh nhưtrong mạng nơ-ron truyền thẳng.

Mạng nơ-ron tích chập là một phương thức rất hay được sử dụng để nhận dạng hình ảnh, phân loại ảnh, nhận diện đối tượng, nhận diệnkhuôn mặt,....Mạng nơ-ron tích

chậpthực hiện phân loại ảnh bằng các bước nhận ảnh đầu vào, xử lý và phân loại nó

dưới dạng các nhãn. Máy tính nhìn nhận dữ liệu đầu vào như một mảng các điểm ảnh (pixel) dựa trên độ phân giải của ảnh. Dựa vào nó máy tính nhìn nhận ảnh dưới dạng h  w  d (h: height, w: width, d: dimension). 1 ảnh 6 6 3 nghĩa là ảnh có kích thước

6  6 và có 3 kênh màu (RGB) còn ảnh 4  4  1 là ảnh có kích thước 4 4 và có một

kênh màu xám (grayscale).

49

663

Hinh 3.1 Mảng ma trận RGB

Để Mạng nơ-ron tích chậpthực hiện huấn luyện (train) và kiểm tra (test), mỗi ảnh đầu vào sẽ thông qua mộtsố lớp tích chập với bộ lọc (kernel), Pooling, lớp kết nối đầy đủ (fully connected layers) và thực hiện hàm softmax để phân loại 1 đối tượng. Hình 3.2

thể hiện đầy đủ quá trình từ nhận dữ liệu cho đến phân loại đối tượng.

Hinh 3.2 Mạng nơ-ron với nhiều lớp chập

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu và ứng dụng deep learning phát hiện người xâm nhập (Trang 50 - 51)