Minh họa tích chập

Một phần của tài liệu Điều hướng xe tự hành dùng trí tuệ nhân tạo (Trang 32 - 33)

chập 2.3.1.1. Lớp tích chập (Convolution layer)

Tầng Convolution (Conv) là tầng quan trọng nhất trong cấu trúc của CNN. Conv dựa trên lý thuyết xử lý tín hiệu số, việc lấy tích chập sẽ giúp trích xuất được những thông tin quan trọng từ dữ liệu. Nhờ vào nguyên lý biến đổi thông tin, các nhà khoa học đã áp dụng kĩ thuật này vào xử lý ảnh và video số.

Để dễ hình dung, ta có thể xem tích chập như một cửa sổ trượt (Sliding Window) áp đặt lên một ma trận. Ta có thể theo dõi cơ chế của tích chập qua hình minh họa 2.14. Ma trận bên trái à một bức ảnh trắng đen. Mỗi giá trị của ma trận tương đương với một điểm ảnh (pixel), 0 là màu đen, 1 là màu trắng (nếu là ảnh xám thì giá trị biến thiên từ 0 đến 255)

Sliding window còn có tên gọi là kernel, feature hoặc filter. Ở đây, ta dùng một ma trận với bộ lọc có kích thước 3x3 nhân từng thành phần tương ứng với ma trận ảnh bên trái. Giá trị đầu ra là tổng của các tích này cộng lại. Kết quả của phép tích chập cũng là một ma trận (Convoled Feature) sinh ra từ việc trượt ma trận bộ lọc và thực hiện tích chập cùng một lúc lên toàn bộ ma trận ảnh bên trái.

Khi được áp dụng phép tính Conv vào xử lý ảnh người ta thấy rằng Conv sẽ giúp biến đổi các thông tin đầu vào thành các yếu tố đặc trưng (nó tương ứng như bộ phát hiện – detector các đặc trưng về cạnh, hướng, đốm màu…). Hình 2.15 là minh họa việc áp dụng phép tính Conv trên ảnh trong đó (a) là kết quả biến đổi hình ảnh khi thực hiện phép Conv khác nhau cho ra kết quả khác nhau, (b) là trực quan hóa các kernel dùng để detector các đặc trưng về cạnh, hướng, đốm màu.

Một phần của tài liệu Điều hướng xe tự hành dùng trí tuệ nhân tạo (Trang 32 - 33)

Tải bản đầy đủ (DOC)

(69 trang)
w