Lớp tích chập

Một phần của tài liệu Nghiên cứu và ứng dụng machine vision phát hiện sản phẩm lỗi trong công nghiệp (Trang 55 - 57)

4. Đề nghị cho bảo vệ hay không?

3.2.3Lớp tích chập

Lớp tích chập hoạt động dựa trên một ma trận đầu vào nhân tích chập với một ma trận lọc đặc trưng để tạo ra một ma trận đặc trưng. Ma trận lọc đặc trưng có kích thước nhỏ hơn kích thước ma trận đầu vào, các ma trận lọc này thường có kích thước 3x3, 5x5 hoặc 7x7. Ma trận lọc đặc trưng này quét qua ma trận dữ liệu đầu vào, từ trái sang phải, từ trên xuống dưới, và sử dụng phép nhân element-wise nhân tương ứng từng giá trị của ma trận đầu vào rồi cộng lại.

Việc nhân tích chập này giúp mô hình trích xuất được các đặc trưng của dữ liệu đầu vào (ảnh) như biên, hình dạng và màu sắc của đối tượng trong dữ liệu đầu vào.

Tuy nhiên ảnh màu có tới 3 kênh red, green, blue nên khi biểu diễn ảnh dưới dạng tensor 3 chiều. Nên ta cũng sẽ định nghĩa ma trận lọc là 1 tensor 3 chiều kích thước k*k*3 [2].

Bước trượt là số lượng pixel dịch chuyển trên ma trận đầu vào. Nếu bước trượt là một thì điều đó có nghĩa là chúng ta di chuyển các bộ lọc sang một pixel tại một thời điểm từ trái sang phải và từ trên xuống dưới. Nếu bước trượt là hai, điều đó có nghĩa là chúng ta di chuyển các bộ lọc thành hai pixel.

Hình 3.4 Dữ liệu đầu vào, bộ lọc và kết quả của một lớp chập

Hình 3.5 Hoạt động tích chập của một CNN. I là một mảng đầu vào. K là hạt nhân. I * K là một đầu ra của tích chập

Công thức toán học của lớp tích chập này được thể hiện ở phương trình 3.1

(𝐼 ∗ 𝐾)𝑥𝑦 = ∑ℎ𝑖=1∑𝑤𝑗=1𝐾𝑖𝑗∙ 𝐼𝑥+𝑖−1,𝑦+𝑖−1 (3.1)

Với I là ma trận ảnh đầu vào, K là ma trận lọc có chiều rộng w và chiều cao h. Kích thước của ma trận đặc trưng được tính theo công thức 3.2.

(𝑛 𝑥 𝑚) = (ℎ+2𝑝−𝑘

𝑠 + 1) 𝑥 (𝑤+2𝑝−𝑘

Với n, m là kích thước của ma trận đặc trưng, k là kích thước của ma trận lọc, p là kích thước phần bọc bên ngoài của ma trận đầu vào, s là bước trượt.

Trên thực tế, một lớp tích chập có nhiều ma trận lọc (chúng ta tự quyết định số lượng là bao nhiêu), với mỗi một ma trận lọc thì chúng ta có được một ma trận đặc trưng của bức ảnh đầu vào và với nhiều ma trận lọc thì chúng ta thu được một ma trận 3 chiều nhiều lớp gồm nhiều ma trận đặc trưng.

Hình 3.6 Thực hiện nhiều kết quả trên một đầu vào

Hình 3.7 Hoạt động tích chập cho mỗi bộ lọc

Một phần của tài liệu Nghiên cứu và ứng dụng machine vision phát hiện sản phẩm lỗi trong công nghiệp (Trang 55 - 57)