Mạng Nơ ron tích chập khu vực (R-CNN)

5. Nội dung nghiên cứu

1.3.2. Mạng Nơ ron tích chập khu vực (R-CNN)

Ý tưởng thuật toán R-CNN khá đơn giản:

- Bước 1: Dùng thuật toán tìm kiếm chọn lọc để lấy ra khoảng 2000 khu vực trong ảnh đầu vào mà có khả năng chứa vật thể.

- Bước 2: Với mỗi khung ta xác định xem nó là vật thể nào.

1.3.2.1. Thuật toántìm kiếm chọn lọc

Đầu vào của thuật toán là ảnh màu, đầu ra là khoảng 2000 khu vực mà có khả năng chứa các vật thể.

Đầu ra sau khi thực hiện phân loại hình ảnh.

a) Ảnh đầu vào b) Ảnh đầu ra

Hình 1.12: Hình ảnh trước (a) và sau khi thực hiện thuật toán tìm kiếm chọn lọc (b)

1.3.2.2. Phân loại khu vực được đề xuất

Bài toán trở thành phân loại ảnh cho các khu vực. Do thuật toán tìm kiếm chọn lọc cho tới 2000 khu vực được đề xuất nên có rất nhiều khu vực không chứa vật thể nào. Vậy nên ta cần thêm một lớp nền không chứa vật thể nào. Ví dụ như Hình 1.13 dưới ta có 4 khu vực, ta sẽ phân loại mỗi khung là người, ngựa hay nền [4].

16 Hình 1.13: Các khu vực đặc trưng mạng Nơ ron tích chập

- Bước 1: Sử dụng các mạng huấn luyện sẵn để chuyển tiếp các khu vực được đề xuất, sẽ tốn nhiều thời gian bởi với mỗi ảnh thuật toán tìm kiếm chọn lọc sẽ cho ra hàng ngàn khu vực.

- Bước 2: Sẽ chỉ chuyển tiếp một lần đối với ảnh gốc, thu được đặc trưng tích chập của ảnh đó. Ví dụ với một hình ảnh có kích thước 600×600×3, ta sẽ thu được đặc trưng với kích thước 37×37×512. Kích thước của đặc trưng bị giảm nhỏ khoảng 16 lần.

- Bước 3: Dựa vào kích thước cùng vị trí của các khu vực đối với ảnh gốc, ta sẽ tính toán được vị trí của khu vực trong đặc trưng tích chập.

- Bước 4: Sử dụng giá trị đặc trưng tích chập của khu vực, ta dự đoán được vị trí các đỉnh của các khung cũng như vật thể nằm trong khung đó là gì.

Sau đó các khu vực được đề xuất được thay đổi kích thước lại về cùng kích thước và thực hiện thay đổi việc học, với đặc trưng được trích xuất, sau đó các đặc trưng được cho vào thuật toán SVM (phần mềm hỗ trợ tạo véctơ - support vector machine) để phân loại ảnh.

Bên cạnh đó thì các đặc trưng được trích xuất cũng được dùng để dựđoán 4 giá trị cho mỗi cạnh. Ví dụ như khi khu vực đó chứa người nhưng chỉ có phần thân và nửa mặt, nửa mặt còn lại không có trong khu vực đó thì giá trị cho mỗi cạnh có thể giúp mở rộng khu vực để lấy được toàn bộngười.

1.3.2.3. Vấn đề với R-CNN

Nhìn chung thuật toán hoạt động khá tốt so với các thuật toán trước đó nhờ vào CNN, tuy nhiên nó vẫn có khá nhiều hạn chế:

- Vì với mỗi ảnh ta cần phân loại các lớp cho 2000 khu vực nên thời gian huấn luyện rất lâu.

17 - Không thể áp dụng cho thời gian thực vì mỗi ảnh trong tập dữ liệu kiểm thử mất tới 47s để xử lý.

Mạng Nơ ron tích chập khu vực (R-CNN)

Bài toán nhận dạng vật thể (Object Detection)

Khái niệm về nhận dạng đối tượng