Mạng Nơ ron tích chập khu vực nhanh hơn

5. Nội dung nghiên cứu

1.3.4. Mạng Nơ ron tích chập khu vực nhanh hơn

Faster R-CNN [8], [9] không dùng thuật toán tìm kiếm chọn lọc để lấy ra các khu vực, mà nó thêm một mạng CNN mới gọi là RPN để tìm các khu vực.

Hình 1.17: Mô hình ROI pooling

Đầu tiên cả bức ảnh được cho qua mô hình huấn luyện trước để lấy bản đồ đặc trưng. Sau đó bản đồ đặc trưng được dùng cho RPN để lấy được các khu vực. Sau khi lấy được vị trí các khu vực thì thực hiện tương tự Fast R-CNN [7].

Đầu vào của RPN là bản đồ đặc trưng và đầu ra là các khu vực. Ta thấy các khu vực là hình chữ nhật.

21 Hình 1.18: Lấy vị trí

Mà một hình chữ nhật được xác định bằng 2 điểm ở 2 góc, ví dụ A (x_min, y_min) và B (x_max, y_max). Nhận xét:

- Khi RPN dự đoán ta phải ràng buộc x_min < x_max và y_min < y_max. - Hơn nữa các giá trị x, y khi dự đoán có thể ra ngoài khỏi bức ảnh.

Nên Cần một kỹ thuật mới để biểu diễn khu vực. Anchor (mẫu) ra đời.

Ý tưởng là thay vì dựđoán 2 góc ta sẽ dựđoán điểm trung tâm (x_center, y_center) và chiều rộng (width), chiều cao (height) của hình chữ nhật. Như vậy mỗi anchor được xác định bằng 4 tham số (x_center, y_center, width, height).

Vì không sử dụng tìm kiếm chọn lọc nên RPN ban đầu cần xác định các anchor box (hộp mẫu) có thể là khu vực, sau đó qua RPN thì chỉ đầu ra những anchor box chắc chắn chứa vật thể [12].

Hình 1.19: Vị trí cửa sổtrượt (sliding window)

Ảnh bên trái kích thước 400×600 pixel, các tâm của anchor box màu xanh, cách nhau 16 pixel, vậy có khoảng (400×600)/ (16×16) = 938 tâm. Do các vật thể trong ảnh có thể có kích thước và tỉ lệ khác nhau nên với mỗi tâm ta định nghĩa 9 anchors với kích thước 64×64, 128×128, 256×256, mỗi kích thước có 3 tỉ lệ tương ứng: 1:1, 1:2 và 2:1.

22 Giống như hình bên phải với tâm ở giữa 3 kích thước ứng với màu da cam, xanh lam, xanh lục và với mọi kích thước có 3 tỉ lệ.

Vậy sốlượng anchor box giờ là 938×9 = 8442 anchors. Tuy nhiên sau RPN ta chỉ giữ lại khoảng 1000 anchors box để thực hiện như trong Fast R-CNN.

Việc của RPN là lấy ra các khu vực giống như tìm kiếm chọn lọc nhưng không phải là phân loại ảnh.

Mô hình RPN khá đơn giản, bản đồ đặc trưng được cho qua lớp tích chập (Conv layer) 3×3, 512 kernels. Sau đó với mỗi anchor lấy được ở trên, RPN thực hiện 2 bước: - Dự đoán xem anchor đấy là mặt nổi (chứa vật thể) hay nền (không chứa vật thể). - Dự đoán 4 giá trị cho x_center, y_center, width (rộng), height (cao) cho các anchor.

Nhận xét: có rất nhiều anchor bị chồng lên nhau nên non-maxima suppression được dùng để loại bỏ các anchor chồng lên nhau.

Sau cùng dựa vào phần trăm dự đoán nền RPN sẽ lấy N anchor (N có thể 2000, 1000, thậm chí 100 vẫn chạy tốt) để làm khu vực.

Hình 1.20: Các khu vực RPN

1.3.4.1. Giao nhau giữa hai hộp giới hạn (IoU)

IoU (Intersection over Union) được sử dụng trong bài toán nhận dạng đối tượng (object detection), để đánh giá xem hộp giới hạn (bounding box) dự đoán đối tượng khớp với thực địa (ground truth) thật của đối tượng.

23 Hình 1.21: Hệ số IoU

Nhận xét:

 Chỉ số IoU trong khoảng [0,1]

 IoU càng gần 1 thì bounding box dự đoán càng gần ground truth

Hình 1.22: Mô tả hệ số IoU

Ngoài ra thì hệ số IoU cũng được dùng để đánh giá độ khớp của 2 hình chữ nhật.

1.3.4.2. Kết quả của Faster R-CNN

Hình 1.23: Thử thời gian R-CNN [10]

Tại Hình 1.23 ta thấy Faster R-CNN nhanh hơn hẳn các dòng R-CNN trước đó, vì vậy có thể dùng cho nhận dạng vật thể ở thời gian thực.

24 nguyên nhân lớn gây nên sự chậm trễ của mô hình.

1.3.4.3. Các bước thực hiện

- Bước 1: Đầu tiên cả bước ảnh được cho qua mô hình được huấn luyện trước để lấy bản đồ đặc trưng.

- Bước 2: Bản đồ đặc trưng được dùng cho Region proposal network (RPN). - Bước 3: Sau đó lấy cấc vị trí khu vực.

- Bước 4: Thay đổi kích thước đặc trưng về một kích thước cố định. - Bước 5: Lớp kết nối các đặc trưng lại với nhau.

- Bước 6: Chia ra hai lớp kết nối.

CHƯƠNG 2 - TỔNG QUAN VỀ NHẬN DẠNG CÁC ĐỐI

TƯỢNG

Mạng Nơ ron tích chập khu vực nhanh hơn

Bài toán nhận dạng vật thể (Object Detection)

Mạng Nơ ron tích chập khu vực (R-CNN)