Mô hình nhận diện vật thể Faster R-CNN [6]

Một phần của tài liệu Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định (Trang 34 - 35)

8 Tổng kết

2.17 Mô hình nhận diện vật thể Faster R-CNN [6]

Cách thức hoạt động

1. Tiền huấn luyện bởi một mô hình CNN.

2. Fine-tune lại mạng đề xuất (RPN - region proposal network) end-to-end cho công việc đề xuất được tạo bởi mô hình phần loại ảnh tiền huấn luyện. các mẫu positive có IoU > 0,7, các mẫu negative có IoU < 0,3.

• Trượt một cửa sổ nhỏ n×n trên bản đồ conv feature của toàn bộ ảnh.

• Tại trung tâm của mỗi cửa sổ trượt, ta dự đoán đồng thời nhiều khu vực và tỷ lệ khác nhau. Một anchor là kết hợp của (tâm cửa sổ trượt, độ scale và tỷ lệ - ratio). Ví dụ với 3 scales + 3 ratios => k=9 anchors tại mỗi điểm trượt. 3. Huấn luyện một mô hình Fast R-CNN sử dụng các đề xuất được tạo ra bởi RPN

hiện tại.

4. Sau đó sử dụng mạng lưới Fast R-CNN để khởi tạo RPN huấn luyện. Trong khi cố gắng chia sẻ những lớp tích chập, chỉ fine-tune duy nhất các lớp dành riêng cho RPN. Ở bước này, RPN và mạng phát hiện đã chia sẻ các lớp tích chập.

5. Cuối cùng fine-tune các lớp unique của Fast R-CNN.

6. Bước 4-5 có thể lặp lại để huấn luyện RPN và Fast R-CNN nếu cần.

Hàm lỗi

Faster R-CNN được tối ưu cho hàm lỗi đa chức năng, tương tự với Fast R-CNN. Với:

• p∗i Nhãn ground truth (binary) của anchor i có giá trị 0/1.

• ti Dự đoán bốn tọa độ tham số.

• t∗i Tọa độ ground truth.

• Ncls Thuật ngữ chuẩn hóa, được đặt mini-batch size ( 256) trên ảnh.

• Nbox Thuật ngữ chuẩn hóa, được đặt số điểm của anchor ( 2400) trên ảnh.

• λ Một tham số cân bằng, được đặt 10 trên trên ảnh (để cả haiLcls vàLbox có trọng số gần như bằng nhau).

Hàm lỗi đa chức năng kết hợp bởi phân nhãn và bounding box regression:

L =Lcls+Lbox, L({pi},{ti}) = 1 Ncls X i Lcls(pi, p∗i) + λ Nbox X i p∗i ·Lsmooth1 (ti−t∗i) (2.13) Với Lcls là hàm lỗi log trên hai lớp, ta có thể dễ dàng chuyển phân loại nhiều lớp thành phân loại nhị phân bằng cách dự đoán một mẫu là đối tượng đích hay không.

Lcls(pi, p∗i) = −p∗i logpi−(1−p∗i) log(1−pi) (2.14)

2.3.5 Mô hình Mask R-CNN

Mask R-CNN là phiên bản mở rộng của Faster R-CNN ở phân đoạn hình ảnh ở mức pixel. Điểm mấu chốt là tách rời nhiệm vụ classification và mask prediction ở mức pixel. Dựa vào Faster R-CNN, Mask R-CNN thêm một nhánh thứ 3 để dự đoán mask của đối tượng, song song với các nhánh hiện tại. Mask detection là một mạng fully-connected network áp dụng cho mỗi RoI.

Một phần của tài liệu Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định (Trang 34 - 35)