Cấu trúc của các mô hình R-CNN family

Một phần của tài liệu Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định (Trang 37 - 39)

8 Tổng kết

2.21 Cấu trúc của các mô hình R-CNN family

2.4 Nhận diện vật thể với YOLO

Thị giác máy tính là một lĩnh vực quan trọng của Trí tuệ nhân tạo, trong đó một trong những bài toán cơ bản được sử dụng nhiều nhất là nhận diện vật thể trong ảnh. Các bài toán nhận diện vật thể (object detection) trước đây sử dụng cửa sổ trượt để phát hiện các vật thể. Nó sẽ thực hiện trượt một cửa sổ với kích thước tuỳ ý trên ảnh đầu vào để phát hiện xem có vật thể cần phát hiện trong đó không. Để phát hiện các vật thể với kích thước khác nhau, nó phải sử dụng nhiều cửa sổ có kích thước khác nhau, đồng thời phải quét nhiều lần trên cùng một khu vực. Hoặc cách tiếp cận của R-CNN là sử dụng phương pháp đề xuất khu vực (region proposal). Nó sẽ sinh ra các khung bao phủ (bounding box) có khả năng chứa vật thể, sau đó tiến hành phân loại trên các bounding box đó, rồi điều chỉnh bounding box, loại bỏ các nhận diện bị trùng, đánh giá lại các object,. . . Điều này dẫn đến việc nhận diện vật thể theo thời gian thực trở nên không thực tế, thiếu linh hoạt và phức tạp.

YOLO (You Only Look Once) [13] được Joseph Redmon, Santosh Divvala, Ross Gir- shick, Ali Farhadi (nhóm sinh viên của Đại học Washingtion) giới thiệu vào năm 2016, là một cách tiếp cận mới về nhận diện vật thể. Ý tưởng chung của YOLO là chia ảnh đầu vào thành những ô nhỏ hơn, sau đó thực hiện phân loại trên từng ô đó, cuối cùng gộp các ô đó lại để tạo thành khung bao phủ (bounding box) tương ứng với từng vật thể được nhận diện. Điểm khác biệt của YOLO so với các phương thức trên là nó kết hợp các thành phần của quá trình nhận diện vật thể thành một mạng nơ-ron đơn, nó sử dụng các đặc trưng (feature) trên toàn ảnh để dự đoán cho từng bounding box một cách đồng thời. Nhờ đó mà tốc độ nhận diện là rất nhanh.

YOLO chia ảnh đầu vào thành S ×S ô, nếu tâm của vật thể nằm ở ô nào, ô đó sẽ chịu trách nhiệm nhận diện vật thể đó. Mỗi ô dự đoánB bounding box và điểm tin cậy (confident score, phản ánh khả năng bounding box có chứa vật thể và độ chính xác mà nó nghĩ rằng nó dự đoán cho bounding box đó) ứng với mỗi bounding box. Điểm tin cậy được tính bằng công thức:

P r(Object)∗IOUpredtruth (2.16) Trong đó, IOU (Intersection Over Union) là một chỉ số đánh giá khả năng nhận diện dựa trên bounding box dự đoán và thực tế. Nếu dự đoán không có vật thể nào trong ô, điểm tin cậy bằng không.

Mỗi bounding box dự đoán được có 5 thành phần: x, y, w, h và độ tin cậy. Toạ độ

(x, y) là tâm của box,w, h tương ứng chiều dài, chiều rộng, độ tin cậy đại diện IOU giữa box được dự đoán với box chính xác. Mỗi ô cũng dự đoánC (số lớp) xác suất có điều kiện

P r(Classi|Object). Những xác suất này có điều kiện trên ô chứa vật thể. Các xác suất này được dự đoán cho từng ô thay vì từng bound box, kể cả khi ô có nhiều bounding box thì mỗi ô cũng chỉ có một tập xác suất được dự đoán. Lúc kiểm tra, ta nhân xác xuất lớp có điều kiện với độ tin cậy dự đoán:

sẽ được độ tin cậy theo class tương ứng với mỗi bounding box. Độ tin cậy này biểu diễn xác suất class đó xuất hiện trong bounding box, và mức độ mà bounding box vừa với vật thể.

2.4.1 Kiến trúc mạng

Một phần của tài liệu Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định (Trang 37 - 39)