2.2. Các cơng trình nghiên cứu liên quan 2.2.1 Object detection
2.2.1.1. Faster R-CNN
Hình 2-5: Mốc thời gian cho sự ra đời các phương phát hiện đối tượng (1990 – 2019) [25].
32
(a) R-CNN
R-CNN[4] ra đời với ý tưởng khá đơn giản: Dùng thuật toán Selective Search để lấy ra khoảng 2,000 Bounding-box trong đầu vào mà có khả năng chứa đối tượng. Sau đó, với mỗi Bounding-box ta xác định xem nó là đối tượng nào.
(i) Selective search algorithm
Đầu vào là 1 ảnh màu. Đầu ra là khoảng 2,000 Bounding-box trong đầu vào mà có khả năng chứa đối tượng.
(ii) Phân loại region proposal
Sau khi thực hiện Selective search, các region proposal được resize lại về cùng kích thước và thực hiện transfer learning với feature extractor, sau đó các extracted feature được cho vào thuật tốn SVM để phân loại ảnh.
Hình 2-6: Kiến trúc R-CNN (Ảnh cắt từ bài báo).
(iii) Nhược điểm
Với mỗi ảnh cần phải phân loại class cho khoảng 2,000 region proposal nên mất khá nhiều thời gian.
(b) Fast R-CNN
Tương tự R-CNN thì Fast R-CNN[5] vẫn dùng Selective search để lấy ra các region proposal. Tuy nhiên là nó khơng tách 2,000 region proposal ra khỏi ảnh và thực hiện bài toán image classification cho mỗi ảnh. Fast R-CNN cho cả bức ảnh vào
33
ConvNet (một vài convolutional layer + max pooling layer) để tạo ra convolutional feature map.
Vì kích thước của các region proposal khác nhau nên khi Flatten sẽ ra các vector có kích thước khác nhau nên không thể áp dụng neural network được. Và feature map không thể resize được, nên để chuyển các region proposal trong feature map về cùng kích thước thì Region of Interest (RoI) pooling ra đời.
Hình 2-7: Kiến trúc Fast R-CNN (Ảnh cắt từ bài báo).
(i) Nhược điểm
Thời gian tính region proposal vẫn cịn tiêu tốn nhiều thời gian.
(c) Faster R-CNN
Để khắc phục hạn chế về thời gian tính region proposal của R-CNN và Fast R-CNN, Faster R-CNN[19] ra đời gồm 3 phần:
− Convolutional layers
− Region Proposal Network (RPN)
− Fast R-CNN
Đầu tiên ảnh được đưa qua Convolutional layers để lấy feature map. Sau đó feature map được dùng cho Region Proposal Network để lấy được các region proposal. Sau khi lấy được vị trí region proposal thì thực hiện tương tự Fast R-CNN.
34