3. Cấu trúc luận văn
1.3 Phát hiện đối tượng (object detection) trong ảnh
Object Detection có lẽ là khía cạnh sâu sắc nhất của thị giác máy do số lần sử dụng trong thực tế. Object Detection đề cập đến khả năng của hệ thống máy tính và phần mềm để định vị các đối tượng trong một hình ảnh và xác định từng đối tượng trong một hình ảnh hoặc video. Object Detection đã được sử dụng rộng rãi để phát hiện khuôn mặt, phát hiện xe, đếm số người đi bộ, hệ thống bảo mật và xe không người lái…. Có nhiều cách để nhận diện đối tượng có thể được sử dụng cũng như trong nhiều lĩnh vực thực hành. Giống như mọi công nghệ khác, một loạt các ứng dụng sáng tạo và tuyệt vời của Object Detection đến từ các lập trình viên và các nhà phát triển phần mềm.
Object Detection bao gồm: Xác định vị trí hiện diện của các đối tượng trong bounding box và nhãn của các đối tượng nằm trong một hình ảnh.
Input: Một hình ảnh có một hoặc nhiều đối tượng.
Output: Một hoặc nhiều bounding box và nhãn cho mỗi bounding box.
Hình 1.5 Ví dụ về Object Detection.
Object Detection thường bị nhầm lẫn với Image Recognition ( Nhận dạng hình ảnh). Image Recognition là gán nhãn cho hình ảnh. Hình ảnh một vật thể được gắn nhãn tên vật thể đó. Một bức ảnh của hai vật thể, vẫn nhận được nhãn có tên vật thể được gán ban đầu. Mặt khác, Object Detection nhận diện một đối tượng
bên trong khung hình và gán tên cho vật thể đó. Mô hình dự đoán vị trí của từng đối tượng và nhãn nào nên được áp dụng. Theo cách đó Object Detection cung cấp nhiều thông tin về hình ảnh hơn là Image Recognition.
Object detection được chia thành các cách: Tranditional Machine learning- based approaches (tiếp cận dựa trên học máy truyền thống) và Deep learning-based approaches (tiếp cận dựa trên học sâu).
Tranditional Machine learning-based approaches: các kỹ thuật thị giác
máy tính được sử dụng để xem xét các đặc điểm khác nhau của hình ảnh, chẳng hạn như biểu đồ màu hoặc các cạnh, để xác định các nhóm pixel có thể thuộc về một đối tượng. Các đặc trưng này sau đó được đưa vào một mô hình hồi quy dự đoán vị trí của đối tượng cùng với nhãn của nó.
Deep learning-based approaches: sử dụng thuật toán Convolutional
Neural Network (mạng nơ-ron phức hợp) để thực hiện phát hiện đối tượng từ đầu đến cuối, việc học có thể được giám sát, bán giám sát hoặc không giám sát, trong đó các đặc trưng không cần phải được xác định và trích xuất riêng biệt.
Họ các mô hình object detection dựa trên Convolutional Neural Network (R-CNNs) gồm các lớp mô hình: R-CNN, Fast R-CNN và Faster R-CNN