xét cường độ điểm ảnh như phương pháp Viola Jones, kỹ thuật này đếm các lần xuất hiện của vectơ độ dốc biểu thị hướng ánh sáng để định vị các phân đoạn hình ảnh. Phương pháp sử dụng chuẩn hóa tương phản cục bộ chồng chéo để cải thiện độ chính xác.
1.5. GIỚI THIỆU SƠ LƯỢC VỀ PHƯƠNG PHÁP HOG SỬ DỤNG ĐỂPHÁT HIỆN ĐỐI TƯỢNG PHÁT HIỆN ĐỐI TƯỢNG
Có 5 bước cơ bản để xây dựng một vector HOG phát hiện đối tượng cho hình ảnh, bao gồm:
Bước 1: Tiền xử lý
thước chuẩn, sau đó sử dụng các khối để tính tốn đặc trưng ở các bước tiếp theo.
Hình 1.8: Tiền xử lý để xác định khung hình
Bước 2: Tính độ dốc
Để tính tốn mơ tả HOG, ta tính tốn độ dốc trên trục Ox và Oy. Độ dốc được tính bằng phép nhân chập ảnh gốc với véc tơ hai chiều tương ứng là:
Đối với hình ảnh màu, độ dốc của ba màu cơ bản (đỏ, xanh lá và xanh da trờii) được tính tốn. Độ lớn của dốc tại một điểm ảnh là giá trị lớn nhất của cường độ dốc của ba kênh màu.
Hình 1.9: Độ dốc sau khi tính tốn
Trong đó:
Hình bên Trái: giá trị tuyệt đối của độ dốc theo x. Hình ở giữa: giá trị tuyệt đối của độ dốc theo y.
Tính vector đặc trưng cho từng ơ(ví dụ 8x8 pixel)
Dựa vào độ dốc, trên mỗi ơ, ta tính tốn các véc tơ đặt trưng theo hướng trên từng ơ. Trong đó ta chia khơng gian hướng thành p chiều vector đặt trưng của ơ. Sau đó chúng ta rời rạc hóa góc hướng nghiêng tại mỗi điểm ảnh vào trong các chiều véc tơ đặc trưng của ơ
Hình 1.10: Kết quả sau khi tính tốn véc tơ đặc trưng cho từng ơ
Trong đó:
Hình bên Trái: dữ liệu hình ảnh được chia theo từng ơ 8x8. Hình ở giữa: độ dốc được biểu diễn trên hình ảnh bằng mũi tên.
Hình bên phải: cường độ dốc và hướng dốc được biểu thị bằng số. Chuẩn hóa khối(ví dụ 2x2 ơ)
Bằng cách tính một ngưỡng cường độ trong một khối và sử dụng giá trị đó để chuẩn hóa tất cả các ơ trong khối, các biểu đồ cục bộ sẽ được chuẩn hóa về độ tương phản để tăng cường khả năng nhận dạng. Kết quả sau bước chuẩn hóa sẽ là một vector đặc trưng được tính theo tỉ lệ ánh sáng, do đó nó có tính bất biến cao hơn đối với các thay đổi về điều kiện ánh sáng.
Tính tốn vector HOG
Với một ơ, ta sẽ có một véc tơ có kích thước là 9 x 1. Với một khối chứa 2x2 ơ, ta sẽ có một véc tơ có kích thước là 9 x 1 x 4 = 36 x 1. Tương tự, với ví dụ một
khung hình có 7 khối ngang và 15 khối dọc, khi nối toàn bộ các véc tơ trong khối lại, ta sẽ thu được một vec tơ HOG với kích thước là 36 x 1 x 7 x 15 = 3780 x 1.
Hình 1.11: Biểu diễn các véc tơ chỉ hướng theo HOG thu được sau khi tính tốn
Sau khi hồn thiện các bước trên, ta có thể sử dụng véc tơ HOG để tính tốn và nhận diện đối tượng.
Phát hiện trái cây trong vườn cây đã được giải quyết bởi suchet Bargoti et al. [3], thực hiện một RCNN nhanh hơn để bản địa hóa các loại trái cây (xồi, hạnh nhân và táo), nhưng khơng phát hiện các giai đoạn chín.
Một cách tiếp cận khác để phát hiện quả trong vườn được Joseph Redmon et al. [17,18,19,20,21,26] đưa ra, phát triển kiến trúc MangoYolo (dựa trên YOLO-v3, YOLO-v2 [7,8]) để phát hiện xoài trong vườn với độ chính xác trung bình là 0,983%.
D.Stajnko, M.Lakota, M.Hočevar [28] đã sử dụng máy ảnh nhiệt để chụp ảnh táo và áp dụng các thuật tốn xử lý hình ảnh khác nhau để ước tính năng suất và kích thước của táo trong vườn cây.
Trích đối tượng Trích đặc trưng Tiền xử lý
Nhận dạng Hậu xử lý Ảnh đầu vào
Kết quả Phát hiện giai đoạn chín của trái cây trong vườn cây đã được thảo luận bởi Y. Tian et al. [7], sử dụng YOLO-v3 và phát hiện các giai đoạn phát triển khác nhau của táo trong vườn cây. Vấn đề phát hiện chín trong [11] yêu cầu đào tạo các giai đoạn phát triển táo khác nhau thành các đối tượng riêng biệt và do đó, nó sẽ gây ra chi phí đào tạo lớn nếu một giai đoạn phát hiện bổ sung được thêm vào mơ hình do S. Kim et al. [20]. Một số nhà nghiên cứu đã nghiên cứu những thay đổi về tính chất vật lý và hóa học của các loại trái cây khác nhau trong q trình chín [21, 22].
Hình 1.12: Qui trình tổng qt xử lý nhận dạng, phát hiện trái chín
Hình 1.13. Sơ đồ khối hệ thống xử lý nhận dạng, phát hiện trái dứa chín
Bước 3: Tiền xử lý
Các hệ thống Deep Learning khác nhau thường sử dụng các loại camera thu nhận ảnh khác nhau, do đó chất lượng ảnh thu được cũng khác nhau. Bước tiền xử lý được thực hiện nhằm nâng cao chất lượng ảnh về mặt trực quan, khử nhiễu, hay chuẩn hóa thơng tin trong ảnh (ví dụ độ sáng, miền giá trị cường độ,…). Bước xử lý này thường sử dụng các bộ lọc (lọc trung bình, lọc trung vị), các phép biến đổi hình thái học (phép làm dày, ăn mịn, đóng, mở) với các thơng số tùy chọn. Kết quả cuối
cùng sau khi thực hiện tiền xử lý là ảnh có chất lượng phù hợp cho bước xử lý tiếp theo.
Bước 4: Trích đối tượng
Mục tiêu ở bước này là tách riêng loại ra khỏi kho dữ liệu ảnh những ảnh khơng đúng chất lượng. Có nhiều giải pháp thường được sử dụng, bao gồm trừ nền, lọc màu vỏ trái cây, hay lọc độ sâu. Nội dung tiếp theo sẽ trình bày rõ hơn các phương pháp này.
Bước 5: Trừ nền
Phương pháp này được dùng khá phổ biến trong các nghiên cứu liên quan đến việc xoay ảnh như phát hiện trái không đúng, khơng đảm bảo chất lượng, phân tích từ nhiều hướng khác nhau. Phương pháp này thực hiện đơn giản, chi phí tính tốn thấp; tuy nhiên, camera phải được đặt ở một vị trí cố định, đồng thời kết quả bị ảnh hưởng đáng kể khi nền bị thay đổi đột ngột (do độ sáng, chói,…).