Máy chủ xử lý nhận diện và đếm lượng người được sử dụng trong hệ thống là mơ hình YOLO sử dụng kiến trúc mạng nơ ron tích chập. Mơ hình YOLO là một cách tiếp cận mới để phát hiện đối tượng. Với phương pháp này, ta có thể huấn luyện mạng với bộ dữ liệu được gán nhãn. Sau đó, khi sử dụng để nhận diện, phương pháp này xác định và đóng khung đối tượng qua một cửa sổ phân tách trong hình ảnh, kèm theo xác suất của các đối tượng liên quan được phát hiện.
Mơ hình mạng YOLO sử dụng một mạng thần kinh duy nhất để dự đoán các hộp giới hạn và xác suất nhãn trực tiếp từ toàn bộ hình ảnh trong một lần chạy. Vì tồn bộ hệ thống phát hiện là một mạng duy nhất, nên nó được tối ưu hóa từ đầu đến cuối, dựa trên hiệu suất phát hiện. Kiến trúc đơn của YOLO rất nhanh, với mơ hình thường, mạng có thể xử lý được trong thời gian thực với 45 khung hình trên giây, cịn với mơ hình nhỏ hơn là FastYOLO, hệ thống có thể xử lý tới 155 khung hình trên giây.
Hình 3.2: Phương pháp mạng YOLO sử dụng để nhận diện đối tượng.
Mô hình YOLO được thiết kế với 24 tầng nơ ron tích chập và 2 tầng nơ ron được kết nối đầy đủ. Các lớp chập 1x1 xen kẽ làm giảm dữ liệu từ các tầng trước. Các lớp tích chập được sử dụng để trích xuất các đặc điểm từ hình ảnh, các lớp kết nối đầy đủ được sử dụng để dự đoán xác suất và tọa độ đầu ra. Kiến trúc YOLO được lấy cảm hứng từ mơ hình GoogLeNet cho phân loại hình ảnh
Hình 3.3: Mơ hình mạng yolo
Ở hệ thống nhận diện đối tượng, hệ thống sử dụng mơ hình YOLO, cùng bộ dữ liệu trọng số đã được huấn luyện là yolov3.weights, có sử dụng thêm tối ưu bằng học tăng cường để: tăng cường độ chính xác bằng cách huấn luyện thêm bộ dữ liệu đã có.
3.2.3 Giới thiệu sơ lược về phương pháp mô tả đặc trưng HOG sẽ được dùng để so sánh
HOG trở nên phổ biến vào năm 2005 khi Navneet Dalal và Bill Triggs, các nhà nghiên cứu của Viện Nghiên cứu Khoa học và Tự động hóa Quốc gia Pháp cho thấy cơng việc của họ trên HOG, đây là một giải pháp đáng tin cậy. Thuật tốn cũng là một trình trích xuất các tính năng cho mục đích phát hiện đối tượng. Thay vì xem xét cường độ điểm ảnh như phương pháp Viola Jones, kỹ thuật này đếm các lần xuất hiện của vectơ độ dốc biểu thị hướng ánh sáng để định vị các phân đoạn hình ảnh. Phương pháp sử dụng chuẩn hóa tương phản cục bộ chồng chéo để cải thiện độ chính xác.
3.2.1.1 Giới thiệu sơ lược về phương pháp HOG sử dụng để phát hiện đối tượng
Có 5 bước cơ bản để xây dựng một vector HOG phát hiện đối tượng cho hình ảnh, bao gồm:
1. Tiền xử lý
Bước tiền xử lý sẽ, cắt hình ảnh thành các khối, chuyển kích thước về kích thước chuẩn, sau đó sử dụng các khối để tính tốn đặc trưng ở các bước tiếp theo.
2. Tính độ dốc
Hình 3.4: Tiền xử lý để xác định khung hình
Để tính tốn mơ tả HOG, ta tính tốn độ dốc trên trục Ox và Oy. Độ dốc được tính bằng phép nhân chập ảnh gốc với véc tơ hai chiều tương ứng là:
Đối với hình ảnh màu, độ dốc của ba màu cơ bản (đỏ, xanh lá và xanh da trờii) được tính tốn. Độ lớn của dốc tại một điểm ảnh là giá trị lớn nhất của cường độ dốc của ba kênh màu.
Trong đó:
Hình 3.5: Độ dốc sau khi tính tốn
Hình bên Trái: giá trị tuyệt đối của độ dốc theo x. Hình ở giữa: giá trị tuyệt đối của độ dốc theo y. Hình bên phải: độ lớn của độ dốc
Dựa vào độ dốc, trên mỗi ơ, ta tính tốn các véc tơ đặt trưng theo hướng trên từng ơ. Trong đó ta chia khơng gian hướng thành p chiều vector đặt trưng của ơ. Sau đó chúng ta rời rạc hóa góc hướng nghiêng tại mỗi điểm ảnh vào trong các chiều véc tơ đặc trưng của ơ
Hình 3.6: Kết quả sau khi tính tốn véc tơ đặc trưng cho từng ơ
Trong đó:
Hình bên Trái: dữ liệu hình ảnh được chia theo từng ơ 8x8. Hình ở giữa: độ dốc được biểu diễn trên hình ảnh bằng mũi tên. Hình bên phải: cường độ dốc và hướng dốc được biểu thị bằng số. 4. Chuẩn hóa khối(ví dụ 2x2 ơ)
Bằng cách tính một ngưỡng cường độ trong một khối và sử dụng giá trị đó để chuẩn hóa tất cả các ơ trong khối, các biểu đồ cục bộ sẽ được chuẩn hóa về độ tương phản để tăng cường khả năng nhận dạng. Kết quả sau bước chuẩn hóa sẽ là một vector đặc trưng được tính theo tỉ lệ ánh sáng, do đó nó có tính bất biến cao hơn đối với các thay đổi về điều kiện ánh sáng.
5. Tính tốn vector HOG
Với một ơ, ta sẽ có một véc tơ có kích thước là 9 x 1. Với một khối chứa 2x2 ơ, ta sẽ có một véc tơ có kích thước là 9 x 1 x 4 = 36 x 1. Tương tự, với ví dụ một khung hình có 7 khối ngang và 15 khối dọc, khi nối toàn bộ các véc tơ trong khối lại, ta sẽ thu được một vec tơ HOG với kích thước là 36 x 1 x 7 x 15 = 3780 x 1.
Hình 3.7: Biểu diễn các véc tơ chỉ hướng theo HOG thu được sau khi tính tốn
Sau khi hồn thiện các bước trên, ta có thể sử dụng véc tơ HOG để tính tốn và nhận diện đối tượng.
3.2.4 So sánh khả năng nhận diện của hệ thống nhận diện người vào/ra sử dụng mạng nơ ron tích chập với phương pháp HOG đã có