Giám sát các đối tượng liên quan đến quỹ đạo và duy trì được sự xác định của đối tượng đó theo các khối trong 2D và 3D đều thông qua sự giống nhau của các khối. Để tách biệt giữa đối tượng trong các khối đó thì một giải pháp là đặt camera ở những vị trí khác nhau. Ví dụ như [5-7] nhìn từ trên cao để quan trắc đối tượng di chuyển hay để nhận diện được các đối tượng theo chiều sâu [8-9].
32 Bảng 2.1 Các thuật toán tracking objects
Tracking models Ràng buộc và giới hạn
Hình dạng đơn giản: Color histogram, đặc điểm của hình dáng [10-12]
Không thể nhận dạng được đối tượng trong khối bị chồng lấn, nhưng có tốc độ tính toán cao.
Dựa trên mô hình xuất hiện: Cải thiện thông tin của ảnh [13,14]
Duy trì được giám sát đối tượng tốt, nhưng không thể áp dụng trong 3D.
Mô hình xuất hiện áp dụng giám sát người (2D): Mô hình hình dáng động, nhận diện người dựa trên các điểm ảnh của quần áo. [18]
Yêu cầu học từ các bức ảnh, giả định quần áo được mặc có màu sắc khác nhau.
Trong luận văn này, việc nghiên cứu chính là nhận dạng, quan sát các đối tượng là người và xe cộ. Trong đó việc phân biệt rõ ràng giữa các đối tượng bị chồng lấn đến nhau cũng cần phải nghiên cứu và giải quyết trong đó đặc biệt là phải chỉ ra các đối tượng theo chiều sâu.
Trong quá khứ, đã có rất nhiều dự án liên quan đến nhận dạng, giám sát đối tượng được đưa ra nhưng luôn đi kèm theo là các ràng buộc và giới hạn. Để đạt được một phương pháp chung nhất để giải quyết mọi vấn đề mà không kèm theo rằng buộc thì cần phải định nghĩa lại mô hình, yêu cầu mở rộng sự phức tạp của mô hình. Gần như tất cả các phương pháp này đều sử dụng Background-subtraction là nền tảng và giữ một vai trò quan trọng để so sánh sự khác nhau và loại bỏ bóng để lấy ra đối tượng.
Một phương pháp để nhận diện ra người là dựa vào các dấu hiện cơ bản như: histograms, lịch sử của mỗi đối tượng trong video,... Những hệ thống cài đặt thuật toán này đạt được về tốc độ xử lý nhanh trong thời gian thực nhưng giới hạn về sự chính xác và không thể giải quyết được vấn đề về sự chồng lấn giữa các đối tượng. Mỗi đối tượng được biểu thị bởi một tập hợp các thuộc tính. Trong [10,11] mỗi đối tượng/ người được biểu thị bởi một biểu đồ màu được cập nhật tạm thời. Trong [10], phương pháp giao nhau
33
của biểu đồ được sử dụng để xác định đối tượng và tính toán xác suất các pixel thuộc về một đối tượng trong một khối bị chồng lấn bởi các đối tượng.
Hệ thống dựa trên mô hình xuất hiện đã cải thiện được chức năng giám sát và xác định được đối tượng trong các khối có sự chồng lấn. Nhưng tuy nhiên mô hình này bị giới hạn khi các đối tượng có tương tác với nhau. Trong [12], người và phương tiện được phân loại bằng cách sử dụng hình dạng. Mặc dùng mô hình trong [12] giải quyết được vấn đề chồng lấn đối tượng nhưng lại không xem xét về sự đa dạng trong hình dạng của đối tượng như sự thay đổi rất nhanh của đối tượng. Mô hình trong [13] kết hợp sự xuất hiện của cấu trúc dải màu xám và hình dáng của người nhưng lại không thể giải quyết được vấn đề là nhận diện một người trong một nhóm. Trong mô hình của đồ án này có sử dụng mô hình xuất hiện màu và có thể giải quyết thành công được vấn đề duy trì hình dạng của một đối tượng trong các trường hợp khác nhau nhưng tuy nhiên sẽ dẫn đến việc phân loại bị nhầm lẫn bởi các đối tượng có hình dạng giống nhau và khi mà chúng tương tác với nhau.
Bởi sự phức tạp trong mô hình giám sát, các phương pháp càng trở nên tinh vi hơn để duy trì giám sát các đối tượng nhưng cái giá phải trả đó là các ràng buộc càng trở nên khó khăn hơn. Trong [14], để giám sát trẻ em trong một khu vực, họ đã khai thác các thông tin của văn cảnh để thích nghi được vấn đề lựa chọn và tính toán các tính chất của đối tượng để đưa ra giải pháp tối ưu. Trong [15] , để giám sát hiện quả, khi một bức ảnh được đưa ra, việc trước mắt là nhận diện được ra các đối tượng như biển báo, các tòa nhà, và đường viền. Trong [16] một foreground tĩnh được định nghĩa khi mà nó xử lý thông tin không cần liên quan đến bức hình trước nó. Trong [17] chiều cao của người được tính toán từ mặt đất nhưng để tránh trường hợp bị nhầm lẫn với bóng người thì thời gian là một yếu tố cần phải được xem xét để ước lượng xem độ dài của bóng người trong video.
Để cải thiện được hiệu năng của các phương pháp giám sát, các hệ thống đều đưa ra một ước lượng gần đúng. Trong [18] đưa ra một phương pháp để phát hiện và dự đoán các khối chồng lấn bằng việc sử dụng các phân tích tạm thời và giả định các quỹ đạo của đối tượng.
34
Trong [17] còn quan sát nhiều người cùng một lúc bằng cách sử dụng bộ lọc Kalman và ngầm định rằng phương pháp này đã có thể xử lý được sự chồng lấn các đối tượng. Việc phân chia các đối tượng một cách chính xác được kiểm định bằng “sự nhận dạng người đang đi”. Điều này được thực hiện thông qua mẫu di chuyển, và sự nhận dạng này nằm trên sự quan sát người di chuyển theo thời gian. Thế nhưng trong thực tế thì người có thể di chuyển hoặc dừng lại chứ không phải lúc nào cũng di chuyển theo thời gian.
Tất cả các mô hình được trình bày ở đây đều là dạng nguyên mẫu. Mỗi một dự án thường chỉ đánh giá hiệu năng của chính nó và dựa trên một số lượng nhỏ video. Thêm nữa, các video của họ đều tự làm ra và tự đưa ra kết quả đánh giá. Vì vậy, thật khó để so sánh về khả năng của các phương pháp này về độ chính xác và hiệu năng. Chính vì vậy điều cần thiết là phải xây dựng mô hình mẫu để kiểm thử các thuật toán hay phương pháp nhận dạng, quan sát đối tượng. Ngoài ra, mô hình phải đưa ra các tiêu chí để xếp loại cho các phương pháp đó.
Trong thuật toán được đưa ra ở luận văn này cũng chỉ có thể đánh giá một số video mà tác giả đưa ra.
35