6. Cấu trúc luận văn
2.1.3. Đánh giá kỹ thuật phát hiện chuyển động
So sánh độ phức tạp của các phương pháp về tốc độ, bộ nhớ yêu cầu và độ chính xác, đồng thời có thể hướng dẫn hiệu quả họ để chọn phương pháp tốt nhất cho một ứng dụng cụ thể trong một cách có nguyên tắc. Trong số các phương pháp được xem xét, các phương pháp đơn giản chẳng hạn như MOG hoặc TMF cung cấp độ chính xác chấp nhận được trong khi đạt được một khung hình cao tỷ lệ và yêu cầu bộ nhớ hạn chế. Các phương pháp MOG và KDE chứng tỏ rất tốt độ chính xác của mô hình. KDE có yêu cầu bộ nhớ cao có thể ngăn cản dễ dàng triển khai trên các thiết bị có bộ nhớ thấp. SKDA có thể xem xấp xỉ KDE chứng tỏ gần như chính xác, nhưng giảm nhẹ yêu cầu bộ nhớ bằng một thứ tự độ lớn và có độ phức tạp thời gian thấp hơn.
32
2.2. Kỹ thuật phát hiện đối tƣợng
2.2.1. Giới thiệu
Phát hiện đối tượng có vai trò quan trọng trong các hệ thống phát hiện mục tiêu, các hệ thống giám sát, nhận dạng và khảo sát. Việc sử dụng thị giác máy để phát hiện các đối tượng là một giải pháp được sử dụng rộng rãi trên toàn thế giới. Phương pháp này ứng dụng các kỹ thuật xử lý ảnh và các thuật toán máy học để tìm các đối tượng trong các hình ảnh. Tuy nhiên, việc phát hiện đối tượng dựa trên thị giác máy là một vấn đề khó bởi vì hệ thống phải giải quyết với sự thay đổi về điều kiện tạo ảnh và sự thay đổi của các cảnh và môi trường [14].
Nhiều phương pháp phát hiện đối tượng khác nhau sử dụng thị giác máy đã được phát triển và ứng dụng rộng rãi trong đời sống thực tiễn. Các phương pháp này phát hiện đối tượng với ba bước chính. Bước thứ nhất là dựa vào các thuộc tính của đối tượng như màu sắc, chiều cao, chiều rộng, góc hoặc kết cấu bề mặt và hình dạng để trích chọn các đặc trưng ảnh. Bước thứ hai là sử dụng tập dữ liệu mẫu để xác định các tham số cho các bộ nhận dạng đối tượng trong ảnh. Bước thứ 3 là sử dụng bộ nhận dạng để xác định đối tượng trong các ảnh đầu vào bất kỳ.
Kỹ thuật phát hiện đối tượng trên ảnh là một thành phần rất quan trọng trong các hệ thống tự động giám sát và bám mục tiêu. Đây là một phương pháp dựa trên kỹ thuật xử lý ảnh và các thuật toán máy học để phát hiện các mục tiêu cần tìm. Phương pháp đề xuất dựa trên các đặc trưng hình dạng và màu sắc để tìm đối tượng trong ảnh cảnh được chụp từ một camera. Trong phương pháp này, ảnh đầu vào trước tiên được phân thành các vùng nhỏ đồng màu sử dụng thuật toán dựa vào lý thuyết đồ thị. Sau đó, các vùng có khả năng thuộc về đối tượng thấp sẽ được loại bỏ bằng việc sử dụng các thông tin
33
về màu sắc. Cuối cùng, đối tượng cần tìm được xác định từ một tập các vùng đồng màu kết nối với nhau, sử dụng một mô hình xác suất với các đặc trưng hình dạng và màu sắc. Đặc trưng hình dạng của một vùng ảnh được biểu diễn bằng các bộ đặc tả hình dạng. Các bộ đặc tả về hình dạng là bất biến với sự méo hình cục bộ, sự dịch chuyển và xoay. Phương pháp đề xuất được đánh giá trên các tập dữ liệu lớn khác nhau. Mỗi tập dữ liệu bao gồm các ảnh của một kiểu đối tượng được thu thập từ các cảnh khác nhau dưới các điều kiện ánh sáng khác nhau [12].
Theo một cách khác, phương pháp phát hiện đối tượng trong ảnh bao gồm có hai giai đoạn chính.
Giai đoạn 1: Phân mảng ảnh đầu vào thành các vùng đồng màu.
Giai đoạn 2: Tìm đối tượng từ các vùng đồng màu sử dụng mô hình xác suất với đặc trưng màu sắc và hình dạng.
34
2.2.2. Các tính năng áp dụng kỹ thuật phát hiện đối tượng
2.2.2.1. Integral Image:
Hình 2.6. Phát hiện đối tƣợng bằng Integral Image
Các đối tượng hình chữ nhật có thể được tính toán rất nhanh chóng bằng cách sử dụng đại diện trung gian cho hình ảnh được gọi là hình tích phân. Hình ảnh tích phân tại vị trí chứa đựng tổng các pixel ở trên và bên trái, bao gồm:
trong đó ii(x,y) là ảnh tích phân và i(x,y) là ảnh gốc. Sử dụng cặp lặp lại sau:
Trong đó s(x,y) là là tổng hàng tích lũy, s(x,-1) = 0, và ii(-1,y) = 0 hình ảnh tích phân có thể được tính bằng một lần vượt qua hình ảnh gốc.
(2.4)
35
Sử dụng hình ảnh tích phân bất kỳ tổng các pixel trong hình chữ nhật D có thể là được tính toán với bốn tham chiếu mảng. Giá trị của hình ảnh tại vị trí 1 là tổng các pixel trong hình chữ nhật A . Giá trị ở vị trí 2 là A + B , ở vị trí 3 là A + C , và tại vị trí 4 là A + B + C + D. Tổng trong D có thể được tính là 4 + 1- 2 + 3.
2.2.2.2.Yolo:
Yolo là một cách tiếp cận mới để phát hiện đối tượng. Yolo xử lý hình ảnh trong thời gian thực ở 45 khung hình mỗi giây.
Yolo cho phép đào tạo từ đầu đến cuối và tốc độ thời gian thực trong khi vẫn duy trì độ chính xác cao. Hệ thống của chúng ta chia hình ảnh đầu vào thành một lưới S * S. Nếu tâm của một đối tượng rơi vào một ô lưới, ô lưới đó có trách nhiệm phát hiện đối tượng đó.
Mỗi ô lưới dự đoán hộp giới hạn B và độ tin cậy điểm cho các ô đó. Những điểm số tin cậy này phản ánh cách chắc chắn rằng mô hình là hộp chứa một đối tượng và cũng như mức độ chính xác mà nó cho rằng hộp dự đoán. Chính thức chúng ta tự tin định nghĩa là Pr (Object) ∗ IOUtruthpred. Nếu không có đối tượng tồn tại trong ô đó, điểm tin cậy phải là số không. Nếu không, chúng tôi muốn điểm tin cậy bằng với giao nhau qua liên hiệp (IOU) giữa hộp dự đoán và sự thật cơ bản.
Mỗi hộp giới hạn bao gồm 5 dự đoán: x, y, w, h, và sự tự tin. Các tọa độ (x,y) đại diện cho tâm của hộp so với giới hạn của ô lưới. Chiều rộng và chiều cao được dự đoán so với toàn bộ hình ảnh. Cuối cùng dự đoán độ tin cậy đại diện cho IOU giữa hộp dự đoán và bất kỳ hộp sự thật cơ bản nào.
Mỗi ô lưới cũng dự đoán xác suất lớp có điều kiện C, Pr(Classi │Object). Những xác suất này là điều kiện được đánh dấu trên ô lưới có chứa một đối tượng. Chúng tôi chỉ dự đoán một bộ xác suất lớp cho mỗi ô lưới, bất kể số
36
hộp B. Tại thời điểm kiểm tra, chúng ta nhân các xác suất lớp có điều kiện với các dự đoán độ tin cậy của hộp riêng lẻ, cung cấp cho chúng tôi điểm tin cậy theo lớp cụ thể cho mỗi cái hộp. Những điểm số này mã hóa cả xác suất của lớp đó xuất hiện trong hộp và hộp dự đoán phù hợp với đối tượng.
Pr(Classi │Object) * Pr(Object) * IOUtruthpred = Pr(Classi) * IOUtruthpred
Hệ thống của chúng ta phát hiện mô hình như một hồi quy. Nó phân chia hình ảnh thành một lưới S * S ảnh cho mỗi ô lưới đứng trước các ô giới hạn B, độ tin cậy cho các ô đó và xác suất lớp C. Những dự đoán này được mã hóa dưới dạng tensor S x S x (B * 5 + C)
Hình 2.7. Phát hiện đối tƣợng bằng Yolo.
2.2.3. Đánh giá kỹ thuật phát hiện đối tượng
Sử dụng các tính năng tiếp cận để phát hiện đối tượng giảm thiểu thời gian tính toán trong khi vẫn đạt được khả năng phát hiện độ chính xác cao. Các phương pháp được sử dụng để tạo ra kết quả nhanh hơn khoảng 15 lần so với bất kỳ cách tiếp cận trước đó. Một số kỹ thuật phát hiện đối tượng tiến
37
hành xử lý cho ra kết quả là đối tượng đang cần theo vết và đánh dấu (tô màu, kẻ khung). Trong quá trình thực hiện thu nhận ảnh thường bị biến dạng do các thiết bị thu nhận chất lượng thấp dẫn tới việc cân chỉnh lại rất phức tạp vì nó phụ thuộc quá nhiều vào môi trường xung quanh (bị nhiễu, thay đổi ánh sáng, độ tương phản,…). Do đó các công việc như khử nhiễu, cân chỉnh mức xám thường được xác định thông qua các ngưỡng trong chương trình.
2.3. Kỹ thuật bám sát đối tƣợng
2.3.1. Giới thiệu
Bám sát đối tượng là một nhiệm vụ quan trọng trong lĩnh vực thị giác máy tính, là một vấn đề quan trọng trong phân tích chuyển động của con người. Hiện nay, do tính khả dụng về chất lượng cao và giá thành rẻ của máy quay video, đồng thời nhu cầu phân tích video tự động ngày càng tăng đã tạo ra rất nhiều quan tâm đến các thuật toán bám sát đối tượng trong một sự kiện đám đông để giảm thiểu các hạn chế như tắc nghẽn, tai nạn,… Các thuật toán nghiên cứu tình trạng phát hiện khẩn cấp như: nhận diện lời nói, góc độ, thời gian hiện diện của đối tượng cấp để giảm thiểu thiệt hại [16].
Việc ứng dụng kỹ thuật bám sát đối tượng phù hợp với các hoạt động như: Nhận dạng dựa trên cử động (nghĩa là nhận dạng con người dựa trên dáng đi, tự động phát hiện đối tượng); Giám sát tự động (nghĩa là giám sát hiện trường để phát hiện các hoạt động đáng ngờ hoặc sự kiện khó xảy ra);
Chỉ mục video (nghĩa là tự động chú thích và truy xuất các video trong đa phương tiện cơ sở dữ liệu); Tương tác giữa con người và máy tính (nghĩa là, nhận dạng cử chỉ, theo dõi ánh mắt để tìm dữ liệu đầu vào cho máy tính);
Giám sát lưu lượng (tức là thu thập số liệu thống kê lưu lượng theo thời gian
thực để định hướng luồng giao thông). Điều hướng theo phương pháp điều
38
Mục đích của trình theo dõi đối tượng là tạo ra quỹ đạo của một đối tượng theo thời gian bằng cách định vị vị trí của nó trong mọi khung hình của video. Trình theo dõi đối tượng cũng có thể cung cấp vùng trong hình ảnh bị chiếm bởi đối tượng tại mọi thời điểm tức thì. Nhiệm vụ kiểm tra đối tượng và thiết lập sự tương ứng giữa các đối tượng trên khung có thể được thực hiện riêng biệt hoặc chung.
Hình 2.8. Mô hình kỹ thuật bám sát đối tƣợng.
Quá trình bám sát đối tượng có thể xảy ra phức tạp vì những lý do như: hình ảnh bị nhiễu; đối tượng chuyển động phức tạp; bản chất không khơp hoặc không rõ ràng của các đối tượng; vật thể bị các vết cắn một phần và toàn
39
bộ; các hình dạng đối tượng phức tạp; các thay đổi về độ sáng của cảnh, và các yêu cầu xử lý trong thời gian thực. Do đó, chúng ta có thể đơn giản hóa việc theo dõi bằng cách áp đặt các ràng buộc đối với chuyển động và/hoặc ngoại hình của các đối tượng, hạn chế thêm chuyển động của đối tượng để có vận tốc không đổi hoặc gia tốc không đổi dựa trên thông tin tiên nghiệm [14].
Hình 2.9. Bám sát đối tƣợng chuyển động
2.3.2. Một số đặc trưng trong kỹ thuật bám sát đối tượng
- Màu sắc: Biểu hiện của một đối tượng bị ảnh hưởng chủ yếu bởi hai yếu tố vật lý là phân bố công suất quang phổ của ánh sáng và phản xạ bề mặt thuộc tính của đối tượng. Trong xử lý hình ảnh, không gian màu RGB (đỏ, lục, lam) thường được sử dụng để đại diện cho màu sắc. Tuy nhiên, không gian RGB không phải là một tạo thành không gian màu, nghĩa là sự khác biệt giữa các màu trong không gian RGB không tương ứng với sự khác biệt về màu sắc mà con người cảm nhận được.
40
- Các cạnh. Các ranh giới đối tượng thường tạo ra những thay đổi mạnh mẽ về cường độ hình ảnh. Cạnh phát hiện được sử dụng để xác định những thay đổi này. Một thuộc tính quan trọng của các cạnh là chúng ít nhạy cảm hơn với những thay đổi về độ chiếu sáng so với các đặc điểm màu sắc. Thuật toán theo dõi ranh giới của các đối tượng thường sử dụng các cạnh làm đối tượng địa lý đại diện.
- Lưu lượng quang học: Luồng quang học là một trường dày đặc của các vectơ dịch chuyển xác định bản dịch của từng pixel trong một vùng. Nó được tính toán bằng cách sử dụng giới hạn độ sáng, giả định độ sáng không đổi của các pixel tương ứng trong các khung liên tiếp. Luồng quang học thường được sử dụng như một tính năng trong chuyển động dựa trên ứng dụng phân đoạn và theo dõi.
- Kết cấu: Là thước đo sự thay đổi cường độ của bề mặt để định lượng các đặc tính như độ mịn và đều đặn. So với màu sắc, kết cấu yêu cầu một bước xử lý để tạo bộ mô tả. Tương tự như các tính năng của từng cạnh, các đặc điểm về kết cấu ít nhạy cảm hơn với những thay đổi về ánh sáng so với màu sắc.
-Phân đoạn: Mục đích của các thuật toán phân đoạn hình ảnh là phân vùng hình ảnh thành các vùng tương tự. Mỗi thuật toán phân đoạn giải quyết hai vấn đề, các tiêu chí để có một phân vùng tốt và phương pháp để đạt được phân vùng hiệu quả.
2.3.3. Đánh giá kỹ thuật bám sát đối tượng
Đã trình bày các phương pháp bám sát đối tượng, các phương pháp dựa trên việc sử dụng các hành động của đối tượng. Các phương pháp bám sát mạnh mẽ đã được phát triển có thể theo dõi các đối tượng trong thời gian thực một cách đơn giản. Tuy nhiên, vấn đề về ước tính trực tuyến hiệu quả vẫn
41
chưa được giải quyết, các thuật toán này yêu cầu thông tin ngoại tuyến về mục tiêu và nền. Một thách thức trong việc theo dõi là phát triển các thuật toán để theo dõi các đối tượng trong các phương pháp không gian trạng thái xác suất để ước tính mật độ đối tượng chuyển động.
2.4. Kết luận Chƣơng 2
Chương này đã trình bày tổng quan một số kỹ thuật về phát hiện chuyển động, phát hiện đối tượng và bám sát đối tượng, cùng với các phương pháp, mô hình trong giải quyết các bài toán phân tích đám đông trên cơ sở các thuật toán chương trình. Ngoài ra, trong chương này cũng đã đưa ra một số vấn đề nghiên cứu, cải tiến những phương thức, mô hình tiên tiến nhằm khắc phục, hạn chế các thuật toán, các tính năng áp dụng kỹ thuật bị lỗi và sai sót.
42
Chƣơng 3. CHƢƠNG TRÌNH THỬ NGHIỆM
3.1. Giới thiệu bài toán
Việc phân tích đám đông liên quan đến việc giải thích dữ liệu thu được khi nghiên cứu sự chuyển động tự nhiên của các nhóm hoặc đối tượng. Phân tích đám đông được xem như một cuộc khảo sát sử dụng các kỹ thuật thị giác máy bao gồm các khía cạnh khác nhau như theo dõi con người, ước tính mật độ đám đông, phát hiện sự kiện, xác nhận và mô phỏng. Phân tích đám đông với đầu vào là video hoặc hình ảnh camara trực tiếp. Sau quá trình phân tích, xử lý thì đầu ra của bài toán là những dự đoán thông tin về đám đông thuộc các chủ đề như: phân đoạn mẫu chuyển động, nhận diện hành vi và phát hiện sự kiện bất thường [8].
Dữ liệu đầu vào dùng cho bài toán phát hiện đối tượng chuyển động trong đám đông này gồm 10 đoạn video được ghi lại tại một số sự kiện, hoạt động ngoài trời. Đối với bài toán phát hiện đối tượng chuyển động thường có hai cách tiếp cận chính là dựa hoàn toàn vào phần cứng và dựa vào các kỹ thuật xử lý ảnh trên cơ sở xử lý các hình ảnh thu được, phân tích và kết luận xem có đối tượng có hành vi khác thường. Nếu trong đoạn video này có sự chuyển động bất thường của đối tượng thì được khoanh vùng các đối tượng chuyển động đó bằng hình vuông màu đỏ và được đếm số thứ tự tăng dần.
3.2. Phân tích bài toán
Phân tích đối tượng chuyển động đóng một vai trò quan trọng trong lĩnh vực thị giác máy tính. Các bước cơ bản cho quá trình theo dõi và phát hiện