6. Cấu trúc luận văn
2.2.3. Đánh giá kỹ thuật phát hiện đối tượng
Sử dụng các tính năng tiếp cận để phát hiện đối tượng giảm thiểu thời gian tính toán trong khi vẫn đạt được khả năng phát hiện độ chính xác cao. Các phương pháp được sử dụng để tạo ra kết quả nhanh hơn khoảng 15 lần so với bất kỳ cách tiếp cận trước đó. Một số kỹ thuật phát hiện đối tượng tiến
37
hành xử lý cho ra kết quả là đối tượng đang cần theo vết và đánh dấu (tô màu, kẻ khung). Trong quá trình thực hiện thu nhận ảnh thường bị biến dạng do các thiết bị thu nhận chất lượng thấp dẫn tới việc cân chỉnh lại rất phức tạp vì nó phụ thuộc quá nhiều vào môi trường xung quanh (bị nhiễu, thay đổi ánh sáng, độ tương phản,…). Do đó các công việc như khử nhiễu, cân chỉnh mức xám thường được xác định thông qua các ngưỡng trong chương trình.
2.3. Kỹ thuật bám sát đối tƣợng
2.3.1. Giới thiệu
Bám sát đối tượng là một nhiệm vụ quan trọng trong lĩnh vực thị giác máy tính, là một vấn đề quan trọng trong phân tích chuyển động của con người. Hiện nay, do tính khả dụng về chất lượng cao và giá thành rẻ của máy quay video, đồng thời nhu cầu phân tích video tự động ngày càng tăng đã tạo ra rất nhiều quan tâm đến các thuật toán bám sát đối tượng trong một sự kiện đám đông để giảm thiểu các hạn chế như tắc nghẽn, tai nạn,… Các thuật toán nghiên cứu tình trạng phát hiện khẩn cấp như: nhận diện lời nói, góc độ, thời gian hiện diện của đối tượng cấp để giảm thiểu thiệt hại [16].
Việc ứng dụng kỹ thuật bám sát đối tượng phù hợp với các hoạt động như: Nhận dạng dựa trên cử động (nghĩa là nhận dạng con người dựa trên dáng đi, tự động phát hiện đối tượng); Giám sát tự động (nghĩa là giám sát hiện trường để phát hiện các hoạt động đáng ngờ hoặc sự kiện khó xảy ra);
Chỉ mục video (nghĩa là tự động chú thích và truy xuất các video trong đa phương tiện cơ sở dữ liệu); Tương tác giữa con người và máy tính (nghĩa là, nhận dạng cử chỉ, theo dõi ánh mắt để tìm dữ liệu đầu vào cho máy tính);
Giám sát lưu lượng (tức là thu thập số liệu thống kê lưu lượng theo thời gian
thực để định hướng luồng giao thông). Điều hướng theo phương pháp điều
38
Mục đích của trình theo dõi đối tượng là tạo ra quỹ đạo của một đối tượng theo thời gian bằng cách định vị vị trí của nó trong mọi khung hình của video. Trình theo dõi đối tượng cũng có thể cung cấp vùng trong hình ảnh bị chiếm bởi đối tượng tại mọi thời điểm tức thì. Nhiệm vụ kiểm tra đối tượng và thiết lập sự tương ứng giữa các đối tượng trên khung có thể được thực hiện riêng biệt hoặc chung.
Hình 2.8. Mô hình kỹ thuật bám sát đối tƣợng.
Quá trình bám sát đối tượng có thể xảy ra phức tạp vì những lý do như: hình ảnh bị nhiễu; đối tượng chuyển động phức tạp; bản chất không khơp hoặc không rõ ràng của các đối tượng; vật thể bị các vết cắn một phần và toàn
39
bộ; các hình dạng đối tượng phức tạp; các thay đổi về độ sáng của cảnh, và các yêu cầu xử lý trong thời gian thực. Do đó, chúng ta có thể đơn giản hóa việc theo dõi bằng cách áp đặt các ràng buộc đối với chuyển động và/hoặc ngoại hình của các đối tượng, hạn chế thêm chuyển động của đối tượng để có vận tốc không đổi hoặc gia tốc không đổi dựa trên thông tin tiên nghiệm [14].
Hình 2.9. Bám sát đối tƣợng chuyển động
2.3.2. Một số đặc trưng trong kỹ thuật bám sát đối tượng
- Màu sắc: Biểu hiện của một đối tượng bị ảnh hưởng chủ yếu bởi hai yếu tố vật lý là phân bố công suất quang phổ của ánh sáng và phản xạ bề mặt thuộc tính của đối tượng. Trong xử lý hình ảnh, không gian màu RGB (đỏ, lục, lam) thường được sử dụng để đại diện cho màu sắc. Tuy nhiên, không gian RGB không phải là một tạo thành không gian màu, nghĩa là sự khác biệt giữa các màu trong không gian RGB không tương ứng với sự khác biệt về màu sắc mà con người cảm nhận được.
40
- Các cạnh. Các ranh giới đối tượng thường tạo ra những thay đổi mạnh mẽ về cường độ hình ảnh. Cạnh phát hiện được sử dụng để xác định những thay đổi này. Một thuộc tính quan trọng của các cạnh là chúng ít nhạy cảm hơn với những thay đổi về độ chiếu sáng so với các đặc điểm màu sắc. Thuật toán theo dõi ranh giới của các đối tượng thường sử dụng các cạnh làm đối tượng địa lý đại diện.
- Lưu lượng quang học: Luồng quang học là một trường dày đặc của các vectơ dịch chuyển xác định bản dịch của từng pixel trong một vùng. Nó được tính toán bằng cách sử dụng giới hạn độ sáng, giả định độ sáng không đổi của các pixel tương ứng trong các khung liên tiếp. Luồng quang học thường được sử dụng như một tính năng trong chuyển động dựa trên ứng dụng phân đoạn và theo dõi.
- Kết cấu: Là thước đo sự thay đổi cường độ của bề mặt để định lượng các đặc tính như độ mịn và đều đặn. So với màu sắc, kết cấu yêu cầu một bước xử lý để tạo bộ mô tả. Tương tự như các tính năng của từng cạnh, các đặc điểm về kết cấu ít nhạy cảm hơn với những thay đổi về ánh sáng so với màu sắc.
-Phân đoạn: Mục đích của các thuật toán phân đoạn hình ảnh là phân vùng hình ảnh thành các vùng tương tự. Mỗi thuật toán phân đoạn giải quyết hai vấn đề, các tiêu chí để có một phân vùng tốt và phương pháp để đạt được phân vùng hiệu quả.
2.3.3. Đánh giá kỹ thuật bám sát đối tượng
Đã trình bày các phương pháp bám sát đối tượng, các phương pháp dựa trên việc sử dụng các hành động của đối tượng. Các phương pháp bám sát mạnh mẽ đã được phát triển có thể theo dõi các đối tượng trong thời gian thực một cách đơn giản. Tuy nhiên, vấn đề về ước tính trực tuyến hiệu quả vẫn
41
chưa được giải quyết, các thuật toán này yêu cầu thông tin ngoại tuyến về mục tiêu và nền. Một thách thức trong việc theo dõi là phát triển các thuật toán để theo dõi các đối tượng trong các phương pháp không gian trạng thái xác suất để ước tính mật độ đối tượng chuyển động.
2.4. Kết luận Chƣơng 2
Chương này đã trình bày tổng quan một số kỹ thuật về phát hiện chuyển động, phát hiện đối tượng và bám sát đối tượng, cùng với các phương pháp, mô hình trong giải quyết các bài toán phân tích đám đông trên cơ sở các thuật toán chương trình. Ngoài ra, trong chương này cũng đã đưa ra một số vấn đề nghiên cứu, cải tiến những phương thức, mô hình tiên tiến nhằm khắc phục, hạn chế các thuật toán, các tính năng áp dụng kỹ thuật bị lỗi và sai sót.
42
Chƣơng 3. CHƢƠNG TRÌNH THỬ NGHIỆM
3.1. Giới thiệu bài toán
Việc phân tích đám đông liên quan đến việc giải thích dữ liệu thu được khi nghiên cứu sự chuyển động tự nhiên của các nhóm hoặc đối tượng. Phân tích đám đông được xem như một cuộc khảo sát sử dụng các kỹ thuật thị giác máy bao gồm các khía cạnh khác nhau như theo dõi con người, ước tính mật độ đám đông, phát hiện sự kiện, xác nhận và mô phỏng. Phân tích đám đông với đầu vào là video hoặc hình ảnh camara trực tiếp. Sau quá trình phân tích, xử lý thì đầu ra của bài toán là những dự đoán thông tin về đám đông thuộc các chủ đề như: phân đoạn mẫu chuyển động, nhận diện hành vi và phát hiện sự kiện bất thường [8].
Dữ liệu đầu vào dùng cho bài toán phát hiện đối tượng chuyển động trong đám đông này gồm 10 đoạn video được ghi lại tại một số sự kiện, hoạt động ngoài trời. Đối với bài toán phát hiện đối tượng chuyển động thường có hai cách tiếp cận chính là dựa hoàn toàn vào phần cứng và dựa vào các kỹ thuật xử lý ảnh trên cơ sở xử lý các hình ảnh thu được, phân tích và kết luận xem có đối tượng có hành vi khác thường. Nếu trong đoạn video này có sự chuyển động bất thường của đối tượng thì được khoanh vùng các đối tượng chuyển động đó bằng hình vuông màu đỏ và được đếm số thứ tự tăng dần.
3.2. Phân tích bài toán
Phân tích đối tượng chuyển động đóng một vai trò quan trọng trong lĩnh vực thị giác máy tính. Các bước cơ bản cho quá trình theo dõi và phát hiện đối tượng đối tượng được thể hiện trong Hình 3.1. Việc phân tích video liên quan đến phát hiện đối tượng chuyển động, phân loại đối tượng, theo dõi đối tượng từ khung này sang khung khác.
43
Phát hiện đối tượng liên quan đến việc xác định các đối tượng từ khung video. Phân loại đối tượng dựa vào các đặc trưng của đối tượng được phân loại là vật chuyển động. Theo dõi đối tượng liên quan đến việc lựa chọn khu vực quan tâm và theo dõi chuyển động và vị trí của đối tượng từ khung video.
Hình 3.1. Các bƣớc quá trình phát hiện và theo dõi đối tƣợng
- Phát hiện đối tượng chuyển động là bước đầu tiên cho quy trình phân tích video. Điều này được thực hiện trong mỗi và mọi khung hình hoặc khi đối tượng đầu tiên xuất hiện trong video, xử lý với loại bỏ các đối tượng nền tĩnh chuyển động của đối tượng quan tâm. Sau các kỹ thuật về cơ bản tập
44
trung vào việc phát hiện các đối tượng chuyển động chủ yếu là nguồn thông tin chính của đối tượng.
+ Phương pháp so sánh khác biệt khung: Sự khác biệt giữa hai hình ảnh liên tiếp là được tính toán, mà xác định thêm đối tượng. Đối với các động lực khác nhau môi trường, phương pháp này có khả năng thích ứng mạnh mẽ, nhưng kết quả chính xác của việc phát hiện đối tượng không đứng yên không chính xác vì rất khó để có được hoàn chỉnh phác thảo của đối tượng chuyển động đó.
+ Phương pháp trừ nền: Mô hình nền là bước đầu tiên của nền phép trừ, được sử dụng để lấy mô hình tham chiếu. Mô hình tham chiếu này được so sánh với mỗi video trình tự để xác định sự biến đổi có thể có. Các sự tồn tại của đối tượng chuyển động được xác định bởi sự khác biệt giữa khung video hiện tại và khung hình xuyên suốt tính theo pixel.
+ Luồng quang học: Phương pháp này là để tính toán luồng lưu lượng quang học và thực hiện một quy trình được gọi là phân cụm dựa trên đặc điểm phân bố luồng quang của ảnh. Trong khi sự phức tạp trong tính toán, hiệu suất chống ồn kém khiến nó không đáng tin cậy cho các ứng dụng đòi hỏi thời gian thực.
- Phân loại đối tượng được thực hiện dựa trên đặc điểm hình dạng của chúng trong vùng chuyển động.
+ Phân loại dựa trên chuyển động có một gợi ý mạnh mẽ là thuộc tính tuần hoàn được thể hiện bởi một khớp nối không cứng nhắc chuyển động của đối tượng. Các đối tượng động không cứng nhắc như con người có thể có dòng dư trung bình lớn hơn và hiển thị một thành phần tuần hoàn, trong khi các đối tượng cứng nhắc dự kiến sẽ có ít dòng chảy dư.
45
phần của hình ảnh được tính theo kết cấu kỹ thuật. Sau đó, nó được tính toán bằng cách sử dụng chồng chéo chuẩn hóa tương phản cục bộ trên một lưới dày đặc các ô cách đều nhau để cải thiện độ chính xác.
- Phân loại dựa trên hình dạng: Biểu diễn của các điểm, hộp và đốm màu là khác nhau vùng chuyển động có sẵn để phân loại chuyển động đối tượng dựa trên thông tin hình dạng. Hỗn hợp các thông số dựa trên hình ảnh và dựa trên cảnh như khu vực đốm hình ảnh, thu phóng máy ảnh và rõ ràng tỷ lệ khung hình của hộp giới hạn đốm màu đóng vai trò là đầu vào các tính năng của mạng. Từng đốm màu ở mọi khung hình trải qua phân loại và biểu đồ giữ các kết quả.
+ Phân loại dựa trên màu sắc: Màu sắc dễ thu được và tương đối ổn định dưới các biến thể góc nhìn, không giống như hình ảnh khác đặc trưng. Trong thời gian thực để phát hiện và theo dõi các phương tiện, thuật toán dựa trên biểu đồ màu được sử dụng. Để phân đoạn hình ảnh thành nền và đối tượng và để mô tả sự phân bố màu sắc bên trong chuỗi hình ảnh.
- Theo dõi đối tượng là bước tiếp theo sau phát hiện đối tượng, là một kỹ thuật được sử dụng để theo dõi và cũng là hướng di chuyển của các đối tượng. + Dựa trên điểm: Là nhiệm vụ chung của thị giác máy với các ứng dụng khác nhau liên quan đến trong quá trình theo dõi các đối tượng chuyển động được hiển thị bằng các điểm đặc trưng của đối tượng. Theo dõi điểm là một vấn đề lớn, đặc biệt là trong việc phát hiện bất thường và tỷ lệ khớp.
+ Dựa trên khu vực: Thường được thực hiện bởi tính toán đối tượng không đứng yên mà hiển thị bởi vùng đối tượng chuyển động từ một khung này sang khung khác.
46
hảo của hình dạng đối với những đối tượng đó sẽ được cung cấp bởi cách tiếp cận này. Mục tiêu của cơ chế theo dõi này là phát hiện vùng đối tượng trong mọi khung hình với sự trợ giúp của một mô hình đối tượng thu được bởi các khung trước đó.
3.3. Xây dựng chƣơng trình thử nghiệm
Để minh họa cho những kỹ thuật đã được nghiên cứu ở Chương 2 và những nội dung phân tích về bài toán nêu trên, luận văn tiến hành thử nghiệm cho bài toán ứng dụng cụ thể. Bài toán được ứng dụng cài đặt thử nghiệm bằng ngôn ngữ lập trình Visual C++ trên nền tảng bộ công cụ Microsoft Visual Studio phiên bản 2015. Các bước chính để giải quyết bài toán được thể hiện trong sơ đồ sau:
47
- Video đầu vào: Video đầu vào được thu từ camera giám sát đặt ở vị trí
cố định với mức ánh sáng tốt và ảnh nền không thay đổi.
- Lấy khung hình từ video: Lấy từng khung hình từ video đưa vào.
- Khởi tạo Background: Lấy khung hình đầu tiên làm Background.
- Trừ nền: Áp dụng kỹ thuật trừ nền, tìm sự khác biệt giữa background
và foreground. Trừ các giá trị điểm ảnh giữa ảnh khung hình và ảnh nền để tìm được ảnh khác biệt.
- Gom nhóm, đưa ra ảnh nhị phân: Xử lý đưa ra ảnh nhị phân. Sau khi
tìm được ảnh khác biệt thì tiến hành chuyển đổi ảnh khác biệt, tìm ngưỡng và dựa vào ngưỡng đưa ra ảnh nhị phân.
- Xác định đối tượng: Từ ảnh nhị phân, tiếp tục tiến hành sử dụng các
phương pháp phân loại đối tượng và theo dõi đối tượng để phân tích đánh giá các đặc tính của đối tượng và khoanh vùng các đối tượng. Dựa vào mặt nạ thực hiện khoanh vùng đối tượng trên hình ảnh màu, xác định đối tượng chuyển động.
- Kết quả: Video chứa các đối tượng chuyển động đã được khoanh vùng
màu xanh và được đếm số thứ tự tăng dần.
3.3.1. Thiết lập thử nghiệm
- Trong quá trình thử nghiệm kết quả, các video mẫu sẽ được truyền vào trực tiếp trong phần Crowd Property của chương trình bằng đường dẫn tuyệt đối. Cụ thể là đưa đường dẫn trực tiếp vào ô Command.
- Các mẫu video thử nghiệm được thu thập từ nguồn:
https://motchallenge.net/data/2D_MOT_2015/?chl=2&orderBy=frame_ rate&orderStyle=DESC
48
Hình 3.3. Cách truyền video vào chƣơng trình thử nghiệm
- Sau khi thực hiện, chương trình sẽ hiện lên 03 khung màn hình:
+ Màn hìnhChuyendong: Màn hình chính của chương trình, hiển thị màn hình màu trắng đen dùng để so sánh giữa các khung hình khác khi phát hiện