Phát hiện các đối tƣơ ̣ng

2.2.1 Phát hiện nền

Mục đích chính của phát hiện tiền cảnh là để phân biệt đối tƣợng ở tiền cảnh từ các nền tĩnh. Đa phần mỗi hệ thống video giám sát sử dụng bƣớc đầu tiên là phát hiện đối tƣợng tiền cảnh. Điều này tạo ra trọng tâm chú ý cho các cấp xử lý cao hơn nhƣ theo dõi, phân loại và nhận biết hành vi và làm giảm thời gian tính toán đáng kể, vì chỉ có pixel thuộc đối tƣợng bề mặt cần phải đƣợc xử lý [1].

Phƣơng pháp trừ ảnh nền là phƣơng pháp rất phổ biến và hiệu quả trong việc giải quyết phân đoạn với những đoạn hình ảnh có khung cảnh tĩnh. Kỹ thuật trừ ảnh [1], bằng việc sử dụng phép trừ ảnh ở mức điểm ảnh, một khung hình sẽ đƣợc so sánh với một hình nền để từ đó đƣa ra vùng các điểm

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

đƣợc hiểu nhƣ là các điểm ảnh nổi lên trên ảnh nền. Sau khi tìm ra các vùng ảnh nổi, các vùng này sẽ đƣợc xử lý để lọc đi các nhiễu, các vết không phù hợp bằng một số thuật toán lọc nhiễu khác nhau.

Cụ thể xét một điểm ảnh I (x,y) trong một khung hình mới và B (x,y) là điểm ảnh trên ảnh nền đều có tọa độ (x, y). Điểm ảnh I đƣợc coi là điểm ảnh nổi (foreground) nếu :

𝐼 𝑥, 𝑦 − 𝐵(𝑥, 𝑦) > 𝜏 (2-1)

Trong đó  là một ngƣỡng đƣợc định nghĩa từ trƣớc

Ảnh nền B đƣợc cập nhật bằng cách sử dụng phƣơng pháp lọc Infinite Impulse Response (IIR) theo công thức sau:

𝐵𝑡+1 = 𝛼𝐼𝑡 + (1 − 𝛼)𝐵𝑡 (2-2)

Trong đó It là điểm ảnh nổi tại thời điểm t, Bt là diểm anh nền tại thời điểm t, là tham số đƣợc định nghĩa trƣớc

Phƣơng pháp trừ ảnh nền đƣợc sử dụng khá phổ biến song nó không là lựa chọn tốt đối với những đoạn video có khung cảnh không ổn định ví dụ nhƣ khung cảnh ánh sáng luôn bị thay đổi liên tục hay những khung cảnh có độ nhiễu lớn (ví dụ nhƣ những cây luôn dao động liên tục khi có gió).

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

Hình 2-1 : Phát hiện nền

Bƣớc đầu tiên là khởi tạo cảnh nền. Có những kỹ thuật khác nhau đƣợc sử dụng để mô hình cảnh nền. Cảnh nền các bộ phận của hệ thống liên quan bị cô lập và kết hợp với các module đƣợc giữ tối thiểu khác để toàn bộ hệ thống phát hiện làm việc linh hoạt với bất kỳ một trong những mô hình nền [8].ss

Bƣớc tiếp theo trong phƣơng pháp phát hiện là phát hiện các điểm ảnh tiền cảnh bằng cách sử dụng mô hình nền và hình ảnh hiện tại từ video. Quá trình phát hiện cấp điểm ảnh này phụ thuộc vào mô hình nền đang dùng và Đó là đƣợc sử dụng để cập nhật các mô hình nền để thích ứng với những thay đổi cảnh động [5]. Ngoài ra, do độ nhiễu của camera hoặc tác động môi trƣờng bản đồ điểm ảnh tiền cảnh đƣợc phát hiện chứa cả độ nhiễu.

Hoạt động sau xử lý cấp pixel đƣợc thực hiện để loại bỏ nhiễu trong các điểm ảnh tiền cảnh. Một khi ta có đƣợc các điểm ảnh cận cảnh đã đƣợc lọc, trong bƣớc tiếp theo, vùng liên kết đƣợc tìm thấy bằng cách sử dụng một thuật toán ghi nhãn thành phần liên thông và biên đối tƣợng dạng khung chữ

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

gần là do khiếm khuyết trong quá trình phân chia tiền cảnh. Do đó, một số vùng tƣơng đối nhỏ do độ nhiễu môi trƣờng đƣợc loại bỏ trong các bƣớc sau xử lý cấp vùng [20]. Trong bƣớc cuối cùng của quá trình phát hiện, một số đặc điểm của đối tƣợng nhƣ vùng, hộp ranh giới, chu vi của vùng tƣơng ứng với các đối tƣợng đƣợc chiết xuất từ hình ảnh hiện tại bằng cách sử dụng bản đồ pixel tiền cảnh.

2.2.2 Chênh lệch tạm thời

Phƣơng pháp chênh lệch tạm thời (Temporal Differencing) thực hiện việc phát hiện vùng chuyển động bằng cách sử dụng sự khác nhau ở mức điểm ảnh giữa hai hoặc ba khung hình liên tiếp trong một chuỗi các khung hình video. Phƣơng pháp này khá tốt đối với khung cảnh động nhiều thay đổi song nó lại thất bại trong việc phát hiện ra các điểm ảnh có liên quan đến một số kiểu chuyển động. Ví dụ đối tƣợng chuyển động trong hình dƣới đây. Vùng ảnh màu đỏ là vùng đƣa ra các điểm ảnh khác nhau dựa trên phƣơng pháp chênh lệch tạm thời song nó không thể đƣa đƣợc ra tất các các vùng chuyển động của ngƣời đó.

Hình 2-2: Mô tả nhƣợc điểm của phƣơng pháp chênh lệch tạm thời. Ngƣời mặc áo đen di chuyển quá chậm do đó khôg thể đƣa ra đƣợc cả vùng đối tƣợng di chuyển mà chỉ đƣa ra đƣợc một phần đối tƣợng nổi lên khác nhau giữa hai khung hình liên tiếp.

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

𝐼𝑡 𝑥, 𝑦 − 𝐼𝑡−1(𝑥, ) > 𝜏 (2-3)

Trong đó It là điểm ảnh có tọa độ (x,y) của khung hình tại thời điểm t còn It-1 là điểm ảnh có tọa độ (x,y) của khung hình tại thời điểm t-1. Còn  là ngƣỡng đƣợc định nghĩa trƣớc đó.

2.2.3 Phát hiện các vùng liên kết

Sau khi phát hiện vùng cận cảnh và áp dụng các phép xử lý sau để loại bỏ các vùng nhiễu, các điểm ảnh cận cảnh đã lọc đƣợc nhóm lại thành các vùng liên kết. Sau khi tìm thấy các vùng riêng biệt tƣơng ứng với các đối tƣợng, các hộp ranh giới của các vùng này đƣợc tính.

2.2.4 Tiền xử lý các vùng ảnh nổi

Nhƣ loại bỏ nhiễu cấp điểm ảnh, vẫn còn lại một số vùng nhỏ tạo ra do những phân vùng xấu. Để loại các vùng kiểu này, các vùng có kích thƣớc nhỏ hơn một ngƣỡng xác định trƣớc sẽ bị xóa khỏi bản đồ điểm ảnh tiền cảnh. Sau khi phân chia vùng ta có thể trích xuất các đặc điểm của các đối tƣợng tƣơng ứng từ hình ảnh hiện tại. Những đặc điểm này là kích thƣớc, trung tâm của khối hoặc chỉ là trọng tâm và Vùng đƣợc đóng khung của các thành phần kết nối. Những đặc điểm này đƣợc sử dụng để theo dõi đối tƣợng và phân loại để xử lý sâu hơn trong việc phát hiện sự kiện.

2.2.5 Xác định tính chất đối tƣợng

Đầu vào của bài toán phân loại đối tƣợng chuyển động là các vết đối tƣợng, các đặc trƣng của đối tƣợng đã đƣợc phát hiện thông qua khối xử lý phát hiện đối tƣợng. Cụ thể là hình bao, diện tích, trọng tâm, biểu đồ màu của vùng đối tƣợng chuyển động đƣợc phát hiện.

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

lớp đối tƣợng chuyển động đƣợc phát hiện. Cụ thể: đối tƣợng thuộc lớp nào (ngƣời, phƣơng tiện, …) và thông tin về các thuộc tính của đối tƣợng trong lớp đó.

Phân loại đối tƣợng là quá trình phân lớp đối tƣợng chuyển động thuộc lớp sự vật nào (ngƣời, phƣơng tiện, …). Các vùng chuyển động phát hiện đƣợc (trong bƣớc phát hiện đối tƣợng chuyển động) trong video tƣơng ứng với các đối tƣợng khác nhau nhƣ ngƣời bộ hành, xe cộ, … Nhận biết kiểu (loại) của một đối tƣợng phát hiện đƣợc để theo dõi tin cậy và phân tích hành động của nó một cách chính xác là rất quan trọng. Module này là phần thứ hai trong mô hình xử lý hình ảnh. Hiện tại, có hai cách tiếp cận chủ yếu:

 Phƣơng pháp dựa trên hình dạng (shape)

 Phƣơng pháp dựa trên sự chuyển động (motion) .

Các phƣơng pháp dựa trên hình dạng sử dụng thông tin không gian hai chiều của đối tƣợng trong khi đó các phƣơng pháp dựa trên sự chuyển động sử dụng các đặc trƣng thuộc thời gian đã đƣợc theo dõi của các đối tƣợng cho giải pháp phân loại.

2.2.6 Phân lớp đối tƣợng

Các đặc trƣng thông thƣờng đƣợc sử dụng trong việc phân loại dựa trên hình dạng (Shape- based Classification) là hình bao, diện tích, hình chiếu, và gradient của các vùng đối tƣợng phát hiện đƣợc.

Cách tiếp cận sử dụng độ dài đƣờng viền hình chiếu của đối tƣợng và thông tin về diện tích để phân loại các đối tƣợng phát hiện đƣợc vào ba nhóm: ngƣời, xe cộ, và các loại khác. Phƣơng pháp xuất phát từ giả thuyết ngƣời nhỏ hơn các phƣơng tiện (xe cộ) và có các hình dạng phức tạp. Độ phân tán

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

dƣới dạng diện tích và độ dài (chu vi) đƣờng viền nhƣ sau:

Area Perimeter ess

Dispersedn  (2-4)

Việc phân loại đƣợc thực hiện tại mỗi khung hình và các kết quả theo dõi đuợc sử dụng để cải thiện sự nhất quán thời gian của việc phân loại.

Phƣơng pháp phân loại phát triển bởi Collins sử dụng các đặc trƣng trực quan phụ thuộc của các đối tƣợng để huấn luyện một bộ lọc mạng nơron nhận biết bốn lớp đối tƣợng: ngƣời, nhóm ngƣời, xe cộ và các loại khác. Đầu vào của mạng nơron là độ phân tán, diện tích và tỉ lệ bề ngoài của vùng đối tƣợng và độ phóng đại của camera. Giống nhƣ phƣơng pháp trƣớc, việc phân loại đƣợc thực hiện tại mỗi khung hình. Các kết quả đƣợc giữ trong một lƣu đồ (histogram) để cải thiện sự nhất quán thời gian của việc phân loại.

2.2.7 Phân loại dựa trên chuyển động

Một vài phƣơng pháp chỉ sử dụng các đặc trƣng chuyển động (Motion- based Classification) thuộc thời gian của đối tƣợng nhằm nhận biết lớp của chúng Thông thƣờng, chúng đƣợc dùng để phân biệt các đối tƣợng linh động (non-rigid) (ví dụ: ngƣời) với các đối tƣợng không linh động (ví dụ: xe cộ). Phƣơng pháp dựa trên sự tự tƣơng đồng mang tính thời gian của một đối tƣợng chuyển động. Bởi vì một đối tƣợng thể hiện sự tiến triển mang tính chu kỳ của chuyển động, các độ đo sự tự tƣơng đồng của nó cũng chỉ ra một chuyển động mang tính chu kỳ. Phƣơng pháp khai thác đầu mối này để phân loại đối tƣợng chuyển động sử dụng tính chu kỳ.

Sự phân tích luồng quang học cũng có ích để phân biệt các đối tƣợng linh động và không linh động (rigid và non-rigid). A.J.Lipton đề xuất một phƣơng pháp sử dụng luồng quang học cục bộ phân tích các vùng đối tƣợng. Các đối tƣợng linh động nhƣ ngƣời đƣợc trông đợi sẽ có luồng thặng dƣ

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

cộ sẽ có luồng thặng dƣ thấp. Theo đó, luồng thặng dƣ sinh ra bởi chuyển động của ngƣời sẽ có một tính chu kỳ. Bằng cách sử dụng phƣơng pháp này, chuyển động của ngƣời, vì vậy ngƣời, có thể đƣợc phân biệt với các đối tƣợng khác nhƣ xe cộ.

Hai cách tiếp cận thông thƣờng đƣợc đề cập ở trên, gọi tên là phân loại dựa trên hình dạng và phân loại dựa trên chuyển động có thể đƣợc kết hợp một cách có hiệu quả cho việc phân loại đối tƣợng chuyển động. Hơn nữa, Stauffer đề xuất một phƣơng phƣơng pháp dựa trên ma trận thời gian đồng sự kiện (co-occurrence matrix) để phân loại một cách phân cấp cả các đối tƣợng và hành vi. Bằng cách sử dụng thêm các đặc trƣng nhƣ màu và vận tốc phƣơng pháp này đƣợc mong đợi sẽ cho kết quả phân loại chính xác hơn.

Tóm lại, phân loại đối tƣợng trong các hình ảnh video là một vấn đề đối tƣợng tƣơng đối khó. Mỗi phƣơng pháp có ƣu và nhƣợc điểm riêng phù hợp với từng hoàn cảnh, bài toán khác nhau. Để đạt đƣợc hiệu quả tốt, ta cần phân tích bài toán, hoàn cảnh cụ thể và lựa chọn phƣơng pháp thích hợp. Trong bài toán theo dõi giám sát giao thông chúng tôi lựa chọn phƣơng pháp phân loại dựa trên hình chiếu.

Các thuật toán so sánh

Theo vết đối tƣợng