Chƣơng 1 : TỔNG QUAN VỀ ĐỀ TÀI NGHIÊN CỨU
2.1. Kỹ thuật phát hiện chuyển động
2.1.1. Giới thiệu
Phát hiện chuyển động là nhiệm vụ đầy thách thức, một kỹ thuật quan trọng trong phân tích đám đơng chuyển động là xác định đặc trưng bởi các mẫu chuyển động thường xuyên như hướng, mật độ, tốc độ, và bất thường chuyển động,… Giám sát và mơ hình hóa đám đơng để phân tích hành vi của đối tượng đó trong đám đơng là bình thường hay bất bình thường.
Hình 2.1. Phát hiện đối tƣợng có hành động đi tốc độ nhanh đƣợc khoanh vùng.
Phát hiện đối tượng chuyển động là bước cơ bản để tiếp tục phân tích video. Mọi phương pháp theo dõi đều yêu cầu một đối tượng cơ chế phát hiện trong mọi khung hình hoặc khi đối tượng lần đầu tiên xuất hiện trong video. Nó xử lý phân đoạn di chuyển vật thể từ vật thể nền tĩnh. Điều này tập trung trên xử lý cấp cao hơn. Nó cũng làm giảm tính tốn thời gian. Do điều kiện
22
môi trường như ánh sáng thay đổi, phân đoạn đối tượng bóng trở nên khó khăn và vấn đề đáng kể. Một cách tiếp cận phổ biến để phát hiện đối tượng là sử dụng thông tin trong một khung duy nhất. Tuy nhiên, một số đối tượng phương pháp phát hiện tận dụng thông tin tạm thời được tính tốn từ một chuỗi các khung để giảm số lượng phát hiện sai. Thông tin tạm thời này thường ở hình thức phân biệt khung hình, làm nổi bật các vùng thay đổi động trong các khung liên tiếp.
Hình 2.2. Mơ hình phát hiện đối tƣợng chuyển động
Phát hiện tiền cảnh:
Mục đích chính của phát hiện tiền cảnh là phân biệt các đối tượng ở tiền cảnh với đối tượng đứng sau. Hầu hết, mỗi hệ thống giám sát video sử dụng bước đầu tiên là phát hiện các đối tượng tiền cảnh. Điều này tạo ratrọng tâm của sự chú ý cho các cấp độ xử lý cao hơn, chẳng hạn như theo dõi, phân loại và hiểu hành vi và giảm thời gian tính tốn đáng kể vì chỉ có pixel thuộc đối tượng tiền cảnh cần được xử lý.
Bước đầu tiên là khởi tạo cảnh nền. Đó là các kỹ thuật khác nhau được
MƠ HÌNH NỀN PHÁT HIỆN TIỀN CẢNH XỬ LÝ CẤP ĐỘ PIXEL VÙNG ĐƢỢC KẾT NỐI XỬ LÝ CẤP ĐỘ VÙNG KHUNG VIDEO ĐỐI TƢỢNG CHUYỂN ĐỘNG
23
sử dụng để tạo mơ hình cảnh nền. Các phần liên quan đến cảnh nền của hệ thống bị cơ lậpvà khớp nối của nó với các mơ-đun khác được giữ ở mức tối thiểu để cho phép toàn bộ hệ thống phát hiện hoạt động linh hoạt với bất kỳ một trong các mơ hình nền.
Bước tiếp theo trong phương pháp phát hiện là phát hiện pixel nền trước bằng cách sử dụng mơ hình nền vàhình ảnh hiện tại từ video. Quy trình phát hiện mức pixel này phụ thuộc vào mơ hình nền đang được sử dụng và nó được sử dụng để cập nhật mơ hình nền để thích ứng với cảnh động thay đổi. Ngồi ra, do tiếng ồn của máy ảnh hoặc mơi trường ảnh hưởng của bản đồ pixel nền trước được phát hiện có chứa nhiễu. Các hoạt động xử lý hậu kỳ cấp pixel được thực hiện để loại bỏ nhiễu ở các pixel nền trước. Khi chúng tôi nhận được các pixel nền trước đã lọc, trong bước tiếp theo, các vùng được kết nối được tìm thấy bằng cách sử dụng thuật tốn gắn nhãn thành phần được kết nốivà các hình chữ nhật giới hạn của đối tượng được tính tốn. Các nhãn các vùng có thể chứa các vùng gần nhưng tách rời do các khiếm khuyết trong quá trình phân đoạn tiền cảnh. Do đó, một số tương đối các vùng nhỏ do tiếng ồn môi trường gây ra được loại bỏ trong bước xử lý sau cấp vùng. Trong bước cuối cùng củaquá trình phát hiện, một số tính năng của đối tượng như khu vực, hộp giới hạn, chu vi của các vùng tương ứng với các đối tượng được trích xuất từ hình ảnh hiện tại bằng cách sử dụngbản đồ pixel nền trước.
Xử lý cấp độ pixel:
Đầu ra của phát hiện tiền cảnh chứa nhiễu. Nói chung, nó ảnh hưởng bởi các yếu tố tiếng ồn khác nhau. Vượt qua vấn đề nan giải về nhiễu này, nó địi hỏi xử lý mức pixel cao hơn. Có nhiều yếu tố gây ra tiếng ồn trong phát hiện tiền cảnh chẳng hạn như: Tiếng ồn của máy ảnh, tiếng ồn của máy ảnh xuất hiện do hình ảnh của máy ảnhcác thành phần mua lại. Đây là tiếng ồn docác
24
thành phần thu nhận hình ảnh của máy ảnh. Tiếng ồn này là tạo ra do cường độ của pixel tương ứng đến một cạnh giữa hai đối tượng màu khác nhau trong cảnh có thể được đặt thành một trong các màu của đối tượng trong một khung vàmàu khác trong khung tiếp theo. Màu của đối tượngcó thể có cùng màu với nền tham chiếu khó phát hiện các pixel nền trước với sự trợ giúp của tham chiếu nền. Tiếng ồn phản xạ gây ra bởi ánh sáng nguồn. Khi một nguồn sáng di chuyển từ vị trí này đến khác, một số bộ phận trong cảnh nền phản chiếu ánh sáng.
Chúng ta có thể sử dụng bộ lọc thơng thấp và các phép tốn hình thái học, xói mịn và giãn nở, đến bản đồ pixel nền trước để loại bỏ tiếng ồn gây ra bởi các mục liệt kê ở trên. Mục tiêu của chúng tôi trongáp dụng các thao tác này là loại bỏ tiền cảnh ồn ào pixel không tương ứng với các vùng tiền cảnh thực tế, và để loại bỏ các pixel nền nhiễu gần và bên trong vùng đối tượng thực sự là pixel nền trước. Vượt qua thấpbộ lọc được sử dụng để làm mờ và giảm nhiễu. Làm mờ được sử dụng trong các tác vụ tiền xử lý, chẳng hạn như loại bỏchi tiết từ một hình ảnh trước khi trích xuất đối tượng lớn và bắc cầu của các khe hở nhỏ trong các đường hoặc đường cong. Gaussian thấp quabộ lọc được sử dụng để xử lý bài đăng cấp pixel. Một bộ lọc Gaussian làm mịn hình ảnh bằng cách tính tốn trung bình có trọng số trong một bộ lọc đồng hiệu quả. Bộ lọc Gaussian sửa đổi đầu vàotín hiệu bằng tích chập với một hàm Gaussian.
Phát hiện các vùng được kết nối:
Sau khi phát hiện các vùng tiền cảnh và áp dụng các hoạt động xử lý hậu kỳ để loại bỏ các vùng nhiễu, các pixel nền trước đã lọc được nhóm lại thành các vùng được kết nối. Sau khi tìm các vùng riêng lẻ tương ứng với các đối tượng, các hộp giới hạn của các vùng này được tính tốn.
25
Xử lý sau cấp độ vùng:
Khi nhiễu ở mức pixel được loại bỏ, vẫn còn một số nhỏ nhân tạo các vùng vẫn cịn chỉ vì sự phân đoạn không tốt. Đến loại bỏ loại vùng này, vùng có kích thước nhỏ hơn hơn ngưỡng xác định trước sẽ bị xóa khỏi nền trước bản đồ pixel. Sau khi phân đoạn các vùng, chúng ta có thể trích xuất các tính năng của các đối tượng tương ứng từ hình ảnh hiện tại. Các tính năng như kích thước, khối lượng trung tâm hoặc chỉ là tâm và được và vùng giới hạn của thành phần được kết nối. Các tính năng này được sử dụng cho theo dõi và phân loại đối tượng để xử lý thêm trong phát hiện sự kiện.
2.1.2. Kỹ thuật trừ nền
Kỹ thuật trừ nền là một cách tiếp cận được sử dụng rộng rãi để phát hiện các đối tượng chuyển động trong video từ máy ảnh tĩnh. Cơ sở tiếp cận là phát hiện các đối tượng chuyển động từ sự khác biệt giữa hệ quy chiếu hiện tại và hệ quy chiếu, thường được gọi là "hình nền" hoặc "mơ hình nền". Như một cơ bản, hình nền phải là đại diện của cảnh khơng có vật thể chuyển động và phải được giữ thường xuyên cập nhật để thích ứng với các mức giá khác nhau điều kiện và cài đặt hình học. Các mơ hình phức tạp hơn đã mở rộng khái niệm "nền tảng phụ" ngồi nghĩa đen của nó [19].
Phát hiện đối tượng có thể đạt được bằng cách xây dựng một đại diện của cảnh được gọi là mơ hình nền và sau đó tìm độ lệch khỏi mơ hình cho mỗi khung hình đến. Bất kỳ thay đổi đáng kể nào trong vùng hình ảnh so với mơ hình nền đều biểu thị sự chuyển động vật. Các pixel cấu thành các vùng đang thay đổi được đánh dấu để biết xử lý, tiến trình này được gọi với một tên chung là tách nền. Thông thường, một thuật toán thành phần được kết nối được áp dụng để có được các vùng tương ứng với các đối tượng. Quy trình tổng quan của kỹ thuật trừ nền [20].
26
Hình 2.3. Quy trình trừ nền
Các thay đổi chính đối với nền được phân loại thành: - Theo sự thay đổi độ sáng (illumination changes)
+ Thay đổi độ sáng từ từ do nguồn sáng (mặt trời) chuyển động.
+ Thay đổi độ sáng đột ngột do nguồn sáng bị thay đổi: trời chuyển giữa mưa và nắng, đèn trong phòng chuyển từ bật sang tắt hoặc ngược lại.
+ Ảnh hưởng của nguồn sáng tới bóng của vật trên nền. - Thay đổi chuyển động (motion changes)
+ Hình ảnh thay đổi do camera dịch chuyển.
+ Chuyển động trong các thành phần của nền như cành cây đung đưa, nước chảy…
27
- Thay đổi được báo trước: Chuyển động của chiếc ô tô từ từ dời khỏi điểm đỗ, người di chuyển ra khỏi phòng….
Hình 2.4. Kỹ thuật trừ nền
Một số phương pháp để thực hiện kỹ thuật trừ nền được miêu tả dưới đây. Tất cả các phương pháp này đều cố gắng ước tính hiệu quả mơ hình nền từ trình tự thời gian của khung. Cách tiếp cận đơn giản, nhằm tối đa hóa tốc độ và hạn chế yêu cầu bộ nhớ, đến phức tạp hơn. Phương pháp tiếp cận, nhằm đạt được mức cao nhất có thể độ chính xác trong mọi trường hợp có thể. Tuy nhiên, các phương pháp tiếp cận nhằm vào hiệu suất thời gian thực, do đó một giới hạn thấp hơn về tốc độ luôn tồn tại [18].
Một số mơ hình trừ nền:
2.1.2.1. Running Gausian Average (RGA):
Lập mơ hình hóa nền độc lập tại mỗi vị trí pixel (i,j). Các mơ hình dựa
trên lý tưởng phù hợp với xác suất Gaussian hàm mật độ (pdf ) trên giá trị n pixel cuối cùng [19]. Theo thứ tự để tránh lắp pdf từ đầu vào mỗi khung mới thời gian t, mức trung bình đang chạy (hoặc tích lũy trực tuyến) được tính dưới dạng:
28
trong đó I, là giá trị hiện tại của pixel và u, là giá trị trước đó Trung bình cộng; a là trọng số thực nghiệm thường được chọn làm đánh đổi giữa sự ổn định và cập nhật nhanh chóng. Mặc dù khơng được nêu rõ ràng trong phần theo dõi thời gian thực của cơ thể con người, tham số khác của Gaussian pdf, độ lệch chuẩn Ϭ1, có thể được tính tương tự. Ngồi tốc độ, lợi thế của trung bình nmning được đưa ra bởi yêu cầu bộ nhớ thấp: đối với mỗi pixel, điều này bao gồm hai tham số (µ1, Ϭ1) thay vì các bộ đệm với cuối n giá trị pixel.
Tại mỗi thời gian khung hình t, giá trị pixel I1 sau đó có thể là được phân loại là pixel nền trước nếu sự bất bình đẳng:
nắm giữ; nếu khơng thì, It sẽ được phân loại là nền. Các phép trừ tên nền thường được sử dụng để chỉ ratập hợp các kỹ thuật này thực sự bắt nguồn từ đối tượng chuyển động trong video.
Trong phần hướng tới mạnh mẽ phân tích cảnh giao thơng tự động trong thời gian thực nhận xét rằng mơ hình trong (Hình 2.4) là cũng được cập nhật
quá mức khi xảy ra giá trị tiền cảnh. Vì lý do này, họ đề xuất sửa đổi bản cập nhật mơ hình như:
trong đó, giá trị nhị phân M là 1 tương ứng với giá trị nền trước và 0 nếu không. Cách tiếp cận này cũng được gọi là cập nhật nền có chọn lọc .
Như mơ hình theo dõi thời gian thực của cơ thể con người đã được đề xuất cho cường độ hình ảnh, phần mở rộng có thể được thực hiện cho nhiều thành phần không gian màu như (R, G, B), (Y, U, V) và các không gian màu khác.Hơn nữa, nếu các yêu cầu thời gian thực hạn chế tải tính tốn, tốc độ cập
(2.2)
29
nhật của một trong hai , µ hoặc Ϭ có thể được đặt thành nhỏ hơn tỷ lệ (khung) mẫu. Tuy nhiên, tỷ lệ cập nhật của mơ hình nền càng thấp, ít hơn một hệ thống sẽ được thể để nhanh chóng đáp ứng với những thực tế động nền.
2.1.2.2. Temporal median filter (TMF):
Sử dụng giá trị trung bình trong số n khung cuối cùng làm mơ hình nền. Trong phát hiện vật thể chuyển động, giá trị trung bình như vậy cung cấp mơ hình nền phù hợp ngay cả khi n khung là phụ được lấy mẫu đối với tốc độ khung hình gốc theo một hệ số 10. Ngoài ra, phát hiện vật thể chuyển động tính tốn trung vị trên một bộ giá trị đặc biệt chứa n cuối cùng, được lấy mẫu con khung và w lần giá trị trung bình được tính gần đây nhất. Điều này sự kết hợp làm tăng tính ổn định của nền mơ hình.
Nhược điểm chính của phương pháp tiếp cận dựa trên trung vị là tính tốn của nó u cầu một bộ đệm với giá trị pixel. Hơn nữa, bộ lọc trung vị không phù hợp với một mô tả thống kê chặt chẽ và không cung cấp một thước đo độ lệch để điều chỉnh ngưỡng trừ.
2.1.2.3. Sequential Kernel Density Spproximation (SKDA):
Các kỹ thuật vector dịch chuyển trung bình gần đây đã được sử dụng cho các vấn đề nhận dạng khác nhau như phân đoạn và theo dõi hình ảnh. Vector dịch chuyển trung bình là một kỹ thuật tăng độ dốc hiệu quả có thể để phát hiện trực tiếp từ dữ liệu mẫu với một tập hợp các giả định. Vectơ dịch chuyển trung bình chỉ được sử dụng cho một khởi tạo mơ hình ngoại tuyến. Trong bước này, đầu bộ chế độ Gaussian của pdf nền được phát hiện từ tập mẫu ban đầu. Cập nhật mơ hình thời gian thực là thay vào đó được cung cấp bởi phương pháp phỏng đốn đơn giản đối phó với chế độ thích ứng, sáng tạo và hợp nhất. So sánh pdf thu được với phương pháp KDE qua video thử nghiệm 500 khung hình, tìm lỗi bình phương tích hợp thấp theo thứ tự 10-4. Qua video
30
thử nghiệm ở phần SKDA ứng dụng vào mơ hình nền, số lượng các cấp độ cho thấy thay đổi từ 3 đến 11, với mức trung bình trong số 8.
2.1.2.4. Cooccurrence of image varitions (CIV):
Thay vì hoạt động ở độ phân giải pixel, CIV hoạt động trên các khối trong số N*N pixel được coi là vectơ thành phần N2. Điều này thay đổi độ phân giải với tốc độ và độ ổn định tốt hơn. Đối với mỗi khối, một số mẫu thời gian nhất định, giá trị trung bình theo thời gian được tính lần đầu tiên và sự khác biệt giữa các mẫu và mức trung bình là được gọi là các biến thể hình ảnh. Các N2
*N2 ma trận phương sai được tính với mức trung bình và một phép biến đổi eigenvector là đã áp dụng giảm kích thước của các biến thể hình ảnh từ N2
đến K.
2.1.2.5. Eigenbackgrounds:
Dựa trên sự phân hủy eigenvalue, nhưng lần này được áp dụng cho tồn bộ hình ảnh thay vì các khối. Như một miền khơng gian mở rộng có thể khám phá rộng rãi khơng gian tương quan và tránh hiệu ứng lát của khối phân vùng.
- Một mẫu gồm n hình ảnh được thu thập, mỗi hình ảnh có p điểm ảnh; hình ảnh trung bình µB, sau đó được tính tốn và tất cả hình ảnh có nghĩa là bị trừ;
- Ma trận phương sai được tính tốn và M eigenvector tốt nhất được lưu trữ trong ma trận eigenvector ΦMb, của kích thước M*p.
- Mỗi khi một hình ảnh mớiI có sẵn, nó được chiếuvào eigenspace như là I' = ΦMb (I - Mb);
- I’chiếu trở lại khơng gian hình ảnh như là I”=ΦTMbI’+µb. Vì eigenspace là một mơ hình tốt cho các phần tĩnh của cảnh, nhưng khơng cho các chuyển động nhỏ đối tượng, I” sẽ không chứa bất kỳ đối tượng nào như vậy;
31
- Các điểm tiền cảnh cuối cùng được phát hiện tại các vị trí I - I”│>T.