Khả năng phát hiện các đối tượng còn lại và bị xóa đi hiển nhiên là quan trọng trong một số ứng dụng giám sát bằng hình ảnh. Phát hiện các đối tượng còn lại, như là túi hành lý không người trông coi ở các sân bay hay một chiếc xe đậu trước 1 tòa nhà nhạy cảm về mặt an ninh, là rất quan trọng vì những điều như thế có thể là do bọn khủng bố tiến hành để hại người. Mặt khác, việc bảo vệ các đối tượng không bị xóa nếu không được phép lại có những ứng dụng quan trọng như: giám sát các viện bảo tàng, các phòng trưng bày nghệ thuật hay thậm chí là các cửa hàng bách hóa để ngăn nạn trộm cắp. Do những ứng dụng quan trọng này, đối tượng còn lại/bị xóa đi là phần quan trọng của hệ thống giám sát.
Hệ thống nếu ra trong luận văn này có thể phát hiện và phân biệt các đối tượng còn lại và bị xóa đi trong các hình ảnh video. Để đạt được điều này thì cần sử dụng một lược đồ loại bỏ nền thích ứng, phương pháp lần vết đối tượng và phương pháp “thử nghiệm để tìm ra giải pháp và rút tỉa kinh nghiệm” để phân biệt các đối tượng còn lại và các đối tượng bị xóa đi. 3 bước để phát hiện các đối tượng còn lại hay bị xóa đi là như sau:
1. Phát hiện 1 sự thay đổi giữa hình ảnh hiện thời với hình ảnh nền tham chiếu bằng cách sử dụng lược đồ loại bỏ nền thích ứng.
2. Quyết định xem vùng được phát hiện là tương ứng với đối tượng còn lại hay bị xóa đi bằng cách sử dụng phương pháp lần vết đối tượng.
Trần Xuân Linh - K11T2 Trang 63 3. Phân biệt các đối tượng còn lại với các đối tượng bị xóa đi bằng cách sử
dụng thuộc tính màu sắc mang tính thống kê của những vùng được phát hiện và những vùng lân cận nó.
(a) (b)
(c) (d)
(e) (f)
(g)
Hình 2.15 Nhận diện đối tượng sau khi bị che khuất
a) hình ảnh trước khi bị che khuất b) hình ảnh sau khi bị che khuất
Trần Xuân Linh - K11T2 Trang 64
c) hình đồ màu sắc của đối tượng A trước khi bị che khuất d) hình đồ màu sắc của đối tượng B trước khi bị che khuất e) hình đồ màu sắc của đối tượng A sau khi bị che khuất f) hình đồ màu sắc của đối tượng B sau khi bị che khuất
g) bảng khoảng cách hình đồ được chuẩn hóa của đối tượng A và B
Không giống như một số thuật toán khác, ví dụ như phân biệt sự khác nhau theo thời gian, thuật toán trừ nền thích ứng có thể phát hiện các đối tượng còn lại hay bị loại bỏ ra khỏi cảnh quay nền suốt một khoảng thời gian dài. Với sự giúp đỡ của phương pháp lần vết, chúng tôi phát hiện rằng đối tượng là đứng yên bằng cách sử dụng các thông tin về quỹ đạo của nó. Nếu phần thông tin về quỹ đạo gần đây nói rằng đối tượng đó không di chuyển trong một thời gian dài (nghĩa là khoảng thời gian báo động), thì quyết định rằng vùng tương ứng là đứng yên và có thể là “ứng cử viên” cho đối tượng còn lại hay bị xóa bỏ.
Để phân biệt loại đối tượng (còn lại hay bị xóa đi), thì sử dụng các thuộc tính thống kê về các giá trị màu sắc bên trong và xung quanh vùng phát hiện được. Cho R tượng trưng cho vùng tương ứng với sự thay đổi dài hạn trong nền, S tượng trưng cho vùng bao quanh R và cho AX tượng trưng cho giá trị cường độ màu sắc trung bình trong vùng X. Phương pháp “thử nghiệm để tìm ra giải pháp và rút tỉa kinh nghiệm” được phát triển bằng cách thử nghiệm một vài đoạn video về các vât thể còn lại và bị xóa đi, phát biểu rằng nếu các giá trị AR và AS - gần nhau thì điều này cho thấy rằng vùng đối tượng được phát hiện và vùng bao quanh nó hầu như có cùng màu và vì thế vùng này tương ứng với 1 đối tượng bị xóa đi. Trái lại, nếu AR và AS không gần nhau thì điều đó cho thấy rằng vùng này tương ứng với 1 đối tượng còn lại. Từ đó quyết định AR và AS có gần nhau hay không như sau:
R S R S S R S R A ifA A A r A ifA A A r , 1 , 1 (2.24)
Trần Xuân Linh - K11T2 Trang 65 Trong đó T là hằng số được định nghĩa trước (~0.85). Hình 2.16 minh họa các vùng AR và AS và 2 hình video mẫu minh họa các trường hợp đối tượng còn lại và bị xóa đi.
(a) (b)
(c) (d)
Hình 2.16: Phân biệt các đối tượng còn lại và bị xóa đi.
a) Nền cảnh quay b) Các vùng R và S c) Mẫu đối tượng còn lại d) Mẫu đối tượng bị xóa đi
2.2. Phân loại đối tượng
Mục đích quan trọng nhất của các ứng dụng giám sát bằng hình ảnh thông minh khác nhau là “rút trích” được các đoạn video có ý nghĩa để sử dụng cho các tác vụ phân tích hoạt động ở cấp độ cao hơn. Việc phân loại đối tượng phát hiện được trên video là bước cực kì quan trọng trong quá trình đạt được mục
Trần Xuân Linh - K11T2 Trang 66 tiêu này. Với sự giúp đỡ của các thông tin về chủng loại, các phương pháp đặc trưng hơn và chính xác hơn có thể được phát triển để nhận biết được các hành động của đối tượng ở cấp độ cao hơn. Vì vậy, trong luận văn này đã phát triển 1 phương pháp phân loại đối tượng trên video mới dựa trên sự tương đồng của các đối tượng như là một phần của hệ thống giám sát bằng hình.
Các cảnh quay video điển hình có thể gồm nhiều loại đối tượng khác nhau: người, xe, thú vật, hiện tượng thiên nhiên (như mưa, tuyết), cây cỏ và tiếng ồn. Tuy nhiên, mục tiêu quan tâm chính trong các ứng dụng giám sát nhìn chung là người và xe cộ. Ngoài ra, môi trường tự nhiên và môi trường hoạt động trong thời gian thực của các ứng dụng giám sát bằng hình ảnh đòi hỏi một lược đồ phân loại rẻ về chi phí, khá hiệu quả trên các mục tiêu nhỏ và bất biến đối với các điều kiện ánh sáng [12]. Hệ thống đã đáp ứng được hầu hết các yêu cầu này bằng cách thực thi một lược đổ phân loại có thể phân loại được những đối tượng phát hiện được trên đoạn video thành từng nhóm được định nghĩa trước như: người, nhóm người, và xe cộ bằng cách sử dụng những đặc điểm đối tượng dựa trên hình ảnh.
2.2.1. Phân lọai dựa theo mẫu hình chiếu
Đơn vị phân loại được dùng trong phương pháp của chúng tôi đo sự tương đồng của đối tượng dựa trên sự so sánh bóng của các vùng đối tượng phát hiện được. Các vùng này được trích từ bản đồ điểm ành cận cảnh với các mẫu bóng đối tượng được đặt tên trước (phân loại bằng tay) trong cơ sở dữ liệu. Toàn bộ quy trình của phương pháp phân loại đối tượng gồm 2 bước:
* Bước ngoại tuyến (offline): tạo cơ sở dữ liệu mẫu chứa các bóng đối tượng mẫu bằng cách đặt tên các chủng loại đối tượng bằng tay.
* Bước trực tuyến (online): trích bóng của mỗi đối tượng phát hiện được trong mỗi khung hình và nhận ra chủng loại của nó bằng cách so sánh đặc điểm dựa trên bóng của nó với các đặc điểm trong cơ sở dữ liệu mẫu trong thời gian thực trong suốt quá trình giám sát. Sau khi so sánh đối tượng này với các đối tượng khác trong cơ sở dũ liệu, một hình dạng mẫu với kích thước tối thiểu được
Trần Xuân Linh - K11T2 Trang 67 phát hiện. Loại đối tượng này được gán cho loại đối tượng mà chúng ta muốn phân loại. Ở bước này, kết quả của bước lần vết được sử dụng lại nhằm thu được sự đồng nhất về thời gian của các kết quả phân loại.
2.2.1.1 Rút trích hình chiếu của đối tượng
Cả trong bước ngoại tuyến lẫn trực tuyến của thuật toán phân loại, bóng của các vùng đối tượng được phát hiện được trích từ bản đồ điểm ảnh cận cảnh bằng cách sử dụng thuật toán lần vết đường nét được trình bày trong [19]. Hình 2.16 cho ta thấy các vùng đối tượng mẫu trên nền (cận cảnh) phát hiện được và các bóng “rút trích” được.
2.2.2. Cơ sở dữ liệu hình chiếu khuôn mẫu
Cơ sở dữ liệu mẫu về các bóng được tạo ngoại tuyến bằng cách rút trích một số đường nét đối tượng từ các cảnh quay khác nhau. Vì lược đồ phân loại sử dụng sự tương đồng đối tượng, nên những hình dạng của các đối tượng trong cơ sở dữ liệu này cần phải là các tư thế có tính đại diện cho các chủng loại đối tượng khác nhau. Sau khi xem xét chủng loại người, chúng tôi thêm vào các hình dạng người với những tư thế khác nhau vào cơ sở dữ liệu mẫu nhằm tăng cơ hội cho một đối tượng truy vấn trong chủng loại người có thê được phân loại một cách đúng đắn. Chẳng hạn như, nếu tất cả chúng ta đều có dạng người ở vị trí thẳng đứng, chúng ta có thể bỏ sót việc phân loại một người đang ngồi trên ghế. Hoặc là nếu chúng ta có bóng của mấy chiếc xe, tất cả đều được quan sát theo chiều ngang từ camera, thì chúng ta có thể bỏ sót việc phân loại các chiếc xe di chuyển theo chiều thẳng đứng đối với góc quay của camera. Hình 2.18 cho ta thấy một cơ sở dữ liệu mẫu kích thước 24 gồm những tư thế khác nhau cho người, nhóm người và xe cộ.
Trần Xuân Linh - K11T2 Trang 68
Hình 2.17 mẫu các vùng đối tượng cận cảnh phát hiện được và các bóng rút trích được
Trong bước phân loại, phương pháp được đưa ra không sử dụng các bóng ở định dạng thô, mà là so sánh những tín hiệu khoảng cách bóng đã được chuyển đổi. vì vậy, trong cơ sở dữ liệu mẫu này, mà chỉ lưu trữ tín hiệu khoảng cách của bóng và các thông tin về chủng loại tương ứng dành cho tính hiệu quả lưu trữ và tính toán trên máy tính.
Cho S = {p1, p2, …., pn} là bóng của một đối tượng gồm n điểm được xếp theo thứ tự từ tâm trên của vùng được phát hiện theo chiều kim đồng hồ, và cm là tâm của khối đối tượng O. Tín hiệu khoảng cách DS = {d1, d2, …. , dn} được phát sinh bằng cách tính khoảng cách giữa cm và mỗi pi, bắt đầu từ 1 đến n như sau:
] .. 1 [ ), , (c p i n Dist di m i (2.25)
Trong đó hàm Dist () là khoảng cách Euclide giữa 2 điểm a và b:
2 2 ) ( ) ( ) , (a b xa xb ya yb Dist (2.26)
Trần Xuân Linh - K11T2 Trang 69
Hình 2.18: Cơ sở dữ liệu mẫu về các bóng, có tên kèm theo.
Các đối tượng khác nhau có các hình dạng khác nhau trong video, vì thế bóng của chúng cũng có kích thước khác nhau. Thậm chí cùng một vật cũng có những kích thước về hình dạng khác nhau theo từng khung hình. Để so sánh những tín hiệu của các đối tượng có kích thước khác nhau một cách chính xác và để làm cho tiêu chuẩn so sánh bất biến về tỉ lệ, chúng tôi cố định kích thước của tín hiệu khoảng cách. Cho N là kích thước tín hiệu khoảng cách DS và cho C là hằng số của chiều dài tín hiệu đã được cố định. Tín hiệu khoảng cách cố định ^DS khi đó được tính bằng cách thử cận dưới hoặc thử cận trên tín hiệu gốc DS như sau:
] .. 1 [ ], * [ ] [ i C C N i DS i DS (2.27)
Trần Xuân Linh - K11T2 Trang 70 Ở bước tiếp theo, tín hiệu khoảng cách có tỉ lệ ^DS được chuẩn hóa để có được một diện tích là số nguyên. Tín hiệu được chuẩn hoá DS được tính theo công thức sau: n i DS i DS i DS 1 [] ] [ ] [ (2.28)
Hình 2.18 cho ta thấy một cái bóng mẫu cùng với các tín hiệu khoảng cách ban đầu và sau khi được căn chỉnh tỉ lệ của nó.
2.2.3. Sự phân loại theo hệ mét
Tiêu chuẩn dùng để phân loại được dựa trên sự tương đồng của hình dạng đối tượng. Có nhiều phương pháp trong tập tài liệu này để so sánh các hình dạng đối tượng [43, 7, 42, 3, 22]. đặc biệt, độc giả có thể xem [47, 31] để có được các bài thảo luận hay nói về những kỹ thuật khác nhau.
Các đòi hỏi quan trọng của một tiêu chuẩn phân loại hình dạng là: tỉ lệ, sự bất biến trong tịnh tiến và quá trình quay. Phương pháp đưa ra đáp ứng được cả 3 thuộc tính này.
Trần Xuân Linh - K11T2 Trang 71 (b)
(c)
Hình 2.19: Bóng đối tượng mẫu và các tín hiệu khoảng cách đã được căn tỉ lệ và nguyên gốc tương ứng của nó.
a) Bóng đối tượng b) Tín hiệu khoảng cách
c) Tín hiệu khoảng cách đã được căn tỉ lệ
1. Sự bất biến về tỉ lệ: Vì chúng ta chỉ dùng một chiều dài cố định cho các tín hiệu khoảng cách các hình dạng đối tượng nên tín hiệu khoảng cách được chuẩn hóa và được căn tỉ lệ hầu như sẽ như nhau đối với 2 tình trạng khác nhau (trong các tì lệ khác nhau) của cùng tư thế một đối tượng.
Trần Xuân Linh - K11T2 Trang 72 2. Sự bất biến trong tịnh tiến: tín hiệu khoảng cách là không phụ thuộc vào vị trí hình học của hình dạng đối tượng vì tín hiệu khoảng cách được tính theo tâm của khối đối tượng. Do một sự thật hiển nhiên là sự tịnh tiến của hình dạng đối tượng sẽ không làm thay đổi vị trí tương đối của tâm vị trí khối đối tượng so với đối tượng đó nên tiêu chuẩn so sánh sẽ không bị ảnh hưởng bới sự tịnh tiến.
3. Sự bất biến trong quá trình quay: Trong luận văn không sử dụng thuộc tính bất biến trong quá trình quay của tiêu chẩn phân loại của mình vì chúng tôi muốn phân biệt cả các tư thế khác nhau của một đối tượng đơn cho các bước sau nay trong hệ thống giám sát. Tuy vậy, bằng cách chọn điểm khởi đầu khác nhau ps trên bóng đối tượng trong bước lần vết đường nét, chúng tôi đã có thể tính được các tín hiệu khoảng cách của đối tượng cho một số dạng biến đổi xoay khác nhau cho mỗi điểm bắt đầu ps.
Tiêu chuẩn phân loại được đưa ra so sánh sự tương đồng giữa các hình dạng của 2 đối tượng, A và B, bằng cách tìm ra khoảng cách giữa các tín hiệu khoảng tương ứng của chúng, DSA và DSB. Khoảng cách giữa 2 tín hiệu khoảng cách được chuẩn hóa và được căn tỉ lệ, DSA và DSB, được tính như sau:
n i B A AB DS i DS i Dist 1 ] [ ] [ (2.29)
Để tìm ra chủng loại TO của đối tượng O, chúng ta so sánh tín hiệu khoảng cách của nó, DSO, với tất cả tín hiệu khoảng cách của những đối tượng trong cơ sở dữ liệu mẫu. Chủng loại TP của đối tượng mẫu P sẽ được gán, như là đối tượng truy vấn O, TO = TP, trong đó P thoả điều kiện sau đây:
OI
OP Dist
Dist , object In the template database (2.30) Hình 2.19 cho ta thấy các bóng, các tín hiệu bóng, và các khoảng cách tín hiệu của một đối tượng truy vấn mẫu và các đối tượng cơ sở dữ liệu mẫu cho việc phân loại chủng loại.
Trần Xuân Linh - K11T2 Trang 73
2.2.4. Sự thống nhất theo thời gian
Sự thể hiện của phương pháp phân loại đối tượng phụ thuộc vào chất lượng đầu ra của bước phân đoạn đối tượng. Do các yếu tố về môi trường, chẳng hạn như đối tượng bị che khuất bởi các đối tượng cận cảnh tĩnh (ví dụ như hàng rào hay một cây cột đứng trước camera) hoặc vì một phần đối tượng bị rơi vào cảnh quay, nên hình dạng của vùng phát hiện được không phản ánh đúng bóng thật sự của một đối tượng. Trong những trường hợp như thế, thuật toán phân loại không thể gọi tên được chủng loại đối tượng một cách chính xác. Chẳng hạn