Kết quả thử nghiệm trên video 2

Dưới đây là bảng thông số cài đặt, bảng kết quả định lượng và một số hình ảnh kết quả định tính khi chạy module chương trình với 1003 frame ảnh video 2.

Thông số Giá trị

Số lượng frame học frtoLearn = 48

Ngưỡng biên từ mã min =10, max =10

Ngưỡng học learnHigh = 10, learnLow =9

Tỷ lệ ngưỡng perimScale =2

Kích thước ước lượng đối tượng ojW = 50, ojW =100

Vận tốc đối tượng vx =50, vy = 50, bW =10, bH =10

Phương sai Q = 1e-1, R= 1e-1, P = 1

Bảng 4-4. Thông số cài đặt cho video 2

Frame nOj nOj found nOj track fPre tfPre tPre

70 (frame 80-150) 70 70 70 100% 100% 100% 62 (frame 234-296) 62 62 62 100% 100% 100% 59 (frame 384-443) 135 115 87 85% 75% 64% 87 (frame 606-693) 185 136 120 73% 88% 64% 106 (frame 834-940) 270 145 123 53% 84% 45% Sum 722 528 462 73% 87.5% 64% Bảng 4-5. Kết quảđịnh lượng video 2

Trong các frame từ 80 đến 150 và frame từ 234 đến 296, chỉ có một đối tượng chuyển động nên bộ phát hiện và theo dõi hoạt động tốt.

Trong các frame từ 384 đến 443, frame từ 606 đến 693 có hai đối tượng di chuyển và đi ngang nhau, xảy ra sự che khuất, bộ phát hiện không xác định đúng dẫn đến kết quả

theo dõi giảm. Đặc biệt trong các frame từ 834 đến 940, hai đối tượng xuất hiện và đi cùng nhau, bộ phát hiện chỉ nhận ra có một đối tượng dẫn đến kết quả theo dõi đạt thấp.

Hình 4-2. Kết quả phát hiện và theo dõi trên video 2

frame #616

frame #619

frame #621

Hình 4-2 biểu diễn kết quả phát hiện và theo dõi đối tượng chuyển động là

người đi bộ trong các frame #616, #619, #621 của video 2. Cột frame (a) thể hiện bước phát hiện vùng chuyển động trong frame. Cột frame (b) thể hiện bước lọc bỏ nhiễu và liên kết thành phần liên thông. Cột frame (c) thể hiện kết quả theo dõi với hình chữ nhật đỏ là ước lượng vị trí vùng chứa đối tượng chuyển động thứ nhất, hình chữ nhật xanh là ước lượng vị trí vùng chứa đối tượng chuyển động thứ hai.

Hình 4-3. Kết quả phát hiện sai dẫn đến mất quan sát trên video 2

frame #416

frame #418

frame #425

Hình vẽ 4-3 là kết quả theo dõi sai trên các frame #416, #418. Có thể dễ dàng

nhận thấy việc theo dõi sai đều do sự che lấp giữa hai đối tượng dẫn đến bộ phát hiện mắc lỗi. Frame #425 thể hiện ngay sau khi hai người tách nhau, quá trình theo dõi lại thực hiện bình thường.

4.4.3. Kết quả thử nghiệm trên video 3

Dưới đây là bảng thông số cài đặt, bảng kết quả định lượng và một số hình ảnh kết quả định tính khi chạy module chương trình với 302 frame ảnh video 3.

Thông số Giá trị

Số lượng frame học frtoLearn = 36

Ngưỡng biên từ mã min =10, max =10

Ngưỡng học learnHigh = 20, learnLow =15

Tỷ lệ ngưỡng perimScale =16

Kích thước ước lượng đối tượng ojW = 10, ojW =10

Vận tốc đối tượng vx =25, vy = 25, bW =10, bH =10

Phương sai Q = 1e-1, R= 1e-1, P = 1

Bảng 4-6. Thông số cài đặt cho video 3

Frame nOj nOj found nOj track fPre tfPre tPre

88 (frame 37-199)

358 311 266 100% 100% 100%

Sum 358 311 266 86.8% 85.5% 74.3%

Bảng 4-7. Kết quảđịnh lượng video 3

Trong video 3, hai người di chuyển và có lúc tiếp xúc nhau, xảy ra sự che khuất, bộ phát hiện không xác định đúng. Mặt khác, màu quần áo của đối tượng tương đối trùng khớp với màu môi trường nên một số thời điểm bị mất quan sát.

Hình 4-4 biểu diễn kết quả phát hiện và theo dõi đối tượng chuyển động là

bước phát hiện vùng chuyển động trong frame. Cột frame (b) thể hiện bước lọc bỏ nhiễu và liên kết thành phần liên thông. Cột frame (c) thể hiện kết quả theo dõi với hình chữ nhật đỏ là ước lượng vị trí vùng chứa đối tượng chuyển động thứ nhất, hình chữ nhật xanh là ước lượng vị trí vùng chứa đối tượng chuyển động thứ hai.

Hình 4-4. Kết quả phát hiện và theo dõi trên video 3

4.4.3. Kết quả thử nghiệm trên video 4

Dưới đây là bảng thông số cài đặt, bảng kết quả định lượng và một số hình ảnh kết quả định tính khi chạy module chương trình với 750 frame ảnh video 4.

frame #84

frame #92

frame #192

Thông số Giá trị

Số lượng frame học frtoLearn = 144

Ngưỡng biên từ mã min =10, max =10

Ngưỡng học learnHigh = 10, learnLow =9

Tỷ lệ ngưỡng perimScale =6

Kích thước ước lượng đối tượng ojW = 15, ojW =10

Vận tốc đối tượng vx =25, vy = 25, bW =10, bH =10

Phương sai Q = 1e-1, R= 1e-1, P = 1

Bảng 4-8. Thông số cài đặt cho video 4

Frame nOj nOj found nOj track fPre tfPre tPre

186 (frame 390-204) 186 169 169 90% 100% 90% 186 (frame 464-672) 298 270 264 90% 97.7% 88.5% Sum 484 439 433 90% 98.6% 89.5% Bảng 4-9. Kết quảđịnh lượng video 4

Trong video 4, màu quần áo của đối tượng tương đối trùng khớp với màu môi trường nên một số thời điểm bị mất quan sát. Tuy nhiên, do video phần lớn chỉ gồm một

đối tượng di chuyển trong khung hình nên kết quảđạt được vẫn khá tốt.

Hình 4-5 biểu diễn kết quả phát hiện và theo dõi đối tượng chuyển động là

người đi bộ trong các frame #215, #368, #544 của video 4. Cột frame (a) thể hiện bước phát hiện vùng chuyển động trong frame. Cột frame (b) thể hiện bước lọc bỏ nhiễu và liên kết thành phần liên thông. Cột frame (c) thể hiện kết quả theo dõi với hình chữ nhật đỏ là ước lượng vị trí vùng chứa đối tượng chuyển động thứ nhất, hình chữ nhật xanh là ước lượng vị trí vùng chứa đối tượng chuyển động thứ hai. Ở frame #368, màu quần áo người di chuyển lẫn với màu tường nhà, vùng chuyển động bị tách thành nhiều phần nhỏ, bước lọc nhiễu và liên kết thành phần đã xóa bỏ các thành phần này, dẫn đến hệ thống không phát hiện được đối tượng.

Hình 4-5. Kết quả phát hiện và theo dõi trên video 4

4.5. Kết luận và kiến nghị

Phương pháp theo dõi đối tượng ảnh sử dụng bộ lọc Kalman kết hợp với kỹ thuật gán quan sát - đối tượng qua thực nghiệm đã chứng tỏ là một cách tiếp cận tương đối hiệu quả. Với trường hợp một đối tượng chuyển động, tỷ lệ theo dõi thành công là hoàn toàn. Còn trong trường hợp có hơn một đối tượng quan sát, tỷ lệ theo dõi thành công vẫn cao nếu xét trên số đối tượng được phát hiện.

frame #215

frame #368

frame #544

4.5.1. Những kết quảđạt được

1) Đề tài đã nghiên cứu các kỹ thuật biểu diễn đối tượng ảnh cùng những đặc

trưng có thể dùng trong bài toán theo dõi.

2) Đề tài đã nghiên cứu một số phương pháp theo dõi đối tượng ảnh phổ biến

như xây dựng mẫu chuyển động, theo vết mean-shift và camshift, xây dựng bộ ước lượng.

3) Từ những nội dung tìm hiểu, đề tài đề xuất lựa chọn sử dụng bộ lọc Kalman, nằm trong nhóm phương pháp xây dựng bộ ước lượng, kết hợp với thước đo độ tương tự histogram để thiết kế một module theo dõi đối tượng ảnh trong video. Những vấn đề đã giải quyết trong quá trình thiết kế:

9 Xây dựng một bộ phát hiện đối tượng đơn giản bằng phương pháp trừ nền theo giải thuật codebook.

9 Thực hiện những phép tiền xử lý ảnh cơ bản: phát hiện đường biên, liên kết thành phần liên thông, toán tử morphological.

9 Tính toán histogram các vùng ảnh chứa đối tượng cần quan tâm và xác định được công cụ so sánh sự sai khác giữa hai phân bố mức xám.

9 Thực hiện được việc cài đặt thử nghiệm bộ lọc Kalman và các kỹ thuật ứng dụng trong trường hợp bài toán theo dõi một và nhiều đối tượng ảnh.

9 Tiến hành thử nghiệm và có đánh giá với dữ liệu video thực tế.

9 Module chương trình có tính mở nên hoàn toàn có khả năng thay thế hoặc cải tiến các khâu trong module.

Những kết quả trên cho thấy module theo dõi đối tượng ảnh trong video của luận văn có thể phát triển để đưa vào ứng dụng thực tế.

4.5.2. Hướng phát triển

Trong quá trình thực hiện đề tài, do hạn chế về trình độ và thời gian nghiên cứu, hệ thống được thiết kế mới chỉ tiến hành thử nghiệm trên một số trường hợp

đơn giản, với ngữ cảnh hẹp là theo dõi người, và môi trường quan sát ít bị tác động bởi sự thay đổi về điều kiện ánh sáng.

Từ những hạn chế của dề tài như chưa có bộ phát hiện đối tượng hiệu quả, chưa có một thước đo độ tương tự mạnh phục vụ khâu gán quan sát - đối tượng, hướng phát triển của đề tài:

9 Tập trung cải tiến bộ phát hiện đối tượng : nghiên cứu và xây dựng được bộ phát hiện đối tượng mới, hoặc tìm cách kết hợp nhiều bộ phát hiện đối tượng dựa trên những tiêu chí khác nhau để có thể giải quyết được trường hợp các đối tượng theo dõi bị che lấp hoặc giao cắt.

9 Tập trung cải tiến thuật toán gán quan sát - đối tượng : thay vì chỉ sử dụng thước đo histogram, có thể bổ sung thước đo đặc trưng màu sắc, đường bao, kết cấu, khoảng cách.

9 Đưa vào một số chiến thuật gán quan sát đối tượng cho phép xử lý các

trường hợp nhập nhằng như các đối tượng che khuất lẫn nhau, các đối tượng bị che khuất bởi cảnh vật môi trường.

9 Phát triển khả năng phát hiện và theo dõi của module: thử nghiệm hệ thống trên những ngữ cảnh phức tạp hơn, như bài toán theo dõi phương tiện giao thông, bài toán theo dõi người trên một vùng quan sát rộng.

9 Xây dựng bộ ước lượng hiệu quả hơn: bộ lọc Kalman hoạt động tốt trên cơ sở giả thiết các biến trạng thái tuân theo phân bố chuẩn Gaussian. Vì vậy, trong nhiều trường hợp, giả thiết này đôi khi không đúng dẫn đến sai lệch trong dự báo. Do đó, cần xem xét việc sử dụng các bộ ước lượng dựa trên lọc Particle, lọc HMM (Hidden Markov Mode). Tuy nhiên, phải chú ý yêu cầu về tính thời gian thực của bài toán.

TÀI LIỆU THAM KHẢO

[1] D.Baymer, K.Konolige, (1999), Real-time Tracking of Multiple People

Using Continuous Detection, CVPA.

[2] G.Bishop, G.Welch, (2001), An Introduction to the Kalman Filter, University of North Carolina, Chapel Hill, NC 27599-3175.

[3] M.Black, P.Anandan, (1994), The Robust Estimation of Multiple Motions:

Parametric and Piecewise-Smooth Flow Fields, AcademicPress Inc.

[4] A.Boucher, (2008), Image Processing & Computer Vision: Overview, Cần Thơ.

[5] G.Bradski, (1998), Computer Video Face Tracking for Use in a Perceptual

User Interface, Intel Technology Journal.

[6] G.Bradski, J.Davis, (2000), Motion Segmentation and Pose Recognition with

Motion History Gradients, IEEE Workshop on Applications of Computer

Vision.

[7] G.Bradski, A.Kaehler, (2008), Learning OpenCV, O’Reilly Media Inc., 1005 Gravenstein Highway North, Sebastopol, CA 95472.

[8] V.Caselles, R.Kimmel, G.Sapiro, (1997), Geodesic Active Contours, IJCV. [9] F.Cheng, Y.Chen, (2005), Real-time Multiple Objects Tracking and

Identification Based on Discrete Wavelet Transform, CVGIP 2005.

[10] D.Comaniciu, (2003), Nonparametric Information Fusion for Motion

Estimation, CVPA.

[11] D.Comaniciu, P.Meer, (2002), Mean Shift: A Robust Approach Toward

Feature Space Analysis, 2002 IEEE.

[12] D.Forsyth, J.Ponce, (2002), Computer Vision: A Modern Approach, Prentice- Hall.

[13] X.Gao, T.Boult, F.Coetzee, V.Ramesh, (2000), Error Analysis of

Background Adaption, CVPR.

[14] C.Harris, M.Stephens, (1988), A Combined Corner and Edge Detector, The Plessey Company.

[15] PGS.TS Nguyễn Quang Hoan, (2006), Xử lý ảnh, Học viện Công nghệ Bưu chính Viễn Thông.

[16] I.Horton, (2008), Ivor Horton’s Beginning Visual C++2008, Wiley Publishing Inc., Indianapolis, Indiana.

[17] Intel Corporation, (2000), OpenCV Reference Manual, Intel Corporation, U.S.A.

[18] M.Isard, A.Blake, (1998), Condensation-Conditional Density Propagation

for Visual Tracking, IJCV.

[19] S.Johnsen, A.Tews, (2009), Real-time Object Tracking and Classification

Using a Static Camera, IEEE ICRA 2009.

[20] K.Kim, T.H.Chalidabhongse, D.Harwood, L.Davis, (2005), Real-time

Foreground Background Segmentation Using Codebook Model, Elsevier

Ltd.

[21] J.LeRoux, (2003), An introduction to Kalman Filtering: Probabilistic and

Deterministic Approaches, University of Nice.

[22] D.Lowe, (2004), Distinctive Image Features from Scale-Invariant Keypoints, IJCV.

[23] H.Moravec, (1979), Visual Mapping by a Robot Rover, Stanford Artificial Intelligence Laboratory.

[24] C.Papageorigiou, M.Oren, T.Poggio, (1998), A General Framework for

Object Detection, ICCV.

[25] F.Porikli, O.Tuzel, (2005), Object Tracking in Low-Frame-Rate Video, Mitsubishi Electric Research Laboratories, Cambridge, USA.

[26] J.Rittscher, J.Kato, S.Joga, A.Blake, (2000), A Probabilistic Background

Model for Tracking, ECCV.

[27] R.Rosales, S.Sclaroff, (1999), 3D Trajectory Recovery for Tracking Multiple

Objects and Trajectory Guided Recognition of Action, 1999 IEEE.

[28] H.Rowley, S.Baluja, T.Kanade, (1998), Neural Network-Based Face

[29] B.Schiele, J.Crowley, (1996), Object Recognition Using Multidimensional

Receptive Field Histogram, ECCV.

[30] J.Shi, J.Malik, (1997), Normalized Cuts and Image Segmentation, 1997 IEEE.

[31] J.Shi, C.Tomasi, (1994), Good Features to Track, CVPR94.

[32] C.Stauffer, W.Grimson, (2000), Learning Patterns of Activity Using Real-

time Tracking, 2000 IEEE.

[33] M. Swain, D.Ballard, (1991), Color Indexing, IJCV.

[34] K.Toyama, J.Krumm, B.Brumitt, B.Meyers, (1999), Wallflower: Principles

and Practice of Background Maintenance , ICCV.

[35] S.Vigus, D.Bull, C.Canagarajah, (2001), Video Object Tracking Using

Region Split and Merge and a Kalman Filter Tracking Algorithm, 2001

IEEE.

[36] P.Viola, M.Jones, D.Snow, (2003), Detecting Pedestrians Using Patterns of

Motion and Appearance, Mitsubishi Electric Research Laboratories Inc.,

201Broadway, Cambridge, Massachusetts 02139.

[37] C.Wren, (1996), Pfinder: Real-time Tracking of the Human Body, Massachusetts Institute of Technology.

[38] Z.Wu, R.Leahy, (1993), An Optimal Graph Theoretic Approach to Data

Clustering: Theory and Its Application to Image Segmentation, 1993 IEEE.

[39] A.Yilmaz, O.Javed, M.Shah, (2006), Object Tracking: A survey, ACM Inc., 2 Penn Plaza, Suite 701, NewYork, NY10121-0701.

[40] A.Yilmaz, X.Li, M.Shah, (2004), Contour-Based Object Tracking with

Các phương trình tính toán của bộ lọc

Thuật toán Kalman rời rạc