MỞ ĐẦU Giám sát tự động là một hướng mới và có nhiều triểnvọng trong sự phát triển tiếp theo của lĩnh vực nhận dạng và xử lý ảnh 2 chiều. Đồng thời, đó cũng là một hướng đi cho mảng phần mềm thiết kế chuyên dụng cho các thiết bị giám sát tự động. Việcphát hiện ra các đối tượng chuyển động trong video nhờ các kỹ thuật xử lý ảnh, trên cơ sở đó đoán nhận một số hành vi của đối tượng là mộtviệc làm có ý nghĩa khoa học và thực tiễn. Nhất là trong hoàn cảnh Việt Nam chưa có nhiều những nghiên cứu và ứng dụng theo hướng này. Xuất phát từ thực tế đó, việc nghiên cứu và đưa ra các phương pháp để xử lý video là vô cùng thiết thực. Được sự hướng dẫn của PGS.TS. Đỗ Năng Toàn tôi đã tiến hành nghiên cứu đề tài“Nghiên cứu một số phương pháp phát hiện đối tượng chuyển động trong video và ứng dụng” Các vấn đề cần giải quyết trong phạm vi luận văn này bao gồm: Nghiên cứu tổng quan về video và phát hiện đối tượng chuyển động. Nghiên cứu và đề xuất một số hướng khắc phục các nhược điểm trong việc phát hiện, đánh dấu, phân loại các đối tượng chuyển động và tạo kho cơ sở dữ liệu mẫu. Cài đặt một số phương pháp phát hiện, đánh dấu các đối tượng chuyển động dựa theo các phương pháp đã nêu ở trên. 2 Chương 1 TỔNG QUAN VỀ XỬ LÝ VIDEO VÀ PHÁT HIỆN ĐỐI TƯỢNG CHUYỂN ĐỘNG 1.1. Tổng quan về xử lý Video 1.1.1. Sơ lược về Video Video là sự tái tạo ảnh tự nhiên theo không gian vàthời gian hoặc cả hai, thực chất là một dãy ảnh liên tục theo thờigian nhằm mô phỏng sự chuyển động. 1.1.2. Các dạng Video 1.1.2.1 Video tương tự NTSC Video: Đây là dạng Video tương tự với 525 dòng trên một khung hình, 30 khung hình trong một giây, quét cáchdòng, chia làm hai trường (mỗi trường 262.5 dòng), có 20 dòng dự trữ cho thông tin điều khiển tại thời điểm bắt đầu mỗi trường. PAL Video: Dạng Video này có 625 dòng trên một khung hình, 25 khung hình trong một giây, quét cách dòng. Khunggồm hai trường chẵn lẽ, mỗi trường bao gồm 312.5 dòng. 1.1.2.2 Video số Một số tiêu chuẩn của Video số lấy theo tiêu chuẩn CC
1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ TRẦN THỊ HỒN NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP PHÁT HIỆN CHUYỂN ĐỘNG TRONG VIDEO VÀ ỨNG DỤNG Ngành: Công nghệ thông tin Chuyên ngành: Công nghệ phần mềm Mã số: 60 48 10 TÓM TẮT LUẬN VĂN THẠC SĨ Hà Nội - 2009 MỞ ĐẦU Giám sát tự động hướng có nhiều triển vọng phát triển lĩnh vực nhận dạng xử lý ảnh chiều Đồng thời, hướng cho mảng phần mềm thiết kế chuyên dụng cho thiết bị giám sát tự động Việc phát đối tượng chuyển động video nhờ kỹ thuật xử lý ảnh, sở đốn nhận số hành vi đối tượng việc làm có ý nghĩa khoa học thực tiễn Nhất hồn cảnh Việt Nam chưa có nhiều nghiên cứu ứng dụng theo hướng Xuất phát từ thực tế đó, việc nghiên cứu đưa phương pháp để xử lý video vô thiết thực Được hướng dẫn PGS.TS Đỗ Năng Tồn tơi tiến hành nghiên cứu đề tài “Nghiên cứu số phương pháp phát đối tượng chuyển động video ứng dụng” Các vấn đề cần giải phạm vi luận văn bao gồm: - Nghiên cứu tổng quan video phát đối tượng chuyển động - Nghiên cứu đề xuất số hướng khắc phục nhược điểm việc phát hiện, đánh dấu, phân loại đối tượng chuyển động tạo kho sở liệu mẫu - Cài đặt số phương pháp phát hiện, đánh dấu đối tượng chuyển động dựa theo phương pháp nêu 2 Chương - TỔNG QUAN VỀ XỬ LÝ VIDEO VÀ PHÁT HIỆN ĐỐI TƯỢNG CHUYỂN ĐỘNG 1.1 Tổng quan xử lý Video 1.1.1 Sơ lược Video Video tái tạo ảnh tự nhiên theo không gian thời gian hai, thực chất dãy ảnh liên tục theo thời gian nhằm mô chuyển động 1.1.2 Các dạng Video 1.1.2.1 Video tương tự NTSC Video: Đây dạng Video tương tự với 525 dịng khung hình, 30 khung hình giây, qt cách dịng, chia làm hai trường (mỗi trường 262.5 dịng), có 20 dịng dự trữ cho thông tin điều khiển thời điểm bắt đầu trường PAL Video: Dạng Video có 625 dịng khung hình, 25 khung hình giây, quét cách dòng Khung gồm hai trường chẵn lẽ, trường bao gồm 312.5 dòng 1.1.2.2 Video số Một số tiêu chuẩn Video số lấy theo tiêu chuẩn CCIR (Consultative Committee for International Radio) Bảng1.1 Các tiêu chuẩn Video số CCIR 601525/60 CCIR 601625/50 NTSC PAL/SECAM Độ phân giải độ chói 720x480 Độ phân giải màu sắc CIF QCIF 360x576 352x288 176x144 360x480 360x576 176x144 88x72 Lấy mẫu màu 4:2:2 4:2:2 4:2:0 4:2:0 Số trường /s 60 50 Cách dòng Cách dòng Cách quét 30,15,10,7.5 Liên tục 30,15,10,7.5 Liên tục 1.1.3 Các chuẩn video Chuẩn MJPEG Chuẩn H.120 Chuẩn Video MPEG-1 Chuẩn Video H.261 Chuẩn Video MPEG-2 Chuẩn Video H.263 Chuẩn Video MPEG-4 Chuẩn Video H.263 Chuẩn Video MPEG-7 Chuẩn Video H.264 1.2 Một số vấn đề xử lý Video 1.2.1 Phát đối tượng chuyển động Video Các ứng dụng dựa xử lý video có đặc điểm chung, đối tượng chuyển động Các công nghệ thường xuyên sử dụng để phát đối tượng chuyển động phép trừ nền, phương pháp tĩnh, khác biệt theo thời gian optical flow,… Phát đối tượng Phân loại đối tượng Đánh dấu đối tượng Thừa nhận hành vi Mô tả ngữ nghĩa Sơ đồ 1.1: Sơ đồ chung cho thuật toán xử lý video 1.2.1.1 Phép trừ Phép trừ phần công nghệ phân đoạn chuyển động cảnh tĩnh Nó cố gắng phát vùng chuyển động cách trừ điểm ảnh cho điểm ảnh từ ảnh thời đến ảnh sở tạo trung bình ảnh khoảng thời gian chu kỳ khởi tạo Có số hướng tiếp cận trình bày sau 4 Heikkila Silven sử dụng cách đơn giản phép phối hợp này, với điểm ảnh biểu diễn tọa độ (x,y) ảnh thời It đánh dấu điểm bật |It(x,y) – Bt(x,y)|> τ (1.1) thỏa mãn, đó, τ ngưỡng xác định trước Ảnh BT cập nhật việc sử dụng phép lọc Infinite Impulse Respone (IIR) sau : Bt+1=αIt + (1- α)Bt (1.2) 1.2.1.2 Các phương pháp tĩnh Phương pháp W4 sử dụng mơ hình tĩnh, pixel biểu diễn lại với giá trị nhỏ (M) giá trị lớn (N) cường độ sai khác cường độ lớn (D) frame liên tiếp quan sát suốt chu kỳ khởi tạo huấn luyện mà cảnh không chứa đối tượng chuyển động Một điểm ảnh thời It phân loại điểm trội thỏa mãn: |M(x,y)-It(x,y)|>D(x,y) |N(x,y)-Itx,y)|>D(x,y) (1.3) Stauffer Grimson miêu tả tương thích mơ hình pha trộn để đánh dấu thời gian thực Mọi điểm ảnh thực mô hình hóa pha trộn phương pháp Gaussians cập nhật trực tuyến liệu ảnh đầu vào Các phân bố Gaussian đánh giá xem điểm thuộc việc xử lý điểm trội thuộc xử lý 1.2.1.3 Sự khác biệt theo thời gian Sự khác biệt theo thời gian cố gắng phát vùng chuyển động cách sử dụng khác điểm ảnh frame liên tiếp (hai ba) dãy video Phương pháp có khả thích ứng cao với cảnh động, nhiên, thường mắc số lỗi việc phát đối tượng chuyển động Vùng màu đơn người bên ảnh trái làm cho thuật toán khác biệt thời gian bị lỗi việc trích tất điểm ảnh vùng chuyển động người Lipton trình bày cách phối hợp hai frame khác nhau, đó, pixel thỏa mãn biểu thức sau : |It(x,y) –It-1(x,y)|>τ (1.4) Để khắc phục thiếu sót hai frame khác nhau, số trường hợp, ba frame khác sử dụng 1.2.1.4 Optical Flow Phương pháp Optical flow thực cách sử dụng vector có hướng đối tượng chuyển động theo thời gian để phát vùng chuyển động ảnh 1.2.1.5 Phát thay đổi ánh sáng bóng Horprasert đưa cách giải phép trừ phương pháp phát bóng, với phương pháp đó, pixel diễn tả mơ hình màu phân biệt độ sáng từ tín hiệu chứa màu sắc thành phần Mỗi điểm ảnh định rõ phân chia vào bốn loại khác (nền, bóng bóng, ánh sáng đối tượng chuyển động trội) cách tính tốn chênh lệch màu sắc tín hiệu chứa màu sắc điểm ảnh ảnh thời 1.2.2 Phân loại đối tượng video Vùng chuyển động phát video tương ứng với đối tượng khác giới thực người, nhóm người, xe cộ, hỗn loạn,… Việc thừa nhận kiểu đối tượng quan trọng để xác nhận kiểu đối tượng phát để đánh dấu cách xác phân tích hoạt động cách đắn 1.2.2.1 Phân loại dựa theo hình dạng Các đặc trưng chung chung sử dụng phân chia đối tượng theo hình dạng tạo hình chữ nhật bao quanh, tạo vùng, hình chiếu độ nghiêng vùng chứa đối tượng phát Phương pháp phụ thuộc vào giả định, chẳng hạn như, người nhỏ xe cộ có bóng phức tạp Mức độ rải rác dùng ma trận phân loại định nghĩa giới hạn vùng đối tượng độ dài đường viền (chu vi) sau: Mức độ rải rác = chu vi vùng (1.5) 1.2.2.2 Phân loại dựa theo chuyển động Các phương pháp dùng để phân biệt đối tượng cứng (như xe cộ) không cứng (như người) Phương pháp dựa sở tính chất đặc biệt theo thời gian đối tượng chuyển động Với đối tượng đưa chu kỳ chuyển động, đặc tính đo hiển thị chu kỳ chuyển động Phương pháp khai thác đầu mối để phân loại đối tượng chuyển động sử dụng chu kỳ 1.2.3 Phát ánh sáng Liu Ahuja đưa phương pháp định nghĩa mơ hình quang phổ, khơng gian thời gian điểm ánh sáng để phát có mặt video 1.2.4 Đánh dấu đối tượng Đánh dấu video phân biệt theo cần thiết ứng dụng sử dụng theo phương pháp sử dụng giải pháp 7 Chương - PHÁT HIỆN, ĐÁNH DẤU VÀ PHÂN LOẠI ĐỐI TƯỢNG CHUYỂN ĐỘNG TRONG VIDEO 2.1 Phát đối tượng Tổng quan phát hiện, phân loại đánh dấu đối tượng chuyển động video với thời gian thực mô tả sau Sơ đồ 2.1: Sơ đồ khối hệ thống Hệ thống phân biệt đối tượng thoáng qua đứng yên từ đối tượng tĩnh cảnh động; phát phân biệt đối tượng di chuyển biến mất; phân loại đối tượng phát vào nhóm khác nhau, người, nhóm người, xe cộ,…; đánh dấu đối tượng tạo thông tin đường trường hợp bị che khuất phát ánh sáng hình ảnh video 8 2.1.1 Phát trội 2.1.1.1 Mô hình trừ có khả thích ứng Gọi In(x) biểu diễn giá trị cường độ mức xám điểm ảnh có vị trí (x) trường hợp thứ n dãy video I thuộc đoạn [0,255] Gọi Bn(x) giá trị cường độ tương ứng cho điểm ảnh vị trí (x) ước lượng theo thời gian từ ảnh video I0 đến In-1 Một điểm ảnh vị trí (x) ảnh thời thuộc thành phần trội thỏa mãn |In(x) – Bn(x)|>Tn(x) (2.1) Trong Tn(x) giá trị ngưỡng có khả thích hợp khởi tạo với ảnh video I0, B0 = I0, ảnh ngưỡng khởi tạo giá trị xác định trước Nền sở ảnh ngưỡng phải cập nhật liên tục từ ảnh đầu vào Sự phối hợp cập nhật khác vị trí điểm, chẳng hạn điểm x ∈ FG khác với x∈ BG : αB ( x ) + (1 − α ) I n ( x ), x ∈ BG Bn +1 ( x ) = n β Bn ( x ) + (1 − β ) I n ( x ), x ∈ FG (2.2) αT ( x) + (1 − α )(γ × I n ( x) − Bn ( x) ), x ∈ BG Tn+1 ( x) = n x ∈ FG Tn ( x), (2.3) Trong α , β (∈ [0.0,1.0]) , giá trị α, β γ định rõ qua thực nghiệm video clip bên bên nhà Ta cập nhật cho tất kiểu điểm ảnh (x ∈ FG, x ∈ BG) Trong phương pháp trừ nền, ảnh nguồn cập nhật cho điểm ảnh thuộc (x ∈ BG) 2.1.1.2 Mơ hình hỗn hợp Gaussian tương thích Trong mơ hình này, giá trị điểm ảnh riêng lẻ theo thời gian coi ‘‘xử lý điểm’’ kiện gần điểm ảnh, {X1,…,Xt}, mơ hình hỗn hợp phân phối Gaussian K Khả việc quan sát giá trị điểm ảnh thời trở thành: P ( X t ) = ∑ ωi ,t * (X t , µ i ,t , ∑ i ,t ) η K (2.4) i =1 Trong đó, ωi,t ước lượng trọng số thứ i Gaussian (Gi,t) hỗn hợp thời điểm t, µi,t giá trị trung bình Gi,t Σi,t ma trận hợp Gi,t η hàm mật độ khả Gaussian: η ( X t , µ , ∑ )= (2π ) n ∑ e − ( X t − µt )T ∑ −1 ( X t − µ t ) (2.5) Việc giải K định sẵn sàng nhớ sức mạnh tính tốn Ngồi ra, ma trận hợp thừa nhận mẫu sau ∑ k ,t = α k2 I (2.6) Một điểm tương ứng định nghĩa giá trị điểm ảnh không vượt chuẩn γ (=2.5) phân bố tiếp theo, trọng số chu kỳ phân bố K thời điểm t, ωk,t cập nhật sau ωk ,t =(1 − α )ωk , t −1+α ( M k ,t ) (2.7) Trong α tỷ lệ Mk,t tương ứng với phân bố Gaussian tương ứng với phân bố lại Sau bước này, trọng số ban đầu phân bố bình thường hóa tham biến Gaussian phù hợp cập nhật với theo dõi sau : µ t =(1 − ρ ) µ t −1+ρ ( X t ) σ t2 =(1 − ρ )σ t2−1+ρ ( X t − µ t ) T ( X t − µ t ) Trong : ρ =αη ( X t | µ k , σ k ) (2.8) (2.9) (2.10) Để phát kiểu điểm ảnh mới, phân bố Gaussian K xếp theo giá trị ω / σ Danh sách xếp phân bố tương ứng với hầu hết có khả từ đỉnh tới đáy công thức (2.7), xử lý điểm ảnh thực phân bố Gaussian tương ứng khởi tạo với giá trị trọng số ban đầu lớn cách biệt nhỏ 10 Khi phân bố B chọn mơ hình nền, : b B=argminb ∑ ω k > T k =1 (2.11) Và T phần nhỏ liệu điểm ảnh cho Nếu giá trị nhỏ chọn cho T, thường mơ hình thống 2.1.1.3 Sự khác biệt theo thời gian Đặt In(x) giá trị cường độ mức xám pixel vị trí (x) thời điểm n dãy ảnh video I thuộc vào đoạn [0, 255] Sự phối hợp khác biệt theo thời gian frame liên tiếp thừa nhận điểm ảnh chuyển động thỏa mãn sau I n ( x) − I n−1 ( x) > Tn ( x) (2.12) Ngưỡng điểm ảnh, T, khởi tạo thiết lập giá trị định trước sau cập nhật sau αT ( x) + (1 − α )(γ × I n ( x) − I n−1 ( x) ), x ∈ BG (2.13) Tn+1 ( x) = n x ∈ FG Tn ( x), 2.1.2 Bước hậu xử lý điểm ảnh Các nhân tố khác nguyên nhân gây nhiễu việc phát trội - Nhiễu Camera - Nhiễu phản xạ - Nhiễu đối tượng có màu với - Sự thay đổi ánh sáng đột ngột bóng 2.1.2.1 Phát bóng thay đổi ánh sáng đột ngột Đặt Ix màu RGB điểm ảnh ảnh thời vị trí x, ˆ Bx màu RGB điểm ảnh tương ứng Hơn nữa, đặt I x vector mà bắt đầu gốc O(0,0,0) không gian màu RGB ˆ kết thúc điểm Ix, đặt Bx vector điểm tương ứng với Bx 11 ˆ đặt dx phép nhân (.) Iˆx Bx Sự phối hợp phát bóng phân loại điểm ảnh phần vùng bật phát bóng thỏa mãn ˆ ˆ I B dx = x ⋅ x < τ ˆ ˆ I x Bx (2.14) Và ˆ ˆ I x < Bx (2.15) Trong τ ngưỡng định nghĩa trước gần với Phép nhân (.) ˆ dùng để kiểm tra xem ˆ B có hướng hay không Nếu Ix x ˆ phép nhân (dx) Iˆx Bx gần đến một, chúng hầu hết hướng với lượng khác biệt nhỏ Lần kiểm tra thứ hai thực để bảo đảm giá trị ánh sáng Ix nhỏ Bx Để phát thay đổi ánh sáng tổng thể từ chuyển động đối tượng, ta làm kiểm tra khác cách dựa vào thực tế trường hợp thay đổi ánh sáng tổng thể, thay đổi hình dáng kích cỡ biên đối tượng cảnh không thay đổi nhiều đường bao xung quanh vùng trội phát không phù hợp với biên thực tế ảnh trong trường hợp chuyển động đối tượng lớn đường bao vùng trội phát phù hợp với đường biên thực tế ảnh 2.1.3 Phát vùng liên tục Sau phát vùng trội ứng dụng phép tốn hậu xử lý để xóa vùng nhiễu bóng Các điểm ảnh trội lọc nhóm vào vùng liên tục (các khối) đánh nhãn cách sử dụng thuật toán đánh nhãn thành phần liên tục bước Sau tìm khối màu độc lập tương ứng với đối tượng, hộp bao xung quanh vùng tính tốn 2.1.4 Bước hậu xử lý vùng Ngay sau bước loại bỏ nhiễu, vài vùng tự tạo nhỏ lại làm cho việc phân đoạn đối tượng khơng Để khử vùng loại này, 12 kích cỡ vùng trung bình (γ) giới hạn điểm ảnh tính tốn cho frame vùng có kích cỡ nhỏ số thập phân (α) kích cỡ vùng trung bình (Size(region)