Nghiên cứu một số phương pháp phát hiện chuyển động trong video và ứng dụng

Đỗ Năng Toàn tôi đã tiến hành nghiên cứu đề tài “Nghiên cứu một số phương pháp phát hiện đối tượng chuyển động trong video và ứng dụng” Trong khuôn khổ của luận văn này, mục tiêu của t

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trang 2

MỤC LỤC

MỞ ĐẦU 1

Chương 1-TỔNG QUAN VỀ XỬ LÝ VIDEO VÀ PHÁT HIỆN ĐỐI TƯỢNG CHUYỂN ĐỘNG 3

1.1 Tổng quan về xử lý Video 3

1.1.1 Sơ lược về Video 3

1.1.2 Các dạng Video 4

1.1.2.1 Video tương tự 4

1.1.2.2 Video số 4

1.1.3 Các chuẩn video 4

1.2 Một số vấn đề cơ bản trong xử lý Video 9

1.2.1 Phát hiện đối tượng chuyển động trong Video 9

1.2.1.1 Phép trừ nền 10

1.2.1.2 Các phương pháp tĩnh 10

1.2.1.3 Sự khác biệt theo thời gian 11

1.2.1.4 Optical Flow 12

1.2.2 Phân loại đối tượng trong video 12

1.2.2.1 Phân loại dựa theo hình dạng 13

1.2.2.2 Phân loại dựa theo chuyển động 13

1.2.3 Phát hiện ánh sáng 14

1.2.4 Đánh dấu đối tượng 14

Chương 2-PHÁT HIỆN, ĐÁNH DẤU VÀ PHÂN LOẠI ĐỐI TƯỢNG CHUYỂN ĐỘNG TRONG VIDEO 16

2.1 Phát hiện đối tượng 16

2.1.1 Phát hiện nổi trội 18

2.1.1.1 Mô hình trừ nền có khả năng thích ứng 18

2.1.1.2 Mô hình hỗn hợp Gaussian tương thích 20

2.1.1.3 Sự khác biệt theo thời gian 22

2.1.2 Bước hậu xử lý điểm ảnh 23

2.1.2.1 Phát hiện bóng và sự thay đổi ánh sáng đột ngột 24

2.1.3 Phát hiện các vùng liên tục 29

Trang 3

2.1.4 Bước hậu xử lý vùng 29

2.1.5 Trích rút các đặc trưng của đối tượng 30

2.2 Đánh dấu đối tượng 30

2.2.1 Tham chiếu tương tự với các đối tượng cơ bản 32

2.2.2 Điều khiển sự chồng chéo của các đối tượng 36

2.2.2.1 Phát hiện các đối tượng bị che khuất 37

2.2.2.2 Phát hiện các đối tượng tách ra 37

2.2.2.3 Lược đồ cơ sở tham chiếu tương ứng 37

2.2.3 Phát hiện các đối tượng dời đi và các đối tượng biến mất 39

2.3 Phân loại đối tượng 41

2.3.1 Phân loại dựa trên mẫu hình chiếu 41

2.3.2 Cơ sở dữ liệu mẫu hình chiếu 42

2.3.3 Ma trận phân loại 45

2.3.4 Sự bảo toàn theo thời gian 46

Chương 3- ỨNG DỤNG 48

3.1 Một số ứng dụng trong công nghệ phần mềm 49

3.1.1 Ứng dụng trong phần mềm nhúng (Embedded Software) 49

3.1.1.1 Khái niệm phần mềm nhúng 49

3.1.1.2 Mục đích của phần mềm nhúng 49

3.1.1.3 Tính chất của phần mềm nhúng 49

3.1.1.4 Lợi ích của phần mềm nhúng 49

3.1.1.5 Ứng dụng trong xử lý video 49

3.1.2 Xây dựng các phần mềm điều khiển 50

3.2 Cài đặt một số phương pháp phát hiện và đánh dấu đối tượng 50

3.2.1 Giao diện của chương trình 50

3.2.2 Các menu 51

3.2.3 Một số hình ảnh về phát hiện và đánh dấu đối tượng chuyển động 52

KẾT LUẬN 54

TÀI LIỆU THAM KHẢO 55

PHỤ LỤC 60

Trang 4

MỞ ĐẦU

Trong kỷ nguyên công nghệ thông tin hiện nay, với sự phát triển nhanh chóng của các công nghệ chế tạo thiết bị phần cứng ngày càng hiện đại, tinh vi thì ngành công nghệ phần mềm cũng không ngừng mở rộng để phù hợp với các yêu cầu của thực

tế Trong đó phải kể đến sự phát triển của các thiết bị thu nhận hình ảnh từ thế giới thực, chẳng hạn như các hệ thống giám sát bằng camera, song hành với nó là các vấn

đề liên quan đến việc giám sát Thách thức chính cho công nghệ phần mềm trong lĩnh vực này chính là việc xử lý các hình ảnh thu nhận được từ các hệ thống giám sát đó Giám sát là một vấn đề được rất nhiều nhà nghiên cứu quan tâm đặc biệt bởi những ứng dụng thiết thực của nó cho đời sống xã hội Chẳng hạn như các hệ thống giám sát các hành vi khả nghi của tội phạm, khủng bố ở các địa điểm nhạy cảm của các chính phủ Hệ thống giám sát trong các viện bảo tàng, lưu trữ để chống trộm cắp các di vật đang được trưng bày Hệ thống giám sát các hiện tượng bất bình thường, vi phạm pháp luật, tai nạn ở các điểm giao thông Hệ thống giám sát phòng chống hỏa hoạn Các hệ thống giám sát trong các siêu thị, cửa hàng, công ty để chống trộm cắp,…

Thách thức chính cho ngành công nghệ phần mềm là đưa ra các giải pháp nhằm xây dựng một hệ thống giám sát tối ưu nhất nhằm giúp con người phát hiện chính xác

và kịp thời các hiện tượng bất thường để có biện pháp xử lý nhanh chóng nhằm tránh các thiệt hại đáng tiếc cho xã hội

Dữ liệu thu được từ hệ thống camera giám sát thường được lưu trữ dưới dạng video Như vậy công việc hiện nay của chúng ta là nghiên cứu các vấn đề liên quan đến việc xử lý video

Hiện nay trên thế giới đã có nhiều công trình nghiên cứu về xử lý video và cũng

đã có nhiều ứng dụng đáng kể trong lĩnh vực này Tuy nhiên, so với yêu cầu thực tế thì như thế vẫn là chưa đủ

Ở Việt Nam, xử lý Video là một vấn đề còn khá mới mẻ Thực tế cho thấy rằng, khi xã hội phát triển càng mạnh, yêu cầu về các thiết bị công nghệ càng cao Như vậy,

xử lý video là một mảnh đất màu mỡ cho các trung tâm nghiên cứu, các công ty đầu tư vào Nhất là trong giai đoạn hệ thống nhúng đang phát triển và mở ra một kỷ nguyên mới cho ngành công nghệ phần mềm như hiện nay

Giám sát tự động là một hướng mới và có nhiều triển vọng trong sự phát triển tiếp theo của lĩnh vực nhận dạng và xử lý ảnh 2 chiều Đồng thời, đó cũng là một hướng đi cho mảng phần mềm thiết kế chuyên dụng cho các thiết bị giám sát tự động Việc phát hiện ra các đối tượng chuyển động trong video nhờ các kỹ thuật xử lý ảnh, trên cơ sở đó đoán nhận một số hành vi của đối tượng là một việc làm có ý nghĩa khoa

Trang 5

học và thực tiễn Nhất là trong hoàn cảnh Việt Nam chưa có nhiều những nghiên cứu

và ứng dụng theo hướng này

Xuất phát từ thực tế đó, việc nghiên cứu và đưa ra các phương pháp để xử lý video là vô cùng thiết thực Được sự hướng dẫn của PGS.TS Đỗ Năng Toàn tôi đã tiến hành nghiên cứu đề tài “Nghiên cứu một số phương pháp phát hiện đối tượng

chuyển động trong video và ứng dụng”

Trong khuôn khổ của luận văn này, mục tiêu của tôi là tìm hiểu các bước phát hiện, đánh dấu, phân loại các đối tượng chuyển động trong video và so sánh mẫu để đưa ra kết luận tương ứng Sau khi nghiên cứu kỹ các phương pháp đã được đưa ra, tôi tiến hành đánh giá ưu và nhược của mỗi phương pháp và mạnh dạn đưa ra một số biện pháp khắc phục nhằm làm cho hệ thống hoạt động tối ưu nhất với hệ thời gian thực Các vấn đề cần giải quyết trong phạm vi luận văn này bao gồm:

- Nghiên cứu tổng quan về video và phát hiện đối tượng chuyển động

- Nghiên cứu và đề xuất một số hướng khắc phục các nhược điểm trong việc phát hiện, đánh dấu, phân loại các đối tượng chuyển động và tạo kho

cơ sở dữ liệu mẫu

- Cài đặt một số phương pháp phát hiện, đánh dấu các đối tượng chuyển động dựa theo các phương pháp đã nêu ở trên

Trang 6

Chương 1 - TỔNG QUAN VỀ XỬ LÝ VIDEO VÀ PHÁT HIỆN

ĐỐI TƯỢNG CHUYỂN ĐỘNG

1.1 Tổng quan về xử lý Video

1.1.1 Sơ lược về Video

Ngày nay, không ai có thể phủ nhận các thành tựu mà ngành công nghệ thông tin mang lại Trong đó, đa phương tiện là một khía cạnh quan trọng với nhiều ứng dụng thiết thực nhằm làm cho xã hội ngày càng phát triển hơn, văn minh hơn Nhưng với sự phát triển không ngừng như hiện nay của công nghệ thông tin, như thế vẫn là chưa đủ Vẫn cần nhiều hơn nữa các nghiên cứu liên quan đến khía cạnh này Trong đó phải kể đến một lĩnh vực rất quan trọng của đa phương tiện, đó là Video và xử lý video

Video là sự tái tạo ảnh tự nhiên theo không gian và thời gian hoặc cả hai, thực chất là một dãy ảnh liên tục theo thời gian nhằm mô phỏng sự chuyển động Việc dùng ảnh liên tục để mô tả chuyển động theo thời gian đã xuất hiện gần 2 thế kỉ nay Năm

1834 nhà toán học William George Horner đã phát minh ra cách mô tả này Sau đó, hàng loạt các nghiên cứu khác được triển khai và đã có những ứng dụng đáng kể Năm

1887, khi Hannubal Good phát minh ra phim ảnh thì vấn đề ảnh chuyển động được quan tâm đặc biệt vì những lợi ích kinh tế mà nó mang lại Năm 1895, một hệ thống camera/Projector với các chuẩn phim (35mm chiều rộng, 24 khung hình trên giây) được phát triển bởi Louis Lumiére

Sự chuẩn hóa của video tương tự trong những năm đầu của thập niên 1950 (NTSC) và những năm cuối của 1960 (SECAM và PAL) làm cho ảnh chuyển động xuất hiện hầu như khắp nơi, với các thiết bị vô tuyến được dùng rộng rãi cho mục đích giải trí, các hệ thống ứng dụng công nghệ như phát hiện chuyển động tiếp tục được phát triển

Vào năm 1990, các tổ chức về chuẩn hóa như tổ chức ISO-IEC (International Organization for Standard – International Electrotechnical Commission) đã đưa ra chuẩn MJPEG cho video kĩ thuật số, tổ chức chuẩn ITU-T (International Telecommunication Union) đã đưa ra chuẩn H.261 và một số các chuẩn liên quan khác Đi kèm với nó là các thiết bị tin học giá rẻ đã tạo nên sự phát triển bùng nổ cho

các ứng dụng đa phương tiện

Trang 7

1.1.2 Các dạng Video

1.1.2.1 Video tương tự

NTSC Video: Đây là dạng Video tương tự với 525 dòng trên một khung hình, 30

khung hình trong một giây, quét cách dòng, chia làm hai trường (mỗi trường 262.5

dòng), có 20 dòng dự trữ cho thông tin điều khiển tại thời điểm bắt đầu mỗi trường PAL Video: Dạng Video này có 625 dòng trên một khung hình, 25 khung hình

trong một giây, quét cách dòng Khung gồm hai trường chẵn lẽ, mỗi trường bao gồm 312.5 dòng

MJPEG sử dụng hình thái nén dựa trên phép biến đổi cosin rời rạc Phép toán này chuyển đổi mỗi frame của video nguồn từ miền thời gian xác định vào miền tần số Một mô hình tri giác dựa theo một cách không chặt chẽ vào hệ thống trực quan của

Trang 8

con người để loại bỏ thông tin có tần số cao, ví dụ như sự chuyển đổi một cách chính xác theo cường độ và màu sắc Trong miền chuyển đổi, việc xử lý rút gọn các thông tin được gọi là lượng tử Trong đó, lượng tử là một phương pháp làm giảm được một nhóm tỷ lệ lớn (với sự xẩy ra khác nhau của mỗi một nhóm) vào một nhóm nhỏ hơn,

và miền chuyển đổi này rất thuận tiện cho việc biểu diễn ảnh bởi các hệ số có tần số cao, nó góp phần làm giảm các ảnh trên hơn là các hệ số khác với những đặc tính có giá trị nhỏ với hệ số nén cao Các hệ số lượng tử này ngay sau đó được xếp dãy và đóng gói vào đầu ra của các tuyến bit Gần như việc thi hành của tất cả các phần mềm của chuẩn MJPEG cho phép người dùng điểu khiển trên tỉ lệ nén (như là các tham biến tùy ý khác), cho phép người sử dụng để trao đổi ngoại tuyến đối với các tệp có kích thước nhỏ hơn Trong các ứng dụng nhúng (miniDV, nó được sử dụng tương tự như sự pha trộn nén biến đổi cosine rời rạc), Các tham biến này được lựa chọn trước và thiết lập cho ứng dụng

Chuẩn Video MPEG-1

MPEG-1 là một chuẩn được phát triển và thừa nhận năm 1992 để lưu trữ dạng nén thô các Video dạng CIF và kết hợp với audio khoảng 1.5 Mbps (các tỉ lệ nén tách biệt là 26:1 và 6:1) trên nhiều môi trường lưu trữ số khác nhau như VCD , DAT, Winchester, đĩa quang, cáp, vệ tinh số và truyền thanh số với ứng dụng chính là các hệ thống đa phương tiện trực tuyến

Chuẩn MPEG-1 còn được gọi là ISO/IEC-11172 bao gồm các phần sau:

1 Các hệ thống (lưu trữ và đồng bộ hóa video, audio và các dữ liệu khác cùng nhau)

2 Video (nén video)

3 Audio (nén audio)

4 Kiểm tra sự đúng đắn (kiểm tra sự chính xác của việc thực hiện chuẩn)

5 Các phần mềm cơ sở (chẳng hạn như các phần mềm mã hóa và giải mã)

Cụ thể chuẩn MPEG-1 cho Video như sau

Không gian màu của MPEG-1

Trước khi mã hóa video thành MPEG-1, không gian màu được chuyển đổi thành Y‟CbCr (Y‟=Luma, Cb = Thành phần màu Blue, Cr = thành phần màu Red) Luma bao gồm độ sáng và độ phân giải được lưu trữ tách biệt nhau theo thành phần (màu, màu sắc, giai đoạn) và được phân biệt giữa các thành phần Red và Blue

Các đặc tính của MPEG-1

 Là tiêu chuẩn tổng quát cú pháp, hỗ trợ ước lượng chuyển động, dự đoán

bù chuyển động, dùng thuật toán mã hóa rời rạc cosine

Trang 9

 Không định nghĩa các thuật toán xác định cụ thể mà thiết kế bộ mã hóa linh hoạt

 Khả năng phục vụ các ảnh khác nhau, hoạt động trên các thiết bị, tốc độ khác nhau

 Truy cập ngẫu nhiên dựa trên các điểm truy cập độc lập

 Tìm nhanh xem như quét dòng bit mã hóa, chỉ hiển thị các khung được chọn

 Trễ mã hóa và giải mã hợp lý (1s), gây ấn tượng tốt cho truy cập video đơn công

MPEG-1 chỉ xét các tín hiệu Video lũy tiến Sử dụng không gian màu (Y, Cr, Cb)

đã được thừa nhận theo kiến nghị CCIR 601 Trong SIF (Standard Input Format) MPEG kênh chính là 352 pixel x 240 dòng và 30 khung hình/s

Sau đây là một số ràng buộc đối với MPEG-1:

Bảng 1.2 Một số ràng buộc của MPEG-1

Kích thước bộ đệm giải nén tối đa 376.832 bits

MPEG-2 là một phiên bản mở rộng của MPEG-1 để cung cấp phạm vi rộng các ứng dụng với tốc độ bit và các độ phân giải khác nhau (2-20Mbps)

Các đặc tính chính

MPEG-2 được sử dụng rộng rãi như là định dạng của các tín hiệu vô tuyến kỹ thuật số, các tín hiệu này có thể là tín hiệu vệ tinh, tín hiệu hữu tuyến, vô tuyến Nó cũng định dạng cho phim ảnh và một số chương trình khác được lưu trên DVD hoặc một số đĩa từ tương tự

MPEG-2 là một chuẩn quốc tế và còn có tên gọi khác là ISO/IEC 13818

Chuẩn MPEG-2 cho video tương tự như chuẩn MPEG-1

Trang 10

MPEG-4 phát triển cho tốc độ bit rất thấp từ 4.8 đến 68 kbps, tuy nhiên sau đó đã nâng tốc độ lên đáng kể

- Video: 5kbps đến 10 Mbps

- Audio: 2kbps đến 64 kbps Dạng chuẩn này nhằm hỗ trợ phát triển riêng cho các đối tượng khác nhau tạo khả năng thích nghi, linh động để cải thiện chất lượng của các dịch vụ như: tivi số, đồ họa trình diễn, World Wide Web, videophone và các mở rộng của chúng

MPEG-4 còn được gọi là chuẩn ISO/IEC 14496

Được thừa nhận thành tiêu chuẩn quốc tế tháng 7/2001

MPEG-7 đề xuất cho việc tìm kiếm, chọn lựa, quản lý và phân tích thông tin đa phương tiện, không tập trung vào một ứng dụng cụ thể, không phải là một tiêu chuẩn

mã hóa thực sự cho Audio, Video hay multimedia

MPEG-7 cũng là một dạng phát triển lên từ phiên bản của MPEG-1 và nó đang được phát triển

MPEG-7 cung cấp một tập hợp đầy đủ các công cụ chuẩn hóa để mô tả nội dung của đa phương tiện Cả người dùng và hệ thống tự động xử lý hệ âm thanh thực đều thuộc phạm vi của MPEG-7

Ngoài ra, tổ chức chuẩn ITU-T (International Telecommunication Union) cũng đưa ra một số chuẩn cho Video như sau:

H.261 sử dụng dạng thức trung gian CIF (Common Intermediate Format) với các tốc độ bit thấp hơn, nó sử dụng dạng có tốc độ nhỏ hơn ¼ là QCIF (Quadrature) Với tốc độ 30 khung hình/s thì tốc độ dữ liệu của CIF là 37.3 Mbps, QCIF là 9.35 Mbps Tốc độ càng thấp thì càng giảm số khung hình/s

Tín hiệu video được phân thành các lớp, mỗi lớp đều có các header để định nghĩa các tham số được sử dụng bởi bộ mã hóa khi tạo dòng bit Lớp ảnh được phân thành

Trang 11

các nhóm khối GOB (Group of Block), các GOB bao gồm các MB (MacroBlock) MB

là đơn vị nhỏ nhất bao gồm 4 khối 8x8 của tín hiệu Y và hai khối 8x8 của tín hiệu sắc Lớp GOB luôn được kết hợp của 33 MB hợp thành ma trận 3x11 Mỗi MB có một header chứa địa chỉ MB và kiểu nén, tiếp theo là dữ liệu của khối

Bảng 1.3 Mô tả kiểu CIF và QCIF

Cuối cùng, lớp ảnh bao gồm header ảnh theo sau bởi dữ liệu cho các GOB Mỗi header chứa dữ liệu là dạng ảnh và số khung Cấu trúc của một MB như sau:

MBA: Địa chỉ, MTYPE: Dạng Intra, Inter

MQUANT: Hệ số lượng tử, MVD: Vector chuyển động

CBP: Mẫu khối đã mã hóa, Block Data: Dữ liệu

IntraFrame: Trong khung, Khung I cho khả năng truy cập ngẫu nhiên, kiểu nén intra tương tự như JPEG dựa trên mã hóa biến đổi cosine rời rạc cho từng MB

InterFrame: Liên khung, liên hệ với các khung I và P trước, MB đầu có thể bù chuyển động (MC – Motion Compensation) hoặc không Cung cấp các tùy chọn cho từng MB như lượng tử với các hệ số lượng tử và sử dụng bộ lọc bù chuyển động

Chuẩn Video H.263

H.263 là chuẩn cải tiến của H.261 cho Video tốc độ thấp, có thể truyền trên mạng điện thoại công cộng PSTN, được công nhận năm 1996 Giống như H.261, mã hóa biến đổi cosine rời rạc cho các MB trong I Frame và biến đổi cosine rời rạc sai biệt dự đoán trong P Frame, tốc độ tối thiểu

Ưu điểm:

 Chính xác sai biệt dự đoán với ½ điểm ảnh

 Không hạn chế vector chuyển động

 Mã hóa số học theo cú pháp

 Dự đoán thuận lợi với các khung P,…

Trang 12

H.263 là một chuẩn video codec được thiết kế một cách sáng tạo như định dạng nén tốc độ bit thấp cho các cuộc hội nghị thông qua video Nó là một thành viên trong nhóm H.26x của các chuẩn mã hóa video của ITU-T, được công nhận năm 1996 H.263 là một yêu cầu bắt buộc của video codec trong công nghệ ETSI 3GPP cho

hệ thống đa phương tiện nhỏ sử dụng giao thức IP (IMS), các dịch vụ gửi nhận thông điệp đa phương tiện (MMS),…

H.264 là một chuẩn để nén video, được hoàn thành vào tháng 5 năm 2003 Nó

tương tự như chuẩn ISO/IEC 14496 (MPEG-4) dành cho video

1.2 Một số vấn đề cơ bản trong xử lý Video

1.2.1 Phát hiện đối tượng chuyển động trong Video

Mỗi ứng dụng được thừa hưởng từ việc xử lý video thông minh những thứ nó cần

để giải quyết những yêu cầu khác nhau Tuy nhiên, chúng có một số điểm chung sau: các đối tượng chuyển động Như vậy, việc phát hiện các đối tượng chuyển động là bước đầu tiên của bất kỳ hệ thống xử lý video nào Khi tìm kiếm thấy các đối tượng chuyển động mới bắt đầu chuyển sang bước xử lý khác Thực tế thì các video thu được

từ camera có rất nhiều nhiễu, chẳng hạn như sự thay đổi của ánh sáng, sự thay đổi của thời tiết, lá rung,…Việc phát hiện đối tượng chuyển động gặp vấn đề khó khăn để xử

lý một cách chính xác Các công nghệ thường xuyên được sử dụng để phát hiện đối tượng chuyển động là phép trừ nền, các phương pháp tĩnh, sự khác biệt theo thời gian

Thừa nhận hành vi

Mô tả ngữ nghĩa

Trang 13

1.2.1.1 Phép trừ nền

Phép trừ nền là một phần trong công nghệ phân đoạn chuyển động trong các cảnh tĩnh [34] Nó cố gắng phát hiện các vùng chuyển động bằng cách trừ điểm ảnh cho điểm ảnh từ ảnh hiện thời đến một ảnh nền cơ sở đã được tạo bởi trung bình các ảnh nền trong một khoảng thời gian của một chu kỳ khởi tạo Những ảnh mà ở đó có sự khác biệt sau khi thực hiện trừ nền ở trên bước đầu được phân loại bằng sự nổi trội Sau khi tạo một bản đồ các điểm nổi trội, một số phép toán hậu xử lý như: phép co, dãn, đóng khung được thực hiện để đơn giản hóa các tác động của nhiễu và làm tăng vùng phát hiện Nền cơ sở được cập nhật với các ảnh mới theo thời gian để thích ứng với sự thay đổi của các cảnh động

Có nhiều hướng tiếp cận khác nhau về việc phối hợp dựa trên phép trừ nền trong phạm vi của việc phát hiện vùng nổi trội, duy trì nền và hậu xử lý

Heikkila và Silven [20] sử dụng một cách đơn giản phép phối hợp này, với mỗi

điểm ảnh được biểu diễn bởi một tọa độ (x,y) trong ảnh hiện thời I t sẽ được đánh dấu là điểm nổi bật nếu

1.2.1.2 Các phương pháp tĩnh

Hầu hết các phương pháp cải tiến đã được sử dụng đều phát triển dựa trên các phương pháp trừ nền

Phương pháp W4 [17] sử dụng một mô hình nền tĩnh, ở đó mỗi pixel được biểu

diễn lại với giá trị nhỏ nhất (M) và giá trị lớn nhất (N) của nó về cường độ và sự sai khác cường độ lớn nhất (D) giữa các frame liên tiếp bất kỳ quan sát được trong suốt

chu kỳ khởi tạo huấn luyện mà ở đó cảnh không chứa các đối tượng chuyển động Một

điểm trong ảnh hiện thời I t được phân loại như là điểm nổi trội nếu nó thỏa mãn:

|M(x,y)-I t (x,y)|>D(x,y) hoặc |N(x,y)-I t x,y)|>D(x,y) (1.3)

Sau khi thực hiện, phép toán co được áp dụng lặp lại cho các điểm nổi trội đã được phát hiện để xóa bỏ một điểm nhiễu đậm đặc Trong khi tạo ra các vùng co để

Trang 14

quản lý kích cỡ của chúng, một dãy các phép co và dãn được thực hiện trên bản đồ điểm nổi trội Cũng như thế, các vùng có kích thước nhỏ được loại trừ sau khi áp dụng đánh nhãn các thành phần liên tục để tìm vùng Trạng thái tĩnh của các điểm ảnh nền thuộc về các vùng đứng yên của ảnh hiện thời được cập nhật với các ảnh dữ liệu mới Một ví dụ khác của các phương pháp tĩnh, Stauffer và Grimson [44] đã miêu tả một sự tương thích của mô hình pha trộn nền để đánh dấu thời gian thực Mọi điểm ảnh thực sự được mô hình hóa bởi sự pha trộn của phương pháp Gaussians và được cập nhật trực tuyến bởi dữ liệu ảnh đầu vào Các phân bố Gaussian sẽ đánh giá xem một điểm sẽ thuộc về việc xử lý điểm nổi trội hay là thuộc về xử lý nền

1.2.1.3 Sự khác biệt theo thời gian

Sự khác biệt theo thời gian cố gắng phát hiện các vùng chuyển động bằng cách sử dụng sự khác nhau giữa một điểm ảnh ở các frame liên tiếp nhau (hai hoặc ba) trong một dãy video Phương pháp này có khả năng thích ứng cao với các cảnh động, tuy nhiên, nó thường mắc một số lỗi trong việc phát hiện đối tượng chuyển động

Hình 1.1: Ví dụ về lỗi trong phương pháp khác biệt theo thời gian

(a)Một cảnh với hai đối tượng chuyển động, (b) Phương pháp dựa trên sự khác biệt theo thời gian bị lỗi khi phát hiện tất cả các điểm ảnh chuyển động của đối tượng bên trái Các vùng chuyển động được phát hiện đánh dấu bởi màu đỏ

Vùng màu đơn của người bên ảnh trái làm cho thuật toán khác biệt về thời gian bị lỗi trong việc trích ra tất cả các điểm ảnh của vùng chuyển động của con người Cũng vậy, phương pháp này lỗi khi phát hiện các đối tượng đã dừng lại trong cảnh Các phương pháp bổ sung cần kế thừa để phát hiện các đối tượng đứng yên giúp cho việc thành công ở những bước xử lý cao hơn

Lipton [29] đã trình bày cách phối hợp giữa hai frame khác nhau, ở đó, các pixel thỏa mãn các biểu thức sau :

Trang 15

Để khắc phục các thiếu sót của hai frame khác nhau, trong một số trường hợp, ba frame khác nhau có thể được sử dụng

1.2.1.4 Optical Flow

Phương pháp Optical flow thực hiện bằng cách sử dụng các vector có hướng của các đối tượng chuyển động theo thời gian để phát hiện các vùng chuyển động trong một ảnh Chúng có thể phát hiện chuyển động trong các dãy video ngay cả các video thu được từ camera di chuyển, như vậy, hầu hết các phương pháp optical flow được ước tính độ phức tạp và không thể sử dụng với thời gian thực mà không có các phần cứng chuyên biệt đi kèm [49]

1.2.1.5 Phát hiện sự thay đổi ánh sáng và bóng

Thuật toán này mô tả cho việc phát hiện chuyển động thực hiện tốt cho các môi trường bên trong và bên ngoài nhà và cũng được sử dụng cho giám sát theo thời gian thực trước đây

Như vậy, không cần sự đảm bảo đặc biệt nào, hầu hết các thuật toán đó dễ bị ảnh hưởng đến cả sự thay đổi của phần cục bộ (chẳng hạn bóng và ánh sáng) và của ánh sáng toàn cục (chẳng hạn như mây che khuất ánh sáng mặt trời) Các bóng là nguyên nhân việc bị lỗi ở các phương pháp phát hiện chuyển động trong việc phân đoạn các đối tượng chuyển động và làm các mức cao hơn như phân chia các đối tượng không chính xác

Horprasert đưa ra một cách giải quyết về phép trừ nền và phương pháp phát hiện bóng, với phương pháp đó, mỗi pixel được diễn tả bởi một mô hình màu phân biệt bởi

độ sáng từ các tín hiệu chứa màu sắc thành phần Mỗi điểm ảnh đã định rõ được phân chia vào bốn loại khác nhau (nền, nền bóng hoặc bóng, ánh sáng nền hoặc đối tượng chuyển động nổi trội) bằng cách tính toán sự chênh lệch của màu sắc và các tín hiệu chứa màu sắc giữa các điểm ảnh nền và ảnh hiện thời

1.2.2 Phân loại đối tượng trong video

Vùng chuyển động được phát hiện trong video có thể tương ứng với các đối tượng khác nhau trong thế giới thực như người, nhóm người, xe cộ, sự hỗn loạn,… Việc thừa nhận kiểu của đối tượng là rất quan trọng để xác nhận kiểu của đối tượng được phát hiện để đánh dấu nó một cách chính xác và phân tích các hoạt động một cách đúng đắn Hiện nay, có hai hướng tiếp cận trong việc phân loại các đối tượng, đó

là các phương pháp shape-base và motion - base [49] (dựa theo hình dạng và dựa theo chuyển động) Phương pháp Shape – base thường dùng cho các đối tượng trong không gian hai chiều 2D còn phương pháp motion – base dùng để lần theo các dấu vết đặc trưng theo thời gian của các đối tượng cho giải pháp phân loại

Trang 16

1.2.2.1 Phân loại dựa theo hình dạng

Các đặc trưng chung chung sử dụng trong phân chia các đối tượng theo hình dạng

là tạo các hình chữ nhật bao quanh, tạo các vùng, hình chiếu và độ nghiêng của các vùng chứa đối tượng được phát hiện

Hướng tiếp cận này sử dụng độ dài các đường nét của hình chiếu và vùng thông tin để phân loại các đối tượng đã được phát hiện và đưa nó vào thành 3 nhóm: Người,

xe cộ và các đối tượng khác [29] Phương pháp này phụ thuộc vào các giả định, chẳng hạn như, nếu là con người thì sẽ nhỏ hơn xe cộ và có bóng phức tạp Mức độ rải rác được dùng như là một ma trận phân loại và nó được định nghĩa trong các giới hạn của các vùng của đối tượng và độ dài đường viền (chu vi) như sau:

Mức độ rải rác =

vùng

vi chu 2

nơ ron là mức độ rải rác, các miền, tỉ lệ tương quan của các vùng đối tượng và độ phóng đại của camera Cũng như phương pháp trước, việc phân loại được thực hiện trên mỗi frame và các kết quả được đưa vào biểu đồ để duy trì sự phân loại theo thời gian

Saptharishi đề xuất một sự phối hợp phân loại sử dụng chiều dài của việc huấn luyện của mạng nơ ron với việc “học” khác nhau để thừa nhận hai lớp: Xe cộ và con người [41] Papageorgion đưa ra một phương pháp sử dụng sự phân loại của máy hỗ trợ véc tơ huấn luyện nhờ các đặc trưng biến đối sóng nhỏ của đối tượng trong các ảnh của video từ một cơ sở dữ liệu mẫu đơn giản [38] Phương pháp này được sử dụng để thừa nhận các vùng chuyển động tương tự như con người

Một phương pháp khác được đưa ra bởi Brodsky [11] sử dụng phép phân loại Radial Basis Function (RBF), phương pháp này như sau: có một kiến trúc tương tự như 3 tầng mạng nhân giống lại Đầu vào của phương pháp này là gradient ảnh của các vùng đối tượng đã được phát hiện

1.2.2.2 Phân loại dựa theo chuyển động

Một số phương pháp trong một số bài viết chỉ sử dụng các đặc trưng chuyển động theo thời gian của các đối tượng để thừa nhận các lớp của chúng [8, 51, 28] Một cách tổng quát, chúng được dùng để phân biệt các đối tượng cứng (như xe cộ) và không cứng (như người) Phương pháp này dựa trên cơ sở tính chất đặc biệt theo thời gian

Trang 17

của các đối tượng chuyển động Với đối tượng được đưa ra ở chu kỳ chuyển động, đặc tính của nó đo được cũng như hiển thị một chu kỳ chuyển động Phương pháp này khai thác đầu mối này để phân loại các đối tượng chuyển động sử dụng chu kỳ

Phân tích optical flow cũng là hữu ích để phân biệt các đối tượng “cứng” và đối tượng “mềm” A.J Lipton trình bày một phương pháp được sử dụng phân tích optical flow cục bộ của các vùng đối tượng đã được phát hiện [28] Nó được mong đợi cho các đối tượng mềm như là con người và sẽ đưa ra giá trị flow trung bình, còn các đối tượng cứng như là xe cộ sẽ được đưa ra giá trị flow nhỏ Cũng vậy, phần còn lại trong chuyển động phát sinh của con người sẽ có chu kỳ Bằng cách sử dụng gợi ý này, chuyển động của con người và cả con người có thể được phân biệt với các đối tượng khác như là xe cộ

mô hình thời gian nắm bắt sự thay đổi của các cấu trúc theo thời gian

1.2.4 Đánh dấu đối tượng

Đánh dấu là vấn đề có ý nghĩa và khó nên được các nhà nghiên cứu về máy tính rất quan tâm Mục đích của đánh dấu là để thiết lập sự phù hợp của các đối tượng và các phần của đối tượng giữa các frame liên tiếp trong video Nó là một công việc có ý nghĩa trong hầu hết các ứng dụng giám sát từ việc nó cung cấp dữ liệu gắn kết theo thời gian về các đối tượng chuyển động để dùng cho cả việc làm tăng khả năng của các bước xử lý thấp như phân đoạn chuyển động và khả năng mở rộng dữ liệu ở mức cao hơn như phân tích hoạt động và thừa nhận cách hành động Đánh dấu là một công việc khó khăn để ứng dụng trong các vị trí chồng chéo do các đối tượng phân đoạn không đúng Các vấn đề chung của việc phân đoạn không đúng là các bóng dài, các phần riêng lẻ và tình trạng bị chồng chéo của các đối tượng với mỗi đối tượng khác và với phần tử đứng yên trong cảnh đó Như vậy, việc đối phó với bóng ở bước phát hiện chuyển động và việc bắt được các phần bị che khuất ở cả bước phân đoạn và bước đánh dấu là rất quan trọng cho sự đánh dấu đúng đắn

Trang 18

Đánh dấu trong video có thể được phân biệt theo sự cần thiết của các ứng dụng

sử dụng nó hoặc theo các phương pháp sử dụng giải pháp của nó

Trang 19

Chương 2 - PHÁT HIỆN, ĐÁNH DẤU VÀ PHÂN LOẠI ĐỐI

TƯỢNG CHUYỂN ĐỘNG TRONG VIDEO

2.1 Phát hiện đối tượng

Tổng quan về phát hiện, phân loại và đánh dấu đối tượng chuyển động trong video với thời gian thực được mô tả như sau

Sơ đồ 2.1: Sơ đồ khối hệ thống

Hệ thống này có thể phân biệt được các đối tượng thoáng qua hoặc đứng yên từ các đối tượng nền tĩnh trong các cảnh động; phát hiện và phân biệt các đối tượng di

Trang 20

chuyển và biến mất; phân loại các đối tượng đã được phát hiện vào trong các nhóm khác nhau, như người, nhóm người, xe cộ,…; đánh dấu các đối tượng và tạo ra thông tin về đường đi ngay cả các trường hợp bị che khuất và phát hiện ánh sáng trong hình ảnh của video Trong phần này và phần sau, sẽ mô tả các mô hình tính toán trong hướng tiếp cận này để tiến gần tới các kết quả thực sự ở trên

Hệ thống này được thừa nhận để làm việc với thời gian thực như là một phần trong hệ thống giám sát video cơ sở Độ phức tạp tính toán và cả các nhân tố bất biến của thuật toán mà chúng ta dùng ở đây là rất quan trọng cho việc thực hiện trong thời gian thực Do đó, cách giải quyết ở đây là chọn ra thuật toán với thời gian chạy tối ưu nhất Hơn nữa, việc sử dụng hệ thống này bị hạn chế chỉ với các camera tĩnh và video đầu vào từ các camera Pan/Tilt/Zoom

Hệ thống được khởi tạo bởi hình ảnh video từ camera tĩnh giám sát một vị trí Hầu hết các phương thức có thể làm việc với cả hai loại ảnh video màu và ảnh video đen trắng Bước đầu tiên trong hướng tiếp cận này là phân biệt các đối tượng nổi trội

từ các nền tĩnh Để đạt được điều này, ta sử dụng một kết hợp giữa phương pháp trừ nền và phương pháp hậu xử lý ảnh ở mức thấp để tạo ra một bản đồ điểm đặc trưng cho mọi frame Ta nhóm các vùng liên tục trong bản đồ đó để mở rộng các đặc trưng cho đối tượng riêng biệt như là tạo các đường bao, các miền, điểm trung tâm của khối hoặc biểu đồ màu (color histogram)

Điểm mới trong thuật toán phân loại đối tượng này là làm cho việc sử dụng bản

đồ các điểm đặc trưng thuộc về mỗi vùng đặc trưng để tạo ra một hình chiếu cho đối tượng đó Hình chiếu và điểm trung tâm của một khối của một đối tượng được sử dụng

để tạo ra một tín hiệu khoảng cách Tín hiệu này được co dãn, được làm trở lại bình thường và được so sánh với các nhãn tín hiệu trước đó trong cơ sở dữ liệu mẫu để phân biệt kiểu của đối tượng Đầu ra của bước đánh dấu được dùng để đạt được sự thống nhất theo thời gian trong bước phân loại

Thuật toán đánh dấu đối tượng này tận dụng các đặc trưng của đối tượng đã được trích rút cùng với sự phối hợp phù hợp được xây dựng trong bước trước để làm cho phù hợp với các đối tượng sau khi xảy ra trường hợp bị che khuất Đầu ra của bước đánh dấu là thông tin về đường đi của đối tượng được dùng để tính toán hướng và tốc

độ của các đối tượng trong cảnh

Sau khi chắt lọc thông tin của các đặc điểm trên các đối tượng như loại, đường đi, kích cỡ và tốc độ với mức độ riêng biệt của các mức xử lý cao, có thể được áp dụng trên các dữ liệu đó Một khả năng sử dụng thời gian thực là đặt cảnh báo bằng tiền

điều kiện với các vị từ như: "Một người di chuyển theo phương d với tốc độ lớn hơn s sinh ra cảnh báo a 1 ” hoặc “một cái xe dừng lại ở một vị trí l trong khoảng thời gian hơn t phút sinh ra cảnh báo a 2.” Một cách khác là ta có thể tạo ra một tham chiếu trên

dữ liệu video đã được lưu trữ cho việc tìm kiếm thông minh và độc lập Cả hai cách

Trang 21

trên đều là các điều kiện cần thiết của hệ thống giám sát để tăng thêm thời gian cần thiết để giám định các sự kiện

2.1.1 Phát hiện nổi trội

Ta sử dụng phối hợp các mô hình nền và các phương pháp hậu xử lý ảnh mức thấp để tạo ra bản đồ điểm nổi bật và trích rút các đặc trưng của đối tượng ở mỗi frame của video Các mô hình nền nói chung có 2 giai đoạn phân biệt trong xử lý: Khởi tạo

Gọi I n(x) là biểu diễn của giá trị cường độ mức xám ở điểm ảnh có vị trí (x) và ở

trường hợp thứ n của dãy video I thuộc trong đoạn [0,255] Gọi B n(x) là giá trị cường

độ nền tương ứng cho điểm ảnh ở vị trí (x) ước lượng theo thời gian từ ảnh video I 0 đến I n-1 Một điểm ảnh ở vị trí (x) trong ảnh hiện thời thuộc thành phần nổi trội nếu nó thỏa mãn

Trong đó T n (x) là giá trị ngưỡng có khả năng thích hợp được khởi tạo cùng với

ảnh video đầu tiên I 0 , B 0 = I 0, và ảnh ngưỡng được khởi tạo bởi giá trị đã được xác định trước

Vì hệ thống này sẽ được dùng cho cả trong và ngoài nhà nên mô hình nền cần tự thích ứng với các thay đổi động như sự thay đổi toàn bộ ánh sáng (chuyển giữa ngày

và đêm) và cập nhật nền một thời gian dài (một cái xe đỗ trước một tòa nhà) Vì thế nền cơ sở và các ảnh ngưỡng phải được cập nhật liên tục từ các ảnh đầu vào Sự phối

hợp cập nhật này là khác nhau đối với các vị trí điểm, chẳng hạn như một điểm x  FG

x I x

B

BG x

x I x

B x

B

n n

n

), ( ) 1 ( ) (

), ( ) 1 ( ) ( )

x T

BG x

x B x

I x

T x

T

n

n n

), (

), ) ( ) ( )(

1 ( ) ( )

Trang 22

Trong đó , 0.0,1.0  là các hằng số chỉ ra rằng có bao nhiêu thông tin từ các

ảnh đầu vào được đẩy vào nền và các ảnh ngưỡng Nói cách khác, nếu mỗi điểm ảnh nền được coi như là chuỗi các lần, các ảnh nền là một giá trị trung bình của trọng số vùng theo thời gian của chuỗi các ảnh đầu vào và ảnh ngưỡng là giá trị trung bình của trọng số vùng của  lần khác nhau của các ảnh đầu vào và nền đó Các giá trị α,  và 

được định rõ qua thực nghiệm bởi các video clip ở cả bên trong và bên ngoài nhà

Ta cập nhật nền cho tất cả các kiểu của các điểm ảnh (x  FG, x  BG) Trong

các phương pháp trừ nền, ảnh nền nguồn chỉ được cập nhật cho các điểm ảnh thuộc

nền (x  BG)

Điểm tinh vi trong việc cập nhật này là chọn ra giá trị cho  Nếu nó quá nhỏ, các đối tượng nổi bật sẽ dẫn đến sự phân đoạn sai lệch trong các frame sau Cũng từ đó mà

sẽ ít có khả năng phát hiện các đối tượng đã dừng lại Nếu nó quá lớn, các đối tượng

có thể không bao giờ được phổ biến đến ảnh nền, mô hình nền như thế sẽ không thích hợp cho sự thay đổi thời hạn lâu dài của cảnh vật

(a)

(b)

Trang 23

(c) Hình 2.1 : Ví dụ về mô hình trừ nền có khả năng thích ứng

Ảnh (a) là ước lượng nền cơ sở, ảnh (b) thu được ở bước tiếp theo, ảnh (c) thể hiện bản đồ điểm ảnh nổi trội phát hiện được bằng cách sử dụng phép trừ nền

2.1.1.2 Mô hình hỗn hợp Gaussian tương thích

Stauffer và Grimson [44] đã trình bày mô hình hỗn hợp nền trực tuyến tương thích có thể giải quyết đơn giản sự thay đổi của ánh sáng, các chuyển động lặp đi lặp lại, sự hỗn loạn, các đối tượng dời đi từ các cảnh và các đối tượng chuyển động chậm Chuyển động của chúng ở mô hình nền đơn không thể điều khiển nhiễu, sự thay đổi ánh sáng và sự đa dạng mặt ngoài nhận được từ ảnh đối với mỗi phần của điểm ảnh ở cùng một thời điểm

Trong mô hình này, các giá trị của một điểm ảnh riêng lẻ theo thời gian được coi như là một „„xử lý điểm‟‟ và sự kiện gần đây của các điểm ảnh, {X1,…,Xt}, được mô hình bởi hỗn hợp của phân phối Gaussian K Khả năng của việc quan sát giá trị của điểm ảnh hiện thời trở thành:

X P

1

, , ,*,,

Trong đó, i,t là một ước lượng trọng số thứ i của Gaussian (G i,t ) trong hỗn hợp ở

thời điểm t, i,t là giá trị trung bình của G i,t và i,t là ma trận hợp của G i,t và  là một hàm mật độ khả năng Gaussian:

2

1 2

1

) 2 (

1 )

, ,

T t

X n

Việc giải quyết trên K được quyết định bởi sự sẵn sàng của bộ nhớ và sức mạnh

của tính toán Ngoài ra, ma trận hợp nhất được thừa nhận là mẫu sau với hiệu quả tính toán

Trang 24

k,tk2I (2.6)

Nó thừa nhận ba màu thành phần red, green, blue là độc lập và có cùng biến Thủ tục cho việc phát hiện các điểm ảnh nổi trội cụ thể như sau Bước đầu của hệ thống,

các phân bố Gaussian K cho một điểm ảnh được khởi tạo với giá trị trung bình được

định nghĩa trước, sự khác biệt cao và trọng số ban đầu thấp Khi một điểm ảnh mới được phát hiện trong dãy ảnh, xác định rõ kiểu của nó, vector RGB của nó được đánh

dấu tương phản với các Gaussian K, cho đến khi một điểm tương ứng được tìm thấy

Một điểm tương ứng được định nghĩa như là một giá trị điểm ảnh không vượt quá chuẩn  (=2.5) của một phân bố tiếp theo, các trọng số chu kỳ của các phân bố K ở

thời điểm t, k,t được cập nhật như sau

) (

) 1 ( 21

2

t t T t t t

Để phát hiện ra kiểu của điểm ảnh mới, các phân bố Gaussian K được sắp xếp

theo giá trị của  /  Danh sách đã sắp xếp của các phân bố này tương ứng với hầu

hết các nền có khả năng từ đỉnh tới đáy trong công thức (2.7), các xử lý điểm ảnh nền

thực hiện phân bố Gaussian tương ứng khi khởi tạo với giá trị trọng số ban đầu lớn và

sự cách biệt nhỏ

Trang 25

(a) (b)

Hình 2.2 : Hai cách nhìn khác nhau về một ví dụ xử lý điểm

Khi đó các phân bố B đầu tiên được chọn như là mô hình nền, trong đó :

2.1.1.3 Sự khác biệt theo thời gian

Sự khác biệt theo thời gian làm cho việc sử dụng các mức độ khác nhau của điểm ảnh giữa hai hoặc ba frame liên tiếp trong video để trích rút các vùng chuyển động Nó

là một hướng tiếp cận phù hợp cho sự thay đổi các cảnh động Như vậy, nó sai khi trích rút tất cả các điểm ảnh liên quan của một đối tượng nổi trội, nhất là khi đối tượng

đó có kết cấu thống nhất hoặc chuyển động chậm Khi một đối tượng dừng chuyển động, phương pháp khác biệt theo thời gian sai khi phát hiện sự thay đổi giữa các frame liên tiếp và để mất đối tượng Các thuật toán hỗ trợ đặc biệt được yêu cầu để phát hiện các đối tượng dừng lại

Ta bổ sung thêm phương pháp sự khác biệt theo thời gian thêm 2 frame trong hệ

thống này Đặt I n (x) là giá trị cường độ của mức xám của pixel ở vị trí (x) và ở thời

điểm n của dãy ảnh video I thuộc vào đoạn [0, 255] Sự phối hợp khác biệt theo thời

gian của 2 frame này đề nghị thừa nhận là một điểm ảnh đang chuyển động nếu nó thỏa mãn như sau

In( x )  In1( x )  Tn( x ) (2.12)

Trang 26

Từ đó, nếu một đối tượng có các vùng màu sắc thống nhất, công thức 2.12 sai khi phát hiện một trong số các điểm ảnh bên trong vùng đó nếu như đối tượng chuyển

động Ngưỡng của mỗi điểm ảnh, T, khởi tạo thiết lập một giá trị quyết định trước và

sau đó cập nhật như sau

x T

BG x

x I x I x

T x

T

n

n n

), (

), ) ( ) ( )(

1 ( ) ( )

2.1.2 Bước hậu xử lý điểm ảnh

Các nhân tố khác nhau là nguyên nhân gây nhiễu trong việc phát hiện sự nổi trội như là

- Nhiễu Camera : Nhiễu này nguyên nhân do các thành phần thu nhận được từ ảnh của camera Cường độ của các điểm tương tự như một gờ nằm giữa hai đối tượng khác nhau về màu sắc trong một cảnh có thể bị nhập thành một thuộc về màu của một đối tượng trong một frame và thành một màu khác trong một frame khác

- Nhiễu do phản xạ : Khi một nguồn sáng, chẳng hạn như mặt trời, chuyển động, nó làm cho một số phần trong cảnh nền phản xạ ánh sáng Hiện tượng này làm cho các thuật toán phát hiện nổi trội sai và phát hiện phần phản xạ như

là các vùng nổi trội

- Nhiễu đối tượng có cùng màu với nền : Một số phần của các đối tượng

có thể có cùng màu sắc như nền cơ sở đằng sau chúng Sự tương đồng này là nguyên nhân làm cho một số các thuật toán phát hiện các điểm ảnh đó như không phải là điểm nổi bật và các đối tượng bị phân đoạn thiếu chính xác

- Sự thay đổi ánh sáng đột ngột và bóng : Bóng đổ từ các đối tượng được phát hiện như điểm nổi bật bởi hầu hết các thuật toán phát hiện Ngoài ra, sự thay đổi ánh sáng đột ngột làm cho các thuật toán sai khi phát hiện chính xác các đối tượng thực sự nổi bật

Trang 27

2.1.2.1 Phát hiện bóng và sự thay đổi ánh sáng đột ngột

Hầu hết các thuật toán phát hiện nổi trội đều dễ bị ảnh hưởng bởi bóng và các thay đổi đột ngột của ánh sáng, đó là nguyên nhân phân đoạn nổi trội không đúng Với các bước xử lý sau như phân loại đối tượng và đánh dấu yêu cầu có sự chính xác trong việc phân đoạn đối tượng, Việc đối phó với bóng và các thay đổi đột ngột của ánh sáng là rất quan trọng trong các hệ thống giám sát thông minh

Trong bài này, ta sử dụng phối hợp phát hiện bóng Ta làm rõ rằng các điểm ảnh trong các vùng vector màu RGB ở trong cùng một hướng với các vector màu RGB của các điểm ảnh nền tương ứng với một số lượng chênh lệch nhỏ và giá trị độ sáng của bóng điểm ảnh là nhỏ hơn độ sáng của các điểm nền tương ứng Để định nghĩa chính

thức điều này, ta đặt I x là màu RGB của một điểm ảnh của ảnh hiện thời ở vị trí x, và

B x là màu RGB của điểm ảnh nền tương ứng Hơn nữa, đặt Iˆ x là vector mà được bắt

Trang 28

đầu ở gốc O(0,0,0) trong không gian màu RGB và kết thúc ở điểm I x, đặt Bˆ xlà vector

của điểm nền tương ứng với B x và đặt d x là phép nhân (.) giữa Iˆ x và Bˆ x Hình 2.4 thể hiện các điểm và các vector trong không gian màu RGB Sự phối hợp phát hiện bóng ở đây phân loại một điểm ảnh là một phần của vùng nổi bật được phát hiện như là bóng nếu thỏa mãn

x x

B

B I

I d

ˆ

ˆ ˆ

gần đến một, nó chỉ ra rằng chúng hầu hết ở cùng một hướng với lượng khác biệt nhỏ

Lần kiểm tra thứ hai được thực hiện để bảo đảm rằng giá trị ánh sáng của I x là nhỏ hơn

B x Hình 2.5 thể thể hiện một ví dụ các vùng nổi trội với các bóng trước và sau khi xóa bóng

Bên cạnh việc xóa bóng, việc phát hiện sự thay đổi ánh sáng đột ngột cũng là một yêu cầu cần thiết đáp ứng hệ thống giám sát thông minh để tiếp tục phát hiện và phân tích đối tượng một cách chính xác Một sự thay đổi tổng thể có thể dẫn đến nhiều trường hợp do mặt trời bị hoặc không bị che khuất bởi mây trong môi trường bên ngoài hoặc do bật đèn trong nhà Cả hai sự thay đổi đó làm cho ánh sáng thay đổi đột ngột trong cảnh mà mô hình nền tương thích không thể điều khiển được Hình 2.6 thể hiện một ví dụ các frame trước và sau khi ánh sáng thay đổi đột ngột Một thực tế cho thấy rằng sự thay đổi ánh sáng tổng thể một cách đột ngột là nguyên nhân dẫn đến các mô hình nền phân loại với tỷ lệ lớn (>50%) của các điểm ảnh trong cảnh như là điểm nổi trội Như vậy, trong một số tình huống, các đối tượng thông thường chuyển động rất gần camera, giả định này quá đơn giản và sai lầm Theo đó, mục đích của sự phân biệt thay đổi ánh sáng tổng thể từ chuyển động của một đối tượng lớn, ta làm một kiểm tra khác bằng cách dựa vào thực tế rằng trong trường hợp thay đổi ánh sáng tổng thể, sự thay đổi về hình dáng và kích cỡ của các biên đối tượng trong một cảnh không thay đổi quá nhiều và đường bao xung quanh của các vùng nổi trội được phát hiện không phù hợp với các biên thực tế trong cảnh trong khi trong trường hợp chuyển động của một đối tượng lớn thì đường bao các vùng nổi trội được phát hiện phù hợp với các đường biên thực tế trong ảnh

Trang 29

Hình 2.4 : Các vector RGB của pixel ảnh hiện thời Iˆ x và pixel nền tương ứng Bˆ x

Trang 30

(a) (b)

Hình 2.6 : Ví dụ về sự thay đổi ánh sáng đột ngột (a) Cảnh trước khi ánh sáng đột ngột thay đổi, (b) Cùng cảnh đó sau khi ánh sáng đột ngột thay đổi

Để kiểm tra xem các đường bao của các vùng phát hiện có phù hợp với các đường biên thực sự trong ảnh hiện thời hay không, ta tận dụng các gradient của ảnh hiện thời và của ảnh nền Các gradient được tìm bằng cách lấy ánh sáng khác nhau giữa các điểm ảnh liên tiếp trong các ảnh theo hai hướng dọc và ngang Sau khi các gradient được tìm kiếm ở cả nền và ảnh hiện thời, một ngưỡng được áp dụng và đầu ra được biến đổi thành nhị phân Khi đó, các gradient của ảnh khác của nền và ảnh hiện thời được tính toán để tìm được duy nhất các đường biên phù hợp với các vùng chuyển động Hình 2.7 thể hiện các ảnh gradient cho nền và các ảnh hiện thời Kết quả cuối cùng, vùng nổi trội được phát hiện được co lại từ bề ngoài về bên trong cho đến khi vấp phải một điểm biên trong gradient của ảnh khác Nếu kết quả vùng nổi trội này

là rất nhỏ so với nguyên bản, thì đây là một dấu hiệu của sự thay đổi ánh sáng tổng thể, vì thế mô hình nền được khởi tạo lại với các ảnh hiện thời và một số các ảnh được cho phép Các ảnh có sóng cũng có thể được sử dụng thay cho các gradient để phân biệt sự thay đổi ánh sáng tổng thể một cách đột ngột

Trang 32

(a) (b)

( c)

Hình 2.8 : Ví dụ về đánh nhãn các thành phần liên tục

(a) Nền ước lượng ; (b) ảnh hiện thời ; ( c) các điểm ảnh nổi bật được lọc và liên kết

và đánh nhãn các vùng với các hộp bao xung quanh

2.1.3 Phát hiện các vùng liên tục

Sau khi phát hiện các vùng nổi trội và ứng dụng các phép toán hậu xử lý để xóa các vùng nhiễu và bóng Các điểm ảnh nổi trội đã được lọc và nhóm vào các vùng liên tục (các khối) và được đánh nhãn băng cách sử dụng thuật toán đánh nhãn thành phần liên tục 2 bước Sau khi tìm các khối màu độc lập tương ứng với các đối tượng, các hộp bao xung quanh của các vùng đó được tính toán Hình 2.8 thể hiện một ví dụ về các vùng nổi bật trước và sau khi kết nối, đánh nhãn và đóng hộp

2.1.4 Bước hậu xử lý vùng

Ngay sau bước loại bỏ nhiễu, một vài vùng tự tạo nhỏ còn lại làm cho việc phân đoạn đối tượng không đúng Để khử các vùng loại này, kích cỡ vùng trung bình () trong giới hạn của các điểm ảnh được tính toán cho mỗi frame và các vùng có kích cỡ

Trang 33

nhỏ hơn một số thập phân (α) của kích cỡ vùng trung bình (Size(region)<α* ) bị xóa

khỏi bản đồ điểm nổi bật

Mặt khác, về các lỗi phân đoạn, một vài phần của các đối tượng được tìm thấy không liên tục từ thân chính Để hiệu chỉnh nhược điểm này, các hộp bao xung quanh của một vùng là độc lập với các vùng khác mà chúng được trộn lẫn cùng nhau và các nhãn vùng được điều chỉnh

2.1.5 Trích rút các đặc trưng của đối tượng

Ngay khi ta phân đoạn các vùng, chúng ta trích rút các điểm đặc trưng của các

đối tượng tương ứng trong ảnh hiện thời Các điểm đặc trưng đó là kích thước (S), điểm trung tâm của khối (C m ), lược đồ màu (H c) và đường viền các đốm màu của đối tượng Việc tính toán kích thước của đối tượng là không quan trọng và ta chỉ đếm số các điểm ảnh nổi bật mà được chứa trong hộp bao của đối tượng

Để tính toán điểm chính giữa của khối điểm, C m =(xC m ,yC m ), của một đối tượng

O, ta dùng công thức sau [42]

n

y yC n

x xC

n

i i m

n

i i m



Trong đó n là số điểm ảnh trong O

Lược đồ màu, H c được tính toán trên các giá trị cường độ đơn sắc của các điểm ảnh của đối tượng trong ảnh hiện thời Để giảm độ phức tạp tính toán của các phép

toán sử dụng cho H c , các giá trị màu được lượng tử hóa Đặt N là số khoảng cách (bin)

trong lược đồ, khi đó mọi khoảng cách bao gồm

N

255

giá trị màu

Lược đồ màu được tính toán bởi sự lặp đi lặp lại trên các điểm ảnh của O và tốc

độ tăng lên của giá trị lưu trữ của khoảng cách màu tương ứng trong lược đồ H c Với

mỗi đối tượng O, lược đồ màu đươc cập nhật như sau

N

c H N

c

c i

c1,  (2.17)

Trong đó c i mô tả giá trị màu sắc của điểm ảnh thứ i Trong bước tiếp theo, lược

đồ màu sắc được chuẩn hóa cho phép thích hợp để so sánh với các lược đồ khác trong các bước sau Lược đồ chuẩn hóa Hˆ c được tính như sau

c i

Hˆ

(2.18)

2.2 Đánh dấu đối tượng

Mục đích của đánh dấu đối tượng là thiết lập sự tương ứng giữa các đối tượng và các phần của đối tượng trong các frame liên tục và để trích rút thông tin theo thời gian

Trang 34

về các đối tượng như đường đi, tư thế, tốc độ và phương hướng Đánh dấu các đối tượng được phát hiện từ frame này đến frame khác trong video là nhiệm vụ khó khăn

và mang nhiều ý nghĩa Nó là phần chủ yếu của các hệ thống giám sát thông minh, trong khi các đối tượng chưa được đánh dấu, hệ thống không thể trích rút thông tin đi kèm theo thời gian về các đối tượng và các bước phân tích điều khiển ở mức cao hơn

sẽ không thể thực hiện Mặt khác, phân đoạn đối tượng nổi bật không đúng do các bóng, sự phản xạ ánh sáng và các tình trạng bị chồng chéo làm cho việc đánh dấu là một vấn đề nghiên cứu khó khăn

Ta sử dụng một thuật toán đánh dấu mức đối tượng trong hệ thống này Tức là, ta không đánh dấu các phần đối tượng, như là các chi của người, nhưng ta đánh dấu đối tượng nguyên vẹn từ frame đến frame Các thông tin trích rút được ở mức này đều đầy

đủ cho hầu hết các ứng dụng giám sát thông minh

Hướng tiếp cận này sử dụng các đặc điểm của đối tượng như kích thước, tâm của khối, hộp bao xung quanh và lược đồ màu sắc được trích rút từ các bước trước để xác minh sự liên hệ giữa đối tượng trong các frame liên tiếp [2] Hơn nữa, thuật toán này phát hiện đối tượng bị che khuất và phân biệt các đặc điểm của đối tượng sau khi chia nhỏ các đối tượng bị che khuất Bằng cách phân tích thông tin về đường đi của đối tượng, hệ thống phát hiện này có thể phát hiện các đối tượng rời đi và biến mất rất tốt

Sơ đồ của hệ thống theo phương pháp đánh dấu này thể hiện trọng sơ đồ 2.2

Định dạng
Số trang	69
Dung lượng	1,71 MB