2. Mục đích nghiên cứu
2.1.2. Một số phương pháp phân loại phổ biến
a. Phương pháp dựa trên hình dạng (Shape- based)
Phần này trình bày một phương pháp đơn giản hơn dựa trên sự tổng hợp của sự chênh lệch thời gian( temporal differencing) và đối sánh ảnh mẫu( image template matching) cho phép đạt hiệu quả cao trong việc theo dõi trong môi trường nhiễu và cho phép phân loại tốt. Do đó sử dụng bộ lọc Kalman hoặc các cách tiếp cận xác suất khác để giải quyết nhược điểm này.
Hai phương pháp cơ bản cho theo dõi mục tiêu trong các ứng dụng theo
dõi đối tượng là chênh lệch thời gian (temporal differencing)- DT và đối sánh
sự tương quan mẫu. Trong cách tiếp cận đầu, các khung hình video phân tách
bởi một hằng số thời gian δt được so sánh để tìm các vùng đã thay đổi.
Trong cách tiếp cận sau, mỗi ảnh video được quét cho vùng mà có sự tương quan tốt nhất với một ảnh mẫu. Một cách độc lập, các phương pháp này có những thiếu sót quan trọng.
Theo dõi DT sẽ không thể nếu có sự chuyển động đáng kể của camera,
trừ khi áp dụng một thuật toán làm ổn định ảnh. Nó cũng sai nếu mục tiêu bị chồng chéo hoặc ngừng chuyển động. Đối sánh sự tương đồng mẫu thường đòi hỏi sự xuất hiện của đối tượng mục tiêu còn lại hằng số. Phương pháp này
không hiệu quả trong việc thay đổi kích cỡ đối tượng, định hướng hoặc thậm chí thay đổi điều kiện chiếu sáng.
Tuy nhiên, các thuộc tính theo dõi của hai phương pháp này bổ sung cho nhau. Khi mục tiêu là cố định, thì đối sánh mẫu thí hiệu quả nhất trong
khi DT thì sai. Và khi mục tiêu di chuyển, DT sẽ thành công nhưng đối sánh
mẫu có xu hướng bị “trôi đi”.
Đó chính là mục đích cho việc kết hợp hai phương pháp. Ý tưởng là sử
dụng DT để dò tìm các mục tiêu di động và đào tạo (training) thuật toán đối
sánh mẫu. Những mục tiêu này sau đó được theo dõi sử dụng đối sánh mẫu
được hướng dẫn bởi giai đoạn DT. Sự kết hợp này, ngăn ngừa sự đòi hỏi bất
cứ sự lọc mang tính dự đoán nào trong tiến trình theo dõi bởi vì việc theo dõi đã được chỉ dẫn bởi việc dò tìm chuyển động. Mô hình đơn giản này đưa ra một kết quả đáng ghi nhận.
Phần này mô tả một hệ thống cho việc theo dõi các mục tiêu một cách hiệu quả vào hai loại: “người” và “xe cộ” cho một ứng dụng theo dõi video
ngoài trời. Việc theo dõi mục tiêu dựa trên hai nguyên lý: (a) Tính nhất quán
thời gian (temporal consistency) cái mà cung cấp một cách hiệu quả cho việc phân loại các mục tiêu di động đồng thời loại bỏ sự nhiễu (hỗn loạn) nền, và (b) sự kết hợp của việc dò tìm chuyển động với đối sánh mẫu dựa trên ảnh (image- based) cung cấp một giản đồ theo dõi đối tượng khá hiệu quả. Phân loại mục tiêu dựa trên một ứng dụng đơn giản của việc đánh giá khả năng lớn nhất sau khi tính toán một hình đơn giản dựa trên độ đo cho mỗi mục tiêu.
Cấu trúc tổng quát của phương pháp
Hệ thống này gồm ba thành phần chính thể hiện trong hình 2.1. Trong phần đầu tiên, tất cả các đối tượng chuyển động được dò tìm sử dụng một thuật toán chênh lệch thời gian (temporal differencing). Chúng được mô tả như những vùng chuyển động (motion region). Mỗi vùng được phân loại tại
mỗi khung hình thời gian sử dụng một độ đo phân loại dựa trên ảnh (image- based). Các phân loại cho mỗi vùng chuyển động đơn lẻ được ghi lại qua một khoảng thời gian, và một tiêu chuẩn đánh giá có khả năng lớn nhất MLE (Maximum Likelihood Estimation) được dùng để phân loại đúng mỗi đối tượng. Khi đối tượng đã được phân loại nó có thể được dùng như các mẫu training cho tiến trình theo dõi.
Hình 2.1 Tổng quan của một hệ thống xác định và theo dõi
Đối tượng chuyển động được dò tìm trong một luồng video sử dụng phương pháp chênh lệch thời gian. Các mục tiêu sau đó được phân loại bằng một độ đo phân loại. Sau đó các mục tiêu này được theo dõi bằng một thuật toán theo dõi (trình bày ở phần theo dõi)
Phân loại đối tượng
định độ đo ID(x) được sử dụng cho việc phân biệt các loại mục tiêu (trong trường hợp này, một độ đo dựa trên ảnh (image- based) rất đơn giản được sử dụng), và khái niệm của nhất quán thời gian. Nếu một mục tiêu tồn tại vượt quá một khoảng thời gian, nó sẽ là một ứng viên tốt cho việc phân loại. Nếu không, nó sẽ được coi là hỗn loạn nền (background clutter). Vào mỗi thời
điểm, nó được phân loại dựa trên ID(x). Những sự phân loại này được thu
thập cho tới khi có một quyết định thống kê cho việc phân loại của mục tiêu. Một phiên bản của MLE được sử dụng để tạo một quyết định phân loại.
Nhất quán thời gian (Temporal Consistency)
Khó khăn chính đối với việc phân loại là trong bất cứ khung đơn nào, thể hiện của một vùng chuyển động nào đó có thể không biểu hiện được đặc điểm đúng của nó. Ví dụ, một phương tiện bị chồng chéo một phần có thể trong giống người, hoặc một vài nền hỗn loạn có thể trong giống một phương tiện. Để khắc phục vấn đề này, một cách tiếp cận đa giả thuyết (multiple hypothesis) được sử dụng.
Bước đầu tiên trong tiến trình này là ghi lại tất cả Nnmục tiêu có tiềm năng (potential taget) Pn(i)=Rn(i)từ các khung hình khởi đầu. Những vùng này được phân lại dựa trên toán tử độ đo phân loại ID(x) và kết quả được ghi lại như một giả thuyết phân loại X(i) cho mỗi vùng:
X(i)={ID(Pn(i))} (2.2)
Mỗi vùng của các mục tiêu tiềm năng này phải được quan sát trong các khung hình đến sau để quyết định nó tồn tại hay không, và để tiếp tục phân loại chúng. Vì vậy cho các khung hình mới, mỗi vùng chuyển động trước
) (
1 i
Pn− được đối sánh với vùng không gian chuyển động hiện tại gần nhất
) (j
Rn dựa trên một quy tắc trạng thái ở gần qua lại (mutual proximity). Sau
tiến trình này, bất cứ mục tiêu tiềm năng trước Pn−1(i)mà không phù hợp (đối sánh) với các vùng hiện tại sẽ được coi là khoảng đệm và bị loại bỏ khỏi danh
sách, và bất cứ vùng chuyển động hiện tại Rn nào mà không được đối sánh sẽ được coi là các mục tiêu tiềm năng mới. Tại mỗi khung hình, các phân loại mới của chúng (dựa trên toán tử độ đo) được dùng để cập nhật giả thuyết phân loại:
X(i)={X(i)}∪{ID(Pn(i))} (2.3) Theo cách này, thống kê của một mục tiêu tiềm năng có thể được tạo trong một khoảng thời gian cho tới khi quyết định phân loại chính xác.
Độ đo phân loại.
Để phân loại các mục tiêu trong các ứng dụng theo dõi đối tượng sẽ rất cần thiết tìm một độ đo phân loại mà không đòi hỏi tính toán nhiều, nó có hiệu quả đáng kể cho số lượng nhỏ điểm ảnh trên mục tiêu, và bất biến với điều kiện ánh sáng hoặc điểm nhìn. Bởi vì các mục tiêu cần chú ý nhất là người và phương tiện, nên bộ phân loại cần dò tìm hai nhóm đối tượng này. Độ đo được dựa trên tri thức là: người thường nhỏ hơn phương tiện, và có hình dạng phức tạp hơn.
Một cách tiếp cận bi-variate được dùng, với diện tích tổng của mục tiêu (đối tượng) trên 1 trục, và độ phân tán của nó trên trục khác. Độ phân tán (dispersedness) dựa trên các tham số hình dạng của mục tiêu đơn giản và được cho bởi:
2
Area Perimeter ess
Dispersedn = (2.4)
Trong đó Dispersedness là độ phân tán, Perimeter là độ dài, Area là diện tích tổng của đối tượng.
Một cách rõ ràng, một người, với hình dạng phức tạp hơn của nó, sẽ có độ phân tán lớn hơn một phương tiện xem hình 2.2. Hình 2.3 chỉ sự phân bố của một mẫu học (training sample) của hơn 400 mục tiêu. Ngoài ra, nó cũng chỉ ra một phân đoạn tuyến tính (linear segmentation) và một phân đoạn dựa
trên khoảng cách Mahalanobis (Mahalanobis distance- based segmentation)- cái mà cung cấp một phương pháp phân đoạn tốt hơn cho mục đích phân loại.
Hình 2.2. Các giá trị thông thường của độ phân tán cho người và xe cộ
Hình 2.3 Dữ liệu phân loại bi- viriate mẫu training qua 400 ảnh. Cả phân cụm tuyến tính và Mahalanobis đều được biểu diễn Phân loại mục tiêu
Trong thực thi này, một ứng dụng đơn giản của MLE được áp dụng để phân loại mục tiêu. Một lưu đồ phân loại (classification histogram) được tính toán cho mỗi vùng chuyển động tại mỗi thời điểm và nếu mục tiêu vẫn còn tồn
tại cho thời gian tclass, đỉnh của lưu đồ được dùng để phân loại mục tiêu. Hơn
Một lợi ích của phương pháp này là nếu một đối tượng bị chồng chéo tạm thời, nó sẽ không ảnh hưởng bất lợi tới kết quả phân loại cuối cùng. Hình 2.4 chỉ ra một tình huống trong đối một đối tượng bị phân loại sai bởi vì bị chồng chéo một phần, nhưng sau khi qua một khoảng thời gian, những số liệu thống kê phân loại sẽ phân loại lại nó một cách chính xác.
Một lợi ích xa hơn của phương pháp này là nó hiệu quả với nền hỗn loạn (background clutter) như lá cây đang thổi trong gió. Những tác động này xuất hiện như những chuyển động rất ngắn ngủi và không bền vững. Dường như những chuyển động này sẽ không thể hiện đủ lâu đề được phân loại. Nếu nó tiếp tục tồn tại, nó cũng không chắc sẽ bị phân loại sai một cách nhất quán cho một khoảng thời gian dài.
Hình 2.4 Quá trình phân loại, phải sau một vài khung hình đối tượng mới được xác định đúng
Hình 2.5 Các đường viền của mục tiêu được sử dụng cho việc trích rút các đặc trưng chuyển động
Hệ thống trích rút các đặc trưng chuyển động từ các đường viền đích (Hình 2.5). Có hai phương pháp cho việc thu được các đường viền từ các ảnh đen trắng. Phương pháp đầu tiên là đo đạc đường viền hoạt động, trong đó một đường viền của một mục tiêu được tìm kiếm như một đường cong C, cái mà làm giảm tối thiểu hàm số:
∫ + ∫ = ) ( 0 ) ( ] [ δ δ α δ δ L g ds da S (2.5)
Trong đó số hạng đầu tiên là một hàm số hình học, số hạng thứ hai là
một số hạng làm tối thiểu hoá diện tích, được biết như lực baloon. Hàm g() là
một hàm chỉ thị cạnh dương phụ thuộc vào ảnh, nó lấy các giá trị nhỏ dọc các cạnh và các giá trị lớn hơn ở nơi nào khác.
Trong phương pháp thứ hai áp dụng bộ dò tìm cạnh Canny. Các cạnh thừa thu được từ bộ dò tìm cạnh Canny sau đó được loại trừ bởi bộ lọc hình thái học (morphological filter). Các thực nghiệm cho thấy các đường viền thu được từ thuật toán đầu tiên thì sạch hơn những thứ thu được từ phương pháp thứ hai, nhưng sự trích rút chúng đòi hỏi thời gian xử lý lớn hơn. Khi sử dụng phương pháp thứ hai trong một số hệ thống, kết quả thực nghiệm cho thấy việc phân loại mục tiêu không được hiệu quả.
Các đặc trưng phục thuộc thời gian tác động đáng kể tới lượng thông tin cho sự toàn vẹn của một đối tượng. Ví dụ tính chu kỳ của dáng đi của
người rất hữu ích cho việc phân biệt một người đang đi với một chiếc ô tô đang chuyển động. Tuy nhiên, các ràng buộc thời gian thực cho phép chúng ta làm việc ít hơn, đơn giản hơn, các đặc trưng phụ thuộc thời gian. Sử dụng một tìm kiếm toàn diện chúng ta sẽ tìm được một tập con tối ưu tám đặc trưng được dựa trên các thuộc tính hình học của hình elip đều (Hình 2.6 (a)) và khung hình sao (Hình 2.6 (b)) được tạo bằng cách kết nối trung điểm của khối của đối tượng chuyển động với các điểm đường viền tương ứng với các cực đại cục bộ của hàm đo khoảng cách giữa đường viền với tâm khối. Các chức năng sử dụng cho mô tả của các đặc tính thời gian của chuyển động bao gồm, ví dụ: độ nghiêng của trục nằm ngang của elip (ví dụ: góc <DOX trong hình (a)) và góc giữa “các chân” của khung hình sao (góc <ACB trong hình (b)). Hệ thống tính các số đo trong suốt 24 khung hình liên tiếp và sử dụng thông tin này cho việc khởi tạo vector phân loại.
(a) (b)
Hình 2.6. (a) Elip vừa khớp (fitted elipse) (b) Khung hình sao (c) Biều đồ luồng phân loại
c. Phương pháp phân loại kết hợp các đặc trưng dựa trên bề ngoài và chuyển động. Dữ liệu từ bộ dò tìm Bộ lọc tương đồng Các đặc trưng chuyển động Các đặc trưng hình dạng và bề ngoài Bộ lọc chung Kết quả phân loại Tầng phân loại đầu tiên
Tầng phân loại thứ 2
Chúng ta biết rằng sự kết hợp một vài phương pháp phân loại sẽ cải thiện độ chính xác và hiệu quả của kết quả phân loại. Hiệu quả của hai bộ phân loại dựa trên các đặc trưng bề ngoài mô tả trong phần 2.1.2.1, và bộ lọc dựa trên các đặc trưng phục thuộc thời gian mô tả trong phần 2.1.2.2, đề xuất một bộ lọc kết hợp sẽ cho hiệu quả cao hơn.
Hình 2.6. (c) mô tả kiển trúc hệ thống. Dữ liệu dựa trên bề ngoài được xử lý bởi bộ phân loại SVM trong tầng đầu tiên của hệ thống phân loại. Các vector đặc trưng sử dụng bởi bộ lọc lai ghép (hybrid classifier) bao gồm các kết quả đã được xử lý của tầng bộ lọc đầu tiên, cái mà được gọi các đặc trưng bề ngoài và sự tương đồng, và các đặc trưng chuyển động. Mỗi chu kỳ của của tầng phân loại thứ hai đòi hỏi 24 khung hình là số lượng các khung hình cần thiết cho việc tính toán thông tin chuyển động. Tầng phân loại đầu tiên có thể thực hiện theo nguyên tắc cho mỗi khung hình, nhưng bởi vì thực thi trong thời gian thực nên nó được hoạt động mỗi lần 8 khung hình. Điều này có nghĩa là cho mỗi phân loại thực hiện trong tầng thứ hai có ba kết quả phân
loại ở tầng thứ nhất. Cho mỗi lớp chúng ta tính phân số liên quan p của các
ứng viên V thu được cho lớp này ở cấp phân loại đầu tiên, đặt p(k) = V(k)/T,
k= 1….N, trong đó T là tổng số các phân loại ở cấp độ thứ nhất của mục tiêu
này. Có thể suy ra thành phần k-th của vector đặc trưng chỉ ra rằng mục tiêu
thuộc về lớp k-th. Các thành phần từ Nc +1 tới Nc +8của vectơ đặc trưng được gán cho các đặc trưng chuyển động. Vectơ đặc trưng xây dựng theo cách này được sử dụng như một đầu vào của bộ lọc SVM tầng thứ hai. Như kết quả thực nghiệm thu được, kết quả phân loại đạt được bởi bộ phân loại lai ghép tốt hơn đáng kể kết quả đạt được bởi mỗi bộ lọc cơ sở riêng rẽ.
Bộ lọc tổng hợp cũng chứng tỏ hiệu quả hơn trong các điều kiện phân đoạn mục tiêu bị nhiễu. Để giúp cho việc phân loại hiệu quả cho sự chồng chéo và các nguồn gốc của việc phân loại sai tôi sử dụng một cách tiếp cận đa
giả thuyết. Tất cả các mục tiêu tiềm năng được phân loại theo giản đồ được mô tả trong hình 2.6. (c) và kết quả được ghi lại như một giả thuyết phân loại
X(k) cho mỗi mục tiêu. Mỗi 24 khung hình giả thuyết này sẽ cập nhật. Chúng
ta tính toán thống kê cho các mục tiêu qua một khoảng thời gian (3 giây) bằng cách xây dựng một lưu đồ phân loại cho mỗi đối tượng chuyển động. Một quyết định được tạo tại cuối mỗi khoảng dựa trên lưu đồ này.