Tổng quan về bài toán đo tốc độ phương tiện giao thông
Trang 1số tồn tại như hiệu quả của việc quan sát luôn phụ thuộc vào điệu kiện môi trường quan sát, kiểu chuyển động của đối tượng hay các lý do khách quan khác Chính vì thế mà việc nghiên cứu và phát triển các giải pháp, công nghệ mới vẫn đang được tiến hành nhằm đáp ứng được yêu cầu về một hệ thống giám sát thông minh hoàn thiện nhất.
Các bài toán cần giải quyết
Một hệ thống đo tốc độ phương tiện giao thông là một tập hợp các bài toánnhỏ Nhìn một cách tổng quan:
- Đầu vào của hệ thống sẽ là hình ảnh thu được tại các điểm quan sát
- Đầu ra của hệ thống sẽ là các thông tin về chuyển động, hành vi, lớp…của các phương tiện được giám sát
Việc xử lý của hệ thống giám sát bằng hình ảnh tóm lại có thể hiểu là việcphân tích và xử lý hình ảnh video qua việc giải quyết các bài toán sau:
Bài toán 1: Phát hiện các phương tiện chuyển động là bước cơ bản đầu tiên
trong bài toán phân tích hình ảnh video, công việc này khái quát lại đó là việc tách cáccác phương tiện chuyển động trong từ các hình ảnh nền của các đối tượng đó Phươngpháp thường được sử dụng trong bài toán này đó là: phương pháp trừ ảnh nền, cácphương pháp dựa trên thống kê, phương pháp chênh lệch tạm thời, và các phươngpháp dựa trên luồng thị giác
Bài toán 2: Phân lớp đối tượng là công việc phân loại ra các lớp đối tượng đã
được tìm ra theo các lớp đã được định nghĩa trước ở đây là lớp phương tiện,,… Đây là
Trang 2PHÁT HIỆN PHƯƠNG TIỆN
PHÂN LỚP ĐỐI TƯỢNG
THEO DÕI PHƯƠNG TIỆN
THÔNG TIN PHƯƠNG TIỆN CHUYỂN ĐỘNG
bước cần thiết để có thể tiếp tục phân tích các hoạt động của chúng Hiện tại có haihướng chính tiếp cận để giải quyết bài toán này đó là: Hướng tiếp cận dựa trên hìnhdáng của các vết và hướng tiếp cận dựa trên chuyển động của các đối tượng Hướngtiếp cận dựa trên hình dáng của đối tượng hoàn toàn dựa vào các tính chất 2D của cácvết tìm được, trong khi đó hương tiếp cận dựa trên chuyển động của đối tượng dựatrên các tính chất chuyển động của đối tượng theo thời gian
Bài toán 3: Theo dõi phương tiện đó là công việc đưa ra một chuỗi các hành
vi của phương tiện chuyển động trong một thời gian từ các khung hình thu được Thủtục này đưa ra các thông tin về phương tiện được theo dõi như đường đi của phươngtiện, hướng chuyển động của phương tiện để thực hiện tính tốc độ Đầu vào của quátrình này đó là các đầu ra các quá trình tìm và phân lớp phương tiện chuyển động
Mô hình khái quát chung
Trang 3Đầu vào của bài toán là các khung hình video thu được Qua quá trình xử lýphát hiện đối tượng chuyển động (Object Detection ) sẽ đưa ra các đối tượng chuyểnđộng trong các khung hình video Các đối tượng được phát hiện (cụ thể là các vếtchuyển động) sẽ qua quá trình phân lớp đối tượng (Object Classification ) để phân lớpcác đối tượng đó thuộc lớp nào, sự vật nào Và cuối cùng là quá trình xử lý để theo dõiđối tượng (Object Tracking) đó là việc tìm ra đường chuyển động của đối tượng, dựđoán chuyển động, và việc xử lý các nhập nhằng trong chuyển động của nhiều đốitượng khác nhau trong một đoạn video.
Từ các khung hình thu được ở các nơi quan sát, qua khối xử lý phát hiện đốitượng chuyển động sẽ xác định được đâu là đối tượng chuyển động Cụ thể hơn, có thểchỉ ra được các đối tượng chuyển động trong đoạn video thu được một cách trực quan.Đầu ra của quá trình này sẽ là các vết, hình dạng của đối tượng chuyển động để làmđầu vào của khối phân loại đối tượng chuyển động
Khối xử lý phát hiện đối tượng chuyển động có thể coi là khối xử lý đâu tiêntrong hệ thống giám sát bằng hình ảnh Vì hiệu quả, tính chính xác của khối xử lý này
sẽ ảnh hưởng đến đầu vào và đầu ra của các khối xử lý tiếp theo Chính vì thế nó ảnhhưởng lớn đến hiệu quả và tính tin cậy của toàn hệ thống giám sát
Phân loại là khâu trung gian và đóng vai trò quan trọng trong toàn hệ thống, vìđây là đầu vào của khối theo vết đối tượng và cũng là đầu ra của toàn bộ hệ thống Bởivậy đây cũng là một phần không thể thiếu trong toàn bộ hệ thống
Khối xử lý theo vết là khối xử lý không thể thiếu trong hệ thống giám sátthông minh vì hiệu quả của khối xử lý này ảnh hưởng trực tiếp đến đầu ra của toàn bộ
hệ thống Do đó giải quyết tốt vấn đề theo vết đối tượng sẽ đưa lại tính chính xác và độtin cậy cho hệ thống giám sát
Vấn đề này đã được nghiên cứu và phát triển trong nhiều năm, song hướngphát triển hoàn thiện các khối xử lý phát hiện, phân loại và theo dõi đối tượng chuyểnđộng vẫn đang được quan tâm Các hướng tiếp cận mới nhằm phát hiện, phân loại vàtheo dõi các đối tượng một cách hiệu quả, tính chính xác cao nhất với điều kiện môitrường, hoàn cảnh giám sát khác nhau
Tổng quan bài toán phát hiện, phân loại, theo dõi đối tượng chuyển động
Bài toán xử lý video là việc xử lý tuần tự các bài toán độc lập Các bài toán đó là:
Trang 4I, Bài toán phát hiện đối tượng chuyển động
Đầu vào của bài toán phát hiện đối tượng chuyển động như đã trình bày ở trên
đó là các khung hình video [1] thu được từ các điểm quan sát, theo dõi Như vậy để cóthể giải quyết bài toán phát hiện đối tượng chuyển động ta cần nghiên cứu một số đặcđiểm của video (đầu vào của bài toán)
1 Các khái niệm cơ bản về video
Video là tập hợp các khung hình, mỗi khung hình là một ảnh Shot (lia) là đơn
vị cơ sở của video Một lia là một đơn vị vật lý của dòng video, gồm các chuỗi cáckhung hình liên tiếp, không thể chia nhỏ hơn, ứng với một thao tác camera đơn
Scene (cảnh) là các đơn vị logic của dòng video, một cảnh gồm các lia liênquan về không gian và liền kề về thời gian, cùng mô tả một nội dung ngữ nghĩa hoặcmột tình tiết
Hình 1: Cấu trúc phân đoạn video
Khi phim được chiếu, các khung hình lần lượt được hiển thị ở tốc độ nhấtđịnh Tốc độ thường thấy ở các định dạng video khác nhau là 30 và 25 hình/s Như vậymột giờ video sẽ có số khung hình tương ứng là 108000 hoặc là 90000 Dù là video ởđịnh dạng nào thì nó cũng có dung lượng rất lớn và nếu xử lý với tất cả các khung hìnhthì thật không hiệu quả
Phân đoạn là quá trình phân tích và chia nội dung hình ảnh video thành cácđơn vị cơ sở gọi là các lia (shot) Việc lấy mẫu chính là chọn gần đúng một khungvideo đại diện cho mỗi lia (hoặc nhiều hơn tùy theo mức độ phức tạp của nội dunghình ảnh của lia) và được gọi là các khung-khóa [1]
Khung – khóa là khung hình đại diện mô tả nội dung chính của shot
Trang 5Quá trình phân đoạn dữ liệu video tiến hành phân tích, phát hiện sự chuyểnđổi từ lia này sang lia khác hay chính là sự phát hiện ranh giới giữa các lia (đó chính là
đo sự khác nhau giữa các khung hình liền kề) Trong hình dưới đây là ví dụ về sựchuyển đổi giữa các lia:
Hình 2: Chuyển đổi Lia giữa khung hình thứ 3 và thứ 4
Một số thuộc tính đặc trưng của video:
Video có 4 đặc trưng chính đó là: Color (màu), Texture (kết cấu), Shape(hìnhdạng), Motion (chuyển động)
đó các thống kê có nghĩa có thể được trích chọn Ngược lại, người ta thấy rằng entropi
và mô men chênh lệch nghịch đảo lại có khả năng phân biệt tốt nhất Biểu diễnTamura được thúc đẩy nhờ các nghiên cứu về tâm lý trong việc thu nhận trực giác của
Trang 6con người và nó bao gồm các đại lượng đo tính thô, độ tương phản, hướng, tính trơn,tính cân đối và độ ráp Các đặc trưng Tamura rất hấp dẫn trong việc hiểu nội dung ảnh
vì nó biểu đạt trực quan Ngoài ra còn có một số các dạng biểu diễn khác như trườngngẫu nhiên Markov, biến đổi Gabor, biến đổi gợn sóng,
1.3 Shape
Các đặc trưng hình dáng có thể được biểu diễn sử dụng phân tích hình dángtruyền thống như bất biến mô men, mô tả Fourier, mô hình học tự động quay lui và cácthuộc tính hình học Các đặc trưng này có thể được phân chia thành đặc trưng toàn cục
và đặc trưng cục bộ Đặc trưng toàn cục là đặc trưng thuộc tính thu được từ toàn bộhình dáng ảnh, chẳng hạn như chu vi, tính tròn, mô men trung tâm, hướng trục chính Đặc trưng cục bộ là đặc trưng thu được từ việc thao tác với một phần của ảnh, khôngphụ thuộc vào toàn bộ ảnh
1.4 Motion
Motion là thuộc tính quan trọng của video Thông tin về chuyển động có thểđược sinh ra bằng các kỹ thuật ghép khối hoặc luồng ánh sáng Các đặc trưng chuyểnđộng như mô men của trường chuyển động, biểu đồ chuyển động hoặc là các tham sốchuyển động toàn cục có thể được trích chọn từ vectơ chuyển động Các đặc trưngmức cao phản ánh di chuyển camera như quét camera (pan), nghiêng (tilt), phóng to(zoom out), thu nhỏ (zoom in) cũng có thể được trích chọn
2 Phát hiện đối tương chuyển động là gì?
Đó là quá trình đưa ra vết các đối tượng chuyển động từ các khung hình video[4.2] Quá trình này thực chất là quá trình xử lý chuỗi ảnh liên tiếp trong một đoạnvideo để phát hiện ra các đối tượng chuyển động trong một đoạn hình ảnh theo môhình dưới đây:
Trang 7PHÁT HIỆN CÁC VÙNG ẢNH NỔI (FOREGROUND DETECTION)
XỬ LÝ CÁC VÙNG ẢNH NỔI (FOREGROUND PROCESSING)
Các đối tượng chuyển động, các tính chất của chúng Các khung hình video
Hình 3: Tổng quan các khối xử lý trong bài toán phát hiện đối tượng
2.1 Phát hiện các vùng ảnh nổi
Phát hiện các vùng ảnh nổi là một module thiết yếu trong bài toán phát hiệnđối tượng chuyển động qua các khung hình video Module này đóng vai trò xử lý cáckhung hình video để đưa ra các vùng ảnh nổi lên trên các khung hình nền Để minhhọa cho chức năng module này ta có thể nhìn hình dưới đây:
Hình 4: Phát hiện các vùng ảnh nổi
Các khung hình bên trái thu được sẽ được xử lý để đưa ra các vùng ảnh nổi lêntrên (Vết các đối tượng chuyển động trên một ảnh nền ) được minh họa hình phía bênphải Vùng ảnh nổi thu được như quan sát, vẫn còn nhiều nhiễu, các đối tượng chuyểnđộng chưa có hình dạng rõ ràng do đó phải được xử lý ở module sau để có thể đưa ra
Trang 82.2 Xử lý các vùng ảnh nổi
Các vùng ảnh nổi lên thực tế vẫn còn nhiều nhiễu, do đó để lọc nhiễu, xử lýghép mảnh, loại bỏ các vết không liên quan thì cần phải sử dụng module xử lý cácvùng ảnh nổi để đưa ra được các đối tượng chuyển động rõ ràng để từ đó xác đinh cáctính chất của chúng Chức năng của module này được minh hoạ bằng hình vẽ dướiđây
Hình 5: Xử lý các vùng ảnh nổi (Foreground Processing)
Hình bên trái là kết quả thu được sau module phát hiện các vùng ảnh nổi lên từcác khung hình video Như quan sát các kết quả này thực sự còn rất nhiều nhiễu, cácvết không liên quan đến đối tượng cần phát hiện Ảnh bên phải chính là kết quả đầu racủa quá trình xử lý các vùng ảnh nổi Từ các kết quả đầu ra này ta có thể đưa ra đượcchính xác đối tượng chuyển động trong các khung hình đó và các tính chất của nó nhưhình dạng, vị trí, …là đầu vào của quá trình phân loại đối tượng trong hệ thống theodõi giám sát
3 Các vấn đề phải giải quyết
3.1 Phát hiện các vùng ảnh nổi
Hình ảnh video là một chuỗi các khung hình liên tiếp được thể hiện trong mộtthời gian Phát hiện vùng ảnh nổi bản chất là việc so sánh các khung hình liên tiếptrong một đoạn video để từ đó có thể đưa ra các vùng ảnh khác nhau giữa các khunghình liên tiếp đó Đây chính là nguyên lý cơ bản để bắt được vết các đối tượng chuyểnđộng, vì chỉ khi có đối tượng chuyển động trong khung hình thì mới có sự khác nhaugiữa các khung hình liên tiếp từ đó sẽ thu được các vết chuyển động của vật thể Đã cónhiều phương pháp được đưa ra để giải quyết vấn đề này, các phương pháp giải quyết
Trang 9có những ưu nhược điểm riêng phù hợp với các điều kiện và hoàn cảnh giám sát khácnhau Song khái quát lại có thể phân thành các loại phương pháp sau [2][3]:
- Các phương pháp trừ ảnh nền (Background Subtraction)
- Các phương pháp dựa trên thông kê (Statistical Methods)
- Các phương pháp dựa trên sự chênh lệnh tạm thời giữa các khunghình (Temporal Differencing)
Dưới đây là một số khái quát về các phương pháp được trình bày ở trên 3.1.1 Các phương pháp trừ ảnh nền (Background subtraction)
Phương pháp trừ ảnh nền là phương pháp rất phổ biến và hiệu quả trong việcgiải quyết phân đoạn với những đoạn hình ảnh có khung cảnh tĩnh Có nhiều kỹ thuậttrừ ảnh [1][4], bằng việc sử dụng phép trừ ảnh ở mức điểm ảnh, một khung hình sẽđược so sánh với một hình nền để từ đó đưa ra vùng các điểm ảnh khác nhau giữakhung hình đó và ảnh nền Các điểm ảnh khác nhau sẽ được hiểu như là các điểm ảnhnổi lên trên ảnh nền Sau khi tìm ra các vùng ảnh nổi, các vùng này sẽ được xử lý đểlọc đi các nhiễu, các vết không phù hợp bằng một số thuật toán lọc nhiễu khác nhau
Cụ thể xét một điểm ảnh I(x,y) trong một khung hình mới và B(x,y) là điểmảnh trên ảnh nền đều có tọa độ (x, y) Điểm ảnh I được coi là điểm ảnh nổi(foreground) nếu :
|I(x,y) – B(x,y| > τ
(2.1)
Trong đó τ là một ngưỡng được định nghĩa từ trước
Ảnh nền B được cập nhật bằng cách sử dụng phương pháp lọc Infinite ImpulseResponse (IIR) theo công thức sau:
Trong đó I t là điểm ảnh nổi tại thời điểm t, B t là diểm anh nền
tại thời điểm t, αI là tham số được định nghĩa trước
Phương pháp trừ ảnh nền được sử dụng khá phổ biến song nó không là lựachọn tốt đối với những đoạn video có khung cảnh không ổn định ví dụ như khung cảnhánh sáng luôn bị thay đổi liên tục hay những khung cảnh có độ nhiễu lớn (ví dụ nhưnhững cây luôn dao động liên tục khi có gió)
Trang 103.1.2 Các phương pháp thông kê (Statistical Methods)
Phương pháp thống kê sử dụng việc thông kê các đặc điểm riêng của các điểmảnh để phát triển một thuật toán có thể vượt qua được những khó khăn mà phươngpháp trừ ảnh nền gặp phải đó là những khó khăn gặp phải khi khung cảnh luôn thayđổi bởi nhiều yếu tố môi trường Có nhiều phương pháp thống kê [5][6], song phươngpháp thống kê cơ bản vẫn dựa trên kỹ thuật trừ ảnh nền song thêm vào đó nó thực hiện
ăn khớp, và cập nhật động thông tin các điểm ảnh thuộc ảnh nền đang được xử lý Cácđiểm ảnh nổi sẽ được xác định bởi việc so sánh các thông tin của điểm ảnh với các môhình ảnh nền Phương pháp này được sử dụng khá phổ biến trong những khung cảnh
có nhiều nhiễu, ánh sáng thay đổi liên tục
Xét một hệ thống sử dụng phương pháp thông kê Trong phương pháp này mỗiđiểm ảnh sẽ được biếu diễn bởi cường độ lớn nhất M và nhỏ nhất N và độ khác nhau Dgiữa các khung hình liên tiếp được chỉ ra trong một khoảng thời gian mà ở đó chưa cóchuyển động của đối tượng Một điểm ảnh I t tại thời điểm t được xác định là điểm
ảnh nổi lên khi :
|M ( x, y)−I t(x , y )|> D( x, y| hoặc |N(x, y)|−I t(x , y)>D( x, y )
(2.3)
Sau bước này các điểm ảnh nổi lên sẽ được xử lý để xóa đi các điểm có độnhiễu cao Một ví dụ của phương pháp thống kê, Stauffer và Grismon mô tả mộtphương pháp tương hợp các ảnh nền cho bài toán theo vết đối tượng Phương pháp của
họ đó là mọi điểm ảnh sẽ được mô hình hóa riêng rẽ bởi phép kết hợp Gauss Trongquá trình phát hiện liệu điểm ảnh này thuộc ảnh nền hay là điểm ảnh nổi lên, phươngpháp phân tán Gauss các mô hình hỗn độn này sẽ đưa ra đánh giá về điểm ảnh và cóthể kết luận được điểm ảnh đó thuộc ảnh nền hay thuộc phần ảnh nổi lên được pháthiện ra Việc thực thi thuật toán này sẽ được trình bày trong phần sau
3.1.3 Phương pháp chênh lệch tạm thời (Temporal Differencing)
Phương pháp chênh lệch tạm thời [2] thực hiện việc phát hiện vùng chuyểnđộng bằng cách sử dụng sự khác nhau ở mức điểm ảnh giữa hai hoặc ba khung hìnhliên tiếp trong một chuỗi các khung hình video Phương pháp này khá tốt đối vớikhung cảnh động nhiều thay đổi song nó lại thất bại trong việc phát hiện ra các điểmảnh có liên quan đến một số kiểu chuyển động Ví dụ đối tượng chuyển động tronghình dưới đây Vùng ảnh màu đỏ là vùng đưa ra các điểm ảnh khác nhau dựa trên
Trang 11phương pháp chênh lệch tạm thời song nó không thể đưa được ra tất các các vùngchuyển động của người đó.
Phương pháp chênh lệch tạm thời được thực hiện qua công thức
Trong đó I t(x , y ) là điểm ảnh có tọa độ (x,y) của khung hình tại thời điểm t
còn I t−1 là điểm ảnh có tọa độ (x,y) của khung hình tại thời điểm t-1 Còn τ là
ngưỡng được định nghĩa trước đó
3.2 Xử lý các vùng ảnh nổi
Như ta đã biết, sau kết quả xử lý của module phát hiện vùng ảnh nổi còn rấtnhiều nhiễu do đó cần phải lọc bỏ đi các nhiễu này và thực hiện xác định rõ đối tượngchuyển động cùng với các tính chất của chúng
Module Xử lý các vùng ảnh nổi được thiết kế để xử lý ở mức điểm ảnh để loại
bỏ đi các nhiễu hoàn thành bài toán phát hiện đối tượng chuyển động.Yếu tố điều kiệnmôi trường, hoàn cảnh quan sát và các yếu tố khách quan là các nguyên nhân chínhgây lên nhiễu trong khi giám sát Có nhiều nguyên nhân gây nhiễu [2], một trong sốnguyên nhân gây nhiễu đó là:
- Nhiễu do Camera quan sát: Các nhiễu này do Camera quan sát gâylên, là các yếu tố khách quan phụ thuộc vào chất lượng loại bỏ nhiễu của Camera được
sử dụng quan sát
- Nhiễu do phản xạ: Do sự phản xạ ánh sáng khung cảnh được quansát, cụ thể là một số phần của khung hình nền sẽ phản xạ ánh sáng mặt trời do đó sẽgây nên nhiễu
- Nhiễu do sự đồng màu: Đối tượng chuyển động có cùng màu vớimàu khung hình nền sau nó do đó sẽ gây ra nhiễu (không thể phát hiện được toàn phầnđối tượng chuyển động)
- Nhiễu do bóng của đối tượng chuyển động và điều kiện ánh sángthay đổi: Trong điều kiện ánh sáng vật thể sẽ tạo bóng lên khung hình, khi đối tượngchuyển động thì bóng cũng thay đổi do đó gây ra nhiễu
Trang 12Biểu đồ điểm ảnh nổi và khung ảnh hiện tại
Các khối đã được đánh dấu
Các khối đã được lọc, làm sạch
Vết của đối tượng và các tính chất của chúng
1 TIỀN XỬ LÝ MỨC ĐIỂM ẢNH
2 PHÂN TÍCH SỰ LIÊN KẾT CÁC KHỐI
4 ĐƯA RA TÍNH CHẤT CỦA ĐỐI TƯỢNG
Vùng điểm ảnh nổi đã làm sạch
3 TIỀN XỬ LÝ VÙNG ẢNH NỔI
- Các nhiễu trong điều kiện quan sát ngoài trời: Điều kiện quan sátngoài trời là điều kiện quan sát phức tạp nhiều nhiễu nhất ví dụ như nhiễu do tán lá câylay động, nhiễu do sự thay đổi liên tục của ánh sáng ngoài trời,…
Module xử lý vùng ảnh nổi có thể được khái quát qua một số khối xử lý sauđây:
- Tiền xử lý mức điểm ảnh nổi: Loại bỏ nhiễu, phát hiện bóng, …
- Phân tích liên kết các khối: Liên kết các vùng điểm ảnh thành cáckhối
- Tiền xử lý các vùng ảnh nổi: Kết hợp các khổi ảnh nổi đã được phântích bước trên đưa ra các đối tượng đã được làm sạch
- Xác định tính chất đối tượng: Từ các khối đại diện cho đối tượng tiếnhành xác định tính chất của đối tượng như: Hình bao, diện tích, vị trí, …
Trang 13Hình 6: Xử lý các vùng ảnh nổi
II Bài toán phân loại đối tượng
Đầu vào của bài toán phân loại đối tượng chuyển động là các vết đối tượng,các đặc trưng của đối tượng đã được phát hiện thông qua khối xử lý phát hiện đốitượng Cụ thể là hình bao, diện tích, trọng tâm, biểu đồ màu của vùng đối tượngchuyển động được phát hiện
Đầu ra của bài toán phân loại đối tượng chuyển động là thông tin về lớp đốitượng chuyển động được phát hiện Cụ thể: đối tượng thuộc lớp nào và thông tin vềcác thuộc tính của đối tượng trong lớp đó
1 Phân loại đối tượng là gì?
Phân loại đối tượng là quá trình phân lớp đối tượng chuyển động thuộc lớp sựvật nào Các vùng chuyển động phát hiện được ( trong bước phát hiện đối tượngchuyển động) trong video tương ứng với các đối tượng khác nhau như người bộhành, xe cộ, … Nhận biết kiểu(loại) của một đối tượng phát hiện được để theo dõitin cậy và phân tích hành động của nó một cách chính xác là rất quan trọng Modulenày là phần thứ hai trong mô hình xử lý hình ảnh Hiện tại, có hai cách tiếp cận chủyếu:
- Phương pháp dựa trên hình dạng( shape)
- Phương pháp dựa trên sự chuyển động( motion)
Các phương pháp dựa trên hình dạng sử dụng thông tin không gian hai chiềucủa đối tượng trong khi đó các phương pháp dựa trên sự chuyển động sử dụng cácđặc trưng thuộc thời gian đã được theo dõi của các đối tượng cho giải pháp phânloại
1.1 Phân loại dựa trên hình dạng( Shape- based Classification)
Các đặc trưng thông thường được sử dụng trong việc phân loại dựa trên hìnhdạng là hình bao, diện tích, hình chiếu, và gradient của các vùng đối tượng phát hiệnđược
Trang 14Cách tiếp cận trong [7] sử dụng độ dài đường viền hình chiếu của đối tượng
và thông tin về diện tích để phân loại các đối tượng phát hiện được vào ba nhóm:người, xe cộ, và các loại khác Phương pháp xuất phát từ giả thuyết người nhỏ hơncác phương tiện( xe cộ) và có các hình dạng phức tạp Độ phân tán( dispersedness)được sử dụng như độ đo phân loại và nó được định nghĩa dưới dạng diện tích và độdài( chu vi) đường viền như sau:
1.2 Phân loại dựa trên chuyển động( Motion- based Classification)
Một vài phương pháp chỉ sử dụng các đặc trưng chuyển động thuộc thời giancủa đối tượng nhằm nhận biết lớp của chúng [9], [10], [11] Thông thường, chúngđược dùng để phân biệt các đối tượng linh động ( non-rigid) với các đối tượng khônglinh động Phương pháp đề cập trong [9] dựa trên sự tự tương đồng mang tính thờigian của một đối tượng chuyển động Bởi vì một đối tượng thể hiện sự tiến triểnmang tính chu kỳ của chuyển động, các độ đo sự tự tương đồng của nó cũng chỉ ramột chuyển động mang tính chu kỳ Phương pháp khai thác đầu mối này để phân loạiđối tượng chuyển động sử dụng tính chu kỳ
Sự phân tích luồng quang học cũng có ích để phân biệt các đối tượng linhđộng và không linh động( rigid và non-rigid) A.J.Lipton đề xuất một phương pháp
sử dụng luồng quang học cục bộ phân tích các vùng đối tượng [11] Các đối tượnglinh động được trông đợi sẽ có luồng thặng dư ( residual) trung bình cao trong khi đócác đối tượng không linh động sẽ có luồng thặng dư thấp Theo đó, luồng thặng dưsinh ra bởi chuyển động của người sẽ có một tính chu kỳ Bằng cách sử dụng phương
Trang 15Hai cách tiếp cận thông thường được đề cập ở trên, gọi tên là phân loại dựatrên hình dạng và phân loại dựa trên chuyển động có thể được kết hợp một cách cóhiệu quả cho việc phân loại đối tượng chuyển động Hơn nữa, Stauffer đề xuất mộtphương phương pháp dựa trên ma trận thời gian đồng sự kiện( co-occurrence matrix)
để phân loại một cách phân cấp cả các đối tượng và hành vi Bằng cách sử dụng thêmcác đặc trưng như màu và vận tốc phương pháp này được mong đợi sẽ cho kết quảphân loại chính xác hơn
Tóm lại, phân loại đối tượng trong các hình ảnh video là một vấn đề đối tượngtương đối khó Mỗi phương pháp có ưu và nhược điểm riêng phù hợp với từng hoàncảnh, bài toán khác nhau Để đạt được hiệu quả tốt, ta cần phân tích bài toán, hoàncảnh cụ thể và lựa chọn phương pháp thích hợp Trong bài toán theo dõi giám sátgiao thông chúng tôi lựa chọn phương pháp phân loại dựa trên hình chiếu
2 Một số phương pháp phân loại phổ biến.
2.1 Phương pháp dựa trên hình dạng( Shape- based)
Phần này trình bày một phương pháp đơn giản hơn dựa trên sự tổng hợp của
sự chênh lệch thời gian ( temporal differencing) và đối sánh ảnh mẫu( imagetemplate matching) cho phép đạt hiệu quả cao trong việc theo dõi trong môi trườngnhiễu và cho phép phân loại tốt Do đó sử dụng bộ lọc Kalman hoặc các cách tiếpcận xác suất khác để giải quyết nhược điểm này
Hai phương pháp cơ bản cho theo dõi mục tiêu trong các ứng dụng theo dõi
đối tượng là chênh lệch thời gian( temporal differencing)- DT và đối sánh sự tương
quan mẫu Trong cách tiếp cận đầu, các khung hình video phân tách bởi một hằng số
thời gian δtt được so sánh để tìm các vùng đã thay đổi Trong cách tiếp cận sau,
mỗi ảnh video được quét cho vùng mà có sự tương quan tốt nhất với một ảnh mẫu.Một cách độc lập, các phương pháp này có những thiếu sót quan trọng
Theo dõi DT sẽ không thể nếu có sự chuyển động đáng kể của camera, trừ khi
áp dụng một thuật toán làm ổn định ảnh Nó cũng sai nếu mục tiêu bị chồng chéohoặc ngừng chuyển động Đối sánh sự tương đồng mẫu thường đòi hỏi sự xuất hiệncủa đối tượng mục tiêu còn lại hằng số Phương pháp này không hiệu quả trong việcthay đổi kích cỡ đối tượng, định hướng hoặc thậm chí thay đổi điều kiện chiếu sáng
Tuy nhiên, các thuộc tính theo dõi của hai phương pháp này bổ sung cho
nhau Khi mục tiêu là cố định, thì đối sánh mẫu thí hiệu quả nhất trong khi DT thì
Trang 16sai Và khi mục tiêu di chuyển, DT sẽ thành công nhưng đối sánh mẫu có xu hướng
bị “trôi đi”
Đó chính là mục đích cho việc kết hợp hai phương pháp Ý tưởng là sử dụng
DT để dò tìm các mục tiêu di động và đào tạo( training) thuật toán đối sánh mẫu.
Những mục tiêu này sau đó được theo dõi sử dụng đối sánh mẫu được hướng dẫn bởi
giai đoạn DT Sự kết hợp này, ngăn ngừa sự đòi hỏi bất cứ sự lọc mang tính dự đoán
nào trong tiến trình theo dõi bởi vì việc theo dõi đã được chỉ dẫn bởi việc dò tìmchuyển động Mô hình đơn giản này đưa ra một kết quả đáng ghi nhận
Phần này mô tả một hệ thống cho việc theo dõi các mục tiêu một cách hiệuquả vào hai loại: “người” và “xe cộ” cho một ứng dụng theo dõi video ngoài trời
Việc theo dõi mục tiêu dựa trên hai nguyên lý: (a) Tính nhất quán thời gian( temporal consistency) cái mà cung cấp một cách hiệu quả cho việc phân loại
các mục tiêu di động đồng thời loại bỏ sự nhiễu( hỗn loạn) nền, và (b) sự kết hợp củaviệc dò tìm chuyển động với đối sánh mẫu dựa trên ảnh( image- based) cung cấp mộtgiản đồ theo dõi đối tượng khá hiệu quả Phân loại mục tiêu dựa trên một ứng dụngđơn giản của việc đánh giá khả năng lớn nhất sau khi tính toán một hình đơn giảndựa trên độ đo cho mỗi mục tiêu
2.1.1 Cấu trúc tổng quát của phương pháp
Hệ thống này gồm ba thành phần chính thể hiện trong hình 2-9 Trong phầnđầu tiên, tất cả các đối tượng chuyển động được dò tìm sử dụng một thuật toán chênhlệch thời gian( temporal differencing) Chúng được mô tả như những vùng chuyểnđộng( motion region) Mỗi vùng được phân loại tại mỗi khung hình thời gian sửdụng một độ đo phân loại dựa trên ảnh( image- based) Các phân loại cho mỗi vùngchuyển động đơn lẻ được ghi lại qua một khoảng thời gian, và một tiêu chuẩn đánhgiá có khả năng lớn nhất MLE( Maximum Likelihood Estimation) được dùng đểphân loại đúng mỗi đối tượng Khi đối tượng đã được phân loại nó có thể được dùngnhư các mẫu training cho tiến trình theo dõi