Giải thuật codebook

Trong thực tế, các khung cảnh quan sát thường có các đối tượng chuyển động như lá cây đu đưa theo gió, cánh quạt trần quay, màn che lay động… hoặc có sự thay đổi về ánh sáng như đám mây di chuyển, cửa sổ bị che khuất…

Do đó, như đã trình bày, phương pháp trừ nền tốt là phương pháp xây dựng mô hình nền theo chuỗi thời gian cho mỗi pixel hay những nhóm pixel. Tất nhiên, mô hình kiểu như vậy gây tốn kém về bộ nhớ cũng như thời gian tính toán. Ví dụ hệ thống Wallflower [34] của K.Toyama và nhóm nghiên cứu của ông, nếu chạy mô hình này trong 2 giây ở 30 Hz, thì cần đến 60 mẫu cho mỗi pixel, và mỗi pixel phải tiến hành quá trình học với 60 trọng số khác nhau [7].

Để giải quyết vấn đề thời gian thực hiện, cũng như xây dựng một mô hình trừ nền hiệu quả, K.Kim, T.H.Chalidabhongse, D.Harwood và L.Davis [20] đã đưa giải thuật trừ nền thông qua quá trình phân đoạn ảnh nền theo thời gian thực (Real-time

foreground-background segmentation) dựa trên mô hình bảng mã (codebook model)

hay kỹ thuật lượng tử hóa-tạo chùm (quantization/clustering techniques). Giải thuật sẽ tiến hành mã hóa theo chuỗi thời gian các giá trị màu quan sát được của mỗi vùng pixel ảnh vào một hay nhiều từ mã (codewords). Tức là bằng kỹ thuật lượng tử hóa vector, tạo ra một chùm các giá trị màu quan sát của mỗi pixel. Số lượng

codewords cần thiết cho mỗi pixel có thể thay đổi, nhưng thường ít khi vượt quá

sáu. Thước đo độ tương tự (similarity measure) sử dụng trong mã hóa là độ biến dạng màu (color distortion) và khoảng độ chói (brightness range). Sau khi ảnh nền được mã hóa, để phát hiện đối tượng trên frame mới, giải thuật sẽ quan sát từng vùng pixel của frame, so sánh màu và độ chói tại mỗi vùng với các giá trị tương ứng lưu trong codewords, Một pixel được xác định là pixel nền nếu nó thỏa mãn hai điều kiện.:

1) Biến dạng màu của pixel tương ứng với một số codewords nhỏ hơn một

2) Độ chói tại các pixel nằm trong khoảng độ chói của codeword.

Kết quả thực nghiệm về giải thuật trừ nền codebook cùng với so sánh giữa

giải thuật với những kỹ thuật trừ nền khác như MOG (Mixture of Gaussians), Kernel density xem thêm tại [20].

K.Kim thực hiện giải thuật với không gian màu RGB [20]. Tuy nhiên, không gian màu RGB chưa thực sự tối ưu. Các phát triển sau đó sử dụng những không gian màu khác, có một trục biểu diễn độ sáng như không gian màu HSV, YUV. Nguyên nhân là phần lớn những thay đổi của nền diễn ra trên trục ánh sáng chứ không phải trục màu sắc.

G.Bradski, A.Kaehler [7] đã cải tiến giải thuật của K.Kim bằng cách thay thế những mô hình từ mã dạng ống (learning‐oriented tubes) trên không gian màu RGB bằng các từ mã dạng hộp (axis‐aligned boxes) dọc theo trục không gian màu

YUV.

Tiếp theo, chúng ta sẽ tìm hiểu giải thuật codebook xây dựng bởi G.Bradski, A.Kaehler hoạt động như thế nào (hình 2-7). Một codebook gồm các codewords

dạng hộp, sẽ tăng dần kích thước, bao phủ toàn bộ giá trị màu quan sát theo thời gian. Nếu có giá trị mới xuất hiện, và nằm quá xa những hộp này, thì một nhóm

codewords mới được tạo ra, bao phủ giá trị mới và lại tiếp tục quá trình như các

codewords cũ tại vị trí mới. Trong quá trình học của phương pháp codebook, mỗi

codewords được xác định bởi hai ngưỡng (max, min) trên mỗi trục không gian màu

YUV. Các ngưỡng biên của chúng có thể mở rộng (max có thể lớn hơn, min có thể nhỏ đi) nếu một những mẫu nền mới xuất hiện rơi vào bên trong một ngưỡng học (LearnHigh, LearnLow), nằm trên giá trị max hoặc dưới giá trị min. Nếu mẫu nền mới nằm ngoài các hộp và các ngưỡng học, một codewords mới sẽ được tạo ra. Ở bước trừ nền, sẽ có hai giá trị ngưỡng so sánh (maxMode, minMode). Nếu giá trị

một pixel nằm ngoài khoảng max+maxMode phía trên và min-minMode phía dưới

thì sẽ được xác định là không thuộc nền.

Các phương trình tính toán của bộ lọc

Thuật toán Kalman rời rạc