Chƣơng 1 THUẬT TOÁN PHÁT HIỆN CHUYỂN ĐỘNG
1.5 Mô hình từ điển hai lớp thích nghi thời gian thực
Mô hình đề cập của Kim[4] là mô hình dựa trên cơ sở không gian màu. Mô hình sử dụng từ điển về cơ bản hoạt động rất nhanh và hiệu quả đối với các vấn đề liên quan tới bộ nhớ. Để cải tiến mô hình sử dụng từ điển cơ bản thì Kim cũng đề xuất mô hình phân lớp và cập nhật từ điển thích nghi trong một cấu trúc mới đƣợc gọi là từ điển phân lớp thích nghi. Từ điển này có thể mô hình nền mới trong suốt quá trình tách vật thể và có thể phát hiện tốt với những thay đổi về cƣờng độ sáng. Tuy vậy, mô hình này không thể mô hình các thay đổi cƣờng độ sáng chậm diễn ra trong một thời gian dài.
1.5.1 Mô hình từ điển cơ bản
Mô hình từ điển cơ bản dựa trên khái niệm điểm ảnh. Chính vì vậy mà mỗi từ điển sẽ tồn tại cho mỗi một điểm ảnh; hay nói cách khác, mỗi điểm ảnh có một từ điển riêng mô tả đặc tính của nó. Mỗi từ điển có thể có một hay nhiều từ mã và số lƣợng từ mã là khác nhau. Ta có thể hiểu mỗi từ mã là một nhóm các mẫu đƣợc tạo ra từ một phần của nền. Ở đây, khác với mô hình của Kim thì ta sử dụng mức xám của điểm ảnh để thiết lập từ điển.
Giả sử chuỗi đào tạo gồm N điểm ảnh mức xám là X={I1,I2,…IN} và từ mã tƣơng ứng của điểm ảnh đang xét gồm L từ mã là C={c1,c2,…,cL}. Với mỗi từ mã đƣợc biểu diễn gồm 6 thành phần ci=(Imin, Imax, fi, i, pi, qi). Ở đây ta dễ dàng nhận thấy sự thiếu vắng của véc-tơ RiBiGi là thành phần màu trung bình của từ mã nhƣ trong mô hình của Kim đề cập. Điều đó có thể đƣợc lý giải là do thuật toán này xử lý trên miền giá trị độ xám thay vì trong không gian màu RGB. Imin, Imax cũng đƣợc định nghĩa lại là giá trị độ xám cực tiểu và cực đại mà từ mã biểu diễn. fi là tần suất mà từ mã đƣợc sử dụng trong chuỗi đào tạo. Khoảng thời gian dài nhất mà từ mã không xảy ra trong chuỗi đào tạo đƣợc kí hiệu là . pi và qi là thời điểm lần đầu tiên và cuối cùng mà từ mã đƣợc truy nhập.
Thuật toán khởi tạo từ điển đƣợc mô tả nhƣ sau:
1. L = {rỗng}; C={rỗng} 2. Với t=1 tới N
i. Tìm từ mã cm trong C phù hợp với It trong khoảng [Imin, Imax] ii. Nếu C rỗng hoặc không tìm thấy thì L=L+1. Tạo mới từ mã cL với
cL = (max{0,It-α},min{255,It+α}, 1,max{m,t-1},t,t) iii. Nếu tìm thấy thì cập nhật từ mã cm nhƣ sau:
cm =
3. Với mỗi từ mã ci với i=1,..L cập nhật i = max{i , N-qi+pi-1}
Trong đó, α là tham số thực dƣơng và giá trị nên chọn cỡ 10. Trong thuật toán này, nếu fi nhỏ thì ci sẽ biểu diễn mẫu trong một vùng nhỏ và dải giá trị độ sáng [Imin, Imax] sẽ đƣợc thay đổi nhanh. Nhƣng khi fi lớn thì ci sẽ biểu diễn một vùng lớn gồm rất nhiều mẫu với dải độ sáng đƣợc cập nhật chậm hơn. Trong thuật toán của Kim thì Imin, Imax đƣợc sử dụng với toán tử so sánh khác với ở đây- đƣợc sử dụng nhƣ là lấy trung bình hóa với các giá trị cập nhật. Với các thay đổi độ sáng chậm diễn ra trong khoảng thời gian dài có thể đƣợc mô hình hóa nhƣ là nền.
1.5.2 Thuật toán tách nền
Thuật toán tách nền ở đây cũng khá giống so với đề xuất của Kim, chỉ khác ở điều kiện so sánh để tìm ra từ khóa phù hợp.
a. Tìm từ mã cm trong M mà It trong khoảng [Imin, Imax] b. Nếu thấy cm thì cập nhật từ mã
cm =
và khi đó It là nền.
c. Nếu không thì It là thuộc vật thể.
Trong đó, β là tham số thực dƣơng trong khoảng từ 0,9 đến 1.
So sánh với thuật toán của Kim, ta thấy rằng ở đây mỗi từ mã gồm 4 giá trị nguyên (fi,i,pi,qi) và 2 giá trị thực (Imin, Imax) – không có 3 giá trị thực lƣu thành phần RGB của từ mã. Nhƣ vậy, nếu mã hóa số nguyên và thực đều bằng 4 byte thì kích thƣớc của một từ mã trong phƣơng pháp này là 24 byte trong khi phƣơng pháp của Kim là 36 byte. Về tốc độ thuật toán thì thuật toán này cũng thực hiện nhanh hơn do ít các phép toán với số có dấu phẩy động, căn thức, và số học hơn. Phƣơng pháp Chế độ màu Tốc độ xử lý (khung/giây) Kích thƣớc từ mã Phƣơng pháp phân lớp thích nghi của Kim RGB 27 36 Phƣơng pháp đƣợc đề xuất Mức xám 41 24
Kết quả thí nghiệm cho thấy rằng: hai thuật toán cho kết quả khá giống nhau với các chuỗi nền chuyển động. Tuy vậy, mô hình đƣợc sử dụng ở đây là mức xám chứ không phải RGB nhƣ Kim đề xuất. Trong khi đó, thuật toán của Kim lại cho kết quả yếu – không thể phát hiện các vật thể với sự thay đổi cƣờng độ sáng chậm trong khoảng thời gian dài.