Trong thuật toán xây dựng mô hình nền sử dụng từ điển, mỗi điểm ảnh sẽ ứng với một từ điển chứa một hoặc nhiều hơn các từ mã. Các mẫu ứng với mỗi điểm sẽ đƣợc phân nhóm thành tập từ mã dựa trên độ sai khác màu và giới hạn cƣờng độ sáng. Không phải mọi điểm ảnh đều có cùng số từ mã mà phụ thuộc vào tính chất thay đổi của chúng. Việc phân nhóm dựa trên các từ mã không liên quan tới các tham số nhƣ một số phƣơng pháp đã trình bày ở phần 1.3[1]. Toàn bộ đặc tính của nền đƣợc mã hóa dựa trên cơ sở điểm ảnh. Việc phát hiện nền dựa trên sự sai khác giữa ảnh hiện tại với mô hình nền theo 2 tiêu chí: màu và độ sáng. Nếu một điểm ảnh tới thỏa mãn hai điều kiện: (1) độ sai khác màu giữa nó và từ mã nào đó nhỏ hơn ngƣỡng phát hiện; (2) độ sáng của nó nằm trong khoảng độ sáng cho phép của từ mã đó thì khi đó nó là điểm thuộc nền; còn không sẽ là điểm ảnh thuộc vật thể.
1.4.1.1 Khởi tạo từ điển mô hình hóa nền
Trƣớc khi đi vào chi tiết về Thuật toán khởi tạo từ điển mô hình hóa nền thì chúng ta cũng cần lƣu ý rằng các vấn đề đề cập ở đây theo quan điểm ảnh màu nhƣng cũng có thể đƣợc sử dụng cho ảnh mức xám với một vài thay đổi thích hợp.
Giả sử: X là chuỗi đào tạo cho một điểm ảnh bao gồm N véc-tơ RGB: X={x1,x2,…,xN}. Và L={c1,c2,…,cL} biểu diễn từ điển với L từ mã ứng với điểm ảnh đó. Mỗi điểm ảnh sẽ có một kích thƣớc từ điển khác nhau phụ thuộc vào phƣơng sai mẫu của nó.
Với mỗi từ mã ci với i=1..L gồm véc-tơ RBG vi=(Ri,Gi,Bi) và tập 6 biến auxi=<Imin,Imax,fi,,pi,qi> cụ thể nhƣ sau:
Imin, Imax là độ sáng nhỏ nhất và lớn nhất của tất cả các điểm ảnh đƣợc đại diện bởi từ mã hiện tại.
f là tần số từ mã lặp lại – cũng đƣợc hiểu là số lần đã xuất hiện từ trƣớc tới hiện tại.
là khoảng thời gian dài nhất mà từ mã không đƣợc sử dụng cho tới thời điểm xét.
Trong khoảng thời gian học nền, mỗi giá trị điểm ảnh tới xt, mẫu tại thời điểm t, sẽ đƣợc so sánh với từ điển để tìm ra từ mã cm(nếu có) phù hợp với nó – m là chỉ số của từ mã trong từ điển. Chúng ta sử dụng từ mã này nhƣ là sự xấp xỉ việc mã hóa mẫu. Để xác định từ mã nào là phù hợp nhất thì chúng ta dựa trên độ sai khác màu và giới hạn độ sáng.
Thuật toán khơi tạo từ điển
1. L = {rỗng}; C={rỗng} 2. Với t=1 tới N
i. ; trong đó R, G, B là 3 thành phần màu của xt.
ii. Tìm từ mã cm trong C phù hợp với xt dựa trên 2 điều kiện: colodist( xt,vm ) < ε1
brightness( I, <Imin,Imax> ) đúng
iii. Nếu C rỗng hoặc không tìm thấy thì L=L+1. Tạo mới từ mã cL với:
vL = (R,G,B)
auxL = <I,I,1,t-1,t,t>
iv. Nếu tìm thấy thì cập nhật từ mã cm gồm vm=(Rm,Gm,Bm) và auxm = <Imin,Imax,fm,,pm,qm> nhƣ sau:
vm =
auxm = <min{I,Im},max{I,Imax},fm+1,max{m,t-qm},pm,t> 3. Với mỗi từ mã ci với i=1,..L cập nhật i = max{i , N-qi+pi-1}
Hai điều kiện tìm kiếm thỏa mãn khi màu xt và cm là đủ gần xét trong không gian màu – sẽ đƣợc đề cập chi tiết ở phần sau - và độ sáng xt nằm giữa giới hạn sáng cho phép cm. Thay vì tìm điểm gần nhất thì chúng ta chỉ tìm điểm thỏa mãn đầu tiên. Giá trị ε1 là ngƣỡng lấy mẫu.
Từ điển thu đƣợc từ bƣớc trƣớc nhƣ là từ điển phẳng – không có độ ƣu tiên giữa các từ mã. Nó chứa tất cả các từ mã biểu diễn cho chuỗi điểm ảnh đào tạo và chứa cả các đối tƣợng vật thể chuyển động diễn ra trong quá trình đó và nhiễu. Trong bƣớc lọc theo thời gian, chúng ta lọc từ điển bằng cách tách các từ
mã chứa các đối tƣợng chuyển động với các từ mã nền thực sự. Chính điều này cho phép có sự xuất hiện của các vật thể chuyển động ngay trong thời gian học nền – mô hình hóa nền. Nền thực sự chứa cả các điểm tĩnh và các điểm nền chuyển động gần nhƣ tuần toàn(diễn ra trong khoảng chu kì giới hạn). Việc tách này làm đƣợc chính là nhờ tham số đƣợc định nghĩa nhƣ là khoảng thời gian lớn nhất mà từ mã không đƣợc sử dụng trong suốt giai đoạn học. Ví dụ: một điểm ảnh trên cành cây đƣợc lấy mẫu cƣờng độ sáng thay đổi theo thời gian. Với từ điển của điểm ảnh này, từ mã biểu diễn thông tin màu bầu trời sẽ có nhỏ cỡ khoảng 15, mang màu lá cây là 100 và màu xanh của nhân vật trong ảnh là 280.
Giả sử M, TM là mô hình nền hay từ điển sau giai đoạn lọc này và giá trị ngƣỡng lọc tƣơng ứng. Thông thƣờng, TM đƣợc chọn bằng N/2 – trong đó N là số mẫu trong giai đoạn học.
M = {cm|cm ϵ C và m ≤ TM}
Hình 6. Giá trị cƣờng độ sáng theo thời gian và cách đƣợc sử dụng.
Các từ mã có giá trị lớn sẽ đƣợc loại bỏ theo công thức trên. Mặc dù nó có thể có tần số f lớn nhƣng lớn nghĩa là thuộc về sự kiện của vật thể gần nhƣ đứng yên trong suốt chu kì f. Nói cách khác, với các từ mã có giá trị f nhỏ và nhỏ cũng có thể là một sự kiện nền ít gặp trong một chu kì gần nhƣ tuần hoàn. Chúng ta có thể sử dụng nhƣ là một đặc điểm để phân biệt từ mã của nền thực sự với từ mã của vật thể chuyển động. Nếu TM=N/2 thì tất cả các từ mã sẽ phải lặp lại ít nhất sau N/2 khung hình. Qua kết quả thí nghiệm cho thấy rằng kết quả của việc kết hợp giữa điều kiện f và cũng giống nhƣ chỉ xét với . Cũng dựa trên rất nhiều các thử nghiệm trên các đoạn video cho thấy rằng: trung bình chỉ có 6,5 từ mã là có thể mô hình hóa đƣợc 5 phút của đoạn video quay ngoài trời với tốt độ khung hình 30 khung/giây. Ngƣợc lại, trong môi trƣờng trong nhà thì chỉ cần 1 cho đến 2 từ mã. Chính vì lý do này nên mô hình nền đạt đƣợc tỉ lệ nén
cao, cho phép mô hình hóa nền trong một khoảng thời gian dài với dung lƣợng nhớ giới hạn.
Để giải quyết vấn đề thay đổi cƣờng độ sáng cục bộ hoặc toàn cục nhƣ các vùng tối, sáng thì các thuật toán thƣờng sử dụng các màu đƣợc chuẩn hóa. Những kĩ thuật này thƣờng làm việc kém với các khu vực tối của ảnh. Các điểm ảnh tối có độ không chắc chắn cao hơn các điểm ảnh sáng; nhƣ vậy độ không chắc chắn có mối liên hệ với độ sáng. Độ sáng nên đƣợc sử dụng nhƣ là một nhân tố trong việc so sánh tỉ lệ màu. Chính độ không chắc chắn này làm cho việc phát hiện trong các vùng tối là không ổn định. Việc phát hiện sai có xu hƣớng tập trung vào các vùng tối.
Sau đây, chúng ta quan sát các giá trị điểm ảnh thay đổi theo thời gian dƣới độ sáng thay đổi.
Hình 7. Biểu diễn giá trị màu trong không gian màu RGB.
Hình trên (7.b) mô tả phân bố giá trị các điểm ảnh trong không gian RBG từ chuỗi ảnh của bảng màu trong hình (7.a). Trong chuỗi thu đƣợc, cƣờng độ sáng thay đổi theo thời gian bằng các tăng hoặc giảm cƣờng độ sáng của đèn làm các điểm ảnh sáng hoặc tối đi. Các giá trị điểm ảnh có phân bố kéo dài và có xu hƣớng tụ về điểm gốc (0,0,0).
Giới hạn quyết định (từ mã)
Hình 8. Mô hình phân tách giá trị màu đề xuất
Trên cơ sở thu đƣợc, chúng ta phát triển một mô hình miêu tả trong hình 8 bằng cách tách độ sai khác màu và độ sáng. Đặc trƣng của mô hình này là các giá trị điểm ảnh nền nằm dọc theo trục chính của từ mã cùng với giới hạn giá trị cao thấp của độ sáng, từ đó độ sai khác màu có mỗi quan hệ mật thiết với giá trị độ sáng. Khi chúng ta có một điểm ảnh nhận đƣợc xt=(R,B,G) và một từ mã ci với vi=(Ri,Gi,Bi) ta xác định đƣợc:
Độ sai khác màu δ có thể đƣợc tính bởi công thức:
Phép đo độ sai khác màu có thể đƣợc hiểu nhƣ là phiên bản có trọng số của độ sáng trong không gian màu đƣợc chuẩn hóa. Điều này tƣơng đƣơng với thay đổi tỉ lệ theo quan điểm hình học(việc chuẩn hóa) véc-tơ từ mã với độ sáng của điểm ảnh lối vào. Bằng cách này, chúng ta đã đƣa độ sáng vào trong phép độ sai khác màu và loại bỏ sự không ổn định của các màu đƣợc chuẩn hóa.
Để cho phép sự thay đổi độ sáng khi tách nền, chúng ta lƣu trữ 2 giá trị thống kê Imin, Imax là độ sáng nhỏ nhất và lớn nhất của tất cả các điểm đƣợc biểu diễn bởi từ mã này. Giá trị độ sáng có thể thay đổi trong khoảng giới hạn mức tối và mức sáng. Giá trị đó là [Ilow,Ihi] đƣợc định nghĩa nhƣ sau:
Trong đó, α<1 và β>1. Thƣờng thì α nằm trong khoảng 0,4 tới 0,7; β trong khoảng 1,1 đến 1,5. Chính khoảng [Ilow,Ihi] tạo nên khoảng ổn định trong suốt quá trình cập nhật từ mã.
Hàm logic về độ sáng đƣợc định nghĩa nhƣ sau: