Biểu diễn ảnh dƣới dạng một mảng các pixel gồm 3 thành phần màu là cách biểu diễn dễ dàng trong việc thể hiện và lƣu trữ nhƣng không hữu dụng lắm cho các bài toán xử lý ảnh. Do đó, cần phải rút trích các đặc trƣng ảnh thể hiện các tính chất quan trọng hơn, ví dụ nhƣ cạnh và texture.
Texton là một khái niệm đƣợc đƣa ra bởi Julesz vào năm 1981 [16]. Texton là một
đơn vị của texture, thể hiện sự nhận thức của con ngƣời về vân ảnh (texture). Texton đã đƣợc chứng minh rất hiệu quả trong việc phân đoạn ảnh [29][33]. Do đó thể hiện các pixel ảnh dƣới dạng các texton sẽ chứa nhiều thông tin hữu ích hơn dƣới dạng màu sắc thông thƣờng. Luận văn này sẽ sử dụng texton đƣợc trình bày trong [13].
28
Hình 3-2. Quá trình texton hoá ảnh. Ảnh đầu vào đƣợc tích chập với một dãy các filter. Kết quả trả về tại tất cảc pixel trong tất cả ảnh huấn luyện đƣợc gom nhóm để
xây dựng bộ từ điển texton. Cuối cùng từng pixel đƣợc gán một chỉ số texton tƣơng ứng với nhóm gần nhất trong từ điển texton.
Quá trình texton hoá ảnh đƣợc minh hoạ trong hình 4-1. Chi tiết hơn nhƣ sau: Các ảnh huấn luyện đƣợc tích chập với một dãy 17 filter (filter bank). Do đó, kết quả trả về tại mỗi pixel trong từng ảnh sẽ tạo thành một vector đặc trƣng 17 chiều. Tập hợp tất cả các vector đặc trƣng này trên tất cả các pixel của ảnh, và của tất cả các ảnh trong tập huấn luyện. Làm trắng (whitening – biến đối dữ liệu đầu vào sao cho
trung bình bằng 0 và ma trận hiệp phƣơng sai là ma trận đơn vị) sau đó tiến hành gom nhóm bằng phƣơng pháp K-mean trên tập hợp này sử dụng khoảng cách
Euclid. Mỗi cluster sẽ tạo thành một texton thể hiện một loại vân ảnh nhất định. Sau cùng từng pixel trong từng ảnh sẽ đƣợc gán tới cluster (texton) gần nhất tạo thành
bản đồ texton (texton map). Bản đồ texton đƣợc ký hiệu là T , trong đó mỗi pixel i
sẽ có giá trị là
Dãy filter
Dãy filter đƣợc chọn nhƣ trong [13] gồm 17 filter: 3 Gaussians, 4 Laplacian of Gaussian, và 4 đạo hàm bậc nhất của Gaussian.
29
Ba filter đầu tiên là các Gaussian smoothing filter với các scale lần lƣợt là = 1,2,4. Ba filter này đƣợc áp lên từng kênh màu của hệ màu CIELab, do đó tạo nên 9 filter responses. Gaussian filter tại scale đƣợc định nghĩa.
(3.7)
Bốn filter tiếp theo là 2 đạo hàm bậc nhất của Gaussian theo chiều x và y với các scale = 2,4. Các filter này chỉ áp lên kênh L, do đó tạo nên 4 filter responses. Đạo hàm bậc nhất theo chiều x đƣợc định nghĩa nhƣ sau:
(3.8)
Trong đó
. Tƣơng tự cho đạo hàm bậc nhất theo chiều y.
Bốn filter cuối cùng là bốn Laplacian of Gaussian (LoG) với các scale là = 1,2,4,8. Bốn fitter này cũng chỉ áp lên kênh L, do đó tạo nên 4 filter responses. LoG đƣợc định nghĩa nhƣ sau: (3.9) Trong đó là Laplacian operator và
Hình 4-2 minh họa 17 filter đƣợc trình bày bên trên. Hình 4-3 minh họa việc áp 17 filter này lên ảnh.
30
Hình 3-4. Hình minh hoạ 17 filter response khi áp filter bank lên ảnh. Ảnh trái trên là ảnh gốc.