Áp dụng mô hình cascade cho các bộ phân loại AdaBoost

Một phần của tài liệu Phát triển khuôn mặt nghiêng trên ảnh và video (Trang 46 - 47)

“Bộ phân tầng của các lớp” là mô hình phân tầng của các bộ phân loại, với mỗi bộ phân loại đƣợc xây dựng bằng thuật toán AdaBoost sử dụng đặc trƣng Haar-like. Mô hình này đã đƣợc Viola và Jones sử dụng rất thành công trong bài toán phát hiện khuôn mặt thẳng và chính diện[23]. Với tập huấn luyện gồm 4196 hình mặt ngƣời đƣợc đƣa về ảnh xám kích thƣớc 24x24 và 9500 ảnh không phải đối tƣợng không chứa khuôn mặt ngƣời, Viola và Jones đã xây dựng cấu trúc cascade gồm 38 tầng với tổng cộng 6060 đặc trƣng Haar-like. Thực nghiệm đã cho thấy bộ phân loại ở tầng đầu tiên sử dụng 2 đặc trƣng và loại đƣợc khoảng 50% mẫu không phải đối tƣợng không chứa khuôn mặt và có tỉ lệ phát hiện là 100%. Bộ phân loại ở tầng thứ 2 sử dụng 10 đặc trƣng loại đƣợc 80% mẫu không phải đối tƣợng vẫn với tỉ lệ phát hiện đúng đối tƣợng 100%. Hệ thống này đƣợc so sánh với hệ thống của Rowley-Baluja-Kanade [16,17] (sử dụng mạng nơron) và Schneiderman-Kanade [1] (sử dụng phƣơng pháp thống kê), qua so sánh cho thấy tỉ lệ phát hiện là ngang nhau, trong khi hệ thống của Viola và Jones chạy nhanh hơn đến 15 lần so với hệ thống của Rowley-Baluja-Kanade và nhanh hơn 600 lần hệ thống của Schneiderman-Kanade.

Bên cạnh đó, mô hình này cũng đƣợc Eng-Jon Ong và Richard Bowden áp dụng thành công trong bài toán nhận dạng bàn tay. Do bàn tay có nhiều biến động, Ong và Bowden đã sử dụng phƣơng pháp học không giám sát: tiến hành phân cụm cho tất cả

45

các mẫu trong tập huấn luyện chứa 2504 hình bàn tay chụp ở nhiều tƣ thế khác nhau bằng thuật toán phân cụm K-mediod. Cấu trúc bộ phát hiện của Ong và Bowden gồm 2 lớp: lớp trên là một cấu trúc “Bộ phân tầng của các lớp” để phát hiện sơ bộ bàn tay, lớp bên dƣới là từng “Bộ phân tầng của các lớp” ứng với từng cụm đƣợc chia bằng thuật toán phân cụm K-mediod. Kết quả thu đƣợc rất khả quan, cấu trúc phân tầng của bộ phát hiện ở lớp trên gồm 11 tầng với tổng cộng 634 bộ phân loại yếu đã đạt tỉ lệ phát hiện là 99.8% trên tập thử nghiệm, còn các bộ phân tầng ở lớp dƣới có tỉ lệ phát hiện trung bình là 97.4%. Bài toán phát hiện khuôn mặt tƣơng tự nhƣ bài toán nhận dạng tay của Ong và Bowden nhƣng phức tạp hơn. Trong bài toán của họ, một mẫu chỉ cần thỏa mãn một trong các bộ nhận dạng ứng với các cụm đƣợc xây dựng bằng thuật toán phân cụm K-mediod thì đƣợc xem là bàn tay. Trong thực tế, có những mẫu vốn thuộc về cụm 1, nhƣng bộ nhận dạng cụm 1 cho kết quả nó không thuộc cụm 1, trong khi bộ nhận dạng cụm 2 lại cho rằng nó thuộc về cụm 2. Khi đó, rõ ràng cả 2 bộ nhận dạng đều cho kết quả sai nhƣng mẫu này vẫn đƣợc xem là một phân loại thành công của bộ nhận dạng bàn tay, vì mẫu đƣợc đƣa vào vẫn đƣợc đánh giá là bàn tay.

Một phần của tài liệu Phát triển khuôn mặt nghiêng trên ảnh và video (Trang 46 - 47)