Giới thiệu chung

Nguồn gốc

Giải thuật AdaBoost được giới thiệu đầu tiên vào năm 1995 bởi hai nhà nghiên cứu Freund và Schapire. Giải thuật do họ đưa ra đã giải quyết được rất nhiều khó khăn thực tế của những giải thuật boosting trước đó.

Năm 2001, trong bài báo mang tên “Robust real-time object detection”, hai nhà nghiên cứu Paul Viola và Micheal Jones đã đề xuất việc áp dụng giải thuật AdaBoost trong việc phát hiện đối tượng nói chung. Những nghiên cứu của họ đã đưa đến việc xây dựng thành công hệ thống phát hiện khuôn mặt có tốc độ phát hiện được coi là nhanh nhất hiện nay trong khi vẫn bảo đảm một tỷ lệ phát hiện cao.

Ưu điểm của phương pháp

• Phương pháp không đòi hỏi phải có trước những kiến thức về cấu trúc khuôn mặt

Những tri thức này sẽ được giải thuật tự động chọn ra trong quá trình học trên tập ảnh huấn luyện ban đầu.

• Có tính thích nghi

Ở mỗi giai đoạn học, những ảnh mặt và không-phải-là-mặt được thử với bộ phân lớp tại giai đoạn đó. Với những mẫu bị phân lớp sai, trọng số của chúng được gia tăng trong vòng lặp tiếp theo. Nhờ vậy, những vòng lặp tiếp theo sẽ được tập trung cho việc phân lớp cho những mẫu khó.

• Sai số huấn luyện về lý thuyết sẽ hội tụ về 0 theo hàm mũ

Trong nghiên cứu của mình, Freund và Schapire đã chứng minh rằng, với một tập mẫu hữu hạn, sai số huấn luyện sẽ đạt 0 trong một số hữu hạn các bước lặp.

Hạn chế

• Kết quả sau cùng phụ thuộc rất nhiều vào chất lượng của tập ảnh mẫu và những bộ phân lớp yếu

Chất lượng của bộ phân lớp cuối cùng phụ thuộc lớn vào độ chắc chắn của tập ảnh huấn luyện. Kích thước của tập mẫu cũng như sự đa dạng của các ảnh trong cùng lớp đều có ảnh hưởng quyết định. Những bộ phân lớp cơ bản được sử dụng để kết hợp cũng ảnh hưởng nhất định tới kết quả. Về lý thuyết, chất lượng của những bộ phân lớp yếu này chỉ cần tốt hơn việc lựa chọn ngẫu nhiên, những nếu muốn thu được tỷ lệ phát hiện cao, chúng cũng cần được xem xét lựa chọn kỹ lưỡng.

• Thời gian huấn luyện rất dài

Ở mỗi bước lặp, giải thuật phải thử tất cả những chi tiết trên toàn bộ tập mẫu để tìm ra được chi tiết có khả năng phân loại tốt nhất. Điều này đòi hòi thời gian tính toán tỷ lệ trực tiếp với kích thước của tập mẫu và họ các chi tiết. Thông thường để xây dựng được những bộ phân lớp tốt, đầu vào của giải thuật thường gồm hàng nghìn ảnh mẫu khuôn mặt và không-phải-là-mặt

cùng với một tập lớn các chi tiết để lựa chọn. Do đó, thời gian huấn luyện có thể kéo dài hàng ngày với những máy tính thông thường.

Những phương pháp từ trên xuống (top-down)

Những phương pháp từ dưới lên (bottom-up)