Phát hiện khuôn mặt

Mãi cho đến năm 2000, mới có nhiều kỹ thuật khác nhau được sử dụng cho việc phát hiện khuôn mặt, nhưng tất cả đều rất chậm, không tin cậy, hoặc cả hai. Một sự thay đổi lớn vào năm 2001 khi Viola và Jones phát minh ra bộ phân loại nối tiếp Haar-based dùng để phát hiện đối tượng, và vào năm 2002 bộ phân loại này được Lienhart và Maydt cải thiện. Kết quả là sự ra đời của một bộ phát hiện đối tượng nhanh (có thể phát hiện khuôn mặt trong thời gian thực trên máy tính để bàn thông thường với một webcam VGA) và tin cậy (khoảng 95 phần trăm với khuôn mặt nhìn thẳng).

Bộ phát hiện đối tượng này đã làm cách mạng hóa trong lĩnh vực nhận dạng khuôn mặt (cũng như trong lĩnh vực robot và thị giác máy tính nói chung), do nó cho phép phát hiện và nhận dạng khuôn mặt theo thời gian thực. Nó hoạt động chính xác không chỉ cho khuôn mặt nhìn thẳng mà còn cho khuôn mặt nhìn nghiêng, cho mắt, mũi, miệng, biểu tượng công ty và nhiều đối tượng khác.

Ý tưởng cơ bản của bộ phát hiện khuôn mặt theo phương pháp Haar là dựa trên nếu ta nhìn vào hầu hết phần phía trước khuôn mặt, thì vùng mắt sẽ trở nên tối hơn so với vùng trán và vùng má, và vùng miệng thường có màu đậm hơn so với vùng má, và v/v... Nó thường thực hiện khoảng 20 giai

Trang 31

đoạn so sánh như thế để quyết định xem nó là một khuôn mặt hay không, nhưng nó phải làm điều này tại mỗi vị trí có thể có trong ảnh và cho mỗi kích thước có thể của khuôn mặt. Vì vậy trong thực tế, phương pháp này thường thực hiện hàng ngàn phép kiểm tra trên mỗi ảnh. Ý tưởng cơ bản của phương pháp phát hiện khuôn mặt theo LBP giống với phương pháp Haar, nhưng nó sử dụng biểu đồ so sánh cường độ điểm ảnh, chẳng hạn như các cạnh, góc, và khu vực bằng phẳng. LBP là thuật toán phát hiện công trình nghiên cứu của Ahonen, Hadid và Pietikäinen vào năm 2006, việc phát hiện dựa trên phương pháp LBP có khả năng phát hiện nhanh hơn so với phương pháp Haar dựa trên nhiều lần.

Cả hai phương pháp phát hiện khuôn mặt Haar và LBP đều có thể được huấn luyện một cách tự động để tìm ra khuôn mặt từ một tập hợp lớn các ảnh, với các thông tin được lưu trữ dưới dạng file XML được sử dụng về sau. Các bộ phát hiện này thường được huấn luyện để sử dụng ít nhất 1.000 ảnh khuôn mặt có tính duy nhất và 10.000 ảnh không có hình khuôn mặt bên trong đó (ví dụ, ảnh của cây, xe hơi, và văn bản), và quá trình huấn luyện có thể mất một thời gian dài ngay cả trên một máy tính để bàn đa lõi (thường là một vài giờ cho phương pháp LBP nhưng phải mất đến một tuần đối với phương pháp Haar).

Trong đề tài này, tôi sẽ thực hiện phát hiện khuôn mặt dựa trên phương pháp LBP vì nó tốc độ nhanh hơn, và thực hiện phát hiện đôi mắt trên khuôn mặt sử dụng phương pháp Haar vì có độ tin cậy tốt hơn.

Cơ sở lý thuyết về xử lý ảnh

Cơ sở lý thuyết về xử lý ảnh