3. Ý nghĩa khoa học và thực tiễn của đề tài
1.7. Đặc trưng Haar wavelet
Một trong những phương pháp phát hiện mặt người hiệu quả hiện nay là phát hiện mặt người sử dụng đặc trưng Haar dựa trên bộ phân loại tầng được để xuất bởi Paul Viola và Michael Jones [4]. Đây là một phương pháp học máy dựa trên cách tiếp cận sử dụng chức năng tầng được huấn luyện bởi cách ảnh đúng (Positive) và ảnh sai (Negative) và sau đó dùng để phát hiện các đối tượng ở các ảnh khác.
Ở giai đoạn đầu tiên, thuật toán cần một số lượng lớn các ảnh đúng (các ảnh khuôn mặt người) và các ảnh sai (ảnh không có khuôn mặt người) để huấn luyện cho việc phân loại. Sau đó trích chọn các đặc trưng từ tập đặc điểm rất lớn. Để làm điều này, các đặc trưng Haar được sử dụng. Mỗi đặc trưng là một giá trị đơn được tính toán bằng cách đem tổng các điểm ảnh trong vùng đen trừ tổng các điểm ảnh ở vùng trắng.
Bây giờ tất cả các kích thước và vị trí có thể của từng nhân sẽ được dùng để tính toán các đặc trưng. Với mỗi đặc trưng, chúng ta tính tổng của các điểm ảnh vùng đen và vùng trắng. Để giải quyết điều này chúng ta tạo ra các ảnh tích phân. Điều này làm đơn giản hóa việc tính tổng các điểm ảnh và làm gia tăng tốc độ tính toán.
Trong số tất cả các đặc trưng được tính toán, hầu hết chúng là không thích hợp. Dòng đầu tiên đưa ra 2 đặc trưng tốt. Đặc trưng đầu tiên được lựa chọn tập trung vào thuộc tính của vùng mắt thường tối hơn vùng mũi và má. Đặc trưng thứ 2 được lựa chọn lại dựa trên thuộc tính vùng mắt thường tối hơn vùng sống mũi. Nhưng các cửa sổ tương tự được áp dụng trên má hay bất cứ chỗ nào khác đều là không thích hợp. Vậy làm sao các đặc trưng tốt nhất trong hơn 160.000 đặc trưng được lựa chọn ra một cách hiệu quả. Để cải thiện điều này chúng ta sử dụng AdaBoost.
Với việc này, chúng ta áp dụng từng đặc trưng và mọi đặc trưng lên tất cả các ảnh huấn luyện. Với mỗi đặc trưng, chúng ta sẽ tìm ra ngưỡng tốt nhất để phân loại khuôn mặt là đúng hay sai. Nhưng rõ ràng, sẽ có lỗi hoặc phân loại sai, do đó chúng ta chọn các đặc trưng với tỷ lệ lỗi nhỏ nhất, điều đó có nghĩa đó là sự phân loại tốt
nhất cho ảnh có mặt hay không có mặt. (Tiến trình thực tế không đơn giản như vậy, mỗi ảnh sẽ được đánh các trọng số như nhau ở giai đoạn đầu. Tuy nhiên sau mỗi lần phân loại, trọng số của các ảnh bị phân loại sai sẽ được tăng lên. Tiếp theo đó một lần nữa tiến trình lại được thực hiện, tỷ lệ lỗi mới cũng như các trọng số mới được tính toán. Tiến trình tiếp tục cho đến khi độ chính xác cần thiết hoặc tỷ lệ lỗi đạt được con số mong muốn hoặc số lượng đặc trưng tốt được tìm đủ)
Bộ phân loại cuối là tổng các trọng số của các bộ phân loại yếu. Nó được gọi là yếu vì nó không thể phân loại ảnh 1 mình nhưng khi kết hợp cùng những bộ phân loại khác nó lại trở thành bộ phân loại mạnh. Thậm chí với 200 đặc trưng có thể cung cấp sự phát hiện với độ chính xác lên đến 95%. Thiết lập cuối cùng của họ có khoảng 6000 đặc trưng.
Trong 1 bức ảnh, hầu hết các vùng không phải là vùng mặt người. Điều này dẫn đến 1 ý tưởng tốt hơn để có 1 phương thức đơn giản kiểm tra xem 1 cửa sổ có phải vùng mặt người không. Nếu không phải, loại trừ vùng đó ngay, không xử lý lại lần nữa, thay vào đó sẽ tập trung vào vùng có thể là mặt. Theo cách này, chúng ta có thể có nhiều thời gian hơn để kiểm tra vùng mặt.
Hình 1. 13. Minh họa tầng phân loại
Định nghĩa tầng của sự phân loại, thay vì áp dụng 6000 đặc trưng trên 1 cửa sổ, chúng ta sẽ nhóm các đặc trưng vào các giai đoạn khác nhau của sự phân loại và áp dụng từng cái một. Nếu 1 cửa sổ khi kiểm tra bị sai ở giai đoạn đầu tiên, loại bỏ cửa sổ đó luôn và chúng ta không cần xem xét đến các đặc trưng còn lại của cửa sổ
đó. Nếu vượt qua được giai đoạn đầu tiên, chúng ta sẽ áp dụng giai đoạn 2 với các đặc trưng kế tiếp và tiếp tục xử lý. Cửa sổ được kiểm tra vượt qua mọi giai đoạn sẽ là vùng mặt người.
Thiết lập hơn 6000 đặc trưng vào 38 giai đoạn với số lượng đặc trừng là 1, 10, 25, 25, 50 cho 5 giai đoạn đầu tiên. Trung bình 10 đặc trưng trong hơn 6000 đặc trưng được đánh giá cho 1 cửa sổ con.
Tổng kết chương 1
Trong chương này, chúng tôi trình bày tổng quan về phát hiện mặt người trong ảnh và video như phát hiện điểm, phép trừ nền, phân vùng, học có giám sát. Tìm hiểu thuật toán Viola-Johns các vấn đề liên quan, đánh giá thuật toán Viola-Johns, tìm hiểu về Adaboost, đặc trưng Haar wavelet trong phát hiện mặt người.
Chương 2, đề tài sẽ trình bày đặc trưng HOG, phương pháp phát hiện mặt người sử dụng đặc trưng HOG, các bước rút trích đặc trưng HOG trong ảnh, chuẩn hóa vector đặc trưng, tích phân ảnh, chuẩn hóa ánh sáng, sử dụng SVM trong việc kết hợp với HOG phát hiện mặt người.
CHƯƠNG 2. ĐẶC TRƯNG HOG VÀ CÁCH SỬ DỤNG HOG KẾT HỢP VỚI SVM TRONG PHÁT HIỆN MẶT NGƯỜI