CHƯƠNG 2: CỞ SỞ LÝ THUYẾT
2.3 CÁC FRAMEWORK SỬ DỤNG
2.3.3 NHẬN DIỆN GƯƠNG MẶT
2.3.3.1 CÁC PHƯƠNG PHÁP KỸ THUẬT
Khuôn mặt là một trong những thuộc tính vật lý được sử dụng rộng rãi nhất trong các hệ thống sinh trắc học để nhận dạng con người. Xác thực sinh trắc học gần đây đã thu hút được rất nhiều sự quan tâm và chú ý. Lĩnh vực sinh trắc học có thể bao gồm từ những nhiệm vụ phức tạp như điều tra video của cảnh sát đến những nhiệm vụ đơn giản như truy cập vào tài khoản mạng xã hội hoặc mở khóa điện thoại di động. Các thuật toán nhận dạng và phát hiện khuôn mặt chủ yếu dựa trên các loại thị giác máy tính khác nhau trong đó bao gồm phân đoạn hình ảnh, phát hiện đối tượng, nhận dạng khuôn mặt, phát hiện cạnh, phát hiện mẫu, phân loại hình ảnh và khớp đặc điểm. Tuy sử dụng kỹ thuật có khác nhưng các thuật toán nhận diện gương mặt hiện nay đều có chung đặc điểm với hai hướng tiếp cận chính bao gồm
“phương pháp tiếp cận dựa trên tính năng” và “phương pháp tiếp cận dựa trên hình ảnh” [5]. Với mỗi phương pháp tiếp cận đều có các đặc điểm riêng, phương pháp tiếp cận dựa trên tính năng , nhận diện gương mặt dựa theo các trích xuất về đặc
Hình 2-3. Mô tả các bước khai báo và thiết lập định tuyến với express
10 điểm của hình ảnh và so sánh nó với các dữ liệu các đặc điểm trên một gương mặt như Viola-Jones, PDM, Edge hay Gabor Feature...Trong khi đó phương pháp tiếp cận dựa trên hình ảnh lại nhận diện gương mặt chủ yếu dựa vào học máy để và phân tích để tìm điểm giống nhất giữa dữ liệu hình ảnh được học và hình ảnh thử nghiệm với các phương thức Neural Networks, Eigen Faces…[6].
Một số giải thuật hướng tiếp cận tính năng tiêu biểu:
• Viola Jones: là một hệ thống nhận diện gương mặt thời gian thực được xây dựng dựa trên 3 yếu tố gồm tích phân ảnh để tính toán đối tượng trong ảnh, Adaboost để chọn lựa đối tượng cần tập trung và phân tầng tập trung để phân bổ tài nguyên cần tính một cách hiệu quả.
Hình 2-4. Các thuật toán nhận diện gương mặt
11 + Tích phân ảnh: thuật toán sử dụng đặc trưng là kết quả tích vô hướng của 2 bức ảnh có cùng kích cỡ và được xác định bởi công thức:
∑1≤𝑖≤𝑁∑1≤𝑗≤𝑁𝐼(𝑖, 𝑗)1𝑃𝑖𝑥𝑒𝑙𝑠(𝑖,𝑗)𝑝ℎầ𝑛 𝑡𝑟ắ𝑛𝑔 − ∑1≤𝑖≤𝑁∑1≤𝑗≤𝑁𝐼(𝑖, 𝑗)1𝑃𝑖𝑥𝑒𝑙𝑠(𝑖,𝑗)𝑝ℎầ𝑛 đ𝑒𝑛
Trong đó:
N là kích thước chung của ảnh mẫu.
i là kích thước chiều dài ảnh theo pixel.
j là kích thước chiều ngang ảnh theo pixel.
(I) (P)
+ Chọn lựa đối tượng cần tập trung: Adaboost được sử dụng là một trình phân loại hiệu quả được xây dựng bằng cách sử dụng thuật toán học (learning algorithm) để chọn một số lượng nhỏ các đặc điểm hình ảnh quan trọng từ một tập hợp các điểm ảnh lớn trong hình và lựa chọn các điểm ảnh tiềm năng.
+ Phân tầng tập trung: là một quá trình kết hợp các bộ phận cùng loại trong một tầng cho phép các phần thuộc background của hình ảnh nhanh chóng bị loại bỏ.
+ Ưu điểm: là thuật toán được ưa chuộng để phát hiện khuôn mặt trong thời gian thực, tốc độ phát hiện gương mặt nhanh, độ chính xác cao.
+ Nhược điểm: Thời gian đào tạo lâu, hạn chế tư thế đầu và không nhận diện được các gương mặt đen.
• Local binary pattern (LBP): là một kỹ thuật rất hiệu quả để mô tả các tính năng kết cấu ảnh. LBP có những ưu điểm như tính toán tốc độ cao và bất biến xoay vòng, tạo điều kiện cho việc sử dụng rộng rãi trong các trường truy xuất hình ảnh,
Hình 2-5 Mẫu tích phân ảnh với (I) là ảnh và (P) là mẫu
12 kiểm tra kết cấu, nhận dạng khuôn mặt, phân đoạn hình ảnh, ...Gần đây, LBP đã được áp dụng thành công cho việc phát hiện các đối tượng chuyển động thông qua phép trừ nền. Theo phương pháp LBP mọi pixel đều được gán giá trị kết cấu, có thể được kết hợp tự nhiên với đối tượng theo dõi trên video màu và trắng đen. Các mẫu LBP đồng nhất chính được sử dụng để nhận ra các điểm chính trong vùng đích và sau đó tạo thành chuẩn chọn cho giá trị màu khớp.
+Ưu điểm: Hiệu quả trong mô tả thông số hình ảnh, được sử dụng trong phân tích thông số, truy xuất hình ảnh, nhận dạng khuôn mặt và phân đoạn hình ảnh. Có thể phát hiện đối tượng di chuyển thông qua phép trừ nền và có thể phân tích ảnh cùng vùng màu hoặc chất lượng thấp.
+Nhược điểm: không nhạy cảm với những thay đổi nhỏ trên khuôn mặt, sử dụng các vùng cục bộ làm tăng các lỗi và chỉ dùng cho phân tích ảnh đơn màu hoặc trắng đen.
• Đặc trưng Gabor: Thuật toán sử dụng bản đồ biểu đồ bó đàn hồi (EBGM) cho hệ thống phát hiện khuôn mặt bằng cách sử dụng các bộ lọc Gabor được áp dụng [7]. Hệ thống áp dụng 40 bộ lọc Gabor khác nhau trên một hình ảnh với các góc và hướng khác nhau. Sau đó, các điểm cường độ tối đa trong mỗi hình ảnh được tính toán và đánh dấu chúng là các điểm fiducial. Hệ thống giảm các điểm này theo khoảng cách giữa chúng. Tiếp theo hệ thống tính toán khoảng cách giữa các điểm giảm bằng công thức khoảng cách và so sánh với cơ sở dữ liệu. Nếu xảy ra trùng khớp, điều đó có nghĩa là các khuôn mặt trong hình ảnh được phát hiện.
Hình 2-6. bản đồ biểu đồ bó đàn hồi sử dụng bộ lọc Gabor
13 Một số giải thuật hướng tiếp cận hình ảnh tiêu biểu:
• Mạng nơ-ron:
Mạng nơ-ron được triển khai sẽ kiểm tra các cửa sổ nhỏ của hình ảnh và kiểm tra mỗi cửa sổ có chứa một khuôn mặt hay không. Hệ thống giao tiếp và phân biệt giữa nhiều mạng với nhau để nâng cao hiệu suất trên một mạng duy nhất. Điều này giúp loại bỏ nhiệm vụ phức tạp của việc thực hiện thủ công khi đào tạo các mẫu không phải là khuôn mặt trong khi các mẫu này phải được chọn để bao gồm toàn bộ không gian của hình ảnh phần không phải khuôn mặt.
Một mạng nơ-ron phục vụ xử lý nhận diện gương mặt là một hệ thống phân lớp gồm 2 nút mạng chính liên kết với nhau, nút đầu tiên trong mạng có 2 mạng con song song trong đó các ô chứa giá trị ảnh được lọc các giá trị cường độ từ một hình ảnh gốc, Các đầu vào của nút thứ hai bao gồm các đầu ra của các mạng con và các thông số ảnh được trích xuất khi đó ở ngõ ra của nút thứ hai cho kết quả của một khuôn mặt trong ảnh mẫu. Vậy để tổng hợp một mô hình đa giai đoạn cho việc phát hiện gương mặt, các mô hình cần tích hợp các thuật toán xử lý nhận diện ở bước tiền xử lý ở nút 1 bằng các thuật toán như Viola Jones, bộ lọc Gabor,phép phân tích
Hình 2-7. Mô tả phương pháp nhận diện gương mặt bằng mạng nơ-ron nhân tạo
14 thành phần chính (PCA), cùng với mạng nơ-ron nhân tạo (ANN) và nút 2 sẽ là bước xử lý như hình 2-6. Ngoài ra các phương pháp tiền xử lý cũng luôn được tối ưu khi có nhiễu lựa chọn có thể khắc phục các nhược điểm của các giao thức theo phương pháp tiếp cận tính năng ảnh như thuật toán dò độ đặc mặt (DDFD), phân đoạn hình ảnh, máy vector hỗ trợ (SVM) hoặc lớp mô hình xác định vùng đặc trưng (R-CNN) [7],[8].
Từ các đặc tính từ mô hình được xây dựng từ các thuật toán trên, có thể cơ bản xác nhận các nguyên làm giảm độ chính xác và tỷ lệ phát hiện của việc nhận diện khuôn mặt như sau:
- Có ảnh nền quá phức tạp với quá nhiều gương mặt trong nền.
- Biểu cảm gương mặt kỳ lạ, biến dạng.
- Độ phân giải ảnh kém, chất lượng nền không đảm bảo.
- Khuôn mặt bị che khuất, hoá trang cải dạng gương mặt.
- Màu da có mức tương phản quá thấp so với nền hoặc môi trường.
- Khoảng cách chụp không đảm bảo, quá xa hoặc quá gần.
- Hướng gương mặt lệch góc.
Với các yếu tố nêu trên, việc áp dụng một thuật toán nhất định trong nhận diện gương mặt là không khả thi xét trên tính hiệu quả, thời gian thực hiện cũng như nhu cầu ứng dụng trong đề tài. Sinh viên thực hiện đề tài lựa chọn sử dụng các thư viện mẫu chuẩn để áp dụng nhận diện gương mặt cho đề tài.
Wider Face dataset là một thư viện mẫu chuẩn được áp dụng cho việc đào tạo nhận diện gương mặt trong Face-Api áp dụng cho khối bảo mật sinh trắc của đề tài, mẫu chuẩn sử dụng các thuật toán hướng hình ảnh như sau:
• Multiscale Cascade CNN (M-CNN): Mô hình mạng nơ-ron tích chập sử nhiễu ảnh đầu vào tỷ lệ với nhiều kết quả hiển thị để xử lý lượng mẫu trên một quy mô lớn.
• Two-stage CNN: Mô hình mạng nơ-ron tích chập 2 giai đoạn, giai đoạn đầu lựa chọn các cửa sổ tiềm năng và giai đoạn sau sẽ tinh chỉnh các cửa sổ sau đó đưa ra kết quả phù hợp cuối cùng.
15
• Faceness-WIDER: Một phương pháp tận dụng các thuộc tính của khuôn mặt, chẳng hạn như tư thế, biểu cảm và độ sáng, để cải thiện hiệu suất nhận diện khuôn mặt.
+ Các tính năng của mẫu chuẩn:
- Thư viện mẫu chuẩn có dữ liệu bao gồm 32.203 hình ảnh và 393.703 khuôn mặt.
- Các khuôn mặt trong ảnh thể hiện mức độ biến đổi cao về tỷ lệ, tư thế và khuôn mặt cho phép nhận dạng gương mặt với nhiều biểu cảm, tư thế khác nhau.
- Đối với mỗi lớp sự kiện, 40% dữ liệu được sử dụng để đào tạo, 10% để xác thực và 50% để thử nghiệm.
- Số liệu đánh giá được sử dụng trong tập dữ liệu tương tự như số liệu được sử dụng trong tập dữ liệu PASCAL VOC.
Hình 2-8. Mô tả quá trình lấy mẫu và xử lý kết quả tiềm năng của M-CNN