Phát hiện giả mạo trong bài toán nhận dạng khuôn mặt Phát hiện giả mạo trong bài toán nhận dạng khuôn mặt
TỔNG QUAN VỀ BÀI TOÁN VÀ PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN
Thực trạng
Những năm gần đây, cùng với sự bùng nổ của khoa học kỹ thuật, các phương pháp xác thực bảo mật cũng được phát triển mạnh mẽ Trong đó phải kể đến hình thức xác thực khuôn mặt đang được ứng dụng mạnh mẽ trong nhiều lĩnh vực cuộc sống Ví dụ tiêu biểu nhất có thể kể đến các điện thoại thông minh sử dụng khuôn mặt của chủ sở hữu làm phương thức mở khoá điện thoại Hoặc hiện nay hầu hết các ngân hàng đều yêu cầu khách hàng thực hiện xác thực danh tính - eKYC (Electronic Know Your Customer) bằng cách xác thực khuôn mặt khi đăng ký tài khoản qua trực tuyến Một số nước như Trung Quốc đã sử dụng khuôn mặt để thanh toán hoá đơn
Tuy nhiên, việc sử dụng hình thức xác thực khuôn mặt không phải là phương pháp bảo mật hoàn hảo nhất Hệ thống xác thực khuôn mặt vẫn có khả năng bị tấn công bằng cách sử dụng các hình ảnh của người đó và đưa ra trước màn hình, hoặc hơn nữa là quay một video có mặt người đó rồi đưa ra trước màn hình là dễ dàng qua mặt được hệ thống Các cuộc tấn công giả mạo khuôn mặt đã trở thành mối đe doạ bảo mật nghiêm trọng cho các hệ thống xác thực danh tính, do chúng có thể được sử dụng để truy cập trái phép vào hệ thống bằng cách giả mạo người dùng được uỷ quyền Đơn cử như một số ngân hàng hiện vẫn đang phải đối mặt với một số lượng lớn các yêu cầu mở tài khoản ma bằng cách sử dụng mặt nạ, hình ảnh chuẩn bị sẵn cùng giấy tờ giả mạo đi kèm hòng qua mắt hệ thống eKYC
Nhằm đối phó với những thách thức này, một số kỹ thuật chống giả mạo khuôn mặt đã được phát triển nhằm phát hiện những hành vi giả mạo này Các giải pháp chống giả mạo khuôn mặt đóng một vai trò quan trọng trong việc bảo mật hệ thống nhận dạng khuôn mặt
Hiện nay các hệ thống chống giả mạo dựa trên mạng nơ-ron tích chập gần đây đã thể hiện sự hiệu quả vượt trội so với các phương pháp truyền thống, vì thế chúng máy trước đây vốn dựa trên các đặc trưng cục bộ dễ nhạy cảm với nhiễu và kết quả kém chính xác.
Các kỹ thuật tấn công giả mạo khuôn mặt
Về cơ bản, việc tấn công giả mạo khuôn mặt nhằm 2 mục đích phổ biến hiện nay:
- Tấn công mạo danh: Với sự ra đời của internet và các phương tiện truyền thông xã hội, nơi ngày càng có nhiều người chia sẻ ảnh hoặc video về khuôn mặt của họ, những tài liệu như vậy có thể bị những kẻ mạo danh sử dụng để đánh lừa xác thực khuôn mặt hệ thống cho mục đích mạo danh
- Tấn công che giấu: là một kiểu tấn công trong đó một người sử dụng các thủ thuật để tránh bị hệ thống nhận ra (nhưng không nhất thiết phải mạo danh danh tính của người dùng hợp pháp – phương pháp này thường ít được nghiên cứu đến)
Như vậy, trong khi các cuộc tấn công mạo danh (giả mạo) thường được thực hiện bởi những kẻ mạo danh sẵn sàng mạo danh người dùng hợp pháp, thì các cuộc tấn công che giấu nhằm mục đích đảm bảo rằng người dùng vẫn nằm trong tầm ngắm của hệ thống nhận dạng khuôn mặt nhằm không để hệ thống nhận diện khuôn mặt chính xác Mặc dù có các mục tiêu hoàn toàn khác nhau nhưng cả 2 phương pháp này đều có ảnh hưởng lớn đến hiệu năng của các hệ thống nhận diện khuôn mặt
Các phương pháp tấn công giả mạo khuôn mặt phổ biến thường có thể được phân loại thành tấn công ảnh, tấn công phát lại video và tấn công mặt nạ 3D (xem Hình 1 để phân loại và Hình 2 để minh họa), trong khi các cuộc tấn công che giấu thường dựa vào các thủ thuật để che giấu danh tính thực của người dùng, chẳng hạn như trang điểm, phẫu thuật thẩm mỹ
Hình 1: Các phương pháp tấn công giả mạo khuôn mặt
Hình 2: Ví dụ về hình thức các phương thức tấn công giả mạo khuôn mặt Hình (a) tấn công bằng ảnh in; (b) tấn công ảnh in bị biến dạng; (c) một ví dụ về tấn công cắt ảnh in; (d) một cuộc tấn công phát lại video; (e) mặt nạ làm bằng giấy và (f) mặt nạ 3D
Các cuộc tấn công giả mạo khuôn mặt bằng ảnh/video là một trong những kiểu tấn công phổ biến nhất, các hình ảnh khuôn mặt trên internet rất phổ biến Kẻ tấn công có thể thu thập và sử dụng lại các mẫu khuôn mặt của người dùng thật một cách đơn giản Cuộc tấn công bằng ảnh thường được thực hiện bằng cách hiển thị một bức ảnh của người dùng thực (thường được sử dụng bởi kẻ mạo danh) để hệ thống xác thực khuôn mặt Các cuộc tấn công bằng ảnh in thường sử dụng ảnh in trên giấy, chẳng hạn như giấy A3/A4 hoặc giấy ảnh chuyên nghiệp (xem Hình 2a)
Một dạng tấn công khác là tấn công trình chiếu hình ảnh, trong đó hình ảnh được hiển thị trên màn hình của các thiết bị kỹ thuật số như điện thoại thông minh, máy tính bảng hoặc máy tính xách tay và sau đó được trình diễn cho hệ thống
Ngoài ra, ảnh in còn có thể được uốn cong (theo chiều dọc và/hoặc chiều ngang) để tạo ra hiệu ứng độ sâu trong ảnh, chiến lược này được gọi là tấn công ảnh uốn cong, tạo hình dáng 3D với độ sâu cơ bản (xem Hình 2b)
Cuộc tấn công ảnh cắt bao gồm việc sử dụng ảnh như một mặt nạ, trong đó các phần miệng, mắt và/hoặc mũi đã bị cắt ra để tạo ra các dấu hiệu sống động từ khuôn mặt của kẻ tấn công phía sau ảnh, chẳng hạn như nháy mắt hoặc cử động miệng (xem Hình 2c).So với các cuộc tấn công bằng ảnh tĩnh, các cuộc tấn công phát lại video (xem Hình 2d) tinh vi hơn, vì có những hành động của khuôn mặt thật như chớp mắt, cử động miệng và thay đổi nét mặt để bắt chước sự sống động
Khác biệt với các cuộc tấn công ảnh hoặc tấn công phát lại video, các cuộc tấn công giả mạo khuôn mặt bằng mặt nạ 3D tái tạo cấu trúc khuôn mặt 3D (mặt nạ 3D chất lượng thấp như trong Hình 2e và mặt nạ 3D chất lượng cao làm từ silicone, xem Hình 2f) Tính chân thực cao của cấu trúc 3D "giống khuôn mặt" và sự mô phỏng sống động của kết cấu da người trong mặt nạ 3D chất lượng cao khiến việc phát hiện giả mạo mặt nạ 3D trở nên khó khăn hơn Mặc dù quá trình sản xuất mặt nạ 3D chất lượng cao vẫn phức tạp và tốn kèm, đồng thời phụ thuộc vào việc ghi lại dữ liệu cấu trúc 3D hoàn chỉnh và thường yêu cầu sự hợp tác của người bị giả mạo, nhưng sự tiện lợi này có thể làm cho các cuộc tấn công bằng mặt nạ 3D trở nên phổ biến hơn trong tương lai, đặc biệt là với sự phổ biến của các thiết bị cảm biến 3D
Các cuộc tấn công che giấu danh tính cosmục tiêu hoàn toàn khác với các cuộc tấn công mạo danh thường là dựa vào trang điểm trên khuôn mặt, phẫu thuật thẩm mỹ hoặc che phủ vùng mặt (ví dụ: sử dụng các phụ kiện như khăn quàng cổ hoặc kính râm, băng dính) Tuy nhiên, trong một số trường hợp, các cuộc tấn công che giấu cũng có thể dựa vào việc sử dụng dữ liệu sinh trắc học của người khác Về cơ giấu có thể tương tự như các thiết bị được sử dụng cho các cuộc tấn công mạo danh, ví dụ: mặt nạ của người khác Vì thế các phương pháp chống giả mạo khuôn mặt được xây dựng nhằm phòng vệ trước các cuộc tấn công giả mạo danh tính vẫn có thể được áp dụng cho các các cuộc tấn công nhằm che giấu khuôn mặt.
Một số phương pháp giải quyết bài toán đã được đề xuất
Dựa trên loại tấn công được trình bày trong phần trên, ta có thể phân loại các phương pháp chống giả mạo khuôn mặt thành hai loại chính: Phương pháp chống giả mạo khuôn mặt dựa trên máy ảnh và phương pháp chống giả mạo khuôn mặt sử dụng phần cứng đặc thù Như đã nêu trước đó, trong bài luận này, tôi tập trung vào các phương pháp chống giả mạo khuôn mặt chỉ sử dụng máy ảnh được nhúng trong hầu hết các thiết bị phổ biến như điện thoại thông minh, máy tính bảng, máy tính xách tay, camera an ninh,…Năm nhóm phương pháp chống giả mạo khuôn mặt phổ biến tương ứng với từng nhóm thông tin được sử dụng nhằm phát hiện các hình thức tấn công giả mạo khuôn mặt tương ứng:
Nhóm phương pháp chống giả mạo Nhóm Các hình thức giả mạo khuôn mặt
1 Phân tích dấu hiệu sự sống
Phát hiện chuyển động chủ đông Ảnh
Phát hiện chuyển động bị động Ảnh (ngoại trừ ảnh in cắt, khoét bộ phận)
Video (ngoại trừ video sử dụng deepfake)
Phân tích áp lực tĩnh mạch đồ hồng ngoại không xâm lấn Ảnh; Video chất lượng thấp; Mặt nạ 3D
(chất lượng cao/thấp) 2 Phân tích đặc điểm đặc trưng
Phân tích đặc điểm đặc trưng ảnh tĩnh Phân tích đặc điểm đặc trưng chuỗi ảnh động Ảnh; Video; Mặt nạ 3D (chất lượng thấp)
3 Ứng dụng công nghệ 3D Phân tích không gian 3D
Phân tích bản đồ độ sâu không gian Ảnh; Video
Phân tích dấu hiệu sự sống (Chuyển động) + Phân tích đặc điểm đặc trưng Ảnh; Video
Phân tích dấu hiệu sự sống + Phân tích không gian 3D Phân tích áp lực tĩnh mạch đồ hồng ngoại không xâm lấn + Phân tích bản đồ độ sâu không gian Ảnh; Video; Mặt nạ 3D (chất lượng cao/thấp)
Phân tích đặc điểm đặc trưng + 3D Geometry Phân tích đặc điểm đặc trưng + Phân tích bản đồ độ sâu không gian Ảnh; Video
Kiến trúc mạng tự sinh (NAS) Học không ít mẫu
Học đa miền dữ liệu Học đa tác vụ Ảnh, Video; Mặt nạ 3D (chất lượng thấp/cao)
Bảng 1: Một số giải phát hiện giả mạo trong bài toán nhận dạng khuôn mặt
1.3.1 Phương pháp phân tích dấu hiệu sự sống
Phương pháp phát hiện dấu hiệu sự sống - Liveness Cue-Based Methods là một kỹ thuật xác thực sự sống của một khuôn mặt trong việc xác thực danh tính Kỹ thuật này sử dụng các dấu hiệu sự sống để phân biệt giữa một khuôn mặt thật và một khuôn mặt giả mạo (spoof)
1.3.1.1 Phương pháp dựa trên chuyển động khuôn mặt
Các phương pháp dựa trên tín hiệu chuyển động sử dụng các tín hiệu chuyển động trong các video clip để phân biệt giữa khuôn mặt thật và các cuộc tấn công bằng ảnh tĩnh Các phương pháp như vậy có thể hiệu quả trong việc phát hiện các cuộc tấn công bằng ảnh in nhưng không hiệu quả trong các cuộc tấn công bằng video hoặc mặt nạ 3D Thông thường các phương pháp hiện chuyển động ứng dụng trong bài toán phát hiện giả mạo khuôn mặt có thể được chia làm 2 nhóm bao gồm các phương pháp dựa trên chuyển động chủ động và chuyển động tương tác a) Phương pháp dựa trên chuyển động chủ động:
Phương pháp dựa trên chuyển động chủ động - Nonintrusive motion-based methods là một loại kỹ thuật để xác thực khuôn mặt trong việc chống giả mạo Các phương pháp này dựa trên các đặc điểm chuyển động của khuôn mặt người thật như nháy mắt, chuyển động môi, lắc đầu để phân biệt với khuôn mặt giả được trình bày bằng ảnh 2D hoặc video bằng cách sử dụng thuật toán để ước lượng và phân tích các hoạt động sinh lý của các bộ phần này b) Phương pháp dựa trên chuyển động tương tác
Phương pháp dựa trên chuyển động tương tác - Intrusive motion-based methods yêu cầu người dùng thực hiện một số hành động như nháy mắt, nghiêng đầu hoặc nói theo chỉ dẫn nhằm kiểm tra tính xác thực của khuôn mặt người dùng bằng các so sánh các đặc trưng chuyển động của khuôn mặt với các tiêu chuẩn đã được huấn luyện trước đó Phương pháp này thường được ứng dụng rộng rãi cho các thiết bị tiêu dùng thông thường như điện thoại di động hoặc máy tính bảng nhờ vào độ chính xác cao (tốt hơn nhiều so với Noninstrusive motion-based methods) cũng như không yêu cầu phần cứng mạnh Ưu điểm:
- Không cần đầu tư các thiết bị đặc thù như camera hồng ngoại hay cảm biến ánh sáng, chỉ cần camera RGB thông thường
- Hoạt động nhanh và hiệu quả với các hình ảnh hoặc video trình chiếu
- Có thể bị ảnh hưởng bởi các yếu tố ngoại cảnh như ánh sáng hay nhiễu
- Không hiệu quả khi chủ thể chuyển động quá nhiều
- Có thể không hiệu quả đối với các loại giả mạo kỹ thuật cao hơn như 3D mask hoặc video replay độ phân giải cao
- Có thể bị đánh lừa bởi các video có kịch bản cảnh sẵn
1.3.1.2 Phân tích áp lực tĩnh mạch đồ hồng ngoại không xâm lấn
Không giống như phương pháp xác định chuyển động như đã nêu ở phần trên, phương pháp đo nhịp tim không xâm lấn - Remote PhotoPlethysmoGraphy (rPPG) được sử dụng để đo lường nhịp tim và các thông tin sinh lý khác từ xa, thông qua việc quan sát thay đổi trong ánh sáng được phản xạ từ da của người Kỹ thuật này giúp đánh giá nhịp tim và các thông số sinh lý mà không cần tiếp xúc trực tiếp với người được kiểm tra rPPG có thể sử dụng để chống lại các cuộc tấn công bằng mặt nạ 3D và ảnh, vì các dạng tấn công giả mạo này không có khả năng thể hiện các thay đổi cường độ định kỳ đặc trưng như của da mặt thật
Vì các kỹ thuật tấn công giả mạo khuôn mặt bằng hình ảnh không thể thể hiện bất kỳ biến động chu kỳ nào trong tín hiệu rPPG, chúng có thể dễ dàng bị phát hiện thông qua các phương pháp dựa trên rPPG Ngoài ra, như minh họa dưới đây, hầu hết các loại mặt nạ 3D (bao gồm cả các mặt nạ chất lượng cao – mô phỏng chính xác da người) cũng có thể bị phát hiện bởi các phương pháp rPPG Tuy nhiên, các tạp) cũng có thể thể hiện sự biến động chu kỳ của quá trình hấp thụ/phản chiếu ánh sáng trên da của khuôn mặt người Do đó, các phương pháp dựa trên rPPG chỉ có khả năng phát hiện các cuộc tấn công video chất lượng thấp hoặc mặt nạ 3D
Hình 4: Cách rPPG đo lưu lượng máu trên da [16]
Hình bên trái, trên da mặt thật, ánh sáng xuyên qua da và chiếu sáng các mao mạch ở lớp dưới da Độ bão hoà oxy trong máu thay đổi mỗi chu kỳ tim, dẫn đến sự thay đổi định kỳ trong quá trình hấp thụ và phản xạ ánh sáng của da Các thay đổi này có thể quan sát bằng ảnh màu RGB Hình bên phải, trên mặt đeo khẩu trang hoặc mặt nạ, vật liệu của mặt nạ ngăn chặn sự hấp thu và phản xạ ánh sáng, dẫn đến không có sự thay đổi trong ánh sáng phản xạ trở lại
Năm 2016, nhóm nghiên cứu của tác giả Li [16] đã đề xuất một phương pháp đơn giản để phát hiện hình thức giả mạo khuôn mặt dựa trên rPPG, như được minh họa trong hình ảnh bên dưới Nhóm tác giả tập trung phân tích tín hiệu rPPG được tính toán từ mũi trở xuống đến cằm Tín hiệu rPPG được tạo thành bằng cách lấy giá trị RGB trung bình của các điểm ảnh trong vùng lựa trọn cho mỗi kênh RGB của từng khung hình video Sau đó, rPPG được lọc bỏ nhiễu, ước tính nhịp tim tương ứng và chuyển đổi thành tín hiệu tần số thông qua Biến đổi Fourier (Fast Fourier Transform - FFT)
Hai đặc trưng tần số trên mỗi kênh màu (được đánh dấu là Er, Eg và Eb và Γr, Γg và Γb trong hình dưới) được trích xuất dựa trên mật độ (Power Spectral Density - PSD) Cuối cùng, các vector đặc trưng này được đưa vào thuật toán học máy phân loại SVM để phân biệt giữa các cuộc trình diễn khuôn mặt thật và các khuôn mặt giả mạo
Phương pháp dựa trên rPPG có thể hiệu quả trong việc phát hiện tấn công dựa trên ảnh và mặt nạ 3D - kể cả mặt nạ 3D chất lượng cao Tuy nhiên, phương pháp này gặp khó khăn trong môi trường ánh sáng phức tạp hoặc đối tượng thực hiện trình chiếu video trên màn hình có độ phân giải cao
Hình 5: Phương pháp xác định giả mạo dựa trên tín hiệu rPPG [16]
Hình (a) ROI để trích xuất tín hiệu rPPG; (b) tín hiệu rPPG được trích xuất cho mỗi kênh RGB;
(c) phổ tần số để tính các đặc trưng tần số
Năm 2016, Liu và nhóm tác giả c đề xuất một phương pháp dựa trên rPPG khác để phát hiện các cuộc tấn công giả mạo khuôn mặt bằng cách trình chiếu hình ảnh và mặt nạ 3D Phương pháp này có 3 điểm chính:
- Tín hiệu rPPG được trích xuất từ nhiều vùng khuôn mặt thay vì chỉ một phần của khuôn mặt
- Bất kỳ sự tương quan giữa các tín hiệu rPPG cục bộ trên các vùng da của khuôn mặt cũng được sử dụng như một đặc trưng phân biệt (giả định rằng tất cả các tín hiệu này có thể đồng nhất với nhịp đập tim)
- Cân đối tín hiệu rPPG của mỗi vùng: Các vùng da thật có nhiều tín hiệu rPPG trong khi bề mặt nạ hoặc ảnh in không có tín hiệu rPPG
Lựa chọn phương pháp giải quyết bài toán
Mặc dù các giải pháp hiện tại khá phù hợp và được tối ưu hóa để giải quyết bài toán phát hiện giả mạo khuôn mặt, nhưng chỉ trong một số ít các nghiên cứu cung cấp giải pháp cho điện thoại thông minh và các thiết bị di động có phần cứng hạn chế Điện thoại thông minh có thể thu thập hình ảnh hoặc video có thể được chụp trong các điều kiện ánh sáng khác nhau, theo các hướng khác nhau không thể kiểm soát được Chất lượng hình ảnh thu thập được cũng có thể bị ảnh hưởng bởi các chuyển động của máy ảnh hoặc các chuyển động của chủ thể Ngoài ra, sự đa dạng về mẫu mã và việc cải tiến liên tục các mẫu điện thoại thông minh cũng gây không ít khó khăn trong việc triển khai và khai thác hiệu quả sức mạnh của máy ảnh trên điện thoại thông minh trong bài toán phát hiện giả mạo khuôn mặt
Do đó, chúng tôi xây dựng một giải pháp dựa trên kiến trúc MobileNetV3 [51, 52, 53] đủ nhẹ nhưng vẫn đạt hiệu quả cao để có thể triển khai trên điện thoại thông minh và các thiết bị di động tương tự Chúng tôi sử dụng bộ dữ liệu CelebA-Spoof
[49] (bộ dữ liệu 625,537 ảnh, trong đó có 156,384 ảnh khuôn mặt thật và 469,153 ảnh giả mạo được thu thập từ từ 10,177 đối tượng) để huấn luyện mô hình và sử dụng bộ dữ liệu Large Crowdcollected Facial Anti-Spoofing Dataset (LCFAD) [50] nhằm đánh giá chéo dữ liệu Dữ liệu đầu vào là hình ảnh khuôn mặt được chụp từ camera trên các thiết bị thương mại thông thường, sản phẩm đưa ra sẽ là xác suất khuôn mặt giả mạo/khuôn mặt thật
Hình 22: Mô phỏng dữ liệu đầu vào và kết quả mô hình
Cấu trúc luận văn
Cấu trúc luận văn bao gồm 4 phần:
• Chương 1: Giới thiệu tổng quan bối cảnh về giả mạo khuôn mặt, các cách thức tấn công giả mạo khuôn mặt, các phương pháp chống giả mạo khuôn mặt tương ứng, lý do chọn đề tài, mục đích, đối tượng và phạm vi nghiên cứu của luận văn
• Chương 2: Trình bày và chi tiết các bước tiếp cận trong mô hình được đề xuất giải quyết bài toán xác định giả mạo khuôn mặt
• Chương 3: Triển khai huấn luyện mô hình và thực nghiệm đánh giá kết quả mô hình
• Chương 4: Kết luận tóm tắt kết quả nghiên cứu và hướng phát triển trong tương lai.
MÔ TẢ PHƯƠNG PHÁP
Kiến trúc mạng MobileNet
Mạng MobileNet [52, 53] lần đầu được giới thiệu vào năm 2017 bởi nhóm tác giả Howard được tối ưu để đáp ứng các nền tảng phần cứng có tài nguyên hạn chế về hiệu suất và độ trễ MobileNet được ưa chuộng và sử dụng phổ biến bởi độ chính xác cũng như hiệu năng tính toán xuất sắc
Hình 23: Kiến trúc mạng MobilenetV3 và các thành phần quan trọng [53]
Kiến trúc của mạng MobileNet bao gồm các thành phần chính:
- Tích chập chiều sâu - Depthwise Convolution: được sử dụng để giảm số lượng tham số và tính toán trong mạng, giúp mạng trở nên nhẹ nhàng và nhanh chóng hơn
- Tích chập điểm - Pointwise Convolution: cung cấp khả năng kết hợp thông tin giữa các kênh và điều chỉnh số lượng kênh đầu ra theo yêu cầu Nó giúp điều chỉnh độ sâu của mạng và cải thiện khả năng biểu diễn đặc trưng của
- Mô hình Squeeze and Excitation (SE): tự động điều chỉnh kết quả qua mỗi kênh, giúp tăng độ quan trọng của các kênh đặc trưng quan trọng và giảm độ quan trọng của các kênh không quan trọng, từ đó cải thiện khả năng phân biệt của mô hình
- Kiến trúc Inverted Residual Block: cho phép mạng học được các biểu diễn sâu (deep representations) và tránh tình trạng mất thông tin khi mô hình trở nên quá sâu Đồng thời, nó giúp giảm số lượng tham số và tính toán trong mạng, giúp mô hình trở nên nhẹ nhàng và phù hợp với các thiết bị có tài nguyên hạn chế
- Hàm kích hoạt: giúp đưa các tính chất phi tuyến vào trong mô hình Nó cũng giúp giảm độ phức tạp của mạng bằng cách ánh xạ các giá trị đầu vào tới các giá trị có giới hạn nằm trong một khoảng xác định Điều này cung cấp lợi ích về tính toán và giúp việc huấn luyện mạng neuron hiệu quả hơn
Mạng MobileNet sử dụng 2 hàm kích hoạt chính là hàm ReLU và h-swish [53]
Tích chập chiều sâu (Depthwise Convolution): Chúng ta sẽ chia khối input tensor3D thành những lát cắt ma trận theo độ sâu Thực hiện tích chập trên từng lát cắt như hình minh họa bên dưới
Hình 24: Hình minh họa Depthwise Convolution
Mỗi một channel sẽ áp dụng một bộ lọc khác nhau và hoàn toàn không chia sẻ
● Nhận diện đặc trưng: Quá trình học và nhận diện đặc trưng sẽ được tách biệt theo từng bộ lọc Nếu đặc trưng trên các kênh là khác xa nhau thì sử dụng các bộ lọc riêng cho channel sẽ chuyên biệt hơn trong việc phát hiện các đặc trưng Chẳng hạn như đầu vào là ba kênh RGB thì mỗi kênh áp dụng một bộ lọc khác nhau chuyên biệt
● Giảm thiểu khối lượng tính toán: Để tạo ra một điểm pixel trên output thì tích chập thông thường cần sử dụng 𝑘 × 𝑘 × 𝑐 phép tính trong khi tích chập chiều sâu tách biệt chỉ cần 𝑘 × 𝑘 phép tính
● Giảm thiếu số lượng tham số: Ở tích chập chiều sâu cần sử dụng 𝑘 × 𝑘 × 𝑐 tham số Số lượng này ít hơn gấp 𝑐′ lần so với tích chập chiều sâu thông thường
Kết quả sau tích chập được concatenate lại theo độ sâu Như vậy output thu được là một khối tensor3D có kích thước ℎ′ × 𝑤′ × 𝑐
Tích chập điểm - Pointwise Convolution: Có tác dụng thay đổi độ sâu của output bước trên từ c sang c' Chúng ta sẽ áp dụng c' bộ lọc kích thước 11c Như vậy kích thước dài và rộng không thay đổi mà chỉ độ sâu thay đổi
Hình 25: Hình minh họa Pointwise Convolution
Kết quả sau cùng chúng ta thu được một output có kích thước h'w'c' Số lượng tham số cần áp dụng ở trường hợp này là c'c Dó đó kiến trúc của mạng MobileNet cũng khác so với mạng nơ-ron tích chập thông thường
Hình 26: So sánh mạng CNN và mạng MobileNet [52]
Hình bên trái: mạng nơ-ron tích chập thông thường với BatchNorm và hàm ReLu; Hình bên phải:
Mạng MobileNet với Deepwise và Pointwise với BatchNorm và hàm ReLu
2.1.3 Mô hình Squeeze and Excitation
Mô hình Squeeze and Excitation - SE là một mạng khá đơn giản chỉ gồm vài lớp nhằm tăng cường thông tin giữa các kênh qua đó tăng chất lượng biểu diễn của mô hình CNN SE làm được điều đó bằng cách sử dụng toàn bộ thông tin sau đó nhấn mạnh có chọn lọc vào từng kênh có đặc trưng quan trọng và ít chú ý vào những kênh ít quan trọng hơn
Hình 27: Kiến trúc mạng SE [52]
● X: ảnh đầu vào có kích thước H' x W' x C'
● 𝐹 : tập hợp các phép biến đổi: một vài lớp convolution, hoặc 1 stage của
● U: feature map hay đặc trưng được trính xuất từ ảnh đầu vào bởi các phép biển đổi 𝐹 𝑡𝑟 U có kích thước H x W x C
Bước 1: Ảnh đầu vào X đi qua một tập hợp các phép biển đổi 𝐹 𝑡𝑟 trích xuất ra bản đồ đặc trưng (features map) U
Bước 2: Feature map U (H x W x C) được đi qua hàm squeeze sinh ra một ma trận miêu tả đặc trưng của từng kênh (1 x 1 x C) bằng cách tổng hợp features map U theo chiều H và W Ví dụ hàm squeeze ở đây có thể là global average pooling
Bước 3: Theo sau hàm squeeze là hàm excitation Hàm excitation đóng vai trò là cơ chế miêu tả sự phụ thuộc giữa các kênh với nhau Hàm lấy đầu vào là ma trận tổng hợp đặc trưng của từng kênh được tính toán từ bước 2 qua một vài lớp biến đổi như convolution, hàm activation, và cuối cùng qua hàm gate sản sinh ra trọng số chú ý cho từng kênh Những trọng số này sau đó được nhân với feature map U để tính ra output của khối SE Output lúc này của khối SE chỉ còn chứa những thông tin thực sự quan trọng cho bài toán Hàm gate ở đây thường là hàm sigmoid
2.1.3 Kiến trúc Inverted Residual Block
MobileNetV2 [52] lần đầu ứng dụng phương thức kết nối với tên gọi là Residual Block [39] Các khối ở layer trước được cộng trực tiếp vào layer liền sau
Khung kiến trúc mạng đề xuất
Như mô tả trong 2.1, các mạng nơ-ron tích chập hiệu quả như MobileNetV3 là những mô hình phù hợp để thực hiện giải quyết bài toán hiện tại, trong đó MobileNetV3 hoạt động như một thành phần cốt lõi trong giai đoạn trích xuất đặc trưng Các biến thể của MobileNetV3 [53] phổ biến: MobileNetV3-Large và
MobileNetV3-Small Các phiên bản của mô hình này được tối ưu nhắm tới các trường hợp sử dụng tài nguyên tính toán hiệu suất cao hay thấp Tuy nhiên, các cấu phần cơ bản của các biến thể vẫn tương tự như của MobileNetV3
Hình 33: Kiến trúc mạng MobileNetV3-Large [53]
Trong đó: SE ký hiệu cho Squeeze-And-Excite trong block; NL ký hiệu hàm phi tuyến được sử dụng (HS ký hiệu cho hàm h-swish và RE ký hiệu cho hàm ReLU); NBN – không chuẩn hóa hàng loạt; s
Hình 34: Kiến trúc mạng MobileNetV3-Small [53]
MobileNetV3-Large có kích thước mô hình lớn và chứa nhiều trọng số do đó chi phí tính toán và tài nguyên lớn hơn so với MobileNetV3-Small được thiết kế để có kích thước mô hình nhỏ gọn hơn phù hợp cho các ứng dụng yêu cầu tài nguyên thấp Việc sử dụng phiên bản nào phụ thuộc vào sự đánh đổi giữa hiệu năng phần cứng tương ứng khi triển khai thực tế và khả năng phân biệt các cuộc tấn giả mạo khuôn mặt
Hình 35: So sánh hiệu suất MobileNetV3-Large và MobileNetV3-Small [53]
Phiên bản được sử dụng trong nghiên cứu này là biến thể MobileNetV3-Large, được tinh chỉnh cho nhiệm vụ xác định giả mạo khuôn mặt thông qua quá trình transfer learning và fine-tuning Nghiên cứu đã tuân theo quy trình tiêu chuẩn để thực hiện fine-tuning cho mô hình MobileNetV3 và trích xuất các vector nhúng hình ảnh liên quan Cấu trúc kiến trúc mạng MobileNetV3-Large được mô tả trong hình sau:
Hình 36: Kiến trúc mạng MobileNetV3 được đề xuất sử dụng
THỰC NGHIỆM
Bộ dữ liệu CelebA-Spoof
Mặc dù hiện nay đã có rất nhiều bộ dữ liệu đã được công bố cho mục dích nghiên cứu bài toán phát hiện giả mạo khuôn mặt Tuy nhiên, các bộ dữ liệu được thu thập với mục đích nghiên cứu và thử nghiệm nên thường có số lượng ít (< 2,000 đối tượng) trong các điều kiện thuận lợi (trong nhà, ánh sáng đầy đủ) với số lượng thiết bị hạn chế - dưới 10 thiết bị nên không đảm bảo đầy đủ các miền dữ liệu cần thiết cho việc huấn luyện mô hình Các bộ dữ liệu được đầu tư đa dạng các miền dữ liệu từ nhiều đối tượng với các tình huống, điều kiện ánh sáng phức tạp… rất khó để tiếp cận hoặc chỉ phục vụ cho việc giải quyết một số cuộc tấn công giả mạo khuôn mặt nhất định Ví dụ: bộ dữ liệu CASIA, 3DMAD video khuôn mặt giả mạo bằng giấy in cắt, khoét bộ phận trên khuôn mặt; MSU-MFSD gồm ảnh/video trình chiếu 2D…
Do đó trong bài nghiên cứu này, tác giả đề xuất sử dụng bộ dữ liệu CelebA-Spoof [49] có cung cấp 625,537 ảnh Trong đó có 156,384 ảnh khuôn mặt thật và 469,153 ảnh khuôn mặt giả mạo được thu thập từ 10,177 đối tượng, bao gồm 43 thuộc tính phong phú về khuôn mặt, ánh sáng, môi trường và các loại giả mạo, được chú thích đầy đủ từng ảnh Thông tin đầu đủ và phong phú của bộ dữ liệu có thể giúp làm giàu sự đa dạng trong bài toán phát hiện giả mạo khuôn mặt
Hình 37: So sánh các bộ dữ liệu đã công bố [49]
3.1.1.1 Cấu trúc bộ dữ liệu
Dữ liệu được sử dụng huấn luyện mô hình được thu thập từ bộ dữ liệu CelebA Spoofing CelebA Spoofing là một bộ dữ liệu về đặc điểm khuôn mặt quy mô lớn được phát triển với hơn tám triệu nhãn thuộc tính, bao gồm các hình ảnh khuôn mặt với sự biến đổi về tư thế và độ nhiễu
Nhằm làm tăng tính đa dạng của dữ liệu cũng như cố gắng bao quát được các hình thức tấn công, bộ dữ liệu được thu thập với 3 kiểu:
● 5 góc ảnh: Tất cả các loại giả mạo được thu thập theo cả năm loại góc bao gồm ''dọc'', ''xuống'', ''lên'', ''gần'' và ''xa'' Góc nghiêng nằm trong khoảng [- 30°, 30°]
● 4 kiểu bẻ cong ảnh in: Có tổng cộng 4 kiểu bóp hình: Bình thường, Bẻ cong hình vào trong, Bẻ cong hình ra ngoài, Bẻ cong hình ở góc
● 4 loại cảm biến: Hình ảnh được thu thập với 24 thiết bị phổ biến được chia làm 4 loại: Máy tính, Máy ảnh, Máy tính bảng, Điện thoại
Hình 38: Các chiều thu thập ảnh cho bộ dữ liệu CelebA Spoofing [49]
Nhằm tăng độ tin cậy và tính minh bạch, bộ dữ liệu CelebA Spoofing cũng cung cấp đầy đủ 43 nhãn cho từng ảnh, bao gồm: 40 nhãn loại thuộc tính ảnh và 3 nhãn giả mạo khuôn mặt bao gồm: loại giả mạo, điều kiện ánh sáng, môi trường
Hình 39: Các ví dụ về các thuộc tính của ảnh giả mạo [49]
Trong đó: (a) 11 loại spoof với 4 hình thức khác nhau; (b) 4 điều kiện ánh sáng và 2 loại điều kiện môi trường được xác định
Hình 40: Thống kê bộ dữ liệu CelebA-Spoof [49]
(a) Tổng quan về phân phối số lượng hình live và spoof, thống kê về kích thước khuôn mặt (b) Ví dụ về semantic (c) Ba loại thuộc tính spoof.
Bộ dữ liệu Large Crowdcollected Facial Anti-Spoofing
Bộ dữ liệu Large Crowdcollected Facial Anti-Spoofing Dataset (LCC_FASD) được công bố năm 2019, chứa tổng cộng gồm 243 đối tượng (người châu Úc) với 1,942 ảnh thật và 16,885 ảnh giả mạo Hình ảnh được thu thập từ nhiều nguồn như Youtube, Amazon, Toloka, với hình thức giả mạo trên 83 loại thiết bị (máy ảnh số, điện thoại, ) khác nhau Bộ dữ liệu sẽ được sử dụng để đánh giá chéo cho mô hình
Hình 41: Mẫu dữ liệu LCC_FASD a) Hình ảnh khuôn mặt người thật; b) Hình ảnh giả mạo được phát trên màn hình laptop, pad Ưu điểm của bộ dữ liệu này là được thu thập từ những thiết bị sẵn có trên thị trường thiết bị tiêu dùng thông thường nên gần như có thể giống với các loại hình tấn công chình chiếu ảnh thông thường
Hình 42: Các thiết bị đựợc sử dụng thu thập dữ liệu trong LCC_FASD Trong đó: a) nhóm 20 thiết bị đươc sử dụng để thu thập hình ảnh; b) nhóm 20 thiết bị sử dụng để trình chiếu hình ảnh
Phương pháp đánh giá hiệu quả mô hình
Về các phương pháp đánh giá mô hình, có thể kể đến được dùng phổ biến nhất là Tỉ lệ từ chối sai - False Rejection Rate (FRR) và Tỉ lệ chấp nhận sai - False Acceptance Rate (FAR) Hai chỉ số này thường được dùng trong xác minh sinh trắc học, nên cũng có thể dùng trong đánh giá các mô hình phát hiện giả mạo khuôn mặt
Ngoài ra, nghiên cứu sử dụng thêm các chỉ số đánh giá như:
- Phương pháp đánh giá chéo
Thông thường, các bài toán sẽ cần chia bộ dữ liệu bao gồm 3 tập: Tập dữ liệu huấn luyện mô hình, Tập dữ liệu kiểm thử để lựa chọn tham số tối ưu; Tập dữ liệu kiểm định để đánh giá hiệu quả của mô hình Trong đó cả 3 tập này đều có phân phối giống nhau Tuy nhiên một trong những vấn đề của các mô hình chống giả mạo khuôn mặt là việc trong thực tế có rất nhiều cách để người ta thực hiện tấn công giả mạo, trong khi dữ liệu có thể không bao gồm đầy đủ các phương thức giả mạo đó Một số mô hình dự phân biện được tốt cách tấn công này, nhưng lại không phân biệt tốt với các cách tấn công khác Do đó, các mô hình phát hiện giả mạo khuôn mặt cần đánh giá chéo trên các bộ dữ liệu khác nhau:
• Intra-Dataset Intra-Type Protocol: được sử dụng trong các tình huống chỉ có sự thay đổi nhỏ về domain Tong đó, tập dữ liệu huấn luyện là kiểm định được lấy chung từ một bộ dữ liệu
• Cross-Dataset Intra-Type Protocol: Giao thức này tập trung vào đo lường khả năng tổng quát hóa miền cấp độ tập dữ liệu chéo, thường huấn luyện các mô hình trên một hoặc một số tập dữ liệu ban đầu (source domain) và sau đó kiểm tra trên các tập dữ liệu chưa được huấn luyện thấy trước đó (thay đổi target domain)
• Intra-Dataset Cross-Type Protocol: ngược lại với giao thức trên, cách đánh giá này chỉ huấn luyện mô hình trên một tập dữ liệu, sau đó đánh giá xem mô hình có mang tính tổng quát không bằng cách kiểm tra trên nhiều tập kiểm định ở nhiều miền khác nhau, chưa từng xuất hiện trong tập dữ liệu huấn luyện
• Cross-Dataset Cross-Type Protocol: Sau ba loại đánh giá trên, mặc dù bắt được kha khá các vấn đề có thể xảy ra trong thực tế, nhưng như thế vẫn chưa đủ Vì thế, chúng ta đo lường mô hình phát hiện giả mạo khuôn mặt tổng quát trên cả miền chưa từng nhìn thấy và các kiểu tấn công không xác định
Trong quá trình phân tích và thử nghiệm mô hình, chúng tôi đề xuất sử dụng hàm Additive Margin Softmax - AM Softmax nhằm đo lường mức độ sai khác giữa dự đoán của mô hình và giá trị thực tế, từ đó tạo ra một chỉ số đánh giá hiệu suất của mô hình Hàm AM-Softmax là một phương pháp mở rộng của hàm softmax được sử dụng trong bài toán phân loại đa lớp
Công thức hàm AM Softmax được biểu diễn như sau:
Trong bài toán phân loại, hàm softmax được sử dụng để chuyển đổi đầu ra của mạng nơ-ron thành xác suất dự đoán cho từng lớp Tuy nhiên, trong một số trường hợp, hàm softmax có thể gặp khó khăn trong việc phân biệt các lớp tương đối gần nhau và gây ra hiện tượng mất cân bằng giữa các lớp
Hàm Additive Margin Softmax giải quyết vấn đề này bằng cách thêm một độ lệch (margin) vào hàm softmax Điều này tạo ra một khoảng cách rõ ràng giữa các lớp và đẩy các điểm dữ liệu đến xa hơn khỏi ranh giới giữa các lớp Điều này giúp cải thiện khả năng phân biệt giữa các lớp tương đối gần nhau và tạo ra các đầu ra xác suất có tính phân loại tốt hơn
Hình 44: So sánh hàm Softmax thông thường và AM-Softmax
Kết quả huấn luyện mô hình
- GPU: VGA Asus RTX 3060TI 8gb ram
Tham số huấn luyện: Tham số huấn luyện được thử nghiệm và đánh giá nhiều lần dựa trên bộ dữ liệu huấn luyện và dữ liệu kiểm thử nhằm lựa chọn ngưỡng tham số tối ưu cho việc huấn luyện mô hình:
- Maximum Epoch: 70 - Batch size: 256 - Optimizer: Stochastic Gradient Descent
- Learning rate: 0.005 - Weight decay: 5e-4 - Momentum: 0.9 - Hàm mất mát: AM-Softmax
- Hệ số margin: 0.1 - Hệ số scale: 10
- Data Agumentation: Xoay ảnh, Thay đổi Iso, Thay đổi độ sáng, độ tương phản Đánh giá kết quả của mạng học sâu:
Hình 45: Hàm mất mát trong quá trình huấn luyện
Hình 46: Biến động AUC trong quá trình huấn luyện
- Đánh giá trên bộ dữ liệu test CelebA-Spoof
Model AUC EER% APCER% BPCER% ACER% MParam GFlops
Bảng 2: So sánh độ hiệu quả của mô hình với bộ dữ liệu CelebA-Spoof
- Đánh giá trên bộ dữ liệu chéo LCC_FASD
Model AUC EER% APCER% BPCER% ACER% MParam GFlops
Mô hình MobileNetV3 đã được đào tạo trên bộ dữ liệu CelebA-Spoof và đánh giá chéo trên bộ dữ liệu LCC_FASD để đảm bảo tính đa dạng và khả năng tổng quát của nó Do những hạn chế về thời gian và khả năng tiếp cận các giải pháp phát hiện giả mạo khuôn mặt khác, trong nghiên cứu này, chỉ mô hình AENet [49] (đã nêu ở mục 1.3.5.4) được sử dụng làm điểm so sánh
Thực hiện kiểm định trên tập dữ liệu CelebA-Spoof, kết quả cho thấy mặc dù MobileNetV3 có độ chính xác (Accuracy) thấp hơn so với mô hình AENet (0.998 so với 0.999) và tỷ lệ Equal Error Rate (EER) cao hơn khoảng 2 lần (2.26% so với 1.12%), nhưng mô hình MobileNetV3 vẫn giữ được những ưu điểm quan trọng
Ngược lại với sự giảm chính xác và tăng EER, MobileNetV3 có số lượng tham số ít hơn 3.72 lần so với AENet và đòi hỏi hiệu suất tính toán (Giga Floating- point Operations Per Second - Gflops) ít hơn 24.3 lần Điều này chứng tỏ rằng MobileNetV3 không chỉ tối ưu hóa tài nguyên mà còn đảm bảo khả năng triển khai hiệu quả trong các ứng dụng thực tế Mặc dù đánh đổi một số lợi ích về chính xác và EER, nhưng sự cân bằng này giữ cho MobileNetV3 là lựa chọn hợp lý cho những ứng dụng yêu cầu hiệu suất tính toán cao và tài nguyên hạn chế
Kiểm định chéo trên bộ dữ liệu LCC_FASD đã làm rõ rằng MobileNetV3 có khả năng tổng quát hóa tốt hơn so với AENet Mô hình MobileNetV3 đạt độ chính xác accuracy là 0.921 trong khi AENet chỉ đạt 0.868 Ngoài ra, chỉ số Equal Error Rate (EER) của MobileNetV3 cũng thấp hơn so với AENet, với giá trị 16.13% so với 20.91%
Sự khác biệt đáng chú ý trong độ chính xác và EER giữa hai mô hình này là một chứng chỉ cho khả năng tổng quát hóa cao của MobileNetV3 Điều này rất quan trọng khi mô hình được áp dụng trong các tình huống thực tế và đối mặt với đa dạng lớn của dữ liệu MobileNetV3 thể hiện khả năng xử lý đa dạng và phức tạp của dữ liệu thực tế, làm cho nó trở thành một lựa chọn hiệu quả cho các ứng dụng thực tế đòi hỏi tính tổng quát và độ chính xác cao
Hình 47: Biểu đồ đường cong ROC Hình 48: Biểu đồ đường cong Detection error tradeoff - DET (FRR vs FAR)
Mô hình đã thể hiện hiệu suất xuất sắc trong khả năng phân loại giữa ảnh khuôn mặt thật và giả mạo, với đỉnh điểm ROC gần 1 Đặc biệt, tỷ lệ EER ổn định ở mức thấp, chỉ đạt 2.274%, điều này đồng nghĩa với việc mức độ sai lệch tối thiểu trong quá trình xác định độ tương đồng giữa các mẫu Hiệu suất này chứng minh mô hình có khả năng đối mặt và phân loại hiệu quả trong nhiều tình huống, một yếu tố quan trọng khi đối mặt với ảnh khuôn mặt thật và giả mạo
Nhằm đánh giá hiệu quả mô hình khi sử dụng thực tế, tác giả đã thực hiện thử nghiệm thực tế trên gần 200 ảnh và video, bao gồm nhiều kịch bản tấn công giả mạo khuôn mặt phổ biến nhất Trong quá trình này, các tình huống tấn công đa dạng đã được mô phỏng, nhằm đánh giá khả năng phân loại và đối phó của mô hình trong điều kiện thực tế
Kết quả thu được rất tích cực, đặc biệt là khi đối mặt với các biến thể tấn công phổ biến Với 73 ảnh/video của tấn công trình chiếu khuôn mặt, mô hình đã thể hiện khả năng ổn định và chính xác trong việc phân biệt giữa khuôn mặt thật và giả mạo
Mô hình cũng thể hiện khả năng tương tự khi phân biệt chính xác 13/13 ảnh, video khuôn mặt giả mạo bằng mặt nạ 3D; 60/60 ảnh, video khuôn mặt giả mạo bằng giấy in màu Đáng chú ý, mô hình đã đạt được kết quả phân loại ấn tượng ngay cả trong tình huống tấn công trình chiếu khuôn mặt bằng điện thoại, đặt ngay cạnh khuôn mặt thật Sự hiệu quả này không chỉ là một bước tiến quan trọng mà còn là minh chứng cho sự độc đáo và khả năng hiệu quả của mô hình trong môi trường thực tế
Hình 50: Trường hợp mô hình xác định sai khuôn mặt thật
Mặc dù mô hình đã chứng minh khả năng dự đoán rất chính xác trong hầu hết các thử nghiệm, tuy nhiên, vẫn xuất hiện những trường hợp đặc biệt khi mô hình đánh lừa và xác định sai khuôn mặt người thật thành ảnh giả mạo Nguyên nhân chính của hiện tượng này có liên quan đến chất lượng video thu thập từ webcam của thiết bị sử dụng Đôi khi, video thu được có chất lượng kém do nhiều yếu tố như độ phân giải thấp và nhiễu hình ảnh Đặc biệt, việc sử dụng webcam có thể tạo ra ảnh hưởng lớn đến khả năng dự đoán của mô hình Các vấn đề như lớp kính xước phía trước camera có thể làm mờ hoặc làm lóa ánh sáng, đặc biệt là khi có sự chiếu sáng mạnh, làm cho khuôn mặt trở nên khó nhận biết đúng Sự chệch lệch này có thể gây ra các sai lệch trong quá trình dự đoán, dẫn đến việc mô hình hiểu lầm và xác định sai kết quả Để giải quyết vấn đề này, việc cải thiện chất lượng thu thập dữ liệu là một hướng tiếp cận quan trọng Việc sử dụng các thiết bị có chất lượng cao và tránh những yếu tố gây nhiễu có thể giúp mô hình làm việc hiệu quả hơn trong các điều kiện đặc biệt, giảm thiểu khả năng xảy ra các trường hợp xác định sai khuôn mặt
Hình 51: Sơ đồ hệ thống phát hiện giả mạo khuôn mặt
Nhằm đảm bảo việc xác định giả mạo khuôn mặt hoạt động hiệu quả, ngoài việc phát triển một mô hình tốt, chúng ta cũng cần cân nhắc đến thiết kế thuật toán nhận diện khuôn mặt và xác thực khuôn mặt đầy đủ Đầu tiên, người dùng thực hiện chụp một bức ảnh chính diện bằng thiết bị camera thông thường Sau đó, hệ thống sẽ thực hiện xác định khuôn mặt lấy dữ liệu đầu vào cho mô hình xác định giả mạo khuôn mặt Kết quả trả ra là xác định hình ảnh giả mạo hay hình ảnh khuôn mặt thật Các bước thực hiện được mô tả như sau:
- Bước 1: Xác định khuôn mặt: Hiện nay có rất nhiều phương pháp học sâu được sử dụng cho việc phát hiện đối tượng cũng như khuôn mặt như R-CNN, tối ưu phần cứng trên thiết bị di dộng cũng như tận dụng kiến thức sẵn có
Chúng tôi tái sử dụng lại phương pháp xác định khuôn mặt do OpenVINO™ phát triển dựa trên phiên bản kiến trúc MobileNetV2 Mô hình đã được tinh chỉnh sao cho đủ nhẹ, có thể triển khai theo thời gian thực, nhanh hơn và tiêu thụ ít tài nguyên hơn, đồng thời thích rất thích hợp cho các thiết bị di động
Sau khi xác định được khuôn mặt, hệ thống sẽ tự động xác định vị trí khuôn mặt
- Bước 2: Xác định vị trí khuôn mặt: Đây được đánh giá là bước quan trọng trong cả quá trình Sau khi hệ thống nhận diện được khuôn mặt của khác hàng, chúng ra cần xác định chính xác vị trí của các khuôn mặt trong khung hình đó
Hình 52: Xác định vị trí khuôn mặt