HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THONG
SS, Ss
LE DAC THINH
PHAT HIEN GIA MAO KHUON MAT BANG MANG NO
RON TICH CHAP
Chuyén nganh: HE THONG THONG TIN
Mã số: 8.48.01.04
TOM TAT LUẬN VĂN THAC SY
( Theo định hướng ứng dung)
Hà Nội — 2022
Trang 2Luận văn được hoàn thành tại:
HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIỄN THONG
Người hướng dẫn khoa học: TS NGUYÊN TRỌNG KHÁNH
Phản biện 1: PGS.TS Trần Nguyên Ngọc
Phản biện 2: PGS.TS Ngô Quốc Tạo
Luận văn này được bảo vệ trước Hội đông châm luận văn thạc sĩ tại Học
viện Công nghệ Bưu chính Viễn thông
Vào lúc: 10h15 ngày 02/07/2022
Có thé tìm hiệu luận văn này tại:
Thư viện của Học viện Công nghệ Bưu chính Viễn thông
Trang 3PHAN MỞ DAU
Với sự phat triển liên tục không ngừng và rất nhanh chóng của công
nghệ thông tin ngày nay đóng một vai trò quan trọng trong trong sự phát triển
nén tang xã hội và cuộc sống hiện đại của con người Con người đã nghiên cứu ra rất nhiều ứng dụng công nghệ mới nhanh chóng và hết sức thông minh
có khả năng tự nhận biết và xử lý tự động, phục vụ cho lợi ích của con người
trong cuộc sống Một trong những công nghệ này là công nghệ nhận dang nói
chung và bài toán nhận dạng khuôn mặt nói riêng Bài toán nhận dạng đã đang
là thách thức để đưa vào áp dụng trong trong cuộc sông hàng ngày với nhiều nhiều lĩnh vực nhận dạng như: nhận dạng vật chất, nhận dạng giọng nói, nhận dạng hình dáng, nhận dạng chữ viết, nhận dạng khuôn mặt trong đó bài toán
nhận diện khuôn mặt được ứng dụng phô biên và nhiêu hơn cả.
Tan công gia mạo là một nỗ lực dé có được đặc quyền hoặc quyền truy cập của người khác băng cách sử dụng ảnh, video hoặc một vật thay thế khác
cho khuôn mặt của người được ủy quyên.
Một sô ví dụ vê các cuộc tân công có thê kê đên như:
Tân công in: Kẻ tân công sử dụng anh của ai đó Hình ảnh được
in hoặc hién thị trên thiết bị kỹ thuật số.
Tấn công phat lại / video: Một cách tinh vi hon dé đánh lừa hệ
thống, thường yêu cầu một đoạn video lặp lại khuôn mặt của nạn nhân Cách
tiếp cận này đảm bảo hành vi và chuyền động trên khuôn mặt trông “tự nhiên”
hơn so với việc cầm ảnh của ai đó.
J Tan công bang tái tạo khuôn mặt 3D: Trong kiểu tấn công này, tái
tạo khuôn mặt được sử dụng như một công cụ được lựa chọn dé gia mao Do là một cuộc tan công thậm chí còn phức tạp hơn việc phát video trực diện.
Trang 4Ngoài các chuyên động tự nhiên trên khuôn mặt, nó còn cho phép đánh lừa
một sô lớp bảo vệ bô sung như cảm biên độ sâu.
Mang no ron nhân tạo (Artificial Neural Networks) được tạo nên từ các
nơ ron nhân tạo có nhiều đầu vào của nơ ron khác hoặc từ môi trường và một
đầu ra Với mỗi nơ ron đầu vào có một bộ trọng số với mục đích để khuếch đại tín hiệu rồi cộng lại, sau đó lại tiếp tục biến đôi dựa vào hàm kích hoạt hay
còn gọi là hàm phi tuyến để có đầu ra của nơ ron rồi lại trở thành đầu vào của
nơ ron khác hoặc trở thành tín hiệu của toàn mang nơ ron Năm 1943,
McCulloch va Pitts đã đưa ra khả năng liên kết và một số liên kết co bản của
mang no ron.
Mang no ron tích chap (Convolutional Neural Networks- CNN) là một
trong những kiều mô hình học sâu tiên tiến hiện nay dé giúp cho chúng ta xây
dựng được những hệ thống thông minh với độ chính xác cao Mạng nơ ron
tích chập là một kiểu mang nơ ron truyền thăng đặc biệt có khả năng kết xuất
các thuộc tính hình học trong một bức ảnh Mạng nơ ron tích chập có thé nhận
dạng ảnh có nhiều thay đôi, kết quả nhận dạng độ chính xác và tốc độ cao.
Trong luận văn cao hoc nay, Luận văn sẽ đi vào nghiên cứu về mạng nơ ron
tích chập và ý tưởng của mô hình mạng nơ ron tích chập trong phân lớp ảnh
(Image Classification) và áp dụng trong việc xây dựng hệ thống phát hiện mặt
Từ những ly do trên, luận van đã chon dé tài nghiên cứu: PHAT HIEN GIÁ MẠO KHUÔN MẶT BẰNG MẠNG NƠ RON TÍCH CHẠP làm đề
tài nghiên cứu và bảo vệ.
Trang 5Muc dich nghiên cứu:
Luận văn tập trung vào tìm hiểu về mạng nơ ron tích chập Sau đó, ở phần ứng dụng, luận văn sử dụng mạng nơ ron tích chập khi ứng dụng ResNet
vào bài toán phát hiện giả mạo khuôn mặt.
Cau trúc luận van:
° Chương 1: Nghiên cứu lý thuyết các kiểu giả mạo khuôn mặt
° Chương 2: Nghiên cứu về phương pháp phát hiện giả mạo khuôn
mặt sử dụng nhi phân cục bộ và mạng Nơron tích chập
° Chương 3: Thực nghiệm và đánh giá kết quả
Trang 6CHƯƠNG 1 - NGHIÊN CỨU PHAT HIỆN GIA MAO KHUÔN MAT
1.1 Các phương pháp tấn công giả mạo
Nhờ sự tiến bộ nhanh chóng của công nghệ, đặc biệt là khoa học máy
tính và điện tử Ngày nay, nhận dạng khuôn mặt đang trở thành phương pháp
xác thực sinh trac học được triển khai rộng rãi thứ hai ở cấp độ thé gidi vé han ngạch thị trường ngay sau dau vân tay Mỗi ngày, ngày càng có nhiều nha san xuất đưa tính năng nhận dạng khuôn mặt vào các sản phẩm của họ, chăng hạn như Apple với công nghệ Face-ID, các ngân hàng triển khai các giải pháp
eKYC cho quá trình tích hợp.
Trái ngược với mục đích chính của nghiên cứu về nhận dạng khuôn mặt
là nhằm cải thiện hiệu suất trong các nhiệm vụ xác minh và nhận dạng, các lỗ
hồng bảo mật của các hệ thong nhận dạng khuôn mặt da it được nghiên cứu
hơn trong quá khứ và chỉ trong vài năm gần đây Một số chú ý đã được đưa ra
dé phát hiện các kiểu tấn công khác nhau bao gồm phát hiện xem một đặc điểm
sinh trắc học đến từ một người sống hay nó là giả.
Hai kiểu tấn công được sử dụng trên hệ thong nhận dạng khuôn mặt:
Các cuộc tấn công thuyết trình:
Các cuộc tấn công trình bày có liên quan đến các lỗ hồng sinh trắc học thuần túy Trong các cuộc tấn công này, những kẻ xâm nhập sử dụng một số loại hiện vật, thường là nhân tạo (ví dụ: ảnh khuôn mặt, mặt nạ, dau vân tay tong hợp hoặc hình ảnh mống mắt in) hoặc cố gang bắt chước khía cạnh của người dùng chính hãng (vi dụ: dang đi, chữ ký) truy cập gian lận vào hệ thong
sinh trắc học.
Tan công gián tiếp
Trang 7Các cuộc tân công gián tiép có thê được thực hiện tai co sở dữ liệu, đôisánh, các kênh liên lạc, v.v Trong kiêu tân công này, kẻ tân công cân truy cậpvào bên trong hệ thông Các cuộc tân công gián tiép có thé được ngăn chanbăng các kỹ thuật liên quan đên an ninh mạng “cô điên” hơn là sinh trắc học.
v Tan công bang ảnh: Một cuộc tấn công bằng ảnh bao gồm việc hiển thị
một bức ảnh về danh tính bị tan công bởi bộ cảm biến của hệ thống nhận dang
khuôn mặt.
v Tan công băng video: Kẻ tan công có thé phát video của người dùng hợp
pháp trong bât kỳ thiệt bị nào tái tạo video và sau đó trình chiêu nó với cảmbiên / máy ảnh.
v 3D Mask Attacks: Trong kiêu tan công này, kẻ tan công xây dựng một
bản tái tạo 3D của khuôn mặt và trình bày nó với cảm biên / máy ảnh.
v Các cuộc tấn công khác: Trang điểm, phẫu thuật 1.2 Các phương pháp phát hiện chống giả mạo
Trong những năm gan đây, các hệ thống nhận diện khuôn mặt được ứng dụng rộng rãi trong đời sống thường ngày Phát hiện giả mạo khuôn mặt là một bước rất quan trọng đề tránh sự đe doa từ những cuộc tấn công giả mao
có thê truy cập trái phép vào hệ thống bằng cách mạo danh người dùng được
ủy quyên Vi dụ tiêu biểu nhất có thể kể đến các smartphone sử dụng khuôn
mặt chúng ta dé làm khóa mở điện thoại Hoặc một số ngân hàng yêu cầu xác
thực khuôn mặt khi đăng ký tài khoản online Một số nước, như trung quốc,
đã sử dụng quét khuôn mặt dé thanh toán tiền Nói cách khác, việc xác thực
người đứng trước màn hình có đúng là người chính chủ không, là một bài toán
quan trọng Tuy nhiên, việc này có thé bị trích dé dang bằng cách in một cái
ảnh của người đó ra và đưa ra trước màn hình, hoặc hơn nữa là quay một video
can mặt người đó rồi đưa ra trước màn hình, là dé dàng qua mặt được hệ thong
nhận diện khuôn mặt Bởi vì lẽ đó, bài toán Face Anti Spoofing (FAS) - Baitoán phát hiện giả mạo khuôn mặt ra đời.
Trang 81.2.1 Phương pháp phát hiện nháy mắt, chớp mắt (Eye Blink Check)
Eye Blink Check là một phương pháp với ý tưởng khá đơn giản, kiêm tra xem khuôn mặt trong hình ảnh có nháy mắt hay không Rõ ràng với đa số những cuộc xâm nhập giả mạo khuôn mặt, hình ảnh giả mạo đều là ảnh tĩnh, không thể có chuyên động nháy mắt hay chớp mắt Phương pháp này sẽ lưu
lại một số khung hình liên tiếp và phân tích xem trong khoảng thời gian đó mắt của đối tượng có hiện tượng chớp hay không.
1.2.2 Phương pháp phản ứng thách thức (Challenge - Response)
Phương pháp này yêu cầu người dùng thực hiện một số thao tác
(challenge) và người dùng cần phải thực hiện theo (Response) dé vượt qua khâu xác thực Ví dụ như hệ thống có thé yêu cầu người dùng quay mặt sang trái, sang phải, nhắm mắt, cười, và người dùng cần thực hiện đúng theo thứ
tự mà hệ thống yêu cầu Trong thực tế, các thao tác này sẽ được lựa chọn ngẫu
nhiên để hạn chế việc người dùng chuẩn bị trước một đoạn video đề đánh lừa
hệ thống.
1.2.3 Phương pháp sw dụng ánh đèn Flash
Đây là một phương pháp khá thú vị khi phát hiện giả mạo bằng cách sử
dụng những phản xạ ánh sáng trên khuôn mặt Ý tưởng này bắt nguồn từ việc
nghiên cứu các môi trường xung quanh có ánh sáng liên tục thay đổi, sau đó
sử dụng ánh sáng b6 sung đến từ màn hình của thiết bị Anh sáng trang tạo ra
phản xạ thích hợp trên mỗi khuôn mặt.
Dé thấy với phương pháp này rat dé dé triển khai trên các thiết bị di động, laptop, mà không cần thiết lập thêm thiết bị nào khác Tuy nhiên khi
ra ngoài trời hoặc những nơi có ánh sáng chói, mạnh thì độ sáng từ ánh đèn
flash bị mất tác dụng Hơn nữa việc chiếu đèn flash vào mặt người dùng khiếnnhiều người cảm thấy khó chịu khi sử dụng.
Trang 91.3 Phương pháp sử dụng mạng nơ ron
Ứng dụng sự phát triển của học máy và học sâu, phương pháp sử dụng
mạng nơ ron (neural network) là một phương pháp khá mới trong bài toán
phân biệt giả mạo hình ảnh Ảnh đầu vào sẽ được tiền xử lý rồi được đưa vào mô hình học máy để huấn luyện và phân loại xem là ảnh giả mạo hay là ảnh người thật Dưới đây luận văn sẽ giới thiệu lý thuyết phương pháp sử dụng
mạng nơ ron đê phát hiện giả mạo khuôn mặt.
1.3.1 Một số kiểu mạng nơ ron
Hiện nay, các nhà nghiên cứu đã công bồ rất nhiều loại mạng nơ ron
cùng các ứng dụng và tính năng vượt trội của chúng Trong đó có các loại
mạng nơ ron được sử dụng phô biến là mạng nơ ron truyền thăng (feedforward
neural network), mạng nơ ron tích chập (convolution neural network) và mạng
nơ ron hồi quy (recurrent neural network).
Mang no ron truyén thang (Feedforward Neural Network)
Quan sát thấy, trong mạng no ron truyền thang, các no ron (hay node) trong lớp ân thứ n + 1 đều được kết nối với các no ron trong lớp n trước đó Do có nhiều lớp an như vậy nên có thé thay rằng mang no ron truyền thắng có
thé học được những đặc trưng 4n từ dữ liệu từ đó đưa ra các kết luận chính
Câu tạo cơ bản của mạng nơ ron truyền thăng
Các no ron hay đơn vi xử lý nhận tín hiệu vào từ các đơn vi phía trước hay một
nguồn bên ngoài sau đó sử dụng chúng dé tính tín hiệu ra sẽ được lan truyền
sang các đơn vị khác Đây chính là lý do mạng được gọi là mạng nơ ron lan
truyền thăng.
Mạng nơ ron truyền thang don mirc
Trang 10Trong mạng nơ ron truyền thắng, một mạng gồm một lớp đầu vào và
một lớp đầu ra là một mạng đơn giản nhất, đây gọi là mạng nơ ron truyền thắng
đơn mức.
Mạng nơ ron truyền thang da mirc
Mang no ron truyền thang da mức vì chúng có thé chứa một lớp dau vào,
một lớp đầu ra và rất nhiều lớp an ở giữa Việc thêm các lớp ân vào giữa lớp đầu vào và đầu ra giúp mô hình nơ ron có thể học được các đặc trưng, cau trúc an có giá trị trong dữ liệu đầu vào Hai lớp ẩn liên tiếp nhau có thé coi như là
một mạng nơ ron truyền thắng đơn mức, xếp chồng các mạng nảy lên nhau ta được một mạng truyền thang đa mức Giữa các lớp ân đều có các hàm kích hoạt phi tuyến tính (activation function) vì nếu các hàm kích hoạt này là tuyến tính, thì dù có nhiều lớp ân thì bản chất chúng vẫn chỉ là một lớp được tách ra mà
Mạng nơ ron hồi quy
Không giống như mang nơ ron truyền thăng, mạng nơ ron hồi quy chứa ít nhất một vòng lặp hay một đường dẫn tuần hoàn bên trong nó [15].
Trang 11CHUONG 2 - PHƯƠNG PHAP PHÁT HIỆN GIA MAO KHUÔN MAT SỬ DUNG NHI PHAN CỤC BỘ VÀ MẠNG NƠRON TÍCH CHAP
2.1 Phương pháp sử dụng nhị phân cục bộ (Local Binary Pattern-LBP)
Mẫu nhị phân cục bộ (Local Binary Pattern-LBP) [17] là phương pháp
trích chọn kết cấu của ảnh thành vector đặc trưng gọi là đặc trưng LBP Ý
tưởng ban đầu của phương pháp này được tác giả Ojala và các đồng nghiệp
giới thiệu, ban đầu xử lý trên ảnh xám và sử dung 8 điểm ảnh lang giềng và sử dụng giá trị của điểm ảnh ở trung tâm làm ngưỡng sau đó giá trị LBP được xác
định bằng cách nhân các giá trị ngưỡng với trọng số ứng với mỗi điểm ảnh sau đó lấy tổng của chúng.
2.2 Mạng nơ ron tích chập (Convolutional Neural Network)
Trong mạng nơ ron, mô hình mạng nơ ron tích chập (CNN) [19] là một
trong những mô hình học sâu phé biến và tiên tiễn nhất hiện nay Mạng no ron tích chập được dùng trong nhiều bài toán như nhận dang ảnh, phân tích video,
anh MRI, hoặc cho các bài toán của lĩnh vực xử lý ngôn ngữ tự nhiên Nhận
dạng đối tượng, nhận dạng khuôn mặt hay phát hiện giả mạo khuôn mặt là một trong sỐ những lĩnh vực mà mạng nơ ron tích chập được sử dụng rộng rãi.
2.2.1 Kiến trúc Mạng nơ-ron tích chập
Cấu trúc mạng nơ-ron tích chập (CNN) bao gồm tập hợp các lớp co ban
bao gồm: convolution layer + nonlinear layer, pooling layer, fully connected layer Thông thường, các lớp này sẽ được kết hợp với nhau theo một thứ tự nhất định Dữ liệu đầu vào sẽ được truyền qua tầng convolution layer + nonlinear
layer đầu tiên dé trích chọn các đặc trưng theo từng vùng cửa sô convolution, sau đó các giá trị tính toán được sẽ lan truyền qua pooling layer nhằm tổng hợp
thông tin và giảm chiều dữ liệu, bộ ba convolution layer + nonlinear layer +
Trang 12pooling layer có thê được lặp lại nhiều lần trong mạng nơ ron tích chập Cuối
cùng các đặc trưng được lan truyền qua tầng fully connected layer và softmax dé tính xác suất ảnh đó chứa vật thé gì.
2.2.1.1 Lớp tích chập
Lớp tích chập (Convolution layer) là lớp quan trọng nhất và cũng là lớp
đầu tiên của của mô hình CNN Lớp tích chập giúp mạng CNN học được các đặc trưng mang tính không gian rất hiệu quả Trong tầng này có 4 đối tượng chính là: ma trận đầu vào, bộ lọc, và vùng tiếp nhận, ma trận đặc trưng Lớp tích chập nhận đầu vào là một ma trận 3 chiều và một bộ lọc cần phải học Bộ
filters này sẽ trượt qua từng vị trí trên bức ảnh đề tính tích chập giữa bộ filter và phan tương ứng trên bức ảnh Phần tương ứng nay trên bức ảnh gọi là vùng
tiếp nhận, tức là vùng mà một nơ ron có thé nhìn thay dé đưa ra quyết định và
ma trận cho ra bởi quá trình này được gọi là ma trận đặc trưng.
2.2.1.2 Lớp kích hoạt phi tuyến ReLU
Lớp kích hoạt thực hiện một số loại hoạt động dé biến đối tong thành một số Phép biến đổi này thường là một phép biến đổi phi tuyến tính sử dụng các hàm phi tuyến tính như ReLU hoặc Sigmoid, tanh Trong số các hàm kích hoạt này, hàm ReLU được sử dụng rộng rãi do dễ cài đặt, tốc độ xử lý nhanh
mà vẫn đảm bảo được tính toán hiệu quả.
2.2.1.3 Lớp lay mẫu
Sau hàm kích hoạt, thông thường chúng ta sử dụng tầng lấy mẫu Một số loại pooling layer phổ biến như là max pooling, average pooling, với chức năng chính là giảm chiều của tầng trước đó Với một pooling có kích thước 2x2, các bạn cần phải trược filter 2x2 này trên những vùng ảnh có kích thước
tương tự rôi sau đó tính max, hay average cho vùng ảnh đó,
Trang 13Ý tưởng dang sau tang pooling là vị trí tuyệt đối của những đặc trưng trong không gian ảnh không còn cần cần thiết, thay vào đó vị trí tương đối giữa
các đặc trưng đã đủ dé phân loại đối tượng Hơn nữa tang pooling có khả năng
giảm chiều cực kì nhiều, làm hạn chế overfit, và giảm thời gian huấn luyện tốt 2.2.1.4 Lớp kết nối đầy đủ
Lớp kết nối đầy đủ có kiến trúc giống như một mạng nơ ron truyền thăng đơn mức hoặc đa mức được bàn luận ở trên Tất cả các đặc trưng sau khi trích xuất được qua các lớp trước được kết nối đầy đủ với nhau Lớp này giúp các
thông tin được tổng hợp, kết hợp với nhau dé đưa ra được quyết định cuối cùng
vê đôi tượng xuât hiện trong dữ liệu dau vào.2.3 Mạng học sâu ResNet
ResNet (viết tắt của residual network) [29], là mạng học sâu nhận được
quan tâm từ những năm 2012 sau cuộc thi LSVR2012 và trở nên phổ biến trong lĩnh vực thị giác máy ResNet khiến cho việc huấn luyện hàng trăm thậm chí
hàng nghìn lớp của mạng nơ ron tích chập trở nên khả thi và hiệu quả Nhờ
khả năng biểu diễn mạnh mẽ của ResNet, hiệu suất của nhiều ứng dụng thị giác máy, không chỉ các ứng dụng phân loại hình ảnh được tăng cường Một số ví dụ có thé kế đến là các ứng dụng phát hiện đồ vật và nhận dạng khuôn mặt
cũng như phát hiện giả mạo khuôn mặt.
Việc xếp chồng các lớp sẽ không làm giảm hiệu suất mạng Chúng ta có thể đơn giản xếp chồng các ánh xạ đồng nhất lên mạng hiện tại và hiệu quả của
kiến trúc không thay đôi Điều này giúp cho kiến trúc sâu ít nhất là không kém hơn các kiến trúc nông Hơn nữa, với kiến trúc này, các lớp ở phía trên có được thông tin trực tiếp hơn từ các lớp dưới nên sẽ điều chỉnh trọng số hiệu quả hơn.
Thực tế, ResNet không phải là kiến trúc đầu tiên sử dụng các kết nối tắt,
Highway Network sử dụng kiến trúc công với kết ni tắt Các công được tham