Rõ ràng là những vận dụng này không mang tính đặc trưng cho người sỡ hữu mà chỉ mang tính xác thực đối với người sử dụng, và nếu chúng bị đánh cắp hay sao chép thì kẻ trộm hoàn toàn có t
Trang 1
DAI HOC QUOC GIA TP HO CHI MINH TRUONG DAI HOC BACH KHOA TP.HCM KHOA KHOA HOC & UNG DUNG
BO MON TOAN UNG DUNG
BK
TP.HCM
BAO CAO BAI TAP LON ĐẠI SÓ TUYẾN TÍNH
DE TAI: PHAN TICH PCA DE
NHAN DIEN KHUON MAT
LOP L06_ NHOM 03
4 GV HUONG DAN: NGUYEN XUAN MY
, Ngay 31 thang 03 nam 2024
Trang 3
DANH SACH THANH VIEN
MỤC LỤC
Trang 4
MỤC LỤC 2 S2 c2 c2 n2 nh nh tr nhe sex seceev4
MỞ ĐẦU 22222 2202222002222 nh nh nh nh nh nh n cr sac c5
7
we
L Các đặc trưng số của vector ngâu nhiên:
a Ki vong (Mean, Expected Wulue):
b DO léch chuiin (Standard Deviation): .0.00 00 600 0000000 vec csscsvctsevccsesees
c Phiwong sai Variance): 00.0066 ene ee tee bee tettetnces
ad Hiệp phương sai (CoOVAFiAHC€):
2 Trị riêng, vector riêng của ma tran hiệp phương sai:
a Ma tran hiép phwong sai (Covariance Matrix):
b THỊ TIÊHg, «vector TIÊHĐ? Ăệộý
Trang 5PHAN 2: UNG DUNG CUA PCA VAO NHAN DIEN KHUON MAT
ll
1 Khái 2) cc nhe cà
11
2.Y tưởng chính 20.0220 ch hy sea
11
3 Ứng dụng của PCA trong nhận diện khuôn mặt -
11
4, Ung dung trong lĩnh vực thực "TT
11
5 Ưu đipm của PCA 2.2222 c2 nh nh nh xa
12
6 Nhưrc đipm của PCA QQ c0 cuc che Hs sec
12
7, Thách thức của PCA trong nhận diện khuôn mặt
12
PHAN 3: CODE 2222222202222 ch nh nh nh nh sa
HH
11
ll
Trang 6DANH MỤC TÀI LIỆU THAM KHẢO
ll
HH
MỞ DAU
Trong thế giới ngày nay với sự phát triển mạnh mẽ của kỹ thuật số và mạng Internet, vấn đề đảm bảo an toàn về thông tin cũng như vật chất trở nên ngày càng quan trọng và khó khăn Thỉnh thoảng chúng ta lại nghe đến những vụ đánh cắp thông tin, thé tin dung hay tài khoản ngân hàng, thậm chí còn đột nhập vào các hệ thống máy tính của nhà nước, chính phủ Hơn 100 triệu đô la đã bị thất thoát ở Mỹ năm 1998 do các vụ xâm nhập phạm pháp này Trong đa số các vụ xâm nhập, tội
6
Trang 7phạm đã lợi dụng những lỗ hồng cơ bản trong quá trình truy cập vào các hệ thông thông tin và kiểm soát Phần lớn các hệ thống truy cập không thực hiện quyền truy cập của người sử dụng dựa vào thông tin “chúng ta là ai” ma chi dựa vào “chúng ta
co gi”
Nói cách khác, thông tin mà người dùng cung cấp cho hệ thống không đặc trưng cho bản thân họ, mà chỉ là những thứ họ hiện đang sỡ hữu như CMND/CCCD, chia khoá, mật khẩu, mã số thẻ tín dụng và họ tên Rõ ràng là những vận dụng này không mang tính đặc trưng cho người sỡ hữu mà chỉ mang tính xác thực đối với người sử dụng, và nếu chúng bị đánh cắp hay sao chép thì kẻ trộm hoàn toàn có thế truy cập và sử dụng tất cả dữ liệu và phương tiện của chúng ta bất
cứ khi nào chúng muốn Hiện nay với sự phát triển của công nghệ hiện đại đã cho phép việc xác thực dựa vào những đặc trưng về “bản chất “ của bản thân
Ngày nay, trong thực tế, khi phân tích một nhóm một đối tượng, chúng ta khó tránh phải việc nhóm đối tượng này phục thuộc vào nhiều yếu tố, điều đó khiến cho ham sé dua ra dé phan tích phụ thuộc một số lượng biến rất lớn, có thể lên đến vài nghìn, đồng thời số chiều trong không gian cũng vậy, kèm theo đó là các điểm dữ
liệu không lồ Điều này không chỉ gây khó khăn cho việc lưu trữ mà còn cho cả việc
mô hình hóa và tính toán để có góc nhìn trực quan đưa đến việc kết luận của sự tương quan cũng bị ảnh hưởng ít nhiêu
Vị lẽ đó, giảm chiều dữ liệu là một kĩ thuật quan trọng trong nhiều lĩnh vực thực tế Bớt số lượng biến của một tập dữ liệu phải đánh đôi bằng độ chính xác của tập dữ liệu đó, điều đó có nghĩa là chúng ta phải chấp nhận mắt đi một phần dữ liệu
Từ đó, bài toán đặt ra là: Làm thế nào đề giảm thiêu số chiều dữ liệu, trong khi vẫn bảo toàn nhiều nhất có thê số lượng thông tin cần thiết?
Câu trả lời đã được tìm thấy đó là Phép phân tích thành phần chính (PCA: Principle Pomponent Analysis) Ở bài báo cáo này, chúng em sẽ nêu các cơ sở lý thuyết chứng minh rằng phương pháp này có hiệu quả và giải thích cơ chế của PCA vào nhận dạng khuôn mặt
PHAN 1: CO SO LY THUYET CUA PHAN TICH PCA
1 Khái niệm vé PCA
- Phép phan tich thanh phan chinh (PCA: Principle Pomponent Analysis) la phương pháp giúp giảm kích thước của tập dữ liệu lớn thông qua việc biến đôi trực giao tập hợp không gian nhiều chiều thành một khu lưu trữ với không gian ít chiều
Trang 8hơn những vẫn đảm bảo đây đủ thông tin, dùng để phân tích đặc điểm chính của dữ liệu hay tạo ra mô hình dự đoán GIữ lại được các thành phần chính, loại bỏ được các thành phần phụ (những sai lệch về dữ liệu không đáng kể)
° fe
PC 1 scores
2, Cơ sở toán học Một số khái niệm toán học sử dụng trong PCA
L Các đặc trưng số của vector ngẫu nhiên:
a Ki vong (Mean, Expected Value)
- Gia tri trung binh “mong muốn” của một biến
b D6 léch chuan (Standard Deviation)
- Giá trị chêch lệch giữa các thời điểm với giá trị trung bình
c Phong sai (Variance)
- Độ xa các giá trị của biến đó với giá trị kì vọng Giá trị phương sai cảng nhỏ thi đữ liệu đến kỳ vọng càng nhỏ các điểm dữ liệu càng giống nhau
ø'=Š (x—3)
1
d Hiệp phương sai (Covariance)
- Độ đo sự biến thiên cùng nhau của hai biến ngẫu nhiên, khác với phương sai thì hiệp phương sai cho thấy xu hướng thay đôi của giá trị của các biến với nhau
Trang 9COV|X,Y]=3)(X¿¿i— X)¿¿¿¿
¡=1
2 Trị riêng, vector riêng của ma trận hiệp phương sai
a Ma tran hiép phiong sai (Covariance Matrix)
- Cho N diém dé liéu duoc biéu dién béi cdc vector cét x1, X2, Xn, khi
đó vector kỳ vọng và ma trận hiệp phương sai của toàn bộ dữ liệu được định nghĩa là:
N
yeh
X=N dX
Vector ky vong
-4¥ (x
i=1
Xx"
Ma trận hiệp phương sai
- Ma trận hiệp phương sai là một ma trận đối xứng, hơn nữa, nó là một
ma trận xác định dương
- Mọi phân tử trên đường chéo chính của ma trận hiệp phương sai là các
số không âm Chúng cũng là phương sai của từng chiều dữ liệu
- Các phần tử ngoài đường chéo thể hiện sự tương quan giữa thành phần thứ ¡ và thứ j của đữ liệu, còn được gọi là hiệp phương sai Giá trị này có thê dương,
âm hoặc bảng 0 Khi nó bằng 0, ta nói rằng hai thành phần ¡, j trong dữ liệu là
không tương quan (Uncorrelated)
b Tri riéng, vector riéng
- Gọi A là ma trận vuông cấp n trên trường số K (K e R,C) SôÀ eK được gọi là giá trị riêng (gọi /ắt là trị riêng — kí hiệu GTÑ) của ma trận A, nếu tồn tại mot vecto 0#x €K" sao cho: Au = Au
- Khi đó vecto u được gọi là vecto riéng (VTR) cua ma tran A ung voi giá trị riêng À
3 Cơ sở trong thống kê
Trang 10- PCA có thê được coi là phương pháp đi tìm một hệ cơ sở trực chuẩn đóng vai trò một phép xoay, sao cho trong hệ cơ sở mới này, phương sai theo một số chiều nào đó là rất nhỏ, và ta có thể bỏ qua
4 Các bước Phân tích thành phần chính (PCA)
Bước l: Tính giá trị trung bình à của X
Bước 2: Tính véctơ X =X - X
1 sre
Tính ma trận hiệp phương sai 5= N-1Ễ "x
Bước 3: Tìm trị riêng của S và sắp xếp theo giá trị giảm dần À¡ > À; > À
m Và tỉm các véctơ riêng đơn vi ứng với các trỊ riêng
Bước 4: Chọn k trị riêng ban đầu và k véctơ riêng đơn vị ứng với các trị riêng này Lập ma trận A có các cột là các véctơ riêng đã chọn Ma trận A là phép biến đổi cần tìm
Bước 5: Tính ảnh AT®T của véc tơ Ÿ
Dữ liệu X ban đầu được xấp xi bởi X ~ AX +X
Mỗi cột của A XTchứa tọa độ của các hàng của ma trận Ä trong cơ sở từ các cột của
ma tran P
s* Lưu ý:
L/ Ma trận S là ma trận đối xứng thực và các giá trỊ riêng của S là các số thực không âm
2/ Ma trận 5 luôn chéo hóa trực giao được
3/ Trên đường chéo của 5 là phương saI của các véctƠ 4t ; 1¿; ; Xw Phân tử s; là hiệp phương sai của x; và +
Tổng các phần tử trên đường chéo của S là phương sai của bảng dữ liệu Giả sử S = PDPT Trên đường chéo của D là các giá trị riêng của S Tổng các giá trị riêng của S bằng tổng các phần tử của S (bằng vết của S)
10
Trang 114/ Ma trận P là ma trận trực giao Mỗi ma trận trực giao tương ứng với một phép quay Các cột của ma trận P tạo nên hệ trực chuẩn Nếu ta chọn cơ sở trực chuẩn là họ véctơ cột của ma trận P, thì ta xây dựng được hệ trục tọa độ mới dựa trên các vectơ nảy và có một phép quay từ hệ trục tọa độ ban đầu sang hệ trục tọa
độ mới
5/ Néu dt liéu mau (Sample Data), thi S= Wo X,
XX
zl|h
Nếu đữ liéu dan s6 (Population Data), thi S=
11
Trang 12PHAN 2: UNG DUNG CUA PCA VAO NHAN DIEN KHUON MAT
1 Khái niệm
- Nhận diện khuôn mặt là một hệ thống tự động xác định và nhận đạng
một người dựa trên một bức ảnh kỹ thuật số hoặc một đoạn video từ một nguồn video Có thê hiểu đơn giản, hệ thống này so sánh các đặc điểm, thông số của một
cơ sở dữ liệu về khuôn mặt với một khuôn mặt được chọn trước từ hình ảnh
- PCA là một thuật toán đề được sử dụng để tạo ra một ảnh mới từ ảnh ban đầu nh mới này có kích thước nhỏ hơn rất nhiều so với ảnh đầu vào và vẫn mang được những đặc trưng cơ bản nhất của ảnh cần nhận dạng PCA không cần quan tâm đến việc tìm ra các đặc điểm cụ thể của thực thê cần nhận dạng và mỗi quan hệ giữa các đặc điểm đó Tất cả các chỉ tiết đó đều được thê hiện ở ảnh mới được tạo ra tir PCA
2 Ý tưởng chính
Aloo
- Mục tiêu của PCA là “giảm số chiêu” của tập vector sao cho van dam bảo được “các thông tin quan trọng nhất”
3 Ung dụng của PCA trong nhận diện khuôn mặt
- Tiền xử lí: chuân hóa kích cỡ ảnh sao cho phù hợp với CSDL
- Tách khuôn mặt: phân mặt sẽ tách ra nó sẽ là các khuôn mặt cân tìm, sau đó ảnh sẽ được sử dụng để so sánh với đặc trưng ở bước trích chọn đặc trưng
- Trích chọn đặc trưng: phần mặt được cắt sẽ có những đặc trưng được biến đôi sang vector đặc trưng, vector đặc trưng sẽ dùng để so sánh sự giống nhau
và khác nhau so với khuôn mặt cần tìm và ảnh trong CSDL
4, Ứng dụng trong lĩnh vực thực tế
- Nhận diện khuôn mặt trong việc làm căn cước công dân
- Nhận diện tội phạm
- Camera an ninh
- Kiểm soát truy cập vào các hệ thông máy tính trong môi trường cộng tác (máy chấm công)
- Thêm nhận diện bảo mật bổ sung cho các giao dịch rút tiền tự động (ATM)
- Phan mém filter chinh anh trong app dién thoai (Tiktok, instagram, )
12
Trang 13- Phân loại hình ảnh trong các ứng dụng lưu trữ ảnh
- Ứng dụng chống gian lận thi cử, điểm danh học sinh
- Ứng dụng trong robot tự động (Nhận diện khuôn mặt chủ)
- Tìm kiếm thông tin con người và các tô chức liên quan thông qua khuôn mặt trên hệ cơ sở dữ liệu lưu trữ thật lớn như Internet, các hãng truyền hình
5 Ưu đipm của PCA
- Tìm được các đặc tính tiêu biểu của đối tượng cần nhận dạng mà không cần phải xác định các thành phần và mối quan hệ giữa các thành phần đó
- Thuật toán có thê thức hiện tốt với các ảnh có độ phân giải cao, do PCA
sẽ thu gọn ảnh thành một ảnh có kích thước nhỏ hơn
- PCA có thể kết hợp với các phương pháp khác như mạng Noron, Support Vector Machine dé mang lai hiệu quả nhận dạng cao hơn
6 Nhưrc đipm của PCA
- Trong những trường hợp sau, PCA Eigenfaces sé nhan dang sai: + Khác nhau về điều kiện ánh sáng
+ Khác nhau về điệu bộ (nghiêng đầu chắng hạn )
+ Cảm xúc (cười to, há miệng )
- PCA phân loại theo chiều phân bố lớn nhất của tập vector Tuy nhiên, chiều phân bố lớn nhất không phải lúc nào cũng mang lại hiệu quả tốt nhất cho bài toán nhận đạng Đây là nhược điểm cơ bản của PCA
- PCA rất nhạy với nhiễu
7, Thách thức của PCA trong nhận diện khuôn mặt
- Vấn đề hướng (Pose Variations), các kết quả với các ảnh có hướng thay
đổi (>45 độ, không phải chính diện) còn khá khiêm tốn, tất trong quá trình nhận
diện khuôn mặt thì không xác định được đặc điểm của khuôn mặt
- Vấn đề ảnh có độ phân giải thấp (low resolution): ảnh thu được từ các camera giám sát (surveillanee camera) thường có kích thước và chất lượng thấp
- Vấn đề độ nhạy sáng, máy không thể nhận điện được trong các môi trường ngoài trời
13
Trang 14- Vấn đề trong nhận diện những biến đôi khuôn mặt theo thời gian, hình
ảnh trong thư viện sốc sẽ không thể tự cập nhật được, từ đó sẽ khiến việc xác định hình ảnh trở nên khó khăn hơn
- Vấn đề trong việc sử dụng CSDL: Do các dữ liệu khuôn mặt trong quá trình sử dụng còn ít (số lượng ảnh chỉ từ vài trăm đến vài nghìn ảnh thử nghiệm) Vậy nên trong quá trình sử dụng vào thực tế sẽ còn hạn chế
14
Trang 15PHAN 3: CODE
1 Sơ đồ khối
2 Code
L Tâp tin dữ liêu đầu vào
2 Huân luyện cho má
3 Trở ngại trong việc code
(chờ team code)
15
Trang 16PHAN 4: KET LUAN
- PCA là một phương pháp giúp giảm kích thước cua tap dữ liệu lớn Giữ lại được các thành phần chính, loại bỏ được các thành phần phụ Qua đó, ta có thé rút ra các thông tin chính từ bảng số liệu bằng cách giảm chiều đữ liệu đề biểu diễn các dữ liệu đó một cách rõ ràng và đơn giản nhất
- Nhận diện khuôn mặt là một trong những ứng dụng tuyệt vời của PCA Các ứng dụng ấy đã xuất hiện ở trong nhiều mặt của cuộc sống giúp cho công việc được xử lí đễ dàng và nhanh chóng Kết hợp với sự phát triển của khoa học công nghệ đã giúp cuộc sống được cải thiện và cũng là một bước tiến để phát triển hơn
nữa
16