NHẬN DẠNG MẶT NGƯỜI

Một phần của tài liệu Nhận dạng khuôn mặt người và ứng dụng trong bảo toàn thông tin (Trang 30 - 33)

2.2.1.Phương pháp phân tích thành phần chính (PCA: Principal

Component Analysis)

Ph}n tích th{nh phần chính (Principal Component Analysis – PCA) là một trong những phương pháp phân tích dữ liệu nhiều biến đơn giản nhất. Phần này sẽ nói về động lực và ý tưởng chính của PCA, sau đó trình bày từng bước trong thuật toán PCA.

Trong thống kê, thông thường cần phải “nghiên cứu” dữ liệu trước khi x}y dựng c|c mô hình suy diễn dựa trên dữ liệu đó. Tuy nhiên đôi khi dữ liệu có số chiều lớn, không thể visualize trong không gian 2 hay 3 chiều, do đó cần phải tìm c|ch đưa dữ liệu về không gian có số chiều nhỏ hơn.PCA l{ một trong những phương ph|p như thế, nhưng hơn thế, PCA còn giống như một Swiss knife với nhiều đặc tính tốt:

 Giúp giảm số chiều của dữ liệu,

 Thay vì giữ lại c|c trục tọa độ của không gian cũ, PCA x}y dựng một không gian mới ít chiều hơn, nhưng lại có khả năng biểu diễn dữ liệu tốt tương đương không gian cũ, nghĩa l{ đảm bảo độ biến

thiên (variability) của dữ liệu trên mỗi chiều mới.

 C|c trục tọa độ trong không gian mới l{ tổ hợp tuyến tính của không gian cũ, do đó về mặt ngữ nghĩa, PCA x}y dựng đặc trưng mới dựa trên c|c đặc trưng đ~ quan s|t được. Điểm hay l{ những đặc trưng n{y vẫn biểu diễn tốt dữ liệu ban đầu.

 Trong không gian mới, c|c liên kết tiềm ẩn của dữ liệu có thể được kh|m ph|, m{ nếu đặt trong không gian cũ thì khó ph|t hiện hơn, hoặc những liên kết như thế không thể hiện rõ.

31

Nói một c|ch ngắn gọn, mục tiêu của PCA l{ tìm một không gian mới với số chiều nhỏ hơn không gian cũ. C|c trục tọa độ trong không gian mới được x}y dựng sao cho trên mỗi trục, độ biến thiên của dữ liệu trên đó l{ lớn nhất có thể ( maximize the variability).

Một ví dụ minh họa trong hình sau

Hình 2.7: Minh họa PCA: tìm c|c trục tọa độ mới sao cho dữ liệu có độ biến thiên cao nhất.

+ Thuật toán PCA

Cho ma trận . C|c bước của PCA lần lượt như sau:

Bước1: Tiền xử lí

Dữ liệu ban đầu có thể có gi| trị thay đổi bất thường. Ví dụ trên feature 1 (cột 1 của ) gi| trị thay đổi trong khoảng (0, 1), trên feature 2 lại biến thiên trong đoạn (-100, 100). Rõ r{ng cần phải có một bước tiền xử lí để chuẩn hóa gi| trị trên c|c cột của ma trận X. Có 2 c|ch tiền xử lí thường được dùng cho PCA l{ Centered PCA v{ Normed PCA.

32

Centered PCA mang tất cả c|c feature (c|c cột của X) về cùng một gốc

tọa độ:

,

, (1a)

.

Trong đó n l{ số dòng của X, l{ mean của cột thứ j của X, được tính như trên.

Normed PCA mang tất cả c|c feature về cùng một gốc tọa độ, đồng

thời chuẩn hóa về cùng một qu~ng standard-deviation bằng 1: ,

. (1b)

Trong đó l{ độ lệch chuẩn (standard deviation) của cột thứ j trong X.

Thông thường Normed PCA hay được dùng. Sau bước tiền xử lí, ma trận sẽ l{ đầu v{o cho bước tiếp theo.

Bước 2: Xây dựng không gian mới

Tính ma trận hiệp phương sai (covariance) của c|c feature trong :

33

Do l{ tích của ma trận với chuyển vị của nó nên l{ ma trận positive semidefinite kích thước . Hơn nữa có p trị

riêng .

Tiếp theo, PCA tìm trị riêng v{ vector riêng tương ứng của , sắp xếp theo thứ tự giảm dần của trị riêng. Giả sử p trị riêng của V l{

, (3)

v{ p vector riêng tương ứng l{ . (4)

Khi đó c|c trục của không gian mới chính l{ c|c vector riêng ở trên, đương nhiên c|c vector riêng ho{n to{n độc lập tuyến tính (nghĩa l{ trực giao đôi một).

Có thể nói trong PCA, trị riêng v{ vector riêng có vị trí rất đẹp, thỏa m~n tất cả c|c yêu cầu của PCA

Bước 3: Chuyển dữ liệu từ không gian ban đầu vào không gian mới

Thông thường không gian mới không được x}y dựng bằng tất cả p vector riêng trong (4), m{ thông thường chỉ từ k vector riêng đầu tiên, với k < p. Khi đó tọa độ c|c điểm trong hệ tọa độ mới l{

(5)

Một phần của tài liệu Nhận dạng khuôn mặt người và ứng dụng trong bảo toàn thông tin (Trang 30 - 33)