Trong các thực nghiệm khoa học cũng nhƣ các thống kê các phép đo đạc thƣờng tạo ra lƣợng dữ liệu khổng lồ. Phát hiện các quy luật ẩn sau dữ liệu trở thành một công việc rất khó khăn do có quá nhiều yếu tố cần đƣợc xét đến. Một cách đơn giản nhƣng hiệu quả để giúp các nhà thực nghiệm, các nhà nghiên cứu là PCA.
PCA là viết tắt của Principle Component Analysis (phƣơng pháp phân tích thành phần chính) là phƣơng pháp thay thế các đại lƣợng của bộ dữ liệu ban đầu bằng các tổ hợp tuyến tính của chúng (gọi là một “thành phần”) và từ đó chọn ra những thành phần quan trọng nhất cho những bƣớc phân tích tiếp theo.
PCA đƣợc ứng dụng rộng rãi trong các lĩnh vực nghiên cứu khác nhau: vật lí, sinh học, xã hội... Ngoài ra nhờ khả năng nén dữ liệu (làm giảm khối lƣợng dữ liệu trong khi vẫn giữ lại phần lớn thông tin), PCA cũng đƣợc áp dụng trong một số kĩ thuật nén ảnh, xử lí ảnh, nhận dạng...
Mục tiêu của phƣơng pháp PCA là giảm số chiều của một tập các vector sao cho vẫn đảm bảo đƣợc tối đa thông tin quan trọng nhất của tập dữ liệu huấn luyện. Có thể nói phƣơng pháp PCA tìm cách giữ lại những thành phần thống kê quan trọng nhất của tập mẫu.
Giả sử ta cần giảm số chiều của tập mẫu huấn luyện từ n chiều X = a1v1 + a2v2 + … + aNvN
Với v1, v1, …, vN là cơ sở trong không gian N chiều xuống còn K chiều (K < N) y = b1u1 + b2u2 + … + bKuK
trong đó u1, u1, …, uK là cơ sở trong không gian K chiều
Nghĩa là ta cần tìm một ánh xạ từ không gian N chiều xuống không gian nhỏ hơn chỉ có K chiều (K < N). Gọi x là một vector trong không gian N chiều, y
là một vector trong không gian K chiều. Ta có trung bình phƣơng lỗi MSE (mean square error) ‖ x - y ‖ khi loại bỏ một số thành phần trong x để thu đƣợc y sẽ bằng tổng phƣơng sai của những thành phần bị loại bỏ. Phƣơng pháp PCA sẽ tìm một phép biến đổi tuyến tính T, thỏa mãn:
y = T * x, T: là ma trận K x N (2.13)
sao cho bình phƣơng trung bình lỗi là bé nhất.
b1 = t11a1+ t12a2 + … + t1NaN b2 = t21a1+ t22a2 + … + t2NaN ……….. bK = tK1a1+ tK2a2 + … + tKNaN Hay y = T * x trong đó =
Gọi M là vector trung bình của các vector x trong tập huấn luyện X.
(2.14)
N: là số phần tử trong tập huấn luyện
Gọi C là ma trận hiệp phƣơng sai của các phần tử trong tập X.
, C: là ma trận đối xứng N x N (2.15)
Ngƣời ta chứng minh đƣợc rằng nếu T là một ma trận mà mỗi hàng là một vector riêng của C và M vector riêng này (M hàng của ma trận T) ứng với M giá trị riêng lớn nhất thì T chính là phép biến đổi tuyến tính thỏa mãn điều kiện để trung bình phƣơng lỗi nhỏ nhất.
Gọi là ma trận vuông N x N mà mỗi cột là một vector riêng của C đã đƣợc chuẩn hóa với phép biến đổi:
y= (2.16)
với y= ( ) đƣợc gọi là phép biến đổi Hotelling
Xét theo quan điểm của nhận dạng thì mỗi thành phần của vector y đƣợc xem nhƣ là một đặc trƣng của vector mẫu x. Các đặc trƣng này là các đặc trƣng độc lập với nhau vì ma trận hiệp phƣơng sai của y là
(2.17)
Trong đó là một ma trận chéo.
Tóm lại, phƣơng pháp phân tích thành phần chính ánh xạ một vector từ không gian N chiều xuống không gian K chiều sẽ đi tìm các trị riêng và vector riêng của ma trận hiệp phƣơng sai C của tập X và giữ lại K vector riêng ứng với K trị riêng lớn nhất làm cơ sở cho không gian k chiều này.
Kỹ thuật trích rút đặc trƣng bằng PCA
Giả sử ta cần xem xét tập dữ liệu
X = [x1, x2,…, xn] (2.18)
Trong đó n là số mẫu dữ liệu, xi là mẫu dữ liệu thứ i có kích thƣớc là d. Đầu tiên ta tính giá trị trung bình của X trên mỗi chiều
(2.19)
Trừ các giá trị trung bình ta thu đƣợc
- (2.20)
Tính ma trận hiệp phƣơng sai (covariance) C:
C (2.21)
Ma trận hiệp phƣơng sai C có vector riêng với giá trị riêng .
C (2.22)
Trong đó
là ma trận chéo của giá trị riêng tƣơng ứng với vector riêng của
(2.23)
Các vector riêng tƣơng ứng với giá trị riêng cao nhất đại diện cho các thành phần chính đầu tiên.
(2.24)
Có 2 cách để xác định K sao cho hiệu quả.
Cách đầu tiên ta sắp xếp theo thứ tự giảm dần các giá trị riêng đã tìm đƣợc. Thứ tự này vẫn đảm bảo đƣợc thứ tự của các vector đặc trƣng tƣơng ứng. Theo dõi sự biến thiên của dãy trên, khi không còn biến thiên(hoặc xáp xỉ bằng không) thì lúc đó ta đã chọn đủ K vector đặc trƣng.
Cách thứ hai thì ta chọn K theo tiêu chuẩn sau:
(2.25)
Với phƣơng châm làm sao số lƣợng thành phần chính là thấp nhất đủ để giải thích khả năng phân tán tập mẫu học thành các lớp mẫu riêng cần thiết nhất.
Đánh giá:
- Khi lấy số đặc trƣng càng về sau thì khả năng biến động càng thấp, có nghĩa mối quan hệ giữa các phần tử càng cao, thì sự giao nhau giữa các lớp mẫu trong tập mẫu càng lớn.
- Nhƣng nếu lấy không đủ số lƣợng thành phần chính, thì khả năng phân tán của tập mẫu càng cao (có thể tăng vƣợt ngoài lớp mẫu cần thiết trong tập mẫu)