2.2.1.Phương pháp phân tích thành phần chính (PCA: Principal
Component Analysis)
Ph}n tích th{nh phần chính (Principal Component Analysis – PCA) là một trong những phương pháp phân tích dữ liệu nhiều biến đơn giản nhất. Phần này sẽ nói về động lực và ý tưởng chính của PCA, sau đó trình bày từng bước trong thuật toán PCA.
Trong thống kê, thông thường cần phải “nghiên cứu” dữ liệu trước khi x}y dựng c|c mô hình suy diễn dựa trên dữ liệu đó. Tuy nhiên đôi khi dữ liệu có số chiều lớn, không thể visualize trong không gian 2 hay 3 chiều, do đó cần phải tìm c|ch đưa dữ liệu về không gian có số chiều nhỏ hơn.PCA l{ một trong những phương ph|p như thế, nhưng hơn thế, PCA còn giống như một Swiss knife với nhiều đặc tính tốt:
Giúp giảm số chiều của dữ liệu,
Thay vì giữ lại c|c trục tọa độ của không gian cũ, PCA x}y dựng một không gian mới ít chiều hơn, nhưng lại có khả năng biểu diễn dữ liệu tốt tương đương không gian cũ, nghĩa l{ đảm bảo độ biến
thiên (variability) của dữ liệu trên mỗi chiều mới.
C|c trục tọa độ trong không gian mới l{ tổ hợp tuyến tính của không gian cũ, do đó về mặt ngữ nghĩa, PCA x}y dựng đặc trưng mới dựa trên c|c đặc trưng đ~ quan s|t được. Điểm hay l{ những đặc trưng n{y vẫn biểu diễn tốt dữ liệu ban đầu.
Trong không gian mới, c|c liên kết tiềm ẩn của dữ liệu có thể được kh|m ph|, m{ nếu đặt trong không gian cũ thì khó ph|t hiện hơn, hoặc những liên kết như thế không thể hiện rõ.
31
Nói một c|ch ngắn gọn, mục tiêu của PCA l{ tìm một không gian mới với số chiều nhỏ hơn không gian cũ. C|c trục tọa độ trong không gian mới được x}y dựng sao cho trên mỗi trục, độ biến thiên của dữ liệu trên đó l{ lớn nhất có thể ( maximize the variability).
Một ví dụ minh họa trong hình sau
Hình 2.7: Minh họa PCA: tìm c|c trục tọa độ mới sao cho dữ liệu có độ biến thiên cao nhất.
+ Thuật toán PCA
Cho ma trận . C|c bước của PCA lần lượt như sau:
Bước1: Tiền xử lí
Dữ liệu ban đầu có thể có gi| trị thay đổi bất thường. Ví dụ trên feature 1 (cột 1 của ) gi| trị thay đổi trong khoảng (0, 1), trên feature 2 lại biến thiên trong đoạn (-100, 100). Rõ r{ng cần phải có một bước tiền xử lí để chuẩn hóa gi| trị trên c|c cột của ma trận X. Có 2 c|ch tiền xử lí thường được dùng cho PCA l{ Centered PCA v{ Normed PCA.
32
Centered PCA mang tất cả c|c feature (c|c cột của X) về cùng một gốc
tọa độ:
,
, (1a)
.
Trong đó n l{ số dòng của X, l{ mean của cột thứ j của X, được tính như trên.
Normed PCA mang tất cả c|c feature về cùng một gốc tọa độ, đồng
thời chuẩn hóa về cùng một qu~ng standard-deviation bằng 1: ,
. (1b)
Trong đó l{ độ lệch chuẩn (standard deviation) của cột thứ j trong X.
Thông thường Normed PCA hay được dùng. Sau bước tiền xử lí, ma trận sẽ l{ đầu v{o cho bước tiếp theo.
Bước 2: Xây dựng không gian mới
Tính ma trận hiệp phương sai (covariance) của c|c feature trong :
33
Do l{ tích của ma trận với chuyển vị của nó nên l{ ma trận positive semidefinite kích thước . Hơn nữa có p trị
riêng .
Tiếp theo, PCA tìm trị riêng v{ vector riêng tương ứng của , sắp xếp theo thứ tự giảm dần của trị riêng. Giả sử p trị riêng của V l{
, (3)
v{ p vector riêng tương ứng l{ . (4)
Khi đó c|c trục của không gian mới chính l{ c|c vector riêng ở trên, đương nhiên c|c vector riêng ho{n to{n độc lập tuyến tính (nghĩa l{ trực giao đôi một).
Có thể nói trong PCA, trị riêng v{ vector riêng có vị trí rất đẹp, thỏa m~n tất cả c|c yêu cầu của PCA
Bước 3: Chuyển dữ liệu từ không gian ban đầu vào không gian mới
Thông thường không gian mới không được x}y dựng bằng tất cả p vector riêng trong (4), m{ thông thường chỉ từ k vector riêng đầu tiên, với k < p. Khi đó tọa độ c|c điểm trong hệ tọa độ mới l{
(5)