Như đã nói, mục tiêu của PCA là tìm trục cho không gian mới sao cho nó biểu diễn tốt nhất mức độ biến thiên (Phương sai) của dữ liệu.
Giả sử ta có ma trận X ∈ Rm × n, X = [x1|x2|…|xn].
Trong đó xi ∈ Rm là các điểm trong không gian ban đầu. Nhiệm vụ của PCA là đi tìm không gian mới với số chiều nhỏ hơn m, sao cho biểu diễn tốt n điểm trong X. Hình sau đây minh họa ý tưởng của PCA:
Hình 4.2. Ý tưởng của PCA
Trong hình trên, gọi α ∈ Rm, ||α|| = 1 (Vector đơn vị) là một trục trong không gian mới cần tìm. Khi đó tọa độ xi trên trục α chính là tích vô hướng φi = αxicos(θ), tuy nhiên trong phép nhân vector của ma trận, ta có công thức φi = αTxi [28] với α bắt buộc phải là vector đơn vị (như đã quy định ở trên).
Mục tiêu của PCA là tìm α sao cho nó biểu diễn xi tốt nhất, nghĩa là sao cho φi lớn nhất. Hơn nữa, điều này còn phải đúng cho tất cả n điểm trong X, nên mục tiêu của PCA là tìm α sao cho tất cả các φi = αTxi, i = 1…n là cực đại. Rõ ràng khi φi cực đại thì trục α biểu diễn tốt nhất tất cả các vector cột trong X.
Nếu O là gốc tọa độ, tức O là tâm của không gian mới cần tìm (Giá trị kì vọng), ta có thể xem đoạn Oxi là phương sai của xi so với giá trị kì vọng O trong không gian cũ, vậy suy ra φi = αTxi là phương sai của tọa độ xi so với gốc tọa độ O trong không gian
64 mới. Như vậy, mục tiêu của ta là cực đại tổng ∑ni=1φi2 (vẫn giữ đc nhiều thông tin nhất), mà φi là một giá trị vô hướng (kết quả của tích vô hướng), nên ta có:
∑ni=1φi2 = ∑i=1n φiφiT = ∑ni=1(αTxi)(xiTα) = ∑ni=1αT(xixiT)α = αTXXTα Vậy mục tiêu của PCA là:
MAX (αTXXTα) với α ∈ Rm và ||α|| = 1
Ta thấy thằng ma trận hiệp phương sai XXT là ma trận đối xứng và bán xác định dương (tính chất của ma trận hiệp phương sai [29]) nên tất cả các trị riêng λi của XXT đều không âm, đồng thời ta có vector riêng ui tương ứng.
Các trị riêng và vector riêng trong ma trận hiệp phương sai có tính chất [30]: - Vector riêng là một hướng, hướng này chỉ cho ta biết hướng phân phối dữ
liệu.
- Trị riêng là một con số, con số này cho ta biết có bao nhiêu phương sai theo hướng của vector riêng tương ứng với nó.
Như vậy, chỉ cần với tính toán các trị riêng và vector riêng tương ứng của ma trận XXT, sau đó chọn ra các vector riêng ứng với các trị riêng lớn nhất, ta sẽ xây dựng được một không gian mới với các trục là các vector riêng mang nhiều sự biến thiên dữ liệu nhất, tức là giữ được đa số các thông tin ban đầu. Các trị riêng bằng 0 hoặc quá nhỏ ta có thể bỏ vì ở hướng đó dữ liệu là không nhiều, và đó là nguyên lý để ta giảm số
chiều của dữ liệu.
Diễn giải hình học:
PCA chiếu dữ liệu theo hướng mà ở đó dữ liệu khác nhau nhiều nhất (phương sai).
Tâm của không gian mới là giá trị kì vọng của tập mẫu.
Những hướng này được xác định bằng các vector riêng của ma trận hiệp phương sai.
Các trị riêng tương ứng với vector riêng cho ta biết số lượng phương sai trên hướng này.
65 Hình 4.3. Minh họa về PCA