6. Bố cục của luận văn:
2.2.4 Các bước thực hiện phương pháp PCA
Bước 1: Chuẩn hĩa dữ liệu
Pl-32
hĩa dữ liệu trên các cột của ma trận dữ liệu. Để chuẩn hĩa dữ liệu, ta cĩ thể sử dụng Centered PCA và Normed PCA. Trong bài nghiên cứu này chúng tơi sử dụng Normed PCA để thực hiện.
Normed PCA mang tất cả các feature về cùng một gốc tọa độ, đồng thời chuẩn hĩa về cùng một quãng standard-deviation bằng 1:
𝑋̂ = {𝑥̂}𝑖𝑗 (22) 𝑥̂𝑖𝑗 = 𝑥𝑖𝑗− 𝑔𝑗
√𝑛 𝛿𝑗 (23) Trong đĩ: n là số dịng của ma trận X; gj là mean của cột thứ j của ma trận X; 𝛿𝑗 là độ lệch chuẩn của cột thứ j trong ma trận X.
Sau khi sử dụng Normed PCA, ma trận 𝑋̂ sẽ là dữ liệu cho đầu vào tiếp theo.
Bước 2: Xây dựng khơng gian mới
Để xây dựng khơng gian mới, ta đi tính ma trận hiệp phương sai của các feature trong 𝑋̂
V = 𝑋̂ 𝑋̂𝑇 (24) Do là tích của ma trận với chuyển vị của nĩ nên V 𝜖 𝑅𝑝×𝑝 là ma trận positive semidefinite kích thước 𝑝 × 𝑝. Hơn nữa cĩ p trị riêng λi ≥ 0, i = 1, …,p
Tiếp theo, PCA tìm trị riêng và vector riêng tương ứng của , sắp xếp theo thứ tự giảm dần của trị riêng. Giả sử p trị riêng của V là λ1 ≥ λ2 ≥ …≥ λp
và p vector riêng tương ứng là u1, u2, …, up
Khi đĩ các trục của khơng gian mới chính là các vector riêng ở trên, đương nhiên các vector riêng hồn tồn độc lập tuyến tính (nghĩa là trực giao đơi một).
Bước 3: Chuyển dữ liệu từ khơng gian ban đầu vào khơng gian mới
Ta cĩ U = [u1 | u2 | …| uk] ∈ 𝑅𝑝×𝑘. Khi đĩ tọa độ các điểm trong hệ tọa độ mới là F = 𝑋 ̂U