Phân tích nhân tố chính (PCA) là một kỹ thuật rất phổ biến được dùng trong việc rút gọn dữ liệu (các biến đầu vào). Nghĩa là, thay vì sử dụng tất cả các biến, chúng ta chỉ sử dụng một số biến mới mà vẫn giữ được hầu hết thông tin của dữ liệu
ban đầu. Số lượng các nhân tố nhỏ hơn hoặc bằng số biến ban đầu và giữa chúng không có tương quan với nhau.
Theo Sharma (1995) [22], mục tiêu của phương pháp PCA chính là tìm ra một hệ trục trực giao mới trong đó: Tọa độ của các biến ứng với các trục khác nhau sẽ cho ta các biến mới. Các trục mới hay các biến mới này được gọi là các nhân tố chính và giá trị của các biến mới được gọi là các điểm số nhân tố chính.
- Mỗi biến mới tạo thành sẽ kết hợp tuyến tính với các biến ban đầu. - Biến mới đầu tiên chiếm phương sai lớn nhất của dữ liệu.
- Biến mới thứ hai chiếm phương sai lớn nhất của phần dữ liệu mà chưa bị chiếm bởi biến mới đầu tiên.
- Biến mới thứ ba chiếm phương sai lớn nhất của phần dữ liệu mà chưa bị chiếm bởi hai biến mới đầu tiên.
Tổng quát: biến mới thứ p chiếm phương sai của phần dữ liệu mà chưa bị chiếm bởi (p-1) biến mới đầu tiên.
Các biến mới tạo thành sẽ độc lập với nhau. Khi các biến mới tạo thành chiếm một lượng đủ lớn phương sai của dữ liệu thì chúng ta có thể sử dụng các biến mới này để thay thế cho các biến cũ và tiến hành quá trình phân tích như thông thường. Vì vậy, PCA là phương pháp rất thường được sử dụng trong trường hợp dữ liệu đầu vào quá lớn, cần được rút gọn mà vẫn giữ được một lượng thông tin đủ lớn để cho việc nghiên cứu, phân tích dữ liệu được dễ dàng hơn.