Phân tích thành phần (cấu tử) chính là công cụ hữu hiệu cho phép giảm số biến trong tập số liệu nhằm đạt được biểu diễn hai chiều từ tập số liệu đa chiều bằng cách tìm ra giá trị phương sai lớn nhất với số thành phần chính (PC) hay các biến ảo ít nhất.
Nói cách khác PCA là thuật toán đa biến dựa trên việc quay các trục số liệu chứa các biến tối ưu. Khi đó, một tập hợp các biến liên quan với nhau được chuyển thành tập hợp các biến không liên quan và được sắp xếp theo thứ tự giảm độ biến thiên hay phương sai. Những biến không liên quan này là sự kết hợp tuyến tính các biến ban đầu. Dựa trên phương sai do mỗi biến mới gây ra có thể loại bỏ bớt các
Luận văn tốt nghiệp 31
biến phía cuối dãy mà chỉ mất ít nhất thông tin về các số liệu thực ban đầu. Bằng cách này sẽ giảm được kích thước của tập số liệu trong khi vẫn có thể giữ nguyên thông tin.
Trong thuật toán PCA, có thể có nhiều PC vì có nhiều biến trong tập số liệu. Số PC tối đa bằng số biến. Việc dùng PCA có thể tóm lược được cấu trúc đồng phương sai với tập số liệu có kích thước nhỏ hơn, mà không làm mất đi ý nghĩa của tập số liệu ban đầu. Có thể sử dụng tập số liệu mới này trong tính toán để thay thế cho tập số cũ.
PCA được ứng dụng chủ yếu trong việc giảm kích thước tập số liệu, từ biểu diễn n chiều trong không gian thành biểu diễn hai hoặc 3 chiều với số biến có ảnh hưởng chính đến tập số liệu.
PCA loại bỏ sự đa cộng tính giữa các biến trong việc xây dựng phương trình hồi qui biểu diễn sự phụ thuộc của tín hiệu phân tích vào các biến là nồng độ các thành phầntrong hệ. Phương pháp này có tên gọi là hồi qui thành phần chính.
Từ tập số liệu với n biến ban đầu có liên quan mật thiết với nhau, sau khi giảm thành p biến không liên quan thì trị riêng của chúng có thể sử dụng làm số liệu đầu vào của phương pháp hồi qui kết hợp với mạng noron nhân tạo giải bài toán phân tích đồng thời các thành phần trong hệ có tương tác không cộng tính.
Nếu xem các số liệu phân tích trong tập số liệu là kết quả phân tích lặp lại thì PCA cho phép tìm được sai số thô trong số các kết quả phân tích.
Tuy nhiên PCA đơn thuần là phương pháp toán học nên các kết quả thu được bị ảnh hưởng rất lớn bởi tập số liệu ban đầu, vì vậy cần kết hợp với những kiến thức chuyên ngành khác nếu không sẽ dẫn đến những giải nghĩa sai lệch.[11]