CHƯƠNG 1 NGHIÊN CỨU TỔ NG QUAN
2.4. Phân tích số liệu sử dụng các phương pháp thống kê
2.4.1. Phương pháp phân tích thành phần chính (PCA)
Phương pháp PCA là một trong những kỹ thuật xử lý số liệu đa chiều quan
trọng nhất được sử dụng trong khoa học môi trường và nhiều lĩnh vực khoa học
khác. Đây là phương pháp nhóm các đối tượng phân tích và rất hữu ích khi bảng dữ liệu có nhiều biến tham gia và đưa ra thành phần nào là chính trong bảng dữ liệu. Những nhân tố này sẽ góp phần lớn vào sự biến động của tập dữ liệu.
Phương pháp này cho phép ta giảm thiểu đáng kể số chiều của tập số liệu bằng cách lập các tổ hợp tuyến tính từ tất cả các véctơ quan sát để hình thành một số véctơ số liệu mới có độ nhạy cao nhất đối với sự thăng giáng thống kê hay cấu trúc của tập số liệu. Các véctơsố liệu mới này được gọi là các thành phần chính PCA. Từ các hệ số tổ hợp tuyến tính sẽ xác định được các thành phần nguyên tố
chính và mối tương quan đặc trưng giữa các thành phần chính này. Các tương
quan đặc trưng khác nhau sẽ đại diện cho các nhóm mẫu có nguồn gốc xuất xứ khác nhau. Ngồi ra, có thể loại bỏ sự ảnh hưởng của các thành phần nguyên tố
có trọng số tương quan thấp và gây phân tán (nhiễu) trong q trình xử lý số liệu. mà khơng làm mất đáng kể lượng thông tin chứa thống kê của tập số liệu.
Phương pháp phân tích thành phần chính cịn được gọi là phương pháp hồi qui cấu tử chính, cho phép giảm số biến trong tập số liệu, đưa về biểu diễn hai chiều hoặc 3 chiều từ tập số liệu đa chiều bằng cách tìm ra giá trị phương sai lớn nhất với số cấu tử chính (PC) ít nhất. Chấp nhận phương sai do mỗi biến mới gây ra để loại bớt các biến phía cuối dãy, giảm được kích thước của tập số liệu, mất ít nhất thơng tin về các số liệu ban đầu. Tuy nhiên, PCA là phương pháp toán học đơn thuần, kết quả thu được bị ảnh hưởng rất lớn bởi tập số liệu ban đầu, do đó cần kết hợp với những kiến thức chuyên ngành để giải thích hiện tượng phù hợp
62
(1) Bước 1:Nhập các giá trị của biến độc lập dưới dạng ma trận ma trận gồm m hàng và n cột ( thông thường m là số phép đo, n là số biến trong hệ).
(2) Bước 2: Tính ma trận đồng phương sai (hoặc ma trận hệ số tương quan) của ma trận số liệu ban đầu.
(3) Bước 3: Tính vectơ riêng của ma trận và trị riêng (gọi là phương trình đặc
trưng của ma trận đồng phương sai).
(4) Bước 4: Chọn số thành phần và tạo vectơ đặc trưng, xếp chúng theo thứ tự từ cao xuống thấp để có thể nhận ra thứ tự có nghĩa của các thành phần và có thể loại bớt các thành phần ít có nghĩa mà khơng sợ bị mất thông tin về tập số liệu.
(5)Bước 5: Chuyển hoá từ tập số liệu mới khi đã chọn được thành phần
chính (vectơ riêng), muốn giữ trong tập số liệu và tạo được vectơ đặc trưng cần chuyển vị vectơ (transpose of the vectorr) và nhân nó với tập số liệu ban đầu. Khi đó, số liệu sau cùng = vectơ riêng đặc trưng hàng × số liệu hiệu chỉnh hàng.