Phân tích PCA và tương quan

4 Giảm kích thước và trích xuất các feature

4.2 Các hàm

4.2.3 Phân tích PCA và tương quan

1. barttest

Kiểm định Bartlett (Bartlett’s test of sphericity) dùng để xem xét các biến quan sát trong nhân tố có tương quan với nhau hay khơng? Nếu kiểm định cho thấy khơng có ý nghĩa thống kê thì khơng nên áp dụng phân tích nhân tố cho các biến đang xét. Kiểm định Bartleft có ý nghĩa thống kê (sig Bartleft’s test < 0.05), chứng tỏ các biến quan sat có tương quan với nhau.

Cú pháp

• barttest

– ndim = barttest(x,alpha): trả về số chiều cần thiết để giải thích sự biến đổi phi nguyên tử trong ma trận dữ liệu x ở mức ý nghĩa alpha.

– [ndim,prob,chisquare] = barttest(x,alpha) trảvề các giá trị ý nghia cho phép kiểm tra giả thuyết là prob và các giá trịχ2 được liên kết với các bài tốn kiểm tra chisquare.

Ví dụ minh họa

Ta tạo da bộ dữ liệu X là ma trận có kích thước 50x6 chứa các số nguẫ nhiên từ phân phối chuẩn với trung bình [0 0] và hiệp phương sai sigma = [1 0.9; 0.9 1].

4 GIẢM KÍCH THƯỚC VÀ TRÍCH XUẤT CÁC FEATURE

• canoncorr

– [A,B] = canoncorr(X,Y): Tính tốn các hệ số tương quan chuẩn tắc mẫu ( sample

canonical coefficients) cho ma trận dữ liệu X và Y trong đó A,B là các ma trận.

– [A,B,r] = canoncorr(X,Y): r là vecto chứa các hệ số tương quan chuẩn tắc mẫu.

– [A,B,r,U,V] = canoncorr(X,Y): U và V là ma trận điểm chính tắc (canonical

scores) cho X và Y tương ứng.

– [A,B,r,U,V,stats] = canoncorr(X,Y): stats là cấu trúc chứa các thông tin liên

quan đến việc kiểm tra chuỗi các giả thuyết mà tương quan cịn lại đều bằng khơng.

Ví dụ minh họa:

• pca

4 GIẢM KÍCH THƯỚC VÀ TRÍCH XUẤT CÁC FEATURE

dòng của X tương ứng với các quan sát và các cột tương ứng với các biến. coeff là ma trận hệ số kích thước p.p. Mỗi cột của coeff chứa các hệ số cho mỗi thành phần chính và các cột theo thứ tự giảm dần của phương sai thành phần. Theo mặc định, pca căn chỉnh dữ liệu và sử dụng thuật toán phân rã giá trị đơn lẻ (SVD).

– coeff = pca(X,Name,Value): Thêm cặp tham số Name-Value để tính tốn và xử lý các kiểu dữ liệu đặc biệt. Ví dụ: có thể chỉ định số lượng các thành phần chính mà hàm pca trả về hoặc một số thuật tốn khác với SVD.

Ví dụ minh họa:

• pcacov

Phân tích thành phần chính trên ma trận hiệp phương sai:

– coeff = pcacov(V): thực hiện phân tích thành phần chính trên ma trận hiệp phương sai V và trả về các hệ số thành phần chính. Hàm pcacov khơng chuẩn hóa V để có phương sai đơn vị. Để thực hiện phân tích thành phần chính trên các biến đã chuẩn hóa, hãy dùng ma trận tương quaR=V./(SD∗SD′)trong đó

SD=sqrt(Diag(V)).

– [coeff,latent] = pcacov(V): latent là vecto chứa các giá trị riêng của vecto V.

– [coeff,latent,explained] = pcacov(V): trong đó explained là vecto chứa phần

trăm của tổng phương sai được giải thích bởi một thành phần chính.

4 GIẢM KÍCH THƯỚC VÀ TRÍCH XUẤT CÁC FEATURE

• pcares

Phần cịn lại từ phân tích PCA.

– residuals = pcares(X,ndim): residual là các phần còn lại sau khi đã lấy đi các thành phần chính ndim của ma trận X có kích thước n.p. Hàm pcares khơng chuẩn hóa các cột của X. Để thực hiện phân tích các thành phần chính dựa trên các biến đã được chuẩn hóa, tức là dựa trên các mối tương quan.

– [residuals,reconstructed] = pcares(X,ndim): reconstructed là các quan sát được

tái tạo; nghĩa là giá trị gần đúng vớ X thu được bằng cách giữ lại các thành phần chính ndim đầu tiên của nó.

Ví dụ minh họa:

Ví dụ này cho thấy sự sụt giảm residual từ hàng đầu tiên của bộ dữ liệu Hald khi số thứ nguyên thành phân tăng từ một lên ba

Các hàm vẽ biểu đồ phân phối

Kiểm định độ phân tán (phương sai)