Mô hình giải bài toán phân tích số liệu nhiều chiều

Một phần của tài liệu phân tích thành phần chính: principal component analysis - pca (Trang 43 - 48)

MX X1 n x x x x

6. Mô hình giải bài toán phân tích số liệu nhiều chiều

Như đã trình bày ở trên, trong bài toán tổng quát phân tích nhiều chiều có các loại không gian vector sau:

1-Trong không gian Rp có n vector cá thể. Cá thể i được biểu diễn bởi vector xi gắn với trọng số pi (i 1, n). Không gian Rp có tích vô hướng gắn với ma trận Q đối xứng xác định dương.

2-Trong không gian R vector y đồng nhất với một dạng tuyến tính, và các vector Y1, Y2,…, Yp tạo thành cơ sở của R

Tích vô hướng trong không gian này với ma trận Q-1, tất nhiên đối xứng và xác định dương.

∀x∈R hì Y = Qx∈R Như vậy:

p t

∀Y∈R thì x = Q-1Y∈Rp Đây là tương ứng một – một giữa x và Y

Nội dung tổng quát của các bài toán phân tích số liệu nhiều chiều là rút bớt số chiều ban đầu mà vẫn giữ được thông tin nhiều nhất để dễ dàng hơn cho phân tích

Muốn vậy, người ta tìm các biến mớ Y – tổ hợp tuyến tính của các biến cũ x1, x2,…, xn:

i

Y a x

sao cho biến này “thâu tóm” các biến cũ một cách tốt nhất có thể được.

3-Trong không gian Rn mỗi biến được biểu diễn bởi một vector Xj, và cho một tích vô hướng gắn với ma trận các rọng số P. Ánh xạ tuyến tính từ R vào Rn gắn với ma trận Rn,p:

t

∀Y∈R thì X = Xn,pY∈Rn

trong đó Y là tổ hợp tuyến tính bất kỳ của Y1, Y2, …, Yp – cơ sở của R

Trong các phân tích sau này sẽ thấy việc tìm biến Y∈R tương đương với việc tìm vector X = Xn,pY∈Rn (vector này biểu diễn tốt nhất các vector X1, X2,…,Xp∈Rn)

Mô hình phân tích liên quan đến bảng số liệu gồm đám mây số liệu, các không gian và các ánh xạ tuyến tính

4-Do tính đối xứng, cũng có thể xác định không gian R – đối ngẫu của Rn, ánh xạ tuyến tính Rn vào R nhờ ma trận đối xứng xá định dương P gắn với tích vô hướng trong Rn, tức là:

c ∀X∈Rn thì Z = PX ∈ R

trong đó P xác định bởi (1.7.7) và ánh xạ từ R vào Rn mà: ∀Z∈R thì U = XTp,nZ ∈ Rp

Ánh xạ này cho tương ứng những vector cơ sở của R những vector cá thể x1, x2,…, xn ∈ Rp

Sau cùng, trong phân tích chính tắc (sẽ xét trong phần sau), với tư cách là Q-1 ta lấy ma trận: M = YTPY tức là: M µ µ µ µ µ µ µ µ µ trong đó: µ p x x

là ma trận hiệp phương sai của các biến đã qui tâm Yj và Yk; j, k 1, p; và do đó ma trận Q đã nói trên sẽ là M-1 Nếu ma trận Xn,p có hạng p (tức l c ến Y1, Y2,…, Yp độc lập tuyến tính) thì M đối xứng xác định dương. à ác bi Do (1.7.11): X X , Y nên dễ dàng thấy rằng: XTPX ∑ p x x µ

Như vậy, ma trận M là ma trận phương sai – hiệp phương sai của các biến qui tâm Y1, Y2,…, Yp, cũng đồng thời là ma trận các tích vô hướng – chuẩn của các vector X1, X2,…, Xp

Tóm lại, ta có sơ đồ quan hệ giữa các không gian và ánh xạ tuyến tính như sau:

M  M‐1 Rp  Rp  Rpd  Rnd  Rn  X’p,n  Xn,p  P Q  Q‐1 Rp Rpd  Rnd  Rn  X’p,n  Xn,p  P 

§8 QUÁN TÍNH

Cho tập N là đám mây điểm có trọng số trong RP (xem mục 1 và 2 §7).

Giả sử trong RP ta xác định một tích vô hướng gắn với ma trận Qp,p đối xứng xác định dương, và gọi vector trọng tâm của N là:

xT x , x , … , x trong đó : x p x ; j 1, p (1.8.1) Cũng viết được: x p x x e (1.8.2) trong đó: xiT = (xi1, xi2,…, xip); i=1,2,..,n 1. Quán tính theo một điểm.

Quán tính của N theo điểm x0 = (xo1, xo2, …, xop) ∈ RP là : IN x p d x , x

(1.8.3)

IN x p x x TQ x x

(1.8.3)’ Theo (1.4.10) thì:

Quán tính IN(xo) đo mức độ phân tán của N quanh điểm x0. Khái niệm này là mở rộng của khái niệm phương sai, đã nêu trong (1.3.36) – (1.3.29).

Theo định lý Koënig – Hu

d x, x

Vì IN( ) ≥ 0 (phương sai của điểm N), và d x, x 0, nên IN(xo) nhỏ nhất khi x x.

ggens:

IN X IN x (1.8.4)

Nói cách khác, so với mọi điểm của RP thì độ phân tán của đám mây quanh trọng tâm là nhỏ nhất. Đặt: x x e x , x , … , x T và đặt M µ ; j, k 1, p (1.8.5) trong đó: µ p x x x x (1.8.6) với j, k = 1, p; M gọi là ma trận quán tính của N theo x0.

Dễ dàng thấy rằng:

IN x Tr M Q (1.8.7) nếu viết dưới dạng ma trận, và do (1.4.10)’ nên:

IN x p x x q x x

(1.8.8) nếu viết dưới d g giảạn i tích.

Với x x, thì M (ma trận quán tính của N theo trọng tâm) trở thành ma trận phương sai - hiệp phương sai (hay gọi là ma trận các momen tương quan) của các biến X1, X2,…,Xp và:

Nếu x0 = (0, 0, … ,0) = 0, thì M0 là ma trận quán tính theo gốc, và: IN O p x Tr M Q

(1.8.10) p x q x

(1.8.10)’ Nếu Qp,p = Ip,p (ma trận đơn vị cấp p) thì:

IN x Tr M p x x x x (1.8.11) IN x Tr M p x x x x (1.8.12) IN O Tr M p x x (1.8.12)’ trong đó ma trận M0 được tính như sau:

M p x x

(1.8.12)’’

Một phần của tài liệu phân tích thành phần chính: principal component analysis - pca (Trang 43 - 48)

Tải bản đầy đủ (PDF)

(88 trang)