Phân tích thành phần chính (Principal Components)- 123docz.net

Hình 1 chỉ ra một tập dữ liệu trong không gian hai chiều. Mỗi một điểm trong cụm bôi đen hình elip có hai thành phần: X và Y. Nếu chúng ta quan sát hướng của cụm dữ liệu, tuy nhiên, chúng ta sẽ nhận thấy rằng chúng không quay về hướng dọc theo hoặc trục X hay Y. Thực tế, dữ liệu quay về hướng trong không gian tại một góc nhất định đối với trục X. Nhìn vào hai trục cơ sở của tập số liệu hình Elip, bạn sẽ nhạn thấy rằng một chiều chứa đựng nhiều sự biến thiên hơn. Trục còn lại, vuông góc với trục kia, biểu diễn sự biến thiên ít hơn của số liệu. Chúng ta chọn chiều này trong không gian về số liệu của hầu hết các biến (trục cơ sở của elip) và gọi đó là thành phần cơ sở thứ nhất). Thành phần cơ sở thứ hai là vuông góc với trục thứ nhất. Các trục này được biểu diễn trong hình 2. Chú ý rằng tất cả cần làm là chúng ta xoay trục toạ độ gốc cho đến khi chúng ta tìm được chiều trong không gian mà các trục cơ sở của các cụm số liệu hình elip nằm dọc theo chiều này. Bởi vì nó là trục lớn hơn, nó biểu diễn sự biến thiên rộng nhất của số liệu, các số liệu biến thiên dọc theo trục mà chúng ta ký hiệu là

first component (thành phần thứ nhất). Thành phần thứ hai bao trùm thành phần biến thiên rộng thứ hai của tập dữ liệu.

Hình 3: Tập dữ liệu trong không gian hai chiều

Với ba biến, chúng ta có ba chiều trong không gian. Chúng ta tìm phép xoay các trục của ba biến X, Y, và Z sao cho thành phần thứ nhất là chiều mà Elipxoit của dữ liệu là rộng nhất. Thành phần thứ hai là chiều với tỷ lệ biến thiên rộng thứ hai và thành phần thứ ba là chiều với sự biên thiên rộng thứ ba. Tất cả các thành phần này đều trực giao với nhau. Một phép xoay như vậy, mà nó vẫn giữ được tính trực giao của các trục, được gọi là phép quay cứng (rigid rotations).Với nhiều biến hơn, thủ tục vẫn như vậy (chỉ có điều chúng ta sẽ không vẽ trực quan được nữa). Việc thu giảm lần lượt sự biến thiên của dữ liệu với việc tách từng thành phần được chỉ ra trong Hình 3.

Hình 4. Sự thu giảm trong biến thiên của một tập dữ liệu với việc tách dần các thành phần

First component

Second component

Một định lý toán học chính về thành phần cơ sở, cho phép chúng ta tìm ra các thành phần. Định lý nói rằng nếu chúng ta có bất kỳ một tập hợp nào gốm k

biến X1, X2, …, Xk, trong đó các ma trận phương sai, hiệp phương sai của các biến này, ký hiệu là Σ, là khả nghịch (một điều kiện đại số mà bạn không cần phải quan tâm), chúng ta có thể luôn luôn biến đổi các biến gốc thành một tập của k biến không tương quan với nhau Y1, Y2, …, Yk bằng một phép xoay thích hợp. Chú ý rằng, chúng ta không yêu cầu giả thiết về tính chuẩn.

Ví dụ về việc sử dụng Phân tích nhân tố chính như là giai đoạn đầu tiên cho một kỹ thuật thống kê quan trọng trong một trình bày về đa cộng tuyến trong phân tích hồi quy bội. Ở đó, thực tế, tồn tại k biến độc lập mà chúng lại phụ thuộc lẫn nhau đã gây ra rất nhiều vấn đề. Một trong các giải pháp của vấn đề đa cộng tuyến là chuyển đổi k biến gốc, mà chúng tương quan với nhau, thành một tập k biến không tương quan với nhau. Các biến không tương quan (với nhau) này là các thành phần chính của một tập dữ liệu. Và chúng ta có thể hồi quy trên tập biến mới, các thành phần chính, và bỏ qua được toàn bộ vấn đề về đa cộng

Sau thành phần thứ nhất Sau thành phần thứ hai Sau thành phần thứ ba Tổng biến thiên

tuyến. Chúng ta vẫn cần phải xem xét, tuy nhiên, mức ảnh hưởng của mỗi biến gốc đến biến phụ thuộc trong hồi quy.

Phương trình 3 là phương trình của các thành phần chính đầu tiên, mà nó là một tổ hợp tuyến tính của k biến gốc X1, X2,…., Xk.

Y1 = a11 X1 + a12 X2 +….+ a1k Xk (3) Tương tự, thành phần chính thứ hai được cho bởi

Y2 = a21 X1 + a22 X2 +….+ a2k Xk (4) và tiếp tục như vậy. aijlà các hằng số, giống như hệ số hồi quy. Một tổ hợp tuyến tính được hình thành bằng một phép xoay trục.

Nếu chúng ta sử dụng k biến độc lập mới Y1, Y2, …, Yk thì chúng ta phải bao trùm được hết tất cả các biến thiên trong các quan sát. Trong trường hợp này, tất cả điều cần phải làm là chuyển các biến gốc thành các tổ hợp tuyến tính mà chúng không tương quan với nhau (trực giao) và chúng bao quát được hết tất cả các biến động của các quan sát, thành phần thứ nhất chứa đựng thành phần rộng rất, thành phần thứ hai ít hơn, và cứ như vậy. Khi chúng ta sử dụng k biến mới, tuy nhiên, không có lợi thế nào về mặt số lượng biến mới. Nếu, trong trường hợp khác, chúng ta muốn giảm số lượng biến gốc về một tập ít hơn các biến mà tại đó mỗi biến mới có một ý nghĩa nào đó - mỗi biến mới biểu diễn một nhân tố ẩn – chúng ta cần phải dùng đến phân tích nhân tố. Phân tích nhân tố (Phân tích nhân tố loại R), cũng được gọi là phân tích nhân tố chung (common factor analysis), là một trong những phương pháp đa biến được sử dụng rộng rãi nhất, và chúng ta sẽ dành phần còn lại để mô tả phương pháp quan trọng này. Trong phân tích nhân tố, chúng ta giả thiết phân phối chuẩn đa chiều.

Phân tích thành phần chính (Principal Components)

Cơ sở chọn biến đưa vào phân tích