Hiệp phương sai (covariance) - Các bước để phân tí- 123docz.net

1 .Định nghĩa

4. Các ứng dụng của PCA

2.6. Các bước để phân tích thành phần chính

2.6.1.4 Hiệp phương sai (covariance)

Hai biện pháp cuối cùng, chúng ta đã xem xét là hoàn toàn 1 chiều. Bộ dữ liệu như thế này có thể là: chiều cao của tất cả mọi người trong phòng, nhãn hiệu cho các kỳ thi cuối cùng bộ COMP101 vv Tuy nhiên, nhiều dữ liệu có nhiều hơn một chiều, và mục đích của các phân tích thống kê của các bộ dữ liệu thường là để xem có bất kỳ mối quan hệ giữa kích thước. Ví dụ, chúng ta có thể có như đặt cả chiều cao của tất cả các học sinh trong một lớp học, và các nhãn hiệu mà họ nhận được giấy cho rằng dữ liệu của chúng ta. Sau đó chúng ta có thể thực hiện phân tích thống kê để xem nếu chiều cao của một học sinh có bất kỳ tác dụng trên nhãn hiệu của họ.

Độ lệch chuẩn và phương sai chỉ hoạt động trên 1 chiều, do đó bạn có thể chỉ tính tốn độ lệch chuẩn cho mỗi kích thước của các tập dữ liệu độc lập của các kích thước khác. Tuy nhiên, nó rất hữu ích để có một biện pháp tương tự để tìm ra bao nhiêu kích thước thay đổi từ giá trị trung bình với việc tương tác lẫn nhau.

Hiệp phương sai là một biện pháp như vậy. Hiệp phương sai luôn được đo giữa

2 chiều. . Nếu bạn tính tốn phương sai giữa một chiều và bản thân bạn có được phương sai. Vì vậy, nếu bạn đã có một bộ dữ liệu 3 chiều (x, y, z), sau đó bạn có thể đo các hiệp phương sai giữa x và kích thước y, x và z kích thước, kích thước y và z. Đo hiệp phương sai giữa, x và x, y, y, z và z, sẽ cung cấp cho bạn các phương sai của x, y, z kích thước tương ứng. Cơng thức cho hiệp phương sai là rất tương tự như công thức cho đúng. Cơng thức cho đúng cũng có thể được viết như thế này:

ở đây ta chỉ đơn giản là mở rộng các hạn vng để hiển thị cả hai phần. Vì vậy, cho rằng kiến thức,, đây là công thức cho phương sai:

Hình 2.1: Đồ thị của các dữ liệu cho thấy mối quan hệ tích cực hiệp phương sai giữa số giờ nghiên cứu chống lại các dấu hiệu nhận được.

Nó là giống hệt nhau ngoại trừ trong tập thứ hai của khung, các X "được thay thế bằng Y '. Điều này cho biết, trong tiếng Anh, "Đối với mỗi mục dữ liệu, nhân sự khác biệt giữa x, giá trị và giá trị trung bình của x bằng mức chênh lệch giữa giá trị y và trung bình của y. Thêm tất cả chúng, và chia cho (n-1) "

Làm thế nào để làm việc này? Cho phép sử dụng một số dữ liệu ví dụ. Hãy tưởng tượng chúng ta đã đi vào thế giới và thu thập một số dữ liệu 2 chiều, nói rằng, chúng ta đã hỏi một loạt các sinh viên bao nhiêu giờ trong tổng số mà họ dành học COSC241, và các nhãn hiệu mà họ nhận được. Vì vậy, chúng ta có hai chiều, đầu tiên là kích thước H, các giờ học, và thứ hai là kích thước M, dấu hiệu nhận được. Hình 2.2 chứa dữ liệu của ta tưởng tượng, và các tính cov (H, M) các hiệp phương sai giữa các giờ học tập và thực hiện các Mark nhận được.

Vì vậy, những gì nó nói với chúng ta? Giá trị chính xác là khơng quan trọng đó là dấu hiệu (tức là. Tích cực hay tiêu cực). Nếu giá trị là tích cực, vì nó là ở đây, sau đó cho biết rằng cả hai chiều tăng togheter ý nghĩa rằng, nói chung, như số lượng giờ học tăng lên, do đó đã làm điểm cuối cùng

Nếu giá trị là tiêu cực, sau đó là một chiều hướng tăng, giảm khác. Nếu chúng ta đã kết thúc với một hiệp biến tiêu cực ở đây, sau đó mà có thể đã nói điều ngược lại, rằng khi số lượng giờ học tăng điểm cuối cùng giảm.

Trong trường hợp cuối cùng, nếu các hiệp phương sai là số khơng, nó chỉ ra rằng hai chiều độc lập với mỗi kết quả other.The đánh dấu cho sự gia tăng như số giờ học tăng có thể dễ dàng nhìn thấy bằng cách vẽ đồ thị của dữ liệu, như trong Hình 2.1.3. Tuy nhiên, sự sang trọng của việc có thể để hình dung dữ liệu chỉ có ở 2 và 3 chiều. Do giá trị phương sai có thể được tính tốn giữa bất kỳ 2 chiều trong một tập hợp dữ liệu, kỹ thuật này thường được sử dụng để tìm các mối quan hệ giữa kích thước trong bộ dữ liệu chiều cao mà hình dung là khó khăn.

Bạn có thể hỏi "là cov (X, Y) bằng cov (Y, X)"? Vâng, một cái nhìn nhanh chóng tại các căn đều giống hệt nhau vì sự khác biệt duy nhất giữa cov (X, Y) và

cov (Y, X) là đang được thay thế bằng

. Và kể từ khi nhân là giao hốn, có nghĩa là nó khơng quan trọng mà con đường xung quanh ta nhân hai số, ta luôn nhận được cùng một số, hai phương trình cho các câu trả lời tương tự.