lệch chuẩn(Standard Deviation)

1 .Định nghĩa

4. Các ứng dụng của PCA

2.6. Các bước để phân tích thành phần chính

2.6.1.2 lệch chuẩn(Standard Deviation)

Để hiểu rõ độ lệch chuẩn, chúng ta cần một bộ dữ liệu. Các nhà thống kê

thường có liên quan với việc lấy mẫu của một dân số. Để sử dụng các cuộc thăm dị bầu cử như là một ví dụ, dân số là tất cả những người dân trong nước, trong khi một mẫu là một tập hợp con của các dân mà các nhà thống kê đo lường. Những điều tuyệt vời về thống kê là chỉ đo (trong trường hợp này bằng cách thực hiện một cuộc khảo sát điện thoại hoặc tương đương) một mẫu dân số, bạn có thể làm ra những gì là có nhiều khả năng đo lường nếu bạn sử dụng toàn bộ dân số .Tại phần thống kê này, ta sẽ cho rằng bộ dữ liệu của chúng ta là những ví dụ của một số dân lớn hơn. Có một tài liệu tham khảo sau này trong phần này chỉ để moreinformation về mẫu và dân số. Dưới đây là một ví dụ thiết lập:

X=[12461215254568676598]

Ta có thể sử dụng biểu tượng X để để chỉ toàn bộ tập hợp các con số. Nếu như ta muốn chỉ một số cá nhân trong tập dữ liệu này, ta sẽ sử dụng kí hiệu trên biểu tượng

X để chỉ ra một số cụ thể. ví dụ như x3 tham khảo số 3 trong X, cụ thể là 4 số. Lưu ý rằng X1 là số đầu tiên trong sequenc, khơng X0 như bạn có thể thấy trong một số textbooks.Also, biểu tượng n sẽ được sử dụng để chỉ số phần tử trong tập hợp X. Có một số điều mà chúng ta có thể tính tốn về một tập hợp dữ liệu. Ví dụ, chúng ta có thể tính tốn giá trị trung bình của mẫu. Ta giả sử rằng người đọc hiểu được

những gì trung bình của một mẫu là, và sẽ chỉ cung cấp cho các công thức:

Chú ý biểu tượng để chỉ ra giá trị trung bình của tập X .Tất cả các cơng thức này nói là "Bạn cộng tất cả các số và sau đó chia cho có bao nhiêu" .khơng may, trung bình khơng cho chúng ta rất nhiều về những dữ liệu ngoại trừ cho một loại của điểm trung bình. Ví dụ, hai sự kiện này có chính xác trung bình như nhau (10), nhưng rõ ràng là khá khác nhau:

Vì vậy, những gì là khác nhau về hai bộ này? Nó là sự trải dài của các dữ liệu đó là khác nhau. Độ lệch chuẩn (SD) của một tập hợp dữ liệu là một biện pháp như thế nào lây lan ra các dữ liệu.

Làm thế nào để chúng ta tính tốn nó? Định nghĩa tiếng Anh của SD là: "Khoảng cách trung bình từ có nghĩa là các dữ liệu thiết lập để một điểm ". Các cách để tính tốn nó là để tính tốn bình phương của khoảng cách từ mỗi điểm dữ liệu trung bình của các bộ, thêm tất cả lên, phân chia bởi n-1, và lấy căn bậc hai. Như một công thức:

Sự khác biệt giữa mỗi mẫu số. Nó cũng thảo luận về sự khác biệt giữa mẫu và quần thể. Vì vậy, cho dữ liệu hai của chúng ta đặt ra ở trên, các tính tốn độ lệch chuẩn là trong bảng 2.1 Và như vậy, như dự kiến, tập đầu tiên có một độ lệch chuẩn lớn hơn nhiều do thực tế rằng các dữ liệu được nhiều hơn nữa lan ra từ trung bình. Cũng như một ví dụ khác, các dữ liệu được thiết lập: [ 10 10 10 10] Cũng có nghĩa là 10, nhưng độ lệch chuẩn của nó là 0, bởi vì tất cả các con số đều giống nhau. Khơng ai trong số họ đi chệch khỏi giá trị trung bình.