6 Phân tán bất thiên là gì? Tại sao phân tán từ dữ liệu tiêu bản lại nhỏ
6.5 Tại sao lại là n− 1, bất thiên là gì?
Chúng ta đã lý giải được rằng độ phân tán của dữ liệu mẫu có xu hướng nhỏ hơn độ phân tán của dữ liệu cha. Tuy nhiên có một câu hỏi đặt ra, tại sao lại chia chon−1? Tại sao không chia cho n−2 hoặc n−3? Đúng vậy, đây là một thắc mắc rất tự nhiên. Để giải thích việc này trước hết chúng ta cần làm rõ "Tính Bất Thiên". Chúng ta nói về độ phân tán bất thiên, vậy thì "bất thiên" có nghĩa là gì? Để giải thích điều này sẽ rất dài và tốn một chút thời gian, do đó tơi xin phép được trình bày trong bài học tới. Tơi nghĩ rằng với người nhập môn, các bạn hãy cố gắng nhớ những điều dễ hiểu trước đã. Không cần phải cố gắng nhớ quá nhiều kiến thức một lúc, nó sẽ khiến các bạn cảm thấy quá tải.
6.6Tổng kết
Trong bài học lần này tơi đã giải thích cho các bạn về độ phân tán bất thiên. Vậy rút cục độ phân tán bất thiên là cái gì? Tại sao khi tính tốn độ phân tán của dữ liệu mẫu ta khơng sử dụng cách tính thơng thường? Chúng ta đã lý giải được rằng nó có giá trị nhỏ hơn độ phân tán của dữ liệu cha.
Đây được coi là một nội dung vơ cùng quan trọng. Nếu như các bạn vẫn cịn chưa hiểu, xin hãy đọc lại nội dung bài học này thêm một lần nữa. Và hãy thử tra cứu google để tìm hiểu thêm. Sau đây tơi xin tóm tắt nội dung bài học này:
• Độ phân tán bất thiên là đại lượng được để ước lượng độ phân tán của dữ liệu cha.
• Khi tính tốn độ phân tán của dữ liệu mẫu theo cách thơng thường, nó sẽ có khuynh hướng có giá trị nhỏ hơn độ phân tán của dữ liệu cha.
• Lý do mà độ phân tán của dữ liệu mẫu nhỏ hơn dữ liệu cha đó là vì khi tính tốn độ phân tán ta khơng sử dụng được giá trị trung bình của dữ liệu cha mà sử dụng giá trị trung bình của dữ liệu mẫu để tính tốn.
Chúng ta vẫn cịn một khúc mắc về lý do chia cho n−1mà tơi chưa giải thích nhưng tơi nghĩ các bạn đã hình dung ra được độ phân tán bất thiên là gì.
Bài 7
Lý do độ phân tán bất thiên được tính bằng phép chia chon−1. Tính bất thiên nghĩa là gì?
Ở bài học trước chúng ta đã nói về câu chuyện độ phân tán bất thiên, nó là giá trị ước lượng độ phân tán của dữ liệu cha. Nếu độ phân tán của dữ liệu mẫu là s2 và độ phân tán của dữ liệu cha là σ2 thì độ phân tán của dữ liệu mẫu s2 có khuynh hướng nhỏ hơn
σ2.
Do đó trong bài học này chúng ta sẽ làm rõ tính bất thiên rút cuộc là gì? Và tại sao không phải là n mà lại là chia chon−1. Tôi nghĩ bất cứ ai khi bắt đầu học thống kê sẽ cùng có thắc mắc này, do đó việc làm rõ khúc mắc này là cần thiết.
Nhìn riêng về mặt ngơn ngữ ta có thể thấy:
• Độ phân tán bất thiên là một cơng cụ để ước tính bất thiên (khơng thiên vị) của độ phân tán tổng thể (độ phân tán của dữ liệu cha), nên từ "bất thiên" được sử dụng.
• Giá trị ước lượng nếu tính trung bình sẽ cho giá trị trùng với tham số của dữ liệu mẫu, khi đó cơng cụ ước tính này được cho là khơng thiên sai (khơng chệch) và một cơng cụ ước tính như thế được gọi là cơng cụ ước tính bất thiên.
• Tuy nhiên tại sao khơng phải là n−2 hay n−3 mà lại làn−1thì đây là điều cần phải chứng minh làm rõ.
Sẽ có nhiều bạn băn khoăn, nãy giờ nói gì tơi cũng khơng hiểu nữa. Được rồi, chúng ta sẽ bắt tay vào ngay bây giờ đây, các bạn hãy kiên nhẫn một chút.
7.1Tính bất thiên là gì?
Bạn nghĩ rằng bạn đã tính tốn độ phân tán của dữ liệu cha và của dữ liệu mẫu. Tuy nhiên vì độ phân tán của dữ liệu mẫu thường có khuynh hướng nhỏ hơn độ phân tán của dữ liệu cha, chúng ta hiểu rằng độ phân tán của dữ liệu mẫu có khuynh hướng nhỏ hơn độ phân tán bất thiên, là giá trị mà chúng ta sử dụng để ước lượng độ phân tán của dữ