Chúng ta đi từ thống kê mẫu đến ước lượng tham số tổng thể như thế nào? Một khái niệm trung gian quan trọng mà chúng ta cần phải hiểu là phân phối mẫu.
Hình 1.5: PHÂN PHỐI MẪU
Tư tưởng chính của thống kê suy rộng là lấy mẫu từ một tổng thể và sau đó sử dụng kết quả phân tích các thông tin từ mẫu này để suy rộng ra cho tổng thể nghiên cứu. Ví dụ, giá trị bình quân (giá trị trung tâm), độ lệch chuẩn (mức độ dao động hay biến động), hoặc là tỷ lệ của một số quan sát/tổng thể về một đặc trưng nào đó. Việc lấy mẫu nghiên cứu sẽ giúp chúng ta tiết kiệm kinh phí, thời gian và cả những công sức phải bỏ ra. Hơn thể nữa, lấy mẫu đôi khi cung cấp các thông tin chính xác cho nghiên cứu hơn là câu trả lời của việc chúng ta cố gắng điều tra
cả tổng thể (sai số phi chọn mẫu), nghiên cứu cẩn thận một mẫu còn hơn là làm không cẩn thận với cả tổng thể.
Chúng ta sẽ xem xét tỉ mỉ những đặc điểm của mẫu tử các tổng thể khác nhau. Bởi vị mẫu là một nhóm đối tượng của một tổng thể, giá trị trung bình của mẫu không hoàn toàn chính xác như là của tổng thể. Vì vậy, một điều quan trọng cần phải xem xét đó là mức độ phù hợp của những ước lượng từ mẫu như giá trị bình quân so với tổng thể.
Thông thường trong thực tế, một mẫu rất nhỏ (5-10 quan sát) được lấy ra để kiểm tra cơ chế thu thập thông tin và từ đó thu được thông tin ban đầu cho việc chọn mẫu. Tuy nhiên phục vụ cho việc xác định mức độ phù hợp, chấp nhận được giữa ước lượng của mẫu so với tổng thể chúng ta cần phải xem xét với khoảng 10, 50 hoặc 100 mẫu riêng biệt khác nhau lấy ra từ tổng thể. Liệu sự phù hợp sẽ như thể nào nếu giữa các mẫu nghiên cứu khác nhau? Nếu chúng ta phát hiện rằng kết quả giữa các mẫu gần như giống nhau (và gần chính xác!), vậy chúng ta tin cậy vào một nghiên cứu độc lập hay không? Mặt khác, xem xét kết quả từ các nghiên cứu lặp lại cho một số tiêu chí nào đó cần có độ tin cậy cao hơn, đòi hỏi phải có một mẫu khác với cỡ mẫu lớn hơn.
Một phân phối mẫu được sử dụng để mô tả sự phân bố của những kết quả đầu ra, mà một nghiên cứu có thể thu được từ các mẫu tương tự của một tổng thể. Lưu ý rằng một giá trị bình quân ước lượng từ một mẫu có thể khác với một mẫu khác.
Cần phải hiểu rằng mỗi nghiên cứu thống kê khác nhau có một phân phối mẫu khác nhau, nó phụ thuộc vào những thông tin cụ thể, cỡ mẫu và phân phối của tổng thể. Và chúng ta cần phải lưu ý mối quan hệ giữa cỡ mẫu và phân phổi của ước lượng mẫu. Vì thể, mức độ biến động của phân phối mẫu có thể được thu hẹp lại bằng cách tăng số lượng quan sát của mẫu. Lưu ý khi cỡ mẫu lớn, nhiều phân phỗi mẫu sẽ tiệm cận với phân phối chuẩn.
Những moment chính của phân phối mẫu:
Moment bậc 1: Trung bình của phân phối mẫu – trung bình của các trung bình của một số vô hạn các mẫu – rất gần với trung bình tổng thể - tham số cần quan tâm.
Moment bậc 2: độ lệch chuẩn của phân phối mẫu cho chúng ta biết các mẫu khác nhau có phân phối như thế nào. Trong thống kê, nó được gọi là sai số chuẩn.
⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − ∗ = N n n S estimate V( ) 1 2 (1)
Trong đó: n và N - lần lượt là quy mô của mẫu và tổng thể, 2
S - phương sai của biến.
Nếu mẫu nhỏ, điều chỉnh tổng thể hữu hạn gần bằng 1. Khi đó, phương sai của các đại lượng ước lượng phụ thuộc vào: (i) số lượng quan sát (n) và (ii) biến thiên của biến S2.
Hàm ý của (1) đối với điều tra tổng thể rất lớn trong đó quy mô mẫu ít hơn 10% của tổng thể: (1) thường bị bỏ qua.