LÝ THUYẾT MẪU
Trong thực tế, khi quan tâm đến một hay nhiều biến ngẫu nhiên, ta thường khơng có đầy đủ thơng tin về phân phối xác suất của nó. Và do đó các giá trị của các đặc trưng liên quan như kỳ vọng, phương sai, hệ số tương quan, ... cũng khơng tính tốn được. Vì vậy, phương pháp thống kê tốn là dựa vào thơng tin của một mẫu quan sát về các biến ngẫu nhiên và xây dựng các phương pháp sử dụng có hiệu quả các thơng tin để kết luận với sai lầm ít nhất về biến ngẫu nhiên.
5.1. Mẫu ngẫu nhiên
Giả sử ta quan tâm đến biến ngẫu nhiên ứng với một phép thử nào đó. Thực hiện phép thử lần một cách độc lập, gọi là quan sát về ở lần thứ , thì là các biến ngẫu nhiên độc lập và cùng phân phối với . Khi đó, vectơ ngẫu nhiên được gọi là một mẫu ngẫu nhiên cỡ , sinh từ .
Chú ý. Trong thuật ngữ thống kê, biến ngẫu nhiên quan tâm gọi là dấu hiệu quan
sát trong tổng thể nghiên cứu, thành phần của mẫu ngẫu nhiên gọi là thể hiện của dấu hiệu trên đối tượng lấy ra từ tổng thể hay gọi là bản sao thứ của .
Tập giá trị của mẫu ngẫu nhiên là
,
trong đó, mỗi bộ được gọi là một mẫu thực nghiệm hay mẫu cụ thể. Đây là một giá trị quan sát có thể của mẫu ngẫu nhiên khi thực hiện lấy mẫu.
Ví dụ 5.1.1. Gọi là số chấm xuất hiện khi gieo một con xúc xắc cân đối thì là biến ngẫu nhiên có phân phối xác suất là , . Giả sử tung con xúc xắc trên 3 lần và gọi là số chấm xuất hiện trong lần tung thứ thì ta có 3 biến ngẫu nhiên độc lập, cùng phân phối với . Vậy ta có mẫu ngẫu nhiên cỡ 3, sinh từ là . Thực hiện tung con xúc xắc 3 lần, giả sử lần thứ nhất được 5 chấm, lần hai được 2 chấm, lần ba được 4 chấm thì là một mẫu thực nghiệm của mẫu ngẫu nhiên trên.
Tùy theo vấn đề nghiên cứu và mỗi lĩnh vực khoa học mà ta có thể sử dụng các phương pháp lấy mẫu sau: phương pháp lấy mẫu có hồn lại và phương pháp lấy mẫu khơng hồn lại.
5.2. Thống kê và các đặc trưng mẫu
Giả sử là một mẫu ngẫu nhiên sinh từ có hàm phân phối và một mẫu thực nghiệm của mẫu ngẫu nhiên trên là .
5.2.1. Định nghĩa thống kê
Định nghĩa. Một hàm của các biến ngẫu nhiên thành phần mẫu được gọi là một thống kê của mẫu.
Chẳng hạn , , ... là các thống kê của mẫu. Như vậy một thống kê của mẫu là một thông tin tổng hợp được từ các thành phần của mẫu.
Chú ý. Từ định nghĩa thì thống kê là một biến ngẫu nhiên, vì vậy nó cũng tn theo
một quy luật phân phối xác suất nhất định và có các tham số đặc trưng như kỳ vọng , phương sai , … Mặt khác, khi mẫu ngẫu nhiên nhận một giá trị cụ thể là
thì cũng nhận giá trị quan sát tương ứng là . Các thống kê cùng với quy luật phân phối xác suất của chúng là cơ sở xây dựng các phương pháp thống kê để nghiên cứu cho dấu hiệu nghiên cứu của tổng thể. Phần tiếp theo đề cập đến một số thống kê mẫu quan trọng, gọi là các đặc trưng mẫu.
5.2.2. Hàm phân phối thực nghiệm
Định nghĩa. Hàm xác định bởi
, được gọi là hàm phân phối thực nghiệm của mẫu.
Hàm phân phối thực nghiệm trên một mẫu thực nghiệm được xác định như sau:
Tính chất. Với cố định thì là một biến ngẫu nhiên có các đặc trưng
Với mỗi mẫu thực nghiệm thì ta có thể nhận được các hàm phân phối thực nghiệm khác nhau. Đồ thị của chúng là các hàm bậc thang. Tuy nhiên khi cỡ mẫu tăng vơ hạn thì các hàm phân phối thực nghiệm sẽ tiệm cận đến hàm phân phối lý thuyết. Điều này thể hiện qua định lý sau.
Định lý Glivenko. Với các giả thiết trên thì
Như vậy, hàm phân phối thực nghiệm là một xấp xỉ (ước lượng) cho hàm phân phối lý thuyết dựa trên mẫu. Với cố định thì hàm phân phối thực nghiệm cho ta hình ảnh hình học về phân phối lý thuyết. Xấp xỉ đó càng tốt khi cỡ mẫu càng lớn.
5.2.3. Trung bình mẫu
Định nghĩa. Ta gọi thống kê, ký hiệu , xác định bởi
là trung bình mẫu ứng với mẫu .
Giá trị trung bình mẫu thực nghiệm ký hiệu tương ứng là .
Tính chất. Giả sử biến ngẫu nhiên có kỳ vọng và phương sai hữu hạn thì trung bình mẫu là một biến ngẫu nhiên có các đặc trưng
Từ các đặc trưng của trung bình mẫu, ta thấy rằng nếu cỡ mẫu càng lớn thì phân phối xác suất của có xu hướng tập trung xác suất tại . Như vậy, trung bình mẫu là một ước lượng cho kỳ vọng dựa trên mẫu.
5.2.4. Phương sai mẫu, độ lệch mẫu
Định nghĩa. Ta gọi thống kê, ký hiệu , xác định bởi
là phương sai mẫu ứng với mẫu .
Giá trị phương sai mẫu thực nghiệm và độ lệch mẫu thực nghiệm ký hiệu tương ứng là và .
Tính chất. Giả sử biến ngẫu nhiên có phương sai hữu hạn thì phương sai mẫu là một biến ngẫu nhiên có kỳ vọng .
Tương tự như trung bình mẫu, về cơ bản, phương sai mẫu (hay độ lệch mẫu ) thường dùng ước lượng cho phương sai (độ lệch tiêu chuẩn ) dựa trên mẫu.
5.2.5. Thống kê mô tả mẫu thực nghiệm
Thống kê mô tả mẫu là đưa ra các thơng tin cơ bản tóm tắt về mẫu như bảng tần số, tần suất mẫu, hàm phân phối thực nghiệm, các giá trị đặc trưng mẫu ... cũng như dùng các biểu đồ, đồ thị minh họa cho các thông tin đó. Đây là bước đầu tiên của thống kê để có thể đưa ra các phương pháp thống kê thích hợp.
a) Bảng tần số mẫu
Thống kê các quan sát mẫu có giá trị lặp lại hay rơi vào cùng một khoảng nào đó. Bảng tần số thường biểu diễn qua hai dạng:
trong đó là các giá trị khác nhau của mẫu, là tần số xuất hiện. Hay
trong đó là các khoảng chia rời nhau, là số các quan sát mẫu rơi vào khoảng .
Ví dụ 5.2.1. Thống kê về điểm thi môn XSTK của sinh viên ngành M, ta có bảng sau:
Điểm thi 2 3 4 5 6 7 8 9 Số sinh viên 1 4 7 15 21 14 5 3
Ví dụ 5.2.2. Đo chiều cao của 240 cây, ta thu được bảng thống kê như sau:
Chiều cao 4,5-7,5 7,5-10,5 10,5-13,5 13,5-16,5 16,5-19,5 19,5-22,5
Số cây 18 52 69 41 36 24
b) Biểu diễn bằng biểu đồ
Dùng các biểu đồ tần số, đa giác tần suất, biểu đồ hình bánh, tổ chức đồ ... để minh họa phân phối của mẫu thực nghiệm.
Ví dụ 5.2.3. Hãy minh họa các số liệu mẫu trong ví dụ 5.2.1 và 5.2.2.
0 5 10 15 20 25 2 3 4 5 6 7 8 9 Điểm thi XSTK S ố S in h v iê n Tỷ lệ % điểm thi XSTK 1% 6% 10% 21% 31% 20% 7% 4% 2 3 4 5 6 7 8 9 Chiều cao S ố c â y c) Các đặc trưng mẫu
Dựa vào bảng tần số mẫu, ta có thể xác định các đặc trưng mẫu như sau:
.
Ví dụ 5.2.4. Tính các đặc trưng mẫu của mẫu số liệu trong ví dụ 5.2.1. Giải. Lập bảng tính như sau:
2 3 4 5 6 7 8 9 Tổng 1 4 7 15 21 14 5 3 70 2 12 28 75 126 98 40 27 408 4 36 112 375 756 686 320 243 2532 Suy ra .
Chú ý. Nếu số liệu được thống kê tần số dưới dạng khoảng thì ta chọn giá trị đại diện
của mỗi khoảng là trung điểm khoảng đó, sau đó tính các đặc trưng mẫu như trên. Các máy tính bỏ túi dịng MS, ES có chức năng tính nhanh các đặc trưng trên!
BÀI TẬP 5.2
1. Đo độ dài của 30 chi tiết được chọn ngẫu nhiên của 1 loại sản phẩm, ta được mẫu: 39 43 41 41 40 41 43 42 41 39 40 41 44 42 42
41 41 42 43 40 41 41 42 43 39 40 41 39 40 42 Thống kê mô tả mẫu trên.
2. Khảo sát chiều cao của một nhóm trẻ sơ sinh ở tỉnh H, ta thu được kết quả sau: Chiều cao (cm) 44 - 46 46 - 48 48 - 50 50 - 52 52 - 54 54 - 56 56 - 58 Số trẻ 15 62 206 270 212 63 17 Thống kê mô tả mẫu trên.
3. Cho hai mẫu quan sát với các thông tin như sau
Cỡ mẫu Trung bình mẫu Độ lệch mẫu Mẫu 1 80 55 kg 8,3 kg Mẫu 2 100 52 kg 8,7 kg
Gộp hai mẫu lại với nhau. Tính trung bình mẫu và độ lệch mẫu của mẫu gộp.
5.3. Phân phối xác suất của một số đặc trưng mẫu
5.3.1. Một số phân phối trong thống kê
a) Phân phối chuẩn
Trong thống kê, phân phối chuẩn đóng vai trị rất quan trọng trong nhiều phương pháp thống kê. Định nghĩa và tính chất của phân phối chuẩn đã đề cập trong phần 2.4.3.
b) Phân phối Khi-bình phương
Giả sử là các biến ngẫu nhiên độc lập, cùng phân phối . Khi đó biến ngẫu nhiên
gọi là có phân phối Khi-bình phương với bậc tự do . c) Phân phối Student
Giả sử ; và độc lập thì biến ngẫu nhiên
gọi là có phân phối Student với bậc tự do .
5.3.2. Phân phối các đặc trưng mẫu
a) Mẫu sinh từ phân phối chuẩn
Giả sử mẫu ngẫu nhiên sinh từ phân phối chuẩn . Khi đó ta có các kết quả sau:
Trung bình mẫu có phân phối chuẩn . Và do đó thống kê .
Trung bình mẫu và phương sai mẫu độc lập với nhau và các thống kê
b) Xấp xỉ mẫu lớn
Giả sử mẫu ngẫu nhiên sinh từ biến ngẫu nhiên có kỳ vọng , phương sai . Theo định lý giới hạn trung tâm (phần 4.3.1), khi cỡ mẫu lớn thì trung bình mẫu có phân phối xấp xỉ chuẩn .
Xét tham số xác suất . Đặt
( )
thì mẫu sinh từ phân phối nhị thức . Chú ý rằng trung bình mẫu là tần suất mẫu của biến cố và . Khi đó, với cỡ mẫu lớn thì tần suất mẫu có phân phối xấp xỉ chuẩn hay có thể xấp xỉ
Kết quả này thường dùng để ước lượng cho tham số xác suất với cỡ mẫu lớn. Người ta thấy xấp xỉ này là tốt khi hoặc .
Các kết quả này sẽ được sử dụng trong các phương pháp thống kê đề cập ở các chương sau.