BÀI TOÁN ƯỚC LƯỢNG THAM SỐ
Phân phối xác suất của biến ngẫu nhiên thường phụ thuộc vào một số tham số. Việc biết giá trị các tham số này có thể xác định các đặc trưng của biến ngẫu nhiên cũng như tồn bộ thơng tin về phân phối xác suất. Chẳng hạn, giả sử biến ngẫu nhiên quan tâm có phân phối Poisson, biết tham số thì phân phối của hoàn toàn được xác định.
Tuy nhiên, trong thực tế thì giá trị các tham số này không được xác định một cách chính xác mà thường chỉ được ước lượng từ mẫu. Đây là nội dung cơ bản của bài toán ước lượng tham số và là một trong những bài tốn quan trọng của thống kê tốn.
Có hai phương pháp ước lượng cơ bản là ước lượng điểm và ước lượng khoảng tin cậy. Vấn đề quan tâm của mỗi phương pháp ước lượng là đưa ra tiêu chuẩn ước lượng và phương pháp xây dựng các ước lượng đó.
6.1. Ước lượng điểm
Giả sử mẫu ngẫu nhiên sinh từ có phân phối xác suất phụ thuộc vào tham số chưa biết, ta viết . Bài toán ước lượng điểm là dựa vào mẫu tìm một thống kê để ước lượng cho tham số . Khi đó, với một mẫu thực nghiệm thì giá trị cụ thể của thống kê cho một ước lượng điểm của .
Cùng với một mẫu ngẫu nhiên có thể xây dựng nhiều thống kê khác nhau để ước lượng cho tham số. Vì vậy, ta cần lựa chọn thống kê “tốt nhất” để ước lượng. Việc đánh giá các ước lượng điểm thông qua ba tiêu chuẩn cơ bản sau: tiêu chuẩn không chệch, tiêu chuẩn vững và tiêu chuẩn hiệu quả.
Ba tiêu chuẩn trên dựa trên ý tưởng của bài toán sau: Giả sử là một ước lượng điểm cho tham số . Sai số bình phương trung bình của ước lượng , ký hiệu
, xác định bởi
.
Đại lượng đo sự phân tán các giá trị ước lượng điểm xung quanh giá trị tham số ước lượng. Rõ ràng rằng ước lượng càng tốt nếu giá trị càng nhỏ. Việc chọn thống kê ước lượng để làm giảm sai số bình phương trung bình này sẽ dựa vào hai đặc trưng kỳ vọng và phương sai của thống kê ước lượng.
6.1.1. Ước lượng không chệch
Định nghĩa. Thống kê được gọi là ước lượng không chệch của tham số nếu .
Ngược lại, nếu thì gọi là ước lượng chệch của tham số với độ chệch, ký hiệu .
Ý nghĩa. Nếu thống kê là ước lượng không chệch của tham số thì , nghĩa là sai số ước lượng trung bình bằng 0. Vậy tiêu chuẩn khơng chệch tránh được giá trị ước lượng sai lệch về một phía.
Ví dụ 6.1.1. Giả sử tham số là kỳ vọng thì trung bình mẫu là một ước
lượng không chệch của . Tương tự phương sai mẫu là một ước lượng không chệch của tham số .
Ví dụ 6.1.2. Giả sử là hai ước lượng không chệch của tham số thì với mọi
, thống kê có , do
đó cũng là ước lượng không chệch của tham số . Điều này cho thấy ước lượng không chệch là không duy nhất.
6.1.2. Ước lượng hiệu quả
Nếu là hai ước lượng không chệch của tham số và thì suy ra . Và do đó ước lượng gọi là “hiệu quả” hơn so với
. Từ đó ta đưa ra tiêu chuẩn hiệu quả từ tiêu chuẩn không chệch như sau.
Định nghĩa. Thống kê được gọi là ước lượng hiệu quả của tham số nếu là ước lượng khơng chệch có phương sai bé nhất, tức là
với mọi là ước lượng không chệch của tham số .
Việc kiểm tra tiêu chuẩn hiệu quả của một ước lượng là dựa vào bất đẳng thức Cramer-Rao như sau:
Định lý (Bất đẳng thức Cramer-Rao). Giả sử mẫu ngẫu nhiên sinh từ có phân phối xác suất và là một ước lượng không chệch của tham số . Khi đó
,
trong đó gọi là lượng thông tin Fisher về tham số .
Như vậy nếu thống kê là ước lượng không chệch của và thì là ước lượng hiệu quả của .
Ví dụ 6.1.3. Giả sử mẫu sinh từ phân phối Poisson . Chứng minh
rằng trung bình mẫu là ước lượng hiệu quả của tham số .
Giải. Ta có thì . Do đó
Mặt khác, phân phối xác suất của là
Ta có , suy ra
và Khi đó,
Dễ dàng thấy rằng . Vậy ta có điều phải chứng minh.
Ví dụ 6.1.4. Giả sử mẫu sinh từ phân phối chuẩn . Chứng minh
rằng trung bình mẫu là ước lượng hiệu quả của tham số .
Giải. Ta có thì . Do đó
Mặt khác, phân phối xác suất của là
.
Ta có , suy ra
và Khi đó,
Dễ dàng thấy rằng . Vậy ta có điều phải chứng minh.
6.1.3. Ước lượng vững
Định nghĩa. Thống kê được gọi là ước lượng vững của tham số nếu , tức là
Như vậy khi cỡ mẫu càng lớn thì ước lượng vững càng xấp xỉ với giá trị tham số ước lượng. Do đó, độ chính xác của một ước lượng vững phụ thuộc vào cỡ mẫu quan sát. Việc kiểm tra tiêu chuẩn vững của một ước lượng thường dựa vào hai kết quả sau đây.
Định lý. Nếu thống kê thỏa mãn:
a) là một ước lượng không chệch của , tức là ,
b) ,
thì là một ước lượng vững của tham số . Định lý. Nếu thống kê thỏa mãn:
a) (tính tiệm cận khơng chệch),
b) ,
thì là một ước lượng vững của tham số .
Ví dụ 6.1.5. Theo tính chất của trung bình mẫu thì
Nếu thì là một ước lượng vững của kỳ vọng .
BÀI TẬP 6.1
1. Giả sử mẫu sinh từ phân phối mũ . Chứng minh rằng là ước lượng không chệch, hiệu quả và vững của tham số .
2. Giả sử mẫu sinh từ phân phối Bernoulli . Chứng minh rằng là ước lượng không chệch, hiệu quả và vững của tham số .
3. Giả sử mẫu sinh từ có hàm mật độ là , với tham số . Kiểm tra các tiêu chuẩn ước lượng của thống kê dùng để ước lượng cho .
4. Tìm lượng thơng tin Fisher về tham số trong các phân phối xác suất sau:
a) với .
b) , với .
5. Cho và là hai ước lượng không chệch của tham số . Giả sử rằng độc lập và . Tìm hai hằng số sao cho thống kê
là ước lượng không chệch của và có phương sai bé nhất.
6.2. Phương pháp tìm ước lượng
Giả sử là mẫu ngẫu nhiên sinh từ có phân phối xác suất với tham số . Trong phần này ta đưa ra hai phương pháp tìm ước lượng cho tham số là: phương pháp hợp lý cực đại và phương pháp moment.
6.2.1. Phương pháp hợp lý cực đại
Ta định nghĩa hàm xác định bởi
gọi là hàm hợp lý của mẫu.
Định nghĩa. Thống kê làm cực đại hàm hợp lý , tức là , được gọi là ước lượng hợp lý cực đại của .
Nhận xét. Hàm hợp lý là phân phối xác suất của mẫu ngẫu nhiên. Do đó, phương pháp ước lượng hợp lý cực đại dựa trên các quan sát có khả năng xảy ra lớn nhất của mẫu ngẫu nhiên.
Giả sử hàm khả vi, vì hàm logarit là đơn điệu nên thông thường ước lượng hợp lý cực đại là nghiệm của hệ phương trình hợp lý:
Chú ý. Giả sử là một song ánh, là ước lượng hợp lý cực đại của thì ước lượng
hợp lý cực đại của là . Đây là tính bất biến của ước lượng hợp lý cực đại.
Ví dụ 6.2.1. Cho mẫu ngẫu nhiên sinh từ phân phối Poisson . Tìm
ước lượng hợp lý cực đại cho tham số .
Giải. Theo giả thiết thì với phân phối xác suất là
Ta có , suy ra
và Khi đó,
Giải phương trình hợp lý
. Hơn nữa,
. Vậy là ước lượng hợp lý cực đại cho .
Ví dụ 6.2.2. Cho mẫu ngẫu nhiên sinh từ phân phối có hàm mật độ là
. Chứng minh rằng ước lượng hợp lý cực đại của tham số là .
Giải. Hàm hợp lý của mẫu là
.
Do nên và hàm hợp lý là hàm đơn điệu tăng nên
. Vậy ta suy ra điều phải chứng minh.
6.2.2. Phương pháp moment
Moment bậc của biến ngẫu nhiên được xác định bởi
Moment mẫu bậc của mẫu ngẫu nhiên được xác định bởi
Chú ý. Từ đặc trưng moment, ta có thể xác định các đặc trưng khác của biến ngẫu
nhiên. Chẳng hạn kỳ vọng , phương sai … Moment là các đặc trưng tổng quát của phân phối xác suất.
Định nghĩa. Thống kê là nghiệm của hệ phương trình
được gọi là ước lượng moment của .
Chú ý rằng, tùy theo bài toán mà ta dùng moment bậc thích hợp. Số phương trình moment bằng số tham số cần ước lượng.
Ví dụ 6.2.3. Tìm ước lượng moment cho tham số trong ví dụ 6.2.1.
Giải. Ta có nên moment cấp 1 là .
Giải phương trình moment
. Vậy ước lượng moment cho là .
Ví dụ 6.2.4. Cho mẫu sinh từ phân phối chuẩn . Tìm ước lượng
moment cho hai tham số và .
Giải. Ta có nên . Suy ra các moment
Giải hệ phương trình moment
Vậy ước lượng moment cho tương ứng là .
BÀI TẬP 6.2
1. Cho mẫu sinh từ phân phối chuẩn với . Tìm ước lượng hợp lý cực đại cho tham số . Kiểm tra các tiêu chuẩn ước lượng của .
2. Cho mẫu sinh từ phân phối Bernoulli . Tìm ước lượng moment và ước lượng hợp lý cực đại cho tham số . Kiểm tra các tiêu chuẩn ước lượng của các ước lượng thu được.
3. Tìm ước lượng moment và ước lượng hợp lý cực đại cho tham số từ mẫu ngẫu nhiên sinh từ có hàm mật độ sau đây:
a) với .
b) , với .
c) , với .
Kiểm tra các tiêu chuẩn ước lượng của các ước lượng thu được.
4. Cho mẫu sinh từ có phân phối xác suất với , . Tìm ước lượng moment và ước lượng hợp lý cực đại cho tham số .
5. Giả sử thời gian hoạt động (đv: năm) của một loại máy có phân phối mũ . Độ tin cậy của loại máy trên tại thời điểm được định nghĩa là . Tìm ước lượng hợp lý cực đại cho từ mẫu .
6.3. Ước lượng khoảng tin cậy
Giả sử mẫu ngẫu nhiên sinh từ có phân phối xác suất phụ thuộc vào tham số chưa biết. Bài toán ước lượng khoảng tin cậy là dựa vào mẫu tìm hai
thống kê và sao cho
Khi đó khoảng gọi là khoảng ước lượng của tham số với độ tin cậy . , tương ứng gọi là giới hạn tin cậy dưới, giới hạn tin cậy trên.
Khoảng ước lượng thường chọn sao cho có độ tin cậy lớn (thường lớn hơn 90%) và độ rộng của khoảng hẹp theo nghĩa nhỏ.
Ước lượng khoảng mang nhiều thông tin hơn về tham số ước lượng so với ước lượng điểm. Nó đưa ra một đo đo tin cậy về sự chính xác của ước lượng. Khi lấy mẫu lặp lại nhiều lần thì độ tin cậy xác định tỷ lệ số lần lấy mẫu mà có khoảng ước lượng chứa giá trị của tham số. Do đó, với độ tin cậy cao thì ta có thể kết luận giá trị của tham số nằm trong khoảng ước lượng được xác định cụ thể trên một mẫu thực nghiệm.
6.3.1. Phương pháp xây dựng khoảng ước lượng
Để xây dựng ước lượng khoảng, ta thường dựa vào một đại lượng, gọi là đại lượng lõi, có hai đặc tính sau:
i) Nó là hàm chứa các thành phần ngẫu nhiên của mẫu và tham số ước lượng,
ký hiệu .
ii) Nó xác định được phân phối xác suất không phụ thuộc vào tham số, tức là hàm phân phối không phụ thuộc vào .
Khi đó, phương pháp chung để xây dựng khoảng ước lượng cho tham số dựa vào mẫu ngẫu nhiên là:
Bước 1. Tìm đại lượng lõi có hàm phân phối .
Bước 2. Chọn hai giá trị sao cho . Thường
chọn thỏa mãn , .
Bước 3. Biến đổi biến cố về dạng , trong đó
là hai thống kê cần tìm.
Ví dụ 6.3.1. Cho mẫu ngẫu nhiên sinh từ phân phối chuẩn . Với
độ tin cậy , hãy xây dựng khoảng ước lượng cho tham số kỳ vọng , biết rằng đã biết.
Giải. Từ lý thuyết mẫu thì trung bình mẫu có phân phối chuẩn . Do đó
chọn đại lượng lõi là
có phân phối chuẩn tắc .
Khi đó, chọn giá trị gọi là phân vị chuẩn tắc. Theo tính chất hàm , ta có
. Và
. Do đó chọn và . Thực hiện sự biến đổi, ta được
Vậy khoảng ước lượng cho kỳ vọng với độ tin cậy là
6.3.2. Khoảng ước lượng của một số tham số
a) Khoảng ước lượng cho kỳ vọng
Giả sử có phân phối chuẩn . Dựa vào mẫu ngẫu nhiên
sinh từ với trung bình mẫu , phương sai mẫu , xây dựng khoảng ước lượng cho kỳ vọng .
Trường hợp đã biết thì . Theo phương pháp xây dựng trên thì khoảng ước lượng của kỳ vọng với độ tin cậy là:
trong đó gọi là sai số ước lượng. Phân vị chuẩn tắc được tra từ bảng phụ lục I với .
Trường hợp chưa biết thì . Theo phương pháp xây dựng trên thì khoảng ước lượng của kỳ vọng với độ tin cậy là:
trong đó gọi là sai số ước lượng. Phân vị Student được tra từ bảng phụ lục II. Chú ý rằng khi thì .
Chú ý. Nếu biến ngẫu nhiên không tuân theo phân phối chuẩn thì với cỡ mẫu lớn
( ), áp dụng định lý giới hạn trung tâm và luật số lớn thì có phân phối xấp xỉ . Do đó, khoảng ước lượng cho kỳ vọng với độ tin cậy là
trong đó sai số ước lượng .
Ví dụ 6.3.2. Đo chiều dài một loại chi tiết máy 25 lần, ta tính được chiều dài trung
bình của mẫu là 20,05 cm. Biết rằng chiều dài chi tiết máy trên có phân phối chuẩn với . Hãy tìm khoảng ước lượng cho chiều dài trung bình của chi tiết máy trên với độ tin cậy 99%.
Giải. Gọi là chiều dài của một chi tiết máy trên, theo giả thiết thì .
Ta có ; ; và với độ tin cậy tra được . Từ đó tính được sai số ước lượng
.
Khi đó, khoảng ước lượng cho chiều dài trung bình của chi tiết máy trên với độ tin cậy
99% là cm.
b) Khoảng ước lượng cho phương sai
Giả sử mẫu ngẫu nhiên sinh từ . Theo lý thuyết mẫu, ta có
.
Theo phương pháp xây dựng trên thì khoảng ước lượng cho phương sai với độ tin cậy là
trong đó các phân vị được tra từ bảng phụ lục III.
Ví dụ 6.3.3. Đo chiều cao ngẫu nhiên 20 thanh niên trong vùng, ta tính được độ lệch
mẫu là cm. Biết rằng chiều cao tuân theo phân phối chuẩn, hãy ước lượng sự chênh lệch chiều cao của thanh niên vùng trên với độ tin cậy 95%.
Giải. Theo giả thiết, ta có và với độ tin cậy tra từ bảng
phụ lục được . Khi đó khoảng ước lượng cho sự chênh lệch chiều cao của thanh niên vùng trên với độ tin cậy 95% là
hay cm.
c) Khoảng ước lượng cho xác suất (tỷ lệ)
Cho mẫu ngẫu nhiên sinh từ . Ta xây dựng khoảng ước lượng cho tham số xác suất với độ tin cậy .
Gọi số quan sát mẫu thì đại lượng là tần suất mẫu của biến cố . Theo lý thuyết mẫu với cỡ mẫu lớn, áp dụng định lý giới hạn trung tâm và luật số lớn thì
có phân phối xấp xỉ . Do đó, khoảng ước lượng cho xác suất với độ tin cậy là
trong đó sai số ước lượng .
Chú ý. Khoảng ước lượng cho xác suất như trên thường chính xác khi .
Ví dụ 6.3.4. Một lơ thuốc ta kiểm tra 200 ống thì thấy có 17 ống bị đục. Với độ tin cậy
98%, hãy tìm khoảng ước lượng của tỷ lệ ống thuốc bị đục của tồn bộ lơ thuốc.
Giải. Gọi biến cố là “ống thuốc bị đục” và là tỷ lệ ống thuốc bị đục của
tồn bộ lơ thuốc. Theo giả thiết, từ mẫu ta có suy ra . Với độ tin cậy tra được . Từ đó tính được sai số ước lượng
.
Khi đó khoảng ước lượng cho tỷ lệ ống thuốc bị đục của tồn bộ lơ thuốc với độ tin
cậy 98% là .
6.3.3. Bài toán xác định cỡ mẫu
Thơng thường, khi cỡ mẫu càng lớn thì độ rộng (khoảng biến thiên) của khoảng ước lượng càng nhỏ và do đó ước lượng khoảng thu được càng chính xác hơn. Mẫu cỡ lớn địi hỏi chi phí cho điều tra như thời gian, nguồn nhân lực, tiền bạc ..., trong khi đó mẫu cỡ nhỏ thì các kết luận thống kê khơng chính xác. Do đó trên thực tế, trước khi