•Giới thiệu về suy luận thống kê•Tính toán trên dữ liệu mẫu cụ thể, để tìm các tham số,…)x̅,độ lệch chuẩn mẫuđặc trưng mẫu (trung bình mẫu• Tìm hiểu về luật phân phối của– Trung bình mẫu– Tỉ lệ mẫu– Phương sai mẫu
Trang 1Bài 5
LÝ THUYẾT MẪU
Trang 2Mục tiêu buổi học
• Giới thiệu về suy luận thống kê
• Tính toán trên dữ liệu mẫu cụ thể, để tìm các tham số
đặc trưng mẫu (trung bình mẫu ̅, độ lệch chuẩn mẫu
Trang 4Khái niệm và ký hiệu
• Tổng thể (population): tập hợp tất cả những phần tử
mà ta quan tâm.
– Kích thước tổng thể: (thường rất lớn)
– Ví dụ:
• Tập hợp tất cả những người đi bầu trong cuộc bầu cử sắp tới
• Tập hợp tất cả những bóng đèn do nhà máy sản xuất trong tháng.
• Mẫu (sample): 1 tập con bất kỳ của tổng thể.
– Kích thước mẫu: ( ≪ )
– Ví dụ:
• Phỏng vấn ngẫu nhiên 1000 người trước khi cuộc bầu cử diễn ra
(mục đích: tham dò dư luận về khả năng của các ứng viên)
• Chọn ngẫu nhiên 100 bóng đèn để kiểm tra chất lượng.
Trang 5How & what for?
Sampling Lấy mẫu
Inference Suy luậnMục đích: từ thông tin của mẫu suy ra thông tin về tổng thể.
Quá trình này được gọi là suy luận thống kê (inference).
Trang 6Ví dụ về việc lấy mẫu
Muốn tìm chiều cao trung bình của 12000 thanh niên của một khu vực
Không thể khảo sát chiều cao của tất cả 12000 thanh niên
• Tính chiều cao trung bình ̅ của 100 thanh niên này
Từ trung bình mẫu ̅, ta suy ra thông tin về trung bình tổng thể (chiều cao của 12000 thanh niên trong khu vực)
Trang 7Tại sao phải lấy mẫu ?
• Không thể khảo sát tất cả từng phần tử của tổng thể.
Ví dụ: kiểm tra các hộp sữa của một lô hàng.
• Bị giới hạn về thời gian và chi phí
Ví dụ: khảo sát trước mỗi kỳ bầu cử tổng thống Mỹ.
• Ta có thể suy ra được các kết quả thống kê khá chính xác
nếu lấy mẫu hợp lí.
Trang 8Lấy mẫu như thế nào là hợp lý?
• Lấy mẫu ngẫu nhiên : mỗi phần tử trong tổng thể có cơ
hội được chọn như nhau.
• Kích thước mẫu đủ lớn : n càng lớn, thông tin suy luận
về tổng thể càng đáng tin cậy và có ý nghĩa
• Vấn đề: {value of infomation} vs {time & cost} → balance
Trang 9Ví dụ: Khảo sát chiều cao
• Chọn mẫu ngẫu nhiên: n = 100 sinh viên → trung bình mẫu
̅ = 165cm (chiều cao trung bình của 100 sv)
• Gọi là trung bình tổng thể (chiều cao của tất cả sinh viên)
• Bằng tính toán, ta tìm được 1 con số sao cho
̅ < < ̅ + = 95%
Ví dụ, nếu =10cm, thì có đến 95% khả năng trung bình
tổng thể nằm trong khoảng ̅ ± , tức 155 , 175
• 95% được gọi là độ tin cậy , được ký hiệu là 1
• ̅ , ̅ + được gọi là khoảng ước lượng
• Tăng : hoặc ta có độ tin cậy lớn hơn, hoặc ta có khoảng ước
lượng nhỏ hơn (thông tin có giá trị hơn).
Trang 11– Mỗi mẫu cụ thể có một giá trị trung bình ̅.
– Các giá trị ̅ tạo thành phân phối của trung bình mẫu
n = Sample Size
Trang 12• Ước lượng khoảng tin cậy của : ( ̅ < < ̅ + )
• Kiểm định giả thiết: = , > , < ?
Trang 13Tỷ lệ mẫu (tỷ lệ cử tri ủng hộ ông Obama trong số 1000
người được hỏi): = = 60%
Note: Ta hay dùng để suy ra thông tin về tỷ lệ tổng thể
Ví dụ:
• Ước lượng khoảng tin cậy của : ( < < + )
• Kiểm định giả thiết: = , < , > ?
Trang 14Phương sai mẫu
• Phương sai mẫu ngẫu nhiên
Trang 16• Các dạng biểu diễn mẫu thường gặp
• Các dạng biểu diễn mẫu thường gặp
Trang 17Các dạng mẫu thường gặp
• Mẫu dạng điểm : còn gọi là bảng dữ liệu thô
• Mẫu dạng tần số : dữ liệu thô được tổ chức lại theo tần số xuất hiện.
• Mẫu dạng khoảng : dữ liệu thô được chia
thành các khoảng lớp và tần số tương ứng
Trang 18Mẫu dạng điểm, ví dụ
• Dữ liệu về số chai champagne bán ra ở Pháp
từ năm 1962 đến 1969
Trang 19a) Tính các tham số đặc trưng của mẫu ngẫu nhiên có dạng
điểm trên?
b) Chuyển sang mẫu dạng tần số rồi tính các tham số đặc
trưng của mẫu.
Trang 21Khi có các giá trị trùng nhau, ta gom dữ
liệu thô (dạng điểm) về dữ liệu dạng tần số
• : các giá trị cụ thể mẫu
• Tần số : số lần xuất hiện
Trang 22Tham số đặc trưng – Công thức toán
Trang 23Khoảng lớp: min ≤ ≤ max
Tâm lớp = trung bình khoảng lớp = ( min + max)/2
• Dùng để dại diện cho mỗi khoảng lớp
• Sự đại diện này không chính xác → dẫn đến sai số khi tính toán.
Trang 25Tham số đặc trưng – Công thức toán
• Khoảng lớp: min, max
Trang 28Ví dụ
Trong đợt khảo sát việc kinh doanh của một siêu thị trong một số ngày, ta thu được bảng thống kê số liệu về doanh số bán như sau:
Gọi X là doanh số bán trong
một ngày của siêu thị
Với mẫu đã cho hãy tính:
Trang 29• Các dạng biểu diễn mẫu thường gặp
• Các dạng biểu diễn mẫu thường gặp
Trang 30Nội dung
Định lý giới hạn trung tâm
2/9/2017
Trang 31Định lý giới hạn trung tâm
• { , … , } là các BNN độc lập và có cùng luật phân phối với
tổng thể với trung bình và độ lệch chuẩn hữu hạn
Trang 32Phân phối của trung bình mẫu
• Từ tổng thể chọn ra một mẫu ngẫu nhiên kích thước ,
ký hiệu {X , … , X }
• = : trung bình của mẫu ngẫu nhiên
• ̅ = : trung bình của một mẫu cụ thể
• Từ tổng thể, có vô số cách chọn các mẫu có kích thước
Mỗi mẫu có một giá trị trung bình ̅
• Các giá trị của trung bình mẫu cụ thể ̅ tạo nên phân phối
của trung bình mẫu ngẫu nhiên
Trang 33Tính chất của trung bình mẫu
• Kỳ vọng của trung bình mẫu = trung bình tổng thể
=
• Phương sai của trung bình mẫu = phương sai tổng thể
chia cho kích thước mẫu
• càng lớn, càng nhỏ (tuy nhiên luôn không đổi) →các giá trị của ̅ càng tập trung gần =
Trang 34Định lý về phân phối của trung bình mẫu
• Nếu tổng thể có phân phối chuẩn: ~ ( , )
thì trung bình mẫu cũng có phân phối chuẩn:
Trang 36Giải ví dụ
• Gọi là chiều cao của sinh viên TPHCM (tổng thể)
• là chiều cao trung bình của một mẫu ngẫu nhiên gồm 25 sinh viên
• Vì tổng thể có phân phối chuẩn ∼ ,
nên trung bình mẫu có pp chuẩn: ∼ ( , )
• Trong đó = = 172 , = = = 2
• > 174 = 1 < 174 ≈ 15.87%
Trang 37Ví dụ
The contents of soft drink cans is distributed with mean378mL and standard deviation 7.2mL Find the likelihood that
a box of 36 cans has average contents less than 375mL
Tổng thể X: dung tích(mL) của các chai do công ty sản xuất,
với = 378mL, = 7.2mL: dung tích trung bình của 36 chai trong thùng
< 375 ≈ 0.62%
Trang 39Ví dụ
500 vòng bi có trọng lượng trung bình là 150g và độ lệchchuẩn là 0,9g
Chọn một mẫu ngẫu nhiên gồm 100 vòng bi, giả sử trọnglượng vòng bi có phân phối chuẩn
Tìm xác suất để trung bình mẫu có trọng lượng:
a) Trong khoảng 149,8g và 149,9g
b) Lớn hơn 150,3g
Trang 40Phân phối tỷ lệ mẫu
Trang 41Ví dụ
Người ta phát hiện một máy sản xuất có 2% sản phẩm domáy này sản xuất ra bị hỏng Tính xác suất trong 400 sảnphẩm do máy này sản xuất ra có: không dưới 3% sản phẩm
Trang 42Bài tập tương tự
Một công bố về kết quả bầu cử cho thấy một ứng cử viên đạt được 46% số phiếu bầu
a) Tìm xác suất trong 200 số phiếu bầu được chọn ngẫu
nhiên từ tổng số phiếu bầu có đa số phiếu bầu dành cho ứng viên này (tức là có số phiếu lớn hơn 50%)
b) Tìm xác suất trong 1000 số phiếu bầu được chọn
ngẫu nhiên từ tổng số phiếu bầu có đa số phiếu bầu dành cho ứng viên này
Trang 43Bài tập tương tự
Tỷ lệ thanh niên đã tốt nghiệp trung học phổ thông của quận A là 75% Trong đợt tuyển quân đi nghĩa vụ quân sự năm nay, quận A đã gọi ngẫu nhiên 325 thanh niên Tính xác suất để có 80 đến 84 thanh niên bị loại do chưa tốt nghiệp trung học phổ thông?
Trang 44Phân phối của phương sai mẫu
Trang 45Ví dụ áp dụng
Tuổi thọ của bóng đèn hình TV của một công ty sản xuấttuân theo luật PP chuẩn ( , ) (đơn vị : giờ) Chọnngẫu nhiên 10 bóng, tìm xác suất để độ lệch chuẩn mẫu:
a) Nhỏ hơn 50 giờ
b) Trong khoảng từ 50 đến 70 giờ
• = 10 (bóng), = 60 (giờ), S: độ lệch chuẩn mẫu
• Đặt = ( ) , thì ∼ ( 1)
• < 50 = < ( )× = < 6.25
≈ 0.2854
Trang 46Ví dụ
Cho X~ ( , ) Từ tổng thể đặc trưng bởi BNN này, talấy một mẫu gồm 25 quan sát Gọi s2 là phương sai của mẫunày, tìm xác suất
a) P(S2>1200)
b) P(1200 ≤S2≤4300)
Trang 47Ví dụ
• Ta có = ( ) , thì ∼ ( 1)
> 11.52 ≈ 0.985
Trang 48Bài tập
Giả sử tỷ lệ sản phẩm tốt do nhà máy A sản xuất là 30% Khi đó, luật phân phối của tỷ lệ sản phẩm tốt trên một mẫu ngẫu nhiên gồm 100 sản phẩm được chọn từ nhà máy này là
a Phân phối nhị thức với n=100, p=0.3
b Xấp xỉ phân phối chuẩn với trung bình là 30 và
Trang 49A Phân phối chuẩn tắc (phân phối z)
B Phân phối Poisson
C Phân phối Student (phân phối t)
D Phân phối nhị thức
Trang 50Bài tập
Giả sử điểm thi của sinh viên ở một trường đại học
là biến ngẫu nhiên có phân phối chuẩn với kỳ vọng
là 7,2 điểm và độ lệch tiêu chuẩn là 1,2 điểm Khảo sát một mẫu ngẫu nhiên gồm 36 sinh viên Khi đó, trung bình mẫu là biến ngẫu nhiên có kỳ vọng
và độ lệch tiêu chuẩn lần lượt là:
Trang 51We are done!