Giáo trình Thống kê thực hành được biên soạn theo chương trình đào tạo Cử nhân các chuyên ngành: Giáo dục Tiểu học, Giáo dục Mầm non, Địa lý Du lịch,Sư phạm Địa lý, Tâm lý học và Công tác Xã hội của Trường Đại học Sư phạm Đại học Đà Nẵng
Nhập môn xác suất
Không gian mẫu và biến cố
Trong thực tế có nhiều thí nghiệm có thể lặp đi lặp lại nhiều lần trong cùng một điều kiện như nhau nhưng chúng ta không thể biết chắc chắn kết quả sẽ xảy ra khi thực hiện thí nghiệm đó Những thí nghiệm đó ta gọi là phép thử ngẫu nhiên (hay gọi tắt là phép thử) Nói chung, 1 phép thử phải thỏa mãn
- Có thể lặp vô hạn lần trong cùng một điều kiện giống nhau;
- Kết quả của mỗi lần thực hiện phép thử là hoàn toàn ngẫu nhiên.
- Gieo một con xúc xắc Mặc dù làm đi làm lại nhiều lần nhưng mỗi lần gieo lại cho ta kết quả nói chung là khác nhau.
- Hỏi tháng sinh của một sinh viên được chọn ngẫu nhiên.
- Đo chiều cao của một sinh viên được chọn ngẫu nhiên.
Tập tất cả các kết quả có thể xảy ra của một phép thử được gọi làkhông gian mẫu Kí hiệu không gian mẫu là Ω.
Ví dụ 1.2 Khi tung một đồng xu, có hai kết quả có thể xảy ra: xuất hiện mặt sấp (S) hoặc xuất hiện mặt ngữa (N) Không gian mẫu trong trường hợp này là
Ví dụ 1.3 Gieo một con xúc xắc Nếu ta quan tâm đến số chấm xuất hiện trên mặt ngửa của con xúc xắc thì không gian mẫu sẽ là
Nhưng nếu ta chỉ quan tâm đến sự suất hiện mặt chẵn hay mặt lẻ thì không gian mẫu sẽ là
Ví dụ 1.4 Đo chiều cao của một sinh viên được chọn ngẫu nhiên trong lớp học (đơn vị: mét).
Ví dụ 1.5 Hỏi tháng sinh của một sinh viên được chọn ngẫu nhiên trong lớp học.
Mỗi tập con của không gian mẫu được gọi là một biến cố Biến cố chỉ có 1 phần tử được gọi là biến cố sơ cấp, biến cố rỗng (∅) gọi là biến cố không thể, không gian mẫu (Ω) gọi là biến cố chắc chắn.
Một biến cố xảy ra khi thực hiện phép thử nếu kết quả của thực hiện phép thử rơi vào biến cố đó.
Ví dụ 1.6 Hỏi tháng sinh của một sinh viên được chọn ngẫu nhiên trong lớp học.
- Biến cố sinh viên đó sinh vào tháng chẵn là
- Biến cố sinh viên có tháng sinh 32 ngày là ∅.
- Biến cố sinh viên có tháng sinh bé hơn 32 ngày là Ω.
Ví dụ 1.7 Cho không gian mẫu tuổi thọ (năm) của một thiết bị điện tử là Ω = {x ∈ R : x ≥ 0} Biến cố thiết bị điện tử bị hỏng trước 5 năm là
Giáo trình thống kê thực hành
2 Các phép toán trên biến cố
Cho 2 biến cố A và B của không gian mẫuΩ. a) Giao:
A ∩ B (còn có kí hiệu là: A.B), là biến cố xảy ra khi đồng thời hai biến cố A và
Nếu hai biến cố A và B không thể đồng thời xảy ra thì ta nói rằng A và B xung khắc và kí hiệu A ∩ B = ∅.
A ∪ B, là biến cố xảy ra khi có ít nhất một trong hai biến cố A, B xảy ra.
A = {ω ∈ Ω : ω 6∈ A} được gọi là biến cố đối của biến cố A.
Biến cố A xảy ra khi và chỉ khi A không xảy ra.
Biểu đồ Ven minh họa biến cố giao, biến cố hợp và biến cố đối.
Ví dụ 1.8 Tung một con xúc xắc cân đối đồng chất, khi đó có thể xuất hiện mặt 1chấm, 2 chấm, 3 chấm, , 6 chấm.
+ biến cố A = {số chấm của mặt xuất hiện bé hơn 4} = {1; 2; 3}
+ biến cố B = {xuất hiện mặt chẵn} = {2; 4; 6}
Ví dụ 1.9 Đo chiều cao một sinh viên được chọn ngẫu nhiên trong lớp học (đơn vị: mét)
Ví dụ 1.10 Hai xạ thủ cùng bắn vào một mục tiêu, kí hiệu Alà biến cố xạ thủ
1 bắn trúng mục tiêu, B là sự kiện xạ thủ 2 bắn trúng mục tiêu Hãy biểu diễn qua A và B các biến cố sau: a) Cả hai xạ thủ bắn trúng mục tiêu. b) Không có xạ thủ nào bắn trúng mục tiêu. c) Có đúng một xạ thủ bắn trúng mục tiêu. d) Có ít nhất một xạ thủ bắn trúng mục tiêu.
Xác suất biến cố
Xác suất của một biến cố là một số thuộc đoạn [0; 1] dùng để đo lường khả năng xảy ra biến cố đó Xác suất của một biến cố càng lớn thì khả năng xảy ra biến cố đó càng cao.
Kí hiệu P (A) là xác suất biến cố A.
1.2.1 Định nghĩa xác suất cổ điển Định nghĩa Cho không gian mẫuΩ gồmn biến cố sơ cấp có khả năng xảy ra bằng nhau và A là một biến cố Xác suất biến cố A được tính bằng công thức
|Ω| , trong đó |A| là số phần tử của A.
Ví dụ 1.11 Một hộp đựng 3 viên bi xanh (X1, X2, X3) và 2 viên bi đỏ (D1, D2), các viên bi này giống nhau hoàn toàn về kích thước và khối lượng. a) Lấy ngẫu nhiên 1 viên bi.Tính xác suất lấy được bi xanh. b) Lấy ngẫu nhiên 2 viên bi Tính xác suất lấy được 2 bi xanh.
Giáo trình thống kê thực hành
Biến cố lấy được viên bi xanh: A = {X1, X2, X 3}.
Biến cố lấy được 2 viên bi xanh
Từ định nghĩa ta có các tính chất sau:
3) Nếu E 1 và E 2 xung khắc (E 1 ∩ E 2 = ∅) thì
Tổng quát: Nếu E 1 , E 2 , , E n đôi một xung khắc thì
1.2.2 Định nghĩa xác suất bằng tần số tương đối
Nếu không gian mẫu Ω là một tập vô hạn hoặc hữu hạn nhưng các biến cố sơ cấp không đồng khả năng thì ta không thể áp dụng công thức tính xác suất cổ điển Giả sử phép thử C có thể thực hiện lặp đi lặp lại vô hạn lần trong một điều kiện giống hệt nhau Nếu trong n lần thực hiện phép thử C có k n lần xuất hiện biến cố A thì tỉ số f n (A) = k n n được gọi là tần số tương đối xuất hiện biến cố A trong n lần thực hiện phép thử Người ta nhận thấy rằng khi số phép thử tăng ra vô hạn thì tần số tương đối f n (A) dao động rất ít xung quanh 1 hằng số Hằng số đó được định nghĩa là xác suất của biến cố A.
Như vậy, với n đủ lớn ta có P (A) ≈ f n (A) = k n n
Đại số tổ hợp
Nếu một công việc được thực hiện qua k bước.
Bước 1 có n 1 cách thực hiện,
Bước 2 có n 2 cách thực hiện,
Bước k có n k cách thực hiện.
Khi đó, có n 1 × n 2 × × n k cách thực hiện công việc đó.
Số cách sắp xếp n phần tử vào n vị trí sao cho mỗi vị trí có đúng 1 phần tử là n!.
Số tập con k phần tử của một tập n phần tử là
Ví dụ 1.12 Một hộp đựng 4 viên bi xanh, 5 viên bi đỏ và 6 viên bi vàng Các viên bi đồng chất, giống nhau hoàn toàn về kích thước và khối lượng Lấy ngẫu nhiên 5 viên bi Tính xác suất các biến cố sau: a) A: lấy được 1 bi xanh, 2 bi đỏ và 2 bi vàng. b) B: lấy được 3 bi xanh. c) C: lấy được ít nhất 4 bi đỏ. d) D: lấy được ít nhất 1 bi vàng.
Giáo trình thống kê thực hành c) |C| = C 5 4 C 10 1 + C 5 5 suy ra P (C) = 226
Công thức cộng xác suất
Cho A và B là hai biến cố bất kì, ta có
Ví dụ 1.13 Một lớp có 20 sinh viên, trong đó có 10 sinh viên biết tiếng Anh,
12 sinh viên biết tiếng Pháp và 7 sinh viên biết cả 2 thứ tiếng Anh và Pháp. Chọn ngẫu nhiên 1 sinh viên Tìm xác suất sinh viên đó biết ít nhất 1 ngoại ngữ tiếng Anh hoặc tiếng Pháp.
Giải Gọi A là biến cố chọn được sinh viên biết tiếng Anh, B là biến cố chọn được sinh viên biết tiếng Pháp.
Xác suất có điều kiện
Xét ví dụ: Ở một lớp học phần môn Triết gồm 17 sinh viên nam và 13 sinh viên nữ Trong số đó có 12 sinh viên nam và 11 sinh viên nữ thi qua môn Triết. Chọn ngẫu nhiên một sinh viên, xác suất sinh viên đó thi qua môn Triết là 23/30.
Nhưng nếu chọn ngẫu nhiên một sinh viên nam thì xác suất sinh viên đó thi qua môn Triết sẽ là 12/17.
Rõ ràng 2 xác suất trên không bằng nhau Để phân biệt 2 xác suất trên ta kí hiệu A là biến cố sinh viên đó thi qua môn Triết, B là điều kiện sinh viên được chọn là sinh viên nam Khi đó P(A/B)/17 được gọi là xác suất của biến cố
Cho hai biến cố A và B với P (B) > 0, xác suất của A với điều kiện B đã xảy ra, kí hiệu P (A/B), xác định bởi
Ví dụ 1.14 Một hộp đựng 20 bóng đèn tốt, 7 bóng đèn sẽ hỏng sau 1 giờ sử dụng và 3 bóng đèn hỏng Lấy ngẫu nhiên một chiếc sử dụng thấy rằng nó không phải là bóng đèn hỏng Tính xác suất đó là chiếc bóng đèn tốt.
Giải Gọi A là biến cố lấy được bóng đèn tốt, B là biến cố lấy được bóng đèn không phải là bóng đèn hỏng.
Ví dụ 1.15 Trong một vùng dân cư tỉ lệ người hút thuốc là 60%, tỉ lệ người vừa hút thuốc vừa bị viêm phổi là 35% Chọn ngẫu nhiên một người của vùng dân cư đó thấy người này hút thuốc Tìm xác suất để người này bị viêm phổi.
Giải GọiA là biến cố người được chọn hút thuốc,B là biến cố người được chọn bị viêm phổi Xác suất để người này bị viêm phổi là
Công thức nhân xác suất
P (A ∩ B) = P (A/B)P (B) = P (B/A)P (A) Công thức nhân tổng quát:
Ví dụ 1.16 Một hộp đựng 4 chiếc bút mới và 6 chiếc bút cũ Mỗi ngày lấy ngẫu nhiên một chiếc ra sử dụng, cuối ngày trả bút đó lại hộp Tính xác suất a) sau 3 ngày sử dụng hộp còn đúng 2 bút mới. b) sau 2 ngày sử dụng hộp còn đúng 3 bút mới
Giáo trình thống kê thực hành
Giải Kí hiệu A k là biến cố ngày thứ k lấy được bút mới. a) P (A 1 A 2 A 3 ) = P (A 1 )P (A 2 /A 1 )P (A 3 /A 1 A 2 ) = 4
Biến cố độc lập
Ta có thể hiểu hai biến cố A và B độc lập nếu việc xảy ra hay không xảy ra biến cố này không làm thay đổi xác suất xảy ra của biến cố kia Tức là,
Khi đó, nếu biến cố A độc lập với biến cố B thì từ công thức nhân xác suất suy ra
Do đó, ta định nghĩa:
Hai biến cố A và B được gọi là độc lập nếu
P (A ∩ B ) = P (A)P (B). Định lý 1.17 Nếu A và B độc lập thì A và B, A và B, A và B là những cặp biến cố độc lập.
Ví dụ 1.18 Hộp I có 3 bi đỏ và 7 bi xanh; hộp II có 6 bi đỏ và 4 bi xanh Lấy ngẫu nhiên từ mỗi hộp ra 1 viên bi Tìm xác suất để a) lấy được hai viên bi cùng màu đỏ. b) lấy được 1 bi xanh và 1 bi đỏ.
Giải Kí hiệu A là lấy từ hộp I được viên bi màu đỏ, B là lấy từ hộp II được viên bi màu đỏ. a) A và B độc lập nên xác suất lấy được hai viên bi cùng màu đỏ là
Các biến cố A 1 , A 2 , , A n được gọi là độc lập nếu k (2 ≤ k ≤ n) biến cố bất kì
Đại lượng ngẫu nhiên
Xét ví dụ: Tung đồng thời 2 con xúc xắc Gọi X là tổng số chấm trên mặt xuất hiện của hai con xúc xắc.
Ta có không gian mẫu Ω = {(m; n) : m, n = 1, 2, 3, 4, 5, 6}.
X chính là ánh xạ X : Ω → R và mỗi lần thực hiện phép thử (tung xúc xắc) sẽ cho ta một giá trị của X hoàn toàn ngẫu nhiên Ta gọi X là đại lượng ngẫu nhiên Ta có định nghĩa sau.
Cho Ω là không gian mẫu của phép thử C Mỗi ánh xạ X : Ω →R được gọi là đại lượng ngẫu nhiên (mỗi lần thực hiện phép thử C cho một giá trị ngẫu nhiên của X).
- Nếu X có miền giá trị là tập hữu hạn {x 1 , x 2 , , x n } hoặc tập đếm được {x 1 , x 2 , , x n , } thì X được gọi là đại lượng ngẫu nhiên rời rạc.
- NếuX có miền giá trị là một khoảng trên trục số thìX được gọi làđại lượng ngẫu nhiên liên tục.
Ví dụ 1.19 Tung một con xúc xắc, gọiX là "Số chấm xuất hiện" Miền giá trị của X là {1; 2; 3; 4; 5; 6} nên X là đại lượng ngẫu nhiên rời rạc.
Ví dụ 1.20 Gọi X (mét) là chiều cao của một sinh viên được chọn ngẫu nhiên trong lớp học X có miền giá trị (0; +∞) nênXlà đại lượng ngẫu nhiên liên tục.
Đại lượng ngẫu nhiên rời rạc
1.9.1 Bảng phân phối xác suất
Cho đại lượng ngẫu nhiên X có miền giá trịE = {x 1 , x 2 , , x n , } Bảng số
Giáo trình thống kê thực hành
P P (X = x 1 ) P (X = x 2 ) P (X = x n ) được gọi là bảng phân phối xác suất của X.
Ví dụ 1.21 Một hộp đựng 3 viên bi xanh và 2 viên bi đỏ, các viên bi giống nhau hoàn toàn về kích thước và khối lượng Lấy ngẫu nhiên ra 2 sản phẩm, gọi
X là số bi xanh có trong 2 viên bi lấy ra Lập bảng phân phối xác suất của X. Giải.
Chú ý Nếu đại lượng ngẫu nhiên X có miền giá trị {x 1 , x 2 , , x n , } thì
1.9.2 Hàm phân phối xác suất
Cho đại lượng ngẫu nhiên X có miền giá trị {x 1 , x 2 , , x n , } Hàm số
P (X < x i ), x ∈R được gọi là hàm phân phối xác suất của đại lượng ngẫu nhiên X.
Ví dụ 1.22 Tìm hàm phân phối của X trong Ví dụ 1.21.
1 Kì vọng (giá trị trung bình)
Giả sử đại lượng ngẫu nhiên rời rạc X có bảng phân phối xác suất
Kì vọng củaX, kí hiệu E(X), xác định bởi
Ví dụ 1.23 Cho đại lượng ngẫu nhiên X có bảng phân phối xác suất
2 Phương sai và độ lệch chuẩn Để đo độ phân tán các giá trị của đại lượng ngẫu nhiên X xung quanh giá trị trung bình người ta đã đưa ra khái niệm phương sai xác định như sau
Giả sử đại lượng ngẫu nhiên X có bảng phân phối
P p 1 p 2 p n với p k = P (X = x k ) Phương sai, kí hiệu V (X), xác định bởi
# 2 Độ lệch chuẩn của X là σ(X) =p
Giáo trình thống kê thực hành Ý nghĩa của phương sai Phương sai của một đại lượng ngẫu nhiên X càng nhỏ thì độ phân tán các giá trị của X gần xung quanh giá trị trung bình E(X) càng thấp.
Ví dụ 1.24 Số lượng tin nhắn được gửi trong 1 giờ ở một mạng máy tính có bảng phân phối xác suất:
Tính trung bình và độ lệch chuẩn số tin nhắn trong 1 giờ của mạng máy tính trên.
Đại lượng ngẫu nhiên liên tục
1.10.1 Hàm mật độ xác suất
Hàm sốf (x)xác định trên toàn trục số được gọi là hàm mật độcủa đại lượng ngẫu nhiên liên tục X nếu thỏa mãn 3 điều kiện
Nếu f(x) là hàm mật độ của đại lượng ngẫu nhiên liên tục X thì từ (3) ta có xác suất để X nhận giá trị trên đoạn [a; b] bằng diện tích hình phẳng giới hạn bởi đồ thị y = f (x), trục hoành y = 0 và hai đường thẳng x = a, x = b Vì vậy nếu khoảng cách từ a đến b càng nhỏ thì xác suất đó tiến tới 0, hay với ε > 0,
Z a−ε f(x)dx, cho ε → 0 ta có P (X = a) = 0 Vì vậy:
Nếu X là đại lượng ngẫu nhiên liên tục thì P (X = a) = 0 với mọi a và
1.10.2 Hàm phân phối xác suất
Cho đại lượng ngẫu nhiên liên tục X có hàm mật độ xác suất f(x) Hàm số
−∞ f(t)dt, x ∈R được gọi là Hàm phân phối xác suất của đại lượng ngẫu nhiên X.
Hàm phân phối F (x)của đại lượng ngẫu nhiên liên tục X có các tính chất sau:
(5) F 0 (x) = f (x) với f(x) là hàm mật độ xác suất.
Giáo trình thống kê thực hành
1 Kì vọng, phương sai và độ lệch chuẩn
Giả sử đại lượng ngẫu nhiên liên tục X có hàm mật độ f (x).
Kì vọng của X, kí hiệu E(X), xác định bởi
Phương sai của X, kí hiệu V (X), xác định bởi
−∞ xf(x)dx) 2 Độ lệch chuẩn của X là σ(X) =p
Một số phân phối xác suất quan trọng
1.11.1 Phân phối Bernoulli Định nghĩa Đại lượng ngẫu nhiên rời rạc X được gọi là có phân phối Bernoulli với tham số p ∈ (0; 1) nếu miền giá trị của X là {0, 1} và
1.11.2 Phân phối nhị thức Định nghĩa
Cho Ω là không gian mẫu của phép thử C và A là một biến cố thỏa mãn
Thực hiện liên tiếp n lần độc lập phép thử C Gọi X là số lần xuất hiện biến cố
A Xác suất để X = k (có k lần xuất hiện biến cố Avà n − k lần không xuất hiện biến cố A) là
P (X = k) = C n k p k (1 − p) n−k Đại lượng ngẫu nhiên rời rạc X được gọi là có phân phối nhị thứcvới tham số n và p (n ∈N \ {0} , p ∈ (0; 1)) nếu X có miền giá trị E = {0, 1, 2, , n} và
Ví dụ 1.25 Tỉ lệ phế phẩm của một nhà máy là 10% Lấy ngẫu nhiên 3 sản phẩm của nhà máy này, gọi X là số phế phẩm trong 3 sản phẩm lấy ra Lập bảng phân phối xác suất của X.
(i) Nếu X ∼ Bin(n, p) thì E (X) = np và V (X) = np(1 − p).
(ii) Nếu X 1 , X 2 , , X n làn đại lượng ngẫu nhiên độc lập cùng phân phối Ber(p) thì đại lượng ngẫu nhiênX = X 1 + X 2 + +X n có phân phối nhị thứcBin(n, p).
Ví dụ 1.26 Tỉ lệ phế phẩm của một nhà máy là 12% Các sản phẩm của nhà máy được đóng gói thành từng hộp, mỗi hộp 20 sản phẩm. a) Trung bình mỗi hộp chứa bao nhiêu phế phẩm? Tính độ lệch chuẩn số phế
Giáo trình thống kê thực hành phẩm trong mỗi hộp. b) Một khách hàng mua ngẫu nhiên một hộp sản phẩm Tính xác suất hộp đó có chứa phế phẩm.
Gọi X là số phế phẩm trong mỗi hộp Suy ra X ∼ Bin(20; 0, 12). a) E(X) = np = 2, 4. b) P (X ≥ 1) = 1 − P (X = 0) = 1 − 0, 88 3 = 0, 318528.
1 Định nghĩa Đại lượng ngẫu nhiên liên tục X được gọi là có phân phối chuẩn nếu X có hàm mật độ: f (x) = 1 σ √ 2π e −
Dưới đây là hình dáng đồ thị của hàm mật độ f(x) của phân phối chuẩn:
2 Phân phối chuẩn tắc Đại lượng ngẫu nhiờn cú phõn phối chuẩn với à = 0 và σ = 1 được gọi là phõn phối chuẩn tắc và kí hiệu là Z Khi đó, hàm mật độ xác suất được kí hiệu là ϕ(x), ϕ(x) = 1
2 ; hàm phân phối xác suất được kí hiệu là Φ(x), Φ(x) = x
Giáo trình thống kê thực hành
Tính Φ(x) bằng máy tính Casio
- Vào Mode tìm SD: Mode→Mode→1 (SD);
- Vào Mode tìm 1-Var: Mode→3 (Stat)→1 (1-Var)→ AC
(iii) Nếu X 1 , X 2 , , X n là các đại lượng ngẫu nhiên độc lập, cùng phân phối xác suất với X ∼ N (à; σ 2 ) thỡ
Ví dụ 1.29 Cho ĐLNN liên tục X ∼ (1, 4) Tính P (X < 4, 5), P (X > 0),
Ví dụ 1.30 Giả sử số đo chiều dài của một sợi dây kim loại do một máy tự động cắt ra là một đại lượng ngẫu nhiờn chuẩn với à = 10mm, σ 2 = 4mm 2 a) Tính xác suất lấy ra được một sợi dây có chiều dài lớn hơn 13mm. b) Tìm tỉ lệ sợi dây do máy cắt ra có chiều dài từ 8,5mm đến 12,5mm.
Các định lí giới hạn
1.12.1 Luật số lớn Định lý 1.31 (Luật yếu số lớn) Dãy {X n , n ≥ 1} các đại lượng ngẫu nhiên độc lập, cựng phõn phối xỏc suất với đại lượng ngẫu nhiờn X cú kỡ vọng E(X) = à và phương sai V (X) = σ 2 hữu hạn thì n→∞ lim P (| 1 n n
X k − à| ≤ ε) = 1 với mọi ε > 0. Ý nghĩa của luật số lớn: Nếu X 1 , X 2 , , X n là các đại lượng ngẫu nhiên độc lập, cùng phân phối xác suất với đại lượng ngẫu nhiên X thì với n đủ lớn ta có
1.12.2 Định lí giới hạn trung tâm Định lý 1.32 Giả sử {X n , n ≥ 1} là dãy các đại lượng ngẫu nhiên độc lập, cùng phõn phối xỏc suất X cú kỡ vọng E(X) = à và phương sai V (X) = σ 2 hữu hạn, khi đó n→∞ lim P ( X n − à σ/ √ n < x) = Φ 0 (x) x ∈R , trong đó X n = 1 n (X 1 + X 2 + + X n ). Ý nghĩa Định lí giới hạn trung tâm: Nếu X 1 , X 2 , , X n là các đại lượng ngẫu nhiên độc lập, cùng phân phối xác suất (không cần thiết có phân phối
Giáo trình thống kê thực hành chuẩn) thì với n đủ lớn ta có
S = X 1 + X 2 + + X n ≈ N (nà; nσ 2 ) và X = X 1 + X 2 + + X n n ≈ N (à; σ 2 /n). THỰC HÀNH SỬ DỤNG EXCEL 2010 Đại lượng ngẫu nhiên Giá trị cần tính Hàm trong Excel
1.1 Một nhà khách có 6 phòng đơn Có 10 khách đến thuê phòng, trong đó có 6 nam và 4 nữ Người quản lí chọn 6 người Tính xác suất để : a) Cả 6 người đều là nam. b) Có 4 nam và 2 nữ c) Có ít nhất 2 nữ. d) Có ít nhất 1 nữ ĐS : a 1/210 b 3/7 c 37/42 d.209/210
1.2 Bộ bài có 52 lá, trong đó có 4 lá Át Lấy ngẫu nhiên 3 lá Tính xác suất có: a) 1 lá Át b) 2 lá Át ĐS : a 0,204 b 0,013
1.3 Một bình có 10 bi, trong đó có 3 bi đỏ, 4 bi xanh, 3 bi đen Lấy ngẫu nhiên 4 viên Tính xác suất để có: a) 2 bi xanh b) 1 xanh, 1 đỏ, 2 đen. ĐS: a 90/210 b 36/210
1.4 Có 15 sản phẩm, trong đó có 3 phế phẩm, được bỏ ngẫu nhiên vào 3 cái hộp I, II, III, mỗi hộp 5 sản phẩm Tính xác suất: a) Ở hộp thứ I chỉ có 1 phế phẩm. b) Các hộp đều có phế phẩm. c) Các phế phẩm đều ở hộp thứ III. ĐS: a 0,495 b 0,275 c 0,022
1.5 Trong đề cương ôn tập môn học gồm 10 câu hỏi lý thuyết và 30 bài tập. Mỗi đề thi gồm có 1 câu hỏi lý thuyết và 3 bài tập được lấy ngẫu nhiên trong đề cương Một học sinh A chỉ học 4 câu lí thuyết và 12 câu bài tập trong đề cương. Khi thi học sinh A chọn ngẫu nhiên 1 đề thi trong cấc đề thi được tạo thành từ đề cương Biết rằng học sinh A chỉ trả lời được câu lí thuyết và bài tập đã học. Tính xác suất để học sinh A a) không trả lời được lí thuyết. b) chỉ trả lời được 2 câu bài tập. c) đạt yêu cầu, biết rằng muốn đạt yêu cầu thì phải trả lời được câu hỏi lý thuyết và ít nhất 2 bài tập. ĐS: a 0,6 b 0,176 c 0,1387
1.6 Xếp ngẫu nhiên 5 người vào một cái bàn dài có 5 chỗ ngồi Tính xác suất a) xếp A và B đầu bàn b) xếp A và B cạnh nhau ĐS: a 0,1 b 0,4
1.7 Một mẫu gồm 2000 người lớn được hỏi họ đã từng mua hàng qua mạng Internet chưa Bảng sau cho thấy kết quả trả lời của họ. Đã từng mua Chưa bao giờ mua
Nếu chọn ngẫu nhiên một người từ 2000 người này, tính xác suất để người này:
- Chưa bao giờ mua hàng qua Internet?
Giáo trình thống kê thực hành
- Đã từng mua hàng qua Internet và biết rằng người này là nam?
- Là nữ và biết rằng người này chưa từng mua hàng qua Internet?
1.8 Một công ty sử dụng hai hình thức quảng cáo là quảng cáo trên đài phát thanh và quảng cáo trên tivi Giả sử có 25% khách hàng biết được thông tin quảng cáo qua tivi và 34% khách hàng biết được thông tin quảng cáo qua đài phát thanh và 10% khách hàng biết được thông tin quảng cáo qua cả hai hình thức quảng cáo Tìm xác suất để chọn ngẫu nhiên một khách hàng thì người đó biết được thông tin quảng cáo của công ty. ĐS:49%
1.9 Trong một mẫu điều tra khảo sát, 1800 công dân lớn tuổi được hỏi họ có bao giờ đã từng là nạn nhân của sự quảng cáo không trung thực trên ti vi chưa. Bảng sau cho thấy các câu trả lời của họ:
Tuổi Đã từng là nạn nhân (D) Chưa bao giờ là nạn nhân (E)
Chọn ngẫu nhiên một người từ mẫu điều tra khảo sát trên Tính xác suất: a) P (B ∪ D). b) P (C ∪ E ).
1.10 Một công ty đầu tư hai dự án A và B Xác suất công ty bị thua lỗ dự án A là 0,1; bị thua lỗ dự án B là 0,2 và thua lỗ cả 2 dự án là 0,05 Tính xác suất công ty có đúng 1 dự án bị thua lỗ. ĐS: 0,2
1.11 Một sinh viên phải thi liên tiếp 2 môn là triết học và toán Xác suất qua môn triết là 0,6 và qua toán là 0,7 Nếu trước đó đã qua môn triết thì xác suất qua toán là 0,8 Tính các xác suất a) qua cả hai môn b) qua ít nhất 1 môn c) qua đúng 1 môn d) qua toán biết rằng đã không qua triết ĐS: a 0,48 b 0,82 c 0,34 d 0,55
1.12 Một hộp bút có 10 cây bút, trong đó có 7 cây đã sử dụng Ngày thứ
1 người ta lấy ngẫu nhiên từ hộp bút 1 cây để sử dụng , cuối ngày trả cây bút vào hộp, ngày thứ 2 và ngày thứ 3 cũng thực hiện như thế Tính xác suất : a) sau ngày thứ 3 trong hộp không còn cây bút mới nào. b) 3 cây bút lấy ra ở 3 ngày đều là bút đã sử dụng c) 2 ngày đầu lấy bút mới , ngày thứ 3 lấy bút đã sử dụng
1.13 Một nhóm gồm 2000 người lớn được chọn ngẫu nhiên để hỏi ý kiến họ ủng hộ hay chống đối việc nhân bản vô tính Sau đây là kết quả trả lời của họ: Ủng hộ Chống đối Không có ý kiến
Nữ 300 680 120 a) Nếu chọn ngẫu nhiên một người từ 2000 người này, tính xác suất để người này:
- Ủng hộ việc nhân bản vô tính.
- Chống đối việc nhân bản vô tính.
- Ủng hộ việc nhân bản vô tính và biết rằng người được hỏi là nữ.
- Là nam và biết rằng người được hỏi là người không có ý kiến. b) Các biến cố “nam” và “ủng hộ” có phải là biến cố xung khắc không? Hỏi tương tự với các biến cố “ủng hộ” và “chống đối”? Giải thích tại sao. c) Các biến cố “nữ” và “không có ý kiến” là độc lập nhau phải không? Giải thích tại sao.
1.14 Có hai lô hàng Lô I có 90 chính phẩm và 10 phế phẩm, lô II có 80 chính phẩm và 20 phế phẩm Lấy ngẫu nhiên từ mỗi lô 1 sản phẩm Tính xác suất để a) Lấy được 1 chính phẩm. b) Lấy được ít nhất 1 chính phẩm. ĐS:a 0,26 b 0,98
Giáo trình thống kê thực hành
Thống kê mô tả và ước lượng tham số
Khái niệm mẫu và tổng thể
Trước hết ta xét ví dụ sau: để điều tra chiều cao của thanh niên Việt Nam từ 18 tuổi đến 25 tuổi, người điều tra phải lập danh sách tất cả thanh niên Việt Nam có độ tuổi từ 18 đến 25 Ứng với mỗi thanh niên, ghi chiều cao của thanh niên đó Khi đó:
- Tập hợp toàn bộ thanh niên Việt Nam có độ tuổi từ 18 đến 25 được gọi làtổng thể (population).
- Mỗi thanh niên được điều tra được gọi là cá thể của tập hợp chính.
- Chiều cao của mỗi thanh niên được gọi là một biến lượng Giá trị của biến lượng này thay đổi từ cá thể này sang cá thể khác trong tổng thể và được biểu diễn bởi 1 con số Nói cách khác, một biến lượng là ánh xạ đi từ tổng thể lên trục số.
- Vì số lượng thanh niên có độ tuổi từ 18 đến 25 trên cả nước là rất lớn nên ta không thể điều tra hết được mà chỉ chọn ra 1 tập hợp con để điều tra Tập hợp con được chọn ra đó được gọi là mộtmẫu, số phần tử của mẫu được gọi là kích thước mẫu, tập tất cả các giá trị chiều cao của các cá thể trong mẫu được gọi là mẫu số liệu. a) Một tổng thể (population) là tập hợp tất cả các đối tượng có chung một tính chất nào đó mà chúng ta đang quan tâm. b) Mỗi phần tử của tổng thể được gọi là một cá thể. c) Một biến lượng (variable) X là ánh xạ từ tập hợp chính lên trục số. d) Việc chọn ra từ tổng thể một tập con nào đó để nghiên cứu được gọi là phương pháp chọn mẫu Tập con được chọn ra đó được gọi là mẫu (sample).Tập các giá trị của biến lượngX trong mẫu được gọi là mẫu số liệu của X.
Nếu phương pháp chọn mẫu là ngẫu nhiên (mỗi cá thể được lấy ra từ tổng thể là độc lập và có xác suất như nhau) thì ta có thể xem biến lượng X là biến ngẫu nhiên Trong phạm vi giáo trình này chỉ đề cập đến phương pháp chọn mẫu ngẫu nhiên.
Các số đặc trưng của một mẫu số liệu
2.2.1 Trung bình mẫu, phương sai mẫu và độ lệch chuẩn mẫu
Cho {x 1 , x 2 , , x n } là mẫu số liệu kích thước n.
1) Trung bình mẫu, kí hiệu là x, được tính theo công thức: x = x 1 + x 2 + + x n n = 1 n n
2) Phương sai mẫu, kí hiệu là s 2 , được tính theo công thức: s 2 = 1 n − 1 n
Ví dụ 2.1 Giả sử ta có mẫu số liệu về chiều cao (mét) của 10 sinh viên một trường đại học như sau:
Giáo trình thống kê thực hành
1,75 1,69 1,73 1,77 1,68 1,73 1,77 1,70 1,74 1,71 Tính trung bình mẫu, phương sai mẫu và độ lệch chuẩn mẫu.
1) Mẫu số liệu cho dạng bảng phân phối tần số rời rạc
2)Mẫu số liệu cho dạng bảng phân phối tần số liên tục
X x 1 x 2 x m n i n 1 n 2 n m ta đưa về Chú ý 1 để tính x, s 2 và s.
Ví dụ 2.3 Doanh thu 100 tháng của một cửa hàng như sau:
Tính trung bình mẫu, phương sai mẫu và độ lệch chuẩn mẫu.
Sắp xếp mẫu số liệu theo thứ tự tăng dần, giả sử x 1 < x 2 < < n n Trung vị mẫu, kí hiệu e x , xác định bởi ex =
Biểu đồ
2.3.1 Biểu đồ hình tròn (Pie chart)
Pie chart thường được dùng để so sánh các giá trị số liệu dưới dạng tỉ lệ % trên 1 hình tròn, toàn bộ hình tròn là 100%.
Ví dụ 2.4 Bảng phân phối tần số tuổi của 40 bệnh nhân như sau:
Khi đó, ta có Pie chart:
2.3.2 Biểu đồ phân phối tần số (Histogram)
1 Mẫu số liệu cho dưới dạng bảng phân phối tần số rời rạc.
Sử dụng hệ trục tọa độ Đề các Oxy để vẽ biểu đồ hình khối với trục hoành là các giá trị x 1 , x 2 , , x m, trục tung là tần số (hoặc tần số tương đối).
Ví dụ 2.5 Số lượng game thủ vượt qua số màn chơi trong một chương trình game có 27 màn online trên mạng internet được cho bởi bảng sau
Giáo trình thống kê thực hành
Số màn Số game thủ Tần số tương đối Số màn Số game thủ Tần số tương đối
2 Mẫu số liệu cho dưới dạng bảng phân phối tần số liên tục.
Sử dụng hệ trục tọa độ Đề các Oxy để vẽ biểu đồ hình khối với trục hoành là các khoảng giá trị [a k−1 ; a k ), trục tung là tần số (hoặc tần số tương đối).
Ví dụ 2.6 Bảng phân phối tần số huyết áp tối đa của 199 bệnh nhân như sau:
Huyết áp Số bệnh nhân
Khi đó, ta có Histogram:
Trường hợp mẫu số liệu cho dạng: x 1 , x 2 , , x n Để xây dựng bảng phân phối tần số ta sẽ chia miền số liệu thành các khoảng có độ dài bằng nhau Số khoảng cần chia tốt nhất là từ 5 đến 20 khoảng, có thể chọn xấp xỉ bằng √ n (hoặc
1 + log 2 (n)) Nếu ta chia dữ liệu thành m khoảng thì độ dài mỗi khoảng xấp xỉ (max{x k } − min{x k })/m.
Ví dụ 2.7 Nghiên cứu sức chịu nén của mẫu hợp kim Nhôm-Liti mới sản xuất (hợp kim sử dụng làm vật liệu chế tao máy bay) người ta thử nghiệm 80 mẫu và thu được số liệu sau (đơn vị pound/inch 2 )
Giải Vì n = 80, √ 80 ≈ 9 nên ta sẽ chia số liệu thành 9 khoảng, mỗi khoảng có độ dài d = (max{x i } − min{x i })/9 ≈ 20 Từ đó ta có
Lớp Tần số Lớp Tần số
Giáo trình thống kê thực hành
Do đó, biểu đồ histogram như sau:
2.3.3 Biểu đồ thanh (Bar chart)
Bar chart thường được dùng để mô tả mối tương quan giữa 2 yếu tố.
Ví dụ 2.8 Bảng số liệu mô tả mối tương quan giữa mức độ béo phì và nhóm tuổi:
Nhóm tuổi Độ béo phì Dưới 50 50-59 60-69 Trên 69
Khi đó, ta có biểu đồ Bar chart:
2.3.4 Biểu đồ xác suất(Probability Plots)
Sắp xếp mẫu số liệu theo thứ tự tăng dần Khi đó, [100(i − 0.5)/n]% được gọi là giá trị phần trăm mẫu của số liệu thứ i với i = 1, 2, , n.
2 Biểu đồ xác suất chuẩn
Cho mẫu số liệu đã sắp thứ tự tăng dần: x 1 ≤ x 2 ≤ x 3 ≤ ≤ x n Tập hợp các điểm có tọa độ (x i ; [100(i − 0.5)/n]%) trong hệ trục tọa đồ hai chiều được gọi là biểu đồ xác suất.
Với mỗi j = 1, 2, , n, gọi z j là số thực thỏa mãn j − 0, 5 n = Φ(z j ).
Biểu đồ xác suất chuẩnlà tập hợp các điểm có tọa độ(x i ; z i )vớii = 1, 2, , n trên hệ trục tọa độ hai chiều.
Ví dụ 2.9 Xây dựng biểu đồ xác suất chuẩn của số liệu sau.
Biểu đồ xác suất chuẩn là
Giáo trình thống kê thực hành
Biểu đồ xác suất chuẩn được sử dụng để kiểm tra phân phối chuẩn của tổng thể từ mẫu số liệu thu được Nếu tổng thể cú phõn phối chuẩn N (à; σ 2 ) thỡ cỏc điểm của biểu đồ sẽ nằm xấp xỉ trờn đường thẳng y = σx + à Đõy là cụng cụ mạnh hơn biểu đồ phân phối tần số, chẳng hạn khi cỡ mẫu nhỏ thì ta không thể sử dụng biểu phân phối tần số được nhưng biểu đồ xác suất chuẩn vẫn giúp ta kiểm tra được phân bố chuẩn của tổng thể.
Ước lượng điểm
Ước lượng điểm kì vọng và phương sai
Giả sử x 1 , x 2 , , x n là một mẫu số liệu của biến ngẫu nhiên X với E(X) = à, V (X) = σ 2 Khi đú x = x 1 + x 2 + + x n n là một ước lượng của à. s 2 = 1 n − 1 n
(x i − x) 2 là một ước lượng của σ 2 Ước lượng điểm tỉ lệ x 1 , x 2 , , x n là một mẫu số liệu của biến ngẫu nhiên X có phân phốiBer(p)với tham số p chưa biết Khi đó p ˆ = x 1 + x 2 + + x n n là một ước lượng của tham số p.
Ước lượng khoảng kì vọng
Giả sử biến ngẫu nhiờn X ∼ N (à; σ 2 ) cú kỡ vọng E(X) = à chưa biết, ước lượng khoảng cho à cú dạng l < à < u.
Với α ∈ (0; 1) khá bé cho trước, giả sử ta xác định được các biến ngẫu nhiên
Khi đó với mỗi giá trị l của L và u củaU ta có được một ước lượng khoảng của à là l < à < u. α gọi là mức ý nghĩa, 1 − α gọi là độ tin cậy của ước lượng.
Phân vị của phân phối chuẩn tắc
Cho α ∈ (0; 1) và Z ∼ N (0; 1) Ta gọi giá trị z α là phân vị mức α của phân phối chuẩn tắc Z nếu P (Z ≥ z α ) = α (tương đương với z α = Φ −1 (1 − α)).
Các phân vị z α có thể tìm ở bảng I.
Giáo trình thống kê thực hành
Nếu {x 1 , x 2 , , x n } là một mẫu số liệu của biến ngẫu nhiờnX ∼ N (à; σ 2 ) với σ 2 đó biết, thỡ với độ tin cậy 1 − α, ước lượng khoảng của à là x − z α/2 σ
Ví dụ 2.11 Trọng lượng (kg) sản phẩm của công ty A có phân phối chuẩn
N (à; σ 2 ) với σ = 1 (kg) Chọn ngẫu nhiờn 25 sản phẩm người ta tớnh được trung bình mẫu x = 50, 1 (kg) Với độ tin cậy 95% hãy ước lượng khoảng trọng lượng trung bình của sản phẩm công ty A.
√ 25 = 0, 4. Ước lượng khoảng trọng lượng trung bỡnh của sản phẩm: 49, 7 < à < 50, 5.
Từ cụng thức ước lượng khoảng à ta thấy rằng sai số của ước lượng |x − à| bé hơn hoặc bằng z(α/2) σ n Do đó với độ tin cậy 1 − α, nếu muốn có ước lượng à cú sai số khụng vượt quỏ ∆ cho trước thỡ ta cần chọn cỡ mẫu n thỏa món z α/2 σ n ≤ ∆ tương đương với n ≥ z α/2 σ
2.5.2 Chưa biết phương sai σ 2 và cỡ mẫu lớn (n > 30)
Trong trường hợp chưa biết phương sai nhưng cỡ mẫu lớn thì ta có thể thay σ bởi ước lượng của nó là s trong công thức ước lượng 2.1 Hơn nữa, khi cỡ mẫu lớn thỡ theo Định lớ giới hạn trung tõm, X − à σ/ √ n có phân phối xác suất xấp xỉ chuẩn tắc Vì vậy khi cỡ mẫu lớn (thường lấyn > 30) thì chúng ta có thể bỏ qua giả thiết phân phối chuẩn của tổng thể.
Nếu {x 1 , x 2 , , x n } là một mẫu số liệu của biến ngẫu nhiờnX ∼ N (à; σ 2 )với σ 2 chưa biết Với n đủ lớn, x − z α/2 s
√ n là ước lượng khoảng của à, với độ tin cậy 100(1 − α)%.
Ví dụ 2.12 Một trường đại học tiến hành một nghiên cứu xem trung bình một sinh viên tiêu hết bao nhiêu tiền điện thoại trong một tháng Một mẫu ngẫu nhiên gồm 59 sinh viên được chọn và thu được kết quả (đơn vị: nghìn đồng)
Với độ tin cậy 95% hãy ước lượng khoảng số tiền điện thoại trung bình hàng thỏng (à) của một sinh viờn.
Giải Vì cỡ mẫu n = 59 > 30 nên ta không cần phải kiểm tra phân phối chuẩn của tổng thể Từ số liệu trên ta tính được x = 41, 12 và s = 27, 97 Từ đó tính được khoảng tin cậy 95% của à là
2.5.3 Chưa biết phương sai σ 2 và cỡ mẫu nhỏ (n≤ 30)
Biến ngẫu nhiên liên tục X được gọi là có phân phối Student n bậc tự do nếu có hàm mật độ f n (x) = Γ( n+1 2 )
0 u x−1 e −u du gọi là hàm Gamma.
Giáo trình thống kê thực hành Đồ thị hàm mật độ f n (x) của phân phối T n có dạng như sau (f n (x) là hàm số chẵn).
Phân vị mức α của phân phối Studentk bậc tự do là giá trị t α,k sao cho P (T k ≥ t α,k ) = α và được cho ở Bảng II.
Nếu {x 1 , x 2 , , x n } là là một mẫu số liệu của biến ngẫu nhiờn X ∼ N (à; σ 2 ) với σ 2 chưa biết, thỡ với độ tin cậy 1 − α, ước lượng khoảng kỡ vọng à là x − t α/2,n−1 s
√ n , trong đó t α/2,n−1 tra ở Bảng II.
Ví dụ 2.14 Một mẫu số liệu về chiều cao của 25 sinh viên đại học A được chọn ngẫu nhiên người ta tính được trung bình mẫu x = 1, 65 (m) với độ lệch chuẩn s = 0, 1 (m) Với độ tin cậy 95% hóy ước lượng khoảng chiều cho trung bỡnh (à) của sinh viên đại học A biết rằng chiều cao của sinh viên đại học A có phân phối chuẩn.
√ n = 0, 04. Ước lượng khoảng chiều cao trung bình của sinh viên với độ tin cậy 59% là
Ví dụ 2.15 Một mẫu số liệu về trọng lượng (kg) của cá trắm 3 tháng tuổi được lấy ngẫu nhiên trong một trang trại nuôi trồng thủy sản như sau:
Với độ tin cậy 95% hãy ước lượng khoảng trọng lượng trung bình của cá trắm 3 tháng tuổi ở trang trại trên.
Từ biểu đồ xác suất chuẩn ta có thể kết luận trọng lượng của cá trắm 3 tháng tuổi ở trang trại trên có phân phối chuẩn. x = 1, 37; s = 0, 355 t α/2,n−1 = t 0.025,21 = 2.080.
√ 22 = 0, 157. Ước lượng khoảng trọng lượng trung bình của cá trắm 3 tháng tuổi ở trang trại:
Giáo trình thống kê thực hành
Ước lượng khoảng tỉ lệ
Nếu {x 1 , x 2 , , x n } là một mẫu số liệu của biến ngẫu nhiên X ∼ Ber(p) với p chưa biết thì với độ tin cậy 1 − α, ước lượng khoảng của p là f − z α/2 rf(1 − f) n < p < f − z α/2 rf (1 − f ) n , trong đó f = x 1 + x 2 + + x n n = k n, z α/2 tra ở Bảng I. Ước lượng trên tốt nhất khi kích thước mẫu n phải lớn, k ≥ 10và n − k ≥ 10.
Ví dụ 2.16 Với độ tin cậy 95% hãy ước lượng tỷ lệ phế phẩm của một nhà máy biết rằng kiểm tra 100 sản phẩm của nhà máy thì thấy có 10 phế phẩm.
100 = 0, 059. Ước lượng khoảng tỉ lệ phế phẩm của nhà máy là 0, 041 < p < 0, 159.
Chú ý 2.17 Ước lượng khoảng tỉ lệ thực chất là ước lượng kì vọng của biến ngẫu nhiên X ∼ Ber(p) với cỡ mẫu lớn (áp dụng Định lí giới hạn trung tâm). Trong đó x = f = k n , s =p f(1 − f).
THỰC HÀNH SỬ DỤNG EXCEL 2010
Giả sử ta có số liệu
2 Vào Insert chọn Pie sau đó chọn dạng biểu đồ
Giáo trình thống kê thực hành
Ví dụ 2.18 Vẽ biểu đồ histogram ở Ví dụ 2.5.
Giả sử nhập số liệu "Số màn" vào cột A (A1 đến A28) và "Số game thủ" vào cột B (B1 đến B28) Chú ý các số ở cột A phải thêm dấu ’ lên trước chữ số, ví dụ ’1.
- Chọn toàn bộ vùng số liệu A1:B27
- Vào Insert -> Column -> Chọn loại biểu đồ thứ nhất của 2D column
- Điều chỉnh độ rộng của các cột: Click vào Biểu đồ -> Nháy phải chuột và chọn Format Data Series Ở Series Opption, điều chỉnh Separated và No Gap cho phù hợp.
Ví dụ 2.19 Vẽ biểu đồ histogram ở Ví dụ 2.7.
Giả sử nhập số liệu vào cột A.
- Vào File -> Opptions -> Add-Ins, chọn Analysis ToolPak -> Go Tiếp theo chọn "Analysis ToolPak" ->OK
- Vào Data -> Data Analysis -> Histogram -> OK Input Range: A1:A80 Output Range: C1
– Chọn toàn bộ vùng số liệu C2:D10
- Vào Insert -> Column -> Chọn loại biểu đồ thứ nhất của 2D column Kết quả
Giả sử ta có số liệu
Giáo trình thống kê thực hành
2 Vào Insert chọn Bar sau đó chọn dạng biểu đồ
Công thức hàm trong Excel Trung bình mẫu (x) =AVERAGE(number1,number2, ) Độ lệch chuẩn mẫu (s) =STDEV(number1,number2, )
Trung vị MEDIAN(number1,number2, ) z γ s
Ví dụ 2.20 Thực hành trên Excel Ví dụ 2.12.
Giả sử số liệu được nhập vào các ô từ A1 đến A59.
- Tính trung bình mẫu vào ô B1: =AVERAGE(A1:A59)
- Tính độ lệch chuẩn mẫu vào ô B2: =STDEV(A1:A59)
- Lấy B1-B3 và B1+B3 ta được cận dưới và cận trên của ước lượng.
Ví dụ 2.21 Thực hành trên Excel Ví dụ 2.15.
Bước 1: vẽ biểu đồ xác suất chuẩn để kiểm tra phân phối chuẩn của tổng thể.
- Nhập số liệu vào cột A, từ A1 đến A22
- Sắp xếp số liệu theo thứ tự tăng dần
- Nhập từ 1 đến 22 vào ô C1 đến C22
- Tính (j − 0.5)/n vào cột D (từ D1 đến D22): =(Cj-0.5)/22
- Tính z j = Φ −1 ( j − 0, 5 n ) vào cột B (từ B1 đến B22): =NORMSINV(Dj)
- Bôi đen từ A1 đến B22, Vào Insert -> Scatter
Giáo trình thống kê thực hành
Bước 2: Tìm ước lượng khoảng
- Tính trung bình mẫu vào ô E1: =AVERAGE(A1:A22)
- Tính độ lệch chuẩn mẫu vào ô E2: =STDEV(A1:A22)
- Lấy E1-E3 và E1+E3 ta được cận dưới và cận trên của ước lượng.
2.1 Giải thích những cái sau đây, cái nào là tổng thể, cái nào là mẫu. a) Điểm môn thống kê thực hành của tất cả các sinh viên của một lớp. b) Thu nhập năm của 100 hộ nông dân vùng đồng bằng sông Hồng. c) Lương tháng của tất cả công nhân thuộc công ty. d) Số máy tính bán ra trong một tháng của tất cả cửa hàng máy tính trong thành phố. e) Sản lượng lúa trung bình trên một mẫu của 10 vùng nông nghiệp lớn.
2.2 Bảng sau trình bày phân phối tần số của tuổi của tất cả 50 nhân viên của một công ty.
57 đến 69 5 a) Vẽ biểu đồ Pie chart, Histogram. b) Tính trung bình mẫu, phương sai mẫu và độ lệch chuẩn mẫu.
2.3 Bảng phân phối tần số huyết áp tối đa của 199 bệnh nhân như sau:
Huyết áp Số bệnh nhân
165-175 6 a) Vẽ biểu đồ histogram. b) Tìm trung bình mẫu , phương sai mẫu, trung vị mẫu.
2.4 Có số liệu về tuổi thọ (giờ) của 1 mẫu ngẫu nhiên gồm 30 bóng đèn được sản xuất trong 1 ca làm việc tại 1 phân xưởng như sau:
840 810 810 830 800 800 a) Vẽ biểu đồ hình tròn, biểu đồ phân phối tần số,biểu đồ xác suất chuẩn. b) Tìm trung bình mẫu , phương sai mẫu, trung vị mẫu.
2.5 Có tài liệu về lượng nước tiêu thụ (m 3 /tháng) của 100 hộ gia đình tại huyện X như sau:
Lượng nước tiêu thụ (m 3 /tháng) Tần số
Giáo trình thống kê thực hành a) Tính trung bình mẫu và phương sai mẫu. b) Vẽ biểu đồ phân phối tần số Từ biểu đồ có thể xem số liệu có phân phối chuẩn không?
2.6 Để nghiên cứu tình hình năng suất lao động của công nhân tại 1 xí nghiệp, người ta chọn ngẫu nhiên 1 mẫu 100 công nhân và thu được kết quả như sau:
Năng suất lao động (số sp) Số công nhân
Yêu cầu: a) Tính số trung bình, phương sai, độ lệch chuẩn ? b) Vẽ biểu đồ phân phối tần số số liệu trên.
2.7 Công ty bao bì Hải Pack đang nhập lô hàng 20.000 bao hạt nhựa của một nhà cung cấp quen Dữ liệu quá khứ cho thấy khối lượng của các bao hạt nhựa này tuân theo luật phân phối chuẩn với phương sai 36(kg 2 ) Chọn ngẫu nhiên
25 bao hạt nhựa để cân thu được giá trị trung bình là 96 Kg/bao Với độ tin cậy 95% hãy ước lượng khoảng tin cậy đối xứng khối lượng trung bình của 20.000 bao hạt nhựa này.
2.8 Doanh số của một cửa hàng là biến ngẫu nhiên phân phối chuẩn với độ lệch chuẩn là 2 triệu đồng/tháng Điều tra ngẫu nhiên doanh số của 600 cửa hàng có quy mô tương tự nhau tìm được doanh số trung bình là 8,5 triệu Với độ tin cậy 95% hãy ước lượng doanh số trung bình của các cửa hàng thuộc quy mô đó.
2.9 Cho một ô tô chạy thử 30 lần từ A đến B người ta ghi nhận được lượng xăng hao phí như sau:
Lượng xăng hao phí (lít) Tần số
[10, 4; 10, 6) 4 a) Vẽ biểu đồ phân phối tần số, nhận xét phân bố chuẩn của tổng thể. b) Với độ tin cậy 95%, hãy ước lượng khoảng lượng xăng hao phí trung bình từ
A đến B của loại ô tô trên.
2.10 Để định mức thời gian gia công một chi tiết máy, người ta theo dõi ngẫu nhiên quá trình gia công 25 chi tiết và thu được số liệu sau:
Thời gian gia công (phút) Tần số
[25; 27) 2 a) Vẽ biểu đồ phân phối tần số, nhận xét phân bố chuẩn của tổng thể. b) Bằng khoảng tin cậy đối xứng hãy ước lượng khoảng thời gian gia công trung bình một chi tiếu máy với độ tin cậy 1 − α = 0, 95.
2.11 Lấy ngẫu nhiên 25 chi tiết do máy đó gia công, đem đo và thu được chiều dài (cm) như sau:
26,4 25,4 23,3 23,0 24,3 a) Vẽ biểu đồ xác suất chuẩn Nhận xét phân bố chuẩn của tổng thể. b) Với độ tin cậy 95% hãy ước lượng chiều dài trung bình chi tiết do máy đó gia công.
2.12 Để nghiên cứu về ô nhiễm thủy ngân trong một loài cá sống trong hồ, một mẫu 53 con cá đã được lựa chọn từ hồ, kết quả nồng độ thủy ngân được như sau (đơn vị: 10 −4 %)
Giáo trình thống kê thực hành
Với độ tin cậy 95% hãy ước lượng khoảng nồng độ thủy ngân trung bình có trong loài cá trên.
Kiểm định giả thuyết
Khái niệm chung
3.1.1 Giả thuyết thống kê và kiểm định giả thuyết thống kê
Với mỗi biến ngẫu nhiên đều gắn với một hàm mật độ xác suất nào đó và mỗi hàm mật độ xác suất lại chứa một hay nhiều tham số mà nhiều khi ta chưa thể xác định được các tham số này Chẳng hạn, phân phối nhị thức có hàm mật độ f (x) = C n x p x (1 − p) n−1 , x ∈ {0; 1; ; n} chứa tham số p; phân phối chuẩn có hàm mật độ f (x) = 1 σ √
2π e − (x−à)2 2σ 2 , x ∈ R chứa tham số à và σ 2 Trong chương trước, chúng ta đã xây dựng ước lượng khoảng một tham số từ dữ liệu mẫu Tuy nhiên, nhiều vấn đề trong thực tiễn yêu cầu chúng ta cần phải ra quyết định chấp nhận hoặc từ chối một khẳng định về một tham số nào đó của một biến ngẫu nhiên hoặc các số đặc trưng của một tổng thể trên cơ sở mẫu số liệu của biến ngẫu nhiên đó mà ta quan sát được.
Giả thuyết thống kê là một khẳng định về giá trị tham số của biến ngẫu nhiên hoặc giá trị các số đặc trưng của một tổng thể, về phân phối xác suất của một biến ngẫu nhiên hoặc của một tổng thể.
(1) à là tuổi thọ trung bỡnh của người Việt Nam Giả thuyết thống kờ cú thể là: à = 60 (tuổi) hoặc à > 60, hoặc à 6= 60,
(2) p là tỉ lệ phế phẩm của nhà máy A Giả thuyết thống kê có thể là: p < 0, 1 hoặc p = 0, 1 hoặc p 6= 0, 1,
(3) X là chiều cao của nam thanh niên Việt Nam Giả thuyết thống kê có thể là: X có phân phối chuẩn hoặc X không có phân phối chuẩn,
Trong các bài toán kiểm định giả thuyết, có 2 giả thuyết mâu thuẫn nhau được đưa ra để xem xét Chẳng hạn, giả thuyết tỉ lệ phế phẩm của nhà máy: p < 0, 1 và p ≥ 0, 1, giả thuyết tuổi thọ trung bỡnh: à = 60 và à 6= 60 1 trong
2 giả thuyết đó gọi là giả thuyết không được kí hiệu là H 0 và giả thuyết còn lại gọi là đối thuyết được kí hiệu là H 1 Giả thuyết H 0 được xem là giả thuyết đúng, thủ tục kiểm định giả thuyết là phương pháp sử dụng số liệu thu thập được để để bác bỏ H 0 Giả thuyết không H 0 bị bác bỏ và chấp nhận đối thuyết
H 1 khi có đủ cơ sở để cho rằngH 0 sai Nếu mẫu số liệu thu thập được không đủ mạnh để chứng tỏ H 0 sai thì ta sẽ tiếp tục chấp nhận H 0 đúng Việc công nhận
H 0 đúng ở đây cần hiểu là các chứng cứ và số liệu thu thập được chưa có cơ sở để bác bỏ H 0 , cần phải nghiên cứu tiếp.
Ví dụ 3.1 Gieo 1 đồng xu 100 lần thấy có 60 lần xuất hiện mặt sấp Ta nghi ngờ rằng xác suất xuất hiện mặt sấp lớn hơn xác suất xuất hiện mặt ngữa Gọi p là xác suất xuất hiện mặt sấp Như vậy ta có bài toán kiểm định giả thuyết là
H 0 : p = 0, 5, H 1 : p > 0, 5 Thủ tục kiểm định ở đây là dựa trên kết quả của 100 lần tung đồng xu để bác bỏ H 0 Nếu không chứng minh được H 0 sai thì ta phải chấp nhận H 0 đúng.
3.1.2 Sai lầm loại I và sai lầm loại II
Khi tiến hành kiểm định giả thuyết thông kê theo cách trên ta sẽ có thể phạm phải một trong hai sai lầm sau:
- Bác bỏ H 0 trong khi thực tế là H 0 đúng Sai lầm này gọi là sai lầm loại I.
- Chấp nhận H 0 trong khi thực tế là H 0 sai Sai lầm này gọi là sai lầm loại II.
Bác bỏ H 0 sai lầm loại I quyết định đúng Chấp nhận H 0 quyết định đúng sai lầm loại II
Ví dụ 3.2 Cơ quan điều tra đang tạm giam một nghi phạm trong một vụ án. Nghi phạm sẽ chưa bị kết luận là có tội khi tội của anh ta chưa được chứng minh Cơ quan điều tra cố gắng chứng minh tội của nghi phạm Chỉ khi có đủ bằng chứng thì nghi phạm mới bị buộc tội.
Có hai giả thuyết được đưa ra là H 0 : "nghi phạm không có tội" vàH 1 : "nghi phạm có tội".
Giáo trình thống kê thực hành
Sai lầm loại I ở đây là kết luận nghi phạm có tội trong khi nghi phạm vô tội, còn sai lầm loại II là bỏ thoát tội nghi phạm trong khi thực tế nghi phạm có tội. Bởi vì chúng ta không muốn đổ oan cho người vô tội nên cần kiểm soát sao cho sai lầm loại I này ít xảy ra nhất cho dù xác suất mắc sai lầm loại II có thể lớn. α = P (sai lầm loại I) = P (bác bỏ H 0 /H 0 đúng)được gọi là mức ý nghĩa của kiểm định Trong bài toán kiểm định ta thường cho trước mức ý nghĩa αđể kiểm soát mắc sai lầm loại I.
Ta xét ví dụ sau: Ở một quốc gia có chiều cao của nam thanh niên trưởng thành tuân theo quy luật phân phối chuẩn với chiều cao trunh bình là 1, 60(m) và độ lệch chuẩn là 0, 1 (m) Ở một địa phương nọ của quốc gia trên người ta chọn ngẫu nhiên 100 nam thanh niên trưởng thành, tiến hành đo chiều cao 100 nam thanh niên này người ta tính được trung bình mẫu x = 1, 63 (m) Trên cơ sở mẫu số liệu này liệu có thể cho rằng chiều cao nam thanh niên trưởng thành ở địa phương trên lớn hơn 1, 60 (m) không?
Gọi Gọi X là phân bố chiều cao của nam thanh niên trưởng thành ở địa phương trờn và E(X) = à là chiều cao trung bỡnh chưa biết, khi đú X ∼
N (à; 0, 1 2 ) Bài toỏn kiểm định giả thuyết được đưa ra là H 0 : à = 1, 60 và
Gọi X 1 , X 2 , , X 100 là mẫu ngẫu nhiên về chiều cao của 100 nam thanh niên được chọn ở địa phương trên, ta có
100 cú phõn phối chuẩn N (à; σ 2 ) với σ 2 = 0, 1 2
Nếu H 0 đỳng (à = 1, 60) thỡ X ∼ N (160; 0, 1 2 ) và X ∼ N(160; 0, 01 2 ) Theo luật số lớn ta cú x cũng phải khỏ gần với à = 160 Do đú ta sẽ bỏc bỏ H 0 nếu x lớn hơn so với 1, 60 một cách có ý nghĩa, điều này tương đương với: nếu xác suất
P (X ≥ x) quá nhỏ thì ta sẽ bác bỏ H 0
Với x = 1, 63 ta cú xỏc suấtP (X ≥ 1, 65) với điều kiện à = 1, 60 là
Xác suất này rất nhỏ nên ta có thể bác bỏ H 0 và chấp nhận H 1
Giỏ trị xỏc suất P (X ≥ 1, 65/à = 1, 60) được gọi là P-giỏ trị.
Một vấn đề đặt ra ở đây là P-giá trị như thế nào được xem là nhỏ để có thể bác bỏ H 0 ? Trong thống kê người ta quy ước như sau:
+) P-giá trị> 0, 05: không có đủ cơ sở để bác bỏ H 0;
+) 0, 01 ≤P-giá trị≤ 0, 05: có đủ cơ sở để bác bỏ H 0;
+) P-giá trị< 0, 01: có cơ sở vững chắc để bác bỏ H 0
Trong trường hợp cho trước mức ý nghĩa α thì bác bỏ H 0 nếu P-giá trị≤ α; chấp nhận H 0 nếu P-giá trị> α.
Nói cách khác, P-giá trị chính là mức ý nghĩa thấp nhất mà ta có thể bác bỏ
Kiểm định kì vọng của phân phối chuẩn
Giả sửX là biến ngẫu nhiờn cú phõn phối chuẩnN (à; σ 2 )với kỡ vọngE(X) = à chưa biết nhưng phương sai V (X) = σ 2 đã biết.
Giáo trình thống kê thực hành
Vớ dụ 3.3 Từ một tổng thể cú phõn phối chuẩn với kỡ vọngà chưa biết và độ lệch chuẩn σ = 5, 2 người ta lấy ra một mẫu số liệu kính thước n = 100 và tính được trung bình mẫu x = 27, 56 Với mức ý nghĩa α = 0, 05 hãy kiểm định giả thuyết
P-giá trị= 2(1 − Φ(3)) = 0, 003 < α nên bác bỏ H 0.
Ví dụ 3.4 Chiều cao của bé trai 3 tuổi ở Việt Nam là biến ngẫu nhiên có phân phối chuẩn với chiều cao trung bình 96 (cm) và độ lệch chuẩn 12(cm) Ở thành phố A người ta chọn ngẫu nhiên 25 bé trai và tính được chiều cao trung bình là
100 (cm) Với mức ý nghĩa 5% có thể cho rằng chiều cao trung bình của bé trai ở thành phố A cao hơn mức trung bình chung của cả nước không?
Giải Gọi X là chiều cao của bộ trai 3 tuổi ở thành phố A và E(X) = à Ta cần kiểm định giả thuyết H 0 : à = 96 với đối thuyết H 1 : à > 96 υ = 1, 67
P-giá trị= 1 − Φ(1, 67) = 0, 047 < α nên bác bỏ H 0
3.2.2 Chưa biết phương sai và cỡ mẫu lớn
Ví dụ 3.5 Trọng lượng của một loại sản phẩm do một xí nghiệp sản xuất đạt tiêu chuẩn nếu có trọng lượng là 6 kg Sau một thời gian sản xuất người ta tiến hình kiểm tra ngẫu nhiên 121 sản phẩm do xí nghiệp đó sản xuất và tính được trung bình mẫu x = 5, 8 kg và độ lệch chuẩn mẫu s = 1, 4 kg Với mức ý nghĩa α = 5% có thể cho rằng trọng lượng sản phẩm của xí nghiệp đạt tiêu chuẩn không? Biết rằng trọng lượng sản phẩm của xí nghiệp có phân phối chuẩn.
Giải GọiXlà trọng lượng sản phẩm vàE(X) = àlà trọng lượng sản phẩm trung bỡnh thực tế Ta cần kiểm định giả thuyết H 0 : à = 6 với đối thiết H 1 : à 6= 6. υ = x − à 0 s
P-giá trị= 2(1 − Φ(1, 571)) = 0, 116 > α nên chưa có cơ sở bác bỏ H 0.
Ví dụ 3.6 Một bản nghiên cứu báo cáo rằng mức chi tiêu trung bình hàng tháng của một sinh viên là 4 triệu đồng Để kiểm tra người ta chọn ngẫu nhiên
36 sinh viên và tính được trung bình mỗi tháng họ chi tiêu hết x = 3, 8 triệu đồng với độ lệch chuẩn s = 1 triệu đồng Với mức ý nghĩa 5% có thể kết luận báo cáo trên có cao hơn sự thật không?
Giải Gọi X (triệu đồng) là số tiền mà mỗi sinh viên chi tiêu trong 1 tháng và E(X) = à Ta cần kiểm định giả thuyết H 0 : à = 4 với đối thiết H 1 : à < 4. υ = x − à 0 s
P-giá trị = 1 − Φ(1, 2) = 0, 115 > α nên chưa có cơ sở bác bỏ H 0 Tức là có thể chấp nhận báo cáo trên.
Giáo trình thống kê thực hành
3.2.3 Chưa biết phương sai và cỡ mẫu nhỏ
Giả sửXlà biến ngẫu nhiờn cú phõn phối chuẩnN (à; σ 2 )với kỡ vọngE(X) = à chưa biết và phương sai V (X) = σ 2 chưa biết.
Trong đú υ = (x − à 0 ) √ n s , T n−1 là phân phối Student n − 1 bậc tự do. Để tính P-giá trị ta có thể sử dụng Bảng V.
Ví dụ 3.7 Tuổi thọ trung bình của một loại bóng đèn do nhà máy A sản xuất khi chưa cải tiến kĩ thuật là 2000 giờ Sau thời gian cải tiến kĩ thuật người ta chọn ngẫu nhiên 25 bóng đèn cho lắp thử nghiệm, kết quả thực nghiệm thu được tuổi thọ trung bình mẫu x = 2010giờ và độ lệch chuẩn mẫu s = 15 giờ Với mức ý nghĩa 0.025 có thể kết luận "sau khi cải tiến kĩ thuật, tuổi thọ bóng đèn có tăng lên" không? Biết tuổi thọ bóng đèn có phân phối chuẩn.
Giải Gọi X là tuổi thọ búng đốn sau cải tiến kĩ thuật và E(X) = à là tuổi thọ trung bỡnh Ta cần kiểm định giả thuyếtH 0 : à = 2000với đối thiếtH 1 : à > 2000. υ = x − à 0 s
P-giá trị= 1 − P (T 24 < 4.2) = 0 < 0, 025, nên bác bỏ H 0 tức là có cơ sở để kết luận "sau khi cải tiến kĩ thuật, tuổi thọ bóng đèn có tăng lên".
Ví dụ 3.8 Một mẫu số liệu về nồng độ glycerol (mg/ml) trong rượu vang trắng của công ty A như sau: 2.67, 4.62, 4.14, 3.81, 3.83 Giả sử nồng độ glycerol trung bình trong rượu vang trắng đạt tiêu chuẩn là 4 (mg/ml) Với mức ý nghĩa 5% có thể cho rằng nồng độ glycerol trung bình trong rượu vang trắng của công ty
Chứng minh Từ biểu đồ xác suất chuẩn ta có thể chấp nhận tổng thể có phân bố chuẩn
Gọi à = nồng độ glycerol trung bỡnh trong rượu vang trắng của cụng ty A Bài toán kiểm định:
Từ mẫu số liệu ta có n = 5, x = 3.814, and s = 0.718. υ = 3.814 − 4
P-giá trị= 2(1 − P (T 4 < | − 0.6|)) = 2(1 − P (T 4 < 0.6)) = 0.29 > 0.05, nên chưa có cơ sở bác bỏ H 0
Giáo trình thống kê thực hành
Kiểm định tỉ lệ
Cho X ∼ Ber(p) với p chưa biết và f = k/n là một ước lượng của p.
Ví dụ 3.9 Giám đốc một công ty tuyên bố 90% sản phẩm của công ty đạt tiêu chuẩn quốc gia Một công ty kiểm định độc lập đã tiến hành kiểm tra 200 sản phẩm của công ty đó thì thấy có 168 sản phẩm đạt yêu cầu Với mức ý nghĩa α = 0, 05 có kết luận gì về tuyên bố trên?
Giải Gọi p là tỉ lệ sản phẩm của công ty đạt chuẩn quốc gia.
Ta cần kiểm định giả thuyết H 0 : p = 0, 9 với đối thiết H 1 : p < 0.9 υ = k/n − p 0 pp 0 (1 − p 0 )
P-giá trị = 1 − Φ(2, 83) = 0, 0023 < α nên bác bỏ H 0 Tức là không có cơ sở để tin vào tuyên bố của vị giám đốc trên.
So sánh hai kì vọng
Cho x 1 , x 2 , , x m là một mẫu số liệu của biến ngẫu nhiờn X ∼ N (à x ; σ x 2 ); y 1 , y 2 , , y n là là một mẫu số liệu của biến ngẫu nhiờn Y ∼ N (à y ; σ y 2 ) Ta chỉ xột trường hợp chưa biết hai phương sai.
Ví dụ 3.10 Người ta cân trẻ sơ sinh ở hai khu vực thành thị và nông thôn, kết quả thu được như sau:
Khu vực Số trẻ được cân Trung bình mẫu Phương sai mẫu
Với mức ý nghĩa 0, 01 có thể coi trọng lượng trung bình của trẻ sơ sinh ở hai khu vực bằng nhau được không? Biết trọng lượng trẻ sơ sinh ở hai khu vực có phân phối chuẩn.
Giải Gọi trọng lượng trẻ sơ sinh ở nông thôn và thành thị lần lượt làX (kg) và
Y (kg) Theo giả thuyết X ∼ N (à x ; σ 1 2 ) và Y ∼ N (à y ; σ 2 2 ) với σ 1 2 và σ 2 2 đều chưa biết.
Ta cần kiểm định giả thuyết H 0 : à x = à y với đối thiết H 0 : à x 6= à y υ = x − y rs 2 x m + s 2 y n
P-giá trị= 2(1 − Φ(0, 77)) = 0, 44 ≥ α nên chưa có cơ sở bác bỏ H 0, tức là có thể coi trọng lượng trung bình của trẻ sơ sinh ở hai khu vực bằng nhau.
Ví dụ 3.11 Để đánh giá hiệu quả của một sáng kiến kinh nghiệm môn Toán,giáo viên A đã chọn một lớp thực nghiệm (có 35 học sinh) và một lớp đối chứng(có 36 học sinh) để áp dụng sáng kiến kinh nghiệm đó vào giảng dạy Kết quả tổng kết học kì một của 2 lớp được chọn như sau:
Giáo trình thống kê thực hành
Lớp đối chứng Lớp thực nghiệm Điểm trung bình 6,5 6,8 Độ lệch chuẩn 1,2 1,1
Sau khi áp dụng sáng kiến kinh nghiệm vào giảng dạy lớp thực nghiệm giáo viên
A cho 2 lớp cùng làm một bài kiểm tra Kết quả thu được
Lớp đối chứng Lớp thực nghiệm Điểm trung bình 6,8 7,2 Độ lệch chuẩn 1,1 0,9 a) Với mức ý nghĩa 5% có thể cho rằng kết quả học tập môn toán ở học kì I của hai lớp tương đương nhau không? b) Với mức ý nghĩa 5% có thể cho rằng sáng kiến kinh nghiệm của giáo viên A có hiệu quả không?
Giải. a) Gọi X và Y lần lượt là điểm môn toán của học sinh lớp đối chứng và lớp thực nghiệm ở học kỡ I, E(X) = à x và E(Y ) = à y Ta cú bài toỏn kiểm định giả thuyết
P-giá trị= 2(1 − Φ(1.1)) = 0, 27 > 5% nên chưa có cơ sở bác bỏ H 0 Tức là có thể cho rằng kết quả học tập môn toán ở học kì I của hai lớp tương đương nhau. b) Gọi X 0 và Y 0 lần lượt là điểm môn toán của học sinh lớp đối chứng và lớp thực nghiệm ở học kỡ I, E(X 0 ) = à x 0 và E(Y 0 ) = à y 0 Ta cú bài toỏn kiểm định giả thuyết H 0 : à x 0 = à y 0 với đối thuyết H 1 : à x 0 < à y 0 υ = −1, 67.
P-giá trị= 1 − Φ(1.67) = 0, 095 < 5% nên có cơ sở bác bỏ H 0 Tức là có thể cho rằng sáng kiến kinh nghiệm của giáo viên A có hiệu quả.
3.4.2 Cỡ mẫu nhỏ (m 30thì
Hơn nữa khi cỡ mẫu lớn thì theo Định lí giới hạn trung tâm ta có thể bỏ gia giả thiết X và Y có phân phối chuẩn.
Ví dụ 3.13 Để khảo sát tác dụng của việc bón thêm 1 loại phân bón mới (A) người ta chia mỗi thửa ruộng thí nghiệm làm 2 mảnh Một mảnh đối chứng (không có phân bón A) và mảnh kia có bón 70 đơn vị phân bón A Sản lượng của 17 thửa ruộng được ghi lại như sau:
Thửa Mảnh ĐC Mảnh bón PB A Thửa Mảnh ĐC Mảnh bón PB A
Với mức ý nghĩa 5% hãy nhận xét việc bón phân có tác dụng không?
Giáo trình thống kê thực hành Giải.
Từ biểu đồ xác suất chuẩn của số liệud i = x i − y i ta có thể chấp nhậnD = X − Y có phân phối chuẩn.
Bài toỏn kiểm định H 0 : à D = 0, H 1 : à D < 0. d = −6.15, s D = 6.694 Do đó υ = d s D
P-giá trị= 1 − P (T 16 < 3.8) = 0, 001 < 5%, nên bác bỏ H 0 Việc bón phân có tác dụng.
So sánh hai tỉ lệ
X ∼ Ber(p 1 ), Y ∼ Ber(p 2 ), k/m và l/n lần lượt là 2 ước lượng điểm của p 1 và p 2
Ví dụ 3.14 Tỉnh A nói rằng tỉ lệ học sinh đậu tốt nghiệp THPT của mình cao hơn tỉnh B Để kiểm tra kết luận này, người ta chọn ngẫu nhiên 198 học sinh tỉnh A thì có 189 em đỗ và khi chọn ngẫu nhiên 201 học sinh tỉnh B thì có 188 em đỗ Với mức ý nghĩa 5% có thể cho rằng tỉ lệ đậu tốt nghiệp THPT của tỉnh
P-giá trị= 1 − Φ(2, 26) = 0, 012 < 5% nên có cơ sở bác bỏ H 0 Tức là có thể cho rằng tỉ lệ đậu tốt nghiệp THPT của tỉnh A cao hơn tỉnh B.
Ví dụ 3.15 Kiểm tra ngẫu nhiên các sản phẩm cùng loại do hai nhà máy sản xuất thu được số liệu sau:
Nhà máy Số sản phẩm được kiểm tra số phế phẩm
Với mức ý nghĩa α = 0, 05 có thể coi tỉ lệ phế phẩm của hai nhà máy trên bằng nhau không?
Giải Gọi p 1 và p 2 lần lượt là tỉ lệ phế phẩm của nhà máy A và B.
Ta cần kiểm định giả thuyết H 0 : p 1 = p 2 với đối thiết H 1 : p 1 6= p 2
Giáo trình thống kê thực hành ˆ p = k + l m + n = 0, 0263, υ = k m − l n r ˆ p(1 − p) ˆ
P-giá trị= 2(1 − Φ(1, 81)) = 0, 07 ≥ α nên chưa có cơ sở bác bỏ H 0 , tức là có thể coi tỉ lệ phế phẩm của hai nhà máy trên bằng nhau.
THỰC HÀNH SỬ DỤNG EXCEL 2010
1 Kiểm định giả thuyết kì vọng, chưa biết phương sai và cỡ mẫu nhỏ
Bước 1: Vẽ biểu đồ xác suất chuẩn để kiểm tra phân bố chuẩn của tổng thể.
√ n. Bước 3: Tính P-giá trị Sử dụng hàm trong Excel:
2 Kiểm định giả thuyết kì vọng, chưa biết phương sai và cỡ mẫu lớn
Bài toán kiểm định P-giá trị
H 1 : à x 6= à y =2*min(Z.TEST(array, à 0 , s),1-Z.TEST(array, à 0 , s))
Ví dụ 3.16 Kết quả đo chiều cao 36 trẻ em gái 24 tháng tuổi được chọn ngẫu nhiên ở địa phương A như sau (đơn vị: cm):
Biết chiều cao tiêu chuẩn trẻ em gái 24 tháng tuổi là 85 cm Với mức ý nghĩa 5% có thể cho rằng chiều cao trung bình của trẻ em gái 24 tháng tuổi ở địa phương
A thấp hơn chiều cao tiêu chuẩn không?
Giả sử số liệu được nhập vào cột A(A1 đến A36).
Vì cỡ mẫu n = 36 > 30 nên ta không cần kiểm tra phân bố chuẩn của tổng thể. Gọi à là chiều cao trung bỡnh của trẻ em gỏi ở địa phương A.
Tính P-giá trị vào ô B1: 1-Z.TEST(A1:A36,85,STDEV(A1:A36))
Kết quả: P-giá trị=0,048 Data Analysis -> t-Test: Two-sample Assuming Equal Variances -> OK
Như vậy ta có P-giá trị =0,898>1% nên chưa có cơ sở bác bỏ H 0
Ví dụ 3.18 Hàm lượng asen trong 20 mẫu nước ngầm được lấy ngẫu nhiên ở hai vùng dân cư A và B được cho như sau (đơn vị: phần tỉ):
Với mức ý nghĩa 5% hãy so sánh hàm lượng asen ở hai vùng dân cư A và B.
Giả sử số liệu hàm lượng asen của hai vùng dân cư A và B được nhập lần lượt ở cột A và cột B.
Bước 1 Từ biểu đồ xác suất chuẩn ta có thể chấp nhận hai tổng thể có phân phối chuẩn và hai phương sai khác nhau.
Bước 2 Vào Data -> Data Analysis -> t-Test: Two-sample Assuming Unequal Variances -> OK
Giáo trình thống kê thực hành
Bước 3 Xột bài toỏn so sỏnh H 0 : à x = à y , H 1 : à x 6= à y
Ta có P-giá trị =0,016 z-Test: Two-sample for Means -> OK.
Ví dụ 3.19 Thực hành trên Excel Ví dụ 3.13.
Giả sử số liệu sản lượng lúa không bón phân và bón phân được nhập lần lượt vào cột B và cột C Bước 1 Kiểm tra phân phối chuẩn của hiệu Từ biểu đồ xác suất chuẩn có thể chấp nhận tổng thể có phân bố chuẩn.
Bước 2 Vào Data -> Data Analysis -> t-Test: Paired Two-sample for Means -> OK
Gọi à x và à y lần lượt là năng suất lỳa trung bỡnh của mảnh đối chứng và mảnh cú bún phõn Bài toỏn so sỏnh: H 0 : à x = à y , H 1 : à x < à y
P-giá trị =0,0008 υ) càng nhỏ và ngược lại, nên ta có,
P-giá trị= P (χ 2 (m−1)(n−1) > υ). Để tính P-giá trị ta có thể sử dụng Bảng VI.
Từ Bảng VI ta có 0, 04 < P (χ 2 15 > 25, 5) < 0, 045.
Chú ý 4.6 Trong trường hợp có tần số lý thuyết bé hơn 5 thì ta tiến hành ghép cột hoặc ghép hàng để có tần số lý thuyết không bé hơn 5.
Ví dụ 4.7 Một nghiên cứu đã được thực hiện để xem xét mối quan hệ giữa
"thời gian tự học" của sinh viên và "kết quả học tập" của họ Bảng kết quả từ mẫu được chọn như sau:
Thời gian tự học/tuần
Dưới 2 giờ Từ 2 – 6 giờ Trên 6 giờ
Với mức ý nghĩa α = 5%, hãy kết luận "thời gian tự học" và "kết quả học tập" của sinh viên độc lập với nhau hay không hay không?
Giải Bài toán kiểm định:
H 0 : "thời gian tự học" và "kết quả học tập" của sinh viên độc lập.
H 0 : "thời gian tự học" và "kết quả học tập" của sinh viên không độc lập.
Ta có bảng tần số lý thuyết:
Thời gian tự học/tuần
Dưới 2 giờ Từ 2 – 6 giờ Trên 6 giờ
Tất cả các tần số lý thuyết đều lớn hơn 5 nên từ bảng số liệu ta tính được υ = 117, 187 và (m − 1)(n − 1) = 4, do đó
P-giá trị= P (χ 2 4 > 117, 187) < 0, 001 < 5%, nên có cơ sở bác bỏ H 0 Tức là, "thời gian tự học" và "kết quả học tập" của sinh viên không độc lập.
THỰC HÀNH SỬ DỤNG EXCEL 2010
A Ước lượng hệ số tương quan
B Kiểm định tính độc lập
Công thức hàm trong Excel:
=CHISQ.TEST(actual_range,expected_range) trong đó: actual_range: vùng tần số thực nghiệm. expected_range: vùng tần số lý thuyết.
Ví dụ 4.8 Một cuộc thăm dò được tiến hành ở Mỹ bởi viện nghiên cứu xã hội học nổi tiếng Gallup để nghiên cứu mối quan hệ giữa nghề nghiệp của một người với quan niệm của người đó về tiêu chuẩn đạo đức và tính trung thực Kết quả của việc khảo sát một mẫu ngẫu nhiên gồm 380 người cho kết quả sau
Giáo trình thống kê thực hành
Với mức ý nghĩa 5% xác định xem có sự phụ thuộc giữa nghề nghiệp và quan niệm về tiêu chuẩn đạo đức và tính trung thực không?
1 Bài toán kiểm định giả thuyết:
H 0 : Nghề nghiệp và quan niệm độc lập nhau.
H 1 : Nghề nghiệp và quan niệm phụ thuộc nhau.
2 Nhập số liệu vào Excel và tính các tổng k i∗ , k ∗j :
3 Tính tần số lý thuyết ˆ k ij = k i∗ k ∗j
Ta thấy các tần số lí thuyết đều lớn hơn 5.
=CHISQ.TEST(B3:D6,B10:D13) ta được kết quả: P-giá trị =3, 77.10 −10 < 5% nên bác bỏ H 0
4.1 Lượng khách Y (triệu lượt/năm) đi xe buýt phụ thuộc vào tiền vé X (ngàn đồng) Ta có bảng số liệu sau:
X 2 3 4 2 3 3 4 3 3 2 Ước lượng hệ số tương quan ρ(X, Y ).
4.2 Một nghiên cứu đã được thực hiện để xem xét mối quan hệ giữa trình độ học vấn và mức thu nhập của công nhân Bảng kết quả từ mẫu nghiên cứu như sau:
Cấp 1 và 2 Cấp 3, THCN CĐ, ĐH
Với mức ý nghĩa 10%, hãy kết luận có tồn tại mối quan hệ phụ thuộc giữa hai biến trình độ học vấn và mức thu nhập của công nhân trong tổng thể hay không?
4.3 Một nghiên cứu đã được thực hiện để xem xét mối quan hệ phụ thuộc giữa cách đọc tờ báo và trình độ học vấn Bảng kết quả từ mẫu được chọn như sau:
Cấp 1 và 2 Cấp 3 CĐ, ĐH Đọc theo thứ tự từ trang đầu đến trang cuối 15 20 40 Xem lướt qua các đề mục, đọc mục ưa thích trước 15 22 41 Chỉ đọc các trang mục ưa thích, ít đọc các trang khác 17 20 55 Xem các tin đáng chú ý trên trang 1 và tìm đọc trước 15 25 15
Với mức ý nghĩa 5%, hãy kết luận có tồn tại mối quan hệ phụ thuộc giữa hai biến cách đọc tờ báo và trình độ học vấn trong tổng thể hay không?
4.4 Một nhà xã hội học muốn tìm hiểu mối quan hệ phụ thuộc giữa các dạng tội phạm (hình sự và không hình sự) với tuổi của phạm nhân Chọn ngẫu nhiên
100 phạm nhân trong hồ sơ tòa án, ông ta thu được số liệu sau
Tuổi Dước 25 Từ 25 đến 49 trên 49
Với mức ý nghĩa 5%, số liệu này có cho phép kết luận dạng tội phạm và tuổi là độc lập với nhau không?
Giáo trình thống kê thực hành
4.5 Một nhà xã hội học chọn một mẫu ngẫu nhiên gồm 500 người để trao 1 bản thăm dò với các câu hỏi sau:
- Ông/bà có đi nhà thờ không? (Có/không)
- Mức độ thành kiến về chủng tộc của ông/bà như thế nào (rất cao/đôi khi/không) Kết quả thu được như sau Đi nhà thờ
Rất cao Đôi khi Không
Với mức ý nghĩa 5%, số liệu này có cho phép kết luận có sự phụ thuộc giữa đi nhà thờ và thành kiến chủng tộc không?
BẢNG I: CÁC GIÁ TRỊ CỦA HÀM PHÂN PHỐI CHUẨN TẮC
Giáo trình thống kê thực hành
BẢNG III: Tới hạn mức α của phân phối Student T n n
BẢNG IV: Tới hạn mức α của phân phối Khi bình phương n 2 n
Giáo trình thống kê thực hành
BẢNG IV: BẢNG CÁC GIÁ TRỊ P T ( k x ) k x 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
BẢNG IV (tiếp theo): BẢNG CÁC GIÁ TRỊ P T ( k x ) k x 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Giáo trình thống kê thực hành
BẢNG V: BẢNG CÁC GIÁ TRỊ P ( k 2 x )
BẢNG V (tiếp theo): BẢNG CÁC GIÁ TRỊ P ( k 2 x )