Nguyên lý thống kê kinh tế (chương 4,5,6)

07-Nov-16 HỌC PHẦN NGUYÊN LÝ THỐNG KÊ KINH TẾ Phan Ngọc Bảo Anh Khoa Kế tốn – Tài – Ngân hàng Email: pnbanh.tdu@gmail.com Chƣơng PHÂN PHỐI CHUẨN – PHÂN PHỐI MẪU Phan Ngọc Bảo Anh Khoa Kế toán – Tài Ngân hàng Email: pnbanh.tdu@gmail.com NỘI DUNG CHƢƠNG  BIẾN NGẪU NHIÊN  PHÂN PHỐI CHUẨN – PHÂN PHỐI CHUẨN CHUẨN HÓA  PHÂN PHỐI CỦA MỘT VÀI ĐẠI LƢỢNG THỐNG KÊ  PHÂN PHỐI MẪU 07-Nov-16 BIẾN NGẪU NHIÊN Biến ngẫu nhiên đại lƣợng lấy giá trị thực tùy thuộc vào kết ngẫu nhiên phép thử Các chữ in X, Y,… thƣờng dùng để ký hiệu biến ngẫu nhiên Xi, Yi, để trị số chúng Biến ngẫu nhiên Biến ngẫu nhiên rời rạc Biến ngẫu nhiên liên tục BIẾN NGẪU NHIÊN Biến ngẫu nhiên đƣợc chia thành hai loại:  Biến ngẫu nhiên gọi rời rạc tập hợp trị số mà lấy hữu hạn liệt kê đƣợc: số sản phẩm không đạt tiêu chuẩn kỹ thuật đợt sản xuất, số chấm xuất gieo xúc xắc,…  Biến ngẫu nhiên liên tục loại mà trị số lấy đầy khoảng PHÂN PHỐI XÁC SUẤT Bất kỳ hình thức cho biết mối quan hệ giá trị có biến ngẫu nhiên xác suất tƣơng ứng đƣợc gọi phân phối xác suất biến ngẫu nhiên Để biết đƣợc phân phối xác suất biến ngẫu nhiên X:  Các giá trị có biến X  Xác suất để nhận giá trị có Lƣu ý: Xác suất tổng 07-Nov-16 PHÂN PHỐI XÁC SUẤT CỦA BIẾN NGẪU NHIÊN RỜI RẠC BNN rời rạc X nhận giá trị 𝑥1 , 𝑥2 ,…, 𝑥𝑛 Phân phối xác suất BNN rời rạc có hình thức tổng qt nhƣ sau: (Bảng phân phối xác suất) X 𝑥1 𝑥2 … 𝑥𝑛 Cộng P(X) p1 p2 … pn Chú ý: 2) n i=1 pi N i=1 𝑥𝑖 3) μ = E X = 1) pi = P X = 𝑥𝑖 =1 4) σ2 N i=1(𝑥𝑖 = pi − μ)2 pi PHÂN PHỐI XÁC SUẤT CỦA BIẾN NGẪU NHIÊN RỜI RẠC Ví dụ: Tung đồng xu Đặt X: số lần xuất mặt hình khả xảy S S H H S H H Phân phối xác suất X Xác suất S P(X) ¼ = 0,25 2/4 = 0,5 ¼ = 0,25 50 25 x PHÂN PHỐI XÁC SUẤT CỦA BIẾN NGẪU NHIÊN LIÊN TỤC Gọi X biến ngẫu nhiên liên tục, phân phối xác suất X hàm 𝑓(𝑥) cho với hai giá trị b a b (a < b), P ( a  X  b)   f ( x ) dx 𝑓(𝑥) a Hàm mật độ xác suất f(x) phải thỏa hai điều kiện: i ) f ( x )  x  ii )  f ( x ) dx   a b 𝑥 07-Nov-16 MỘT VÀI QUY LUẬT PHÂN PHỐI XÁC SUẤT THÔNG DỤNG  Phân phối nhị thức  Phân phối Poisson  Phân phối siêu bội  Phân phối chuẩn  Phân phối Chi bình phƣơng (𝜒 )  Phân phối t (phân phối t Student)  Phân phối Fisher – Snedecor (phân phối F)  … PHÂN PHỐI CHUẨN Định nghĩa Phân phối chuẩn phân phối biến ngẫu nhiên liên tục Một biến ngẫu nhiên liên tục X đƣợc gọi có phân phối chuẩn hàm mật độ xác suất có dạng: f ( x)  e  2 Trong đó: 𝜋 = 3,14159 e = 2,71828 μ: trung bình tổng thể σ: độ lệch tiêu chuẩn ( x )2 2 −∞ < 𝑥 < +∞ Ký hiệu: X ~ N(,2) PHÂN PHỐI CHUẨN Tính chất 1/ Phân phối chuẩn đối xứng, có dạng hình chng 2/ Trung bình = Trung vị = Mode  3/    e 2 ( x )2 2 dx  Chính diện tích giới hạn đồ thị f(x) trục hoành 4/ Đồ thị đối xứng với qua đƣờng thẳng x =  5/ X có trung bình  phƣơng sai 2  = Me = M0 07-Nov-16 PHÂN PHỐI CHUẨN Tính chất Xấp xỉ 68% giá trị nằm khoảng ± 1σ so với μ Xấp xỉ 95% giá trị nằm khoảng ± 2σ so với μ Xấp xỉ 99,73% giá trị nằm khoảng ± 3σ so với μ 𝑓(𝑥) 𝑥 PHÂN PHỐI CHUẨN 1 < 2 < 3 PHÂN PHỐI CHUẨN 1 < 2 07-Nov-16 PHÂN PHỐI CHUẨN P (c  X  d )  ? 𝑓(𝑥) c 𝑥 d PHÂN PHỐI CHUẨN CHUẨN HĨA Phân phối chuẩn chuẩn hóa phân phối chuẩn có trung bình () phƣơng sai (2) Một biến chuẩn chuẩn hóa Xét biến ngẫu nhiên X ~ N (,2) Ta chuẩn hóa X cách: Z= X−μ σ Khi E(Z) = Var(Z) = Ta nói Z có phân phối chuẩn hóa Ký hiệu X ~ N(0,12) PHÂN PHỐI CHUẨN CHUẨN HÓA Phân phối chuẩn chuẩn hóa phân phối chuẩn có trung bình () phƣơng sai (2) Còn gọi phân phối chuẩn tắc (phân phối đơn giản) Hàm mật độ xác suất: f ( z)  e 2 z 𝑓(𝑧) 𝜍𝑧 = 𝑧 𝜇𝑧 = 07-Nov-16 PHÂN PHỐI CHUẨN CHUẨN HÓA Xác suất Z ~ N (0, 12) Hàm số  ( z )  z  e 2  z2 dz đƣợc gọi hàm tích phân Laplace Tính chất hàm Laplace: + (z) = P(0 < z < z0) + (z) hàm số lẻ: (-z)= -(z) +   z2 e 2 Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359 0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753 0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141 0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517 0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879 0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224 0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549 0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852 0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133 0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389 1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621 1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830 1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015   0,5 z 𝑧0 Tra bảng (Z) (1,08) = 0,3599 Hoặc Excel dùng hàm (NORMSDIST(Z) – 0,5) BẢNG PHÂN PHỐI CHUẨN CHUẨN HÓA Z 0,00 0,01 0,02 0,0 0,0000 0,0040 0,0080 0,1 0,0398 0,0438 0,0478 0,0478 0,2 0,0793 0,0832 0,0871 0,3 0,1179 0,1217 0,1255 𝜇𝑧 = 𝜍𝑧 = 0,0478 Xác suất P (0 < Z < 0,12) = 0,0478 Z = 0,12 𝑧 07-Nov-16 PHÂN PHỐI CHUẨN CHUẨN HÓA Tra bảng (Z) ? S 𝑧 -3 -2 -1 Zb Za PHÂN PHỐI CHUẨN Z=  X ~ N (,2) X−μ σ X ~ N(0,12)  P (a < X < b) = P (Za < Z < Zb) = S Z𝑎 = a−μ σ Z𝑏 = b−μ σ PHÂN PHỐI CHUẨN Chú ý: Công thức tính xác suất:  X ~ N (μ, σ2): P (a  X  b)   (  Nếu X ~ N (μ, σ2) Z = 𝑋−𝜇 𝜎 b  ) ( a  ) ~ N (0, 12), ta có: a) P (Z > a) = 0,5 - (a) b) P (Z < b) = 0,5 + (b) d) P (a < Z < b) = (b) - (a), với a < b e)  (Z ≥ 4) ≈ 0,5 07-Nov-16 PHÂN PHỐI CHUẨN Ví dụ: Trọng lƣợng loại sản phẩm X có phân phối chuẩn với μ = 8,6g, σ2 = 0,36 Lấy sản phẩm bất kỳ: a Tính xác suất để SP có trọng lƣợng từ 8g đến 9,8g b Tính xác suất để SP có trọng lƣợng nhỏ 7,8g Excel: SGK/121 PHÂN PHỐI CHUẨN Khái niệm Z Z số cho P(Z > Z) =  Đây xác suất sai lầm mà ta thƣờng dùng thống kê Một vài giá trị đặc biệt:  0,005 0,010 0,025 0,050 0,100 Z 2,575 2,330 1,960 1,645 1,280 PHÂN PHỐI CỦA MỘT VÀI ĐẠI LƢỢNG THỐNG KÊ Phân phối Chi bình phƣơng Giả sử x1, x2, xn biến ngẫu nhiên độc lập, có phân 𝑆2 phối chuẩn N (0,1) Khi 𝜒 = (𝑛 − 1) 𝜎2 𝑆2 = 𝑛 𝑖=1(𝑥𝑖 −𝑥 ) 𝑛−1 có phân phối Chi bình phƣơng bậc tự (n-1) Ký hiệu: 𝜒𝑛−1 ~ 𝑛−1 𝑆2 𝜎2 Khi n lớn phân phối Chi bình phƣơng xấp xỉ phân phối chuẩn 𝟐 𝝌𝒏−𝟏;𝜶 số cho 𝑝(𝜒 > 𝜒𝑛−1;𝛼 )=𝛼 Muốn tìm giá trị ta tra bảng Excel dùng hàm CHIINV(𝛼,df) Trong đó, df bậc tự 07-Nov-16 PHÂN PHỐI CỦA MỘT VÀI ĐẠI LƢỢNG THỐNG KÊ Phân phối Chi bình phƣơng Phân phối Chi bình phƣơng đƣợc sử dụng để: - Kiểm định tính độc lập hai biến - So sánh phù hợp tần số quan sát tần số lý thuyết - Suy rộng cho phƣơng sai tổng thể PHÂN PHỐI CỦA MỘT VÀI ĐẠI LƢỢNG THỐNG KÊ Phân phối t (phân phối t Student) Giả sử x1, x2, xn biến ngẫu nhiên, có phân phối 𝑥−𝜇 𝑛 chuẩn Khi 𝑡 = 𝑆 có phân phối Student bậc tự (n-1) 𝑥−𝜇 ~𝑡𝑛−1 𝑛 Ký hiệu: 𝑡 = 𝑆 Phân phối t phân phối xác suất có hình dáng gần giống với phân phối chuẩn với hai đuôi dài Khi n lớn phân phối t tiến nhanh phân phối chuẩn tn-1; số cho P(t > tn-1;) =  Muốn tìm giá trị ta tra bảng Excel dùng hàm TINV(2,df) Trong đó, df bậc tự PHÂN PHỐI CỦA MỘT VÀI ĐẠI LƢỢNG THỐNG KÊ Phân phối Fisher (F) - Giả sử có hai mẫu độc lập có nx, ny quan sát lấy từ hai tổng thể có phân phối chuẩn, phƣơng sai tổng thể phƣơng sai mẫu lần lƣợt x2 , y2 , Sx2 , Sy2 𝐹 = 2 𝑆𝑋 /𝜎𝑋 𝑆𝑌2 /𝜎𝑌2 có phân phối Fisher bậc tự tử (nx - 1) bậc tự mẫu (ny - 1) Ký hiệu: F ~ Fv1,v2 - Fv1,v2; số cho p(F > Fv1;v2;) =  - Muốn tìm giá trị ta tra bảng Excel dùng hàm FINV(,df1,df2) Trong đó, df1,df2 bậc tự 10 07-Nov-16 CÁC BƢỚC PHÂN TÍCH ANOVA MỘT CHIỀU (3) Bƣớc 3: Tính phƣơng sai: - Phƣơng sai đƣợc sinh yếu tố cột: MSG  SSG k 1 - Phƣơng sai đƣợc sinh yếu tố ngẫu nhiên khác: SSW MSW  nk Bƣớc 4: Giá trị kiểm định: F MSG MSW Bƣớc 5: QĐ bác bỏ H0 F>Fk-1,n-k, Bảng kết phân tích ANOVA chiều (thực máy tính) Biến thiên Tổng độ lệch bình phƣơng Bậc tự Giữa nhóm SSG k-1 MSG  SSG k 1 Nội nhóm SSW n-k MSW  SSW nk SST n-1 Tổng cộng Phƣơng sai GTKĐ P F F value crit F MSG MSW Ví dụ 1: Một nghiên cứu đƣợc thực nhằm xem xét suất lúa trung bình giống lúa có hay không Kết thu thập qua năm nhƣ sau: Năm A B C 65 74 64 83 69 72 68 78 75 70 78 76 Hãy cho nhận xét với mức ý nghĩa =5% (thực máy tính) 43 07-Nov-16 ANOVA VD1: SS Source of Variation Between Groups Within Groups df MS F 26.167 13.083 0.354 332.5 36.944 P-value F crit 0.711 4.256 358.667 11 Total VD1: Giả thuyết: H0: Năng suất trung bình giống lúa H1: Năng suất trung bình giống lúa khơng Quyết định: + p = 71,1%, lớn => Không thể bác bỏ H0 (Chấp nhận H0 hoàn toàn) HOẶC + F = 0,354 < Fcrit = 4,256 => Không thể bác bỏ H0 Kết luận: Với α = 5%, suất trung bình giống lúa nhƣ PHÂN TÍCH PHƢƠNG SAI HAI CHIỀU  Kiểm định mối liên hệ biến định tính biến định lƣợng 2.1 Trƣờng hợp có quan sát Yếu tố thứ hai (hàng) x1,1 x1,2 h x1,h Yếu tố thứ (cột) k x2,1 xk,1 x2,2 xk,2 x2,h xk,h 44 07-Nov-16 2.1 Trƣờng hợp có quan sát ô (1) Giả thuyết H0: - Trung bình tt theo tiêu cột - Trung bình tt theo tiêu hàng Bƣớc 1: Tính số trung bình h - Trung bình cột: xi  x ij j 1 (i=1, ,k) h k - Trung bình hàng: xj  k - Trung bình chung: x x j1 i 1 j1 (j=1, ,h) k h  x ij h k ij  n x i  i 1 k x j j1 (n = k.h) h 2.1 Trƣờng hợp có quan sát (2) Bƣớc 2: Tính tổng độ lệch bình phƣơng k - Sinh yếu tố cột: SSG  h  (x i  x ) i 1 h SSB  k  ( x j  x) - Sinh yếu tố hàng: j 1 - Tổng độ lệch bình phƣơng sai số: k h SSE   ( xij  x i  x j  x) i 1 j 1 - Tổng độ lệch bình phƣơng chung: SST = SSG + SSB + SSE k h SST   (x ij  x ) i 1 j1 2.1 Trƣờng hợp có quan sát (3) Bƣớc 3: Tính phƣơng sai SSG MSG  - Sinh yếu tố cột: k 1 - Sinh yếu tố hàng: MSB  - Sinh yếu tố ngẫu nhiên: Bƣớc 4: - Kiểm định theo cột: - Kiểm định theo hàng: SSB h 1 MSE  F1  SSE (k  1)(h  1) MSG MSE F2  MSB MSE Bƣớc 5: QĐ bác bỏ H0: - Theo tiêu cột: F1>Fk-1,(k-1)(h-1), - Theo tiêu hàng: F2>Fh-1,(k-1)(h-1), 45 07-Nov-16 Bảng kết phân tích ANOVA hai chiều (thực máy tính) Tổng độ lệch Biến thiên bình phƣơng (Source of (Sum of variation) squares)-SS Bậc tự Phƣơng sai (Degree of (Mean Square)Freedom) MS GTKĐ (F Ratio) Giữa cột SSG k-1 MSG  SSG k 1 F1  MSG MSE Giữa hàng SSB h-1 MSB  SSB h 1 F2  MSB MSE Sai số SSE Tổng cộng SST (k-1)(h-1) MSE  SSE (k  1)(h  1) n-1 VD2: Một nghiên cứu đƣợc thực nhằm xem xét liên hệ loại phân bón, giống lúa suất Năng suất lúa đƣợc ghi nhận từ thực nghiệm sau: Loại phân bón Giống lúa B A C 65 69 75 74 72 70 64 68 78 83 78 76 Hãy cho nhận xét với mức ý nghĩa =5% (thực máy tính) VD2: Kết phân tích ANOVA từ Excel =5% nhƣ sau: Anova: Two-Factor Without Replication Source of Variation Rows Columns SS df MS F P-value F crit 170,000 56,667 2,092 0,203 4,757 26,167 13,083 0,483 0,639 5,143 Error 162,500 Total 358,667 11 27,083 46 07-Nov-16 VD2 * Kiểm định theo cột: GT: Năng suất không phụ thuộc vào giống 2.QĐ: p=63,9%, lớn => Chấp nhận H0 hồn tồn KL: Với α=5%, suất khơng phụ thuộc vào giống lúa * Kiểm định theo hàng: GT: Năng suất khơng phụ thuộc vào phân bón 2.QĐ: p=20,3%, lớn => Chấp nhận H0 hoàn toàn KL: Với α=5%, suất không phụ thuộc vào phân bón PHÂN TÍCH PHƢƠNG SAI HAI CHIỀU 2.2 Trƣờng hợp có quan sát Kiểm định trung bình tổng thể theo cột Kiểm định trung bình tổng thể theo hàng xem xét có tƣơng tác yếu tố hàng yếu tố cột hay không? Yếu tố thứ hai (hàng) Yếu tố thứ (cột) k x111 x112 x11l x211 x212 x21l xk11 xk12 xk1l h x1h1 x1h2 x1hl x2h1 x2h2 x2hl xkh1 xkh2 xkhl 2.2 Trƣờng hợp có quan sát (1) Giả thuyết H0:- Trung bình tt theo tiêu cột - Trung bình tt theo tiêu hàng - Khơng có tƣơng tác yếu tố cột hàng Bƣớc 1: Tính số trung bình - Trung bình cột: h xi  l  x (i=1, ,k) h.l k - Trung bình hàng: x j  ijs j1 s 1 l  x i 1 s 1 ijs (j=1, ,h) k l l - Trung bình ơ: - Trung bình chung: x ij  x ijs s 1 l k x h l  x i 1 j1 s 1 ijs k.h.l 47 07-Nov-16 2.2 Trƣờng hợp có quan sát (2) Bƣớc 2: Tính tổng độ lệch bình phƣơng k - Sinh yếu tố cột: SSG  h.l  (x i  x ) i 1 h - Sinh yếu tố hàng: SSB  k.l (x j  x ) j1 k h SSI  l  (x ij  x i  x j  x ) i 1 j1 - Sinh sai số: k h l SSE   (x ijs x ) i 1 j1 s 1 - Tổng độ lệch bình phƣơng chung: k h l SST = SSG + SSB + SSI + SSE SST   ( xijs  x) i 1 j 1 s 1 2.2 Trƣờng hợp có quan sát ô (3) Bƣớc 3: Tính phƣơng sai SSG k 1 - Phƣơng sai sinh yếu tố cột: MSG  - Phƣơng sai sinh yếu tố hàng: MSB  SSB h 1 - Phƣơng sai sinh tƣơng tác: MSI  SSI (k  1)(h  1) - Phƣơng sai sinh yếu tố ngẫu nhiên: MSE  SSE k.h.(l  1) 2.2 Trƣờng hợp có quan sát ô (4) Bƣớc 4: Giá trị kiểm định MSG - Kiểm định theo hàng: F1  MSE - Kiểm định theo cột: MSB F2  MSE - Kiểm định tƣơng tác hàng cột: F3  MSI MSE Bƣớc 5: Quyết định bác bỏ giả thuyết H0: - Theo tiêu cột: F1 > F k-1,kh(l-1), - Theo tiêu hàng: F2 > F h-1,kh(l-1), - Khơng có tƣơng tác: F3 > F (k-1)(h-1),kh(l-1), 48 07-Nov-16 Bảng kết phân tích ANOVA hai chiều (nhiều quan sát) (thực máy tính) Biến thiên Tổng độ lệch bình phƣơng Bậc tự GTKĐ F Phƣơng sai Giữa cột SSG k-1 MSG  SSG k 1 F1  MSG MSE Giữa hàng SSB h-1 MSB  SSB h 1 F2  MSB MSE Tƣơng tác hàng cột SSI (k-1)(h-1) F3  MSI MSE Sai số SSE Tổng cộng SST kh(l-1) MSI  SSI (k  1)(h  1) MSE  SSE k.h.(l  1) n-1 VD3: Một nghiên cứu đƣợc thực nhằm xem xét liên hệ loại phân bón, giống lúa suất Năng suất lúa đƣợc ghi nhận từ thực nghiệm sau: Loại phân bón 65 74 64 83 A 68 79 72 82 62 76 65 84 Giống lúa B 69 71 67 72 69 69 68 73 75 78 78 75 75 70 78 76 C 75 69 82 77 78 65 80 75 Hãy cho nhận xét với mức ý nghĩa =5% (thực máy tính) VD3 Kết phân tích ANOVA từ Excel =5% nhƣ sau: Anova: Two-Factor With Replication Source of Variation Sample Columns Interaction Within Total SS 389,000 df MS F P-value F crit 129,667 21,218 0,000 3,009 57,556 4,709 0,019 3,403 586,000 146,667 24 97,667 15,982 6,111 0,000 2,508 1179,222 35 28,778 49 07-Nov-16 * Kiểm định theo cột: VD3 GT: Năng suất không phụ thuộc vào giống QĐ: =5% > 1,9% = p => Bác bỏ H0 KL: Với =5%, suất phụ thuộc vào giống * Kiểm định theo hàng: GT: Năng suất không phụ thuộc vào phân bón QĐ: p=0%, nhỏ => Bác bỏ H0 hoàn toàn KL: Với =5%, suất phụ thuộc vào phân bón * Kiểm định tƣơng tác: GT: Khơng có tƣơng tác yếu tố giống phân bón đến suất QĐ: p=0%, nhỏ => Bác bỏ H0 hồn tồn KL: Với =5%, có tƣơng tác yếu tố giống phân bón đến suất KIỂM ĐỊNH PHI THAM SỐ KĐ PHI THAM SỐ KĐ Wilcoxon (Kiểm định T) KĐ Mann – Whitney (Kiểm định U) KĐ Kruskal- Wallis KĐ phù hợp KĐ độc lập (mối liên hệ) MỤC ĐÍCH KĐ TB tổng thể (Mẫu cặp) KĐ TB tổng thể (Mẫu độc lập) KĐ nhiều TB tổng thể KĐ phù hợp phân phối tổng thể KĐ mối liên hệ biến định tính Kiểm định Wilcoxon (Kiểm định T) Kiểm định hai trung bình tổng thể (mẫu cặp) Xếp hạng (rank): Dãy số xếp theo thứ tự tăng dần: x1 < x2 < x3 < < xn rank(x1) = 1, rank(x2) = 2, , rank(xn) = n Lưu ý: Các phần tử có giá trị hạng hạng trung bình hạng liên tiếp 50 07-Nov-16 Kiểm định Wilcoxon (Kiểm định T) a) Mẫu nhỏ (n 20) (1) Giả thuyết:  H :  x   y    H1 :  x   y  (2) GTKĐ: - Tính chênh lệch: di = xi - yi - Xếp hạng cácdi, bỏ qua di = - Tìm tổng hạng di mang dấu dƣơng (T+) di mang dấu (T-) - Giá trị kiểm định T = min(T+, T-) (3) QĐ bác bỏ H0: T  Tn  , tra bảng phân phối Willcoxon n+ số di  Ví dụ 1: Mẫu khách hàng đƣợc chọn ngẫu nhiên yêu cầu họ cho biết sở thích loại kem đánh A, B thông qua thang điểm từ (thấp nhất) đến (cao nhất) Khách hàng KĐR A 3 2 KĐR B 5 5 5 Hãy kiểm định giả thuyết cho khơng có xu hƣớng nghiêng loại sở thích loại kem đánh A, B với =5% Gọi μx μy điểm trung bình sở thích KH KĐR A B Đặt giả thuyết: H :  x   y  Ví dụ 1: Giá trị kiểm định: KH Kem A Kem B Chênh lệch Hạng + Hạng - 1,5  H1 :  x   y  5 -3 1,5 5 -2 -4 7 3 Quyết định: T = min(T+, T-) = min(3, 25) = -3 -3 5 T 25 ; n+ =7 T = > T7,5% = => Chấp nhận giả thuyết H0 Kết luận: Với =5%, cho khơng có khác biệt việc ƣa chuộng hai loại kem đánh A B 51 07-Nov-16 Kiểm định Wilcoxon (Kiểm định T) b) Mẫu lớn (n>20) Giả thuyết: giống trƣờng hợp mẫu nhỏ GTKĐ: Z  T  T T n  (n   1) n  (n   1)(2n   1) T  24 + Trung bình: T  + Phƣơng sai: QĐ bác bỏ Ho: - đuôi: Z > Z / 2 Kiểm định Mann - Whitney (Kiểm định U) KĐ hai trung bình tổng thể, mẫu độc lập a/Mẫu nhỏ (n1 ≤ n2 ≤ 20): Giả thuyết: H : 1    GTKĐ:  H1 : 1    - Xếp hạng tất giá trị mẫu theo thứ tự tăng dần - R1: tổng hạng tất giá trị mẫu thứ - GTKĐ: U1  n1.n2  n1 (n1  1)  R1 U2 = n1n2 - U1 U = (U1,U2) QĐ bác bỏ H0 : U ≤ Un1,n2,α Un1,n2,α tra bảng Mann Whitney Kiểm định Mann - Whitney (Kiểm định U) KĐ hai trung bình tổng thể, mẫu độc lập b/ Mẫu lớn (n1, n2 > 20): Giả thuyết: giống trƣờng hợp mẫu nhỏ GTKĐ: Z U  U U U  n1n 2  2U  n n ( n  n  1) 12 QĐ bác bỏ H0: - đuôi: Z > Z  / 52 07-Nov-16 Ví dụ 2: Tại trang trại nuôi lợn ngƣời ta thử áp dụng loại thuốc tăng trọng bổ sung vào phần thức ăn 10 lợn, sau tháng ngƣời ta thu thập số liệu trọng lƣợng lợn (X) Đồng thời ngƣời ta thu thập số liệu 15 lợn khác không dùng thuốc tăng trọng (Y) Hãy kiểm tra xem trọng lƣợng có nhƣ hay khơng thử nghiệm với =5% Tổng X 60 61 62 62 63 63 68 64 64 65 Y 56 56 57 57 58 58 58 59 59 60 rank(x) 11,5 15 18 18 20,5 20,5 25 22,5 22,5 24 rank(y) 1,5 1,5 3,5 3,5 6 8,5 8,5 11,5 60 60 61 61 62 197,5 11,5 11,5 15 15 18 127,5 Ví dụ 2: Gọi μ1 μ2 trọng lƣợng lợn có SD khơng SD thức ăn tăng trọng Giả thuyết: H : 1    H1 : 1    GTKĐ: U  10 x15  10(10  1)  197,5  7,5 U2 = 10 x 15 -7,5 = 142,5 U = (U1,U2) = 7,5 QĐ: U = 7,5 < U10,15,5% = 39 => Bác bỏ H0 Kết luận: Với =5%, trọng lƣợng lợn có thay đổi sử dụng thuốc tăng trọng Kiểm định Kruskal – Wallis: Kiểm định k trung bình tổng thể Xếp hạng tất giá trị theo thứ tự tăng dần R1, R2, , Rk tổng hạng mẫu (1) Giả thuyết: (2) GTKĐ: H : 1      k  H1 :  i   j (i  j) 2  (3) QĐ bác bỏ H0 khi: k Ri2 12  3(n  1)  n(n  1) i 1 ni    k21, 53 07-Nov-16 Ví dụ 3: Một nhà nghiên cứu muốn xem xét tổng giá trị sản phẩm sản xuất ngành A, B, C có giống khơng Ngƣời ta chọn số xí nghiệp hoạt động ngành có bảng số liệu nhƣ bên dƣới Có thể kết luận 0,5%? Ngành A 1,38 1,55 1,90 2,00 1,22 2,11 1,98 1,61 Tổng Ngành B 2,33 2,50 2,79 3,01 1,99 2,45 Ngành C 1,06 1,37 1,09 1,65 1,44 1,11 rank(A) 11 14 15 rank(B) 16 18 19 20 13 17 12 103 79 rank(C) 10 28 Ví dụ 3: Gọi A, B, C lần lƣợt giá trị sản xuất trung bình ngành A, B C Giả thuyết: H0: A=B=C Giá trị kiểm định: 2  12 792 1032 282 (   )  3(20  1)  13,54 20(20 1) 6 Quyết định: 2 = 13,54 > 22;0,5% = 10,597 => Bác bỏ H0 Kết luận, với =0,5%, tổng giá trị sản phẩm trung bình ngành khác Kiểm định phù hợp KĐ xem tổng thể có tuân theo phân phối giả định cho trƣớc hay khơng a) Giả định biết tham số tổng thể - Mẫu n quan sát đƣợc chia thành k nhóm khác - Oi: Số quan sát nhóm thứ i (i= 1, 2, …, k) - pi: xác suất giả thuyết để quan sát rơi vào nhóm thứ i GT: H0: Tổng thể có phân phối xác suất pi H1: Tổng thể khơng có phân phối xác suất pi k GTKĐ: (O i  E i ) với Ei = n.pi 2   i 1 Ei Đk: kiểm định có ý nghĩa Ei  QĐ bác bỏ H0 khi:    2k 1, 54 07-Nov-16 Ví dụ 4: Một cơng ty máy tính khảo sát ngẫu nhiên 160 khách hàng màu u thích cho dịng sản phẩm máy tính xách tay, kết nhƣ sau: Màu ĐEN TRẮNG BẠC ĐỒNG Số khách hàng 34 46 29 51 Có thể kết luận ƣa chuộng khách hàng màu sắc nhƣ đƣợc không mức ý nghĩa 2,5%? Giả thuyết: H0: pA= pB= pC= pD= 0,25 H1: pA≠ pB≠ pC≠ pD ĐEN TRẮNG BẠC ĐỒNG Màu(x) Số khách hàng (Oi) Giả thuyết Ho (pi) Ei=n.pi (0i-Ei)2/Ei GTKĐ: 34 46 29 51 160 0,25 0,25 0,25 0,25 40 40 40 40 0,90 0,90 3,03 3,03 7,86   7,86 Ei = 40 > => KĐ có ý nghĩa 2 Quyết định: 7,86     k 1,   3;0,025  9,348 => Không thể bác bỏ giả thuyết H0 Kết luận: Ở mức ý nghĩa 2,5% ƣa chuộng khách hàng màu sắc nhƣ Kiểm định phù hợp b) Giả định chƣa biết tham số tổng thể • Phần ta nghiên cứu việc kiểm định giả thuyết quan sát tuân theo qui luật phân phối • Trƣớc hết phải xác định xác suất pi để quan sát rơi vào nhóm thứ i • Sau áp dụng phƣơng pháp tƣơng tự nhƣ phần (a) 55 07-Nov-16 Kiểm định độc lập (kiểm định mối liên hệ)  Kiểm định mối liên hệ hai tiêu thức định tính - Mẫu n quan sát đƣợc phân nhóm kết hợp thành tiêu thức với  bảng phân nhóm kết hợp gồm r hàng c cột - nij : quan sát tƣơng ứng với hàng i cột j Phân nhóm theo tiêu thức thứ hai Phân nhóm theo tiêu thức thứ 1 n11 n12 c n1c  R1 n21 n22 n2c R2 r nr1 nr2 nrc Rr  C1 C2 Cc n Kiểm định độc lập (kiểm định mối liên hệ)  Kiểm định mối liên hệ hai tiêu thức định tính GT: H0: khơng có mối liên hệ hai tiêu thức H1: Tồn mối liên hệ hai tiêu thức GTKĐ: r c    i 1 j 1 (nij  Eij ) Eij E ij  C j Ri n    (2r 1)( c1), QĐ bác bỏ H0 khi: Ví dụ 5: Một nghiên cứu đƣợc thực nhằm xem xét mối liên hệ giới tính ƣa thích nhãn hiệu nƣớc giải khát, mẫu ngẫu nhiên 2.425 ngƣời tiêu dùng với nhãn hiệu nƣớc giải khát đƣợc ƣa thích nhƣ sau: Giới tính Nam Nữ Nhãn hiệu ưa thích Coca 308 502 Pepsi 177 627 7Up 114 697 Kiểm định giả thuyết khơng có mối liên hệ giới tính ƣa thích nhãn hiệu nƣớc giải khát mức ý nghĩa 0,5% 56 07-Nov-16 Ví dụ 5: Giới tính Nam E1,j (n1,j-E1,j)2/E1,j Nữ E2,j (n2,j-E2,j)2/E2,j Cj Nhãn hiệu ƣa thích Coca Pepsi 7Up Ri 308 177 114 599 200,08 198,60 200,33 58,21 2,35 37,20 502 627 697 1826 609,92 605,40 610,67 19,10 0,77 12,20 810 804 811 2425 2 97,76 32,07 129,83 Ví dụ 5: GT: H0: Khơng có mối liên hệ giới tính ƣa thích nhãn hiệu nƣớc giải khát H1: Có mối liên hệ giới tính ƣa thích nhãn hiệu nƣớc giải khát Giá trị kiểm định: r c (O  E ) ij ë     97,76  32,07  129,83 Eë i 1 j1 Quyết định: 129,83     (221)( 31);0,005   22;0,005  10,597 => Bác bỏ giả thuyết H0 Kết luận: Ở mức ý nghĩa 0,5%, giả thuyết H0 bị bác bỏ, có nghĩa có mối liên hệ giới tính ƣa thích nhãn hiệu nƣớc giải khát 57 ... sai lầm mà ta thƣờng dùng thống kê Một vài giá trị đặc biệt:  0,005 0,010 0,025 0,050 0,100 Z 2,575 2,330 1,960 1,645 1,280 PHÂN PHỐI CỦA MỘT VÀI ĐẠI LƢỢNG THỐNG KÊ Phân phối Chi bình phƣơng... kết luận – bác bỏ hay chấp nhận - giả thuyết tổng thể 26 07-Nov-16 GIẢ THUYẾT THỐNG KÊ Các loại giả thuyết thống kê Giả thuyết H0 (Null hypothesis): giả thuyết giá trị tham số tổng thể mà ta... f) 2 PHÂN PHỐI MẪU Định lý giới hạn trung tâm Định lý: Khi cỡ mẫu n đủ lớn phân phối trung bình mẫu

Định dạng
Số trang	57
Dung lượng	2,25 MB