Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 51 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
51
Dung lượng
0,96 MB
Nội dung
BÀI TOÁN SOSÁNHMỞRỘNG § SOSÁNH NHIỀU TỶ LỆ Trong chương trước xét toán sosánh tỷ lệ cá thể có đặc tính A hai tập hợp mởrộng toán cách xét toán sosánh đồng thời tỷ lệ cá thể có đặc tính A nhiều tập hợp Giả sử ta có k tập hợp H1, H2, Hk Mỗi cá thể chúng mang hay không mang đặc tính A Gọi p1 tỷ lệ mang đặc tính A tập hợp Hi (i = 1, 2, k) Các tỷ lệ gọi tỷ lệ lý thuyết mà chưa biết Ta muốn kiểm đònh giả thiết sau: Ho: p1 = p2 = = pk (tất tỷ lệ nhau) Từ tập hợp H i ta rút ngẫu nhiên có kích thước ni, thấy có m i cá thể mang đặc tính A liệu trình bày bảng sau đây: Mẫu k Tổng m1 m2 mk m Không A l1 l2 lk l Toång n1 n2 nk N=m+l= ni Có A Nếu giả thiết Ho: p1 = p2 = = pk = p Là tỷ lệ chung p ước lượng tỷ sốsố cá thể đặc tính A toàn k mẫu gộp lại tổng số cá thể k mẫu gộp lại $ m p N Tỷ lệ cá thể đặc tính A ước lượng $ 1 p $ l q N Khi số cá thể có đặc tính A mẫu thứ i (mẫu rút từ tập hợp Hi ) xấp xỉ �i n p $ ni m m i N số cá thể đặc tính A mẫu thứ i xấp xỉ $ $n l i i ni q i N �i $ Các số m i i gọi tần số lý thuyết (TSLT), số mi, li gọi tần số quan sát (TSQS) Ta đònh bác bỏ Ho TSLT cách xa TSQS cách “bất thường” Khoảng cách TSQS TSLT đo test thốngkê sau đây: T k m m� � i 1 i i �i m k l � i $ li $ li i 1 Người ta chứng minh H o tần số lý thuyết không nhỏ thua T có phân bố xấp xỉ phân bố 2 với k – bậc tự Thành thử miền bác bỏ H o có dạng {T > c}, c tìm từ điều kiện P{T > c} = Vậy c phân vò mức phân bố 2 với k – bậc tự Chú ý Test thốngkê T biến đổi sau Ta có: l i Do $ li $ � m n p $ � n mi ni p i i �i � m m� i i T �i � mi m �1 �i � mi m 2� m m� k � i 1 1� �� $ � �m1 l i � 1 � � $ nq $� �n p � i � �i i i $ ni pq m2i 2 $ n pq � �i mi m $ n pq � i i �2o m $ n pq � i Chú ý �i mi m $ q $ ni pq � � mi m ; $ q �12 m $ $ n pq q � i m �i �m $ q Vaäy T $ pq m2 �nii m $ pq $ q m2 �nii N $ N2 p $ ml q m2 �nii N m l Nếu sử dụng công thức ta không cần tính tần số lý thuyết, dùng thực hành Ví dụ Sosánh tác dụng mẫu thuốc thử nghiệm lô chuột, kết thu sau: Mẫu thuốc Tổng Số sống 79 82 77 83 76 81 478 Số chết 21 18 23 17 24 19 122 100 100 100 100 100 100 600 Tổng Ta muốn kiểm đònh giả thiết Ho: Tỷ lệ chết mẫu thuốc Đối thiết H1: Tỷ lệ chết mẫu thuốc khác Giải Ta có 6002 � 792 822 812 � (600)(478) T L � � (478)(122) � 100 100 100� 122 2353,24 2350,81 2,42 Với mức ý nghóa = 5%, tra bảng phân bố 2 với bậc tự ta có 20,05 11,07 Vì T < c nên ta chấp nhận Ho J Ví dụ Có thầy giáo A, B, C, D dạy giáo trình thốngkê Ban chủ nhiệm khoa muốn tìm hiểu chất lượng dạy thầy nên làm khảo sát Kết sau: Thầy A B C D Tổng Đạt 60 75 150 125 410 Không ñaït 40 75 50 75 240 100 150 200 200 650 Kết Tổng Với mức ý nghóa = 0,01 cho tỷ lệ học sinh đỗ học sinh học thầy hay không? Giải Ta có T (650)2 � 602 752 1502 1252 � (650)(410) � � (410)(240) � 100 150 200 200 � 240 1134,07 1110,41 23,65 Số bậc tự 0,01 11,343 Vì T > c nên ta bác bỏ giả thuyết Ho Tỳ lệ học sinh đỗ thầy A, B, C, D § SOSÁNH CÁC PHÂN SỐ Xét A gồm r tính trạng, A = (A1, A2, Ar), cá thể tập hợp H có có tính trạng (hay phạm trù) A i Gọi pi (i = 1, 2, r) tỷ lệ cá thể tính trạng A i tập hợp H Khi véctơ = (p 1, p 2, p r) gọi phân bố A tập hợp H Chẳng hạn, người làm sử dụng phương tiện sau: bộ, xe đạp, xe máy, xe buýt Trong thành phố X có 18% bộ, 32% xe đạp, 40% xe máy 10% xe buýt Như = (0,18; 0,32; 0,4; 0,1) phân bố cách làm ( A ) tập hợp dân cư thành phố X Tương tự người xếp vào phạm trù sau: hạnh phúc, bất hạnh, xếp vào lớp sau: 25 tuổi, khoảng từ 25 đến 45 tuổi, 45 tuổi dẫn nhiều ví dụ tương tự Giả sử (p 1, p 2, p r) phân bố (A 1, A2, A r) tập hợp H (q 1, q 2, q r) phân bố A = (A 1, A 2, A r) tập hợp Y Ta nói (A 1, A2 Ar) có phân bố X Y (p 1, p 2, p r) = (q 1, q2, r r) p = q 1, p r = q r Chuùng ta muốn kiểm đònh xem A = (A 1, A 2, A r) có phân số X Y hay không dựa mẫu ngẫu nhiên rút từ X Y Tổng quát hơn, giả sử ta có k tập hợp H1, i i i i H2, Hk Goïi p1,p2,K pr phân bố A = (A 1, A 2, A r) tập hợp Hi Ta muốn kiểm đònh giả thuyết sau Ho: 1 2 K k (Các phân bố tập hợp Hi) Chú ý H o tương đương với hệ đẳng thức sau: �p11 p12 K �1 �p2 p2 K �1 �pi pi K � �pr pr K p1k p2k pik pkr Từ tập hợp chọn mẫu ngẫu nhiên Mẫu ngẫu nhiên chọn từ tập hợp Hi gọi mẫu ngẫu nhiên thứ i (i = 1, 2, k) Giả sử mẫu ngẫu nhiên thứ i Có n 1i cá thể có tính trạng A n 2i cá thể có tính trạng A n ri cá thể có tính trạng A r Ta xắp xếp cá số liệu thành bảng sau Mẫu K Tổng số n 1k n 10 n 2j n 2k n 20 n i2 n ij n ik n i0 Ar n r1 n r2 n rj n rk n r0 Tổng số n o1 n o2 n oj n ok n A1 n 11 n 12 n 1j A2 n 21 n 22 Ai n i1 Tính trạng J k nio �nij Ký hiệu j1 r noj �nij i 1 Như n oj kích thước mẫu thứ j, n io tổng số cá thể có tính trạng A i toàn k mẫu ñang xeùt r k i 1 j1 n �nio �noj Là tổng số tất cá thể k mẫu xét Nếu giả thiết H o nghóa �p11 p12 K � �p12 p22 K � �1 �pi pi K �1 �pr pr K � p1k p1 p2k p2 pki pi pkr pr tỷ lệ chung p 1, p 2, p r ước lượng bởi: $ nio p i n Đó ước lượng cho xácsuất để cá thể có mang tính trạng Ai số cá thể có tính trạng Ai mẫu thứ j xấp xỉ baèng $ij n p $ noj nio n oj i n $ij (i 1,2, r; j 1,2, k) Các số n gọi tần số lý thuyết (TSLT), số n ij gọi tần số quan sát (TSQS) Ta đònh bác bỏ H o TSLT cách xa TSQS cách bất thường Khoảng cách TSQS TSLT đo test thốngkê sau k n n$ r T �� f 1 i 1 ij ij $ij n (TSQS TSLT)2 � TSLT Người ta chứng minh H o TSLT không nhỏ T có phân bố xấp xỉ phân bố 2 với (k-1)(r-1) bậc tự Thành thử miền bác bỏ có dạng {T > c} c tìm từ điều kiện P{T > c} = Vậy c phân vò mức phân bố 2 với (k-1)(r-1) bậc tự Chú ý T biến đổi thành dạng sau Ta có Để ý raèng: n n$ ij ij $ij n n2ij $ij 2nij n $ij n ��n ��n$ ij � � n2ij n2ij n2ij � nij � n n� 1� Vaäy T � 2n n � n� � $ $ nionoj nij nij � nionoj � ij n (1) $ij , Với công thức ta tính TSLT n thường sử dụng thực hành Ví dụ Người ta muốn sosánhsố băng vỏ ba loài ốc sên rừng I, II III Số liệu nghiên cứu cho bảng sau: Loài I II III Tổng số 49 31 126 206 33 20 56 109 hoaëc 52 20 83 155 trở lên 35 29 109 173 Tổng số 169 100 374 643 Số băng vỏ Hỏi cho số băng vỏ có phân phối ba loài ốc sên không? Chọn mức ý nghóa 5% Giải Ta tính thốngkê T theo công thức (1) � 492 312 1262 T 643� (169)(206) (100)(206) (374)(206) � 332 202 562 (169)(109) (109)(100) (109)(374) � 292 1092 L 1��10,4 (100)(173) (374)(173) � Tra bảng phân bố 2 với bậc tự (3 – 1)(4 – 1) = 6, ta tìm c 20,05 12,592 Giá trò lớn T chấp nhận H o: Số băng vỏ có phân bố loài ốc sên rừng Ví dụ đài truyền hình việt nam muốn thăng dò ý kiến khán giả thời lượng phát sóng phim truyện Việt Nam hàng tuần Phiếu thăm dó đặt mức A 1: Tăng thời lượng phát sóng A 2: Giữ cũ A 3: Giảm A 4: Không ý kiến Đài tiến hành thăm dò ba nhóm xã hội khác nhau: công nhân, nông dân, trí thức Kết thăm dò sau: Tầng lớp Công nhân Nông dân Trí thức Tổng số Tăng 100 300 20 420 Như cũ 200 400 30 630 Giảm 50 80 135 Không ý kiến 30 70 105 Tổng số 380 850 60 1290 Ýù kiến Với mức ý nghóa = 5%, có khác ý kiến tầng lớp xã hội hay không? Giải Tần số lý thuyết ô “trí thức không ý kiến” (60)(105) 4,88, bé điều kiện cho 1290 phép áp dụng tiêu chuẩn “khi bình phương” không thoả mãn Để khắc phục khó khăn có hai cách Hoặc ghép dòng cuối với dòng đó, ghép cột cuối với cột Tuy nhiên khó ghép dòng cuối “không ý kiến” với dòng cho hợp lý “Không ý kiến” khác nhiều với việc “có bày tỏ ý kiến mình” Hợp lý ta ghép cột cuối “trí thức” với cột “công nhân” trí thức có vẽ gần với công nhân nông dân (đều khu vực thành thò) Như ta có bảng sau: Tầng lớp Ýù kiến Công nhân Và trí thức Nông dân Tổng số Tăng 120 300 420 Như cũ 230 400 630 Giảm 55 80 135 Không ý kiến 35 70 105 Tổng số 440 850 1290 Sử dụng công thức tìm � 1202 � 702 T 1290� L 1��10,059 (440)(220) (850)(105) � � Tra bảng phân bố mức 5% với bậc tự (2 – 1)(4 – 1) = 3, ta tìm 20,05 7,815 Số bé T vây ta kết luận thời lượng phát sóng phim Việt Nam có khác ý kiến hai tầng lớp xã hội: nông dân công nhân viên chức Chú thích sử dụng Minitab Để sử dụng Minitab thực tiêu chuẩn 2 ta cần làm sau Các tần số quan sát nhập vào dạng cột số liệu, chẳng hạn cột C 1, C 2, C3 C4 lệnh READ Sau đánh lệnh CHIQUARE C1 – C4 Minitab cho ta hình TSQS, TSLT, giá trò test thốngkê “Khi bình phương” T số bậc tự Ta cần tra bảng phân bố 2 để tìm số c sosánh với giá trò T Sau ví dụ bảng mà Minitab cho ta hình: MTB > READ C1 – C4 ROWS READ MTB > END MTB > MTB > CHISQUARE C1 – C4 C1 C2 C3 34 47 63 36.79 42.64 66.42 26 36 57 32.55 37.73 58.75 10 C4 68 36.14 42 31.97 Total 182 161 trọng lượng (tính pound) (1 pound = 0,454 kg) trẻ em 14 tuổi Ta muốn khẳng đònh xem X Y có độc lập không Giải Chia X thành mức B1 = {X 99}; B2 = {99 < X 110}; B3 = {110 < X 120}; B4 = {X > 120} Chia Y làm hai mức A1 = {Y 102} ; A2 = {Y > 102} Một mẫu gồm 200 trẻ em đo huyết áp trọng lượng cho thấy số liệu sau: Huyết áp B1 B2 B3 B4 Tổng soá A1 10 20 11 46 A2 48 50 50 154 Tổng số 16 68 61 55 200 Trọng lượng � 102 � 202 502 � � L 1� 22, 53 Ta coù: T 200� (55)(154) � �(16)(46) (68)(46) Với mức ý nghóa = 1%, tra bảng phân bố 2 với bậc tự laø (2 – 1)(4 – 1) = 3, ta tìm c 20,01 11, 345 Vì T > c nên ta bác bỏ H o kết luận: Giữa huyết áp trọng lượng trẻ 14 tuổi có phụ thuộc lẫn * § PHÂN TÍCH TƯƠNG QUAN PHI TUYẾN Như nói §1, hệ số tương quan dùng để đo mức độ phụ thuộc tuyến tính hai ĐLNN Như chưa có tiêu để đo mức độ phụ thuộc nói chung Cần nhớ hệ số tương quan X Y bé hay chí X Y có mối liên hệ phi tuyến chặt 37 chẽ Để đo mức độ phụ thuộc nói chung ĐLNN Y vào ĐLNN X, người ta đưa khái niệm tỷ số tương quan Tỷ số tương quan lý thuyết Y theo X ký hiệu 2Y / X số không âm xác đònh theo công thức sau 2Y / X E ( Y E ( Y / X ))2 DY E ( Y E ( Y / X ))2 DY DY E[Y/X] ký hiệu kỳ vọng Y tính điều kiện X cố đònh giá trò E[Y/X] gọi kỳ vọng Y với điều kiện X Người ta chứng minh �2Y / X �1 2 �2Y / X Hiệu số 2Y / X 2 đo mức độ phụ thuộc phi tuyến Y X Nếu hiệu số 2Y / X 2 lớn có nghóa có tương quan phi tuyến mạnh Bay ta xét vấn đề ước lượng kiểm đònh giả thiết tỷ số tương quan Giả sử (x 1, y1), (x2, y2), , (xn, yn) mẫu gồm n quan sát độc lập rút từ tập hợp giá trò (X, Y) Chúng ta cần giả thiết dãy giá trò X: x i, x2, xn, giá trò xi lặp lại lần Giả sử x (1) < x(2) < x(k) giá trò khác dãy (x i) Ta trình bày dãy số liệu (xi, yi) thành bảng sau đây, gọi bảng tương quan X Y 38 x(1) x(2) x(k) y11 y12 y1k y21 y22 y2k yn11 yn2 ynkk n1 n2 nk T1 T2 Tk �n n � T n i i Bảng giống với bảng số liệu tiến hành phân tích phương sai (xem chương VI, § 3) Tiếp theo ta tiến hành phân tích phương sai Ti Ký hiệu: T ni �y ji (tổng số liệu yji cột x(i)) i 1 �Ti ni sốsố liệu cột x (i) (cũng số giá trò xj mà xj = x(i)) Nhớ lại (xem chương VI, § 3): + Tổng bình phương chung SST tính công thức: STT ��y2ij T2 n + Tổng bình phương nhân tố SSF tính công thức SSF k Ti2 T n n i i 1 � Đại lượng sau sử dụng ước lượng cho tỷ số tương quan lý thuyết 2Y / X : SSF $2 Y /X SST $2 gọi tỷ số tương quan Y X Để Y /X $2 $2 thay cho cho gọn từ ta viết Y /X Người ta chứng minh $2 �r � r hệ số tương quan Bình phương hệ số tương quan r2 gọi hệ sốxác đònh $2 lý giải tỷ lệ biến Tỷ số tương quan động Y có phụ thuộc Y vào X Hệ sốxác đònh r2 lý giải tỷ lệ biến động Y có phụ thuộc tuyến tính Y vào X 39 Ví dụ Cho mẫu quan sát sau cặp ĐLNN (X, Y): (8, 82); (8, 78); (12, 65); (12, 50); (20, 60); (20, 47); (24, 52); (24, 41); (8, 87); (8, 58); (8, 70); (12, 62); (12, 55); (12, 52); (20, 44); (20, 66); (20, 41); (24, 57); (24, 50); (24, 47); (8, 65); (12, 49); (20, 57); (24, 65) Hãy tính hệ số tương quan hệ sốxác đònh tỷ số tương quan Y X Giải Trước hết ta cần trình bày số liệu dạng bảng tương quan sau đây: X 12 20 24 82 65 60 52 78 50 47 41 87 62 44 57 58 55 66 50 70 52 41 63 65 49 57 ni 6 6 n = 24 Ti 440 333 315 310 T= 1398 Y + Tính hệ số tương quan Ta có �x 6(8) 6(12) 6(20) 6(24) 384; �y T 1398; �x2 6(64) 6(144) 6.(400) 6.(576) 7104 �y2 822 782 L 632 84908; �xy 8(440) 12(333) 20(315) 24(310) 21256 n�xy �x �y 26688; Vaäy 40 n �x2 �x 24(7104) 3842 151, 789; n �y2 �y 24(84909) 13982 288, 77 Thành thử r 26688 0, 6089 (151, 789)(288, 77) Hệ sốxác đònh r = 0,60892 = 0,37 + Tính tỷ số tương quan Ta coù: SST SSF �y2 T2 13982 84908 3474, 5; n 24 Ti2 T 4402 L 3102 13982 1868, 83 ni n 24 � $2 SSF 0, 5378 Từ SST Hiệu số 2 – 2 tỷ số tương quan lý thuyết hệ sốxác đònh lý thuyết cho ta hình ảnh phụ thuộc phi tuyến Y X Nếu hiệu số điều nghóa có tương quan tuyến tính Y X Để kiểm đònh giả thiết Ho: 2 – 2 (không có tương quan phi tuyến), với đối thiết H1: 2 – 2 > (có tương quan phi tuyến), ta dùng test thống keâ sau: $2 r �$2 � r � n k � � � k F � $2 $2 � 1 1 ( k 2) � � � � nk Người ta chứng minh H o F có phân Fisher với bậc tự (k – 2, n – k) Thành thử giả thiết H o: “Không có tương quan phi tuyến” bò bác bỏ mức F lớn số c phân vò mức phân bố Fisher với bậc tự (k – 2, n – k) Ví dụ 10 Trở lại ví dụ ta muốn kiểm tra xem liệu có tương quan phi tuyến Y X hay không 41 Ta có F (0, 5378 0, 37) (24 4) (0, 1678)(20) 3, 63 (1 0, 5378) (4 2) (0, 4622).2 Tra bảng phân bố Fisher với bậc tự (2, 20) mức 5%, ta c = 3,49 Vì F > c nên ta bác bỏ H o Vậy ta khẳng đònh có tồn mối tương quan phi tuyến Y X xácsuất sai lầm khẳng đònh 5% § PHÂN TÍCH HỒI QUY TUYẾN TÍNH Giả sử X biến (có thể biến ngẫu nhiên hay không ngẫu nhiên), Y ĐLNN phụ thuộc vào X theo cách sau Nếu X nhận giá trò x, X = x, Y có kỳ vọng ax + , số phương sai 2 (không phụ thuộc x) Khi ta nói Y có hồi quy tuyến tính theo X, đường thẳng hồi quy lý thuyết Y X hệ số , gọi hệ số hồi quy lý thuyết X gọi biến độc lập, Y gọi biến phụ thuộc Bài toán đặt ước lượng hệ số quy lý thuyết mẫu quan (x 1, y1), , (x n, yn) Ước lượng dựa phương pháp bình phương bé a b chọn làm ước lượng cho làm cực tiểu tổng sau đây: Q( A , B ) n � yi Axi B i 1 Hệ phương trình để tìm điểm dừng (a, b) hàm Q(A, B) có dạng: n �� Q � 2 xi ( yi Axi B ) A �� i 1 � n �� Q ( yi Axi B ) �� i 1 �B � � Giải hệ (hệ phương trình tuyến tính với hai ẩn số A, B), ta tìm 42 a n �xy �x �y n �x2 �x b y ax �y a�x n a b gọi hệ số hồi quy Đường thẳng với phương trình y = ax + b gọi đường thẳng hồi quy Từ cách xác đònh a, b, ta thấy số tất đường thẳng y = Ax + B xuyên qua đám mây điểm ( xi , yi ) ni 1 , đường thẳng y = ax + b có tổng bình phương khoảng cách từ (x i, yi) tới đường thẳng bé Ví dụ 11 Các số liệu số trang sách (X) giá bán (Y) cho bảng Tên sách X Y (nghìn) A 400 44 B 600 47 C 500 48 D 600 48 E 400 43 F 500 46 Haõy tìm đường thẳng hồi quy Y theo X số liệu nói Giải Ta có: 43 �xy 138 800; �x 3000; �y 276; �x2 1540 000; �y2 12718 Từ a n �xy �x �y n�x2 �x 6(138800) (3000)(276) 6(1540000) (3000)2 4800 0, 02; 240000 b �y a�x 276 (0, 02)(3000) 36 n Vaäy đường thẳng hồi quy y = 0,02x + 36 Ngoài việc ước lượng hệ số hồi quy , ta quan tâm tới ước lượng 2, 2 số đo phân tán Y xung quanh đường thẳng hồi quy Ước lượng cho 2, ký hiệu s2Y X , cho theo công thức sau: s2Y X n yi axi bi n i 1 � Dạng khác công thức s2Y X �y a�xy b�y n2 Coâng thức thường thuận tiện thực hành SY.X gọi sai số tiêu chuẩn đường hồi quy Nó cho ta số đo phân tán đám mây điểm (xi, yi) xung quanh đường thẳng hồi quy 44 Ví dụ 12 Hãy tính sai số tiêu chuẩn đường hồi quy SY.X ví dụ 11 vừa nêu Giải s2Y X �y a�xy b�y n2 12718 (0, 02).(138800) 36.(276) 1,5 6 Vaäy: sY X 1,5 1, 22 Bây dựa phương trình đường thẳng hồi quy tìm được, ta dự báo giá trò Y biết giá trò X Giá trò dự báo Y X = x o $ ax b y o o Đây đồng thời giá trò dự báo cho kỳ vọng Y ứng với X = xo (ký hiệu xo ): $x axo b o Tiếp theo ta xét toán tìm khoảng tin cậy cho gia trò dự báo Y, khoảng tin cậy cho giá trò dự báo xo + Công thức để tìm khoảng tin cậy cho giá trò dự báo Y X = xo $ �ts y X.Y o n (xo x) �x t phân vò mức với n – bậc tự �x)2 ( n 1 phân bố Student + Công thức để tìm khoảng tin cậy với độ tin cậy cho giá trò dự báo xo laø $ �ts y o X.Y n (xo x)2 (�x)2 x � n Ví dụ 13 Trở lại ví dụ 11 ta muốn dự báo giá bán sách với 450 trang 45 Giải: Giá sách dự báo $ 0, 02.(450) 36 45(ngh� y n) Khoảng tin cậy 95% cho giá sách 450 trang 45 �t.(1, 22) (450 500)2 (3000)2 154000 0, 95 0, 025 phân bố Student với – = bậc tự Tra bảng ta tìm t phân vò mức t = 2,776 Thay vào công thức ta khoảng tin cậy cần tìm 45 3,77 hay 41,23 < yo < 48,77 Vậy với độ tin cậy 95%, sách với 450 trang bán với giá khoảng từ 41230 đồng đến 48770 đồng Ví dụ 14 Trở lại ví dụ 13 ta muốn dự báo giá bán trung bình tất sách 450 trang Giải Giá trung bình báo $ 0, 02.(450) 36 45 Khoảng tin cậy 95% cho giá trung bình tất sách 450 trang 45 �(2,776).(1, 22) hay (450 500)2 45 �3, 0, 23 (3000)2 1540000 45 �1, 63 43, 37 46, 63 Vậy với độ tin cậy 95% giá trung bình tất sách 450 trang nằm khoảng từ 43370 đồng đến 46630 đồng 46 Một vấn đề quan trọng phải lưu ý đến kiểm tra xem hệ số hồi quy lý thuyết có khác không hay không Nếu = EY = số không phụ thuộc X Khi việc dự báo EY dựa vô nghóa Người ta chứng minh hệ số hồi quy a có độ lệch tiêu chuẩn sa Thống kê: sY X sX n sY X �x2 (�x)2 n a sa T có phân bố Student với n – bậc tự giả thiết Ho: = Vì giả thiết H o bò bác bỏ mức ý nghóa T c , c phân vò mức phân bố Student với n – bậc tự Ví dụ 15 Với mức ý nghóa = 5%, kiểm đònh giả thiết Ho: “Hệ số góc đường thẳng hồi quy lý thuyết Y X không”, X Y hai biến xét ví dụ 11 Giải: Ta coù sa sY X �x2 (�x)2 n 1, 22 = Vaäy: 1540000 T= (3000) 1, 225 0, 0061 200 0, 02 3,33 0, 006 Với mức ý nghóa = 5%, tra bảng phân bố Student với bậc tự do, ta tìm c = t0,025 = 2,776 Ta có T c , ta bác bỏ Ho 47 Vậy hệ số góc đường thẳng hồi quy lý thuyết Y X khác không Chú thích sử dụng Minitab Ta nhập số liệu biến độc lập (x i) vào cột C1 số liệu biến phụ thuộc (y i) vào cột C2 Sau ta gõ lệnh REGRESS C2 C1 Minitab cho ta hình phương trình đường thẳng hồi quy mẫu bảng phân bố phương sai toán hồi quy Bảng có dạng sau: Nguồn Bậc tự (DF) Tổng bình phương (SS) Trung bình bình phương (MS) Hồi quy SSR MSR Sai số n–2 SSE MSE Tổng cộng n–1 SST Tỷ số F F MSR MSE Ở SST tổng bình phương chung SST �(yi y)2 �y2 (�y)2 n SSR tổng bình phương hồi quy SSR n �(ax i i 1 b y)2 SSE tổng bình phương sai số SSE n �(y i 1 i axi b)2 Ta coù: SST = SSR + SSE Có thể chứng minh rằng: � � (�x)(�y) � � (�x) � � � � SSR a � � �x n � a ��xy n � � � � � 48 SSE �y a�xy b�y a2 Do MSE s2Y X tỷ số F sa SSR gọi hệ sốxác đònh Nó SST bình phương hệ số tương quan r2 Tỷ số r2 SSR SST Việc kiểm đònh giả thiết H o: “Hệ số góc đường thẳng hồi quy lý thuyết Y X 0”, hay tương đương “không có quan hệ hồi quy lý thuyết Y X 0”, hay tương đương “không có quan hệ hồi quy tuyến tính X Y” mà ta trình bày a trước (dùng test thốngkê T = ), thay sa MSR thốngkê F = Giả thiết Ho bò bác bỏ mức MSE ý nghóa F > c, c phân vò mức phân bố Fisher với bậc tự (1, n – 2) Chẳng hạn bảng phân tích phương sai toán hồi quy ví dụ 11 Nguồn Bậc tự (DF) SS MS F Hoài quy 16 16 F = 10,66 Sai số 1,5 Tổng 22 r2 = 16 = 0,7272 22 r = 0,8528 Với mức ý nghóa = 5%, tra bảng phân bố Fisher với bậc tự (1,4) ta c = 7,71 Vì F = 10,66 > 7,71 nên Ho bò bác bỏ '5 HỒI QUY PHI TUYẾN Nếu biến độc lập X nhận giá trò x, biến phụ thuộc Y có kỳ vọng (x), hàm số đó, ta gọi (x) hàm hồi quy lý thuyết Y X Trong thực tế có nhiều (x) 49 hàm tuyến tính mà có dạng đa thức bậc 2, bậc 3, … hay hàm log, sin… Khi ta nói Y có hồi quy phi tuyến X Việc kiểm đònh xem có hồi quy phi tuyến hay không trình bày mục '3 Bài toán đặt “ước lượng” hàm hồi quy (x) mẫu số liệu quan sát $(x) phải chọn cho Hàm hồi quy ước lượng “gần” với đám mây điểm Chẳng hạn đám mây điểm có dạng sau: ta dự đoán hàm hồi quy (x) có dạng parabol (x) = Ax2 + Bx + C Ta dùng phương pháp bình phương bé để ước lượng số A, B, C Một phương pháp khác hay áp dụng phương pháp tuyến tính hóa; giả sử hàm hồi quy lý thuyết có dạng (x) = Axm + B Đặt Z = xm, ta có hồi quy tuyến tính Y Z Dựa số liệu {x 1, y1), …, (xn, yn)} ta biến đổi thành số liệu (x m , y1 ), , (xnm , yn ) (z1, y1 ), , (zn , yn ) ta seõ ước lượng số A, B Theo công thức hệ số hồi quy tuyến tính Ví dụ 16 Giả sử hàm hồi quy lý thuyết Y theo X có dạng sau 50 (x) = Ax2 + B Hãy ước lượng (x) dựa mẫu quan sát sau gồm 30 số liệu (xi, yi): xi yi Tần số zi = x2i 1,5 9,4 2,25 12,8 13 4 2,5 17,6 6,25 2,5 17,5 6,25 23 22,5 22,8 Giaûi: �z = 159; �y �zy = 2941,27 Từ hai cột số liệu (Z, y) ta tìm 466,1; �z = 1080,75; �y = 8181,83 = Từ ước lượng A a = 2,16, ước lượng B b = 3,9 Vậy hàm hồi quy laø y = 2,16x2 + 3,9 51 ... PHƯƠNG SAI MỘT NHÂN TỐ Trong chương xét toán so sánh giá trò trung bình hai tập hợp Trong mục xét toán tổng quát; so sánh đồng thời giá trò trung bình nhiều tập hợp Giả sử ta có k ĐLNN có phân bố chuaån... cho i j Đôi ta cần biết cụ thể cặp i j cặp Các nhà thống kê xây dựng số phương pháp để so sánh cặp giá trò trung bình hay so sánh tổ hợp phức tạp trung bình phương pháp Dumcan, phương... A, B, C, D § SO SÁNH CÁC PHÂN SỐ Xét A gồm r tính trạng, A = (A1, A2, Ar), cá thể tập hợp H có có tính trạng (hay phạm trù) A i Gọi pi (i = 1, 2, r) tỷ lệ cá thể tính trạng A i tập hợp H Khi