Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 59 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
59
Dung lượng
1,32 MB
Nội dung
VienZone.com BÀI TOÁN SO SÁNH MỞ RỘNG § SO SÁNH NHIỀU TỶ LỆ Trong chương trước xét toán so sánh tỷ lệ cá thể có đặc tính A hai tập hợp mở rộng toán cách xét toán so sánh đồng thời tỷ lệ cá thể có đặc tính A nhiều tập hợp Giả sử ta có k tập hợp H1, H2, Hk Mỗi cá thể chúng mang hay không mang đặc tính A Gọi p1 tỷ lệ mang đặc tính A tập hợp H i (i = 1, 2, k) Các tỷ lệ gọi tỷ lệ lý thuyết mà chưa biết Ta muốn kiểm đònh giả thieát sau: Ho: p1 = p2 = = pk (tất tỷ lệ nhau) Từ tập hợp Hi ta rút ngẫu nhiên có kích thước ni, thấy có mi cá thể mang đặc tính A liệu trình bày bảng sau đây: Mẫu k Tổng Có A m1 m2 mk m Không A l1 l2 lk l Tổng n1 n2 nk N = m + l = ni Nếu giả thiết Ho: p1 = p2 = = pk = p Là tỷ lệ chung p ước lượng tỷ số số cá thể đặc tính A toàn k mẫu gộp lại tổng số cá thể k mẫu gộp lại p m N https://fb.com/sinhvienzonevn VienZone.com Tỷ lệ cá thể đặc tính A ước lượng q l p N Khi số cá thể có đặc tính A mẫu thứ i (mẫu rút từ tập hợp H i) xấp xỉ m i n im n i p N số cá thể đặc tính A mẫu thứ i xấp xỉ i i n i q n l i N Các số m i i i gọi tần số lý thuyết (TSLT), số m i, li gọi tần số quan sát (TSQS) Ta đònh bác bỏ Ho TSLT cách xa TSQS cách “bất thường” Khoảng cách TSQS TSLT đo test thống kê sau đây: m k T m i m i k i i l i li l i i Người ta chứng minh Ho tần số lý thuyết không nhỏ thua T có phân bố xấp xỉ phân bố với k – bậc tự Thành thử miền bác bỏ Ho có dạng {T > c}, c tìm từ điều kiện P{T > c} = Vậy c phân vò mức phân bố với k – bậc tự Chú ý Test thống kê T biến đổi sau Ta coù: li l i n i m i n i p m i Do https://fb.com/sinhvienzonevn n i p m i m i VienZone.com T m k m i i 1 m l i m i m i m i m i 1 n i p n i q m n i p q i i m im n i p q m i n i p q o n i p q Chú ý m im i n i p q m q m i q m ; 1 n i p q m q m i q Vaäy T m p q n i m m i q p q n i N i p N q ml m i n i N m l Nếu sử dụng công thức ta không cần tính tần số lý thuyết, dùng thực hành Ví dụ So sánh tác dụng mẫu thuốc thử nghiệm lô chuột, kết thu sau: Mẫu thuốc Tổng Soá soáng 79 82 77 83 76 81 478 Soá chết 21 18 23 17 24 19 122 Tổng 100 100 100 100 100 100 600 Ta muốn kiểm đònh giả thiết Ho: Tỷ lệ chết mẫu thuốc Đối thiết H1: Tỷ lệ chết mẫu thuốc khác Giải Ta có T 600 79 ( ) (1 2 ) 3, Với mức yù nghóa 100 2350,81 82 100 81 100 (6 0 )(4 8) 122 2, 42 = 5%, tra bảng phân bố với bậc tự ta có https://fb.com/sinhvienzonevn VienZone.com ,0 1, Vì T < c nên ta chấp nhận Ho J Ví dụ Có thầy giáo A, B, C, D dạy giáo trình thống kê Ban chủ nhiệm khoa muốn tìm hiểu chất lượng dạy thầy nên làm khảo sát Kết sau: Thầy A B C D Tổng Đạt 60 75 150 125 410 Không đạt 40 75 50 75 240 Tổng 100 150 200 200 650 Kết Với mức ý nghóa = 0,01 cho tỷ lệ học sinh đỗ học sinh học thầy hay không? Giải Ta có T (6 ) 60 (4 )(2 ) 0 1134, 07 Số bậc tự 1110, 41 ,0 75 150 150 125 200 200 (6 )(4 ) 240 3, 1, Vì T > c nên ta bác bỏ giả thuyết Ho Tỳ lệ học sinh đỗ thầy A, B, C, D § SO SÁNH CÁC PHÂN SỐ Xét A gồm r tính trạng, A = (A1, A2, Ar), cá thể tập hợp H có có mộ t cá c tính trạ ng (hay phạm trù) A i Gọi p i (i = 1, 2, r) tỷ lệ cá thể tính trạn g A i tập hợ p H Khi vé ctơ = (p1, p 2, p r) đượ c gọi phân bố A tập hợp H Chẳn g hạn, người làm sử dụ ng mộ t cá c phương tiện sau: bộ, xe đạ p, xe máy, xe buý t Trong thàn h phố X có 18% bộ, 32% xe đạp , 40% xe máy 10% xe buýt Như = (0,18; 0,32; 0,4; 0,1) phân bố cách làm ( A ) tập hợp cá c dân cư thàn h phố X Tương tự người xếp vào phạm trù sau: hạnh phúc, bất hạnh, hoặ c đượ c xếp o lớp sau: dướ i 25 https://fb.com/sinhvienzonevn VienZone.com tuổi , khoản g từ 25 đến 45 tuổi, 45 tuổi dẫn nhiều ví dụ tương tự Giả sử (p 1, p2 , pr) phâ n bố (A1, A2, Ar) tập hợp H (q1, q2 , qr ) phân bố A = (A1 , A2, A r) tậ p hợp Y Ta i (A1, A2 A r) có phân bố X Y (p , p2, pr) = (q 1, q2, r r) p1 = q1 , pr = qr Chún g ta muốn kiểm đònh xem A = (A1 , A2 , Ar ) có phâ n số X Y hay khôn g dựa mẫu ngẫu nhiên rú t từ X Y Tổn g quát hơn, giả sử ta có k tập hợp H1, H2 , Hk Gọ i i i i phân bố A = (A 1, A2, Ar) tập hợ p H i i p , p , p r Ta muốn kiểm đònh giả thuyế t sau H o: k (Các phân bố nà y tập hợp H i) Chú ý H o tương đương với hệ đẳn g thứ c sau: p1 p2 pi pi pr p1 p2 pr p1 p2 pi pr 2 k k k k Từ tập hợp chọn mộ t mẫu ngẫu nhiên Mẫu ngẫu nhiê n chọn từ tậ p hợp H i gọi mẫu ngẫ u nhiên thứ i (i = 1, 2, k) Giả sử mẫu ngẫu nhiên thứ i Có n 1i cá thể có tính trạng A n 2i cá thể có tính trạng A n ri cá thể có tính trạng A r Ta xắp xế p cá số liệu nh g sau đâ y Mẫ u A1 n 11 n 12 n 1j A2 n 21 n 22 n 2j Tính trạn g K Tổn g số n 1k n 10 n 2k n 20 J https://fb.com/sinhvienzonevn VienZone.com Ai n i1 n i2 n ij n ik n i0 Ar n r1 n r2 n rj n rk n r0 Tổ ng số n o1 n o2 n oj n ok n Ký hiệu k n io n ij j r n oj n ij i Như n oj kích thước củ a mẫu thứ j, n io tổ ng số cá thể có tính trạ ng A i toàn k mẫu xeùt r k n n io n oj i j Là tổ ng số tất cá thể củ a k mẫu xét Nếu giả thiết H o nghóa p1 p2 pi pi pr p1 p2 pr 2 2 k p1 k p2 k pi k pr p1 p2 pi pr cá c tỷ lệ chung p , p2 , p r đượ c ước lượng bở i: p i n io n Đó ước lượng cho xác suất để cá thể có mang tính trạng Ai số cá thể có tính trạng Ai mẫu thứ j xấp xỉ n i j Các số n ij ( i n o j p i n o j n io n 1, , r; j 1, , k ) https://fb.com/sinhvienzonevn VienZone.com gọi cá c tầ n số lý thuyết (TSLT), cá c số n ij gọ i cá c tần số quan sát (TSQS) Ta quyế t đònh bác bỏ H o TSLT cách xa TSQS cá ch bất thườ ng Khoản g cách giữ a TSQS TSLT đo bằn g test thốn g kê sau k T f n i j n ij r (T S Q S n i j i TSLT) TSLT Ngườ i ta chứng minh đượ c rằn g H o đún g cá c TSLT khôn g nhỏ T có phâ n bố xấp xỉ phân bố với (k-1)(r-1) bậc tự Thà nh thử miền bác bỏ có dạng {T > c} c tìm từ điều kiện P{T > c} = Vậy c phâ n vò mứ c phân bố vớ i (k-1)(r-1) bậ c tự Chú ý T biế n đổi nh cá c dạng sau đâ y n ij Ta có n ij n ij n ij Để ý rằ ng: T n ij n i j n ij n ij n ij n ij Vaäy n 2n n n ij n ij n n i j n ij n n io n o j n Với công thứ c nà y ta tính cá c TSLT n ij n io n o j n i j , (1) thườn g sử dụn g thực hành Ví dụ Ngườ i ta muố n so sánh số băng vỏ củ a ba loài ốc sên rừ ng I, II III Số liệu nghiên cứu cho bả ng sau: Loài I II III Tổ ng số 49 31 126 206 33 20 56 109 hoaëc 52 20 83 155 trở lê n 35 29 109 173 Tổ ng số 169 100 374 643 Số băn g vỏ https://fb.com/sinhvienzonevn VienZone.com Hỏi cho số băng vỏ có phân phối ba loài ố c sê n khô ng? Chọ n mứ c ý nghóa 5% Giải Ta tính thốn g kê T theo công thứ c (1) T 643 49 31 (1 ) ( ) 33 29 20 109 (1 0 ) (1 ) 56 (1 ) ( ) ( ) (1 ) 10, với bậc tự (3 – 1)(4 – 1) = 6, ta tìm c (3 )(2 ) (1 ) (1 0 ) Tra bảng phân bố 126 (1 0 ) ( ) (1 ) (1 ) 12,592 ,0 Giá trò lớn T vậ y chấp nhận H o : Số bă ng vỏ có phâ n bố đố i với loài ố c sê n rừ ng Ví dụ đài truyề n hình việt nam muố n thăng dò ý kiế n khán giả thời lượng phá t són g phim truyệ n Việt Nam hàng tuầ n P hiế u thăm dó đặt mức A1: Tăng thời lượ ng phá t sóng A2: Giữ cũ A3: Giảm A4: Khô ng ý kiến Đài tiế n hành thăm dò ba nhóm xã hộ i khác nhau: cô ng nhân, nông dâ n, trí thứ c Kế t cuộ c thăm dò sau: Tầ ng lớp Côn g nhâ n Nô ng dân Trí thức Tổ ng số Tă ng 100 300 20 420 Như cũ 200 400 30 630 Giả m 50 80 135 Khô n g ý kiế n 30 70 105 Tổ ng số 380 850 60 1290 Ý ù kiế n Với mức ý nghóa = 5%, có c ý kiến cá c tầng https://fb.com/sinhvienzonevn VienZone.com lớp xã hộ i hay không? Giả i Tần số lý thuyết ô “trí thức không ý kiế n” laø ( ) (1 ) 1290 4,88 , bé điều kiệ n cho phép áp dụ ng tiêu chuẩ n “khi bình phương” không đượ c thoả mãn Để khắ c phụ c khó khăn có hai cá ch Hoặ c ghé p dò ng cuố i cùn g với dò ng đó, ghép cột cuối vớ i mộ t cột nà o Tuy nhiên rấ t khó ghép dòng cuối cùn g “khôn g ý kiến ” vớ i dòng cho hợp lý “Khôn g ý kiến” c rấ t nhiều với việc “có bày tỏ ý kiến củ a mình” Hợ p lý ta ghép cột cuối cù ng “trí thức” với cột “cô ng nhân ” trí thức có vẽ gần với công nhân nôn g dân (đều khu vực thành thò) Như ta có bả ng sau: Tầ ng lớp Côn g nhâ n Ý ù kiế n Và trí thức Nô ng dân Tổ ng số Tă ng 120 300 420 Như cũ 230 400 630 Giả m 55 80 135 Khô n g ý kiế n 35 70 105 Tổ ng số 440 850 1290 Sử dụng cô ng thứ c tìm T 1290 Tra bảng phân bố 120 (4 )(2 ) 70 ( ) (1 ) 10,059 mức 5% với bậc tự (2 – 1)(4 – 1) = 3, ta tìm ,0 7,815 Số bé T vây ta kết luận thờ i lượ ng phát sóng phim Việt Nam có mộ t c ý kiến giữ a hai tầng lớp xã hội: nông dân cô ng nhân viên chức Chú thích sử dụn g Minitab Để sử dụng Minitab thự c tiêu chuẩn ta cần làm sau Các tần số quan sá t nhậ p o dướ i ng cộ t số liệu , chẳng hạn https://fb.com/sinhvienzonevn VienZone.com cột C1 , C2, C3 C lện h READ Sau chún g ta đánh lệ nh CHIQUARE C1 – C4 Minitab cho ta hình TSQS, TSLT, giá trò test thống kê “Khi bình phương” T số bậc tự Ta cần tra bảng phân bố để tìm số c so sánh với giá trò T Sau ví dụ bảng mà Minitab cho ta hình: MTB > READ C1 – C4 ROWS READ MTB > END MTB > MTB > CHISQUARE C1 – C4 C1 C2 C3 34 47 63 36.79 42.64 66.42 26 36 57 32.55 37.73 58.75 53 48 84 43.66 50.62 78.83 Total 113 131 204 Chisq = 11.299 DF = MTB > C4 68 36.14 42 31.97 31 42.89 111 Total 182 161 216 559 § PHÂN TÍCH PHƯƠNG SAI MỘT NHÂN TỐ Trong chương ng ta xé t toán so sá nh giá trò trung bình hai tập hợ p Trong mục ng ta xé t bà i toán tổng quát; so sánh đồng thời cá c giá trò trung bình nhiều tập hợp Giả sử ta có k ĐLNN có phân bố chuẩn X , X2 , Xk, Xi N i , i Các giá trò trung bình i phương sai i chưa biế t Tuy nhiê n chún g ta giả thiết rằn g cá c phương sai nhau: 2 k Chún g ta muốn kiểm đònh xem liệ u cá c giá trò trung bình 10 https://fb.com/sinhvienzonevn i có VienZone.com B4 = {5 vạch} Xét mẫu ngẫu nhiên gồm 169 ốc sên ta, thu số liệu sau Số vạch B1 B2 B3 B4 Tổng số Vàng 35 19 36 25 115 Hoàng 14 14 16 10 54 49 33 52 35 169 Màu đỏ Tổng số Ta có T 35 169 19 ( ) (1 ) Với mức ý nghóa = 3, ta tìm c ( 3 ) (1 ) = 5% tra bảng phân bố 0,0 10 2, ( ) (5 ) với bậc tự (2–1).(4–1) = 7,81 Ta có T < c giả thiết Ho phù hợp với số liệu thực nghiệm Ta chấp nhận A X độc lập Ví dụ Giả sử X Y tương ứng số đo huyết áp trọng lượng (tính pound) (1 pound = 0,454 kg) trẻ em 14 tuổi Ta muốn khẳng đònh xem X Y có độc lập không Giải Chia X thành mức B1 = {X 99}; B2 = {99 < X 110}; B3 = {110 < X 120}; B4 = {X > 120} Chia Y làm hai mức A1 = {Y 102} ; A2 = {Y > 102} Một mẫu gồm 200 trẻ em đo huyết áp trọng lượng cho thấy số liệu sau: Huyết áp Trọng lượng A1 B1 B2 B3 B4 Tổng số 10 20 11 46 45 https://fb.com/sinhvienzonevn VienZone.com A2 48 50 Tổng số 16 68 61 Ta coù: T 10 200 20 (1 ) ( ) Với mức ý nghóa – 1) = 3, ta tìm 50 (6 )(4 ) ,0 1 1, 154 55 200 22,53 ( 5 ) (1 ) = 1%, tra baûng phân bố c 50 với bậc tự (2 – 1)(4 Vì T > c nên ta bác bỏ Ho kết luận: Giữa huyết áp trọng lượng trẻ 14 tuổi có phụ thuộc lẫn * § PHÂN TÍCH TƯƠNG QUAN PHI TUYẾN Như nói §1, hệ số tương quan dùng để đo mức độ phụ thuộc tuyến tính hai ĐLNN Như chưa có tiêu để đo mức độ phụ thuộc nói chung Cần nhớ hệ số tương quan X Y bé hay chí X Y có mối liên hệ phi tuyến chặt chẽ Để đo mức độ phụ thuộc nói chung ĐLNN Y vào ĐLNN X, người ta đưa khái niệm tỷ số tương quan Tỷ số tương quan lý thuyết Y theo X ký hiệu Y /X Y /X số không âm xác đònh theo công thức sau E (Y E ( Y / X )) DY E (Y DY E ( Y / X )) DY E[Y/X] ký hiệu kỳ vọng Y tính điều kiện X cố đònh giá trò E[Y/X] gọi kỳ vọng Y với điều kiện X Người ta chứng minh Hiệu số Y /X Y /X Nếu hiệu số đo mức độ phụ thuộc phi tuyến Y X Y /X 2 Y /X lớn có nghóa có tương quan phi tuyến mạnh Bay ta xét vấn đề ước lượng kiểm đònh giả thiết tỷ số tương quan Giả sử (x1, y1), (x2, y2), , (xn, yn) mẫu gồm n quan sát độc lập rút từ tập hợp giá trò (X, Y) Chúng ta cần giả thiết dãy giá trò X: xi, x2, xn, giá trò xi lặp lại lần Giả sử x(1) < x(2) < x(k) giá trò khác dãy (xi) Ta trình bày dãy 46 https://fb.com/sinhvienzonevn VienZone.com số liệu (xi, yi) thành bảng sau đây, gọi bảng tương quan X Y x(1) x(2) x(k) y11 y12 y1k y21 y22 y2k yn yn 11 22 yn kk n1 n2 nk n ni T1 T2 Tk n Ti Bảng giống với bảng số liệu tiến hành phân tích phương sai (xem chương VI, § 3) Tiếp theo ta tiến hành phân tích phương sai n Ký hiệu: i Ti (tổng số liệu yji cột x(i)) y ji i T Ti ni số số liệu cột x(i) (cũng số giá trò xj mà xj = x(i)) Nhớ lại (xem chương VI, § 3): + Tổng bình phương chung SST tính công thức: T ST T y ij n + Toång bình phương nhân tố SSF tính công thức k SSF i Ti ni T n Đại lượng sau sử dụng ước lượng cho tỷ số tương quan lý thuyết 2Y / X : Y /X Y /X SSF SST gọi tỷ số tương quan Y X Để cho gọn từ ta 47 https://fb.com/sinhvienzonevn VienZone.com viết thay cho Y /X Người ta chứng minh r r hệ số tương quan Bình phương hệ số tương quan r gọi hệ số xác đònh Tỷ số tương quan lý giải tỷ lệ biến động Y có phụ thuộc Y vào X Hệ số xác đònh r2 lý giải tỷ lệ biến động Y có phụ thuộc tuyến tính Y vào X Ví dụ Cho mẫu quan sát sau cặp ĐLNN (X, Y): (8, 82); (8, 78); (12, 65); (12, 50); (20, 60); (20, 47); (24, 52); (24, 41); (8, 87); (8, 58); (8, 70); (12, 62); (12, 55); (12, 52); (20, 44); (20, 66); (20, 41); (24, 57); (24, 50); (24, 47); (8, 65); (12, 49); (20, 57); (24, 65) Hãy tính hệ số tương quan hệ số xác đònh tỷ số tương quan Y X Giải Trước hết ta cần trình bày số liệu dạng bảng tương quan sau đây: X 12 20 24 82 65 60 52 78 50 47 41 87 62 44 57 58 55 66 50 70 52 41 63 65 49 57 ni 6 6 n = 24 Ti 440 333 315 310 T = 1398 Y + Tính hệ số tương quan Ta có 48 https://fb.com/sinhvienzonevn VienZone.com x (8 ) y T x y 2 n 82 2 78 xy x n y Thành thử (1 4 ) (4 ) n (2 ) (2 ) 384; 8; (6 ) xy Vaäy (1 ) ( 0 ) 63 (3 3 ) x y ( ) 84908; (3 ) (3 ) x (7 ) 384 1,7 9; 2 y (8 9 ) 26688 r 21256 6 8; 2 7104 1398 2 8,7 0,6089 (1 , ) ( 8 , 7 ) Hệ số xác đònh r = 0,60892 = 0,37 + Tính tỷ số tương quan Ta coù: SST y T 84908 1398 n Ti SSF ni Từ SSF T ,5; 24 440 n 310 1398 1868,83 24 0,5378 SST Hiệu số – tỷ số tương quan lý thuyết hệ số xác đònh lý thuyết cho ta hình ảnh phụ thuộc phi tuyến Y X Nếu hiệu số điều nghóa có tương quan tuyến tính Y X Để kiểm đònh giả thiết H o: – H 1: – (không có tương quan phi tuyến), với đối thiết > (có tương quan phi tuyến), ta dùng test thống kê sau: 49 https://fb.com/sinhvienzonevn VienZone.com F r k r n k n (k 2) k Người ta chứng minh H o F có phân Fisher với bậc tự (k – 2, n – k) Thàn h thử giả thiết H o: “Không có tương quan phi tuyến” bò bác bỏ mức F lớn số c phân vò mức phân bố Fisher với bậc tự (k – 2, n – k) Ví dụ 10 Trở lại ví dụ ta muốn kiểm tra xem liệu có tương quan phi tuyến Y X hay không Ta có F (0 , (1 0, 7) ( , 8) (4 4) 2) ( , 8) ( ) 3, ( , 2) Tra bảng phân bố Fisher với bậc tự (2, 20) mức 5%, ta c = 3,49 Vì F > c nên ta bác bỏ H o Vậy ta khẳng đònh có tồn mối tương quan phi tuyến Y X xác suất sai lầm khẳng đònh 5% § PHÂN TÍCH HỒI QUY TUYẾN TÍNH Giả sử X biến (có thể biến ngẫu nhiên hay không ngẫu nhiên), Y ĐLNN phụ thuộc vào X theo cách sau Nếu X nhận giá trò x, X = x, Y có kỳ vọng ax + , số phương sai (không phụ thuộc x) Khi ta nói Y có hồi quy tuyến tính theo X, đường thẳng hồi quy lý thuyết Y X hệ số , gọi hệ số hồi quy lý thuyết X gọi biến độc lập, Y gọi biến phụ thuộc Bài toán đặt ước lượng hệ số quy lý thuyết mẫu quan (x1, y1), , (xn, yn) Ước lượng dựa phương pháp bình phương bé a b chọn làm ước lượng cho làm cực tiểu tổng sau đây: n Q (A ,B ) yi Axi B i Hệ phương trình để tìm điểm dừn g (a, b) hàm Q(A, B) có daïng: 50 https://fb.com/sinhvienzonevn VienZone.com n Q A x i (y i Axi B) i n Q B (y i Axi B) i Giải hệ (hệ phương trình tuyến tính với hai ẩn số A, B), ta tìm n xy x y a n x 2 x y b y a x ax n a b gọi hệ số hồi quy Đường thẳng với phương trình y = ax + b gọi đường thẳng hồi quy Từ cách xác đònh a, b, ta thấy số tất đường thẳng y = Ax + B xuyên qua đám mây điểm (x i , y i ) n i , đường thẳng y = ax + b có tổng bình phương khoảng cách từ (x i, yi) tới đường thẳng bé Ví dụ 11 Các số liệu số trang sách (X) giá bán (Y) cho bảng Tên sách X Y (nghìn) A 400 44 B 600 47 C 500 48 D 600 48 E 400 43 51 https://fb.com/sinhvienzonevn VienZone.com F 500 46 Hãy tìm đường thẳng hồi quy Y theo X số liệu nói Giải Ta có: xy 8 0; x 0 0; y 6; x y 0 0; 12718 Từ n xy x y a n x 2 x (1 8 0 ) (3 0 )( ) (1 0 0 ) 4800 (3 0 ) 0, 2; 240000 y a x 276 b (0 , )(3 0 ) n 36 Vậy đường thẳng hồi quy y = 0,02x + 36 lượng Ngoài việc ước lượng hệ số hồi quy , ta quan tâm tới ước , số đo phân tán Y xung quanh đường thẳng hồi quy Ước lượng cho n s Y X , cho theo công thức sau: n s Y X , ký hiệu yi ax i bi i Dạng khác công thức s Y X y a xy n b y 52 https://fb.com/sinhvienzonevn VienZone.com Công thức thường thuận tiện thực hành SY.X gọi sai số tiêu chuẩn đường hồi quy Nó cho ta số đo phân tán đám mây điểm (x i, yi) xung quanh đường thẳng hồi quy Ví dụ 12 Hãy tính sai số tiêu chuẩn đường hồi quy SY.X ví dụ 11 vừa nêu Giải y a s Y X xy n 12718 b y ( , ) (1 8 0 ) Vaäy: s Y X 1, (2 ) 1, 1, 2 Bây dựa phương trình đường thẳng hồi quy tìm được, ta dự báo giá trò Y biết giá trò X Giá trò dự báo Y X = xo y o ax o b Đây đồng thời giá trò dự báo cho kỳ vọng Y ứng với X = xo (ký hiệu xo ): ax o xo b Tiếp theo ta xét toán tìm khoảng tin cậy cho gia trò dự báo Y, khoảng tin cậy cho giá trò dự báo x o + Công thức để tìm khoảng tin cậy cho giá trò dự báo Y X = x o seõ y o t s X Y 1 (x o n x x) ( x) n t phân vò mức phân bố Student với n – bậc tự + Công thức để tìm khoảng tin cậy với độ tin cậy xo cho giá trò dự báo 53 https://fb.com/sinhvienzonevn VienZone.com y o t s X Y (x n x x) o 2 ( x) n Ví dụ 13 Trở lại ví dụ 11 ta muốn dự báo giá bán sách với 450 trang Giải: Giá sách dự báo y , (4 ) 36 (n g h ì n ) Khoảng tin cậy 95% cho giá sách 450 trang 45 t (1 , 2 ) 1 (4 154000 500) (3 0 ) t phân vò mức 0, 0, phân bố Student với – = bậc tự Tra bảng ta tìm t = 2,776 Thay vào côn g thứ c ta đượ c khoảng tin cậy cầ n tìm 45 hay 3,77 41,23 < yo < 48,77 Vậy với độ tin cậy 95%, sách với 450 trang bán với giá khoảng từ 41230 đồng đến 48770 đồng Ví dụ 14 Trở lại ví dụ 13 ta muốn dự báo giá bán trung bình tất sách 450 trang Giải Giá trung bình báo , (4 ) 36 45 Khoảng tin cậy 95% cho giá trung bình tất sách 450 trang laø 54 https://fb.com/sinhvienzonevn VienZone.com 45 ( , 7 ) (1 , 2 ) (4 500) (3 0 ) 1540000 45 3, 45 1, 0, hay 3, 6, Vậy với độ tin cậy 95% giá trung bình tất sách 450 trang nằm khoảng từ 43370 đồng đến 46630 đồng Một vấn đề quan trọng phải lưu ý đến kiểm tra xem hệ số hồi quy lý thuyết có khác không hay không Nếu = EY = số không phụ thuộc X Khi việc dự báo EY dựa vô nghóa Người ta chứng minh hệ số hồi quy a có độ lệch tiêu chuẩn s Y X sa sX s Y X n x ( x) n Thống kê: T a sa có phân bố Student với n – bậc tự giả thiết Ho: = Vì giả thiết Ho bò bác bỏ mức ý nghóa T c , c phân vò mức phân bố Student với n – bậc tự Ví dụ 15 Với mức ý nghóa = 5%, kiểm đònh giả thiết Ho: “Hệ số góc đường thẳng hồi quy lý thuyết Y X không”, X Y hai biến xét ví dụ 11 Giải: Ta có s Y X sa x ( x) n = 1, 2 1540000 1, 2 (3 0 ) 0, 0 200 55 https://fb.com/sinhvienzonevn VienZone.com Vaäy: T= 0, 3, 3 0, 0 Với mức ý nghóa c = t0,025 = 2,776 Ta có T c = 5%, tra bảng phân bố Student với bậc tự do, ta tìm , ta bác bỏ Ho Vậy hệ số góc khác không đường thẳng hồi quy lý thuyết Y X Chú thích sử dụng Minitab Ta nhập số liệu biến độc lập (xi) vào cột C1 số liệu biến phụ thuộc (yi) vào cột C2 Sau ta gõ lệnh REGRESS C2 C1 Minitab cho ta hình phương trình đường thẳng hồi quy mẫu bảng phân bố phương sai toán hồi quy Bảng có dạng sau: Nguồn Bậc tự (DF) Tổng bình phương (SS) Trung bình bình phương (MS) Hồi quy SSR MSR Sai số n–2 SSE MSE Tổng cộng n–1 SST Ở SST tổng bình phương chung SST (y y) i y ( y) n SSR tổng bình phương hồi quy n SSR (a x i b i y) SSE tổng bình phương sai số n SSE (y i Ta coù: i ax i b) SST = SSR + SSE Có thể chứng minh rằng: 56 https://fb.com/sinhvienzonevn Tỷ số F F MSR MSE VienZone.com SSR a x ( x) ( a x )( n SSE y Do MSE Tỷ số tương quan r2 SSR a n xy b y tỷ số F s Y X y) xy a 2 sa gọi hệ số xác đònh Nó bình phương hệ số SST r SSR SST Việc kiểm đònh giả thiết Ho: “Hệ số góc đường thẳng hồi quy lý thuyết Y X 0”, hay tương đương “không có quan hệ hồi quy lý thuyết Y X 0”, hay tương đương “không có quan hệ hồi quy tuyến tính X Y” mà ta trình bày trước (dùng test thống kê T = a ), thay thống kê F = sa M SR M SE nghóa F > c, c phân vò mức n – 2) Giả thiết Ho bò bác bỏ mức ý phân bố Fisher với bậc tự (1, Chẳng hạn bảng phân tích phương sai toán hồi quy ví dụ 11 Nguồn Bậc tự (DF) SS MS F Hoài quy 16 16 F = 10,66 Sai số 1,5 Tổng 22 r2 = 16 = 0,7272 22 r = 0,8528 Với mức ý nghóa = 5%, tra bảng phân bố Fisher với bậc tự (1,4) ta c = 7,71 Vì F = 10,66 > 7,71 nên Ho bò bác bỏ '5 HỒI QUY PHI TUYẾN Nếu biến độc lập X nhận giá trò x, biến phụ thuộc Y có kỳ vọng (x), hàm số đó, ta gọi (x) hàm hồi quy lý thuyết Y X Trong thực tế có nhiều (x) hàm tuyến tính mà có dạng đa thức bậc 2, bậc 3, … hay hàm log, sin… Khi ta nói Y có hồi quy 57 https://fb.com/sinhvienzonevn VienZone.com phi tuyến X Việc kiểm đònh xem có hồi quy phi tuyến hay không trình bày mục '3 Bài toán đặt “ước lượng” hàm hồi quy (x) mẫu số liệu quan sát Hàm hồi quy ước lượng (x ) phải chọn cho “gần” với đám mây điểm Chẳng hạn đám mây điểm có dạng sau: ta dự đoán hàm hồi quy (x) có dạng parabol (x) = Ax2 + Bx + C Ta dùng phương pháp bình phương bé để ước lượng số A, B, C Một phương pháp khác hay áp dụng phương pháp tuyến tính hóa; giả sử hàm hồi quy lý thuyết có dạng (x) = Axm + B Đặt Z = xm, ta có hồi quy tuyến tính Y Z Dựa số liệu {x1, y1), …, (xn, yn)} ta biến đổi thành số liệu m m ( x , y ), , ( x n , y n ) (z1 , y ), , (z n , y n ) ta ước lượng số A, B Theo công thức hệ số hồi quy tuyến tính Ví dụ 16 Giả sử hàm hồi quy lý thuyết Y theo X có dạng sau (x) = Ax2 + B Hãy ước lượng (x) dựa mẫu quan sát sau gồm 30 số liệu (xi, yi): xi yi Tần số zi = x i 58 https://fb.com/sinhvienzonevn VienZone.com 1,5 9,4 2,25 12,8 13 4 2,5 17,6 6,25 2,5 17,5 6,25 23 22,5 22,8 Giải: Từ hai cột số liệu (Z, y) ta tìm 1080,75; y = 8181,83 vaø zy z = 159; = 2941,27 y = 466,1; z = Từ ước lượng A a = 2,16, ước lượng B b = 3,9 Vậy hàm hồi quy y = 2,16x2 + 3,9 59 https://fb.com/sinhvienzonevn ... 21 https://fb .com/ sinhvienzonevn VienZone .com Ta có đẳng thức sau: SST T A (4) n r T jo SSFA n j c k n SSI r T jk j SST (6) n A k T ok c SSE (5) n jo T ok SSFB T n (7) jk SSFA SSFB SSE (8) Đặc... ký hiệu SST, tính theo công thức sau: c r n jk SST x k ijk x j i + Tổng bình phương cho nhân tố A, ký hiệu SSFA tính theo công thức sau: 19 https://fb .com/ sinhvienzonevn VienZone .com c SSFB n... ANOVA tiến hành theo trình tự sau đây: Bước 1: Tính SSF Bước 2: Tính SST Bước 3: Tính SSE = SST – SSF Bước 4: Tính M SF SSF k Bước 5: Tính M SE SSE n Bước 6: Tính F 1 M SF M SE Bước 7: Tra bảng