Giáo trình: Chương 9: Tương quan & Hồi quy tuyến tính
Cao Haứo Thi 1 CHNG 9 TNG QUAN & HI QUI TUYN TNH (Linear Correlation and Regression) 7.1. KHI NIM CHUNG Trong cỏc chng trc chỳng ta ch nghiờn cu cỏc vn liờn quan n mu ngu nhiờn ca mt bin ngu nhiờn X. Trong chng ny, chỳng ta quan tõm n mu ngu nhiờn bao gm cỏc cp giỏ tr ca hai bin ngu nhiờn X v Y. Vớ d nghiờn cu v chiu cao v cõn nng ca cỏc em hc sinh trong mt trng, chỳng ta ly mu ngu nhiờn gm n hc sinh v thu thp cỏc s liu v chiu cao v cõn nng ca n hc sinh. Gi X l bin ngu nhiờn o chiu cao ca hc sinh v Y l bin ngu nhiờn ch cõn nng ca hc sinh. Vi n hc sinh ta cú n cp giỏ tr (Yi , Xi). X(m) x1 x2 x3 . xi . xn Y(kg) y1 y2 y3 yi yn Mc tiờu ca chng ny l nghiờn cu s liờn h gia bin Y v X bng s phõn tớch tng quan v hi qui. Trong phõn tớch tng quan ngi ta cp n cng ca mi quan h gia hai bin Y v X, ỏnh giỏ xem hai bin Y v X cú quan h vi nhau hay khụng. Trong phõn tớch hi qui ngi ta li xỏc nh quan h gia hai bin Y v X di dng phng trỡnh toỏn hc, t ú ta cú th d oỏn c bin Y (bin ph thuc, dependent variable) da vo bin X (bin c lp, independent variable) Trong chng ny, chỳng ta cng gii hn ch nghiờn cu tng quan v hi qui n bin v tuyn tớnh, ngha l ch nghiờn cu trng hp bin Y ch ph thuc vo 1 bin X v dng phng trỡnh hi qui l phng trỡnh ng thng (khỏc vi cỏc tng quan v hi qui bi v phi tuyn). 7.2. TNG QUAN TUYN TNH (Linear Correlation) 7.2.1. th phõn tỏn (Scatter Diagram) th phõn tỏn ca bin Y i vi bin X l tp hp cỏc im M(xi , yi) trong h ta vuụng gúc. Da vo th phõn tỏn ta cú th xỏc nh c dng quan h gia 2 bin Y v X. Y XXYXY(D) Cao Haứo Thi 2 7.2.2. Tng quan tuyn tớnh (Linear Correlation) Trong th phõn tỏn, nu cỏc im M(xi , yi) qui t xung quanh mt ng thng (D) ta núi hai bin ngu Y v X cú mt s tng quan tuyn tớnh. ng thng (D) c gi l ng hi qui tuyn tớnh (ng hũa hp thng). 7.2.3. H s tng quan ca tp hp chớnh (The Population Correlation Coefficient) Gi X, Y l cp giỏ tr ca cỏc bin ngu nhiờn vi s trung bỡnh l àx , ày v phng sai l x2, y2. o lng mc quan h gia X v Y ngi ta dựng i lng hip tng quan (covariance) v h s tng quan (correlation coefficent). 7.2.3.1. Hip tng quan (Covariance) X,Y = Cov(X,Y) = E [(x - àx)(y - ày)] ààxyixiyiNCov X YxyN===(,)()()1 7.2.3.2. H s tng quan ca tp hp chớnh ==Corr X YCov X Yxy(,)(,) =xyxy Vi NyNxNiiiyNixx====1221212)()(àà hay à ààà=EX YEX EYxyxy[( )( )][( ) ] * [( ) ]22 àààà===()()()*()xyxyxi yiNix iyiNiN112211 Cao Haøo Thi 3 Tính chất - 1 ≤ ρ ≤ 1 ρ = + 1 : X, Y tương quan tuyến tính dương tuyệt đối ρ = - 1 : X, Y tương quan tuyến tính âm tuyệt đối • ρ = 0 : X, Y không tương quan tuyến tính. 7.2.4. Hệ số tương quan r của mẫu 7.2.4.1. Hiệp tương quan của mẫu (Sample Covariance) 1nyyxxYXCovSin1iiYX−−−∑===∧))((),(, 7.2.4.2. Hệ số tương quan của mẫu r (Sample Correlation Coefficient) rSSSXYXY=− rxxyyxx yyiiniiiniin=−−−−===∑∑∑()()()*()11212 hay rxy nxyxnx ynyiiiniiniin=−−⎛⎝⎜⎜⎞⎠⎟⎟−⎛⎝⎜⎜⎞⎠⎟⎟===∑∑∑1212212. Ghi Chú -1 ≤ r ≤ 1 r được dùng để ước lượng hướng và độ mạnh của mối quan hệ giữa X,Y. ⏐r⏐ > 0,8 tương quan mạnh ⏐r⏐ = 0,4 - 0,8 tương quan trung bình ⏐r⏐ < 0,4 tương quan yếu ⏐r⏐ càng lớn thì tương quan giữa X và Y càng chặt r > 0 hướng TN - ĐB, r < 0 hướng TB - ĐN 0 < r ≤ 1 : gọi là tương quan tuyến tính thuận (X↑, Y↑) -1 ≤ r ≤ 0 : gọi là tương quan tuyến tính nghịch (X↑, Y↓) r là ước lượng của ρ Cao Haøo Thi 4 Ví dụ Tính hệ số tương quan giữa 2 biến X, Y cho bởi bảng tương quan sau: X 0 1 2 3 4 Y 6 7 8 9 4 Giải Số phần tử của mẫu n = 5 xi yi (xi - x) (yi - y) (xi - x)2 (yi - y)2 (xi -x)(yi-y) 0 1 2 3 4 6 5 7 8 4 -2 -1 0 1 2 0 -1 1 2 -2 4 1 0 1 4 0 1 1 4 4 0 1 0 2 -4 10 30 10 10 -1 x==1052 y==3056 n = 5 1,010101)()()()(25125151−=×−=−×−−⋅−=∑∑∑===iiiiiiiyyxxyyxxr r = -0,1 tương quan yếu. 7.2.5. Kiểm định giả thuyết về ρ Nếu chúng ta muốn kiểm định giả thuyết cho rằng các biến không có tương quan tuyến tính thì ta phải kiểm định giả thuyết H0: ρ = 0. Ta có 3 trường hợp: Cao Haøo Thi 5 Trường hợp 1 H0 : ρ = 0 H1 : ρ ≠ 0 R : bác bỏ H0 nếu tn-2 < - tn - 2, α/2 hay tn-2 > tn-2,a/2 Với )/()( 2nr1rt22n−−=− r: hệ số tương quan của mẫu n: cỡ mẫu tn-2: tuân theo phân phối Student t với độ tự do n-2 Trường hợp 2 H0 : ρ = 0 H1 : ρ > 0 R : bác bỏ H0 nếu tn-2 > - tn - 2, α Trường hợp 3 H0 : ρ = 0 H1 : ρ < 0 R : bác bỏ H0 nếu tn-2 < - tn - 2, α Ví dụ Lấy mẫu ngẫu nhiên 2 biến X và Y ta có các giá trị (xi, yi) cho bởi bảng sau: X 13 18 9 25 36 19 Y 70 55 100 40 15 20 a) Tìm hệ số tương quan giữa 2 biến X, Y b) Kiểm định giả thuyết cho rằng biến giữa X và Y không tương quan, với α = 0.05 Giải a) Tính r yI xi yx2 xi2 xiyi 70 55 100 40 15 20 1318925361949003025100001600225400169 324 81 625 1296 361 9109919001000540380Tổng 300 120 20150 2856 4720 Cao Haøo Thi 6 ()()()2565/128050*20*64720511110305/515050*62015051112,915/45620*62856511120612050630061226122226122−=−=−=⎟⎠⎞⎜⎝⎛⋅−−===−=⎟⎠⎞⎜⎝⎛−−===−=⎟⎠⎞⎜⎝⎛−−=======∑∑∑∑∑===yxnyxnSynynSxnxnSnxxnyyiiiXYiiyiiXii Hệ số tương quan: 835,01030*2,91256−=−==YXXYSSSr tương quan mạnh b) Kiểm định giả thuyết: 1. H0 : ρ = 0 2. H1 : ρ ≠ 0 3. α = 0,05 => α/2 = 0,025 n = 6 => n - 2 = 4 tn -2, α/2 = t4, 0,025 = 2,776 - tn - 2 , α/2 = -2,776 4, r = -0,835 4/])835,0(1[835,0)2/()1(222−−−=−−−nrrtn tn -2 = - 3,03 5. Ra quyết định tn - 2 = - 3,03 < - tn -2, α/2 = -2,776 => Bác bỏ H0. Giữa 2 biến Y và X có tương quan nghịch. 7.3. HỒI QUI TUYẾN TÍNH ĐƠN GIẢN (Simple Linear Regression) 7.3.1 Khái niệm cơ bản về hồi qui tuyến tính đơn giản 7.3.1.1. Mô hình hồi qui tuyến tính đơn giản (Simple Linear Regression Model) Để mô hình hóa quan hệ tuyến tính trong đó diễn tả sự thay đổi của biến Y theo biến X cho trước người ta sử dụng mô hình hồi qui tuyến tính đơn giản. Mô hình hồi qui tuyến tính đơn giản có dạng sau: Yi = A + BXi + ei (mô hình hồi qui tuyến đơn giản Y theo X) Yi : Giá trị của biến phụ thuộc Y trong lần quan sát thứ i. Cao Haứo Thi 7 Xi : Giỏ tr ca bin c lp X trong ln quan sỏt th i . ei : Giỏ tr i vi s dao ng ngu nhiờn hay sai s trong ln quan sỏt th i. A : l thụng s din t tung gc ca ng hi qui ca tp hp chớnh, hay A l giỏ tr trung bỡnh ca bin ph thuc Y khi bin c lp X thay i 1 n v. B : l thụng s din t dc ca ng hi qui ca tp hp chớnh, hay B din t s thay i ca giỏ tr trung bỡnh ca bin ph thuc Y khi bin c lp X thay i 1 n v. 7.3.1.2. Phng trỡnh hi qui tuyn tớnh n gin ca tp hp chớnh (Population Simple Linear Regression Equation) L phng trỡnh din t giỏ tr trung bỡnh ca bin ph thuc Y theo bin c lp X ó bit. àY/ X = A + BX 7.3.1.3. Phng trỡnh hi qui tuyn tớnh n gin ca mu Chỳng ta cú th c lng cỏc tham s (A,B) ca phng trỡnh hi qui tuyn tớnh n gin ca tp hp chớnh bng cỏch s dng s liu ca mu ngu nhiờn thu thp c. Da vo s liu ca mu ta cú phng trỡnh hi qui tuyn tớnh n gin ca mu. Y = a + bX Trong ú: Y l c lng ca giỏ tr trung bỡnh ca Y i vi bin X ó bit a: l c lng ca A b l c lng ca B Ghi chỳ Phng trỡnh hi qui ca Y theo X khỏc phng trỡnh hi qui ca X theo Y Nu X i m Y khụng i => Y v X khụng cú tng quan Cao Haứo Thi 8 Y X Da vo phng trỡnh hi qui ta cú th t oỏn Y khi bit X 7.3.2. Xỏc nh dc v tung gc ca ng hi qui tuyn tớnh Da vo s hiu ca mu ta cú phng trỡnh hi qui ca Y theo X cú dng: Y = a + bX Trong thng kờ, xỏc nh tung gc a v dc b ngi ta thng s dng phng phỏp bỡnh phng ti thiu (least squared method) ()eYY YabXiniiiiniin=== ==121212() Trong phng phỏp bỡnh phng ti thiu ta cú: Min eiin=21 tỡm cc tiu ta cn gii h phng trỡnh: ()aYabXbYabXiiiniini = ===211200() Gii h phng trỡnh ta cú: Y b 1 Yi Yi ời = Yi - Yi a Xi X Cao Haøo Thi 9 ()()()bxxyyxxxy nxyxnxaybxiiiniiniiiniain=−−−=−−=−====∑∑∑∑121112 Người ta chứng minh được rằng a, b là những ước lượng không chệch và vững của A,B. Đường thẳng Y∧ = a + bX được gọi là đường hồi qui thực nghiệm Đường thẳng Y∧ = A + BX được gọi là đường hồi qui lý thuyết Ví dụ Tìm đường hồi qui thực nghiệm của y theo x cho bời bảng tương quan sau: xi 1 2 3 4 5 yi 2 5 4 3 6 Giải Gọi phương trình đường hồi qui là y = a + bx => xác định a, b. xi yi xì2 xiyi 1 2 3 4 5 2 5 4 3 6 1 4 9 16 25 2 10 12 12 30 Tổng 15 20 55 66 n = 2 x==1553 y==2054 2,23*6,046,01063*5554*3*566221251=−=−===−−=−−=∑∑==xbyaxnxyxnyxbniiiii Phương trình đường hồi qui thực nghiệm là y = 0,6x + 2,2 . iyiNiN112211 Cao Haøo Thi 3 Tính chất - 1 ≤ ρ ≤ 1 ρ = + 1 : X, Y tương quan tuyến tính dương tuyệt đối ρ = - 1 : X, Y tương quan tuyến tính âm tuyệt đối •. độ mạnh của mối quan hệ giữa X,Y. ⏐r⏐ > 0,8 tương quan mạnh ⏐r⏐ = 0,4 - 0,8 tương quan trung bình ⏐r⏐ < 0,4 tương quan yếu ⏐r⏐