Trong chương III, luận văn trình bày một ứng dụng củahồi quy bán tham số trong khoa học xã hội, xác định mối tương quan phù hợp giữacác biến đối với van dé bình đăng giới thé hiện qua tr
Trang 1HÀ NHƯ MAI
UNG DUNG HOI QUY BAN THAM SO
TRONG KHOA HOC XA HOIChuyén nganh : TOAN UNG DUNG
Mã số: 604636
LUẬN VĂN THẠC SĨ
TP HO CHÍ MINH, 30 tháng 11 năm 2012
Trang 2Cán bộ hướng dẫn khoa hoc : PGS.TS Tô Anh Dũng ¿ 2: 55552 cc+ccxcee:
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyênngành sau khi luận văn đã được sửa chữa
CHỦ TỊCH HỘI ĐÔNG TRƯỞNG KHOA
Trang 3Tp HCM, ngày 30 tháng TÌ năm 2012.
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Hà Như Mai MSHV: 10240512Ngày, thang, năm sinh: 08 — 04 — 1986 Nơi sinh: Phú ThoChuyên ngành: Toán Ung Dung Mã số : 604636I TÊN DE TÀI:
ỨNG DỤNG HỎI QUY BÁN THAM SỐ TRONG KHOA HỌC XÃ HỘIH NHIỆM VỤ VÀ NỘI DUNG:
e Bồ sung một số kiến thức.e Tìm hiểu các mô hình hồi quy tham số và hồi quy phi tham số.e Tìm hiểu mô hình hồi quy bán tham số
e Ung dụng của hồi quy bán tham số trong khoa học xã hội.HI NGÀY GIAO NHIỆM VỤ: 02/2012
IV NGÀY HOÀN THÀNH NHIEM VU: 11/2012V CÁN BỘ HƯỚNG DÂN PGS.TS Tô Anh DũngCÁN BỘ HƯỚNG DAN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO
PGS.TS Tô Anh Dũng
TRUONG KHOA
Trang 4Tôi xin bay tỏ lòng biết ơn sâu sắc của mình tới Thầy hướng dẫn — PGS.TSTô Anh Dũng — Trưởng bộ môn Xác suất thống kê, Đại học Khoa học tự nhiên —Đại học Quốc Gia Tp Hồ Chí Minh, người đã luôn khuyến khích, quan tâm giúpđỡ, truyền đạt kiến thức và tạo mọi điều kiện thuận lợi giúp tôi hoan thành luận văntốt nghiệp này.
Tôi xin bay tỏ lòng biết ơn chân thành đến tập thé Thay, Cô giáo bộ mônToán ứng dụng — Khoa Khoa học Ứng Dụng, phòng Đào Tạo Sau Đại Học — trườngĐại học Bách Khoa — Đại học Quốc Gia Tp.Hồ Chí Minh đã tận tình dạy dỗ, giúpđỡ, truyền đạt cho tôi trong suốt khóa học
Tôi xin gửi lời cảm ơn đến tập thể các bạn K2010 lớp cao học Toán ỨngDụng — những người bạn yêu quí đã luôn đồng hành, giúp đỡ và chia sẽ khó khăncùng tôi trong suốt quá trình học tập
Cuối cùng tôi xin bảy tỏ lòng biết ơn sâu sắc đến gia đình, những người thânyêu nhất, đã luôn khích lệ và giúp đỡ tôi trong suốt thời gian học tập vừa qua
Hà Như Mai
Trang 5Luận văn gồm ba chương Trong chương L trình bày một số phương phápước lượng dùng trong các mô hình hồi quy Trong chương nay cũng trình bay mộtsố kiến thức cơ bản về mô hình hồi quy tuyến tính và hồi quy phi tuyến Trongchương II, trình bày về mô hình hồi quy phi tham số bao gồm: mô hình hồi quy,phương sai, độ lệch chuẩn Trong chương III, luận văn trình bày một ứng dụng củahồi quy bán tham số trong khoa học xã hội, xác định mối tương quan phù hợp giữacác biến đối với van dé bình đăng giới thé hiện qua trách nhiệm của nam giới tronggia đình Kết quả tính toán trong chương III được thực hiện trên R.
Trang 6LOL CẢM ƠN 5S 1 1 1 12 111112121111 11 1101111111101 1110111012001 1111 g0 011gr 4TOM TẮTT, G13 1 1515151515 511 11111111101 1111115151511T1 T111 T111 T111 111111710151 1e 0 5I0 900922 6MO DAU 0 81 Tính cấp thiết của dé tài 55c S211 E1 111 121111101011 111101111 rk 8“Y0 ~ adda.aa.N Aa43333aằ.ằố 83 Nội dung nghiÊn CỨU G0 99.00 84 Phương pháp nghiÊn CỨU Ă G2200 101 1 1 1 1 1 1 1 10 011111 kg 9
CHƯNG | vecececcccccscsessscscscscscecscssssscsessscscscscscavavevsvsvsssssesesssscscacsvavsvevensssvevsvsnsesesens 10
[1 KIÊN THỨC BO SƯNG 2 2222223 E215 1112111511111 11 1111 re 11I.1.1 Phương pháp bình phương cực CEU ceececceccscecesceseseeseseeseseeseceseeseseeseseeseaees 11[1.2 Tim cực trị có điều kiện woe ccceccccccsesesescscssesesesssssesesesssssssseseseseeneens 131.1.3 Phương pháp bình phương cực tiểu có trọng sỐ - - +55: 16
1.1.4 Ước lượng không chéch ccccccccsccccssesscssceseesecsecessesecseceseeseeseeeeeeseens 19
1.2 HÔI QUY THAM SO cccsecccccscsccscscesssscsescscsssssscscscscsssvessvevevenensnseseseses 261.2.1 Hỏi quy tuyến tính đơn biễn csesseesescsesesesessscsesesessseeeeens 261.2.2 Mô hình hồi quy tuyến tính đa biến - + 2 25252222 £z£scezesree 281.3 HỎI QUY PHI THAM SỐ 5-52 S223 E2 2E E231 E1 E211 EErkred 341.3.1 Hồi quy da thỨcC - CS E121 1 1511511111113 1111111101111 11 010111 y 361.3.2 Mô hình que gẫy - + + 1121121212121 21212111 1111111101111 1111111 37I.3.3 Mô hình Spline ¿c6 + 2 E21 1 151 511111151111 1511 1111111111111 ty 39
CHƯNG T - - - E5 E5 E331 3111151515115 5151111111111 11111171313171113 1 1e AT
I.I MO HINH HON HỢP G- G12 E 539128 E11 E811 ered 48II.1.I Mô hình hồi quyy ¿5-5 <5 S212 SE S323 E5 E1 E1 11111 111 re 48
II.I.2 Phương sai cỦa Ø7 Và ØƑ -SĂ S22 Sc St St serrtrrrerrea 49
IL2_ HÔI QUY BAN THAM SỐ - <5 5< S333 111515131111 11 111 te 51
Trang 7II3_ MÔ HÌNH PHU TUYẾN TÍNH GAM (Generalized Additive Models) 62
CHƯNG LID SE E333 E3919E91515 E111 1 11 9111111111111 11x 73
II.I — MÔ TẢ DỮ LIỆU 6 G SG E612 E S312 SE 3E kg sereesed 74I2 MÔ HÌNH 1 (gam |) ¿- - 26 S2 SE£E9EEEE£ESEEEEEEEEE E151 11111 xe, 79III3_ MÔ HÌNH 2 (gam.2) vicecececccscscessssscsesssscsssssscssssscssssssessssssesssssssseesseaeee 81I4 MÔ HÌNH 3 (gam.3) - 2E S2 SE E2 E1 15112121515 2111511 11111111 x0 83II.5_ MÔ HÌNH 4 (gam.4) +52 S223 E9 3 1215152111511 11711111 111111110 84II6 = NHAN XÉT SG 1121219 91919111 E111 211 11g rrrei 86KET LUUẬN E111 1E 5111919811 5 110151 11v 11111 HT ng ng 90TÀI LIEU THAM KHHẢO G-G- + 66k 939198 E E31 E319 vn ng re 92
Trang 81 Tính cấp thiết của đề tàiTrong thực tế, hồi quy được ứng dụng rộng rãi trong các ngành khoa học tựnhiên và khoa học xã hội Hai loại hồi quy thông thường nhất là hồi quy tham sốvà hồi quy phi tham số Mô hình thường được sử dụng nhiều là mô hình hồi quytham số Tuy nhiên, trong nhiều trường hợp, hồi quy tham số không thé đưa ramối tương quan phù hợp với dữ liệu, khi đó người ta cần dùng đến hồi quy phitham số Do đó cân một sự kết hợp giữa hồi quy tham số và hồi quy phi tham số.
H6i quy bán tham số là cầu nối giữa hai mô hình hồi quy tham số và phitham số Nó cho phép chúng ta làm tốt cả hai việc phân tích hồi quy tham số vaphi tham số, giúp làm giảm bớt sự phức tạp của bộ dữ liệu, giúp chúng ta có thểhiểu van dé dé dàng hon, tìm ra mối tương quan phù hợp với bộ dữ liệu
Tuy nhiên, hồi quy bán tham số không có nghĩa là tìm ra những mô hình mớithay thế cho những mô hình cũ, mà chủ yếu chúng ta mở rộng những mô hìnhthông kê chuân dé giải quyêt một sô vân đê khoa học xã hội.
2 Mục tiêuNghiên cứu các mô hình hồi quy trong phân tích thong kê như hồi quy thamsố, hồi quy phi tham số, hồi quy bán tham số
3 Nội dung nghiên cứu
Trang 9Phương pháp chuyên gia: thu thập ý kiến của chuyên gia am hiểu về lĩnh vựcđang xem xét.
Phương pháp thống kê: phân tích và xử lý số liệu trong xây dựng mô hìnhhồi quy
Trang 10CHUONG INHUNG KIEN THUC CO BAN
Trong chương này, luận văn trình bày một số phương pháp ước lượng dùngtrong các mô hình hồi quy Chương này cũng trình bày những kiến thức cơ bản vềhai mô hình hồi quy là hồi quy tuyến tinh và hồi quy phi tuyến bao gồm, mô hìnhtong quát, phương pháp ước lượng, phương sai, độ lệch chuẩn
Trang 11L1 KIÊN THỨC BO SUNG
Hồi quy là phương pháp phân tích dữ liệu, tìm mdi liên quan giữa các biếndưới dạng công thức gọi là hàm hồi quy Mục tiêu đặt ra là làm sao xác định hàmhồi quy thé hiện chính xác mối tương quan giữa các biến, ước đoán giá trị từ hamhồi quy gần đúng với giá trị thực tế khảo sát Có nhiều phương pháp khác nhau déước lượng hàm hồi quy, tuy nhiên, số liệu trong quá trình phân tích khá nhiều, dođó, để đơn giản hơn trong tính toán và trình bày, dữ liệu và tham số sẽ đưa về dạngma trận Trong phan này trình bày một số phương pháp ước lượng đơn giản dé ướclượng hàm hồi quy
1.1.1 Phương pháp bình phương cực tiểuPhương pháp bình phương cực tiểu là một trong những phương pháp tốt nhấtđể xác định đường hồi quy phù hợp với dữ liệu Phương pháp này chỉ sử dụngnhững phép tính đơn giản và kiến thức của đại số tuyến tính Cơ bản nhất là tìmmột hàm tuyến tính y=ax+b phù hợp với một bộ dữ liệu quan sát được Mộtcách tong quát, phương pháp nay được áp dung dé tìm hàm hồi quy dạng tuyến tính
Trang 12U= YB, + B8(%) + By8,(%) + + Bg, (%)~ y,° => min
YArgi0) + LB) + oY B8i(% 8,08) L918 (%) =Y A804) + B88) Hot S38 g2)— 353/8 (6) =0
31+ BY a(x) ++ Bd 8x) = Sơ
8.3 8) BY 8a) + + BL 8H) =3 y.8,)BX 8.0%) BL G(K)E CR) +t BL) = DIG)
Trang 13Nhu vậy hàm hỏi quy y= £,+ đg,(x)+ Bg,(x)+ + B.2,(x) được ước lượngvà trình bày dưới dạng ma trận như sau
$=Xổ với 8=(X'X)'X'y
Trong đó > là giá trị tiên đoán của y được tính từ ham hồi quy
1.1.2 Tim ewe trị có điều kiệnXét bài toán: Tìm vector tham số / của hàm y =X Ø với điều kiện
Trang 14ly — X Bl +/A*° B' DB ,A>O , dat giá trị min.Với B=(B,.B Bi Bo By)
0 0 0 0 O 00 0 000 0De 0 0 I0 0 0 a 05.2 +
~ 10 0 0 1 +0 0| | Onxvr Iexur
000 0 0 |Ta có
= SB, + BB) + Bil) +t Au Gul) y +2 YB — min
Trang 15+ Bi 86%) _ y,)8,(%,) =0
Bd 8,(x) + BY 8(x) + † 8.378/(1)8/0%) — 33804)
>),i=l> y,.8,(%)i=lVy (%)
+ Bi 86%) — Y,) 8 ,(%) + 48, =0
+ By 8u(%) 7 y,)8.(%) + 48, =0
Y AB (4) + Y Ag.) 8.0%) + ALB gil) ` + 4⁄8 =0
Y AB (4) YBa )8u(%) + +L Busi) Lgl) +A°B, =0
BX 8%) + BY 8%) 8%) +t Be DBO) + AB, = Dy 8.%)BY 8ul%)+ BY B HB (H) tot 8, gà) + 428, = DVB)
(13)
Trang 16l l ¬ l 8Œ): 8Œ) 8,g(x) 8,) - g,(x,) l 8@Œ,) - 8,Œ,) 8
(%) 8,Œ,) " 8,Œ,) l 8,,) - 8,Œ,) 5,
1 1 as y,
_ 8Œ) 8): 8) 3;g,(%) 8, (Xo 8,(X,) Jn
Ta định nghĩa phần dư như sau
A
€ = Y¡ — Y,Phương pháp bình phương cực tiểu dựa trên ý tưởng tìm hàm y sao cho tổngkhoảng cách từ y, đến ÿ, là nhỏ nhất i=1 ,.n Tức là
— 2 — ^ N2
de) =X; -3,) > mini=l] i=l]
Bình phương cực tiểu có trọng số bố sung thêm thành phan trong số W, vào việctính toán Những giá trị W sẽ tương ứng với một cặp (x, ; y,) nếu giá trị của trọng
Trang 17số W càng cao, thì ảnh hưởng của điểm (x, ,y,) đến hàm hỏi quy càng lớn Ta địnhnghĩa lại tong phan dư như sau
dle, y => W,(y,-3, y > mini=l] i=l]
Có nhiều cách dé xác định trọng số W.Ví dụ
w=-L hoặc là W =-L2Ji 3;
Thông thường người ta hay sử dụng độ lệch chuẩn o với công thức như sau
Trang 18YW, (B, + Bai(%) + Boal) +t BBi(%)~ y,) =0DM (A, + BB) + P,8,(%) + ot B8,(%) —— y,)øŒ) =0
i=l i=l i=l i=l
BY Wes (%)+ BOW 80% )8, (4) + + BLOW gi) = 3W y.8.%)
Trang 19LI1.4 — Ước lượng không chệch [5]
Wy,
i=l
3W.y,g(x)3 W,yg,(x)
ñ,
Thống kê Ô(X, Xe Á ) được gọi là ước lượng không chệch của tham số
Ø nếu E| Ê(X,,X, X,) |=Ø
Ước lượng không thỏa E|ô(X, ,ÄÓ, =5 X,) | =@ được gọi là ước lượng chéch.
LI1.5 Ước lượng hợp lý cực đại (Maximum likelihood )[5]
Trong thống kê, ước lượng hợp lý cực đại (MLE) là phương pháp dùng déước lượng tham số trong các mô hình thống kê
(14)
Trang 20Gia sử biến ngẫu nhiên X có các giá tri đ,,đ, đ, VỚI các xác suất tương ứngp,().p,(6) p (Ø) trong đó Ø là tham số chưa biết Theo quy tắc nhân xác suất,xác suat đê trong n lan quan sát X nhận được mâu X,,X,, ,X, bang
L= L(X,.X, X,„;Ø)= p,(6).p,(8) p, (Ø) = [In
Gọi Ô(X,.X; X,)là ước lượng của Ø Khi đó ham L phụ thuộc tham số Ø, và
ta mong muốn khi thay 6 thì hàm L sẽ đạt giá trị lớn nhất.
Phương pháp tim Ø để ham hợp lý đạt cực đại gọi là phương pháp hợp ly
cực dai (Maximum Likelihood Estimation- MLE), ô gọi là ước lượng hợp lý cựcđại của 0.
Khi mẫu cổ định, L và InL có chiều biến thiên như nhau, tức là L và InL đạtgiá trị cực đại tại những điểm giống nhau, do đó trong tính toán, để giảm bớt sựphức tap, thay vì tìm max(L), ta tìm max(InL) Hàm InL được gọi là log — likelihood.
Trang 211.1.6 BLUE (Best Linear Unbiased Estimator- Ước lượng không
chéch tuyén tinh tot nhat)Dinh nghia ma tran hiép phuong saiMa trận hiệp phương sai của vector ngẫu nhiên X, m chiều , ký hiệu làCov(X), là một ma trận vuông cấp m trong đó phan tử (i, j) là hiệp phương sai của
% Và x i J
Cov(X) =| cov(x,,x, | ¡,J=1,2, an
BULE
2X, seen ky) có ham mật độ là p(x;@) phụ thuộc
Gia sử vector ngâu nhiên x= (xvào tham sô @.
Trang 22Var(0) = F lb a,x, — ayy cont)
= E\(a"x — a’ E(x) | = EN(a" (x- E(2))) }
ra (x- E(x))(a" (x- E())) |
= E\a’ (x- E(x))(x- E(x)) a}= a’ E\(x — E(x))(x — B(x))' ba
=a Ca
Với C, = E\(x- E(x))(x- E(x)’ | = Cov(x)
Bai toán BLUE là bài toán tôi ưu được phat biéu dưới dạng
min {a”C,a} với ràng buộc là a’ S =1
Trong trường hợp nay, sử dụng phương pháp nhân tử Largange dé giải bài toán min.Xét ham J
#=aCa+A^(a S-1)Phương án tối ưu thỏa mãn điều kiện
ôJ —=0 L5Ay (1.5)a S=1 (1.6)Từ phương trình (1.5) ta có
2 S'C 6
Trang 23Như vậy, hăng sô a can ước lượng có công thức như sau
a=-2C"'8 va 4 = =
2 2 S'C§
l C'Sa= CS=—
SCS * S*C.'Sô AT y= C.'Sx
Tacó: E(y)=X/Z, C, =Cov(y) cần ước lượng /Ø.Vì E(y)=X/Ø do đó S=X
Theo kết quả trên
b Z C'Sx“CS
var(@) = :
“CSTa có
Re C,'Sy _ C,'Xyse S X.C X
Trang 24bang 0 Vì u là một vector ngẫu nhiên, không phải là một vector tham số, do đó sẽkhông gọi là ước lượng cho u mà sẽ su dụng thuật ngữ dự đoán (predict) cho u.Phương pháp BLUP giúp dự đoán u.
Giả sử
E(u) =0E(e)=0Var(u) =GVar(e)=RCov(é,u) = 0Nhu vay
NHI)
Ngoài ra, BLUP còn có một số yêu cầu như sau1 u là một hàm tuyến tính theo y
2 ñ là gid trị dự đoán của u thỏa mãn: E(u—u) =0
3 Var(u—u) không lớn hơn Var(v—u) , với v là một dự đoán khác của w.
Nhắc lại phân phối có điều kiện của vector ngẫu nhiên trong không gian nhiềuchiều như sau
Gia sử X là một vector ngau nhiên có sô chiêu là n có dạng
và có phân phối chuẩn X ~ N(w> ) VỚI
oth eR E
Trong đó x,,x, là hai vector có chiều lần lượt là p và g sao cho p+q =n
Trang 25Hi, — H >> —#,)
Như vậy, trong mô hình tuyến tính hỗn hợp, xét vector W = (w, ,M,) ta có
Ww N Ll, | COV,, COV,,Ww, Hy | LCOV,, COV,
ue | |0 |J|GZ G
Vi vậy
E(ul y)=0+GZ'(ZGZ'+R) '(y- XB)
=GZ'(ZGZ'+R) (y- XB)
Trang 26Từ đó BLUP(u) = GZ'(ZGZ' + R)" (y-X B) với B là ước lượng của vector tham
số j (sử dụng phương pháp BLUE).12 HOI QUY THAM SO
H6i quy là một phương pháp thống kê mà giá trị kỳ vọng của một hay nhiễubiến ngẫu nhiên được dự đoán dựa vào các biến ngẫu nhiên (đã biết trước) khác.Dạng tong quát của hồi quy tham số chứa một biến phụ thuộc, hay còn gọi là biếndau ra, hay biến y và một bién khác gọi là biến độc lập, hay biến giải thích, hay biếnx Ví dụ bién y có thé chỉ huyết áp của một người, biến x thé hiện tuổi tác của ngườiđó Sự phụ thuộc của huyết áp theo từng độ tuổi gọi là hồi quy của y theo x Do đóta sử dụng những tham số dé thé hiện sự phụ thuộc giữa y và x dưới dạng nhữnghàm tuyến tính Trong nghiên cứu, có thể tìm hiểu sự phụ thuộc của biến y với mộthoặc nhiều biến giải thích x, tương ứng sẽ có hồi quy tuyến tính đơn bién và hồi quytuyến tính đa biến
1.2.1 Hồi quy tuyến tính đơn biếnPhân tích hồi quy tuyến tính là một phương pháp phân tích tìm ra mối quanhệ gữa biến phụ thuộc (y) với một hay nhiều biến giải thích (x) Mối quan hệ đó sẽđược mô hình hóa bằng hàm hồi quy, trong hồi quy tuyến tính đơn biến, hàm hồiquy sử dung là ham hồi quy bậc 1, các tham số trong hàm hồi quy được ước lượngtừ bộ dữ liệu Từ hàm hồi qui có thé dự đoán được biến phụ thuộc y nếu đã biếtbiến giải thích x Phương pháp phổ biến nhất để ước lượng các tham số là phươngpháp bình phương cực tiểu
Vì hàm hồi quy được sử dụng là hàm bậc 1, do đó mối quan hệ giữa biến phụthuộc và biến độc lập sẽ có dạng là một đường thăng (đường hồi quy) Tuy nhiêntrong thực tẾ ta thay rang dữ liệu thu thập được là một đồ thị phân tán, tức là mỗiquan hệ của hai biến x, y theo phương trình y= / +/đx chỉ ở mức tương đối Vìvậy xuất hiện thành phan ¢ dé thé hiện yếu tố ngẫu nhiên trong quan sát Ta có môhình tong quát dạng y= đ,+/đx+£ (17)
Trang 27Mô hình hồi quy tuyến tính chỉ yêu cầu tuyến tính ứng với tham số, khôngyêu cầu tuyến tính biến số.
Từ bộ đữ liệu quan sát được (x,, y,),(x,, y,) (x,,y,„), công thức (1.7) có thé viếtlại như sau
y=/6,+/x,+e, (L8)
x,,y, là các gia tri của các biến trong lần quan sát thứ i.&, sal số ngau nhiên trong lần quan sát thứ i Dai diện cho những yếu tố khácảnh hưởng đến y,, €, được hình thành từ nhiều nguyên nhân như: bỏ sót biến giảithích, do sai số khi đo lường biến phụ thuộc, mô hình hồi quy chưa phù hợp hoặc donhững tác động không tiên đoán được.
Như vậy nếu sai số càng nhỏ thì mối liên hệ giữa x, y càng chặt chẽ và ngượclai Do đó E(£)=0Ú.
Giả định của mô hình tuyến tính cỗ điển như saue Các biến giải thích đã được xác định trước
e E(c£)=0 kỳ vọng của các yếu tổ ngẫu nhiên bang 0.e Các £, có phương sai băng nhau
e Khong có sự tương quan giữa các £,.e Không có sự tương quan giữa £, và x,.e £ có phân phối chuẩn ~ N(0,đ”1).Ta định nghĩa phần dư như sau
đ, =3, — Ở,
Phần dư là sai lệch giữa giá tri dự đoán với gia tri quan sát được, do đó, trong môhình, người ta mong muốn sự sai lệch là nhỏ nhất Như vậy, thông thường để ướclượng tham số j= ( ñà› 8) , dùng phương pháp bình phương cực tiểu
3(s} =3 (¡7 )Ÿ > min
Dé ước lượng cho hàm hồi quy, ta viết lại hàm hồi quy (1.7) có thé viết dưới dangma trận
Trang 28y=X/Ø+e (19)y, | x,
I2.2 Mô hình hồi quy tuyến tính đa biến
Mô hình hôi quyTrong thực tế, có nhiều yếu tô ảnh hưởng đến giá trị của biến phụ thuộc, tứclà có nhiều biến giải thích x Trong trường hợp này mô hình hồi quy tuyến tính sẽ códạng như sau
y=f6+fñx+/x,+-:+/x,+e£ (L10)Hoặc y,= 6+ /x¡,+/6x„+-:+/Øx,+e CUD
Trong đó x,.x,.:::,x,„ lak biến độc lập.x, là giá tri của biến x, trong lần quan sat thứ i Với i=1,2, ,.n 3 j=1,2, ,kTrong công thức (1.10), có thể viết lại đưới dạng ma trận như sau
y=XØ+z¿ (I12)Trong đó
Trang 29y, I Xy Xin NyY› I X51 X22 °° Xy5
y=|? X=
Yn Xi X12 " "Kak
5 E,B, E,B ếnBằng phương pháp bình phương cực tiểu có thé ước lượng tham số Ø
Ô=(X'X)'X'y
Ma trần hiếp phicong saiMa trận hiệp phương sai của vector ngẫu nhiên X, m chiều , ký hiệu làCov(X), là một ma trận vuông cấp m trong đó phan tử (i, j) là hiệp phương sai của
X Và x i j
Cov(X) =| cov(x,,x, | ¡,J=1,2, an
Một định nghĩa tương đương là
Co(X)= E|{X =E(X)}{X = E(X)} ]
Nếu X là một vector ngẫu nhiên, A là một ma trận hăng số và c là một vector hăngsố có cùng chiều AX, vector AX +c có kỳ vọng va ma trận hiệp phương sai như
sau
Trang 30Ta xem xét mô hình tuyến tính tổng quát có dạng y=Xf+e với các giả địnhnhư sau E(£) =0,Cov(£)= ø”I ,e ~ N(0,Ø°1)
Tham số được ước lượng với công thức Ø=(XTX)!XTy
Trang 31Cov(B) = Cov((X*X)'Xy)
=(X'X)'X'Cœ(y)((X'X)'X"}=(XTX)'X'ø?1((X'x)'x '}=ø*(X'X)'X ((X'X)'X }=ø*(X'X)'X"X((@'x)"'}
=ơ*((x'x)'}
=ơ((X'XJ)
Độ lệch chuẩnĐộ lệch chuân của /, như sau
Trang 32Ta có
H" =(X(X'X)'X'}=x(Œ*x)"') xX!=X(@'Xx}) X'=X(X'X)'XT
Trang 33Ta có kỳ vọng cua một dạng toàn phương được cho bởi công thức
E(x" Ax) = E(x) AE(x)+r {| ACov(x)}
i=l
Ta có
Trang 34= _E(y' (1-H)y)= —21r{, -X(X 'x)'X'"))= cơ (n-m(1,))
Ta có
r\(1, _ X(x *x)'X"))= n=rr{X((X*X)'X"))
Vì X là ma trận cấp øx(k+1) và (CX”X)'XT} là ma trận cấp (k+I)xø nên theobố dé ta có /r{X(XTX)'XT}=tr{(X TX)'XT.X} =tr{1,„} Do đó
r|(1, _ X(X 'x)'X"))
=n-tr{I,,,}13 HOI QUY PHI THAM SO
Hồi quy phi tham số là một kỹ thuật phân tích thông kê, được sử dung dé phântích mối quan hệ giữa hai bién trong đồ thị phân tán Nếu kỹ thuật phân tích tham sốđược sử dụng khá rộng rãi băng cách sử dụng một tham sô đê thê hiện môi quan hệ
Trang 35giữa hai biến như là hệ số tương quan hay hệ số hồi quy thì kỹ thuật phi tham số lạikhông chứa một tham số nào Thay vào đó, mối quan hệ giữa các biến được thé hiệnbăng một đường cong Do đó những kỹ thuật phân tích phi tham số cũng có thể gọilà phân tích hồi quy phi tuyến hay kỹ thuật làm trơn đồ thị phân tán.
Giả sử x, y là hai biến liên tục, mối quan hệ phi tham số giữa x và y được thể hiệnbăng công thức y= ƒ(%)+£
Trong đó f(x) được xem là một dạng công thức thé hiện mối quan hệ giữa x và y.f(x) có thé là một hàm phi tuyến, cũng có thé là một hàm tuyến tính
Phwong phap trung bình cục bộ (Local averaging)Đây là phương pháp don giản nhất trong kỹ thuật phân tích hồi quy phi tuyến Taxem xét ví dụ
Giả sử ta quan tâm đến mối quan hệ giữa tuổi tác và thu nhập cá nhân, tanghỉ ngờ răng thu nhập sẽ tăng lên theo độ tudi cho đến lúc chúng ta về hưu Khi đóthu nhập sẽ đạt mức cao nhất, tiếp theo có thể giảm xuống hoặc ngừng lại ở đó Đặtbiến thu nhập là y, bién độ tuổi là x
Vấn đề này có thể tiếp cận băng phương pháp tham số, sử dụng hồi quy tuyến tínhcho toàn bộ vấn đề Ngoài ra ta có thể sử dụng một dãy các điểm trung bình thunhập y tương ứng với từng độ tuổi x Tập hợp những điểm như thế sẽ tạo thành mộtđỗ thị phân tán thé hiện trung bình thu nhập của từng độ tuôi, ta sẽ nối những điểmđó lại, tạo thành một đường gấp khúc Đây chính là đường hồi quy thể hiện mỗiquan hệ giữa độ tuổi và thu nhập cá nhân
Phương pháp nay đã thé hiện một mối quan hệ không đơn giản là tuyến tính giữahai biến tuổi và thu nhập Trong trường hợp nếu đồ thị là một đường thang, ta có thékết luận giữa x và y là mối quan hệ tuyến tính chặt chẽ
Tính trung bình giá trị y tại các điểm x là phương pháp phi tham số đơn giảnnhất Mô hình này còn được gọi là làm trơn trung bình động, lợi thế lớn nhất củamô hình là nó đơn giản Tuy nhiên, việc tính trung bình tại mỗi giá trị x cũng cónhững khó khăn đáng kể Ví dụ, với một số lượng mẫu quan sát quá lớn, quá nhiềugiá trị x thì trung bình của y sẽ không chính xác, mơ hồ, bị dao động Dé khắc phục
Trang 36điều nay, ta sẽ không tính trung bình y tại mỗi giá trị x, mà sẽ chia x thành nhữngkhoảng băng nhau, khi đó tính trung bình của y tại từng khoảng Tuy nhiên, kíchthước của khoảng sẽ ảnh hưởng trực tiếp đến trung bình y và hình dạng đường hồiquy Nếu khoảng chia hẹp, số lượng điểm sẽ tăng, giao động của y cũng tăng,khoảng chia rộng hơn, số lượng điểm sẽ giảm, giao động của y cũng giảm Ta có théxác định độ rộng của khoảng bang nhiều cách Ví du: chia x thành những khoảngbăng nhau tuy nhiên ta không thé mong đợi x có phân phối đều, do đó một lựa chonkhác là chia x thành những khoảng không đều nhau, nhưng số lượng các giá trị yđược phân bồ đều trong những khoảng đó.
Tuy nhiên, mô hình phi tham số này vẫn có hạn chế là chủ yếu dựa vảo trungbình của dữ liệu Do đó người ta sẽ sử dụng mô hình phi tham số dựa trên ướclượng hồi quy cục bộ trên từng khoảng, thay vì ước lượng cục bộ trung bình trêntừng khoảng Tai mỗi khoảng, ta thực hiện ước lượng y theo x, kết hợp các dãy hồiquy lai, ta sẽ có hàm hồi quy f(x) phi tham số
1.3.1 Hỏi quy đa thứcHồi quy da thức là một dang cơ bản khác của hồi quy phi tuyến, là nền tang của hồiquy đa bién
Y= BoA Bet Bx tet Box? +ETừ bộ dữ liệu quan sát (x,,y,).(x,.,y„) (x,,y,) xét ham f(x) có dạng
F(X )=Bo+ Bx + Boxy t+ Box? i=1,2, ,0
Nhu vậy mô hình hồi quy sé trở thành
y,=/,+x,+/,x + +/,x )+e ,=L2,.n (L13)
Nếu p =1 thì hồi quy đa thức chính là hồi quy tuyến tính.Nếu p =2 thì đường hồi quy là một parabol, có tên gọi khác là mô hình bậc hai.Phương trình (1.13) có thé viết lại dưới dang ma trận như sau
y=XØ+z (114)Trong đó
Trang 372 p
l x, x x, y 1 B 0 €)
2
| XX; % 3; ở 21 x, x vee x? y n B Pp €nBang phương pháp bình phương cực tiểu, có thé ước lượng tham số /j bằng côngthức
Ô=(X 'X)'X'y
I3.2 — Mô hình que gayMô hình que gẫy là một mô hình cơ bản đơn giản nhất của mô hình phi tham sốsử dụng kỹ thuật Spline [8]
©GO o_
OD
1 ^ On
Ó©
Trang 38không phải là phương án tốt nhất Quan sát thay dữ liệu có xu hướng phân phốitheo hai đường thăng và giao nhau tại điểm x = 60, do đó ta sẽ ước lượng chotừng phần bang hàm tuyến tính đơn, sau đó sẽ kết nối chúng lại Mô hình nhưvậy được gọi là mô hình que gay.
Ham (uw), được định nghĩa như sau
Nếu x< hàm hồi quy tương ứng là y= 6+ Bx.Nếu x< hàm hỗi quy tương ứng là y= /Ø,— đx+(/.+/,)x,:Thành phan K trong (x—K), được gọi là một nut
Trong vi dụ trên ta thay đô thị bị gay tại x =60 do đó mô hình que gay sẽ là
B=! B, e=|.°
ñ, l
Trang 39Thông thường (x—60), được gọi là phần dương của hàm x—60 vì hàm (uw), đãđặt những giá trị âm của x—60 = 0.
(x—60), được gọi là một hàm Spline tuyến tính cơ bản
ø 1a
~ 87 ` ser
5 Be 6- = 3 | ø
0 20 40 60 80 100
X
Hình 1.2Đường hồi quy thé hiện mô hình que gay1.3.3 M6 hình Spline
Spline là một kỹ thuật khác của hồi quy phi tham số, sử dung trong đồ thịphân tán Spline là những ham hồi quy cục bộ, dùng để nối những điểm lại vớinhau, những điểm đó gọi là những nút Hồi quy spline đơn giản nhất là sử dụngnhững hàm tuyến tính hay hàm hằng để nối các nút lại với nhau Spline là một dạngmô hình hồi quy cục bộ giống như ước lượng cục bộ Nhưng thay vì sử dụng ướclượng trung bình trong từng khoảng như trước kia, spline sử dụng các hàm để nốicác nút.
Mô hình hồi quyXét mô hình que gẫy
Trang 40y=/6+/Øx+/6,(x-K),+e£ (1.18)
{Lx(x- K),} được định nghĩa là một co sở.Tuy nhiên, trong thực tế, dữ liệu thu thập được có thé bị gay khúc ở nhiều vị tríkhác nhau, khi đó ta sẽ có nhiều nút, và mô hình sẽ được mở rộng
Nếu đồ thị có & nút, cơ sở của mô hình được định nghĩa như sau
{Lx.(x—K)),„(X—&;),„ ,(X— K¿),}Được gọi là cơ sở spline tuyến tính
Ham f(x) của mô hình spline tuyến tính k nút có dạng
ƒ@)=/,+x+>—8,(x—K,), (19)
Như vậy mô hình tương ứng sẽ là
y,=ƒ(%)+#,y=/+/Ø6x+>ØyGœ,—k,),+e — (120)Đề ước lượng cho các tham số, ta có thể sử dụng phương pháp bình phương cựctiểu, trong đó (I.20) được viết dưới dạng ma trận như sau
y=X/Ø+e và 0=(X 'X)'XYyy, I x (x, —K,), (x, —Ky), HIẾN —Kx),y= y, X- I x, (x, —K,), (x,-K,), nHỆN —Ky),Yn I x, (x, —K,), (x, —Ky), HIẾN —Kx),
ñ:ổ E,
ñ, :
: E.
ñ,