1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Toán ứng dụng: Hồi quy thành phần chính và ứng dụng

95 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Hồi quy thành phần chính và ứng dụng
Tác giả Nguyên Đức Tuệ
Người hướng dẫn PGS.TS. Tô Anh Dũng
Trường học Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành Toán Ứng dụng
Thể loại Luận văn thạc sĩ
Năm xuất bản 2014
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 95
Dung lượng 14,66 MB

Nội dung

Mức độ thay đổi do một biến của #2 lớn cho thấy biến này cung cấp những thông tin độc nhất về biến phụ thuộc mà các biến độc lập khác trong không có tương quan với nhau thì mức độ thay đ

Trang 1

ĐẠI HỌC QUỐC GIA TP HỎ CHÍ MINHTRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYÊN ĐỨC TUỆ

HOI QUY THÀNH PHAN CHÍNH VÀ UNG DỤNG

CHUYÊN NGÀNH: TOÁN ỨNG DỤNG

MÃ SO: 60 46 36

LUAN VAN THAC SI

TP.HO CHI MINH, thang 12 nam 2014

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠITR ONG ĐẠI HỌC BACH KHOA —DHQG -HCMCán bộ hướng dẫn : PGS.TS Tô Anh Dũng - 2 5s s£sEsEsEeeeersrsrd

Xác nhận của Chủ tịch Hội đồng đánh giá luận văn và Bộ môn quản lý chuyên

ngành sau khi luận văn đã được sửa chữa (nêu có).

Chú tịch Hội đồng đánh giá luận văn Bộ môn quản lý chuyên ngành

Trang 3

TR ONG ĐẠI HỌC BACH KHOA CONG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAMPHÒNG ĐÀO TAO SDH Độc lập — Tự đo — Hạnh Phúc

L TÊN ĐÈ TÀI: Hồi quy thành phần chính và ứng dụng

NHIỆM VỤ LUẬN VAN: Nghiên cứu thuật toán hồi quy thành phanchính và xây dựng chương trình matlab cho thuật toán hồi quy thành phần

chính.

H NGÀY GIAO NHIỆM VỤ: Ngày 07 tháng 07 năm 2014.Ill _ NGÀY HOÀN THÀNH NHIEM VỤ: Ngày 07 tháng 12 năm 2014.IV HO VÀ TÊN CÁN BOH ONG DÂN: PGS.TS TÔ ANH DUNGNội dung và đề cương Luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành

Trang 4

LOI CAM ON

Tôi xin bay tỏ lòng biết on sâu sắc tới Thay hướng dẫn — PGS.TS Tô Anh Dũng— Truong bộ môn Xác suất thống kê, Đại học Khoa học tự nhiên — Đại học Quốc GiaTp Hồ Chí Minh, người đã luôn khuyến khích, quan tâm giúp đỡ, truyền đạt kiếnthức va tạo mọi điều kiện thuận lợi giúp tôi hoàn thành luận văn tốt nghiệp này.

Chân thành cảm ơn các Thây phản biện đã đọc luận văn và cho những nhận xétrất quý báu.

Tôi xin bay tỏ lòng biết on chân thành đến tập thé Thay, Cô giáo bộ môn Toánứng dụng — Khoa Khoa hoc Ứng Dụng, phòng Dao Tạo Sau Dai Học — trường Daihọc Bách Khoa — Dai học Quốc Gia Tp.Hồ Chí Minh đã tận tình dạy dỗ, giúp đỡ chotôi trong suốt khóa học.

Tôi xin gửi lời cảm ơn đến tập thể các bạn K 2012 - 2014 lớp cao học Toán ỨngDụng — những người bạn yêu quí đã luôn đồng hành, giúp đỡ và chia sẽ khó khăncùng tôi trong suốt quá trình học tập.

Cuối cùng tôi xin bảy tỏ lòng biết ơn sâu sắc đến gia đình, những người thânyêu nhất, đã luôn khích lệ và giúp đỡ tôi trong suốt thời gian học tập vừa qua.

Nguyễn Đức Tuệ

Trang 5

LỜI MỞ ĐẦU

Phân tích hồi quy là bai toán có ý nghĩa lớn trong thông kê Hồi quy tuyến tínhđa biến được dùng để xem xét mối liên hệ tuyến tính giữa hai hay nhiều biến độc lậpX, và một biến phụ thuộc Y Lĩnh vực ứng dụng của phân tích hồi quy tuyến tínhđa biến rất rộng trong công nghiệp, nông nghiệp, kinh tế, khoa học cơ bản vớibảng số liệu mà các cột là các biến (gồm một biến là biến phụ thuộc (Y) và các biéncòn lại là các biến giải thích (X,)) và các dòng là các cá thể, trên đó đo giá trị củabiến Kết quả của phân tích hồi quy đa biến cho phép ta dự đoán, phân tích về mặtđịnh lượng về sự tác động của các biến giải thích X, đối với biến được giải thích Y

trong tông hòa các môi liên hệ của van dé cân nghiên cứu.

Một trở ngại lớn trong phân tích hồi quy tuyến tính đa biến là các biến giải thíchdo một nguyên nhân chủ quan hay khách quan nào đó lại có mối tương quan tuyếntính với nhau (gọi là hiện tượng đa cộng tuyến) Hiện tượng đa cộng tuyến làm chomô hình hồi quy bị sai lệch ảnh hưởng nghiêm trọng đến kết quả phân tích va dự

đoán.

Một phương pháp dé khắc phục hiện tượng đa cộng tuyến là loại bỏ han biếngiải thích gây hiện tượng đa cộng tuyến ra khỏi mô hình hồi quy (như phương phápbackward, forward, stepwise) Nhưng cách khắc phục này có nhược điểm lớn là dễ bỏnhằm biến giải thích quan trọng Mặt khác nếu nha nghiên cứu muốn xem xét van détrong tổng hòa các mối liên hệ thì rõ ràng giải pháp bỏ hăn biến giải thích là khôngphù hợp với mục đích nghiên cứu Trong trường hợp này đòi hỏi cần có một phươngpháp khắc phục hiện tượng đa cộng tuyến mà không phải loại bỏ các biến giải thíchđó là phương pháp hồi quy thành phan chính (Principal components regression) (

Draper va Smith 1981, Myers 1966 ).

Hồi quy thành phan chính là phương pháp hồi quy đa biến áp dụng cho dữ liệurất nhiều chiều Hồi quy thành phan chinh sé loai bo phan nhiễu của tập dữ liệu thựchiện hồi quy với phần đặc trưng của tập dữ liệu vì vậy sẽ giảm thiểu được sai số vàkhắc phục hiện tượng đa cộng tuyến ma không phải bỏ di các biến giải thích của mô

hình.

Dựa vào các nội dung trên luận văn gôm có 3 chương với bô cục như sau:

Chương 1: Giới thiệu về mô hình hồi quy tuyến tính đa biến và phương pháp bìnhphương tối tiểu thông thường (OLS) cũng như các giả định của mô hình hồi quytuyến tính cỗ điển.

Trang 6

Chương 2: Trình bày về các quy tắc kiểm định va lựa chọn mô hình hồi quy tronghồi quy tuyến tính đa biến nhằm phục vụ cho việc kiểm định mô hình hồi quy dùngphương pháp hồi quy thành phan chính ở chương 3.

Chương 3: Là chương trong tâm của luận văn tác giả trình bày những vấn dé sau:® Cơ sở lí thuyết và thuật toán của phương pháp hồi quy thành phân chính.® Thực hiện thuật toán hồi quy thành phần chính trên mẫu số liệu và so sánhvới các phương pháp hồi quy khác (như backward, forward, stepwise).

® Viết chương trình thực hiện thuật toán hồi quy thành phần chính bằng ngônngữ lập trình matlab và tạo giao diện phần mềm thân thiện với người sử dụng.

Những công trình khoa học sử dụng phương pháp hồi quy thành phần chính:+O trong nước:

Giới thiệu hệ thong công cụ dự báo khí hậu va khả năng ứng dụng vào dự bao

khí hậu mùa ở Việt Nam.

Tác giả : TS Nguyễn Văn Thắng, CN Nguyễn Đình Dũng(Tuyến tập báo cáo Hội thảo khoa học lần thứ 10 - Viện KH KTTV & MT )+ Ở ngoài nước:

Application of Principal Components Regression for Analysis of X-Ray

Diffraction Images of Wood.

Joshua C Bowden and Robert Evans

(CSIRO Information Management and Technology, CSIRO Materials Science and

Engineering, Australia)

Trang 7

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn của tôi là công trình khoa học được viết băng sựtìm tòi, nghiên cứu khoa học nghiêm túc của bản thân dưới sự hướng dẫn của PGS.TSTô Anh Dũng Trong quá trình thực hiện luận văn, tôi đã tham khảo các tài liệu được

liệt kê trong danh mục tài liệu tham khảo Các tài liệu, số liệu dùng trong luận văn cónguồn gốc rõ rang.

TP.HCM, ngày 06 tháng 12 năm 2014

Nguyễn Đức Tuệ

Trang 8

Mục lục

1 Mô hình hồi quy tuyến tính đa biến1.1 Mô hình hồi quy tuyến tính đa biến tong thể

1.2 Phương trình hồi quy tuyến tinh đa biến mẫu

1.3 Ước lượng bình phương tối tiểu thông thường (OLS) 131 7 Giớithiệu 2 0 ee

1.3.2 Dinh lý điều kiện cần

1.3.3 Nghiệm hệ phương trình chuẩn

2.1.3 Kiểm định giả thuyết về các mối liên hệ tương quan

2.2 Đánh giá chất lượng mô hình hồi quy

2.21 Hệ số hồi quy chuẩn hóa

2.2.2 Hệ số xác định và hệ số xác định điều chỉnh 2.2.3 Hệ số tương quan từng phần, hệ số tương quan riêng và

hệ số tương quan bội

2.2.5 Kiểm định giả thuyết về các hệ số hồi quy (kiểm định t)

2.2.6 Khoảng tin cậy của các hệ số hồi quy 2.2.7 Đa cộng tuyến trong hồi quy tuyến tính đa biến và cách

2.3 Các tiêu chuẩn lựa chọn mô hình hồi quy 2.4 Vận dụng phương pháp OLS để phân tích số liệu thực tế

12121212131313

14

Trang 9

2.4.1 Phân tích mối tương quan giữa các biến trong mô hình

hồi quy Q Q Q Q Q v.v va 232.42 Phân tích hoiquy 0.0 00000000000 25

3 H6i quy thành phan chính 33

3.1 Giới thi@u 2 QC CO On nu v2 v.v v.v va 33

3.2 Phan tích thành phần chính 33

3.2.1 GIỚI thiệU c Q Q Q Q Q Q HQ v.v va 333.2.2 Minh hoa PCA 0.000.00000000000000.4 343.2.3 Thuật toán PCA 0.000000.0000000000 353.2.4 Cơ sở toán học của thuật toán PCA 36

3.3 Phuong phap hồi quy thành phần chính 38

3.3.1 Phuong pháp bình phương tối tiểu thông thường mởrộng 38

3.3.2 Phương trình hồi quy trong hồi quy thành phần chính 39

3.3.3 Thuật toán PCR 0000002000000000000 443.4 Ung dụng phương pháp PCR 45

3.4.1 Vận dụng phương pháp PCR trên số liệu thực tế 45

3.4.2 So sánh thuật toán PCR và OLS, Stepwise 67

3.4.3 Chương trình matlab cho thuật toán hồi quy thành phan

chính gà v v v v v v va 13

Kết luận T7Tài liệu tham khảo 78

Phu luc 79

Trang 10

Chương 1

M6 hình hồi quy tuyén tinh đa biên

1.1 Mô hình hồi quy tuyến tính đa biến tổng thể

Giả sử ta có biến Y phụ thuộc vào k bién độc lập XỊ, Xa, , X,_ và có n bộ giá

trị quan sát của (Y, Xị,Xa, , Xp là (ye, #4; #2, Tx), t= 1,2, ,n [I]

Hàm hồi quy tổng thể ứng với từng quan sát là :

Yi = Øụ + Pity + Bowie + + Øy#1g + £1yo = Bo + đl#21 + Box + + Beton + €2 (1.1)Yn = Pot Pitni + Øa#na + + ng + En

Dat các ma trận tương ứng như sau:

1 wy #13 + + yp Bo Y1

1 x9, 33 +++ “Lop fen 12X=] | oo B= Y=

| #m #n2 00+ nk nx (k+1) Pr (£+1)x1 Ứn / nxỊ

€1€2

ce=

En nxl1

Khi đó công thức (1.1) được viết dưới dang ma trận như sau:

Y1 1 ay 12 ++ yy Bo Ey12 | Ì var #33 -'' Lop : By h £2

In / nx] ¬ +++ Ink nx(k+1) Dr (E+1)x1 En / mx]Hay

Y=XxGrt+e (1.2)

Trang 11

Trong đó 6; (7 = 0,1,2, ,k) là các hằng số.6o : là giá trị của biến Y khi k biến X có giá trị bang 0.

Lip: biểu hiện giá trị độc lập của biến thứ p tai quan sát thứ i

; (j = 1,2, ,k) : là các tham số chưa biết gọi là hệ số hồi quy riêng (partial

regression coefficients), thể hiện mức độ thay đổi của biến Y khi biến X; thayđổi một đơn vị Như vậy đ; cho thấy ảnh hưởng riêng của biến X; đến trung

bình biến Y

z; :là sai số, chính là biên độc lập ngẫu nhiên có phân phối chuẩn, với trung bìnhbằng 0, phương sai không đổi (bằng nhau) và là độc lập không có mối liên hệvới nhau.

Mô hình này cho rằng biến phụ thuôc có phân phối chuẩn đối với bất kì kết hợp

nào của các biến độc lập trong mô hình

1.2 Phương trình hồi quy tuyến tính da bién mẫuTrong thực tế không thể xác định một cách chính xác các hệ số8; (j =0,1,2, ,k) của phương trình hồi quy đa biến tổng thể mà chỉ có thể ước

lượng chúng từ các giá trị quan sát của mẫu thu thập được.Ứng với n bộ giá tri quan sat của (Y, XI, Xa, , Xy) là (,#@1,42 , 4g), t =1,2, ,m ta có n bộ ước lượng (%, #41, #a, , Zip) ,f = 1,2, ,m là ước lượng của

(Yi, Ta, 82 0y) ,£= 1,2, ,Tn.và (80, b1, , Be) là bộ ước lượng của (Bo, 81, , Br)

(€1, €2, ,€n) là bộ ước lượng cua (e1,£a, , En)

Ham hồi quy mau ứng với từng ước lượng là:

Y= Bo + Bye + Bons + 4+ Beep + €yÿ› = Bo + By x21 + Boxe + + Ô;», + €9 (1 3)Yn = Bo + Ben + Botne + + Ô}#ny + En

Dat các ma trận tương ứng như sau:

Ï ay 132 +++ LE Bo Ø1

Ï x9, 33 +++ “Lop ˆ By ˆ Yo

| #m #n2 00+ nk nx (k+1) Pr (£+1)x1 Ứn / nxỊ

Trang 12

Y=Xx6+é (1.4)

1.3 Ước lượng bình phương tối tiểu thông thường (OLS)

1.3.1 Giới thiệu

Ta có thể có rất nhiều mẫu khảo sát nên có thể xây dựng được rất nhiều

hàm hồi quy mẫu khác nhau được xây dựng từ những mẫu khác nhau Những

hàm hồi quy mẫu đều là ước lượng xấp xỉ của hàm hồi quy tổng thể Vấn đềđặt ra là có quy tắc hay phương pháp nào để tìm ra hàm hồi quy mẫu “ sát” với hàm hồi quy tổng thể nhất có thể được Nói cách khác là làm thế nào đểxác định được giá trị các tham số 8 = (8, 61, 62 , 8%)" gần với các giá trị thực

8 = (Bo, 61, B2 , 8%) Mặc dù trên thực tế chúng ta không bao giờ biết được

các giá trị thực này [3]

Mục tiêu tiếp theo sẽ là sử dụng các dit liệu z/1:z¿s; ;z và y để tìmước lượng “tốt nhất” của các tham số của tổng thể là 6 = (Bo, 61, Bo , 6,)7Sau đây chúng ta sẽ dùng phương pháp ước lượng được dùng phổ biến nhất làphương pháp bình phương tối tiểu (OLS) Phương pháp này thường được gọi làbình phương tối tiểu thông thường, để phân biệt với những phương pháp bìnhphương tối tiểu khác [3]

Gia sử ta có n bộ giá trị quan sat của (X1, Xa, , X„) và Y, kí hiệu là ry; #2; ; riz

Va 0ụ.

Nhắc lại ký hiệu ước lượng của 8 = (90, 61, B2- , Be)? là 2 = (Bo, B1, 3 Be)”,

phan dư ước lượng |ê| = |; — | Chúng ta phải tim giá trị tính toán % sao cho

ÿ, càng gần các y càng tốt, tức |ê| = jy, — | càng nhỏ càng tốt Dé khảo sát

Trang 13

tất cả các quan sát cùng lúc thì người ta xét Д é? và mong muốn Ð ` é? > min.

i=l ¡=1

Vậy tiêu chuẩn tối ưu được sử dụng bởi phương pháp bình phương tối tiểu là

“ _` _——

cực tiều hóa hàm mục tiêu

RSS = Soa = » (w — Bo — t#n — Bot — — Bevin)” (1.5)

t=1 t=1

với các tham số chưa biết là 9 = (69, 61, B2 , 9y) RSS gọi là tổng bình phươngcác phần dư và phương pháp OLS là cực tiểu tổng bình phương các phần dư

RSS là bình phương khoảng cách được đo lường từ đường hồi quy đến các số

liệu Sử dụng khoảng cách đo lường này, có thể nói rằng phương pháp OLS làtìm đường thang “gần nhất” với dữ liệu trên đồ thị [3]

Trang 14

2855 — 2S” (y, — By — BX — boXw — — ÂyX#)-(—1)OBo ¿=1

=—3)À,( t— Bo — Bra — Bot — — Bren)£=1ki = 2 » (TY: — Bo — Bite — Bowes — — Âg#¿)-(T#a})1 t=1

Tức là Km =0 Tương đương

T

8RS5 8RSsS ORSS ORSS ORSS — (0:0:0: -0:0 T

Suy ra QRSS — 9 ORSS _ 9 ORSS 9 ORSS _

Bo Đổi mm

—2 > (ye — Bo — Bian — Ôa#ia — — Brain) = 0f=

—2(Š) zii — Bo SD ma TÔI DD #7 — Bo DD meen — — 8: SD eum — — Be SD tytn) = 0

t1 1 : 1 tI 1 tS

—2( 3) + — Bo > miy—ỔI YD #tl#tp — B2 DD fiatk —.-.— Bi DD Vee —- — Be YD eK) =0

Hay t=1 t=1 t=1 t=1 t=1 t=1

—2( » i#¿¿ — Bo » #;;— > xix; — Be > rity — — Bi » #2t¿ — — Bp » #‡p#+¡) =O(=1 (=1 (=1 (=1 (=1 (=1

—2( 32 yerrr — Bo 2 mu —A DD ray — B2 SD crete, —- — Bi SD turg — -— Be dD #2) =0

Ta có hệ phương trình chuẩn cần chứng minh.

Trang 15

1.3.3 Nghiệm hệ phương trình chuẩnTrong phần trước chúng ta có:

1 11 X121 21 X22

xX =

1 đ„1 Ln2

( 1 1Z11 221

XI = | xp 123

\ ưu, LkSuy ra:

( 1 1Z11 22

XTxY- 112 22

\ ưu 2hDo đó, ta dao ham riêng dưới dang ma trận

t=1 (k+1)x(k+1)

M1Y2

Trang 16

Cụ> C

Goic là vectơ thực khác 0, e= ' Suyra cl = ( Co Cl ttt CE )

Trang 17

Đặt vectd v = Ã(„xe)C(¿x1) = SUY TA w=vlv=)\v?>0

Chính vì vậy, chúng ta cần biết về bản chất của hàm hồi quy tổng thể Cụthể, chúng ta không chỉ xác định dạng hàm của mô hình hồi quy, mà còn đưa

ra các giả định về cách mà Y¡ được tạo ra như thế nào Phương trình (1.1) chothấy Y¡ phụ thuộc vào cả X; và e¿ Cho nên, néu ta không biết X; và e¿ đượctạo ra như thế nào, thì ta sẽ không có cách nào suy diễn được Y; cũng như cáchệ sO đụ, 81, 9a , 3y Chính vì thé, các giả định về biến giải thích X; và số hạngnhiễu z¿ có ý nghĩa rất quan trong cho việc giải thích các giá trị ước lượng củahồi quy [4]

Dưới đây là tóm tắt các giả định trong mô hình hồi quy tuyến tính cổ điển:

Trang 18

e Không có hiện tượng tương quan giữa các sai số ngẫu nhiên:

Cou(£¡, €;) — 0, 1 xj

e Không có hiện tượng đa cộng tuyến giữa các biến giải thích.e ¢; có phân phối chuẩn e¿ ~ Wu, 07)

Trang 19

Chương 2Ước lượng và kiểm định trong hồi

quy tuyến tính đa biên

2.1 Mỗi tương quan giữa các bién trong mô hình hồi quy

2.1.1 Giới thiệu

Phương pháp tương quan dùng để nguyên cứu mối quan hệ giữa hai hay nhiều

biến ngẫu nhiên Mục tiêu của tương quan tuyến tính là đo lường cường độ củamối quan hệ giữa hai biến X và Y Các biến này được xem là ngang nhau khôngphân biệt đến độc lập hay phụ thuộc [1]

2.1.2 Hệ số tương quan

Giả sử hai biến ngẫu nhiên X và Y có phân phối chuẩn với trung bình px, uyvà phương sai ø2.,ø2 Hệ số tương quan ø là khái niệm được dùng để thể hiện

cường độ và chiều hướng của mối liện hệ tuyến tính giữa X và Y

p được gọi là hệ số tương quan của tổng thể

Giá trị của ø nằm trong đoạn [ — 1; 1]e p <0 giữa X và Y có mối liên hệ nghịch, tức là khi bién X tăng lên (giảm

di) thì biến Y giảm di (tăng lên), hoặc ngược lại bién Y tăng lên (giảm di)thì biến X giảm đi (tăng lên)

eo >0 giữa X và Y có mối liên hệ thuận, tức là khi bién X tăng lên (giảmdi) thì bién Y tăng lên (giảm di) , hoặc ngược lại bién Y tăng lên (giảm di)thì bién X cũng tăng lên (giảm di)

e o—0 giữa X và Y không có mối liên hệ tuyến tính

Trị tuyệt đối |p| càng lớn thì mối liên hệ tuyến tính giữa X và Y càng chặt chẽ.Trong thực tế ta không biết được các giá trị của nó vì vậy phải ước lượng nó từ

Trang 20

dữ liệu mẫu thu thập được.Goi (71, y1), (#2,2) ,(#n.a) là mẫu n cặp giá trị quan sát ngẫu nhiên từ X

và Y.Hệ số tương quan tổng thể ø được ước lượng từ hệ số tương quan mẫu r (còn

được gọi là hệ số tương quan Pearson).Công thức tính hệ số tương quan mẫu r :

2.2 Đánh giá chất lượng mô hình hồi quy

2.2.1 Hệ số hồi quy chuẩn hóa

Hệ số hồi quy chuẩn hóa (kí hiệu: beta) được sử dụng để đánh giá mức độ

ảnh hưởng của từng tiêu thức nguyên nhân X; đối với tiêu thức kết quả Y, và

được tính bởi công thức sau đây :

beta; = 6, 2% i=1,2, ,k (2.4)

Oy

Trang 21

Dấu của beta; là dấu của 8; , phản ánh chiều hướng mối liên hệ là thuận haynghịch giữa tiêu thức nguyên nhân X; đối với tiêu thức kết quả Y Nếu 8; dươngthì phan ánh mối quan hệ thuận, nếu 6; âm thì phan ánh mối quan hệ nghịch.

|beta;| phản ánh mức độ ảnh hưởng của từng tiêu thức nguyên nhân X; đối vớitiêu thức kết quả Y [1]

1 — ÿ¡¿ + G¡ (2.9)Điều này có nghĩa là giá trị thực tế và giá trị dự đoán theo phương trình hồi

quy tuyến tính có sự khác biệt e; e; thể hiện phần biến thiên của Y không thể

giải thích bởi mối liên hệ tuyến tính giữa Y và X

Dùng các biến đổi toán học ta được

=e =e i= (2.10)

TSS = ESS+ RSS

Trang 22

Y nghĩa các đại lượng nay:

(2.11)

Trang 23

lên Lúc này thì dường như mô hình hồi quy là rất tốt nhưng thực tế lại không

thích hợp vì không thể dùng mô hình hồi quy để dự đoán [4]

Do đó muốn đo lường mức độ thích hợp của mô hình hồi quy bội ta phải dùng

đến hệ số #2 có tính đến bậc tự do của RSS và TSS được gọi là hệ số xác địnhđiều chỉnh

s RS'S/[n — (k + 1)]TSS/(n — ])

Trừ khi số lượng biến X là tương đối lớn so với n, R? và R? sẽ không chênh lệch

nhau nhiều lắm Vì vậy ta hầu như dùng #2 khi muốn xem xét việc có nên đưathêm một biến giải thích X; nào đó vào mô hình hồi quy bội Nếu R? tăng lênchứng tỏ là việc đưa thêm biến X; vào mô hình làm tăng thêm ý nghĩa của mô

hình vì vậy cần thiết để X; trong mô hình.Để đánh giá tầm quan trọng tương đối của các biến độc lập ta cần xem xét mức

độ tăng của R? khi một biến được đưa vào phương trình khi phương trình đãchứa sẵn các biến độc lập khác Mức tăng này là

2 _ P2 2

Ji hange =“— lên (2.13)

Trong đó lên là hệ số xác định khi tất cả các biến có trong mô hình ngoại trừ

biến X; Mức độ thay đổi do một biến của #2 lớn cho thấy biến này cung cấp

những thông tin độc nhất về biến phụ thuộc mà các biến độc lập khác trong

không có tương quan với nhau thì mức độ thay đổi của #2 khi một biến

được đưa vào phương trình đơn giản chỉ là bình phương của hệ số tươngquan giữa biến này và bién phụ thuộc

e Ngoài ra để đánh giá mức độ chặt chẽ mối liên hệ tương quan tuyến tính

giữa tất cả các tiêu thức nguyên nhân Xị,Xa, Xz với tiêu thức kết qua

Y ta dùng hệ số tương quan bội ?# được tính theo công thức sau đây :

Trang 24

* Nếu R=1: Giữa XỊ,Xa, X; và Y có mối quan hệ hàm số.* Nếu R=0: Giữa XỊ,Xa, X;, và Y không có mối liên hệ tương quan

tuyến tính

* Nếu R-> 1 : Giữa Xị,Xa, X„ và Y có mối liên hệ tương quan tuyến

tính càng chặt chẽ.

2.2.4 Kiểm định F

Được dùng để kiểm định giả thuyết về sự tồn tại của mối liên hệ tuyến tính

giữa biến phụ thuộc Y và bất kì một biến độc lập X; nào đó.Giả thuyết Ho: 6) = fo = = 8, =0

Ay: có ít nhất một 8; #0; 7 =1,2, ,kNếu chấp nhận Hp tức là không tồn tại mối liên hệ tuyến tính giữa Y và bất ki

X; nào đó Và ngược lại, bác bỏ Hạ ta có thể kết luận có mối liên hệ tuyến tính

giữa Y và ít nhất một trong các bién X;

Biến ehie Tống các chênh ¬ eee Giá trị kiếm địnhlên thiên lệch bình phương ậc tự do ênh lệ F

phương

: ESS MSE

Hoi quy ESS k MSE = —— F, 21) = ——

k “MSR RSS

do của tử là k, bậc của mau là ø — (k +1)

2.2.5 Kiểm định giả thuyết về các hệ số hồi quy (kiểm định ft)

Do kiểm định F đóng vai trò xem xét một cách tổng quát, vì vậy cần thựchiện các kiểm định ¿ riêng biệt để đánh giá ý nghĩa của từng biến khác nhau [1]

Trang 25

Trong đó Se(b;) là sai số chuẩn của hệ số hồi quy b;.

Quy tắc quyết định: ở mức ý nghĩa a , bác bỏ giả thiết Họ nếu

Dj < —Ï fay hoac Dj >t fay (2 17)

Các kiểm đỉnh ¢ này sẽ cho ta biết biến X; nào không ảnh hưởng đến

Y (6; =0), X; nào có ý nghĩa trong việc giải thích biến thiên của

Y (8; #0) và do đó nên được thể hiện trong phương trình hồi quy:

2.2.6 Khoảng tin cậy của các hệ số hồi quyƯóc lượng khoảng tin cậy của các hệ số 8; với độ tin cậy (1 — a) là

b; + tạ_—1 S50) (2.18)

Trong đó:

* tp, Oy la giá trị của biên ngẫu nhiên T có phân phối Student với (n—k-1)

bậc tự do.+ Se(b;) là sai số chuẩn ước lượng của b;

2.2.7 Đa cộng tuyến trong hồi quy tuyến tính đa bién và cách khắc phụcKhi xây dựng mô hình hồi quy giữa nhiều tiêu thức, về phương diện lý thuyếtphải đảm bảo các biến giải thích X; không tương quan với nhau Nếu giữa cácbiến giải thích X; có tương quan tuyến tính với nhau thì được gọi là hiện tượngđa cộng tuyến [4]

Hậu quả của đa cộng tuyến là làm cho việc ước lượng các hệ số của mô hìnhhồi quy sẽ không chính xác, ảnh hưởng đến việc suy rộng các kết quả tính toán

Để khắc phục hiện tượng đa cộng tuyến, có một số phương pháp xây dựng

mô hình hồi quy sau đây:

Trang 26

e Phương pháp đưa vào dần ( Forward selectinon ): Biến giải thích X; đầu

tiên được xem xét để đưa vào mô hình hồi quy là biến giải thích có hệ sốtương quan lớn nhất ( về trị tuyệt đối ) với biến được giải thích (Y) Để

xem xét biến giải thích này ( và những biến giải thích khác ) có được đưa

vào mô hình hồi quy hay không thì sử dụng tiêu chuẩn vào là thống kê F(được mặc định F = 3,84 ) Nếu biến giải thích đầu tiên được xem xét đểđưa vào mô hình hồi quy thỏa mãn tiêu chuẩn vào thì phương pháp đưa

vào dan sẽ tiếp tục, nếu không, không có biến giải thích nào được đưa vào

mô hình hồi quy [2] Khi biến giải thích đầu tiên đã thỏa mãn tiêu chuẩn

vào mô hình hồi quy thì biến giải thích thứ hai được xem xét có thoả mãn

tiêu chuẩn vào hay không là biến giải thích có hệ số tương quan riêng phần

lớn nhất ( về trị tuyệt đối ) với biến được giải thích (Y) Nếu biến giải thích

này thoả mãn tiêu chuẩn vào sẽ được đưa vào mô hình hồi quy Thủ tục

này sẽ tiếp tục cho đến khi không còn biến giải thích nào thỏa mãn tiêu

chúng sẽ bị loại khỏi mô hình hồi quy [2]

e Phương pháp chọn từng bước (Stepwise selection): La sự kết hợp giữa haiphương pháp trên và là phương pháp thường được sử dụng

Biến giải thích đầu tiên được chọn để đưa vào mô hình hồi quy giống nhưphương pháp đưa dần vào, nếu nó không thỏa mãn tiêu chuẩn vào thì thủ

tục này sẽ chấm dứt và không có biến giải thích nào được lựa chọn Nếu nó

thỏa mãn tiêu chuẩn vào thì biến giải thích thứ hai được lựa chọn dựa vào

hệ số tương quan riêng phần lớn nhất (về trị tuyệt đối) Nêu biến giải thích

thứ hai thỏa mãn tiêu chuẩn vào thì nó cũng sẽ đi vào mô hình hồi quy [4].Sau đó, dựa vào tiêu chuẩn ra để xem xét biến giải thích thứ nhất có phải

loại bỏ khỏi mô hình hồi quy hay không Trong bước kế tiếp, các biến giải

thích không ở trong mô hình hồi quy được xem xét và để đưa vào Sau mỗi

bước, các tiêu thức nguyên nhân ở trong mỗi mô hình hồi quy được xem

xét để loại trừ ra cho đến khi không còn biến giải thích nào thỏa mãn tiêuchuẩn ra thì kết thúc [2]

Trang 27

Các mô hình hồi quy được xây dựng theo các phương pháp trên có thể khácnhau Tùy thuộc vào mục đích và nhiệm vụ nghiên cứu cụ thể để lựa chọn môhình thích hợp.

Trọng tâm của luận văn bàn về thuật toán hồi quy thành phần chính (PCR) để

khắc phục hiện tượng đa cộng tuyến trong các biến giải thích, vì vậy van đề đacộng tuyến sẽ được trình bày kĩ lưỡng hơn ở những chương sau

2.3 Các tiêu chuẩn lựa chon mô hình hồi quy1 Hệ số xác định #2: Như đã nói ở chương 1 thì # cho biết tỷ lệ hay phần

trăm tổng biến thiên của biến phụ thuộc Y được giải thích bởi biến giải

thích X Nhu vậy R? vẫn là một thước đo mức độ phù hợp trong mô hìnhhồi quy bội

Tuy nhiên, R? không thé được sử dụng như một phương tiện để so sánh hai

phương trình hồi quy khác nhau có số biến giải thích khác nhau Điều nàybởi vì khi các biến giải thích mới được đưa thêm vào mô hình, thì tỷ lệ biếnthiên trong Y được giải thích bởi các biến giải thích X (tức R?),sé luôn luôn

tăng Chính vì thế, chúng ta sẽ luôn luôn có một #2 cao hơn bất kể biến

giải thích được đưa thêm vào mô hình có quan trọng hay không Gujarati

(2003) cho rằng # là một hàm không giảm của số biến giải thích trong mô

hình Điều này rất dễ nhận ra trong công thức: R? = #22 =1-— #88

Ta nhận thay TSS = ) )(Y¡ - Y)* không phụ thuộc vào số biến giải thích.Và khi số biến giải thích X tăng lên thì RSS sẽ giảm (hoặc ít ra là khôngtăng), vì thế R? sẽ tăng

Cho nên, nếu so sánh hai mô hình có cùng bién phụ thuộc nhưng khác số

biến giải thích, chúng ta có thể rất dễ bị nhầm lẫn vì sẽ chọn mô hình

có R? cao hơn Vì lẽ này, chúng ta cần một thước đo khác có tính đến sốbiến giải thích trong mỗi mô hình Thước đo đó được gọi là R? điều chỉnh(adjusted R?) [4]

Trang 28

trừ, và chính vì thế là một thước đo tương đối ‘cong bang’ hơn trong việcso sánh giữa các mô hình có số biến giải thích khác nhau.

Gujarati (2003) cho rằng đôi khi nhiều người nghiên cứu chơi trò tối đa hóaR? nghĩa là, chon mô hình có R? điều chỉnh cao nhất Tuy nhiên, trò chơi

này có thể rất nguy hiểm, vì phân tích hồi quy không nhằm mục tiêu có

được một giá trị R? cao, mà mục đích chính là tìm ra được các giá trị ước

lượng của các hệ số hồi quy thực của tổng thể và rút ra các suy luận thống

kê về các giá trị thực này Nhiều nghiên cứu thực tiễn có R? rất cao nhưngcó một số hệ số hồi quy không có ý nghĩa thống kê hoặc thậm chí có dấutrái với kỳ vọng Chính vì vậy, chúng ta nên chú ý hơn đến sự phù hợp vềmặt lý thuyết của các bién giải thích đối với biến phụ thuộc trong mô hìnhvà mức ý nghĩa thống kê của các hệ số hồi quy [4]

Cũng theo Gujarati (2003), nếu chúng ta có cơ sở lý thuyết tốt, mô hình đã

được xác định đúng, và có phân tích chan đoán cần thận, thì việc có được

một giá trị #2 cao là một mô hình đáng mong muốn Trái lại, nếu chúngta có cơ sở lý thuyết tốt, mô hình đã được xác định đúng, và có phân tích

chan đoán can thận, thì việc có được một giá trị R? thấp không có nghĩa

đó là một mô hình tồi.Cho nên, người làm dự báo hãy yên tâm với kết quả nghiên cứu của mình,

đừng vì một #2 thấp mà cố gắng biến hóa mô hình để thuyết phục ngườikhác.

Các tiêu chuẩn lựa chọn mô hình khácBên cạnh #2 và R? , một số tiêu chí khác cũng thường được sử dụng để

đánh giá mức độ phù hợp của một mô hình hồi quy như AIC, FPE, SBC

và HỌC

+ Tiêu chuẩn Akaike Information Criterion (AIC) của Akaike (1974):

Te

AIC (2.20)

Trong đó k là số biến được ước lượng (gồm cả hệ số tự do) va n là cỡ mẫu

Giá trị AIC càng nhỏ chứng tỏ mô hình càng phù hợp

+ Tiêu chuẩn Schwarz Bayesian Criterion (SBC) của Schwarz (1978):

SBC = RSS AkinTe (2.21)

Trang 29

SBC còn khắt khe hon AIC.SBC càng nhỏ, mô hình càng tốt.

+ Tiêu chuẩn Finite Prediction Error (FPE) của Akaike (1970):

nhau Tuy nhiên, nguyên tắc chung là nên chọn mô hình nào có nhiều tiêu

chuẩn có giá trị nhỏ hơn so với các mô hình khác AIC và SBC là hai tiêuchuẩn được sử dụng phổ biến nhất

Lưu ý rằng, dù sử dụng tiêu chuẩn nào thì các mô hình đang xem xét phải

có cùng biến phụ thuộc và có cùng dang ham [4]

2.4 Vận dụng phương pháp OLS để phân tích số liệu thực tếTheo kết quả cuộc Tổng điều tra dân số năm 1999 và báo cáo phát triển con

người năm 2001, có tài liệu của 10 tỉnh phía Bắc nước ta như sau :

Tinh Y X1 X2 X3 X4 béA 2.72 2.18 3.3 57.6 21.08 56.45

B 2.27 2.85 9.69 65.1 21.21 31.45C 2.39 2.25 32.29 31.6 21.19 49.49D 2.53 2.21 29.35 41.7 20.82 51.68E 2.61 1.62 2.74 40.1 20.98 60.85F 3.04 2.5 25.8 62.1 20.39 33.47G 3.96 2.11 29.35 53.6 20.06 31.29

H 3.55 1.82 43.09 53.3 19.38 53.84

I 3.61 1.52 32.3 65.8 20.69 39.85

K 5.07 1.85 56.49 64.5 19.78 32.17

Trang 30

Bảng 2.2: Số liệu điều tra dân số năm 2001.

Trong đó :Y : Tong tỷ suất sinh

XI: GDP bình quân theo đầu người ( triệu đồng )

X2: Ty lệ phụ nữ 15 - 49 tuổi chưa biết đọc, biết viết (%)X3: Ty suất chết của trẻ em dưới 1 tuổi (9/60)

X4: Tuổi kết hôn trung bình lần đầu của phụ nữ 15 - 49 tuổi (tuổi)X5: Ty lệ phụ nữ 15 - 49 tuổi thực hiện biện pháp tránh thai (%)

2.4.1 Phân tích mối tương quan giữa các biến trong mô hình hồi quyTrước khi xác định mô hình hồi quy bội thì cần xây dựng một ma trân tươngquan cho tất cả các biến nghiên cứu Ma trận này cho biết tương quan giữa biếnphụ thuộc với từng biến độc lập cũng như giữa các biến độc lập với nhau

Ap dụng cho vi dụ trên (vào Analyze — Correlation - Bivarate trên SPSS)

I2)

Trang 31

CorrelationsY X1 x2 x3 X4 X5

Pearson + +

v Correlation 1| -473| 744 475|-789”| -.460Sig (1-tailed) 084 0007| 0083| 003L 090N 10 10 10 10 10 10Pearson

x4 Correlation -.473 1| -283| 103| 358] -.392Sig (1-tailed) 084 2114| 389) 155| 131N 10 10 10 10 10 10

Pearson 744 ”| -283 1| 140|-736”| -.374X2 Correlation

Sig (1-tailed) 007| 214 349[ 0008| 144N 10 10 10 10 10 10

Pearson +

Xã Correlation 475| 103|L 140 1| -.307| -.643Sig (1-tailed) 0083| 389 .349 194| 022N 10 10 10 10 10 10

pearson -7897| 358| -.736"| -.307 1| 242X4 orrelation

Sig (1-tailed) 0003| 155| 008L 194 250N 10 10 10 10 10 10

Pearson

xe Correlation -460| -392| -374| -.643 242 1Sig (1-tailed) 090} 131| 144| 0022| 250

N 10 10 10 10 10 10** Correlation is significant at the 0.01 level (1-taile d).

* Correlation is significant at the 0.05 level (1-tailed).

Bang 2.3: Ma trận tương quan giữa Y, XI, X2,X3,X4,X5

Dựa vào bang bang 2.3 ta nhận xét:

e Biến X4 (Tuổi kết hôn trung bình lần đầu của phụ nữ 15 - 49 tuổi) tácđộng đến biến phụ thuộc Y (tổng tỉ suất sinh) nhiều nhất với hệ số tương

quan là r = —0.789 (độ tin cậy 99%) và mối tương quan này là tương quan

nghịch vìr<0.

e Bién X2 (Ty lệ phụ nữ 15 - 49 tuổi chưa biết đọc, biết viết) cũng tác độngnhiều đến biến phụ thuộc Y với r = 0.774 (độ tin cậy 99%) và mối tương

quan nay là tương quan thuận (r > 0)

e Ngoài ra hai biễn X2 và X4 cũng có mối liên hệ chặt chẽ với nhau

(r = —0.736, độ tin cậy 99%) và tương quan này là tương quan nghịch

e Hai biến X3 (Tỷ suất chết của trẻ em dưới 1 tuổi) và X5 (Tỷ lệ phụ nữ 15— 49 tuổi thực hiện biện pháp tránh thai) cũng có mối tương quan nghịch

Trang 32

và là tương quan yếu r = —0.643.2.4.2 Phân tích hồi quy

1 Phương pháp đưa vào một lượt (enter)

Các biến giải thích đều được đưa vào một lượt trong mô hình hồi quy, khôngcó biến giải thích nào bị loại khỏi mô hình (vào Analyze — Regression— Linear trên SPSS) ta được một số kết quả sau:

Descriptive StatisticsMean Std Deviation NY 3.1750 87768 10X1 2.0910 40421 10

x2 26.4400 17.13944 10

x3 53.5400 12.00030 10X4 20.5580 63512 10X5 44.0540 11.60432 10

Variables Entered/Removed?

Model Variables Variables Method

Entered RemovedX5, X4, X1, X3,

1 | Enter

x20

a Dependent Variable: Yb All requested variables entered.

Model Summary

Std Errorof the

Model R R Square Adjusted R Square Estimate

1 839(a) 882 735 45180a Predictors: (Constant), X5, X4, X1, X3, X2

Bang 2.4: Bang Model Summary.

Bang 2.4 cho thay:e Hệ số tương quan bội R = 0,939 phan ánh mối liên hệ giữa các biến giải

thích X1,X2,X3, X4, X5 với biến được giải thích Y rat chặt chẽ.e Hệ số xác định bội #2 = 0,882 phan ánh 88,2% sự biến động của biến

Y là do các biến giải thích X mang lại

Trang 33

e b1 = —1,021 : khi GDP bình quân theo đầu người tăng thêm 1 triệu

đồng thì tổng tỷ suất sinh giảm tương ứng 1,021 đơn vị

e 02 = 0,01 : khi tỷ lệ phụ nữ 15 - 49 tuổi chưa biết đọc, biết viết tăng

thêm 1% thì tổng tỷ suất sinh tăng tương ứng 0,01 đơn vi.e b3 = 0,009 : khi tỷ suất chết của trẻ em dưới 1 tuổi tăng thêm 1% thì

tổng tỷ suất sinh tăng tương ứng 0,009 đơn vị.e b4 = —0,477 : khi tuổi kết hôn trung bình lần đầu của phụ nữ 15 - 49

tuổi tăng thêm 1 tuổi thì tổng tỷ suất sinh giảm tương ứng 0,477 đơnVỊ.

e b5 = —0,031 : khi tỷ lệ phụ nữ 15 — 49 tuổi thực hiện biện pháp tránh

thai tăng thêm 1% thì tổng tỷ suất sinh giảm tương ứng 0,031 đơn vị

Dấu của các hệ số hồi quy phan ánh chiều hướng mối liên hệ của từng biếngiải thích X; với biến Y

e 2 —=0,01 và 03 = 0,009 có dấu dương phan ánh mối liên hệ giữa X2 và

X3 với Y là mối liên hệ thuận Hay tỷ lệ phụ nữ 15 - 49 tuổi chưa biếtđọc, biết viết và tỷ suất chết của trẻ em dưới 1 tuổi với Tổng tỷ suất

sinh có mối liên hệ thuận

Trang 34

e b1 = —1,021;b4 = —0,477; bồ = —0,031 có dau âm phan ánh mối liên hệgiữa X1, X4, Xð với Y là mối liên hệ nghịch Hay GDP bình quân theo

đầu người, tuổi kết hôn trung bình lần đầu của phụ nữ 15 - 49 tuổi, tỷlệ phụ nữ 15 - 49 tuổi thực hiện biện pháp tránh thai với Tổng tỷ suất

sinh có mối liên hệ nghịch

Bảng Coefficients(a) còn cho biết các hệ số hồi quy chuẩn hoá beta, cho

phép đánh giá mức độ ảnh hưởng cũng như chiều hướng tác động của từngtiêu thức nguyên nhân X đến tiêu thức kết quả Y Giá trị tuyệt đối củabeta càng lớn thì ảnh hưởng của tiêu thức nguyên nhân đến tiêu thức kếtquả càng lớn và dấu của beta là dau của hệ số hồi quy thông thường Theokết quả trên

lbeta| = |—0,47| = 0,47 là lớn nhất

lbetas| — |—0, 409] = 0.409 là lớn thứ hai

Chứng tỏ ảnh hưởng của X1 ( GDP bình quân theo đầu người ) và Xð ( ty

lệ phụ nữ 15 - 49 tuổi thực hiện biện pháp tránh thai ) đến Tổng tỷ suất

Bảng 2.6: Bảng anova

Ở bảng Model Summary (bảng 2.4) ta được #2 = 0,882 điều này cho thấy

tính phù hợp của mô hình là tương đối cao Tuy nhiên sự phù hợp này chỉ

đúng với dữ liệu mẫu Để kiểm định xem có thể suy diễn mô hình cho tổngthể thực hay không ta phải xem xét bảng phân tích ANOVA (bảng 2.6)

Giá trị sig của trị F tương đối lớn là 0.054 (lớn hơn mức ý nghĩa) suy ra

mô hình không thể suy rộng cho toàn thể

Trang 35

2 Phương pháp loại trừ dần (backward):

Tat ca các tiêu thức nguyên nhân được đưa vào mô hình hồi quy,sau đó

tuần tự loại trừ chúng bằng tiêu chuẩn loại trừ Biến có hệ số tương quannhỏ nhất sẽ được kiểm tra đầu tiên Tiêu chuẩn loại trừ là giá trị Ƒ tốithiểu (mặc định là F = 2.71) phải đạt được để ở lại mô hình.Nếu biến nào

không thoả điều kiện sé bị loại ra Lúc này mô hình này sẽ được tính toánlại mà không có bién độc lập vừa loại Tiếp theo SPSS sẽ lặp lại thủ tụctrên cho đến khi nào giá trị F của biến có hệ số tương quan nhỏ nhất lớnhơn điều kiện Theo phương pháp này ta có kết quả sau đây:

Coefficients°

Unstandardized Standardized t Sig.

Model Coefficients Coefficients

B Std Error Beta

(Constant) 15.719 9279 1.694 166

X1 -1.021 500 -470| -2.042 111

4 x2 010 016 186 803 579X3 009 019 129 492 848

X4 - 477 394 -345| -1.211 292

X5 -.031 024 - 409} -1.308 261

(Constant) 18.378 6.949 2.645 046X1 -1.084 445 -499| -2 435 0592 X2 006 013 115 458 666X4 - 553 333 -400| -1 661 158

Bang 2.7: Bang Model Summary va bang Coefficients của phương phap

Trang 36

Total 6.933 9

Regression 6.067 4 1.517 8.757 018°

2 Residual 866 5 173Total 6.933 9

Regression 6.031 3 2.010 13.367 005°

3 Residual 902 6 150Total 6.933 9

a Dependent Variable: Y

b Predictors: (Constant), X5, X4, X1, X3, X2c Predictors: (Constant), X5, X4, X1, X2d Predictors: (Constant), X5, X4, X1

Bảng 2.8: Bảng Anova của phương pháp hồi quy BackwardQuan sát bảng 2.8 ta thay giá trị Sig của F ở mô hình 2 va mô hình 3 là

nhỏ hơn 0.05 suy ra mô hình 2 và mô hình 3 có thể suy rộng ra cho toànthể

Phương pháp đưa dần vào(forward)Tiêu thức đầu tiên được xem xét để đưa vào mô hình hồi quy là tiêu thức

nguyên nhân có hệ số tương quan lớn nhất (về trị tuyệt đối) với tiêu thức

kết quả Để xem xét tiêu thức nguyên nhân này (và những tiêu thức nguyên

nhân khác) có được đưa vào mô hình hồi quy hay không thì sử dụng tiêu

chuẩn vào là thống kê F (được mặc định F = 3,84) Nếu tiêu thức nguyên

Trang 37

nhân đầu tiên được xem xét để đưa vào mô hình hồi quy thỏa mãn tiêuchuẩn vào thì phương pháp đưa vào dần sẽ tiếp tục, nếu không, không có

tiêu thức nguyên nhân nào được đưa vào mô hình hồi quy Theo phươngphap này, có kết quả sau:

Model Summary

Model R R Square Adjusted R Std Error of the

Square Estimate1 7898 622 575 57202a Predictors: (Constant), X4

ANOVA?

Model Sum of Squares df Mean Square F Sig.

Regression 4.315 1 4.315 13.188 007°1 Residual 2.618 8 327

Total 6.933 9

a Dependent Variable: Yb Predictors: (Constant), X4

Coefficients?

Model Unstandardized Coefficients Standardized t Sig.

CoefficientsB Std Error Beta4 (Constant) 25.588 6.175 4.144 003

X4 -1.090 300 -.789 -3.632 007a Dependent Variable: Y

Bảng 2.9: Kết quả hồi quy của phương pháp forward

Như vậy,phương pháp này chỉ có một mô hình:

Biến giải thích đầu tiên được chọn để đưa vào mô hình hồi quy giống nhưphương pháp đưa dần vào, nếu có không thỏa mãn tiêu chuẩn vào thì thủ

tục này sẽ chấm dứt và không có biến giải thích nào được lựa chọn Nếu nó

thỏa mãn tiêu chuẩn vào thì biến giải thích thứ hai được lựa chọn dựa vào

hệ số tương quan riêng phần lớn nhất (về trị tuyệt đối) Nếu biến giải thích

Trang 38

này thỏa mãn tiêu chuẩn vào thì nó cũng sẽ đi vào mô hình hồi quy.Sau đó, dựa vào tiêu chuẩn ra để xem xét các biến giải thích ở bước thứ

nhất có phải loại bỏ khỏi mô hình hồi quy hay không Trong bước kế tiếp,

các biến giải thích không ở trong mô hình hồi quy được xem xét và để đưa

vào Sau mỗi bước, các biến giải thích ở trong mỗi mô hình hồi quy được

xem xét để loại trừ ra cho đến khi không còn biến giải thích nào thỏa mãntiêu chuẩn ra thì kết thúc

Ta được kết quả tương tự như phương pháp dua dần vào, tức là:

Model Summary

Model R R Square Adjusted R Std Error of the

Square Estimate1 7893 622 575 57202a Predictors: (Constant), X4

ANOVA?

Model Sum of Squares df Mean Square F Sig.

Regression 4.315 1 4.315 13.188 007°1 Residual 2.618 8 327

Total 6.933 9

a Dependent Variable: Yb Predictors: (Constant), X4

Coefficients?

Model Unstandardized Coefficients Standardized t Sig.

CoefficientsB Std Error Beta

(Constant) 25.588 6.175 4.144 003

X4 -1.090 300 -.789 -3.632 007a Dependent Variable: Y

Bảng 2.10: Kết quả hồi quy của phương pháp stepwise

Trang 39

mô hình Điều đó làm cho mô hình hồi quy phản ánh không chính xác mối

liên hệ Để khắc phục hiện tượng đa cộng tuyến, tùy theo yêu cầu nghiêncứu cụ thể mà lựa chọn mô hình thứ hai hoặc thứ ba của phương pháp loại

trừ dần; hoặc các mô hình của phương pháp đưa dần vào (Forward), hoặc

của phương pháp chọn từng bước (Stepwise)

Trong chương tiếp theo luận văn sẽ trình bày một phương pháp hồi quy

khác là phương pháp hồi quy thành phần chính để khắc phục hiện tượng

đa cộng tuyến mà không cần loại bỏ các biến giải thích ra khỏi mô hình

Trang 40

Chương 3

Hồi quy thành phần chính

3.1 Giới thiệuHồi quy thành phần chính (Principal components regression - PCR) là phươngphấp mở rộng phương trình hồi qui sử dụng phân tích đa biến áp dụng cho tập

số liệu có rất nhiều biến PCR cũng là một giải pháp tốt để khắc phục hiện

tượng đa cộng tuyến giữa các biến độc lập Phương pháp hồi quy PCR cho kết

quả tốt hơn rất nhiều so với phương pháp hồi quy bình phương tối tiểu thông

thường (OLS) PCR được công bố bởi Draper va Smith 1981, Myers 1986 [5]

PCR gồm 2 quá trình: Phân tích thành phần chính (PCA) chuyển tap dữ liệu

ban đầu thành tập dữ liệu mới, chứa một số ít các yêu tố quan trọng, cần thiết

Sau đó sử dụng phương pháp OLS để phân tích tập dữ liệu mới này [5]3.2 Phân tích thành phần chính

3.2.1 Giới thiệu

Trong thống kê, thông thường cần phải “nghiên cứu” dữ liệu trước khi xây

dựng các mô hình suy diễn dựa trên dữ liệu đó Tuy nhiên đôi khi dữ liệu có

so chiều lớn cần phải tim cách đưa dit liệu về không gian có số chiều nhỏ hơn.Phân tích thành phần chính (Principal component analysis - PCA) là một trongnhững phương pháp như thế [6] PCA có nhiều đặc tính ưu việt:

e Giúp giảm số chiều của dit liệu

e Thay vì giữ lại các trục toa độ của không gian cũ, PCA xây dựng một khônggian mới ít chiều hơn, nhưng lại có khả năng biểu diễn dữ liệu tốt tươngđương không gian cũ.

Ngày đăng: 24/09/2024, 04:44

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w