MÔ HÌNH hồi QUY TUYẾN TÍNH

38 1.2K 3
MÔ HÌNH hồi QUY TUYẾN TÍNH

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Chương MƠ HÌNH HỒI QUY TUYẾN TÍNH § 5.1 MƠ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN 5.1.1 Vấn đề mơ hình hồi quy Nhiều tốn khoa học kỹ thuật đòi hỏi khảo sát quan hệ hai nhiều biến Lấy làm ví dụ, xét số liệu Bảng 5.1, y thị độ oxy sinh trình chưng cất hóa học, cịn x nồng độ phần trăm hydrocarbon có mặt bình ngưng phận chưng cất Bảng 5.1 Độ oxy ứng với tỷ lệ phần trăm hydrocarbon TT x(%) 0.99 1.02 1.15 1.29 1.46 1.36 0.87 y(%) 90.01 89.05 91.43 93.74 96.73 94.45 87.59 TT 10 11 12 13 14 x(%) 1.23 1.55 1.4 1.19 1.15 0.98 1.01 y(%) 91.77 99.42 93.65 93.54 92.52 90.56 89.54 TT 15 16 17 18 19 20 21 x(%) 1.11 1.2 1.26 1.32 1.43 0.95 1.32 y(%) 89.85 90.39 93.25 93.41 94.98 87.33 94.01 Khi thể điểm (x i , yi ) lên đồ thị, ta nhận đồ thị rải điểm Hình 5.1 Ta nhận thấy, khơng có đường cong đơn giản qua điểm này, song khẳng định rằng, điểm dường nằm phân tán quanh đường cong với phương trình y  f (x) Vậy giả thiết giá trị trung bình Y – biến thị độ nồng độ phần trăm X hydrocarbon mức x thỏa mãn quan hệ E(Y | x)  f (x) (5.1.1) Để tổng quát hóa, nên dùng mơ hình xác suất cách coi Y BNN mà ứng với giá trị x biến X 209 Y  f (x)   (5.1.2) với  sai lầm ngẫu nhiên Trước hết xét trường hợp đơn giản nhất, hay xảy thực tế, f (x)  ax  b Khi (5.1.2) trở thành (5.1.3) Y  ax  b   100 95 90 85 1.0 1.2 1.4 1.6 Hình 5.1 Đồ thị rải điểm, đường hồi quy cho số liệu độ oxy Mơ hình (5.1.3) gọi mơ hình hồi quy (MHHQ) tuyến tính đơn; x gọi biến hồi quy (hay biến độc lập, biến giải thích), Y gọi biến phản hồi (hay biến phụ thuộc, biến giải thích); a, b gọi tham số hồi quy, a: hệ số chặn, b: hệ số góc; đường thẳng y  ax  b gọi đường hồi quy (lý thuyết) Mơ hình gọi tuyến tính tuyến tính với tham số a, b (a, b có lũy thừa 1); gọi đơn có biến hồi quy Ở §5.2 xét mơ hình hồi quy bội với biến hồi quy Người ta xét mơ hình hồi quy phi tuyến, hàm hồi quy hàm phi tuyến tham số (xem [1], [9]) Giả sử quan sát thứ i biến X nhận giá trị x i , biến Y nhận giá trị yi sai lầm ngẫu nhiên  i Như vậy, dạng quan sát, mơ hình (5.1.3) trở thành 210  y1  a  bx1  1    y  a  bx   n n  n (5.1.4) Lưu ý yi BNN Để khảo sát mơ hình phải tiến hành thí nghiệm, phép đo đạc hay phép quan sát, gọi chung quan sát, để có số liệu {(x i , y i )} Thông qua số liệu này, người ta đưa xấp xỉ (ước lượng) tốt cho tham số Mơ hình với hệ số ước lượng gọi mơ hình thực nghiệm (empirical model) hay mơ hình lọc (filted model) Dùng mơ hình thực nghiệm tiến hành số dự đốn, tính giá trị cực trị khía cạnh vấn đề điều khiển 5.1.2 Ước lượng hệ số hồi quy Bây giả sử BNN y1 , , y n nhận giá trị cụ thể đó, ký hiệu y1 , , y n Khi  i  yi  (ax i  b) (5.1.5) thể độ lệch quan sát thứ i so với đường hồi quy lý thuyết (xem Hình 5.2) Tổng bình phương độ lệch n n i 1 i 1  ei2   (yi  (a  bxi ))2 thể “chất lượng” việc xấp xỉ số liệu đường hồi quy lý thuyết Ta biết đường hồi quy lý thuyết, việc ta làm tìm hệ số a, b để n  (a, b)   (yi  (a  bx i ))  (5.1.6) i1 Vì  (a, b) đa thức bậc ẩn a, b; điều kiện cần để đạt cực tiểu     a b (5.1.7) 211 Độ lệch Đường hồi quy thực nghiệm Đường hồi quy lý thuyết Hình 5.2 Độ lệch đường hồi quy lý thuyết, thực nghiệm Thực chứng minh điều kiện đủ Đây hệ phương trình tuyến tính bậc a, b khơng khó khăn ta tính nghiệm hệ là:  ˆ xy  x y b  SXX / n   ˆ ˆ a  y  b x (5.1.8) x n n n n  x i ; y  n  yi ; xy  n  x i yi ; SXX   (xi  x)2 (5.1.9) n i1 i 1 i 1 i 1 Với ƯL ta phương trình hồi quy thực nghiệm ˆ ˆ y  ax  b (5.1.10) Phương pháp tìm Ư L hệ số gọi phương pháp bình phương cực tiểu Các phương trình (5.1.5) - (5.1.10) áp dụng với giá trị cụ thể BNN y1 , , y n nên chúng cho BNN Dưới đây, áp dụng phương trình không sợ lầm lẫn, ta không phân biệt BNN y1 , , y n với giá trị cụ thể chúng 212 5.1.3 Tính chất ước lượng hệ số hồi quy ˆ ˆ Từ (5.8) ta có y  a  bx Như vậy, đường hồi quy qua điểm “trung tâm” (x, y) số liệu Lưu ý rằng, ƯL hệ số (5.1.8) hồn tồn khơng cần giả thiết thành phần ngẫu nhiên i Để có tính chất tốt ƯL, cần có giả thiết đặt lên thành phần ngẫu nhiên Giả thiết dễ chấp nhận chúng có kỳ vọng khơng, phương sai  , độc lập; giả thiết tiếp sau chúng có phân bố chuẩn: 1 , ,  n độc lập, phân bố chuẩn N(0;  ) (5.1.11) Khi ƯL hệ số có tính chất thống kê tốt thể định lý sau Định lý 5.1 Khi điều kiện (5.1.11) thỏa mãn thì: ˆ ˆ i) a b ƯL không chệch tham số a b: ˆ E[a]  a; ˆ E[b]  b (5.1.12) ˆ ˆ ii) Phương sai ƯL a b tính sau  (x)  ˆ   V[a]     a  n S ,  XX   ˆ   V[b]  b 2 SXX (5.1.13) iii) ƯL không chệch phương sai chung  mơ hình cho ˆ 2  n n ˆ  ei  n   (yi  yi ) n  i 1 i 1 (5.1.14) với ˆ ˆ ˆ yi  a  bx i : dự báo quan sát thứ i ˆ e i  yi  yi : phần dư thứ i 213 ˆ ˆ Ý tưởng chứng minh phần i) dựa vào chỗ a b tổ hợp tuyến tính BNN chuẩn nên chúng BNN chuẩn, thực phép lấy kỳ vọng Chứng minh phần ii) iii) dựa vào Định lý 3.20, 3.21 phép toán ma trận Tuy nhiên trình bày chúng dài nên khơng viết đây; độc giả quan tâm xem [1], [9] Vì  cơng thức (5.1.13) chưa biết, ta phải dùng xấp xỉ ˆ  Chúng ta đưa định nghĩa Định nghĩa Đối với mơ hình HQTT đơn, sai số chuẩn hóa (thực nghiệm) hệ số góc hệ số chặn xác định ˆ se(b)  ˆ 2 ; SXX  x2  ˆ ˆ se(a)  2     n SXX    (5.1.15) ˆ đó,  tính theo (5.1.14) 5.1.4 Kiểm định giả thuyết Một khâu quan trọng để kiểm tra tính phù hợp MHHQ ˆ ˆ ˆ kiểm định giả thuyết Các hệ số a, b,  BNN nên làm số kiểm định chúng Ta nhớ điều kiện (5.1.11) phải thỏa mãn Các đối thuyết đưa phía Độc giả đưa đối thuyết phía với điều chỉnh thích hợp ngưỡng phê phán a) Sử dụng kiểm định T Hệ số góc tham số quan trọng MHHQ tuyến tính đơn Xét tốn kiểm định giả thuyết hai phía: H : b  b0 / H1 : b  b (5.1.16) Ở đây, b giá trị cho trước Từ giả thiết (5.1.11), yi ˆ BNN độc lập yi  N(a  bx i ;  ) b tổ hợp tuyến tính ˆ BNN y nên có phân bố chuẩn Theo Định lý 5.1, b có phân i bố chuẩn N(b; 2 / SXX ) Ngoài ra, chứng minh Định 214 ˆ lý trên, (n  2) / 2 có phân bố bình phương với n - bậc tự ˆ độc lập với b Theo Định lý 3.21, giả thuyết H Tb  ˆ b  b0 ˆ 2 / SXX  T(n  2) (5.1.17) Như vậy, bác bỏ H0 (ở mức ý nghĩa  ) Tb  ˆ b  b0 ˆ se(b)  ˆ b  b0 ˆ  / SXX  t  (n  2) (5.1.18) Trường hợp đặc biệt quan trọng b0  : H : b  / H1 : b  (5.1.19) Điều liên quan đến ý nghĩa (hay tác dụng) hồi quy (significance of regression): Nếu không bác bỏ H (coi b  0) có nghĩa khơng có quan hệ tuyến tính X Y (có thể quan hệ thực X Y quan hệ phi tuyến), thay đổi biến X không kéo theo thay đổi dự đốn biến Y, X khơng có (hoặc ít) tác dụng để dự đoán Y; dự đoán cho Y tốt nên dùng Y Tương tự, giả thuyết liên quan đến hệ số chặn H : a  a / H1 : a  a (5.1.20) ˆ a  a0 (5.1.21) Bởi Ta   T(n  2) 1 x  ˆ      n SXX  nên giả thuyết bị bác bỏ mức  Ta  ˆ a  a0  ˆ se(a) ˆ a  a0 x2  ˆ      n SXX    1  t  (n  2) (5.1.22) 215 b) Phân tích phương sai Phương pháp phân tích phương sai dùng để kiểm định tính hiệu việc lập mơ hình Trước hết, từ chỗ ˆ ˆ yi  y  (yi  y)  (yi  yi ) , bình phương hai vế lấy tổng ta được: n n n i 1 i1 i 1 ˆ ˆ  (yi  y)2   (yi  y)2   (yi  yi )2 (5.1.23) Chúng ta xác định đại lượng sau đây: n Tổng bình phương đầy đủ: SST  SYY   (yi  y) , i 1 n ˆ Tổng bình phương hồi quy: SSR   (yi  y)2 , i1 Tổng bình phương phần dư (các sai số): n ˆ SSE   (yi  yi ) (5.1.24) i 1 Biểu thức (5.1.23) viết lại dạng: SST  SSR  SSE (5.1.23’) Có thể chứng minh rằng, SSR / [  b2SXX ] SSE / 2 BNN độc lập, có phân bố bình phương với n - bậc tự tương ứng Như vậy, giả thuyết H : b  F0  SSR / MSR  SSE / (n  2) MSE (5.1.25) có phân bố F(1, n  2) ) (xem Định lý 3.23) Các đại lượng MSR , MSE gọi chung bình phương trung bình Nói chung, bình phương trung bình tính cách lấy tổng bình phương chia cho bậc tự Chúng ta bác bỏ H0 F0  f  (1; n  2) 216 Trong phần mềm thống kê, thủ tục kiểm định trình bày bảng phân tích phương sai giống Bảng 5.2 Bảng 5.2 Phân tích phương sai để kiểm định tính hiệu hồi quy Nguồn Tổng bình phương Hồi quy Sai số Đầy đủ Bậc tự SSR SSE SST n-2 n-1 Bình phương trung bình MSR MSE F0 MSR MSE Pgiá trị P Nếu P-giá trị lớn mức ý nghĩa chọn trước, phải chấp nhận giả thuyết b  , tức việc xây dựng mơ hình khơng có tác dụng Cần phải tìm mơ hình khác, lấy thêm số liệu… Lưu ý Chứng minh được, thủ tục phân tích phương sai thủ tục kiểm định T cho tốn kiểm định giả thuyết phía (5.1.16) tương đương theo nghĩa chấp nhận giả thuyết hay bác bỏ giả thuyết đồng thời với thủ tục Tuy nhiên, kiểm định T linh động hơn, xét kiểm định phía, phân tích phương sai xét phía Mặt khác, phân tích phương sai tổng qt sang trường hợp hồi quy bội xét đến §5.2 5.1.5 Khoảng tin cậy a) Khoảng tin cậy tham số Bởi thống kê Ta , Tb (5.1.22), (5.1.17) có phân bố T(n –2) nên dễ dàng xây dựng khoảng tin cậy cho chúng Với giả thiết chuẩn (5.1.11), khoảng tin cậy 100(1  )% cho hệ số chặn a hệ số góc b     a  t  /2 (n  2)    x   , ˆ ˆ   n SXX       ˆ2 ˆ  b  t  /2 (n  2)   SXX      (5.1.26) 217 b) Khoảng tin cậy cho đáp ứng trung bình Vì y0  E[Y | x ]  a  bx nên ƯL điểm cho giá trị ˆ ˆ ˆ ˆ ˆ y  a  bx Đây ƯL khơng chệch a b ƯL không chệch  (x  x)  ˆ ˆ a b Phương sai a  bx     Tuy SXX  n   ˆ nhiên, nói chung khơng biết  mà phải dùng ƯL  ˆ y0  y0 Dễ thấy  T(n  2) Từ ta có:  x2  ˆ 2     n SXX    Khoảng tin cậy 100(1  )% cho đáp ứng trung bình x  x ˆ (y  ) ,  2    t  /2 (n  2)    (x  x)  , ˆ  SXX   n    ˆ ˆ  y  a  bx ˆ (5.1.27) c) Dự đoán quan sát tương lai Một ứng dụng quan trọng phân tích hồi quy dự đốn quan sát (cá biệt) biến Y tương lai mức x cho trước biến hồi quy, ký hiệu Y | x hay đơn giản Y0 ƯL điểm cho giá trị quan sát tương lai BNN giá trị trung bình nó, y0  a  bx Các tham số a, b lại chưa biết, ta phải dùng ƯL chúng Vậy, ƯL điểm cho Y0 ˆ ˆ ˆ y0  a  bx (5.1.28) Chú ý BNN Y0 quan sát tương lai, độc lập với quan sát khứ y1, , y n Cùng với giả thiết độc lập, phân ˆ bố chuẩn sai số, sai số dự đoán e0  Y0  y có phân bố chuẩn quy tâm, phương sai 218 b4 Hồi quy có chứa sin, cos Giả sử biến phụ thuộc có dạng Y(t)  a  bt  c sin t  d cos t   Bằng cách đặt x1  t; x  sin t; x  cos t , ta đưa mô hình dạng tuyến tính thơng thường 5.2.2 Ước lượng hệ số hồi quy tính chất ƯL Giả thiết cần có ma trận X có số hàng số cột, p  k   n , hạng số cột: Rank(X)  p (5.2.8) Khi đó, ƯL làm cực tiểu tổng bình phương sai số n L()     ( y - Xβ)T ( Y - Xβ) i i 1  gọi ƯL bình phương cực tiểu, ký biệu  , cho bởi:    ( X T X )1 X T y (5.2.9) Giống (5.1.14), ƯL cho sai số chung mơ hình ˆ 2  với n n ˆ  ei   (yi  yi )2 n  p i 1 n  p i 1 (5.2.10) ˆ ˆ ˆ ˆ y i  0  1x i1   k x ik : dự báo quan sát thứ i ˆ ei  y i  y i : phần dư thứ i Nhận thấy vế phải (5.2.10) có chứa mẫu số n  p Vậy, số biến hồi quy p tăng lên, (chẳng hạn với hồi quy đa thức, số bậc đa thức tăng) sai số mơ hình tăng lên Ta có mơ hình cực tồi p  n Để nghiên cứu tính chất ƯL tham số, giống với trường hợp có biến hồi quy, cần có giả thiết: 1, ,  n độc lập, phân bố chuẩn N(0;  ) (5.2.11) 232 Định lý 5.2 Với giả thiết (5.2.8), (5.2.11) thì:  i)  ƯL không chệch véc tơ tham số  : ˆ E[]    ii) Ma trận covarian  cho bởi:  Cov()  ( XT X)1 2 ˆ iii)  theo (5.2.10) ƯL không chệch  : ˆ E[2 ]  2 5.2.3 Kiểm định giả thuyết a) Kiểm định ý nghĩa hồi quy Đó kiểm tra xem có quan hệ tuyến tính biến phản hồi Y với tập biến hồi quy x1, , x k hay khơng Cụ thể xét tốn kiểm định: H : 1  2   n  / H1 :  j  với j {1, , k} Nếu H bị bác bỏ có nghĩa biến hồi quy x1, , x k có ý nghĩa mơ hình Dưới giả thuyết H chứng minh tổng bình phương hồi quy tổng bình phương sai số theo (5.1.24) BNN độc lập có bậc tự tương ứng k n  p Thế (xem Định lý 3.23) F0  SSR / k MSR   F(k; n  p) SSE / (n  p) MSE (5.2.12) Từ giả thuyết bị bác bỏ mức  F0  f (k; n  p) Các phần mềm thường dùng P–giá trị đưa bảng phân tích phương sai cho thủ tục vừa nêu Người ta xét kiểm định cho tập hệ số 0 , 1, , k Chi tiết xem [1], [9] 233 b) Hệ số xác định bội R hệ số xác định hiệu chỉnh Radj Với mơ hình hồi quy nhiều biến định nghĩa hệ số xác định bội R tính chất với trường hợp hồi quy đơn: SS SS R2  R   E SS T SS T Tính chất đặc biệt hệ số xác định khơng giảm tăng số biến hồi quy Từ đó, hệ số xác định khó nói cho ta biết việc tăng biến có lợi hay khơng, gia tăng hệ số xác định nhỏ Vì nhiều nhà phân tích lại thích dùng hệ số xác định hiệu chỉnh (adjusted R ): R2   adj SS E / (n  p) SS T / (n  1) (5.2.13) Mẫu vế phải số, tử ước lượng sai số; bé hệ số xác định hiệu chỉnh R lớn Từ đó, adj quy tắc lựa chọn biến hồi quy là: Chọn số biến hồi quy x1 , , x k để R lớn adj c) Kiểm định tham số triệt tiêu (kiểm định T) Xét toán kiểm định tham số đơn lẻ triệt tiêu: H :  j  / H1 :  j  ( j  0,1, , k) Nếu giả thuyết khơng bị bác bỏ có nghĩa biến hồi quy tương ứng không bị loại khỏi mô hình Thống kê kiểm định Tj  ˆ ˆ j j  ˆ se( j ) ˆ 2 C jj (5.2.14) C jj phần tử thứ j đường chéo ma trận ˆ C  ( XX)1 ứng với  j Vì Tj  T(n  p) nên giả thuyết bị bác bỏ Tj  t  /2 (n  p) 234 5.2.4 Ước lượng dự đoán a) Khoảng tin cậy cho tham số đơn lẻ Khoảng tin cậy 100(1  )% cho tham số  j cho ˆ ˆ  j  t  /2 (n  p)se( j ), ˆ ˆ (se( j )  2C jj ) (5.2.15) b) Khoảng tin cậy cho đáp ứng trung bình Giả sử quan sát tương lai thực mức x 01, , x 0k biến hồi quy x1, , x k Đặt x  (1, x 01, , x 0k )T Đáp ứng trung T bình điểm E[Y | x ]  x   0  1x 01   k x 0k , ƯL điểm Tˆ ˆ ˆ ˆ ˆ y  x   0  1x 01    k x 0k Đối với MHHQ tuyến tính bội, khoảng tin cậy 100(1  )% cho đáp ứng trung bình điểm x 01, , x 0k ˆ ˆ T y  t  /2 (n  p) 2 x ( X T X)1 x (5.2.16) c) Dự đoán cho quan sát ƯL điểm dự đoán cho quan sát tương lai mức x 01, , x 0k biến độc lập T ˆ y = x   0  1x 01   k x 0k Khoảng dự đoán 100(1  )% cho quan sát tương lai T ˆ ˆ y0  t  /2 (n  p)  (1  x ( XT X) 1 x ) (5.2.17) d) Vấn đề ngoại suy với mơ hình hồi quy bội Vẫn có ý tương tự với hồi quy đơn, song vấn đề cần thận trọng Chẳng hạn, với mơ hình có hai biến hồi quy x, y miền biến thiên biến hồi quy Hình 5.7 phải hiểu elip khơng phải hình chữ nhật ABCD Tình hình khó khăn số biến hồi quy tăng lên 235 A B C D Hình 5.7 Miền biến thiên biến hồi quy 5.2.5 Phân tích phần dư Với mơ hình bội, người ta tiến hành lập đồ thị phần dư ˆ chuẩn hóa d i  ei /  với mơ hình đơn Nếu có khơng q 95% giá trị di nằm dải (-2; 2) phần dư có dáng điệu tương đối đặn quanh trục hồnh Hình 5.5a chấp nhận mơ hình Trái lại, phải tiến hành phân tích lại Người ta kiểm tra tính chuẩn phần dư tổ chức đồ hay đồ thị P-P chuẩn mục 4.7.1 Tuy nhiên, có hai điểm khác biệt Thứ nhất, lập đồ thị phần dư chuẩn hóa theo thời gian (theo số i), theo chiều tăng ˆ vài biến hồi quy x i đó, theo chiều tăng dự báo y i , xét mơ hình với nhóm biến hồi quy, người ta lập đồ thị phần dư theo biến hồi quy chưa tham gia vào mơ hình Nếu phát đồ thị phần dư chuẩn hóa theo biến khơng đạt u cầu có nhiều khả biến hồi quy cần phải tham gia vào mơ hình Thứ hai, thay cho đồ thị phần dư chuẩn hóa d i , người ta thấy đồ thị phần dư điều chỉnh ri (cịn gọi phần dư student hóa – (studentized residual)) ưu việt hơn, ei ri  , (5.2.18) ˆ (1  h ii )  với h ii phần tử chéo thứ i ma trận H  X(X T X) 1 XT 236 (Lưu ý  h ii   d i  ri ) 5.2.6 Sử dụng phần mềm Các phần mềm thống kê ngày cho phép phân tích mơ hình với số biến hồi quy lên đến hàng ngàn số quan sát lên đến hàng chục vạn Chúng ta cần có kiến thức để tận dụng lợi phần mềm Mỗi phần mềm có mạnh nó, song chúng có phần phân tích hệ số phân tích phương sai Chúng ta tìm hiểu sơ qua vài ví dụ Ví dụ 5.3 ( Phân tích số liệu lực kéo) Chúng ta lấy lại ví dụ lực kéo Ví dụ 5.2 Giả sử nhập số liệu vào cửa sổ biên tập liệu Sau số thao tác Bảng 5.5 Kết xử lý với số liệu lực kéo dây dẫn TT Lực kéo Độ dài Độ cao Dự báo Phần dư 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 yi 9.95 24.45 31.75 35.00 25.02 16.86 14.38 9.60 24.35 27.50 17.08 37.00 41.95 11.66 21.65 17.89 69.00 10.30 34.93 46.59 44.88 54.12 56.63 22.13 21.15 x1 11 10 2 11 12 4 20 10 15 15 16 17 x2 50 110 120 550 295 200 375 52 100 300 412 400 500 360 205 400 600 585 540 250 290 510 590 100 400 ˆ yi 8.38 25.60 33.95 36.60 27.91 15.75 12.45 8.40 28.21 27.98 18.40 37.46 41.46 12.26 15.81 18.25 64.67 12.34 36.47 46.56 47.06 52.56 56.31 19.98 21.00 ei 1.57 -1.15 -2.20 -1.60 -2.89 1.11 1.93 1.20 -3.86 -.48 -1.32 -.46 49 -.60 5.84 -.36 4.33 -2.04 -1.54 03 -2.18 1.56 32 2.15 15 Phần dư chuẩn hóa d i 687 -.501 -.963 -.698 -1.265 487 843 523 -1.689 -.208 -.578 -.202 215 -.263 2.553 -.158 1.894 -.890 -.674 013 -.953 681 141 939 067 237 Chọn chương trình phân tích: Analyze / regression / linear Chọn biến: Từ danh sách biến, đẩy biến y sang ô biến phụ thuộc (Dependent), đẩy hai biến x1, x2 sang ô biến độc lập (Independent(s)) Phương pháp lọc mơ hình: Trong phương pháp (Method) ta chọn enter Phần mềm lọc mơ hình có tất biến Tìm ƯL cho tham số khoảng tin cậy chúng: Statistics / chọn Estimates Confidence intervals / Continue Lập đồ thị phần dư chuẩn theo y i : Plots / Đẩy biến phụ thuộc (DEPENDENT) sang X, đẩy biến phần dư chuẩn hóa (ZRESID) sang Y; muốn có đồ thị xác suất chuẩn chọn thêm Normal probability plot / Continue ˆ Lưu dự báo y i , phần dư ei , phần dư chuẩn hóa di vào danh sách biến: Save/ mục giá trị dự báo (Predicted Values) chọn Unstandardized, mục phần dư (Residuals) chọn Unstandardized Standardized / Continue Chạy chương trình: OK Chi tiết phần mềm SPSS xem [4] Với thao tác trên, dự báo cho lực kéo, phần dư, phần dư chuẩn ghi cột 5,6,7 Bảng 5.5 Các bảng tóm tắt, phân tích phương sai, phân tích hệ số cho Bảng 5.6 Bảng 5.6 Tóm tắt, phân tích phương sai phân tích hệ số cho Ví dụ 5.3 R 991 Regression Residual Total Constant X1 X2 238 R Square 981 Adjusted R Square 979 Sum of Squares 5990.771 115.173 6105.945 Unstandardized Coefficients B Std Error 2.264 1.060 2.744 094 013 003 df 22 24 t 2.136 29.343 4.477 Std Error of the Estimate 2.28805 Mean Square 2995.386 5.235 Sig .044 000 000 F 572.167 Sig .000 95% Confidence Interval for B Lower Bound 065 2.550 007 Upper Bound 4.462 2.938 018 Ta thấy hệ số xác định R  0, 981 , có 98,1% số liệu giải thích mơ hình; tỷ lệ lớn ƯL cho phương sai ˆ chung mơ hình 2  2, 28812 Mức ý nghĩa thống kê F 0,000, nhỏ so với 0,01: Mơ hình có tác dụng tốt để giải thích số liệu Tất mức ý nghĩa thổng kê T tham số nhỏ 0,05 ( giá trị cực đại 0,044 ứng với biến số) Hậu khoảng tin cậy tất hệ số không chứa gốc tọa độ Như vậy, kiểm định T không bác bỏ mơ hình Mơ hình dự tuyển Y  2, 264  2, 744x1  0, 013x2   (*) 1.00 50 0 15 30 45 60 75 -1 -2 0.00 0.00 50 1.00 Hình 5.8 Đồ thị xác suất chuẩn phần dư chuẩn hóa số liệu lực kéo Đồ thị xác suất chuẩn đồ thị phần dư chuẩn thể Hình 5.8 Mặc dầu khơng phải sát, song sai lệch đồ thị xác suất chuẩn với đường thẳng y  x chấp nhận Đồ thị phần dư chuẩn hóa bố trí dặn, đối xứng dài [-2; 2] Tuy nhiên quan sát (thứ 15) có trị tuyệt đối phần dư chuẩn vượt Dù sao, tỷ lệ 1/ 25 nhỏ 5% chấp nhận Tóm lại, kiểm định khơng bác bỏ mơ hình (*) Như vậy, với số liệu lực kéo ta có tới mơ hình chấp nhận: mơ hình (5.1.32) Ví dụ 5.2 mơ hình (*) vừa nêu Do sử dụng nhiều biến hơn, hệ số xác định mơ hình (*) lớn Vả lại, mơ hình (*) khơng phải q phức tạp, chọn làm mơ hình cuối # 239 § 5.3 LỰA CHỌN BIẾN VÀ XÂY DỰNG MƠ HÌNH 5.3.1 Lựa chọn biến Vấn đề quan trọng ứng dụng phân tích hồi quy lựa chọn tập hợp biến hồi quy để xây dựng mơ hình Đơi kinh nghiệm hay hiểu biết mặt lý thuyết giúp nhà phân tích định tập biến hồi quy sử dụng tình cụ thể Nhiều vấn đề lại chỗ, người ta biết rõ biến quan trọng, lại khơng có phải tất biến dự tuyển cần thiết cho mô hình thỏa đáng hay khơng Như xuất vấn đề lựa chọn biến hồi quy: Lựa chọn biến dự tuyển tập biến “tốt nhất” theo nghĩa sau + Khả ứng dụng: Chọn đủ biến hồi quy để việc sử dụng đa dạng mơ hình (dự đốn, ước lượng…) cho kết thỏa đáng + Tính kiệm: Để mơ hình với giá thấp chấp nhận dễ sử dụng, người ta muốn mơ hình biến hồi quy Tuy nhiên, chẳng có mơ hình “tốt nhất” theo nghĩa đáp ứng đồng thời nhiều tiêu chuẩn Những đánh giá, kinh nghiệm từ xử lý hệ thống xem xét thường trợ lực cần thiết cho việc lựa chọn tập biến hồi quy Khơng có thuật tốn ln ln đưa lời giải tốt cho vấn đề lựa chọn biến Mặc dầu người ta đưa nhiều thuật tốn lựa chọn, song chúng để ý đến khía cạnh kỹ thuật, cần có liên kết chặt chẽ với nhà phân tích Chúng ta mơ tả ngắn gọn số kỹ thuật thông dụng với vấn đề chọn biến Giả sử có K biến dự tuyển x1, , x K biến phản hồi y Tất mơ hình có hệ số chặn  , mơ hình có thảy K  số hạng Chúng ta giả sử dạng hàm biến dự tuyển (chẳng hạn x1  / x, x  ln x ) a) Thủ tục cân nhắc tất Toàn mơ hình xem xét Ta cần so sánh 2K mơ hình hồi quy Mặc dầu việc phân tích mơ hình khơng vấn đề với phần mềm ngày nay, song 240 K tương đối lớn, số phương trình cần cân nhắc tăng lên nhanh chóng (với K  10, K  1024 ) b) Dựa vào R Radj Người ta xuất phát từ mô hình có biến đến mơ hình có nhiều biến Nếu gia tăng R2 khơng đáng kể dừng lại lựa chọn mơ hình tương ứng Tiêu chuẩn dựa vào R thường tốt Chọn mô hình có adj R cực đại gần cực đại (nếu muốn số biến hồi quy nhỏ) adj ˆ c) Tiêu chuẩn PRESS Gọi y (i) dự đoán quan sát thứ i dựa vào mơ hình có n - quan sát cịn lại Đặt n n  e  ˆ PRESS   (yi  y (i) )    i  i 1 i 1   h ii  ˆ ei  yi  yi phần dư thơng thường Mơ hình có PRESS nhỏ mơ hình đề nghị d) Thủ tục cân nhắc bước (stepwise procedure) Sau dùng ký hiệu fin (tương ứng faut ) để giá trị cụ thể thống kê F riêng phần sau bỏ (tương ứng thêm vào) biến hồi quy khỏi mơ hình Đầu tiên chọn mơ hình biến hồi quy mà có hệ số tương quan cao với biến phản hồi Y Đây biến có thống kê f lớn Chẳng hạn chọn biến x1 bước thứ Giả sử bước lựa chọn m biến, chẳng hạn x1 , , x m Ở bước tiếp theo, xét mơ hình với m biến lựa chọn x1 , , x m biến biến lại Nếu thống kê f riêng phần tăng lên, quay lại xét xem bỏ m biến x1 , , x m thống kê f riêng phần có tiếp tục tăng lên hay khơng Như ta tăng thêm tăng thêm bỏ biến fin  faut Thủ tục dừng lại đến khơng có biến thêm vào bỏ 241 e) Thủ tục tiến (forward procedure) Tại bước đưa thêm vào tập biến lựa chọn biến lại biến làm tăng thống kê F riêng phần nhiều Nếu khơng có biến dừng trình lựa chọn biến Như vậy, khác với thủ tục cân nhắc bước, thủ tục tiến công nhận biến lựa chọn bước trước “tốt” Thực ra, có biến thêm vào tập chọn, biến cũ trở nên tồi cần phải loại bỏ thủ tục cân nhắc bước; thủ tục cân nhắc bước ưu việt Tuy nhiên, nhiều ví dụ rằng, hai thủ tục vừa nêu cho tập chọn biến hồi quy f) Thủ tục lùi (backward procedure) Thủ tục bắt đầu với toàn K biến hồi quy Biến hồi quy với thống kê f riêng phần nhỏ bị loại bỏ thống kê f riêng phần có ý nghĩa, tức f  f aut   Tiếp tục đến khơng có biến hồi quy bị loại g) Vài nhận xét lựa chọn mơ hình cuối Tiêu chuẩn chủ yếu để lựa chọn biến cân nhắc bước Có thể có vài mơ hình tốt Khi ta cân nhắc thêm tiêu chuẩn khác Nếu số biến hồi quy khơng lớn, dùng thủ tục cân nhắc tất Sau lựa chọn biến hồi quy, phải tiến hành kiểm tra thơng thường: phân tích phần dư, kiểm tra phù hợp …, xem xét mặt lý thuyết có thiết phải chứa tích chéo, thiết phải chứa biến hồi quy đó, dấu biến thiết phải dương (hay âm) … hay khơng 5.3.2 Những khía cạnh khác kiểm định mơ hình a) Đa cộng tuyến Chúng ta nhớ giả thiết (5.2.8) hạng ma trận kế hoạch X phải số tham số p Điều tương đương với det( X X)  Tuy nhiên điều xảy det( X X)  Nếu xảy det( XX)  có quan hệ tuyến tính mạnh cột ma trận X, tức có phụ thuộc tuyến tính mạnh biến hồi quy 1, x1, , x k Ta nói xảy tượng đa cộng tuyến (multicollinearity) Đa cộng tuyến gây hậu tai hại ƯL hệ số hồi quy phương sai, hiệp phương sai ƯL tham số trở nên lớn, tỷ số T ý nghĩa R 242 cao, dấu hệ số hồi quy sai… sai lầm sử dụng mơ hình nói chung Nhiều tài liệu nêu cách phát đa cộng tuyến cách khắc phục (xem [1], [9], …) b) Phương sai sai số thay đổi Cho đến giờ, trừ trường hợp tìm ƯL cho tham số, tất thủ tục phân tích dựa vào giả thiết (5.2.11) Tuy nhiên, giả thiết không thỏa mãn; đặc biệt, giả thiết phương sai  sai số bị vi phạm, ta nói xảy trường hợp phương sai sai số thay đổi Nếu ta sử dụng phương pháp xử lý thơng thường chứng minh ƯL thu chệch khơng hiệu Có thể phát phương sai sai số thay đổi đồ thị: Đồ thị phần dư chuẩn hóa theo biến (theo số i, theo biến hồi ˆ quy xi theo yi ) có dạng (b) (c) hay (d) Hình 5.5 Cũng dụng số tiêu chuẩn lượng tiêu chuẩn tương quan hạng Spearman, kiểm định Gleiser … Khắc phục tượng phương sai thay đổi chủ yếu dùng phương pháp bình phương tối thiểu trọng lượng, dùng phép biến đổi loga …(xem thêm [1], [9]) c) Có tương quan chuỗi sai số Xem [1], [9] Ví dụ 5.4 Một báo Tạp chí Dược học (Journal of Pharmaceuticals Sciences - 1991) đưa liệu độ hòa tan tỷ số mol quan sát chất tan nhiệt độ không đổi với tham số tan riêng phần phân tán, lưỡng cực liên kết hydro Hansen Số liệu Bảng 5.7, Y logarit âm độ hịa tan tỷ số mol, x1 độ hòa tan riêng phần khuyếch tán, x độ hòa tan riêng phần lưỡng cực, x độ hòa tan riêng phần liên kết hydro Trước hết lọc mơ hình đa thức bậc hai đầy đủ Y  b  b1x1  b x2  b 3x3  b12 x1x  b13x1x  b 23x2 x3 2  b11x1  b 22 x  b33x3   Các kết phân tích sau dựa vào phần mềm SPSS Hệ số xác định R  0.917 hệ số xác định hiệu chỉnh R  0,870 lớn, Adj sai số chung mơ hình   0, 069232 nhỏ, mức ý nghĩa 243 Bảng Số liệu độ tan TT Y x1 x2 x3 0.222 0.395 0.422 0.437 0.428 7.3 8.7 8.8 8.1 0 0.7 0.5 0.3 0.2 10 0.467 0.444 0.378 0.494 0.456 8.7 9.3 7.6 10 8.4 1.5 2.1 5.1 3.7 2.8 3.4 0.3 4.1 11 12 13 14 15 0.452 0.112 0.432 0.101 0.232 9.3 7.7 9.8 7.3 8.5 3.6 2.8 4.2 2.5 2 7.1 6.8 6.6 16 17 18 19 20 0.306 0.0923 0.116 0.0764 0.439 9.5 7.4 7.8 7.7 10.3 2.5 2.8 2.8 1.7 7.8 7.7 4.2 21 22 23 24 25 0.0944 0.117 0.0726 0.0412 0.251 7.8 7.1 7.7 7.4 7.3 3.3 3.9 4.3 8.5 6.6 9.5 10.9 5.2 26 0.00002 7.6 7.8 20.7 thống kê F 0,000 Vậy mơ hình giải thích tốt liệu Tuy nhiên, tất mức ý nghĩa (P-giá trị) hệ số lớn 0,05 (giá trị nhỏ 0,087 ứng với biến x , giá trị lớn 0,719 ứng với biến x x3 ) Hậu là, tất khoảng tin cậy 95% hệ số chứa gốc tọa độ (Xem Bảng 5.8) Ta phải tìm mơ hình khác Bây dùng thủ tục cân nhắc bước (stepwise prosedure) để lựa chọn biến Phần mềm dừng lại biến lựa chọn, x , x1 x (tất nhiên có biến số) Bảng 5.9 sau tóm tắt bết quả, phân tích phương sai, phân tích hệ số mơ hình lựa chọn 244 Nhận thấy hệ số xác định R  0,886 thua trường hợp có đầy đủ biến 0,917, song hệ số xác định hiệu chỉnh (quan trọng hơn) R  0,870 lại khơng thua trường hợp có Adj đầy đủ biến Sai số chuẩn hóa (  0, 0609 ) mức ý nghĩa thống kê F (  0, 000 ) xem với mơ hình Tuy nhiên, mơ hình sau, tất mức ý nghĩa thống kê T ứng với biến lựa chọn nhỏ 0,05 (cực đại 0,0320, tất khoảng tin cậy 95% không chứa gốc tọa độ Bảng Tóm tắt, phân tích phương sai phân tích hệ số cho mơ hình đầy đủ số liệu độ tan R 0.958 Regression Residual Total Constant X1 X2 X3 X1X2 X1X3 X2X3 X1B X2B X3B R Square 917 Sum of Squares 656 059 715 Unstandardized Coefficients Std B Error -1.769 1.287 421 294 222 131 -.128 070 -.020 012 009 008 003 007 -.019 017 -.007 012 001 001 Adjusted R Square 870 df 16 25 Std Error of the Estimate 060923263 Mean Square 073 004 F 19.628 Sig .000 95% Confidence Interval for B t Sig Lower Bound -1.375 1.430 1.701 -1.822 -1.651 1.201 366 -1.150 -.618 572 188 172 108 087 118 247 719 267 545 575 Upper Bound -4.498 -.203 -.055 -.277 -.045 -.007 -.012 -.055 -.033 -.002 959 1.044 500 021 006 025 017 016 018 004 Lưu ý Dùng thủ tục tiến (forward prosedure) cho kết trùng với kết từ thủ tục cân nhắc bước Nếu dùng thủ tục lùi (backward prosedure), khoảng tin cậy hệ số mơ hình cuối có chứa gốc tọa độ Nếu dùng thủ tục loại biến bước (remove prosedure) mơ hình cuối chứa biến số, dùng để dự báo Như vậy, qua khâu lựa chọn biến 245 Y  0,304  0, 083x1  0, 031x  0, 004x   (*) Bảng 5.9 Tóm tắt, phân tích phương sai, phân tích hệ số mơ hình cuối theo phương pháp cân nhắc bước số liệu độ tan R 0.941 R Square 886 Regression Residual Total Sum of Squares 633 082 715 B Constant X3 X1 X2B Adjusted R Square 870 -.304 -.031 083 004 Std Error 132 004 015 001 df 22 25 Std Error of the Estimate 060973528 Mean Square 211 004 t Sig -2.292 -7.156 5.564 3.205 032 000 000 004 F 56.778 Sig .000 95% Confidence Interval for B Lower Bound Lower Bound -.578 -.029 -.041 -.022 052 113 002 007 -1 -2 Hình 5.9 Phần dư chuẩn hóa theo quan sát số liệu độ tan Kiểm tra phần dư mơ hình Chẳng hạn theo số i ta thấy có giá trị phần dư chuẩn hóa (ứng với quan sát thứ thứ 10) vượt 2; vi phạm thứ hai d i nhỏ quan sát 11 – 24 Dù vi phạm không Phần dư chuẩn ˆ hoá xếp theo x1 , x hay y khơng có vi phạm đáng kể Chúng ta lựa chọn (*) làm mơ hình cuối # 246 ... # 5.1.7 Tuyến tính hóa số mơ hình Dùng phép biến đổi loga với biến hồi quy hay biến phản hồi, với hai, dùng phép nghịch đảo với biến hồi quy , ta đưa số mơ hình dạng tuyến tính Hồi quy logarith...  ln ) mơ hình tuyến tính thơng thường Người ta dùng phép biến đổi loga với biến hồi quy, với biến phản hồi lẫn biến hồi quy để mơ hình tuyến tính hóa (xem [1], [9],…) 231 b4 Hồi quy có chứa... Hình 5.1 Đồ thị rải điểm, đường hồi quy cho số liệu độ oxy Mơ hình (5.1.3) gọi mơ hình hồi quy (MHHQ) tuyến tính đơn; x gọi biến hồi quy (hay biến độc lập, biến giải thích), Y gọi biến phản hồi

Ngày đăng: 07/06/2014, 15:32

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan