HỒI QUI TUYẾN TÍNH BỘI
Mô hình Hồi quy tuyến tính bội có dạng tổng quát như sau:
• β1: Hệ số tự do (hệ số chẵn)
• βi: Hệ số hồi quy riêng
Như vậy, “Hồi quy tuyến tính" là một phương pháp để dự đoán giá trị biến phụ thuộc(Y) dựa trên giá trị của biến độc lập (X)
2 HÀM HỒI QUY TỔNG THỂ (PRF- POPULATION REGRESSION FUNCTION)
Trong mô hình hồi quy, Y được xem là biến phụ thuộc, trong khi X2, X3, , Xk là các biến độc lập Biến Y mang tính ngẫu nhiên và tuân theo một phân phối xác suất nhất định Điều này dẫn đến việc tồn tại giá trị kỳ vọng E(Y|X2, X3, , Xk), cho thấy rằng giá trị này là một giá trị xác định trong bối cảnh của các biến độc lập.
F (X2, X3, , Xk )=E (Y|X2, X3, , Xk) là hàm hồi quy tổng thể của Y theo X2, X3, ,Xk Với một cá thể i, tồn tại (X2,i, X3,i, , Xk,i, Yi)
Ta có: Yi F (X2, X3, , Xk) ⇒ ui = Yi − F
Do vậy: Yi = E (Y X2, X3, , Xk) + ui
Hồi quy tổng thể PRF:
3 HÀM HỒI QUY MẪU (SRF - SAMPLE REGRESSION FUNCTION)
Do không nắm rõ tổng thể, chúng ta không thể xác định chính xác giá trị trung bình của biến phụ thuộc Vì vậy, việc ước lượng dựa trên dữ liệu mẫu là cần thiết Trong một mẫu có n cá thể, hồi quy mẫu được ký hiệu là Ŷ = (F)̂ (X2, X3, , Xk) cho từng cá thể trong mẫu.
Yi ≠ F(X2,i, X3,i,…, Xk,i) sinh ra ei = Yi – F̂ (X2, X3,…, Xk); ei gọi là phần dư SRF
Phần dư sinh ra được ký hiệu là ei = yi, trong đó βm đại diện cho ước lượng của βm Chúng ta mong đợi rằng β̂m sẽ là ước lượng không chệch và hiệu quả của βm Để ước lượng SRF, cần chọn một phương pháp phù hợp nhằm xác định các tham số của F bằng cách tìm các tham số của F̂ và sử dụng giá trị quan sát của các tham số này làm xấp xỉ cho tham số của F.
4 CÁC GIẢ THIẾT CỦA PHƯƠNG PHÁP BÌNH PHƯƠNG NHỎ NHẤT CHO MÔ HÌNH HỒI QUY TUYẾN TÍNH BỘI
Trong khi xây dựng mô hình hồi quy đa biến cần kiểm tra các giả thiết như sau:
Hàm hồi quy tuyến tính theo các tham số thể hiện mối quan hệ giữa biến phụ thuộc y và các biến độc lập x1, x2, x3, , xk thông qua công thức y = β1 + β2x2 + β3x3 + β4x4 + + βkxk + u Ngoài ra, mối quan hệ này cũng có thể được biểu diễn dưới dạng logarit cho cả hai vế, giúp phân tích và hiểu rõ hơn về sự tương tác giữa các biến trong mô hình hồi quy.
• Kỳ vọng của các yếu tố ngẫu nhiên ui bằng 0
Trung bình tổng thể của sai số bằng 0, cho thấy sự tồn tại của cả sai số dương và sai số âm Với hàm được xem như đường trung bình, ta có thể giả định rằng các sai số ngẫu nhiên sẽ tự loại trừ lẫn nhau, dẫn đến việc tổng thể đạt được giá trị trung bình.
• Các sai số độc lập với nhau Các sai số có phương sai bằng nhau
Tất cả giá trị u được phân phối giống nhau với cùng phương sai σ2, sao cho: Var (ui)
Các sai số có phân phối chuẩn là yếu tố quan trọng trong việc xác định khoảng tin cậy và thực hiện kiểm định giả thuyết, đặc biệt khi kích thước mẫu nhỏ Tuy nhiên, khi kích thước mẫu lớn hơn, yếu tố này trở nên ít quan trọng hơn.
Để đánh giá mức độ phù hợp của mô hình, người ta sử dụng hệ số R2, cho phép xác định tỷ lệ phần trăm biến động của biến phụ thuộc được giải thích bởi mô hình.
• Σ(yi – ӯ)2: SST – Total Sum of Squares
• Σ(ŷi – ӯ)2: SSE – Explained Sum of Squares
• Σei2: SSR – Residual Sum of Squares
TSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Yi và giá trị trung bình
ESS là tổng bình phương của mọi sai lệch giữa các giá trị biến phụ thuộc Y từ hàm hồi quy mẫu và giá trị trung bình của chúng, giúp đo lường độ chính xác của hàm hồi quy.
RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá trị nhận được tà hàm hồi quy
TSS được chia thành 2 phần: một phần do ESS và một phần do RSS gây ra R2 được xác định theo công thức:
Hệ số xác định, hay còn gọi là trị thống kê “good of fit”, là tỷ số giữa tổng biến thiên được giải thích bởi mô hình và tổng bình phương R2 đo lường tỷ lệ phần trăm của sai lệch Y so với giá trị trung bình được mô hình giải thích, với giá trị R2 nằm trong khoảng 0 đến 1 Một giá trị R2 cao cho thấy mô hình hồi quy có khả năng giải thích tốt mức độ biến động của biến phụ thuộc.
• Nếu R2 = 1, nghĩa là đường hồi quy giải thích 100% thay đổi của y
• Nếu R2 = 0, nghĩa là mô hình không đưa ra thông tin nào về thay đổi của biến phụ thuộc y
Ta có thể sử dụng giá trị P-value: P-value < mác ý nghĩa thì bác bỏ giả thiết H0
6 KHOẢNG TIN CẬY VÀ KIỂM ĐỊNH CÁC HỆ SỐ HỒI QUY Ước lượng khoảng tin cậy đối với các hệ số hồi quy:
Mục đích của phân tích hồi quy không chỉ là suy đoán về các hệ số β1, β2, , βk mà còn nhằm kiểm tra bản chất của sự phụ thuộc giữa các biến Để thực hiện điều này, cần phải xác định phân bố xác suất của các hệ số β Các phân bố này chịu ảnh hưởng từ phân bố của các sai số ui Theo giả thiết OLS, các sai số ui có phân phối chuẩn N(0, σ2), do đó, các hệ số ước lượng sẽ tuân theo phân phối chuẩn Việc ước lượng phương sai sai số được thực hiện dựa trên các phần dư bình phương tối thiểu, trong đó k đại diện cho số lượng hệ số trong phương trình hồi quy đa biến.
Uớc lượng 2 phía, ta tìm được tα/2(n-k) thỏa mãn
Khoảng tin cậy 1 − α của βj là:
Kiểm định giả thiết đối với βj:
Kiểm định ý nghĩa thống kê của các hệ số hồi quy là quá trình xác định xem biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay không Điều này giúp đánh giá liệu các hệ số hồi quy có ý nghĩa thống kê, từ đó khẳng định mối quan hệ giữa các biến trong mô hình hồi quy.
Có thể đưa ra giả thiết nào đó đoi với βj, chẳng hạn βj = βj* Nếu giả thiết này đúng thì:
Loại gia thiết Giả thiết H0 Giả thiết đôi H Miền bác bổ
Giả thuyết H1: “có ít nhất một trong những giá trị β khác không”
Bước 2: Trước tiên hồi quy Y theo một số hạng không đổi và X2, X3, , Xk, sau đó tính tổng bình
Giả thuyết H0: βj = 0 ⇔ xj không tác động
Giả thuyết H1: βj 0 ⇔ xj có tác động βj < 0 ⇔ xj có tác động ngược βj > 0 ⇔ xj có tác động thuận
7 KIỂM ĐỊNH MỨC ĐỘ Ý NGHĨA CHUNG CỦA MÔ HÌNH (TRƯỜNG HỢP ĐẶC BIỆT CỦA KIỂM ĐỊNH WALD)
BIỆT CỦA KIỂM ĐỊNH WALD)
Khái quát về kiểm định WALD:
Giả sử chúng ta có 2 mô hình dưới đây
Mô hình U, hay còn gọi là mô hình không giới hạn (Unrestrict), khác với mô hình R, được biết đến là mô hình giới hạn (Restrict) Sự khác biệt này xuất phát từ việc các hệ số β3 và β4 trong mô hình R phải bằng 0 Để kiểm tra giả thuyết rằng β3 = β4 = 0, ta có thể sử dụng kiểm định Wald, với giả thuyết đối là ít nhất một trong hai hệ số này không bằng 0 Thủ tục kiểm định này sẽ so sánh các mô hình giới hạn và không giới hạn.
( R) : Y = β1 + β2X2 + + βmXm + v Mô hình (R) có được bằng cách bỏ bớt một số biến ở mô hình (U), đó là: Xm+1, Xm+1, , Xk
• Giả thuyết H1: “Không phải đồng thời các tham số bằng 0”
Lưu ý rằng (U) cháa k hệ số hồi quy chưa biết và (R) chứa m hệ số hồi quy chưa biết
Mô hình R có số lượng thông số ít hơn (k-m) so với U Điều quan trọng là xác định xem (k-m) biến bị loại ra có ảnh hưởng đáng kể đến mối liên hệ với Y hay không.
Trị thống kê kiểm định đối với giả thiết này là:
Với R2 là số đo đ thích hợp không hiệu chỉnh Với giả thuyết không, Fc có phân phối
Bậc tự do đoi với tả số và (n − k) bậc tự do đoi với mẫu số
Bác bỏ giả thuyết H0 khi:
Hoặc giá trị p-value của thống kê F nhỏ hơn mác ý nghĩa cho trước
Trong mô hình hồi quy đa biến, giả thuyết “không” cho rằng mô hình không có ý nghĩa, tức là tất cả các hệ số hồi quy riêng đều bằng 0 Sai số RSSU và RSSR được sử dụng để phân tích Phân phối F là tỷ số của hai biến ngẫu nhiên phân phối khi bình phương độc lập, từ đó cho ra trị thống kê quan trọng.
Giả thuyết H0: β2 = β3 = = βk = 0 cho thấy rằng các hệ số hồi quy không có ảnh hưởng đáng kể Để kiểm định giả thuyết này, chúng ta sử dụng sai số RSSU và RSSR Phân phối F được sử dụng để so sánh hai biến ngẫu nhiên có phân phối khi bình phương độc lập, từ đó cho ra trị thống kê cần thiết.
Vì H0: β2 = β3 = = βk = 0, nhận thay rằng trị thống kê kiểm định đoi với giả thuyết này sẽ là:
Bước 3: Tra số liệu trong bảng F tương ứng với bậc tự do (k-1) cho tả số và (n - k) Cho mẫu số, và với mác ý nghĩa α cho trước
ĐỘ PHÙ HỢP CỦA MÔ HÌNH
Để có thể biết mô hình giải thích được như thể nào hay bao nhiêu % biến động của biến phụ thuộc, người ta sử dụng R2
• Σ(yi – ӯ)2: SST – Total Sum of Squares
• Σ(ŷi – ӯ)2: SSE – Explained Sum of Squares
• Σei2: SSR – Residual Sum of Squares
TSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Yi và giá trị trung bình
ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y theo tà hàm hồi quy mẫu và giá trị trung bình của chúng, giúp đo lường độ chính xác của hàm hồi quy.
RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá trị nhận được tà hàm hồi quy
TSS được chia thành 2 phần: một phần do ESS và một phần do RSS gây ra R2 được xác định theo công thức:
Hệ số xác định, hay trị thống kê "good of fit", được sử dụng để đo lường mức độ phù hợp của mô hình hồi quy thông qua tỷ số giữa tổng biến thiên và tổng bình phương R2 biểu thị tỷ lệ phần trăm của tổng sai lệch Y so với giá trị trung bình được mô hình giải thích, với giá trị nằm trong khoảng từ 0 đến 1 Một R2 cao cho thấy mô hình có khả năng giải thích biến động của biến phụ thuộc một cách hiệu quả.
• Nếu R2 = 1, nghĩa là đường hồi quy giải thích 100% thay đổi của y
• Nếu R2 = 0, nghĩa là mô hình không đưa ra thông tin nào về thay đổi của biến phụ thuộc y
Ta có thể sử dụng giá trị P-value: P-value < mác ý nghĩa thì bác bỏ giả thiết H0
6 KHOẢNG TIN CẬY VÀ KIỂM ĐỊNH CÁC HỆ SỐ HỒI QUY Ước lượng khoảng tin cậy đối với các hệ số hồi quy:
Mục đích của phân tích hồi quy không chỉ là suy đoán về các hệ số β1, β2, , βk mà còn để kiểm tra bản chất của sự phụ thuộc giữa các biến Để thực hiện điều này, cần xác định phân bố xác suất của các hệ số β1, β2, , βk, mà các phân bố này phụ thuộc vào phân bố của các sai số ui Theo giả thiết OLS, các sai số ui có phân phối chuẩn N(0, σ2), do đó, các hệ số ước lượng sẽ tuân theo phân phối chuẩn Việc ước lượng phương sai sai số được thực hiện thông qua các phần dư bình phương tối thiểu, trong đó k là số hệ số trong phương trình hồi quy đa biến.
Uớc lượng 2 phía, ta tìm được tα/2(n-k) thỏa mãn
Khoảng tin cậy 1 − α của βj là:
Kiểm định giả thiết đối với βj:
Kiểm định ý nghĩa thống kê của các hệ số hồi quy là quá trình xác định xem biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay không Điều này giúp đánh giá xem các hệ số hồi quy có mang lại ý nghĩa thống kê hay không.
Có thể đưa ra giả thiết nào đó đoi với βj, chẳng hạn βj = βj* Nếu giả thiết này đúng thì:
Loại gia thiết Giả thiết H0 Giả thiết đôi H Miền bác bổ
Giả thuyết H1: “có ít nhất một trong những giá trị β khác không”
Bước 2: Trước tiên hồi quy Y theo một số hạng không đổi và X2, X3, , Xk, sau đó tính tổng bình
Giả thuyết H0: βj = 0 ⇔ xj không tác động
Giả thuyết H1: βj 0 ⇔ xj có tác động βj < 0 ⇔ xj có tác động ngược βj > 0 ⇔ xj có tác động thuận
7 KIỂM ĐỊNH MỨC ĐỘ Ý NGHĨA CHUNG CỦA MÔ HÌNH (TRƯỜNG HỢP ĐẶC BIỆT CỦA KIỂM ĐỊNH WALD)
BIỆT CỦA KIỂM ĐỊNH WALD)
Khái quát về kiểm định WALD:
Giả sử chúng ta có 2 mô hình dưới đây
Mô hình U được gọi là mô hình không giới hạn (Unrestrict), trong khi mô hình R được gọi là mô hình giới hạn (Restrict) do điều kiện β3 và β4 phải bằng 0 trong mô hình R Để kiểm tra giả thuyết liên kết β3 = β4 = 0, ta thực hiện kiểm định Wald với giả thuyết đối là ít nhất một trong các hệ số này khác 0 Quy trình kiểm định này giúp xác định tính hợp lệ của các mô hình.
( R) : Y = β1 + β2X2 + + βmXm + v Mô hình (R) có được bằng cách bỏ bớt một số biến ở mô hình (U), đó là: Xm+1, Xm+1, , Xk
• Giả thuyết H1: “Không phải đồng thời các tham số bằng 0”
Lưu ý rằng (U) cháa k hệ số hồi quy chưa biết và (R) chứa m hệ số hồi quy chưa biết
Mô hình R có ít hơn (k-m) thông số so với U Chúng ta cần xem xét liệu (k-m) biến bị loại ra có ảnh hưởng đáng kể đến mối liên hệ với Y hay không.
Trị thống kê kiểm định đối với giả thiết này là:
Với R2 là số đo đ thích hợp không hiệu chỉnh Với giả thuyết không, Fc có phân phối
Bậc tự do đoi với tả số và (n − k) bậc tự do đoi với mẫu số
Bác bỏ giả thuyết H0 khi:
Hoặc giá trị p-value của thống kê F nhỏ hơn mác ý nghĩa cho trước
Trong mô hình hồi quy đa biến, giả thuyết "không" cho rằng mô hình không có ý nghĩa, tức là tất cả các hệ số hồi quy riêng đều bằng 0 Sai số RSSU và RSSR được sử dụng để đánh giá mô hình Phân phối F là tỷ số của hai biến ngẫu nhiên phân phối khi bình phương độc lập, từ đó cho ta trị thống kê cần thiết.
Giả thuyết H0: β2 = β3 = = βk = 0 cho rằng tất cả các hệ số hồi quy đều bằng không Để kiểm định giả thuyết này, chúng ta sử dụng sai số RSSU và RSSR Phân phối F được sử dụng để xác định tỉ số giữa hai biến ngẫu nhiên độc lập khi bình phương Kết quả này cung cấp giá trị thống kê cần thiết để đánh giá tính hợp lệ của giả thuyết.
Vì H0: β2 = β3 = = βk = 0, nhận thay rằng trị thống kê kiểm định đoi với giả thuyết này sẽ là:
Bước 3: Tra số liệu trong bảng F tương ứng với bậc tự do (k-1) cho tả số và (n - k) Cho mẫu số, và với mác ý nghĩa α cho trước
Để bác bỏ giả thuyết H0, cần so sánh giá trị thống kê F với giá trị tới hạn F(α, k − 1, n − k) Nếu Fc lớn hơn F(α, k − 1, n − k), giả thuyết H0 sẽ bị bác bỏ ở mức ý nghĩa α Ngoài ra, trong phương pháp p-value, tính toán giá trị p = P(F > Fc | H0) và bác bỏ giả thuyết H0 nếu p nhỏ hơn mức ý nghĩa α.
TIỀN XỬ LÝ DỮ LIỆU
Input thong_so Fc | H0) và nếu p nhỏ hơn mức ý nghĩa α, cũng sẽ bác bỏ giả thuyết H0.
TIỀN XỬ LÝ DỮ LIỆU
ĐỌC DỮ LIỆU
Input thong_so