1. Trang chủ
  2. » Giáo Dục - Đào Tạo

HỒI QUI BỘI VÀ HỒI QUI PHI TUYẾN TÍNH

25 245 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trong khuôn khổ của bài viết này, phần đầu tác giả đặc biệt chú trọng trình bày vềhồi qui bội và những vấn đề liên quan gồm phương pháp ước lượng bình phương cực tiểu OLS, các điều kiện giả thiết mô hình hồi qui, các đặc trưng thông kế OLS, ý nghĩa quan trọng của các hệ số xác định, hệ số tương quan của mô hình, các loại kiểm định giả thuyết của hồi qui bội, dự báo. Ở phần sau là những giới thiệu về các mô hình hồi qui phi tuyến thường gặp và những phương pháp ước lượng nhằm tuyến tính hóa chúng. Trong quá trình làm việc dù đã rất cố gắng nhưng không thể tránh những sai sót, hi vọng nhận được những ý kiến đóng góp chân thành từ bạn đọc.

HỒI QUI BỘI HỒI QUI PHI TUYẾN TÍNH Tiểu luận Xác suất thống kê Lê Thị Anh Thư Giảng viên hướng dẫn: Th.s Huỳnh Ngọc Trâm Anh Ngày 17 tháng 12 năm 2017 Tóm tắt nội dung Trong thực tế có nhiều tình cần quan tâm xem xét mối liên hệ hai hay nhiều biến Chẳng hạn giám đốc tiếp thị quan tâm đến mối quan hệ doanh thu bán sản phẩm với chi phí quảng cáo công ty, nhà môi giới đầu tư ý nhiều đến mối quan hệ giá thị trường chứng khốn với cổ tức Hồi qui nghiên cứu tiểu luận khơng cần phân tích, đánh giá nhà môi giới đầu tư, vị giám đốc tiếp thị mà rộng xác định mối liên hệ biến Mối liên hệ tuyến tính thể mơ hình hồi qui bội mối liên hệ phi tuyến tính mơ hình hồi qui phi tuyến Đây phương pháp thống kê mà giá trị kỳ vọng hay nhiều biến ngẫu nhiên dự đoán dựa vào điều kiện biến ngẫu nhiên (đã tính tốn) khác Cụ thể, có hồi qui tuyến tính, hồi qui lơgic, hồi qui Poisson học có giám sát Phân tích hồi qui khơng trùng khớp đường cong (lựa chọn đường cong mà vừa khớp với tập điểm liệu); phải trùng khớp với mơ hình với thành phần ngẫu nhiên xác định (deterministic and stochastic components) Thành phần xác định gọi dự đoán (predictor) thành phần ngẫu nhiên gọi phần sai số (error term) Hồi qui thường xếp vào loại toán tối ưu nỗ lực để tìm kiếm giải pháp sai số phần dư tốt Phương pháp sai số chung sử dụng phương pháp bình phương cực tiểu: phương pháp tương ứng với hàm hợp lý dạng Gauss liệu quan sát biết biến ngẫu nhiên (ẩn) Về mặt đó, bình phương cực tiểu phương pháp ước lượng tối ưu OLS Để giải toán tối ưu hồi qui thường dùng giải thuật giải thuật hạ bậc gradient gradient descent, giải thuật Gauss-Newton, giải thuật LevenbergMarquardt Các giải thuật xác suất RANSAC dùng để tìm phù hợp tốt cho tập mẫu, cho trước mơ hình tham số hóa hàm đường cong Hồi qui biểu diễn phương pháp hàm hợp lý ước lượng tham số mơ hình Tuy nhiên, với lượng nhỏ liệu, ước lượng có phương sai lớn (high variance) Các phương pháp Bayesian sử dụng để ước lượng mơ hình hồi qui Các tham số có phân phối điều kiện giả định trước, bao gồm thông tin thống kê biết trước biến (Ví dụ, tham số biết khơng âm phân phối khơng âm gán cho nó.) Phân phối giả định trước sau áp dụng cho vector tham số Phương pháp Bayes có ưu điểm khai thác tồn thơng tin có ước lượng xác, khơng phải ước lượng chệch tốt cho tập số liệu nhỏ Trong thực hành, người ta sử dụng phương pháp MAP maximum a posteriori, phương pháp đơn giản phân tích Bayes đầy đủ Trong khn khổ viết này, phần đầu tác giả đặc biệt trọng trình bày hồi qui bội vấn đề liên quan gồm phương pháp ước lượng bình phương cực tiểu OLS, điều kiện giả thiết mơ hình hồi qui, đặc trưng thông kế OLS, ý nghĩa quan trọng hệ số xác định, hệ số tương quan mơ hình, loại kiểm định giả thuyết hồi qui bội, dự báo Ở phần sau giới thiệu mơ hình hồi qui phi tuyến thường gặp phương pháp ước lượng nhằm tuyến tính hóa chúng Trong q trình làm việc dù cố gắng khơng thể tránh sai sót, hi vọng nhận ý kiến đóng góp chân thành từ bạn đọc Mục lục Hồi quy bội (Multiple Regression) 1.1 Giới thiệu 1.2 Mơ hình hồi qui bội 1.2.1 Mơ hình hồi qui bội tổng thể 1.2.2 Mơ hình hồi qui bội mẫu 1.3 Phương pháp bình phương cực tiểu (OLS - Ordinary Least Squares ) 1.3.1 Các điều kiện giả thiết đặc trưng thống kê mơ hình hồi qui bội 1.3.2 Các điều kiện giả thiết mơ hình hồi qui bội 1.3.3 Các tính chất ước lượng OLS 1.3.4 Phương sai độ lệch chuẩn ướng lượng OLS 1.3.5 Hệ số xác định hệ số xác định điều chỉnh 1.3.6 Hệ số xác định 1.3.7 Hệ số xác định điều chỉnh 1.4 Hệ số hồi qui phần - Partial regression linear 1.5 Kiểm định giả thuyết mô hình hồi qui bội hệ số hồi qui 1.5.1 Phương pháp kiểm định t 1.5.2 Khoảng tin cậy 1.5.3 Kiểm định p − value 1.6 Kiểm định giả thuyết đồng thời mơ hình hồi qui bội 1.6.1 Kiểm định F 1.6.2 Kiểm định Wald 1.7 Khoảng tin cậy hệ số hồi qui theo ước lượng OLS 1.8 Dự đoán phân tích hồi qui bội 1.9 Hệ số tương quan riêng, hệ số xác định riêng, hệ số tương quan bội hệ số tương quan phần 1.9.1 Hệ số tương quan riêng 1.9.2 Hệ số xác định riêng 1.9.3 Hệ số tương quan bội 1.9.4 Hệ số tương quan phần 1.10 Bài tập mơ hình hồi qui bội 1.10.1 Dạng lập mơ hình hồi qui bội 1.10.2 Dạng nêu ý nghĩa hệ số hồi qui từ mơ hình hồi qui 1.10.3 Dạng hệ số xác định 1.10.4 Dạng yêu cầu kiểm định tổng quát ý nghĩa mơ hình 1.10.5 Kiểm định hệ số phương trình 1.10.6 Phương pháp kiểm định t 1.10.7 Khoảng tin cậy 1.10.8 Kiểm định p − value 1.10.9 Ước lượng khoảng cho hệ số hồi qui 1.10.10 Dự đoán phân tích hồi qui bội 17 17 17 18 18 18 18 19 19 20 20 21 21 21 22 22 Hồi qui phi tuyến (Nonlinear Regression) 2.1 Giới thiệu 2.2 Môt số mơ hình hồi qui phi tuyến 2.2.1 Mơ hình tiêu thụ Oxy 2.2.2 Các mơ hình khác 2.3 Mộ số dạng hồi qui phi tuyến 2.4 Hàm hồi qui phi tuyến dạng tích 23 23 23 23 23 23 24 5 5 8 10 11 11 12 12 13 13 13 13 14 14 15 16 17 2.5 Phương pháp OLS cho mô hình hồi qui phi tuyến 24 2.5.1 Nội dung phương pháp 24 2.5.2 Các thuật toán cho xấp xỉ OLS phi tuyến 25 Tài liệu tham khảo 25 1.1 Hồi quy bội (Multiple Regression) Giới thiệu Hồi quy bội dùng để xem xét mối liên hệ tuyến tính biến ngẫu nhiên độc lập (biến ảnh hưởng) với biến ngẫu nhiên phụ thuộc (biến chịu ảnh hưởng) Mục đích nhằm mơ hình hóa mối liên hệ, nghĩa từ liệu mẫu thu thập từ ta cố gắng xây dựng mơ hình tốn học nhằm thể cách tốt mối liên hệ biến độc lập với biến phụ thuộc Kết phân tích hồi qui dùng để dự đốn Khi hồi qui có biến ngẫu nhiên độc lập ta nói hồi qui đơn Tuy nhiên thực tế khơng có biến ảnh hưởng, thay đổi biến phụ thuộc giải thích đầy đủ, tồn diện đặt mối liên hệ nhiều biến độc lập nên cần phương pháp phân tích hồi quy bội Nhớ ta dùng hồi qui có kiện mẫu biến ngẫu nhiên độc lập biến phụ thuộc Ví dụ 1: Thu nhập ảnh hưởng đến chi tiêu Địa điểm sinh sống ảnh hưởng đến chi tiêu Số thành viên gia đình ảnh hưởng đến chi tiêu Vậy: Chi tiêu → Thu nhập, địa điểm sống, số thành viên gia đình Chi tiêu = f (Thu nhập, địa điểm sống, số thành viên gia đình) Ví dụ 2: - Quan hệ tốc độ tăng trưởng kinh tế nước phát triển vớỉ tốc độ tăng trưởng nông nghiệp, tăng trưởng kim ngạch xuất khẩu, tỉ lệ lạm phát - Quan hệ doanh số (biến phụ thuộc chịu ảnh hưởng) với trình độ văn hóa người bán hàng, giới tính người bán hàng, mật độ dân số nơi bán (các biến độc lập gây ảnh hưởng) - Quan hệ kết cuối kỳ sinh viên với số mơn học đăng kí, tiền sinh hoạt phí hàng tháng cho học tập, sở vật chất trường, khoảng cách từ nhà sinh viến tới trường, thời gian sinh viên dành cho việc tự học 1.2 Mơ hình hồi qui bội Mơ hình hồi qui bội mơ hình biến phụ thuộc chịu ảnh hưởng hai biến độc lập (biến giải thích) Các dạng mơ hình gồm: - Mơ hình hồi qui bội tổng thể - Mơ hình hồi qui bội mẫu 1.2.1 Mơ hình hồi qui bội tổng thể Giả sử có biến ngẫu nhiên Y xem phụ thuộc tuyến tính vào k biến ngẫu nhiên độc lập X1 , X2 , , Xk • Hàm hồi qui bội tổng thể (PRF- Population Regression Function): Y = α + β1 X1 + β2 X2 + + βk Xk + ε Trong đó: ◦ Hệ số tự α cho biết giá trị trung bình biến phụ thuộc Y tất k biến X độc lập có giá trị Hệ số α ẩn chứa biến bỏ sót ngồi mơ hình, thể giá trị Y khơng bị phụ thuộc tuyến tính vào X1 , X2 , , Xk ◦ Hệ số βi , ∀i = 1, k hệ số hồi qui riêng, cho biết với i = 1, , k, trung bình Y thay đổi βi đơn vị biến Xi thay đổi đơn vị biến độc lập lại khơng đổi Như βi cho thấy ảnh hưởng riêng biến Xi đến trung bình biến Y ◦ ε sai số hàm hồi qui tổng thể, có kì vọng Do dạng mơ hình có phương trình sau E(Y |X1 , X2 , , Xk ) = α + β1 X1 + β2 X2 + + βk Xk • Hàm hồi qui bội tổng thể giá trị quan sát cụ thể (PRM - Population Regression Models): yi = α + β1 x1i + β2 x2i + + βk xki + εi Trong đó: ◦ (x1i , x2i , xki ) giá trị biến X1 , X2 , , Xk cụ thể quan sát i ◦ yi giá trị biến phụ thuộc Y i ◦ εi sai số hồi qui tổng thể i, biến ngẫu nhiên độc lập có phân phối chuẩn với trung bình 0, phương sai khơng đồi độc lập, khơng có liên hệ với Từ xét n quan sát ta có biến mẫu ngẫu nhiên k+1 biến X1 , X2 , , Xk , Y (x11 , x21 , , xk1 , y1 ), (x12 , x22 , , xk2 , y2 ), , (x1n , x2n , xkn , yn ) Khi dạng mơ hình hồi quy bội tổng yi = α + β1 x1i + β2 x2i + + βk xki + εi , ∀i = 1, n Mơ hình hồi qui bội tổng thể biểu diễn cách tường minh sau   y1 = α + β1 x11 + β2 x21 + · · · + βk xk1 + ε1    y2 = α + β1 x12 + β2 x22 + · · · + βk xk2 + ε2     y = α + β x + β x + ··· + β x + ε n 1n 2n k kn n Đặt x i = (1, x 1i , x2i , x ki ), i =1, n  α x1 y1  x2   y2   β1     X=   , Y =   , B =  xn yn βk Khi ta có dạng ma trận phương trình     ,ε =    hồi qui bội  ε1 ε2    εn tổng thể Y = XB + ε 1.2.2 Mơ hình hồi qui bội mẫu Nhắc lại lấy mẫu Thực tế lúc có đủ thời gian chi phí để khảo sát tổng thể Ví dụ để tìm mối quan hệ kết học tập toàn sinh viên trường Sư phạm với thu nhập sau trường ta khơng thể đủ thời gian chi phí để khảo sát hết lượng sinh viên lớn, cần lấy mẫu tổng thể để nghiên cứu đặc điểm từ đưa ước lượng, dự báo cho tổng thể Trong phương trình hồi qui bội vậy, thực tế ta không xác định hệ số α, β1 , , βk phương trình hồi qui bội tổng thể mà ta ước lượng chúng từ giá trị quan sát mẫu thu thập • Hàm hồi qui bội mẫu (SRF - Sample Regression Function) Y = a + b1 X1 + b2 X2 + + bk Xk Trong đó: ◦ Hệ số tự a ước lượng hệ số tự α có từ quan sát mẫu ◦ Hệ số hồi qui riêng bi ước lượng hệ số hồi qui riêng βi ◦ Y giá trị ước lượng biến Y • Hàm hồi qui mẫu quan sát cụ thể (SRM - Sample Regression Models) yi = a + b1 x1i + b2 x2i + + bk xki yi = a + b1 x1i + b2 x2i + + bk xki + ei Khi ei = yi − yi phần dư hồi qui mẫu, khác biệt giá trị thực tế yi với giá trị dự đốn theo mơ hình hồi qui tuyến tính yi Giả sử ta có mẫu n quan sát thu thập ngẫu nhiên từ X1 , X2 , , Xk Y (x11 , x21 , , xk1 , y1 ), (x12 , x22 , , xk2 , y2 ), , (x1n , x2n , xkn , yn ) Mơ hình hồi qui mẫu thu n quan sát sau yi = a + b1 x1i + b2 x2i + + bk xki , ∀i = 1, n yi = a + b1 x1i + b2 x2i + + bk xki + ei , ∀i = 1, n Đặt x i = (1, x 1i , x2i , x ki ), i =1, n  x1 y1  x2   y2       X=   , Y =   , B =  xn yn Khi ta có dạng ma trận mơ hình a b1 bk hồi    e1     , e =  e2     en qui mẫu Y = X B + e Y = X B Ví dụ Người ta xây dựng mơ hình hàm hồi qui biến ngẫu nhiên độc lập X1 , X2 (biến ảnh hưởng) thu nhập hàng tháng (triệu đồng), số thành viên gia đình (người) biến ngẫu nhiên phụ thuộc Y (biến chịu ảnh hưởng) chi tiêu hàng tháng gia đình (triệu đồng) sau Y = 6.32 − 0.3X1 + 2.46X2 Trong Hệ số tự a = 6.32 cho biết Y = 6.32 X1 = X2 = 0, tức chi tiêu trung bình hàng tháng gia đình 6.32 triệu đồng không chịu ảnh hưởng thu nhập, số thành viên (chịu ảnh hưởng điều kiện khác VD địa điểm sống) Hệ số b1 = −0.3 cho biết thu nhập hàng tháng (X1 ) tăng(giảm) triệu đồng số thành viên khơng đổi trung bình chi tiêu gia đình tăng(giảm) -0.3 triêu đồng hay giảm(tăng) 0.3 triệu đồng Hệ số b2 = 2.46 cho biết tố thành viên (X2 ) tăng(giảm) người thu nhập hàng tháng gia đình khơng đổi trung bình chi tiêu tăng(giảm) 2.46 triệu đồng 1.3 Phương pháp bình phương cực tiểu (OLS - Ordinary Least Squares ) Nội dung phương pháp OLS Ta có mơ hình hồi qui mẫu Y = X B + e = Y + e Cần tìm giá trị ước lượng Y cho gần với giá trị thực Y nhất, hay yi gần với yi nhất, với i = 1, , n Tức phần dư ei = yi − yi , ∀i = 1, n nhỏ tốt Do phần dư âm dương ta quan tâm đến độ lớn nên ta xét tổng bình n e2i → phương phần dư, tốn đặt tìm yi để i=1 Ta có n n e2i = i=1 (yi − a − b1 x1i − b2 x2i − − bk xki )2 = ϕ(a, b1 , b2 , , bk ) i=1 Như cần tìm a, b1 , b2 , , bk cho ϕ → Phương pháp giúp ước lượng α, β1 , , βk mơ hình hồi qui tổng thể gọi phương pháp bình phương cực tiểu OLS Điều kiện cực tiểu:  n   ϕa = −2 (yi − a − b1 x1i − − bk xki ) =     i=1   n    ϕ = −2 (y − a − b x − − b x )x = i b1            ϕbk = −2 1i k ki 1i i=1 n (yi − a − b1 x1i − − bk xki )xki = i=1 Vậy để ϕ → ⇔ ϕB = ⇔ −2X T Y + 2X T X B = ⇔ X T Y = X T X B ⇔ B = (X T X)−1 (X T Y ) 1.3.1 Các điều kiện giả thiết đặc trưng thống kê mơ hình hồi qui bội 1.3.2 Các điều kiện giả thiết mơ hình hồi qui bội Vấn đề cần suy nghĩ liệu biến ngẫu nhiên X1 , X2 , , Xk không ảnh hưởng đến biến Y mà ảnh hưởng lẫn nhau, tạo nên tượng đa cộng tính biến ảnh hưởng, dẫn đến việc khảo sát ảnh hưởng biến ảnh hưởng đến Y mơ hình hồi qui khơng đầy đủ trở nên vô nghĩa Ý tưởng giải pháp cho vấn đề biến độc lập ảnh hưởng tương quan với biến phụ thuộc chịu ảnh hưởng khơng có tương quan với (many-to-one) nhiều vấn đề khác giả thiết ảnh hưởng đến ý nghĩa mơ hình hồi qui bội Do ta cần phải có điều kiện xác định sau ◦ ◦ ◦ ◦ Các điều kiện giả thiết GT1: Mơ hình có dạng tuyến tính với tham số GT2: Các lượng sai số ei , biến ngẫu nhiên độc lập, có kì vọng tức E(ei ) = 0, ∀i GT3: Các sai số có phương sai, phương sai không đồi, V ar(ei ) = σ , ∀i GT4: Các sai số ngẫu nhiên không tương quan với tức Cov(ei , ej ) = 0, i = j ◦ GT5: Khơng có tương quan giưa đại lượng Xi , ei , Cov(Xi , ei ) = 0, ∀j, i ◦ GT6: Khơng có đa cộng tuyến (cộng tuyến biến độc lập) mơ hình hồi qui bội ◦ GT7: Sai số ngẫu nhiên có phân phối chuẩn ei ∼ N (0, σ ), ∀i Định lý (Gauss-Markov): Khi giả thiết thỏa mãn hệ số ước lượng thu theo phương pháp bình phương tối tiểu OLS ước lượng tuyến tính, khơng chệch có phương sai nhỏ lớp ước lượng khơng chệch Nói cách khác giả thiết đảm bảo ước lượng tính phương pháp OLS ước lượng tốt hiệu hàm hồi quy tổng thể Ta nói, ước lượng OLS ước lượng BLUE (Best Linear Unbiased Estimator) Chứng minh Từ ước lượng OLS ta có β = (X T X)−1 (X T Y ) Đặt β = CY ước lượng khác ma trận tham số hồi qui β, với C = (X T X −1 )X T + D, ma trận D khác không Ta chứng minh ước lượng không tốt OLS Tức phương sai hệ số không nhỏ hệ số ước lượng theo OLS E[β] = E[CY ] = E[(X T X)−1 X T + D)(Xβ + )] = (X T X)−1 X T + D)Xβ + ((X T X)−1 X T + D)E[ ](E[ ] = 0) = (X T X)−1 X T + D)Xβ = (X T X)−1 X T Xβ + DXβ = (I + DX)β Do β không lệch DX = Khi V ar(β) = V ar(CY ) = CV ar(Y )C T = σ CC T = σ ((X T X −1 X T + D)(X(X T X)−1 + DT )) = σ ((X T X −1 X T X(X T X)−1 + X T X −1 X T DT + DX(X T X)−1 + DDT ) = σ (X T X)−1 + σ (X T X)−1 (DX)T + σ DX(X T X)−1 + σ (DDT ) = σ (X T X)−1 + σ (DDT )(DX = 0) = V ar(β) + σ (DDT ) > V ar(β) Như ta có điều phải chứng minh Phương pháp OLS BLUE 1.3.3 Các tính chất ước lượng OLS Xét mơ hình hồi qui bội yi = a + b1 x1 + b2 x2 + + bk xk + ei ◦ Đường hồi qui đia qua điểm (Y , X , , X k ) ◦ Yn = Y ◦ ei = i=1 n ◦ ei xji = 0, j = 1, , k i=1 n ◦ ei yi = i=1 ◦ Các đại lượng a, bi , i = 1, , n tuyến tính, khơng chệch có phương sai nhỏ cho α, βi 1.3.4 Phương sai độ lệch chuẩn ướng lượng OLS Theo giả thiết phương pháp OLS ei đại lượng ngẫu nhiên có giá trị trung bình hay kì vọng 0, phương sai không đổi Giả sử ei ∼ N (0, σ ), ∀i Khi σ gọi phương sai tổng thể, thực tế khó tính nên thường ước lượng phương sai mẫu σ2 = e2i (yi − yi )2 SSE = = = M SE n − (k + 1) n − (k + 1) n − (k + 1) Ta có yi = a + b1 x1i + b2 x2i + + bk xki + ei Mà ei ∼ N (0, σ nên yi ∼ N (a + b1 x1i + b2 x2i + + bk xki , σ ) Chú ý Khi phương trình hồi qui có dạng yi = a + b1 x1i + b2 x2i tức mô hình có hai biến ảnh hưởng phương sai độ lệch chuẩn cho công thức V ar(b1 ) = σ2 , Se(b1 ) = n i=1 x1i (1 − r12 ) V ar(b1 ) V ar(b2 ) = σ2 , Se(b2 ) = n i=1 x2i (1 − r12 ) V ar(b2 ) Với r12 = n i=1 x1i x2i ) n n 2 i=1 x1i ) i=1 x1i )( ( ( Theo ước lượng OLS ta có Y = HY Trong H = X(X T X)−1 X T Do phần dư e = Y − Y = (I − H)Y Ma trận hiệp phương sai phần dư σ (e) = σ (I − H) 10 1.3.5 Hệ số xác định hệ số xác định điều chỉnh 1.3.6 Hệ số xác định Mơ hình hồi qui tuyến tính xây dựng để giải thích biến thiên biến phụ thuộc với biến độc lập Nhưng mơ hình thể tốt mối liên hệ chúng hay chưa ? có phần trăm biến thiên biến phụ thuộc giải thích biến ngẫu nhiên độc lập Hệ số xác định giúp ta trả lời câu hỏi Từ phương trình hồi qui bội tổng thể hồi qui bội mẫu ta có mối liên hệ giá trị thực tế yi với giá trị dự đốn từ phương trình hồi qui yi yi = yi + ei Như thấy ei phần khác biệt, phần biến thiên khơng giải thích mối liên hệ tuyến tính biến độc lập với biên phụ thuộc Biến đổi đại số ta có n n (yi − y)2 = i=1 n (yi − y)2 + i=1 ei i=1 Hay SST = SSR + SSE Trong n (yi − y)2 SST = i=1 SST (Total sum of squares) tổng tất bình phương, thể tồn biến thiên biến phụ thuộc n (yi − y)2 SSR = i=1 SSR (Sum of squares for regression) tổng bình phương hồi qui, thể phần biến giải thích biến độc lập n e2i SSE = i=1 SSE (Sum of squares for error) tổng bình phương sai số, thể phần biến thiên biến phụ thuộc nhân tố không nghiên cứu đến Hệ số xác định kí hiệu R2 đo lường phần biến thiên hay cụ thể thể tỉ lệ biến thiên đại lượng ngẫu nhiên phụ thuộc giải thích biến ngẫu nhiên độc lập mơ hình, xác định công thức: R2 = SSR SSE =1− SST SST Ta thấy ≤ R2 ≤ đại lượng thể thích hợp mơ hình hồi qui bội liệu, R2 lớn mơ hình hồi qui xây dựng xem thích hợp dĩ nhiên có ý nghĩa việc giải thích biến thiên biến phụ thuộc 11 1.3.7 Hệ số xác định điều chỉnh Khi R2 đặc biệt tăng cao R2 = 0, 99 thêm biến ngẫu nhiên độc lập vào mơ hình làm k tăng lên, SSE không phụ thuộc k nên không đổi đổi, SST phụ thuộc k nên tăng giá trị R2 tăng lên Vậy R2 hàm không giảm theo số lượng biến giải thích mơ hình, số lượng biến tăng R2 ln tăng theo Lúc mơ hình hồi qui dường tốt thực tế lại sử dụng mơ hình để dự đốn Thực tế việc thêm q nhiều biến độc lập vào mơ hình khơng có nghĩa mơ hình tốt hay cho dự đốn tốt hơn, chí mang lại kết sai lệch, tượng "overfitting"- mức phù hợp Do muốn đo lường mức độ thích hợp mơ hình hồi qui bội, ta phải dùng đến hệ số R2 có tính đến bậc tự SSE SST, gọi hệ số tất định điều chỉnh kí hiệu R2 tính theo công thức sau: R2 = − n−1 SSE/[n − (k + 1)] = − (1 − R2 ) SST /(n − 1) n−k−1 Khi k > R2 < R2 < 1, có nghĩa số biến độc lập tăng R2 tăng R2 R2 âm, trường hợp gán giá trị Trừ số lượng biến độc lập tương đối lớn so với n, R2 , R2 khơng chênh nhiều Vì ta dùng R2 muốn xem xét việc có nên đưa thêm biến ảnh hương Xi vào mơ hình hồi qui bội hay khơng Như để thêm biến vào mơ hình phải thỏa hai điều kiện: - Làm R2 tăng lên - Khi kiểm định giả thiết hệ số hồi qui biến mơ hình (kiểm định t hệ số hồi qui riêng) phải bác bỏ giả thiết H0 , tức hệ số phải có ý nghĩa Do để đánh giá tầm quan trọng tương đối biến độc lập ta cần xem xét độ tăng R2 biến đưa vào phương trình phương trình chứa sẵn biến độc lập khác Mức tăng Rchange = R2 − Ri2 , với Ri2 bình phương hệ số tương quan bội tất biến độc lập có mơ hình ngoại trừ biến Xi Mức độ thay đổi biến R2 lớn cho ta thấy biến cung cấp thông tin độc biến phụ thuộc mà biến độc lập khác phương trình khơng có 1.4 Hệ số hồi qui phần - Partial regression linear Hệ số hồi qui phần hệ số biến điều chình theo biến độc lập khác mơ hình Ví du: Mơ hình 1: Y=-0.15+0.7(thu nhập hộ trung bình/tháng) Mơ hình 2: Y=-0.88+0.418(thu nhập hộ trung bình/tháng)+0.27(số lần siêu thị) Mơ hình 3: Y=-0.35+0.414(thu nhập hộ trung bình/tháng)+0.47(số lần siêu thị)+0.007(tuổi) Hệ số hồi qui phần mô hình -0.15, 0.7 -0.88, 0.418, 0.27 -0.35, 0.414, 0.47, 0.007 12 1.5 Kiểm định giả thuyết mơ hình hồi qui bội hệ số hồi qui Kiểm định giả thuyết mơ hình hồi qui bội nhằm kiểm định giả thuyết tồn mối liên hệ tuyến tính biến phụ thuộc Y biến độc lập Xi thông qua hệ số hồi qui riêng Xét giả thuyết kiểm định có dạng sau: * Giả thuyết không: H0 : βi = βi∗ * Giả thuyết đối: H1 : βi = βi∗ Thông thường cho đơn giản chọn βi∗ = Nếu kiểm định chấp nhận H0 , ta kết luận khơng tồn mối liên hệ tuyến tính Y biến Xi Ngược lại bác bỏ H0 tồn liên hệ tuyến tính Y Xi , Y chịu ảnh hưởng biến Xi Có phương pháp để kiểm định hệ số hồi qui sau - Kiểm định dùng trị thống kê t (kiểm định t, t − test) - Khoảng tin cậy - Mức ý nghĩa xác (p − value) 1.5.1 Phương pháp kiểm định t bi − βi∗ * Bước 1: Tính giá trị ti = Se(bi ) * Bước 2: Tra bảng t-student tìm t(n−(k+1),α/2) * Bước 3: Quy tắc định - Nếu |ti | ≤ t(n−(k+1),α/2) chấp nhận H0 - Nếu |ti | > t(n−(k+1),α/2) bác bỏ H0 1.5.2 Khoảng tin cậy * Ước lượng khoảng βi với độ tin cậy (1 − α)100% bi ± i , i = t(n−(k+1),α/2 )Se(bi ) , (α mức ý nghĩa giả thiết H0 ) * Quy tắc định - Nếu βi∗ ∈ (bi − i , bi + i ) chấp nhận H0 - Nếu βi∗ ∈ / (bi − i , bi + i ) bác bỏ H0 1.5.3 Kiểm định p − value p − value mức ý nghĩa quan sát, xác suất mắc sai lầm loại tối đa bác bỏ giả thuyết H0 với tập liệu mẫu quan sát p − value = P (|t| ≥ |ti |) bi − βi∗ , P (T > |ti |) = p * Tính ti = Se(bi ) - Nếu p > α chấp nhận H0 - Nếu p ≤ α bác bỏ H0 (Phương pháp thường dùng tiến hành máy tính) Ngồi việc kiểm định giả thuyết theo hệ số hồi qui riêng mối liên hệ tuyến tính phương trình thực tế trường hợp khác cần kiểm định giả thuyết theo hệ số hồi qui riêng, chia làm loại: kiểm định hai bên, bên trái bên phải • Kiểm định hai bên H0 : bi = βi∗ H1 : bi = βi∗ 13 Bác bỏ H0 |ti | > tn−k−1,α/2 • Kiểm định bên trái H0 : bi ≥ βi∗ H1 : bi < βi∗ Bác bỏ H0 ti < −tn−k−1,α • Kiểm định bên phải H0 : bi ≤ βi∗ H1 : bi > βi∗ Bác bỏ H0 ti > tn−k−1,α Ví dụ Phương trình hồi qui có dạng Y = a + bX + cZ Trong Y điểm trung bình học kì gần nhất, X thời gian tự học trung bình (giờ/ngày), Z giới tính, Z = nam, Z = nữ Một bạn nhận xét hiệu trung bình tự học sv nam thật cao sv nữ Với mức ý nghĩa 1% nhận xét có khơng, sao? Thì tốn kiểm định bên phải với giả thuyết: H0 : c ≤ KQTB nam không lớn nữ H1 : c > KQTB nam thực lớn nữ 1.6 1.6.1 Kiểm định giả thuyết đồng thời mơ hình hồi qui bội Kiểm định F Kiểm định F sử dụng nhằm kiểm định tổng qt ý nghĩa mơ hình, tức kiểm định giả thuyết tồn mối liên hệ tuyến tính biến phụ thuộc Y với biến độc lập Xi , i = 1, , k Ta nhận thấy βi = 0, ∀i Y số, khơng đổi với giá trị Xi ta nói X, Y khơng có mối liên hệ tuyến tính, ta dùng βi đề kiểm định Giả thuyết kiểm định H0 : R2 = ↔ βi = 0, ∀i H1 : R2 = ↔ tồn tạiβj = Nếu chấp nhận H0 tức không tồn mối liên hệ tuyến tính Y với biến Xi Ngược lại, bác bỏ H0 kết luận có mối liên hệ tuyến tinh Y với biến ảnh hưởng Xi Trị số M SR SSR/k F = = M SE SSE/(n − k − 1) Trong MSR trung bình bình phương lượng dư hồi qui M SR = SSR/k MSE trung bình bình phương sai số M SE = SSE/(n − k − 1) Bảng Anova cho toán hồi qui bội Biến thiên Tổng chênh lệch bình phương Bậc tự Hồi qui SSR k Sai số SSE n-k-1 Tổng cộng SST n-1 Các bước làm toán kiểm định F: 14 Phương sai SSR M SR = k SSE M SE = n−k−1 Giả định F M SR F = M SE * Bước 1: Tính M SR SSR/k R2 (n − k − 1) = = M SE SSE/(n − k − 1) (1 − R2 )k F = Tra bảng tìm Fα (k, n − k − 1) * Bước 2: Kết luận bác bỏ H0 F > Fα (k, n − k − 1) p(F ∗ > F ) ≤ α Ví dụ Cho bảng liệu mẫu chi tiêu hàng tháng (triệu đồng/tháng) bị ảnh hưởng theo thu nhập (triệu đồng/tháng), số ngưới hộ (người), tiền trợ cấp hàng tháng (triệu đồng/tháng) hộ gia đình vùng dân cư sau Hộ Chi tiêu 2.78 3.42 9.5 1.57 17.3 Thu nhập 5.52 8.64 15 3.8 31.68 Số người Tiền trợ cấp 1.8 5.5 2.15 0.55 1.73 Với mức ý nghĩa α = 5% kiểm định tổng qt ý nghĩa mơ hình hồi qui Giải: Từ tính tốn ta có SSE = 0.456, SSR = 175.010 (làm tròn đến chữ số thập phân) M SR SSR/k 175.01/3 58.337 F = = = = = 255.879 M SE SSE/(n − k − 1) 0.456/(6 − − 1) 0.228 tính cơng thức khác R2 (n − k − 1) 0.9974(6 − − 1) F = = = 255.879 (1 − R )k (1 − 0.9974)3 Tiếp theo ta tính F0.05 (3, − − 1) = F0.05 (3, 2) = 19.16 ta thấy F0.05 (3, − − 1) < F nên ta bác bỏ giả thuyết H0 Kết luận tồn mối liên hệ tuyến tính Y với biến ảnh hưởng 1.6.2 Kiểm định Wald Xét mơ hình (U) sau yi = b1 + b2 x2i + b3 x3i + b4 x4i + b5 x5i + ui Ví dụ Cần kiểm định H0 : b2 = b5 = Áp đặt giả thiết H0 lên mơ hình ta có mơ hình hạn chế (R) sau yi = b1 + b3 x3i + b4 x4i + ui Để kiểm định (R) ta dùng kiểm định Wald 15 * Các bước kiểm định Wald: - Mơ hình (U) (R) thu SSEU , SSER - Tính F = (SSER − SSEu )/(dfR − dfU ) SSEU /dfU với dfU , dfR bậc tự (U),(R) - Nếu p(F ∗ > F ) ≤ α F > Fα (dfR − dfU , dfU ) bác bỏ H0 1.7 Khoảng tin cậy hệ số hồi qui theo ước lượng OLS • Khoảng tin cậy βi với độ tin cậy − α βi ∈ (bi ± tn−(k+1),α/2 Se(bi )) Trong đó: tn−k−1,α/2 có tra bảng t-Student với bậc tự n − k − α mức ý nghĩa, xác suất sai lầm loại I (bác bỏ H0 đúng), thơng thường người ta chọn 1% ≤ α ≤ 10% Chứng minh: Ta có bi ∼ N (βi , V ar(bi )), ∀i = 1, , k bi − βi∗ ∼ t(n − k − 1) t= Se(bi ) bi − βi∗ ≥ tn−k−1,α/2 ) = − α P (−tn−k−1,α/2 ≥ Se(bi ) P (bi − tn−k−1,α/2 Se(bi ) ≥ βi ≥ bi + tn−k−1,α/2 Se(bi )) = − α‘ Vậy βi ∈ (bi ± tn−k−1,α/2 Se(bi )) với độ tin cậy − α Nhận xét: Ta có P (−tn−k,α/2 ≥ t ≥ tn−k,α/2 ) = − α Pvalue xác suất mắc sai lầm kết luận biến Xi có ảnh hưởng đến biến Y Như Pvalue nhỏ độ tin cậy lớn • Khoảng tin cậy hệ số tự α với độ tin cậy − α Cũng tương tự trên, ta có α ∈ (a ± tn−(k+1),α/2 Se(a)) Ví dụ Cho bảng liệu mẫu chi tiêu hàng tháng (triệu đồng/tháng) bị ảnh hưởng theo thu nhập (triệu đồng/tháng), số ngưới hộ (người), tiền trợ cấp hàng tháng (triệu đồng/tháng) hộ gia đình vùng dân cư sau Hộ Chi tiêu 2.78 3.42 9.5 1.57 17.3 Thu nhập 5.52 8.64 15 3.8 31.68 Số người Tiền trợ cấp 1.8 5.5 2.15 0.55 1.73 Tìm ước lượng khoảng hệ số hồi qui riêng với độ tin cậy 95% 16 Giải: Y = 0.128 + 0.67X1 − 0.756X2 + 0.753X3 a = 0.128, b1 = 0.67, b2 = −0.756, b3 = 0.753 Se(a) = 0.415, Se(b1 ) = 0.045, Se(b2 ) = 0.275, Se(b3 ) = 0.296 t(6−3−1,0.05/2) = t(2,0.025) = 4.303   α ∈ (0.128 ± 4.303 ∗ 0.415) −1.659 ≤ α ≤ 1.916       β1 ∈ (0.67 ± 4.303 ∗ 0.045) 0.476 ≤ β1 ≤ 0.865 ⇒ ⇒ β2 ∈ (−0.756 ± 4.303 ∗ 0.275) −1.937 ≤ β2 ≤ −1.181       β3 ∈ (0.753 ± 4.303 ∗ 0.296) −0.519 ≤ β3 ≤ 2.026 1.8 Dự đốn phân tích hồi qui bội Trong hồi qui bội giá trị dự đốn Y có ứng với giá trị cho trước k biến X cách thay giá trị k biến X vào phương trình hồi qui bội Các giá trị cho trước k biến X x1,n+1 , x2,n+1 , , xk,n+1 giá trị dự đoán yn+1 yn+1 = a + b1 x1,n+1 + b2 x2,n+1 + + bk xk,n+1 Với ví dụ ta muốn dự đốn thu nhập dự định với hộ gia đình có thu nhập triệu đồng, với thành viên, khu vực đó: Y = 0.286 + 0.572X1 − 0.111X2 yn+1 = 0.286 + 0.572(8) − 0.111(3) = 4.529 Như thu nhập hàng tháng hộ gia đình khoảng 529 000 đồng 1.9 1.9.1 Hệ số tương quan riêng, hệ số xác định riêng, hệ số tương quan bội hệ số tương quan phần Hệ số tương quan riêng Như nói hệ số hồi qui riêng βi thể ảnh hưởng riêng biến Xi đến biến Y Tuy chúng trực tiếp cường độ mối liên hệ phụ thuộc vào đơn vị đo lường Trong hồi qui bội để đo lường cường độ mối liên hệ tuyến tính biến Y với riêng biến độc lập Xi , biến lại giữ nguyên ta dùng hệ số tương quan riêng Các cơng thức tính tốn hệ số tương quan riêng phức tạp nên thường tính tốn máy tính 1.9.2 Hệ số xác định riêng Bình phương hệ số tương quan riêng gọi hệ số xác định riêng Cũng giống ý nghĩa hệ số xác định chung mơ hình hồi qui đề cập phía trên, hệ số xác định riêng thể phần biến thiên Y giải thích riêng biến Xi biến lại giữ ngun khơng đổi 17 1.9.3 Hệ số tương quan bội Ngoài để đo lường cường độ mối liên hệ biến Y với biến độc lập Xi , tức giá trị thực tế Yi với giá trị dự đoán mơ hình hồi qui bội Yi , ta dùng hệ số tương quan bội kí hiệu R Hệ số tương quan bội R bậc hai số xác định R2 √ R= R2 Hệ số tương quan bội đo lường cách tổng quát cường độ mối liên hệ tương tự hệ số tương quan hai biến X,Y Thực vậy, trường hợp hồi qui đơn, hệ số tương quan bội giá trị tuyệt đối hệ số tương quan mẫu X Y 1.9.4 Hệ số tương quan phần 2 Khi lấy bậc hai Rchange = R2 − R(j) (vớiR(j) bình phương hệ số tương quan bội tất biến độc lập có mơ hình ngoại trừ biến Xj ) ta có hệ số tương quan phần Rchange Đây chinh hệ số nói lên tương quan Y với Xj ảnh hưởng tuyến tính biến độc lập khác biến độc lập XJ bị loại bỏ khỏi mơ hình Nếu tất biến độc lập khơng tương quan với mức độ thay đồi R2 biến đưa vào mơ hình đơn giản bình phương hệ số tương quan biến biến phụ thuộc 1.10 Bài tập mơ hình hồi qui bội 1.10.1 Dạng lập mơ hình hồi qui bội Từ liệu mẫu đề u cầu lập mơ hình hồi qui theo phương pháp OLS Mơ hình hồi qui có dạng Y = X B, Y = X B + e Công thức B = (X T X)−1 (X T Y ) n Trongđó xi =(1, x1i ,  x2i , xki ), i = 1,     a x1 y1 e1  x2         , Y =  y2  , B =  b1  , e =  e2  Ví dụ minh họa: X=         xn yn en bk Một công ty muốn mở rộng thị trường thành phố nên đả nghiên cứu thị trường cách tiến hành quảng cáo chào bán sản phẩm Thu thập số liệu 10 tuần số sản phầm bán tuần(Y ), giá sản phẩm X1 (ngàn đồng), chí phí quảng cáo X2 (ngàn đồng), ta có bảng số liệu sau: Giá sản phẩm X1 4.92 5.5 5.54 5.11 5.62 5.24 4.15 4.02 5.77 4.57 Chí phí quảng cáo X2 4.79 3.61 5.49 2.78 5.74 13 5.81 3.39 3.74 3.59 Số sản phầm bánY 425 467 296 626 165 14 270 689 413 561 Hãy lập mơ hình hồi qui bội thể mối liên hệ phương pháp OLS 18 Giải:         11 16 12 1 1 43 58    10 15  11  T  11 10 13  , X T X =  43 471 637  ,Y =  ,X =   13 17 14  58 637 870 16 15 17 10 9 10      13.990 −1.622 0.255 45 −2.881 −1 −1 0.406 −0.189  , X T Y =  496  , B = X T X X T Y =  0.720  XT X =  −1.622 0.255 −0.189 0.122 675 0.441 Vậy phương trình + 0.72X1 + 0.441X2  hồi qui bộidự kiếnY = −2.881  11 16 12  10 15   11         13 17   14  −3.2     −1 T T     0.95  Phương Khi xét X =   10  , Y =   B = X X X Y =  8    0.30      13 14   13  14 15 15 trình hồi qui lúc Y = −3.2 + 0.95X1 + 0.3X2  X=  1 1.10.2 Dạng nêu ý nghĩa hệ số hồi qui từ mơ hình hồi qui Giả sử phương trình hồi qui bội có dạng Y = a + b1 X1 + b2 X2 + + bk Xk + e Khi ý nghĩa hệ số sau ◦ Hệ số tự a cho biết giá trị trung bình biến phụ thuộc Y tất k biến X độc lập có giá trị Hệ số a ẩn chứa biến bỏ sót ngồi mơ hình, thể giá trị Y khơng bị phụ thuộc tuyến tính vào X1 , X2 , , Xk ◦ Hệ số bi , ∀i = 1, k hệ số hồi qui riêng, cho biết với i = 1, , k, trung bình Y thay đổi bi đơn vị biến Xi thay đổi đơn vị biến độc lập lại không đổi Như bi cho thấy ảnh hưởng riêng biến Xi đến trung bình biến Y ◦ e sai số hàm hồi qui bội 1.10.3 Dạng hệ số xác định • Giải thích ý nghĩa hệ số xác định Công thức R2 = SSE SSR =1− SST SST Trong n n (yi − y)2 , SSR = SST = i=1 n (yi − y)2 , SSE = i=1 e2i , y = i=1 n i=1 yi n Lưu ý: ≤ R2 ≤ Ý nghĩa R2 tỉ lệ biến thiên đại lượng phụ thuộc Y giải thích mối liên hệ tuyến tính Y theo biến ngẫu nhiên độc lập có mơ hình hồi qui bội Ví dụ xét mơ hình hồi qui bội số hàng mua chịu ảnh hưởng mức thu nhập trung bình/tháng số tuổi khách hàng Theo cơng thức tính R2 = 6.3 có nghĩa 63% số hàng mua giải thích mối liên hệ tuyến tính số hàng mua theo thu nhập trung bình/tháng số tuổi khách hàng.Và 37% số hàng mua chịu ảnh hưởng yếu tố khác 19 Ta thấy ≤ R2 ≤ đại lượng thể thích hợp mơ hình hồi qui bội liệu • Hệ số xác định điều chỉnh Dạng toán có thề u cầu tính, kiểm tra biến có nên đưa vào mơ hình hay khơng Cơng thức SSE/[n − (k + 1)] n−1 R2 = − = − (1 − R2 ) SST /(n − 1) n−k−1 Lưu ý: R2 ≤ R2 âm (lúc mơ hình khơng có ý nghĩa) Để thêm biến vào mơ hình phải thỏa hai điều kiện: - Làm R2 tăng lên - Khi kiểm định giả thiết hệ số hồi qui biến mô hình (kiểm định t hệ số hồi qui riêng) phải bác bỏ giả thiết H0 , tức hệ số phải có ý nghĩa 1.10.4 Dạng yêu cầu kiểm định tổng qt ý nghĩa mơ hình Bài tốn nhằm kiểm tra tồn mối liên hệ tuyến tính biến phụ thuộc chịu ảnh hưởng Y với biến độc lập ảnh hưởng X1 , X2 , , Xk H0 : R2 = ↔ βi = 0, ∀i Giả thuyết kiểm định H1 : R2 = ↔ tồn tạiβj = Nếu chấp nhận H0 tức không tồn mối liên hệ tuyến tính Y với biến Xi Ngược lại, bác bỏ H0 kết luận có mối liên hệ tuyến tinh Y với biến ảnh hưởng Xi SSR/k R2 (n − k − 1) M SR = = * Bước 1: Tính F = M SE SSE/(n − k − 1) (1 − R2 )k Tra bảng tìm Fα (k, n − k − 1) * Bước 2: Kết luận bác bỏ H0 F > Fα (k, n − k − 1) p(F ∗ > F ) ≤ α Bảng Anova thể đại lượng MSR,MSE Bảng Anova cho toán hồi qui bội Biến thiên Tổng chênh lệch bình phương Bậc tự Hồi qui SSR k Sai số SSE n-k-1 Tổng cộng SST n-1 Phương sai SSR M SR = k SSE M SE = n−k−1 Giả định F M SR F = M SE Ví dụ Xét phương trình hồi qui yi = 1360.84 − 110.2x1i − 89.82x2i , i = 1, , 10 thể phụ thuộc sản phẩm bán Y với chi phí quảng cáo X1 giá thành sản phẩm X2 Giá trị tiêu chuẩn thống kê F = 11.91675 Với mức ý nghĩa α = 0.05 giá bán chi phí quảng cáo có ảnh hưởng đến số lượng sản phẩm bán hay không? H0 : R2 = ↔ βi = 0, i = 1, Để trả lời câu hỏi ta cần kiểm định toán sau: H1 : R2 = ↔ tồn tạiβj = Ta có n = 10, k = tra bảng phân phối Fisher có F0.05 (2, 7) = 4.77 < F Như bác bỏ H0 hay sản phẩm bán chịu ảnh hưởng bời chi phí quảng cáo giá thành sản phẩm 1.10.5 Kiểm định hệ số phương trình Với mức ý nghỉa đề cho trước Kiểm định giả thuyết mơ hình hồi qui bội nhằm kiểm định giả thuyết tồn mối liên hệ tuyến tính biến phụ thuộc Y biến độc lập Xi thông qua hệ số hồi qui riêng Xét giả thuyết kiểm định có dạng sau: 20 * Giả thuyết không: H0 : βi = βi∗ * Giả thuyết đối: H1 : βi = βi∗ Thông thường cho đơn giản chọn βi∗ = Nếu kiểm định chấp nhận H0 , ta kết luận không tồn mối liên hệ tuyến tính Y biến Xi Ngược lại bác bỏ H0 tồn liên hệ tuyến tính Y Xi , Y chịu ảnh hưởng biến Xi Có phương pháp để kiểm định hệ số hồi qui sau - Kiểm định dùng trị thống kê t (kiểm định t, t − test) - Khoảng tin cậy - Mức ý nghĩa xác (p − value) 1.10.6 Phương pháp kiểm định t bi − βi∗ , Se(bi ) = Se(bi ) * Bước 2: Tra bảng t-student tìm t(n−(k+1),α/2) * Bước 3: Quy tắc định - Nếu |ti | ≤ t(n−(k+1),α/2) chấp nhận H0 - Nếu |ti | > t(n−(k+1),α/2) bác bỏ H0 * Bước 1: Tính giá trị ti = 1.10.7 M SE , (j=1, ,k) xij − nxij n i=1 Khoảng tin cậy * Ước lượng khoảng βi với độ tin cậy (1 − α)100% bi ± i , i = t(n−(k+1),α/2 )Se(bi ) , (α mức ý nghĩa giả thiết H0 ) * Quy tắc định - Nếu βi∗ ∈ (bi − i , bi + i ) chấp nhận H0 - Nếu βi∗ ∈ / (bi − i , bi + i ) bác bỏ H0 1.10.8 Kiểm định p − value p − value mức ý nghĩa quan sát, xác suất mắc sai lầm loại tối đa bác bỏ giả thuyết H0 với tập liệu mẫu quan sát.p − value = P (|t| ≥ |ti |) bi − βi∗ , P (T > |ti |) = p * Tính ti = Se(bi ) - Nếu p > α chấp nhận H0 - Nếu p ≤ α bác bỏ H0 (Phương pháp thường dùng tiến hành máy tính) Ngồi việc kiểm định giả thuyết theo hệ số hồi qui riêng mối liên hệ tuyến tính phương trình thực tế trường hợp khác cần kiểm định giả thuyết theo hệ số hồi qui riêng, chia làm loại: kiểm định hai bên, bên trái bên phải • Kiểm định hai bên H0 : bi = βi∗ H1 : bi = βi∗ Bác bỏ H0 |ti | > tn−k−1,α/2 • Kiểm định bên trái H0 : bi ≥ βi∗ H1 : bi < βi∗ Bác bỏ H0 ti < −tn−k−1,α • Kiểm định bên phải H0 : bi ≤ βi∗ H1 : bi > βi∗ 21 Bác bỏ H0 ti > tn−k−1,α Ví dụ Phương trình hồi qui có dạng Y = a + bX + cZ Trong Y điểm trung bình học kì gần nhất, X thời gian tự học trung bình (giờ/ngày), Z giới tính, Z = nam, Z = nữ Một bạn nhận xét hiệu trung bình tự học sv nam thật cao sv nữ Với mức ý nghĩa 1% nhận xét có khơng, sao? Thì toán kiểm định bên phải với giả thuyết: H0 : c ≤ KQTB nam không lớn nữ H1 : c > KQTB nam thực lớn nữ Lưu ý: phương trình hồi qui có dạng yi = a + b1 x1i + b2 x2i phương sai độ lệch chẩn cho công thức V ar(b1 ) = V ar(b2 ) = Với r12 = σ2 , Se(b1 ) = ) x1i (1 − r12 V ar(b1 ) σ2 , Se(b2 ) = n i=1 x2i (1 − r12 ) V ar(b2 ) n i=1 n i=1 x1i x2i ) n n 2 i=1 x1i ) i=1 x1i )( ( ( Với mức ý nghĩa α = 0.05 cho qía sản phẩm(X2 ) tăng doanh số bán hàng (Y ) giàm khơng? Ta có phương trình hồi qui Y = a + b1 X1 + b2 X2 H0 : b2 = Nếu b2 âm X2 tăng Y giảm ta xét toán kiểm định trái sau H1 : b2 < Bác bỏ H0 t2 < −t10−2−1,0.05 Tính t2 = b2 /Se(b2 ) = −110.29/47.91 = −2.301 Tra bàng t(7, 0.05) = 1.895 t2 < −t(2, 7) Vậy bác bỏ H0 , nhận xét 1.10.9 Ước lượng khoảng cho hệ số hồi qui Công thức: Khoảng tin cậy βi với độ tin cậy − α βi ∈ (bi ± tn−(k+1),α/2 Se(bi )) Xét ví dụ Tìm ước lượng khoảng hệ số hồi qui riêng với độ tin cậy 95% Trong bảng kết ta có a = 1360.84, b1 = −110.2952, b2 = −89.8240 Se(a) = 258.4298, Se(b1 ) = 47.9185, Se(b2 ) = 20.6935 Tra bảng ta có t(7, 0.025) = 2.365 , áp dụng cơng thức ta có khoảng ước lượng b1 , b2 β1 ∈ (−110.2952 ± 2.365x47.9185) → −223.622 < β1 < 3.032 β2 ∈ (−89.8240 ± 2.365x20.6935) → −138.765 < β2 < −40.8836 1.10.10 Dự đốn phân tích hồi qui bội Các giá trị cho trước k biến X x1,n+1 , x2,n+1 , , xk,n+1 giá trị dự đoán yi yi = a + b1 x1,n+1 + b2 x2,n+1 + + bk xk,n+1 22 2.1 Hồi qui phi tuyến (Nonlinear Regression) Giới thiệu Mơ hình hồi qui nghiên cứu mối liên hệ biến ngẫu nhiên độc lập X1 , X2 , , Xk biến phụ thuộc Y có dạng Y = Fδ (X1 , X2 , , Xk ) + Nhưng khác với mơ hình hồi qui bội mối liên lúc khơng tuyến tính mà trở thành phi tuyến tính, nói cách khác hàm Fδ hàm phi tuyến theo tham số δ = β1 , , βk 2.2 2.2.1 Môt số mơ hình hồi qui phi tuyến Mơ hình tiêu thụ Oxy Để xác định lượng Oxy tiêu thụ người ta làm thí nghiệm thu mơ hình sau: Fδ (x) = δ1 (1 − e−δ2 x ) Với δ1 lượng oxy ban đầu tốc độ tiêu thụ δ2 sau thời gian ni cấy x lượng oxy lại δ1 (1 − e−δ2 x ) ta thấy hàm Fδ hàm phi tuyến 2.2.2 Các mơ hình khác Ngồi ta số mẫu mơ hình khác hồi qui phi tuyến thực tế sau Mơ hình sướng núi (Enzym Kinetics) Fδ (x) = δ1 xδ3 δ2 + xδ3 Hàm tính tốn tăng trường Mitscherlich Fδ (x) = δ1 + δ2 exp(δ3 x) 2.3 Mộ số dạng hồi qui phi tuyến Dạng đa thức bậc cao Y = a + b1 X + b2 X + + bm X m Dạng tương tác biến phụ thuộc Y = a + b1 X + b2 X + b3 X X Dạng hàm ngược Y = a + b1 X + b2 X 23 Dạng hàm mũ Y = abX Dạng hỗn hợp Y = a + b1 X1 + b2 X2 + b3 X1 X2 + b4 X12 + b5 X22 2.4 Hàm hồi qui phi tuyến dạng tích Phát biểu tốn Trong kinh tế khoa học kĩ thuật ta thường gặp toán ước lượng hệ số y = b0 xb11 + xb22 + + xbnn (1) Giả sử ta có m quan sát biến xi y: y t , xt1 , xt2 , , xtn (2) với t = 1, 2, , m Hãy xác định hệ số b0 , b1 , , bn dùng hàm để dự báo giá trị biến y biết trước giá trị biến xi Thuật toán giải Để ước lượng tham số (1) ta đưa dạng hàm hồi qui tuyến tính bội cách lấy log (1): lny = lnb0 + b1 lnx1 + b2 lnx2 + + bn lnxn Đặt Y = lny, a = lnb0 , Xi = lnxi (i = 1, 2, , n), phương trình hồi qui phi tuyế (1) trở thành Y = a + b1 X1 + b2 X2 + + bn Xn Từ dãy số liệu (2) ta tính giá trị quan sát Y t , X1t , X2t , , Xnt với t = 1, 2, , m Dùng phương pháp hồi qui tuyến tính bội ta ước lượng hệ số a, b1 , b2 , , bn , từ b0 = exp(a) Hàm sản xuất Cobb-Douglas Trường hợp riêng (1) hàm sản xuất Cobb-Douglas dạng đơn giản: Y = ALα K β Y sản lượng, L số lượng lao động, K lượng vốn, A suất toàn nhân tố Các hệ số α, β hệ số co giãn theo sản lượng lao động vốn; chúng cố định công nghệ định Nếuα + β = hàm X có lợi tức không đổi theo qui mô, dù lao động vốn có tăng thêm 0.2 lần thứ sản lượng tăng thêm 0.2 lần Ngược lại hàm có lợi tức giảm, α + β < hàm có lợi tức giảm dần, α + β > hàm có lợi tức tăng dần theo qui mơ 2.5 2.5.1 Phương pháp OLS cho mơ hình hồi qui phi tuyến Nội dung phương pháp Trong trường hợp hàm hồi qui phi tuyến đưa vè dạng tuyến tính,ta xấp xỉ chúng hàm tuyến tính, từ đưa mơ hình hồi qui bội mẫu Xét mơ hình hồi qui phi tuyến có dạng Yi = f (Xi , β) + i Sai số i có kì vọng phương sai khơng đổi Với thiết lập này, ta dựa vào số lý thuyết phương pháp bình phương cực tiểu OLS đề cập mục trước Tuy nhiên dạng mơ hình phi tuyến cần phải sử dụng kỹ thuật khác 24 Ta đặt n (yi − f (Xi , β))2 ϕ= i=1 Ta cần xác định b = argminβ ϕ Tức ta tìm nghiệm bi cho phương trình đạo hàm riêng theo hệ số βi 0, nghiệm tham số ước lượng Tuy nhiên hàm phi tuyến tính nên việc giải chúng đơi khó khăn Do phương pháp số lặp (tính xấp xỉ dãy phát triển Mặc dù có nhiều khó khăn phát sinh nhưngcũng có biện pháp để khác phục chúng 2.5.2 Các thuật toán cho xấp xỉ OLS phi tuyến Các thuật toán cho xấp xỉ OLS phi tuyến gồm • Phương pháp Newton: phương pháp cổ điển dựa xấp xỉ gradient, việc tính tốn khó khăn phụ thuộc nhiều vào giá trị bắt đầu phải chọn tốt • Thuật tốn Gauss-Newton: sửa đổi phương pháp Newton, cho thấy cách tốt để xấp xỉ gần lời giải phương pháp Newton đề cập, thuật tốn khơng bảo đảm hội tụ • Phương pháp Levenberg-Marquardt: giải khó khăn tính tốn phát sinh với phương pháp khác, đòi hỏi tìm kiếm dài dòng cho giá trị tối ưu hệ số ước lượng Tài liệu tham khảo [1] Thống kê ứng dụng Quản trị kinh doanh nghiên cứu kinh tế [2] Giáo trình giảng dạy hồi qui bội kinh tế Fullbright, Ramu Ranamathan 25

Ngày đăng: 20/06/2018, 14:53

TỪ KHÓA LIÊN QUAN

w