1. Trang chủ
  2. » Giáo án - Bài giảng

Bài giảng chuẩn đoán mô hình hồi quy lê việt phú

23 387 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 23
Dung lượng 467,42 KB

Nội dung

Chuẩn đoán Mô hình Hồi quy Lê Việt Phú Chương trình Giảng dạy Kinh tế Fulbright Ngày tháng năm 2015 / 23 Table of contents Ôn tập lý thuyết hồi quy tuyến tính đa biến giả định Các bước chuẩn đoán mô hình nghiên cứu thực nghiệm Ví dụ thực tế / 23 Ôn tập lý thuyết hồi quy tuyến tính đa biến giả định Giả sử muốn ước lượng mô hình tuyến tính đa biến: Yi = β0 + β1 × xi1 + + βK × xiK + εi Dưới dạng ma trận: Y = Xβ + ε Trong Y ma trận cột Nx1 (N quan sát tương ứng với N dòng cột); X ma trận Nxk (N quan sát, quan sát có k đặc tính); β ma trận tham số kx1 (k tham số tương ứng với k đặc tính biến giải thích) ε ma trận biến dư Ước lượng phương pháp bình phương tối thiểu: βˆ = [X X ]−1 X Y / 23 Ôn tập lý thuyết hồi quy tuyến tính đa biến giả định Giả định Gauss-Markov để ước lượng OLS BLUE (Best Linear Unbiased Estimator): E [εi ] = Var [εi ] = σ Cov [εi , εj ] = Cov [Xi , εi ] = Mối quan hệ X Y tuyến tính Một số giả định khác: εi độc lập, đồng nhất, phân phối chuẩn (iid, normally distributed) / 23 Một số đặc điểm đáng lưu ý nghiên cứu sử dụng mô hình hồi quy đa biến Xu hướng chọn biến giải thích cho có ý nghĩa thống kê mà không quan tâm đến lý thuyết kinh tế học mô hình ước lượng Với mẫu quan sát lớn, việc tăng số mẫu làm tăng tương quan ngẫu nhiên, thực tế liên hệ biến Xu hướng sử dụng nhiều biến giải thích mô hình, kể biến không thực liên quan khả giải thích mô hình (R ) tăng lên (yˆ −y¯ )2 ESS RSS R = TSS = − TSS = i (yi −y¯i )2 tối đa hóa R¯2 i i i Xu hướng chọn lọc điều chỉnh liệu cho mô hình có kết ý muốn / 23 Các bước chuẩn đoán mô hình nghiên cứu thực nghiệm Thống kê mô tả liệu Chạy thử mô hình hồi quy đơn giản mở rộng Kiểm tra tính tương quan biến giải thích Phát xử lý nghi vấn cấu trúc hàm Hậu hồi quy: rà soát vấn đề xảy lựa chọn mô hình phù hợp Variance Inflation Factors (VIF) Outliers Residuals’ plot DfBeta DfFIT Cook’s distance Leverage / 23 Những cố hay gặp phải mô hình hồi quy đa biến Dữ liệu phân phối bất đối xứng (skewed distribution) Tương quan biến giải thích (multicolinearity) Quan sát ngoại vi (outliers) Hàm ước lượng phi tuyến (nonlinear functions) / 23 Ví dụ thực tế Bộ liệu liệu điểm số SAT cuối cấp (standard assessment test) học sinh trung học Mỹ Bộ số liệu có số liệu trung bình 51 bang Chúng ta muốn ước lượng mô hình hồi quy giải thích điểm SAT theo đặc trưng bang thu nhập (trung vị) hộ gia đình, tỉ lệ chi tiêu trung bình cho học sinh tiểu trung học, tỷ lệ học sinh thi lấy điểm SAT biến giải thích liên quan khác Trong mô hình tạm thời bỏ qua khác biệt khái niệm quan hệ tương quan với quan hệ nhân Học viên thực hành file liệu có tên states.dta / 23 Mô tả biến sử dụng Giả sử quan tâm đến biến sau: Loại biến Tên biến Giải thích Biến phụ thuộc csat điểm số SAT trung bình Biến giải thích expense percent income chi phí trung bình cho học sinh phần trăm học sinh thi lấy điểm SAT thu nhập trung bình hộ gia đình (trung vị) phần trăm người có tốt nghiệp phổ thông phần trăm người có tốt nghiệp cao đẳng đại học high college / 23 Mô tả liệu Variable Obs Mean Std Dev Min Max csat expense percent income high college region 51 51 51 51 51 51 50 944.098 5235.961 35.76471 33.95657 76.26078 20.02157 2.54 66.93497 1401.155 26.19281 6.423134 5.588741 4.16578 1.128662 832 2960 23.465 64.3 12.3 1093 9259 81 48.618 86.6 33.3 Điểm SAT (csat), phần trăm học sinh trung học thi SAT (percent) có phân phối lệch 10 / 23 Hồi quy đa biến tuyến tính Chúng ta bắt đầu mô hình đơn giản nhất, sau thêm dần biến: expense (1) -0.0223*** (0.00367) (2) 0.00335 (0.00478) -2.618*** (0.229) 0.106 (1.207) 1.631 (0.943) 2.031 (2.114) 0.217 0.201 0.824 0.805 percent income high college _Iregion_2 _Iregion_3 _Iregion_4 R-sq adj R-sq (3) -0.00202 (0.00359) -3.008*** (0.236) -0.167 (1.196) 1.815 (1.027) 4.671** (1.600) 69.45*** (18.00) 25.40* (12.53) 34.58*** (9.450) 0.911 0.894 11 / 23 Giải thích mô hình Mô hình 1: chi phí có ý nghĩa thống kê, chiều hướng tác động không kỳ vọng Mở rộng mô hình để kiểm soát biến khác cho thấy chi phí ý nghĩa thông kê ⇒ mô hình (1) không đầy đủ, biến chi phí có tương quan với biến khác mô hình đầy đủ R tăng cao kiểm soát thêm biến mô hình (2) (3) cho thấy cần thiết phải mở rộng mô hình Có thể sử dụng kiểm định F để xác nhận ý nghĩa thống kê biến đưa thêm vào mô hình 12 / 23 Kiểm tra tính tương quan biến csat csat 1.0000 expense -0.4663* 0.0006 -0.8758* 0.0000 -0.4713* 0.0005 0.0858 0.5495 -0.3729* 0.0070 percent income high college expense percent income high college 1.0000 0.6509* 0.0000 0.6784* 0.0000 0.3133* 0.0252 0.6400* 0.0000 1.0000 0.6733* 0.0000 0.1413 0.3226 0.6091* 0.0000 1.0000 0.5099* 0.0001 0.7234* 0.0000 1.0000 0.5319* 0.0001 1.0000 * Có ý nghĩa thống kê mức 5% Dấu hiệu tương quan rõ rệt biến giải thích 13 / 23 Kiểm tra tính tương quan biến giải thích 14 / 23 Xử lý liệu có phân phối lệch? Các giả định Gauss-Markov ước lượng sử dụng OLS BLUE không liên quan đến phân phối liệu, ngoại trừ phân phối biến dư IID chuẩn để kiểm định giả thuyết Tuy nhiên, phân phối lệch làm sai lệch điều kiện phân phối chuẩn biến dư thay đổi phương sai biến dư Nếu có phân phối lệch, cần thiết phải kiểm tra ý nghĩa biến mặt kinh tế Ví dụ ước lượng mô hình liên quan đến tỷ suất, biến phụ thuộc thường logarit ⇒ chuyển đổi đơn vị liệu sang hàm log hạn chế vấn đề phân phối lệch logY = X β + ε 15 / 23 Phát xử lý vấn đề liên quan đến cấu trúc hàm Sử dụng đồ thị phân phối điểm (scatter plot) hồi quy nội (local regression) để chuẩn đoán cấu trúc hàm Khả phần trăm học sinh thi SAT có quan hệ phi tuyến với điểm SAT Tại lại có hệ số góc âm? 16 / 23 Điều chỉnh mô hình csati = β0 +β1 expensei +β2 percenti +β3 incomei +β4 highi +β5 collegei αj Regionj + β6 percenti2 + εi + j expense (1) -0.0223*** (0.00367) (2) 0.00335 (0.00478) -2.618*** (0.229) 0.106 (1.207) 1.631 (0.943) 2.031 (2.114) (3) -0.00202 (0.00359) -3.008*** (0.236) -0.167 (1.196) 1.815 (1.027) 4.671** (1.600) 69.45*** (18.00) 25.40* (12.53) 34.58*** (9.450) 0.217 0.201 0.824 0.805 0.911 0.894 percent income high college _Iregion_2 _Iregion_3 _Iregion_4 percent2 R-sq adj R-sq (4) 0.00141 (0.38) -5.945*** (-9.28) -0.914 (-0.94) 1.869 (2.01) 3.418** (2.98) 5.077 (0.24) 5.209 (0.50) 19.25* (2.37) 0.0460*** (4.52) 0.940 0.927 Ý nghĩa tham số β2 β6 gì? 17 / 23 Hậu hồi quy: kiểm tra tính phù hợp biến giải thích Residuals’ plots Outliers Variance Inflation Factors (VIF) DfBeta DfFIT Cook’s distance Leverage Bias vs effiency tradeoff 18 / 23 Residuals’ plots Kiểm tra khả phương sai thay đổi Bỏ sót biến quan trọng mô hình Định dạng hàm sai 19 / 23 Biến ngoại vi Dựa vào thống kê mô tả đồ thị phân phối Bỏ quan sát ngoại vi ước lượng lại mô hình 20 / 23 Variance Inflation Factor (VIF) Sử dụng để đo lường độ tương quan biến Nếu biến tự tương quan sử dụng mô hình dẫn đến ước lượng phương sai chệch kiểm định thống kê không xác Mô hình ban đầu: csati = β0 +β1 expensei +β2 percenti +β3 incomei +β4 highi +β5 collegei + αj Regionj + εi j VIF tính cách hồi quy biến giải thích Xi dựa vào biến khác, VIFi = 1 − Ri2 Nếu biến Xi tự tương quan với biến khác Ri2 có giá trị cao, dẫn đến VIF lớn Nguyên tắc chung VIF>10 chứng tỏ biến Xi có độ tương quan cao với biến khác 21 / 23 VIF Variable VIF income high college _Iregion_3 percent _Iregion_2 expense _Iregion_4 4.78 4.71 4.34 4.18 3.88 3.57 3.18 1.8 Mean VIF 3.81 Dự đoán điều xảy sử dụng bình phương phần trăm số học sinh thi SAT mô hình ước lượng? 22 / 23 Các công cụ khác DfBeta: kiểm tra liệu ước lượng tham số có bị ảnh hưởng quan sát ngoại vi DfFIT: Kiểm tra liệu có quan sát ngoại vi ảnh hưởng đến ước lượng mô hình hay không Cook’s distance, leverage: kiểm định ảnh hưởng biến ngoại vi 23 / 23 [...]... thích mô hình Mô hình 1: chi phí có ý nghĩa thống kê, nhưng chiều hướng tác động không như kỳ vọng Mở rộng mô hình để kiểm soát các biến khác cho thấy chi phí không còn có ý nghĩa thông kê ⇒ mô hình (1) hoặc là không đầy đủ, hoặc là do biến chi phí có tương quan với biến khác trong mô hình đầy đủ R 2 tăng cao khi kiểm soát thêm các biến trong mô hình (2) và (3) cho thấy sự cần thiết phải mở rộng mô hình. .. ước lượng lại mô hình 20 / 23 Variance Inflation Factor (VIF) Sử dụng để đo lường độ tương quan giữa các biến Nếu các biến tự tương quan được sử dụng trong cùng một mô hình sẽ dẫn đến ước lượng phương sai chệch và kiểm định thống kê không chính xác Mô hình ban đầu: csati = β0 +β1 expensei +β2 percenti +β3 incomei +β4 highi +β5 collegei + αj Regionj + εi j VIF được tính bằng cách hồi quy mỗi biến giải... 15 / 23 Phát hiện và xử lý vấn đề liên quan đến cấu trúc hàm Sử dụng đồ thị phân phối điểm (scatter plot) và hồi quy nội tại (local regression) để chuẩn đoán cấu trúc hàm Khả năng phần trăm học sinh thi SAT có quan hệ phi tuyến với điểm SAT Tại sao lại có hệ số góc âm? 16 / 23 Điều chỉnh mô hình csati = β0 +β1 expensei +β2 percenti +β3 incomei +β4 highi +β5 collegei αj Regionj + β6 percenti2 + εi +... tham số β2 và β6 là gì? 17 / 23 Hậu hồi quy: kiểm tra tính phù hợp của các biến giải thích Residuals’ plots Outliers Variance Inflation Factors (VIF) DfBeta DfFIT Cook’s distance Leverage Bias vs effiency tradeoff 18 / 23 Residuals’ plots Kiểm tra khả năng phương sai thay đổi Bỏ sót biến quan trọng trong mô hình Định dạng hàm sai 19 / 23 Biến ngoại vi Dựa vào thống kê mô tả và đồ thị phân phối Bỏ các... 4.34 4.18 3.88 3.57 3.18 1.8 Mean VIF 3.81 Dự đoán điều gì xảy ra nếu sử dụng bình phương của phần trăm số học sinh thi SAT trong mô hình ước lượng? 22 / 23 Các công cụ khác DfBeta: kiểm tra liệu ước lượng của một tham số có bị ảnh hưởng bởi một quan sát ngoại vi nào đó DfFIT: Kiểm tra liệu có một quan sát ngoại vi nào đó ảnh hưởng đến ước lượng của mô hình hay không Cook’s distance, leverage: các.. .Hồi quy đa biến tuyến tính Chúng ta bắt đầu bằng mô hình đơn giản nhất, sau đó thêm dần các biến: expense (1) -0.0223*** (0.00367) (2) 0.00335 (0.00478) -2.618*** (0.229) 0.106 (1.207) 1.631 (0.943) 2.031 (2.114) 0.217 0.201 0.824... liên quan đến phân phối của dữ liệu, ngoại trừ phân phối của biến dư là IID chuẩn để kiểm định giả thuyết Tuy nhiên, phân phối lệch có thể làm sai lệch điều kiện phân phối chuẩn của biến dư hoặc thay đổi phương sai của biến dư Nếu có phân phối lệch, cần thiết phải kiểm tra ý nghĩa của biến về mặt kinh tế Ví dụ khi ước lượng mô hình liên quan đến tỷ suất, biến phụ thuộc thường là logarit ⇒ chuyển đổi... hình đầy đủ R 2 tăng cao khi kiểm soát thêm các biến trong mô hình (2) và (3) cho thấy sự cần thiết phải mở rộng mô hình Có thể sử dụng kiểm định F để xác nhận ý nghĩa thống kê của các biến đưa thêm vào mô hình 12 / 23 Kiểm tra tính tương quan giữa các biến csat csat 1.0000 expense -0.4663* 0.0006 -0.8758* 0.0000 -0.4713* 0.0005 0.0858 0.5495 -0.3729* 0.0070 percent income high college expense percent ... thuyết hồi quy tuyến tính đa biến giả định Các bước chuẩn đoán mô hình nghiên cứu thực nghiệm Ví dụ thực tế / 23 Ôn tập lý thuyết hồi quy tuyến tính đa biến giả định Giả sử muốn ước lượng mô hình. .. thích mô hình (R ) tăng lên (yˆ −y¯ )2 ESS RSS R = TSS = − TSS = i (yi −y¯i )2 tối đa hóa R¯2 i i i Xu hướng chọn lọc điều chỉnh liệu cho mô hình có kết ý muốn / 23 Các bước chuẩn đoán mô hình. .. nghiệm Thống kê mô tả liệu Chạy thử mô hình hồi quy đơn giản mở rộng Kiểm tra tính tương quan biến giải thích Phát xử lý nghi vấn cấu trúc hàm Hậu hồi quy: rà soát vấn đề xảy lựa chọn mô hình phù hợp

Ngày đăng: 25/04/2016, 10:48

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN