Chào các bạn, Bài viết này sẽ mở đầu cho series các bài viết giới thiệu về từng bệnh/lỗi của mô hình. Mình sẽ đi từ định nghĩa của bệnh, hậu quả của bệnh đối với ước lượng của mô hình, cách nhận biết và cách xử lý các bệnh này. Bệnh đầu tiên và cũng là một bệnh khá phổ biến trong mô hình hồi quy tuyến tính là đa cộng tuyến. Chúng ta cùng tìm hiểu nhé.
9/15/21, 2:38 PM Hiện tượng đa cộng tuyến (Multicollinearity) – How to STATA How to STATA A set of guides and tutorials for beginners on using Stata effectively Hiện tượng đa cộng tuyến (Multicollinearity) Posted on April 30, 2020May 10, 2020 by Chung Mai Chào bạn, Bài viết mở đầu cho series viết giới thiệu bệnh/lỗi mơ hình Mình từ định nghĩa bệnh, hậu bệnh ước lượng mơ hình, cách nhận biết cách xử lý bệnh Bệnh bệnh phổ biến mơ hình hồi quy tuyến tính đa cộng tuyến Chúng ta tìm hiểu Định nghĩa tượng đa cộng tuyến: Đây tượng mà biến độc lập mơ hình có mối quan hệ tuyến tính với Có trường hợp đa cộng tuyến: Hồn hảo (perfect multicollinearity) khơng hồn hảo (imperfect multicollinearity) Ví dụ: = 2X2 + 3X3 Trường hợp đa cộng tuyến hồn hảo Chúng ta khơng thể thực ước lượng cho biến lúc Các phần mềm phân tích liệu tự động loại bỏ biến ước lượng hệ số hồi quy cho biến lại mà thơi Cịn có: = 2X2 + 3X3 + Vi với Vi sai số ngẫu nhiên tượng đa cộng tuyến khơng hồn hảo Thơng thường gặp tượng thực ước lượng Hậu tượng đa cộng tuyến: Ước lượng OLS ước lượng tốt không bị thiên lệch (gọi BLUE – Best Linear Unbiased Estimator), hệ số ước lượng có sai số lớn, dẫn đến khơng có ý nghĩa thống kê Vậy nên, bác bỏ giả thuyết: beta = Hệ số R2 có giá trị cao hệ số hồi quy khơng có ý nghĩa thống kê Đây dấu hiệu bạn sử dụng để nhận biết tượng Nếu mơ hình bạn có R2 cao, có một, hai biến độc lập có ý nghĩa thống kê thơi, khả cao biến độc lập mô hình có tượng đa cộng tuyến Các hệ số ước lượng trở nên nhạy cảm với thay đổi liệu Khi đưa thêm biến vào mơ hình mà gây tượng đa cộng tuyến dẫn đến làm thay đổi giá trị hệ số ước lượng khác Cách nhận biết tượng đa cộng tuyến: Chúng ta sử dụng cách sau https://stataguide.wordpress.com/2020/04/30/hien-tuong-da-cong-tuyen-multicollinearity/ 1/4 9/15/21, 2:38 PM Hiện tượng đa cộng tuyến (Multicollinearity) – How to STATA Cách 1: Như nói trên, kết ước lượng có giá trị R2 cao biến độc lập có ý nghĩa thống kê khả cao biến độc lập bị ảnh hưởng đa cộng tuyến Bởi vì, R2 thể cho khả giải thích biến độc lập đến biến động biến phụ thuộc Vậy nên, biến độc lập khơng có ý nghĩa thống kê điều có nghĩa biến độc lập khơng có đóng góp vào hệ số R2 Cách 2: Kiểm tra hệ số tương quan cặp biến (pairwise correlations) Đây hệ số tương quan cặp biến với Nếu hệ số cao 0.5 điều đáng lo ngại Tuy nhiên, ko nên bỏ biến khỏi mơ hình vào hệ số Lý hệ số ước tính, biến khác khơng giữ nguyên (hold constant) nên ảnh hưởng đến kết ước lượng Trong STATA, dùng lệnh pwcorr để ước lượng hệ số tương quan Công thức lệnh sau: pwcorr biendoclap1 biendoclap2 … biendoclapn, star(95) Chúng ta bổ sung thêm lựa chọn star(95) phía sau câu lệnh để STATA báo cho biết hệ số tương quan có ý nghĩa thống kê hay không Cách 3: Kiểm tra hệ số tương quan phần (Partial correlation) Hệ số tương quan thực chất tính tốn cặp biến, nhiên biến khác giữ nguyên Để dễ phân biệt so sánh hệ số tương quan pairwise partial Giả sử có biến X1, X2, X3 Chúng ta có hệ số tương quan pairwise r12, r13, r23 Chúng ta có hệ số tương quan partial: r12.3, r13.2 r23.1 Nếu biến X1 có quan hệ tuyến tính với biến X2 X3 có khả hệ số tương quan pairwise r23 bị ảnh hưởng X1 Vậy nên, giữ X1 khơng đổi hệ số r23.1 phản ảnh tốt mối tương quan X2 X3 Tuy nhiên, kết ko phải để loại bỏ biến đâu Trong STATA, dùng lệnh pcorr để ước lượng hệ số tương quan phần Công thức câu lệnh sau: pcorr biendoclap1 biendoclap2 biendoclap3 Cách 4: Hồi quy phụ trợ/hỗ trợ (Auxiliary regressions) Chúng ta hồi quy biến độc lập lên biến độc lập khác kiểm tra kiểm định F mơ hình hồi quy phụ trợ Nếu kiểm định F có ý nghĩa thống kê (P-value < 0.1 0.05), kết hàm ý có tượng đa cộng tuyến biến độc lập Ngược lại, P-value F lớn 0.1 an tâm khơng có tượng đa cộng tuyến mơ hình Có điều cách tốn thời gian bạn xíu Cách 5: Dùng hệ số VIF (Variance Inflation Factor – hệ số phóng đại phương sai) TOF (Tolerance Factor – hệ số dung sai) TOF thực chất nghịch đảo VIF mà thôi, nên bạn dùng hệ số Đối với VIF, hệ số lớn có nghĩa biến có nguy cao gây tượng đa cộng tuyến Ngược lại, hệ số TOF nhỏ nguy hiểm Có nhiều tiêu chuẩn để lựa chọn hệ số VIF hay TOF này, ad theo tác giả Gujarati Hệ số VIF biến nên nhỏ hệ số TOF nên lớn 0.5 Trong STATA, để có hệ số VIF TOF, dùng lệnh estat vif https://stataguide.wordpress.com/2020/04/30/hien-tuong-da-cong-tuyen-multicollinearity/ 2/4 9/15/21, 2:38 PM Hiện tượng đa cộng tuyến (Multicollinearity) – How to STATA estat vif, uncentered Sau chạy hồi quy xong gõ lệnh STATA báo kết hệ số VIF 1/VIF (chính TOF) cho bạn Nếu mơ hình bạn chạy khơng có hệ số chặn (alpha) nên dùng thêm lựa chọn uncentered phía sau câu lệnh Cách xử lý Nếu bạn chắn biến đưa vào mơ hình biến cần thiết quan trọng, đảm bảo tảng lý thuyết chắn khơng cần phải làm trường hợp Bởi hệ số ước lượng OLS khơng bị thiên lệch quán Trong trường hợp, biến khơng cần thiết có hệ số tương quan cao với biến khác, ta bỏ biến khỏi mơ hình (tất nhiên ko cần xố hẳn biến khỏi liệu nha, cần chạy lại mơ hình hồi quy khác khơng đưa biến vào thơi) Tuy nhiên, cách làm thường gọi data-mining, nghĩa ko thực phát triển mơ hình dựa tảng lý thuyết, mà cố gắng khai thác từ liệu để cố tìm mối quan hệ định lượng Vậy nên, muốn nhắc lại: Bạn tìm hiểu thật kỹ lý thuyết chọn lựa biến cần thiết để đưa vào mơ hình Nếu biến khơng có ý nghĩa thống kê let it be thơi Chúng ta dùng phương pháp Principal Component Analysis – PCA (Phân tích thành phần chính) Theo cách này, tạo principal components để thay cho biến độc lập Cái hay phương pháp giúp loại bỏ hồn tồn tượng đa cộng tuyến principal component đảm bảo khơng có mối quan hệ với Tuy nhiên, phương pháp thường thấy sử dụng trường hợp liệu thu thập từ bảng câu hỏi điều tra thơi Ví dụ, bảng hỏi thường có nhóm câu hỏi để làm rõ khía cạnh khác Tất câu hỏi biến bạn Nếu đưa hết câu hỏi vào mô hình nhiều, tượng đa cộng tuyến chắn ln, nên thực PCA để lấy thành phần đại diện cho nhóm câu hỏi Trong trường hợp khác, việc dùng mơ hình với PCA dẫn đến việc khó giải thích ý nghĩa kinh tế mơ hình Vậy nên, nên dùng PCA trường hợp nghiên cứu cần thiết Trong STATA, dùng lệnh pca để trích xuất thành phần này Câu lệnh sau: pca biendoclap1 biendoclap2 … biendoclapn, com(#) Chúng ta nên dùng thêm lựa chọn com() phía sau câu lệnh để nêu rõ số lượng thành phần muốn trích xuất Nhưng không muốn tự lựa chọn khơng Sau STATA chạy pca cho kết eigenvalue Thông thường thành phần có hệ số eigenvalue lớn nhất, giảm dần sau Chúng ta nên chọn đến thành phần có eigenvalue lớn Okay, vấn đề liên quan đến tượng đa cộng tuyến Ad tiếp tục với bệnh khác viết sau Nguồn tham khảo: Gujarati (2012), Econometrics by example Posted in Kinh tế lượng bản, STATA for estimationsTagged multicollinearity, pairwise correlation, partial correlation, đa cộng tuyến https://stataguide.wordpress.com/2020/04/30/hien-tuong-da-cong-tuyen-multicollinearity/ 3/4 9/15/21, 2:38 PM Hiện tượng đa cộng tuyến (Multicollinearity) – How to STATA thoughts on “Hiện tượng đa cộng tuyến (Multicollinearity)” hntien says: March 19, 2021 at 7:40 am Xin hỏi AD làm rõ nội dung :”Hệ số VIF biến nên nhỏ hệ số TOF nên lớn 0.5.” Tuy nhiên, Tôi đọc nhiều tài liệu đề tài nghiên cứu Việt nam hệ số VIF nhỏ 10 chấp nhận được? Reply Chung Mai says: March 19, 2021 at 12:18 pm Vấn đề tuỳ thuộc nhiều vào định nhà nghiên cứu Họ theo quy chuẩn VIF nhỏ hoặc 10 Chọn tiêu chuẩn nới lỏng khả tượng đa cộng tuyến dễ tồn Tiêu chuẩn mà ad trình bày viết theo tác giả Gujarati Và ad nghĩ nên kết hợp nhiều tiêu chuẩn với để đưa định có nên loại biến hay không, đừng dựa vào hệ số VIF mà vội đưa định Reply Website Powered by WordPress.com https://stataguide.wordpress.com/2020/04/30/hien-tuong-da-cong-tuyen-multicollinearity/ 4/4 ... correlation, đa cộng tuyến https://stataguide.wordpress.com/2020/04/30/hien-tuong-da-cong-tuyen-multicollinearity/ 3/4 9/15/21, 2:38 PM Hiện tượng đa cộng tuyến (Multicollinearity) – How to STATA thoughts... PM Hiện tượng đa cộng tuyến (Multicollinearity) – How to STATA Cách 1: Như nói trên, kết ước lượng có giá trị R2 cao biến độc lập có ý nghĩa thống kê khả cao biến độc lập bị ảnh hưởng đa cộng tuyến. .. VIF TOF, dùng lệnh estat vif https://stataguide.wordpress.com/2020/04/30/hien-tuong-da-cong-tuyen-multicollinearity/ 2/4 9/15/21, 2:38 PM Hiện tượng đa cộng tuyến (Multicollinearity) – How to STATA