Bài báo này nhằm giới thiệu ứng dụng của R để ước lượng và phân tích bài toán hồi quy trong kinh tế lượng – một lĩnh vực cũng đang rất thời sự trong kinh tế học.
Huỳnh Vũ Ngọc Ánh, Hoàng Nhật Quy Huỳnh Thị Oanh Triều 247 Ứng dụng phần mềm R Kinh tế lượng Huỳnh Vũ Ngọc Ánh, Hoàng Nhật Quy Huỳnh Thị Oanh Triều Khoa Toán, Trường ĐH Sư phạm - ĐHĐN nhuynhanh41@gmail.com, hoangnhatquy@gmail.com, oanhtrieuhuynh@gmail.com Tóm tắt R phần mềm dùng cho phân tích thống kê vẽ biểu đồ khởi xướng R Ihaka R Gentleman năm 1996 [1] Ý tưởng giới thống kê học ủng hộ tập trung phát triển R thành ngơn ngữ máy tính đa hồn tồn miễn phí [3] Đặc điểm với công tốt nên R ngày sử dụng phổ biến nhiều lĩnh vực Bài báo nhằm giới thiệu ứng dụng R để ước lượng phân tích tốn hồi quy kinh tế lượng – lĩnh vực thời kinh tế học Từ khóa: phần mềm R, hồi quy, kinh tế lượng, kinh tế vi mô, kinh tế vĩ mô Đặt vấn đề Về phần mềm ứng dụng kinh tế lượng, phân tích xử lý số liệu, vẽ biểu đồ có lẽ tên Eviews, Stata, SPSS, S-plus, Mathlab quen thuộc Một mặt, phần mềm thương mại nên việc sử dụng chúng đòi hỏi phải có chi phí quyền Đây vấn đề quan trọng, đặc biệt bối cảnh hội nhập quốc tế ngày sâu rộng theo thời gian Mặt khác, chúng phần mềm chuyên dụng, phù hợp với số lĩnh vực Chẳng hạn, cơng việc phân tích liệu mảng nên chọn Stata, dùng kinh tế lượng dùng Eviews, cịn phân tích thống kê đa biến phân tích EFA, CFA nên chọn SPSS Ngược lại, phần mềm R hoàn toàn khắc phục vấn đề Một mặt, phần mềm mã nguồn mở [3], mặt khác R thực tất phân tích mà phần mềm thương mại nói làm làm tốt Với lợi vậy, mà R sử dụng phổ biến học tập, giảng dạy nghiên cứu nhiều trường đại học giới Ở Việt Nam, năm gần R bắt đầu sử dụng dạy học số trường đại học lớn trường ĐH Kinh tế quốc dân, ĐH Thương mại, ĐH Kinh tế TP Hồ Chí Minh Tại ĐH Đà Nẵng, R bắt đầu quan tâm đưa vào ứng dụng Tháng 10/2017, Khoa Y Dược – ĐHĐN khai mạc khóa học “Phương pháp nghiên cứu khoa học công bố quốc tế” GS Nguyễn Văn Tuấn, mà nội dung sử dụng R thiết kế nghiên cứu phân tích liệu [5] Trước đó, Hội thảo Cita lần thứ (2013), Hoàng Nhật Quy giới thiệu nghiên cứu ứng dụng R giải tốn Quy hoạch tuyến tính [2] Chúng tơi hy vọng báo nghiên cứu ứng dụng R Kinh tế lượng mang tới cho bạn sinh viên đồng nghiệp ĐH Đà Nẵng cơng cụ góp phần giới thiệu việc sử dụng rộng rãi R Việt Nam Kết nghiên cứu Nghiên cứu mối quan hệ chi tiêu với lương nguồn thu nhập khác, người ta tiến hành khảo sát thu bảng số liệu sau đây: 248 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC Bảng Số liệu khảo sát (đơn vị: triệu đồng) Chi tiêu Lương TN khác 24.4 31.2 29.2 23.6 36.0 31.4 32.6 36.8 32.8 29.8 30.2 26.8 20 16 30 10 28 24 32 18 36 10 32 16 34 24 24 28 22 20 28 30 Việc sử dụng R để nghiên cứu định lượng mối quan hệ phụ thuộc CHI TIÊU vào LƯƠNG THU NHẬP (TN) KHÁC trường hợp hồi quy đơn hồi quy bội trình bày sau 2.1 Hồi quy tuyến tính đơn Giả sử X, Y biến kinh tế (Y biến phụ thuộc, X biến giải thích) Mơ hình hồi quy tuyến tính đơn có dạng Y = b + aX + ε Trong đó, a gọi độ dốc (slope), b gọi tung độ gốc (Intercept); a, b gọi hệ số hồi quy Đối với ví dụ trên, cần nghiên cứu mối quan hệ CHI TIÊU LƯƠNG Dựa vào số liệu bảng sử dụng phần mềm R , thực việc ước lượng hệ số a, b mơ hình hồi quy, thực số phân tích kiểm định khác cụ thể sau - Nhập số liệu vào R: sử dụng lệnh sau > chitieu luong chitieu [1] 24.4 31.2 29.2 23.6 36.0 31.4 32.6 36.8 32.8 29.8 30.2 26.8 > luong [1] 20 30 28 24 32 36 32 34 24 22 28 30 - Lệnh để thực hồi quy tuyến tính đơn lm Lệnh có nhiều tùy chọn Có thể sử dụng lệnh help(lm) để tìm hiểu thêm lệnh lm [xem 3,4] Sau ước lượng, mơ hình hồi quy đơn Chi tiêu Lương có dạng sau: Chitieu = (Intercept) + (slope).luong > hoiquydon hoiquydon Call: lm(formula = chitieu ~ luong) Coefficients: (Intercept) luong 15.6192 0.5217 Như có mơ hình: Chitieu = 15.6192 + 0.5217.luong - Để vẽ đường hồi quy, cách thực sau > plot(chitieu~luong) > abline(hoiquydon) Huỳnh Vũ Ngọc Ánh, Hoàng Nhật Quy Huỳnh Thị Oanh Triều 249 Hình Đường hồi quy chitieu~luong - Để hiển thị thông tin chi tiết ước lượng mơ hình hồi quy đây, cách làm sau > summary(hoiquydon) Call: lm(formula = chitieu ~ luong) Residuals: Min 1Q -4.5394 -1.9894 Median -0.0478 3Q Max 2.8889 4.6606 Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) 15.6192 5.7370 2.723 0.0215 * luong 0.5217 0.1997 2.612 0.0259 * Signif codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ Residual standard error: 3.285 on 10 degrees of freedom Multiple R-squared: 0.4056, Adjusted R-squared: 0.3462 F-statistic: 6.824 on and 10 DF, p-value: 0.02594 Từ bảng số liệu vào tiêu chuẩn thống kê, nhận định mơ hình hồi quy khơng tốt vì: R2 = 0.4056 nhỏ (so với 1) F = 6.824 nhỏ Nhưng mơ hình có ý nghĩa thơng kế p=0.02594 < 0.05 - Về thông số Phần dư (Residuals): Ở bảng chi tiết cho giá trị nhỏ (Min), giá trị lớn (Max) trung vị (Median) phần dư Để hiển thị thông tin cụ thể phần dư, cách làm sau > phandu phandu -1.65270936 -0.06945813 -1.02610837 -4.53940887 3.68719212 -2.99950739 10 11 12 0.28719212 3.44384236 4.66059113 2.70394089 -0.02610837 -4.46945813 Vẽ biểu đồ phần dư > hist(phandu) 250 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC Hình Biểu đồ phần dư - Tìm khoảng ước lượng cho hệ số hồi quy (mặc định với độ tin cậy 95%) > confint(hoiquydon) 2.5 % 97.5 % (Intercept) 2.83630060 28.4021230 luong 0.07672091 0.9666288 - Nếu muốn tìm khoảng ước lượng với độ tin cậy cho trước, chẳng hạn 90% cách làm sau > confint(hoiquydon, level=0.9) 5% 95 % (Intercept) 5.2210584 26.017365 luong 0.1597308 0.883619 - Phân tích thơng tin hồi quy từ bảng ANOVA: > anova(hoiquydon) Analysis of Variance Table Response: chitieu Df Sum Sq Mean Sq F value Pr(>F) luong 73.66 73.660 6.8242 0.02594 * Residuals 10 107.94 10.794 Signif codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ Ở RSS (với df2=12-2=10 bậc tự do) 107.94 ESS (với df1=1 bậc tự do) 73.66 Và có TSS=RSS+ESS, kiểm tra lại R2=ESS/TSS=0.4056 Bảng anova hiển thị giá trị thống kê F = 6.8242 = (ESS/df1)/(RSS/df2) 2.2 Hồi quy tuyến tính bội Giả sử Y, X1, X2, …, Xn biến kinh tế (Y: biến phụ thuộc, cịn X1, X2, …, Xn biến giải thích) Mơ hình hồi quy tuyến tính bội có dạng Y = b + a1 X + a X + ⋯ + a n X n + ε Trong ví dụ đây, cần nghiên cứu mối quan hệ phụ thuộc Chi tiêu vào Lương TN khác - Nhập số liệu vào R > chitieu luong tnkhac hoiquyboi summary(hoiquyboi) Call: lm(formula = chitieu ~ luong + tnkhac) Residuals: Min -2.34689 1Q Median -0.98818 0.04292 3Q Max 0.98416 2.36009 Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) 10.85676 3.21030 3.382 0.008103 ** luong 0.54890 0.10703 5.129 0.000621 *** tnkhac 0.30701 0.06032 5.089 0.000654 *** Signif codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ Residual standard error: 1.759 on degrees of freedom Multiple R-squared: 0.8467, Adjusted R-squared: 0.8127 F-statistic: 24.86 on and DF, p-value: 0.0002161 Từ bảng số liệu chi tiết đây, mô hình hồi quy bội ước lượng Chitieu = 10.85676+0.554890.luong + 0.30701.tnkhac Theo tiêu chuẩn thống kế mơ hình hồi quy ước lượng tốt vì: R2 = 0.8467 gần với 1, F = 24.86 lớn số thống kê p = 0.0002161 nhỏ Từ bảng số liệu có thông tin phần dư (Residuals) Để hiển thị chi tiết phần dư lập biểu đồ cách thực tương tự mục hồi quy tuyến tính đơn - Khoảng tin cậy hệ số hồi quy mơ hình ước lượng khoảng theo công thức â1 − t ∝/2 se(â) a1 + t ∝/2 se(â) ≤ a1 ≤ ̂ Trong R, việc tìm khoảng ước lượng hệ số hồi quy thực sau (giả sử độ tin cậy 99%) > confint(hoiquyboi, level=0.99) 0.5 % (Intercept) 0.4238061 luong 99.5 % 21.2897085 0.2010778 0.8967173 252 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC tnkhac 0.1109680 0.5030544 - Hiển thị ma trận hệ số tương quan > vcov(hoiquyboi) (Intercept) luong tnkhac (Intercept) 10.30603427 -0.3287460712 -0.0564491727 luong -0.32874607 0.0114547543 0.0003226691 tnkhac -0.05644917 0.0003226691 0.0036389908 - Kiểm định Wald ràng buộc hệ số hồi quy: Giả thiết H0: ma1 + na2 = p Đối thiết H1: ma1 + na2 ≠ p Chẳng hạn, kiểm định mơ hình hồi quy bội với giả thiết a1=2a2 Việc kiểm định thực R sau Ở ta có: m=1, n= -2, p=0 > library(AER) > linearHypothesis(hoiquyboi,"luong=2*tnkhac") Linear hypothesis test Hypothesis: luong - tnkhac = Model 1: restricted model Model 2: chitieu ~ luong + tnkhac Res.Df RSS Df Sum of Sq 10 28.365 27.834 0.53061 F Pr(>F) 0.1716 0.6884 Từ số liệu kiểm định ta có: Pr(>F) = 0.6884 > 5% từ có chứng thống kê để chấp nhận giả thiết gốc 2.3 Một số mơ hình hồi quy phi tuyến Trong mục này, nội dung xét mơ hình đa thức đưa định hướng để thực hồi quy R mơ hình phi tuyến nói chung Giả sử biến kinh tế Y X quan hệ với theo mơ hình hồi quy đa thức sau Y = a0 + a1X + a2X2 + … + anXn Lệnh để thực tìm hệ số hồi quy R mơ hình đa thức sau > hoiquydathuc hoiquydathuc2 summary(hoiquydathuc2) Call: lm(formula = chitieu ~ tnkhac + I(tnkhac^2)) Residuals: Min 1Q Median -7.3399 -1.2804 0.9104 3Q Max 1.6970 3.7785 Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) 25.819306 2.408111 10.722 2e-06 *** tnkhac 0.484940 0.402446 1.205 0.259 I(tnkhac^2) -0.007181 0.014291 -0.503 0.627 Signif codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ Residual standard error: 3.435 on degrees of freedom Multiple R-squared: 0.4152, Adjusted R-squared: 0.2852 F-statistic: 3.195 on and DF, p-value: 0.08944 Từ bảng số liệu chi tiết có: Hàm hồi quy ước lượng chitieu = 25.819306 + 0.484940 tnkhac -0.007181 (tnkhac)2 Theo quan điểm thống kế mơ hình hồi quy bậc ước lượng khơng tốt vì: hệ số tương quan R2 = 0.4152 nhỏ so với 1, F = 3.195 nhỏ số p = 0.08944 khả lớn Do p > 5% nên nói mơ hình khơng có ý nghĩa mặt thống kê Mơ hình hồi quy phi tuyến hai biến Y X có dạng Y = F(X, β) + ɛ Và lệnh R để thực hồi quy phi tuyến nls (cấu trúc lệnh nls giống lệnh lm, dùng lệnh help(nls) để xem cấu trúc cụ thể lệnh [xem 3,4]) Giả sử xét mơ hình phi tuyến ε Y= β 1 + e X1 +β2 X2 Biến đổi mô hình dạng tổng quát cách lấy ln (lơ ga rít tự nhiên) hai vế được kết quả: lnY = − ln(1 + eβ1 X1 +β2 X2 ) + ln ε Và R, ước lượng mô hình nói lệnh sau hoiquyphituyen