Bài viết này thảo luận về hồi quy LASSO và hồi quy RIDGE như là một công cụ thống kê nhằm giải quyết các vấn đề hồi quy như ước lượng tham số, lựa chọn mô hình. Ứng dụng thực nghiệm trong bài báo này là trong phân tích các yếu tố ảnh hưởng đến tiền lương của nhân viên bằng việc sử dụng mô hình tuyến tính theo cả hai phương pháp OLS và LASSO kết hợp với RIDGE.
INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2019 ICYREB 2019 HỒI QUY LASSO KẾT HỢP VỚI HỒI QUY RIDGE TRONG PHÂN TÍCH KINH TẾ LASSO REGRESSION COMBINED WITH RIDGE REGRESSION IN ECONOMIC ANALYSIS Võ Thị Lệ Uyển, Phạm Hoàng Uyên Trường Đại học Kinh tế - Luật, Đại học Quốc gia Thành phố Hồ Chí Minh uyenvtl@uel.edu.vn TĨM TẮT Trong ước lượng tham số mơ hình hồi quy, bên cạnh phương pháp OLS, phương pháp LASSO sử dụng rộng rãi với ưu điểm tính khơng phụ thuộc vào P value q trình xác định hệ số thật có ý nghĩa thống kê Bài báo thảo luận hồi quy LASSO hồi quy RIDGE công cụ thống kê nhằm giải vấn đề hồi quy ước lượng tham số, lựa chọn mơ hình Ứng dụng thực nghiệm báo phân tích yếu tố ảnh hưởng đến tiền lương nhân viên việc sử dụng mơ hình tuyến tính theo hai phương pháp OLS LASSO kết hợp với RIDGE Mục tiêu tìm biến có tác động cao đến tiền lương nhân viên cho thấy hồi quy LASSO kết hợp với RIDGE phương pháp thay hiệu cho hồi quy OLS mà khơng phải dùng P-value Từ khóa: Hồi quy, hồi quy OLS, hồi quy RIDGE, hồi quy LASSO, P-value ABSTRACT In estimating the parameters of the regression model, besides the OLS method, LASSO method is also widely used with the advantage of being independent of P value in the determination of the actual statistical significant coefficients This paper discusses LASSO and RIDGE regression as a statistical tool to solve regression problems such as parameter estimation and model selection The empirical application in this paper is in analyzing the factors affecting employees' salaries by using a linear model with both methods of OLS regression and LASSO in combination with RIDGE The goal is to find variables that have a higher impact on employee salaries and show that LASSO regression combined with RIDGE is an effective alternative to OLS regression without using P-value Keywords: Regression, OLS regression, RIDGE regression, LASSO regression, P-value Giới thiệu Như biết, ước lượng tham số mơ hình hồi quy phương pháp OLS, để lựa chọn tập hợp biến độc lập có ảnh hưởng thật đến biến phụ thuộc nhà nghiên cứu thường dùng P-value để định Tuy nhiên, việc sử dụng P-value để thực kiểm tra giả thuyết, mức độ đó, khơng cịn hiệu lực đề cập [1] [2] Bởi P-value bước tiến lớn việc làm cho suy luận thống kê trở nên đáng tin cậy hơn, có số lượng lớn nhà thống kê cố gắng "cứu P-value" Điều dẫn đến nghiên cứu để tìm phương pháp cần thiết khác, không dùng P-value, để thực kiểm tra giả thuyết cách hợp lý [3] Bài báo sử dụng phương pháp để ước lượng tham số mô hình tuyến tính, phương pháp hồi quy LASSO (Least Absolute Shrinkage and Selection Operator) kết hợp với hồi quy RIDGE Ý tưởng đằng sau mơ hình hồi quy LASSO giả định số biến giải thích hồi quy liên kết với tham số Dựa ý tưởng đó, tham số mơ hình hồi quy tuyến tính ước lượng phương pháp tối thiểu hóa tổng bình phương phần dư với điều kiện ràng buộc tổng giá trị tuyệt đối hệ số nhỏ số Vì chất ràng buộc này, phương pháp hồi quy LASSO có xu hướng thu nhỏ tham số tạo số tham số xác khơng từ đưa lựa chọn xác tập hợp tham số hồi quy mà khơng cần kiểm định giả thuyết, không cần dùng P-value; đồng thời thể ổn định mơ hình hồi quy trường hợp có đa cộng tuyến biến giải thích Hơn nữa, chất ràng buộc này, 1315 INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2019 ICYREB 2019 tốn cực trị có ràng buộc có nghiệm khơng qn, khơng thể chứng minh LASSO tốt OLS Tuy nhiên, dựa MSE, mặt dự báo, chứng minh hồi quy RIDGE tốt hẳn hồi quy OLS Hồi quy RIDGE hồi quy Lasso gần sử dụng rộng rãi việc lựa chọn mơ hình, đặc biệt lý thuyết ứng dụng khoa học máy tính Trong [4] hồi quy RIDGE áp dụng theo cách tiếp cận kết hợp mã hóa homomorhpic mạch bị cắt xén Yao Trong đó, hồi quy RIDGE cho thấy kết tốt vượt trội việc lựa chọn mơ hình có tồn đa tuyến [5], [6] Tuy nhiên, hồi quy RIDGE thường sử dụng tất biến giải thích mơ hình có ảnh hưởng đến biến phụ thuộc Trong trường hợp khơng gian tìm kiếm có nhiều biến giải thích khơng liên quan, hồi quy LASSO tìm trả mơ hình có chứa biến quan trọng Trong [7] báo thử nghiệm hồi quy LASSO kết LASSO có kết dự báo cải thiện nhiều Ngoài ra, [8] cho thấy hồi quy LASSO hữu ích việc ước lượng cho mơ hình mạng lưới tâm lý học Cũng [8], báo chứng minh ước lượng LASSO mang lại mơ hình thưa (SPARSE model) có kết hẳn cách sử dụng tham số tăng theo cấp số nhân khơng gian tìm kiếm điều tra Vì lí trên, chúng tơi đề xuất phương pháp hồi quy kết hợp LASSO để lựa chọn tập hợp biến có ảnh hưởng đến biến phụ thuộc hồi quy RIDGE dựa biến lựa chọn để ược lượng hệ số dự báo Cơ sở lý thuyết phương pháp nghiên cứu 2.1 Cơ sở lý thuyết 2.1.1 Hồi quy OLS Giả sử có k biến giải thích X1, X2, , Xk có khả ảnh hưởng đến Y giả sử mối quan hệ chúng tuyến tính, X1 vectơ cột có cấp n1 gồm tất phần tử Khi đó, mơ hình hồi quy tuyến tính OLS đa biến tổng qt có dạng: k yi xij j i (1) j 1 Trong 1 , , , k tham số cần tìm; xij quan sát thứ i biến thứ j với T j 1; k ; i sai số ngẫu nhiên mơ hình với giả thuyết OLS: E i 0; i Var i ; i (2) Cov i , j 0; i j k Mục tiêu tốn hồi quy tìm mơ hình ước lượng: yˆi xij ˆ j Trong đó, hệ j 1 số ˆ j ; j 1; k gọi hệ số ước lượng tham số j ; j 1; k Với mẫu liệu gồm n quan sát, hệ số ˆ j ước tính dựa tốn tìm cực trị hàm: ˆ1 n k ˆ S ˆ yi xij ˆ j với ˆ i 1 j 1 ˆ k 1316 (3) INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2019 ICYREB 2019 Cơng thức (3) viết sau: S ˆ Y X ˆ Y X ˆ T (4) Nếu X T X không suy biến, véctơ ˆ xác định phương trình sau: ˆ X T X 1 X Y T (5) Trong (5), ma trận X T X khả nghịch nghiệm ˆ xác định Tuy nhiên, ma trận X T X khơng khả nghịch, hay cịn gọi có đa cộng tuyến biến giải thích, việc xác định ˆ khơng thể khơng xác Ngồi ra, mơ hình tuyến tính ưa dùng dễ sử dụng, dễ cài đặt việc diễn giải kết dễ hiểu Tuy nhiên, lớp mơ hình tuyến tính cần giả định sai số có phân bố chuẩn, liệu quan hệ tuyến tính để có kết dự báo hợp lý Ngoài ra, kết hồi quy dùng mơ hình tuyến tính thường có lỗi dự báo cao gặp khó khăn liệu phức tạp như: i Có số liệu trống (missing value), ii Số liệu dạng số, iii Số lượng biến gấp nhiều lần so với số lượng mẫu (hay k >> n), điều xảy trường hợp có số lượng lớn biến giải thích cho quan trọng lại có quan sát Ngay trường hợp n k , để giảm số lượng biến giải thích mơ hình hồi quy, thường tiến hành theo hai bước sau: Bước 1, sử dụng ước lượng bình phương tối thiểu tất biến X1, X2, , Xk sau dựa vào P-value thực kiểm định giả thuyết: H0 : j H : m m1 m p H1 : vs H H1 : j (6) để xác định loại trừ biến giải thích khơng ảnh hưởng đến biến phụ thuộc Y Bước 2, thử lại mơ hình với biến giải thích cịn lại Sau dựa vào hệ số R , AIC, để so sánh lựa chọn tập hợp biến giải thích mà có ảnh hưởng đến biến phụ thuộc Y Nhưng việc lựa chọn tập hợp biến giải thích có ảnh hưởng đến biến phụ thuộc kiểm định dựa theo P-value khơng cịn phù hợp việc dùng P-value để định chứng minh khơng cịn xác nêu [1] [2] Vì lí trên, cần có phương pháp hồi quy tốt thay cho hồi quy OLS Và đề xuất phương pháp hồi quy LASSO kết hợp hồi quy RIDGE 2.1.2 Hồi quy LASSO Chúng ta sống thời đại mà số lượng sở liệu tăng lên mức không ngờ so với thập kỷ trước Vì vậy, cần phải sử dụng mơ hình tính tốn xử lý lượng liệu phong phú cách xác Có nhiều phương pháp khác để xử lý vấn đề hồi quy OLS, báo này, xem xét hồi quy LASSO kết hợp RIDGE phương pháp thay hiệu cho hồi quy OLS Phương pháp LASSO phương pháp hồi quy tuyến tính đa biến có hiệu chỉnh mơ hình, phương pháp hệ số ˆ j , j 1; k ước tính dựa tốn tìm cực trị hàm: n k S ˆ yi xij ˆ j với điều kiện ràng buộc: || ˆ ||1 t (7) i 1 j 1 Trong || ˆ ||1 k | ˆ j 1 j | chuẩn vectơ ˆ t số lớn 1317 INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2019 ICYREB 2019 Bài toán cực trị có điều kiện tương đương tốn Largrange sau: k k L ˆ , yi xij ˆ j | ˆ j | i 1 j 1 j 1 n Trong λ nhân tử Largrange dùng để điều chỉnh mô hình, chuẩn (8) dùng cho việc dự đốn tham số Tuy nhiên, || ˆ ||1 k | ˆ j 1 j | hàm lồi ( hàm lồi nghiêm ngặt nên có nhiều nghiệm) khơng khả vi Do đó, khơng có cơng thức nghiệm cụ thể cho toán LASSO [9], [10] Rõ ràng, hồi quy LASSO phụ thuộc vào tham số thu nhỏ λ để xác định hệ số có giá trị khơng Tuy nhiên, khơng thể sử dụng đạo hàm riêng để tìm phương án tối ưu tốn Largrange (8) khơng khả vi, [9] Có cách trực tiếp để xác định tham số λ sử dụng phương pháp Cross-validation Một cách thường sử dụng phương pháp Cross-validation chia tập training k tập khơng có phần tử chung, có kích thước gần Tại lần kiểm thử , gọi run, số k tập lấy làm validata set Mơ hình xây dựng dựa vào hợp k – tập lại Cách làm cịn có tên gọi k-fold cross validation Cuối cùng, chọn λ cung cấp cho trung n bình bình phương train error validation error nhỏ nhất, nghĩa MSE e i 1 n i nhỏ nhất, ei chênh lệch giá trị dự báo giá trị thực Mối quan hệ λ t cho công thức [5]: Y ' X X ' X I 1 X X I X Y t 1 ' ' (9) Với X, Y cho trước λ tìm phương pháp Cross-validation, dựa vào (9) ta xác định t điều kiện ràng buộc (7) Trong trường hợp λ đủ lớn có số tham số hồi quy tiến dần 0, chúng khơng đóng vai trị mơ hình hồi quy, với biến có tham số hồi quy ta loại khỏi mơ hình Phương pháp LASSO minh họa hình 1: Hình 1: Hồi quy LASSO 1318 INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2019 ICYREB 2019 Vùng hình thoi xung quanh gốc tọa độ Hình ràng buộc || ˆ || Các hình elip tập hợp bậc khác dùng để tối ưu hóa hàm mục tiêu Nghiệm tối ưu cho hồi quy LASSO tìm thấy góc hình thoi tối thiểu hóa hàm mục tiêu lồi nghiêm ngặt theo điều kiện ràng buộc hình thoi gốc tọa độ Vì nghiệm tối ưu xảy góc hình thoi nên có số tham số có giá trị khơng 2.1.3 Hồi quy RIDGE Xét lại mơ hình hồi quy tuyến tính, dạng ma trận, phần trước: Y X (10) Trong Y R n , R n , R k ma trận liệu X ma trận có cấp n k Hồi quy RIDGE phương pháp hồi quy tuyến tính đa biến có hiệu chỉnh mơ hình, phương pháp hệ số ˆ0 ˆ j , j 1; k ước tính dựa tốn tìm cực trị hàm: ˆ0 ˆ1 n k k L ˆR , yi ˆ0 xij ˆ j ˆ j2 với ˆR i 1 j 1 j 1 ˆ k (11) Gọi ˆR nghiệm toán (11), Nghiệm toán là: ˆR X ' X I 1 X 'Y arg Y X ˆR 2 2 Trong (12), Y X ˆR hàm lồi ˆR 2 ˆR 2 (12) hàm lồi nghiêm ngặt, hàm số (11) lồi nghiêm ngặt nên (11) có nghiệm, [9] Hơn nữa, ma trận X T X I khả nghịch nên (11) ln có nghiệm Như vậy, RIDGE giải vấn đề đa cộng tuyến OLS, [10] Một số tính chất hồi quy RIDGE: i Ước lượng RIDGE ước lượng chệch Ta có: 1 1 E ˆR E X ' X I X 'Y E X ' X I X ' X X ' X I 1 X X ' Suy ra: 1 b ˆ E ˆ X ' X I X ' X X ' X I X ' X I 1 1 X X I ' X X X X I X X I ' ' 1319 ' 1 INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2019 ICYREB 2019 ii Phương sai ước lượng RIDGE 1 1 Var ˆ X ' X I X ' X X ' X I Để so sánh hiệu dự báo OLS RIDGE, ta tiến hành so sánh MSE OLS RIDGE Biết rằng, ma trận X ' X khả nghịch MSE OLS 2tr X ' X Bây cần tính MSE 1 RIDGE ( MSER ) chứng minh MSEOLS MSER tr b ˆ b ˆ Đặt A X X I X X , ' Ta có: MSER tr Var ˆR ta có: MSER 2tr A X ' X 1 R R ' 1 ' ' A' ' A I A I Suy ra, MSEOLS MSER Phương pháp hồi quy LASSO cho phép lựa chọn tập hợp biến có ảnh hưởng đến biến phụ thuộc Y mà không cần tiến hành kiểm định, khơng cần sử dụng P-value Tuy nhiên, phương pháp LASSO khơng có cơng thức nghiệm nên khơng thể chứng minh LASSO tốt hẳn so với OLS Trong đó, hồi quy RIDGE chứng minh tốt OLS độ xác dự báo, thân hồi quy RIDGE lựa chọn tập hợp biến giải thích có ảnh hưởng đến biến phụ thuộc mà không dùng kiểm định, không dùng P-value Do đó, để có thay hiệu cho OLS, ta cần kết hợp LASSO RIDGE 2.2 Phương pháp nghiên cứu Đối với báo này, nhằm mục đích so sánh hai phương pháp hồi quy OLS LASSO kết hợp RIDGE nên báo sử dụng liệu tiền lương nhân viên [11] hàm tiền lương Mincer Biến phụ thuộc mơ hình tiền lương năm (Salary, USD) ln(salary), biến độc lập là: tuổi (age); vị trí cơng việc (Jobcat) gồm vị trí 1: nhân viên; 2: trưởng nhóm/tổ trưởng/Quản đốc; 3: quản lý; số năm học (educ); số tháng làm (prevexp); tiền lương khởi điểm năm (salbegin, USD) Chúng thực ước lượng OLS LASSO kết hợp RIDGE phần mềm R, sau tiến hành so sánh Kết đánh giá Như ta biết, phương trình (10), X phi ngẫu nhiên, β số chưa biết ε biến ngẫu nhiên theo phân phối chuẩn với trung bình phương sai Do đó, Y biến ngẫu nhiên theo phân phối chuẩn Vì vậy, trước tiên cần xem xét phân phối biến phụ thuộc Y 3.1 Kết 3.1.1 Phân phối biến phụ thuộc Xét biểu đồ histogram biểu đồ Q-Q plot biến phụ thuộc salary, ta có: Dựa vào hai biểu đồ ta thấy biến salary không theo phân phối chuẩn Tiếp tục xét biểu đồ histogram biểu đồ Q-Q plot biến phụ thuộc y với y = ln(salary), ta có: 1320 INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2019 ICYREB 2019 Hai biểu đồ cho thấy y theo phân phối chuẩn Do đó, thay sử dụng biến phụ thuộc biến salary, sử dụng biến y hồi quy OLS, hồi quy LASSO hồi quy RIDGE 3.1.2 Hồi quy OLS Thực hồi quy OLS theo mơ hình (1), có dạng: y= β1 + β2age + β3age2+ β4 educ+ β5prevexp + β6teamleader + β7manager + β8salbegin + ε (13) Kết ước lượng mơ hình (13) phương pháp OLS ta có: (Intercept) Age age2 educ salbegin prevexp teamleader manager Estimate 9.774e+00*** -9.705e-03 4.857e-05 2.503e-02*** 2.923e-05*** -1.793e-04 2.990e-01*** 2.022e-01*** Std Error 1.365e-01 7.375e-03 8.913e-05 4.635e-03 2.340e-06 1.687e-04 4.705e-02 4.230e-02 t value Pr(>|t|) 71.586 < 2e-16 -1.316 0.189 0.545 0.586 5.401 1.39e-07 12.491 < 2e-16 -1.062 0.289 6.354 8.13e-10 4.781 2.78e-06 Signif codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ R2= 0.845; RMSE = 0.1957541 Trong mơ hình này, biến age, age2, prevexp khơng có ý nghĩa thống kê Vấn đề có tương quan biến giải thích mơ hình, thật vậy, ta có hệ số tương quan hai biến giải thích age prevexp 0.813440 Như vậy, dùng P-value tiêu chuẩn so sánh để lựa chọn mơ hình khó để đưa định, đặc biệt trường hợp có đa cộng tuyến mơ hình 3.1.3 Hồi quy LASSO RIDGE Tiếp tục ước lượng mơ hình (13) hồi quy LASSO (7) Đầu tiên, để có nhìn trực quan thơng tin quan trọng mơ hình, quan sát đồ thị gồm giá trị hệ số ước lượng trục tung log(λ) trục hồnh: Hình 2: Đồ thị hệ số ước lượng theo log(λ) hồi quy LASSO 1321 INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2019 ICYREB 2019 Các đường cong khác cho biết giá trị hệ số biến thay đổi giảm hình phạt Như thấy, giảm hình phạt nhiều có nhiều hệ số khác khơng mơ hình Biểu đồ hình cho thấy, có bốn biến giải thích quan trọng educ, manager, teamleader salbegin chúng có tương quan đồng biến với biến phụ thuộc hay nói cách khác biến quan trọng mơ hình biến trình độ học vấn, tuổi, vị trị công việc tiền lương khởi điểm Tuy nhiên, giá trị λ mà chọn phụ thuộc vào trung bình bình phương sai số mơ hình, thấy biểu đồ hình sau: Hình 3: Đồ thị MSE theo log(λ) hồi quy LASSO Chúng ta có đồ thị sau thực phương pháp cross-validation Đồ thị hình cho thấy trung bình bình phương sai số trục tung cho giá trị log(λ) trục hồnh, phía đồ thị có số lượng hệ số khác không cho giá trị log(λ) Chúng ta thấy giá trị log(λ) tăng trung bình bình phuong sai số tăng Chúng ta phải cân khả giải thích mơ hình với kết ược lượng mẫu Chúng ta thấy mơ hình có trung bình bình phương sai số nhỏ có hệ số khác không (gồm hệ số số) Phương pháp Cross-validation cho ta giá trị lambda tốt 0.001056649 Khi hệ số khác tương ứng là: (Intercept) 9.715043e+00 age -5.771953e-03 age2 educ 2.436865e-02 salbegin 2.885148e-05 prevexp -1.549027e-04 teamleader 2.887499e-01 manager 2.045209e-01 Theo LASSO có biến age2 khơng ảnh hưởng đến biến phụ thuộc y RMSE = 0.1533306 Kết tốt hẳn so với hồi quy OLS Sau dùng hồi quy LASSO, ta loại bỏ biến age2, tiến hành hồi quy biến lại theo phương pháp hồi quy RIDGE (11) Kết hồi quy RIDGE với lambda tối ưu 0.03380502 cho sau: (Intercept) 9.726342e+00 age -5.067727e-03 educ 2.674505e-02 salbegin 2.458813e-05 prevexp -1.641453e-04 teamleader 2.682288e-01 manager 2.452363e-01 1322 INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2019 ICYREB 2019 Tương tự hồi quy LASSO, hình 4, đường cong cho thấy giá trị hệ số biến thay đổi giảm hình phạt biến vị trí cơng việc, trình độ học vấn tiền lương khởi điểm điểm ảnh hưởng nhiều đến tiền lương nhân viên Hình 4: Đồ thị hệ số ước lượng theo log(λ) hồi quy RIDGE Đồ thị hình (của hồi quy RIDGE) đồ thị hình (của hồi quy LASSO) cho thấy mơ hình có trung bình bình phương sai số nhỏ có hệ số khác khơng (gồm hệ số số) Hình 5: Đồ thị MSE theo log(λ) hồi quy RIDGE Kết dự báo với hồi quy RIDGE cho quan sát cho sau: 13 17 Y.test 9.97348 10.37661 10.23638 10.08581 10.46596 11.54974 9.929226 10.262745 10.164080 10.087989 10.293541 10.885386 Khi đó, RMSE = 0.1948142 3.2 Đánh giá Bài viết ước lượng mô hình tiền lương nhân viên theo hai cách khác OLS LASSO kết hợp với RIDGE Dựa RMSE, mơ hình phù hợp cho liệu mơ hình hồi quy LASSO với RMSE = 0.1533306 Trong RMSE hồi quy OLS 0.1957541 hồi quy RIDGE với biến chọn LASSO RMSE 0.1948142 Như vậy, với liệu xét, hồi quy LASSO phù hợp cho ta kết dự báo với RMSE nhỏ Tuy nhiên, kết 1323 INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2019 ICYREB 2019 LASSO không quán nên chứng minh LASSO tốt so với OLS Kết kết hợp LASSO RIDGE mang lại hiệu OLS có RMSE nhỏ theo lý thuyết thực nghiệm Hơn nữa, dựa vào P-value tiêu chuẩn so sánh mơ hình (1), ta khó để đưa định biến age, age2 prevexp biến thật có ảnh hưởng đến tiền lương nên giữ lại mơ hình Trong đó, mơ hình LASSO (7), khơng cần dùng P-value để thực kiểm định cho khẳng định biến age biến prevexp có ảnh hưởng đến tiền lương Kết luận Bài viết nghiên cứu với mục đích thảo luận phương pháp hồi quy mà không cần dùng P-value, hồi quy LASSO kết hợp RIDGE Ngoài ra, viết nhằm tiến hành ví dụ thực nghiệm để so sánh cụ thể hai phương pháp hồi quy OLS LASSO kết hợp RIDGE thấy hiệu phương pháp việc định biến giải thích thật có ảnh hưởng đến biến phụ thuộc dự báo (do MSE nhỏ hơn) Các kết thực nghiệm cho thấy mơ hình hồi quy LASSO (7), kết hợp với RIDGE (11) cho kết vượt trội OLS (1) hai khía cạnh lựa chọn biến dự báo TÀI LIỆU THAM KHẢO [1] Nguyen HT (2016), On evidential measures of support for reasoning with integrated uncertainty: A lesson from the ban of P-values in statistical inference LNAI; 9978: 3-15 [2] Nguyen HT (2016), Editorial: Why P-values are banned? Thai Stat.; 14(2): i-iv [3] Hung T Nguyen (2019), How to Test Without P-Values? Thailand statistican, 17(2) [4] Valeria Nikolaenko, Udi Weinsberg, Stratis Ioannidis, Marc Joye, Dan Boneh, And Nina Taft Privacy-Preserving Ridge Regression On Hundreds Of Millions Of Records In Ieee Symposium On Security And Privacy, Pages 334–348 Ieee Computer Society, 2013 [5] Bonsang Koo And Byungjin Shin Using Ridge Regression To Improve The Accuracy And Interpretation Of The Hedonic Pricing Model : Focusing On Apartments In Guro-Gu, Seoul In Ieee Symposium On Security And Privacy, Volume 16, Pages 77–85 Korean Institute Of Construction Engineering And Management, 2015 [6] C.B Garca, J Garca, M.M Lpez Martn, And R Salmern Collinearity: Revisiting The Variance Inflation Factor In Ridge Regression Volume 42, Pages 648–661, 2015 [7] Adel Aloraini Ensemble Feature Selection Methods For A Better Regu- Larization Of The Lasso Estimate In P>>N Gene Expression Datasets In Proceedings Of The 12th Conference In Machine Learning And Applica- Tions, Pages 122–126, 2013 [8] Sacha Epskamp, Joost Kruis, And Maarten Marsman Estimating Sychopathological Networks: Be Careful What You Wish For Volume 12, 2017 [9] S Boyd & L Vandenberghe (2004), Convex Optimization Cambridge Univ [10] Hung T Nguyen (2019), LINEAR REGRESSION ANALYSIS WITHOUT P-VALUES NMSU & CMU [11] Giáo trình Kinh tế lượng – Ramu Ramanathan (Nguyên tiếng Anh – Bản dịch tiếng Việt Fulbright) [12] Trevor Hastie, Robert Tibshirani& Jerome Friedman (2017), The Elements of Statistical Learning Data: Mining, Inference, and Prediction Springer [13] Hastie, T., Tibshirani, R., and Wainwright, M (), Statistical learning with Sparsity: The Lasso and Generalizations, Chapman and Hall/ CRC Press 1324 INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2019 ICYREB 2019 [14] Kutner M.H, C.J Nachtsheim & J Neter (2004) Applied Linear Regression Models, McGraw-Hill [15] Miller, A.J.(1984), Selection of subsets of regression variables, J Royal Statist Soc A 147(3), 389-425 [16] Stein, C (1956) Inadmissibility of the usual estimator for the mean of a multivariate normal distribution, Proceedings of the Third Berkeley Symposium on Mathematical Statistics and Probability, 197-206 [17] Stein, C (1981) Estimation of the mean of a multivariate normal distribution, Ann Statist (9), 1135-1151 [18] Tibshirani, R (1996), Regression shrinkage and selection via the Lasso, J Royal Statist Soc.B 58(1), 267-288 1325 ... cách khác OLS LASSO kết hợp với RIDGE Dựa RMSE, mơ hình phù hợp cho liệu mơ hình hồi quy LASSO với RMSE = 0.1533306 Trong RMSE hồi quy OLS 0.1957541 hồi quy RIDGE với biến chọn LASSO RMSE 0.1948142... phương pháp hồi quy mà không cần dùng P-value, hồi quy LASSO kết hợp RIDGE Ngoài ra, viết nhằm tiến hành ví dụ thực nghiệm để so sánh cụ thể hai phương pháp hồi quy OLS LASSO kết hợp RIDGE thấy... biểu đồ cho thấy y theo phân phối chuẩn Do đó, thay sử dụng biến phụ thuộc biến salary, sử dụng biến y hồi quy OLS, hồi quy LASSO hồi quy RIDGE 3.1.2 Hồi quy OLS Thực hồi quy OLS theo mô hình (1),