Trong nhiều nghiên cứu, các nhà khoa học đã thực hiện phân tích hồi quy đơn biến để xem xét sự phụ thuộc của một biến (biến phụ thuộc) vào một biến khác (biến giải thích) để ước lượng hay dự đoán giá trị trung bình của biến phụ thuộc trên cơ sở giá trị biết trước của các biến giải thích. Đây là việc làm thường xuyên của các nhà khoa học, tuy nhiên họ chưa đưa ra những căn cứ khoa học lựa cho việc lựa chọn mô hình của mình. Tác giả đã tìm hiểu và giới thiệu 11 dạng mô hình hồi quy đơn biến, đồng thời cung cấp những cơ sở khoa học giúp các nhà khoa học, học viên lựa chọn mô hình hồi quy đơn biến phù hợp nhất cho nghiên cứu của mình.
Trang 1VẤN ĐỀ TRAO ĐỔI
GIẢI PHÁP LỰA CHỌN MƠ HÌNH HỒI QUY ĐƠN BIẾN
SOLUTION FOR SELECTING UNIVARIATE REGRESSION MODEL
Phạm Văn Thơng1
Ngày nhận bài: 27/8/2014; Ngày phản biện thơng qua: 27/11/2014; Ngày duyệt đăng: 10/6/2015
TĨM TẮT
Trong nhiều nghiên cứu, các nhà khoa học đã thực hiện phân tích hồi quy đơn biến để xem xét sự phụ thuộc của một biến (biến phụ thuộc) vào một biến khác (biến giải thích) để ước lượng hay dự đốn giá trị trung bình của biến phụ thuộc trên cơ sở giá trị biết trước của các biến giải thích Đây là việc làm thường xuyên của các nhà khoa học, tuy nhiên họ chưa đưa ra những căn cứ khoa học lựa cho việc lựa chọn mơ hình của mình Tác giả đã tìm hiểu và giới thiệu 11 dạng mơ hình hồi quy đơn biến, đồng thời cung cấp những cơ sở khoa học giúp các nhà khoa học, học viên lựa chọn mơ hình hồi quy đơn biến phù hợp nhất cho nghiên cứu của mình.
Từ khĩa: Hồi quy đơn biến
ABSTRACT
In many studies, scientists have conducted univariate regression analyses to examine the dependence of a variable (a dependent variable) on another variable (an explanatory variable) Then they can estimate or predict the average value of dependent variables basing on known-value of the explanatory variables Scientists have carried out in this way frequently; however, they have not shown scientifi c foundations of their univariate regression models The author have studied and introduced 11 types of univariate regression models, and provided scientifi c foundations in order to help scientists and students choose the best univariate regression models in their researches
Keyword: Univariate Regression
1 ThS Phạm Văn Thơng: Viện Khoa học và Cơng nghệ khai thác thủy sản - Trường Đại học Nha Trang
I MỞ ĐẦU
Hồi quy đơn biến là mơ hình thống kê được sử dụng
để dự đốn giá trị của biến phụ thuộc (dependence
variable) hay cịn gọi là biến kết quả dựa vào những
giá trị của một biến độc lập (independence variable)
hay cịn gọi là biến nguyên nhân
Hiện nay, các nhà nghiên cứu, các học viên cao
học… thường hồi quy theo mơ hình đường thẳng
(linear) mà chưa đưa ra được cơ sở lý luận khoa
học để giải thích vì sao chọn mơ hình đường thẳng
hay bất kỳ dạng mơ hình nào khác Một số khác đưa
ra dẫn chứng chưa thuyết phục như dạng mơ hình
này đơn giản, dễ tính tốn
Bài báo này cung cấp cho các nhà nghiên cứu,
các học viên cao học và độc giả nĩi chung cơ sở lý
luận khoa học đúng đắn giải thích cho việc lựa mơ
hình hồi quy của mình
II NỘI DUNG
1 Phân tích các dạng mơ hình
Với sự phát triển mạnh mẽ của cơng nghệ thơng tin, việc hồi quy khơng cần nhiều thời gian tính tốn như trước mà nĩ được trợ giúp bởi rất nhiều phần mềm từ đơn giản như Microsoft Excel đến phần mềm PASW Statistics 18 hay phần mềm
R, phần mềm Eview, phần mềm Stata… Tuy nhiên trong bài báo này tơi muốn đề cập một số khía cạnh của hai phần mềm đơn giản và thơng dụng hiện nay
là Microsoft Excel 2010 và PASW Statistics 18
- Microsoft Excel 2010 là cơng cụ phổ thơng, đơn giản trong tính tốn, cĩ hỗ trợ hồi quy đơn biến, tuy nhiên số lượng mơ hình mà Excel 2010 đưa ra ít (chỉ 6 dạng mơ hình) Khi hồi quy từ Excel 2010, kết quả chỏ cĩ phương trình hồi quy với hệ số tương quan giữa biến độc lập và biến phụ thuộc mà chưa cung cấp được các chỉ số để đánh giá mơ hình
Trang 2hồi quy hay các chỉ số tồn tại trong phương trình
hồi quy
Các dạng mô hình hồi quy mà Excel 2010 cung
cấp như sau [4]:
1 Linear: Y = b0 + (b1 * X)
2 Logarithmic: Y = b0 + (b1 * ln(X))
3 Polynomial: Y = b0 + (b1 * X) + (b2 * X2) (dạng bậc 2)
Dạng bậc 3: Y = b 0 + (b 1 * X) + (b 2 * X 2 ) + (b 3 * X 3 )
4 Power: Y = b0 * (Xb1) hoặc ln(Y) = ln(b0) + (b1 * ln(X))
5 Exponentail: Y = b0 * (e(b1 * X)) hoặc ln(Y) = ln(b0) + (b1 * X)
6 Moving Average: Không có dạng phương trình
- Trong khi đó phần mềm PASW Statistics 18
cung cấp nhiều dạng mô hình hồi quy (11 dạng mô
hình), đồng thời cung cấp các tham số số như R2
điều chỉnh, giá trị Sig trong bảng Anova để đánh
giá sự phù hợp của mô hình, giá trị Sig trong bảng
Coeffi cients để đánh giá các tham số hồi quy có ý
nghĩa không, đồng thời cũng cho biết giá trị hệ số
tương quan giữa biến độc lập và biến phụ thuộc
Các dạng mô hình hồi quy mà PASW Statistics
18 cung cấp như sau [5,6]:
1 Linear: Y = b0 + (b1 * X)
2 Logarithmic: Y = b0 + (b1 * ln(X))
3 Inverse: Y = b0 + (b1 / X)
4 Quadratic: Y = b0 + (b1 * X) + (b2 * X2)
5 Cubic: Y = b0 + (b1 * X) + (b2 * X2) + (b3 * X3)
6 Power: Y = b0 * (Xb1) hoặc ln(Y) = ln(b0) + (b1 * ln(X))
7 Compound: Y = b0 * (b1X) hoặc ln(Y) = ln(b0) + (ln(b1) * X)
8 S-curve: Y = e(b0 + (b1/X)) hoặc ln(Y) = b0 + (b1/X)
9 Logistic: Y = 1 / (1/u + (b0 * (b1X)) hoặc ln(1/y-1/u)=
ln (b0) + (ln(b1)*X) u là giá trị giới hạn trên, nó mang giá trị dương và lớn hơn giá trị lớn nhất của biến phụ thuộc Ví dụ giá trị lớn nhất của biến phụ thuộc
là 100 thì u chọn là 101 (u=101)
10 Growth: Y = e(b0 + (b1 * X)) hoặc ln(Y) = b0 + (b1 * X)
11 Exponential: Y = b0 * (e(b1 * X)) hoặc ln(Y) = ln(b0) + (b1 * X)
Chú giải: b0 là các hằng số; b1 là hệ số hồi quy được; X là biến độc lập; Y là biến phụ thuộc
Tiêu chí đánh giá [1,2]:
- Tham số R bình phương hiệu chỉnh (adjusted
R square) cho biết mức độ % sự biến thiên của biến phụ thuộc được giải thích bởi biến độc lập R bình phương hiệu chỉnh càng cao càng tốt vì biến độc lập giải thích được nhiều cho biến phụ thuộc
- Giá trị Sig (P-value) của bảng anova dùng để đánh giá sự phù hợp (tồn tại) của mô hình Giá trị Sig nhỏ (thường <5%) thì mô hình tồn tại trong điều kiện độ tin cậy chấp nhận là 5%
- Gía trị Sig trong bảng coeffi cients cho biết các tham số hồi quy có ý nghĩa hay không, với độ tin cậy 95% thì Sig<5% là có ý nghĩa
- Hệ số tương quan cho biết mức độ tương quan giữa biến phụ thuộc và biến độc lập (thường
sử dụng hệ số tương quan pearson)
Với những hạn chế của Excel nói chung, nên tôi chọn SPSS để thực hiện đồng loạt các mô hình này Tôi sử dụng chức năng đường cong ước lượng (curve estimation) trong SPSS
Bảng 1 Số liệu dùng để phân tích curve estimation trong PASW Statistics 18
Chú giải : - Kn-Kinh nghiệm thuyền trưởng, đơn vị tính là năm; SL- Sản lượng khai thác của nghề lưới kéo ven bờ tại thành phố Nha Trang,
đơn vị tình là kg.
- Số liệu trong bảng 1 được lấy ngẫu nhiên bằng hàm randbetween(min, max) trong excel.
Trang 32 Kết quả
Hình 1 Chọn các mô hình hồi quy trong PASW Statistics 18
Bảng 2 Tổng hợp các tham số để đánh giá mô hình hồi quy
TT Dạng mô hình R 2 điều chỉnh Sig (Anova) Sig (Coeffi cients)
1 Linear 0,673 0,000 Hằng sốKn 0,0000,001
2 Logarithmic 0,715 0,000 Hằng sốKn 0,0000,000
3 Inverse 0,713 0,000 Hằng số1/ Kn 0,0000,000
Hằng số
0,000 0,000 0,052
Kn
Kn2
Kn3 Hằng số
0,165 0,518 0,767 0,336
6 Power 0,737 0,000 Hằng sốLn(Kn) 0,0000,000
7 Compound 0,668 0,000 Hằng sốKn 0,0000,000
8 S-curve 0,764 0,000 Hằng số1/Kn 0,0000,000
9 Logistic 0,276 0,000 Hằng sốKn 0,0000,374
10 Growth 0,668 0,000 Hằng sốKn 0,0000,000
11 Exponential 0,668 0,000 Hằng sốKn 0,0000,000
Trang 4Từ bảng 2 cho thấy:
- R bình phương hiệu chỉnh nhỏ nhất (0,276) ở
mô hình Logistic và R bình phương hiệu chỉnh cao
nhất ở mô hình S-curve (0,764)
- Các mô hình hồi quy đều phù hợp ở độ tin cậy
95% bởi giá trị Sig ở bảng anova đều nhỏ hơn 5%
(Sig=0,000<0,05)
- Các mô hình Quadratic, Cubic và Logistic khi
hồi quy cho ra giá trị Sig ở bảng coeffi cients lớn hơn
5% nên các tham số hồi quy không có ý nghĩa ở độ
tin cậy 95% Do vậy các dạng mô hình hồi quy này
sẽ bị loại, không được xem xét lựa chọn
Bảng 3 Hệ số tương quan giữa Kn và SL
Correlations
Kn Pearson Correlation 1 0,824** Sig (2-tailed) 0,000
SL Pearson Correlation 0,824** 1 Sig (2-tailed) 0,000
** Correlation is signifi cant at the 0.01 level (2-tailed).
Từ bảng 3 cho thấy, SL và Kn có mối tương quan rất cao [3] với r2=0,824
Bảng 4 Phương trình hồi quy đơn biến giữa biến Kn và SL
TT Dạng mô hình Phương trình hồi quy đơn biến
1 Linear SL=1855,832+511,680Kn
2 Logarithmic SL= -5003,975+ 5293,777ln(Kn)
3 Inverse SL= 12231,766-(48097,374/Kn)
4 Quadratic SL= -3073,072+1496,439Kn-45,616Kn2
5 Cubic SL= -4314,503+1886,414Kn-83,898Kn2+1,187Kn3
6 Power SL= 1039,758+Kn 0,822
7 Compound SL= 3064,606+1,081Kn
8 S-curve SL= e (9,639-(7,620/Kn))
9 Logistic SL= 1/(1/10001+(0,003*(0,619Kn)))
10 Growth SL= e (8,028+(,078*Kn))
11 Exponential SL= 3064,606*(e (0,078*Kn))
Hình 2 Biểu diễn các dạng mô hình hồi quy
Trang 5So sánh các điều kiện lựa chọn mô hình hồi
quy phù hợp [1, 2], từ kết quả bảng 2, 3 và 4, tôi
chọn mô hình S-curve cho hồi quy của mình Kết
quả phương trình hồi quy thu được SL= e (9,639-(7,620/
Kn)) Có tới 76% sự biến thiên của biến SL được giải
thích bởi biến Kn, cao hơn so với các mô hình khác,
đồng thời mô hình và các tham số hồi quy đều tồn
tại và phù hợp
III KẾT LUẬN
SL và Kn có mối tương quan rất cao
Mô hình hồi quy phù hợp để hồi quy số liệu trên
là mô hình S-curve
Để áp dụng và giải quyết tốt hơn mục tiêu đề ra
ta cần áp dụng phương pháp này trong từng nghiên cứu cụ thể và so sánh đối chiếu với thực tiễn
TÀI LIỆU THAM KHẢO
Tiếng Việt
1 Nguyễn Văn Chức (2013) Phân tích hồi quy tuyến tính với SPSS Diễn đàn giải pháp kinh doanh thông minh (BIS) (http:// bis.net.vn/forums/p/722/1565.aspx)
2 Hoàng Trọng và Chu Nguyễn Mộng Ngọc (2005) Phân tích dữ liệu nghiên cứu với SPSS NXB Thống kê
3 Nguyễn Văn Tuấn (2007) Chương trình huấn luyện y hoa - ykhoa.net
Tiếng Anh
4 Information Technology Services Excel 2010-Basic learning guide Tufts University
5 PASW Statistics 18 Core System User’s Guide
6 Thomas, M S C., Annaz, D., Ansari, D., Serif, G., Jarrold, C., & Karmiloff-Smith, A (2009) Using developmental trajectories
to understand developmental disorders Journal of Speech, Language, and Hearing Research, 52, 336-358