1. Trang chủ
  2. » Công Nghệ Thông Tin

Giải pháp lựa chọn mô hình hồi quy đơn biến

5 158 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 5
Dung lượng 552,55 KB

Nội dung

Trong nhiều nghiên cứu, các nhà khoa học đã thực hiện phân tích hồi quy đơn biến để xem xét sự phụ thuộc của một biến (biến phụ thuộc) vào một biến khác (biến giải thích) để ước lượng hay dự đoán giá trị trung bình của biến phụ thuộc trên cơ sở giá trị biết trước của các biến giải thích. Đây là việc làm thường xuyên của các nhà khoa học, tuy nhiên họ chưa đưa ra những căn cứ khoa học lựa cho việc lựa chọn mô hình của mình. Tác giả đã tìm hiểu và giới thiệu 11 dạng mô hình hồi quy đơn biến, đồng thời cung cấp những cơ sở khoa học giúp các nhà khoa học, học viên lựa chọn mô hình hồi quy đơn biến phù hợp nhất cho nghiên cứu của mình.

Trang 1

VẤN ĐỀ TRAO ĐỔI

GIẢI PHÁP LỰA CHỌN MƠ HÌNH HỒI QUY ĐƠN BIẾN

SOLUTION FOR SELECTING UNIVARIATE REGRESSION MODEL

Phạm Văn Thơng1

Ngày nhận bài: 27/8/2014; Ngày phản biện thơng qua: 27/11/2014; Ngày duyệt đăng: 10/6/2015

TĨM TẮT

Trong nhiều nghiên cứu, các nhà khoa học đã thực hiện phân tích hồi quy đơn biến để xem xét sự phụ thuộc của một biến (biến phụ thuộc) vào một biến khác (biến giải thích) để ước lượng hay dự đốn giá trị trung bình của biến phụ thuộc trên cơ sở giá trị biết trước của các biến giải thích Đây là việc làm thường xuyên của các nhà khoa học, tuy nhiên họ chưa đưa ra những căn cứ khoa học lựa cho việc lựa chọn mơ hình của mình Tác giả đã tìm hiểu và giới thiệu 11 dạng mơ hình hồi quy đơn biến, đồng thời cung cấp những cơ sở khoa học giúp các nhà khoa học, học viên lựa chọn mơ hình hồi quy đơn biến phù hợp nhất cho nghiên cứu của mình.

Từ khĩa: Hồi quy đơn biến

ABSTRACT

In many studies, scientists have conducted univariate regression analyses to examine the dependence of a variable (a dependent variable) on another variable (an explanatory variable) Then they can estimate or predict the average value of dependent variables basing on known-value of the explanatory variables Scientists have carried out in this way frequently; however, they have not shown scientifi c foundations of their univariate regression models The author have studied and introduced 11 types of univariate regression models, and provided scientifi c foundations in order to help scientists and students choose the best univariate regression models in their researches

Keyword: Univariate Regression

1 ThS Phạm Văn Thơng: Viện Khoa học và Cơng nghệ khai thác thủy sản - Trường Đại học Nha Trang

I MỞ ĐẦU

Hồi quy đơn biến là mơ hình thống kê được sử dụng

để dự đốn giá trị của biến phụ thuộc (dependence

variable) hay cịn gọi là biến kết quả dựa vào những

giá trị của một biến độc lập (independence variable)

hay cịn gọi là biến nguyên nhân

Hiện nay, các nhà nghiên cứu, các học viên cao

học… thường hồi quy theo mơ hình đường thẳng

(linear) mà chưa đưa ra được cơ sở lý luận khoa

học để giải thích vì sao chọn mơ hình đường thẳng

hay bất kỳ dạng mơ hình nào khác Một số khác đưa

ra dẫn chứng chưa thuyết phục như dạng mơ hình

này đơn giản, dễ tính tốn

Bài báo này cung cấp cho các nhà nghiên cứu,

các học viên cao học và độc giả nĩi chung cơ sở lý

luận khoa học đúng đắn giải thích cho việc lựa mơ

hình hồi quy của mình

II NỘI DUNG

1 Phân tích các dạng mơ hình

Với sự phát triển mạnh mẽ của cơng nghệ thơng tin, việc hồi quy khơng cần nhiều thời gian tính tốn như trước mà nĩ được trợ giúp bởi rất nhiều phần mềm từ đơn giản như Microsoft Excel đến phần mềm PASW Statistics 18 hay phần mềm

R, phần mềm Eview, phần mềm Stata… Tuy nhiên trong bài báo này tơi muốn đề cập một số khía cạnh của hai phần mềm đơn giản và thơng dụng hiện nay

là Microsoft Excel 2010 và PASW Statistics 18

- Microsoft Excel 2010 là cơng cụ phổ thơng, đơn giản trong tính tốn, cĩ hỗ trợ hồi quy đơn biến, tuy nhiên số lượng mơ hình mà Excel 2010 đưa ra ít (chỉ 6 dạng mơ hình) Khi hồi quy từ Excel 2010, kết quả chỏ cĩ phương trình hồi quy với hệ số tương quan giữa biến độc lập và biến phụ thuộc mà chưa cung cấp được các chỉ số để đánh giá mơ hình

Trang 2

hồi quy hay các chỉ số tồn tại trong phương trình

hồi quy

Các dạng mô hình hồi quy mà Excel 2010 cung

cấp như sau [4]:

1 Linear: Y = b0 + (b1 * X)

2 Logarithmic: Y = b0 + (b1 * ln(X))

3 Polynomial: Y = b0 + (b1 * X) + (b2 * X2) (dạng bậc 2)

Dạng bậc 3: Y = b 0 + (b 1 * X) + (b 2 * X 2 ) + (b 3 * X 3 )

4 Power: Y = b0 * (Xb1) hoặc ln(Y) = ln(b0) + (b1 * ln(X))

5 Exponentail: Y = b0 * (e(b1 * X)) hoặc ln(Y) = ln(b0) + (b1 * X)

6 Moving Average: Không có dạng phương trình

- Trong khi đó phần mềm PASW Statistics 18

cung cấp nhiều dạng mô hình hồi quy (11 dạng mô

hình), đồng thời cung cấp các tham số số như R2

điều chỉnh, giá trị Sig trong bảng Anova để đánh

giá sự phù hợp của mô hình, giá trị Sig trong bảng

Coeffi cients để đánh giá các tham số hồi quy có ý

nghĩa không, đồng thời cũng cho biết giá trị hệ số

tương quan giữa biến độc lập và biến phụ thuộc

Các dạng mô hình hồi quy mà PASW Statistics

18 cung cấp như sau [5,6]:

1 Linear: Y = b0 + (b1 * X)

2 Logarithmic: Y = b0 + (b1 * ln(X))

3 Inverse: Y = b0 + (b1 / X)

4 Quadratic: Y = b0 + (b1 * X) + (b2 * X2)

5 Cubic: Y = b0 + (b1 * X) + (b2 * X2) + (b3 * X3)

6 Power: Y = b0 * (Xb1) hoặc ln(Y) = ln(b0) + (b1 * ln(X))

7 Compound: Y = b0 * (b1X) hoặc ln(Y) = ln(b0) + (ln(b1) * X)

8 S-curve: Y = e(b0 + (b1/X)) hoặc ln(Y) = b0 + (b1/X)

9 Logistic: Y = 1 / (1/u + (b0 * (b1X)) hoặc ln(1/y-1/u)=

ln (b0) + (ln(b1)*X) u là giá trị giới hạn trên, nó mang giá trị dương và lớn hơn giá trị lớn nhất của biến phụ thuộc Ví dụ giá trị lớn nhất của biến phụ thuộc

là 100 thì u chọn là 101 (u=101)

10 Growth: Y = e(b0 + (b1 * X)) hoặc ln(Y) = b0 + (b1 * X)

11 Exponential: Y = b0 * (e(b1 * X)) hoặc ln(Y) = ln(b0) + (b1 * X)

Chú giải: b0 là các hằng số; b1 là hệ số hồi quy được; X là biến độc lập; Y là biến phụ thuộc

Tiêu chí đánh giá [1,2]:

- Tham số R bình phương hiệu chỉnh (adjusted

R square) cho biết mức độ % sự biến thiên của biến phụ thuộc được giải thích bởi biến độc lập R bình phương hiệu chỉnh càng cao càng tốt vì biến độc lập giải thích được nhiều cho biến phụ thuộc

- Giá trị Sig (P-value) của bảng anova dùng để đánh giá sự phù hợp (tồn tại) của mô hình Giá trị Sig nhỏ (thường <5%) thì mô hình tồn tại trong điều kiện độ tin cậy chấp nhận là 5%

- Gía trị Sig trong bảng coeffi cients cho biết các tham số hồi quy có ý nghĩa hay không, với độ tin cậy 95% thì Sig<5% là có ý nghĩa

- Hệ số tương quan cho biết mức độ tương quan giữa biến phụ thuộc và biến độc lập (thường

sử dụng hệ số tương quan pearson)

Với những hạn chế của Excel nói chung, nên tôi chọn SPSS để thực hiện đồng loạt các mô hình này Tôi sử dụng chức năng đường cong ước lượng (curve estimation) trong SPSS

Bảng 1 Số liệu dùng để phân tích curve estimation trong PASW Statistics 18

Chú giải : - Kn-Kinh nghiệm thuyền trưởng, đơn vị tính là năm; SL- Sản lượng khai thác của nghề lưới kéo ven bờ tại thành phố Nha Trang,

đơn vị tình là kg.

- Số liệu trong bảng 1 được lấy ngẫu nhiên bằng hàm randbetween(min, max) trong excel.

Trang 3

2 Kết quả

Hình 1 Chọn các mô hình hồi quy trong PASW Statistics 18

Bảng 2 Tổng hợp các tham số để đánh giá mô hình hồi quy

TT Dạng mô hình R 2 điều chỉnh Sig (Anova) Sig (Coeffi cients)

1 Linear 0,673 0,000 Hằng sốKn 0,0000,001

2 Logarithmic 0,715 0,000 Hằng sốKn 0,0000,000

3 Inverse 0,713 0,000 Hằng số1/ Kn 0,0000,000

Hằng số

0,000 0,000 0,052

Kn

Kn2

Kn3 Hằng số

0,165 0,518 0,767 0,336

6 Power 0,737 0,000 Hằng sốLn(Kn) 0,0000,000

7 Compound 0,668 0,000 Hằng sốKn 0,0000,000

8 S-curve 0,764 0,000 Hằng số1/Kn 0,0000,000

9 Logistic 0,276 0,000 Hằng sốKn 0,0000,374

10 Growth 0,668 0,000 Hằng sốKn 0,0000,000

11 Exponential 0,668 0,000 Hằng sốKn 0,0000,000

Trang 4

Từ bảng 2 cho thấy:

- R bình phương hiệu chỉnh nhỏ nhất (0,276) ở

mô hình Logistic và R bình phương hiệu chỉnh cao

nhất ở mô hình S-curve (0,764)

- Các mô hình hồi quy đều phù hợp ở độ tin cậy

95% bởi giá trị Sig ở bảng anova đều nhỏ hơn 5%

(Sig=0,000<0,05)

- Các mô hình Quadratic, Cubic và Logistic khi

hồi quy cho ra giá trị Sig ở bảng coeffi cients lớn hơn

5% nên các tham số hồi quy không có ý nghĩa ở độ

tin cậy 95% Do vậy các dạng mô hình hồi quy này

sẽ bị loại, không được xem xét lựa chọn

Bảng 3 Hệ số tương quan giữa Kn và SL

Correlations

Kn Pearson Correlation 1 0,824** Sig (2-tailed) 0,000

SL Pearson Correlation 0,824** 1 Sig (2-tailed) 0,000

** Correlation is signifi cant at the 0.01 level (2-tailed).

Từ bảng 3 cho thấy, SL và Kn có mối tương quan rất cao [3] với r2=0,824

Bảng 4 Phương trình hồi quy đơn biến giữa biến Kn và SL

TT Dạng mô hình Phương trình hồi quy đơn biến

1 Linear SL=1855,832+511,680Kn

2 Logarithmic SL= -5003,975+ 5293,777ln(Kn)

3 Inverse SL= 12231,766-(48097,374/Kn)

4 Quadratic SL= -3073,072+1496,439Kn-45,616Kn2

5 Cubic SL= -4314,503+1886,414Kn-83,898Kn2+1,187Kn3

6 Power SL= 1039,758+Kn 0,822

7 Compound SL= 3064,606+1,081Kn

8 S-curve SL= e (9,639-(7,620/Kn))

9 Logistic SL= 1/(1/10001+(0,003*(0,619Kn)))

10 Growth SL= e (8,028+(,078*Kn))

11 Exponential SL= 3064,606*(e (0,078*Kn))

Hình 2 Biểu diễn các dạng mô hình hồi quy

Trang 5

So sánh các điều kiện lựa chọn mô hình hồi

quy phù hợp [1, 2], từ kết quả bảng 2, 3 và 4, tôi

chọn mô hình S-curve cho hồi quy của mình Kết

quả phương trình hồi quy thu được SL= e (9,639-(7,620/

Kn)) Có tới 76% sự biến thiên của biến SL được giải

thích bởi biến Kn, cao hơn so với các mô hình khác,

đồng thời mô hình và các tham số hồi quy đều tồn

tại và phù hợp

III KẾT LUẬN

SL và Kn có mối tương quan rất cao

Mô hình hồi quy phù hợp để hồi quy số liệu trên

là mô hình S-curve

Để áp dụng và giải quyết tốt hơn mục tiêu đề ra

ta cần áp dụng phương pháp này trong từng nghiên cứu cụ thể và so sánh đối chiếu với thực tiễn

TÀI LIỆU THAM KHẢO

Tiếng Việt

1 Nguyễn Văn Chức (2013) Phân tích hồi quy tuyến tính với SPSS Diễn đàn giải pháp kinh doanh thông minh (BIS) (http:// bis.net.vn/forums/p/722/1565.aspx)

2 Hoàng Trọng và Chu Nguyễn Mộng Ngọc (2005) Phân tích dữ liệu nghiên cứu với SPSS NXB Thống kê

3 Nguyễn Văn Tuấn (2007) Chương trình huấn luyện y hoa - ykhoa.net

Tiếng Anh

4 Information Technology Services Excel 2010-Basic learning guide Tufts University

5 PASW Statistics 18 Core System User’s Guide

6 Thomas, M S C., Annaz, D., Ansari, D., Serif, G., Jarrold, C., & Karmiloff-Smith, A (2009) Using developmental trajectories

to understand developmental disorders Journal of Speech, Language, and Hearing Research, 52, 336-358

Ngày đăng: 30/01/2020, 16:39

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w