Phân tích hồi quy đơn trong Excel

Một phần của tài liệu Giáo trình Tin học ứng dụng (Trang 95 - 99)

5. QUY TRÌNH PHÂN TÍCH HỒI QUY TRONG EXCEL

5.1 Phân tích hồi quy đơn trong Excel

5.1.1 Sử dụng hàm Slope và Intercept để ước lượng các tham số của hàm hồi quy đơn

Hàm Slope dùng để ước lượng hệ số góc (b1) của phương trình y = b0 + b1x. Cú pháp của hàm slope như sau:

=Slope(Known_y’s,known_x’s).

Trong đó:

Known_y’s: giá trị quan sát của biến phụ thuộc y Known_x’s: Giá trị quan sát của biến độc lập x.

Hàm Intercept dùng để ước lượng hệ số tự do b0 của phương trình hồi quy bậc nhất theo cú pháp:

=Intercept(Known_y’s,known_x’s).

Ví dụ 4.3

Thống kê giá trị sản xuất và tiêu thụ điện năng trong 12 tháng người ta thu được các số liệu sau

Tháng

1 2 3 4 5 6 7 8 9 10 11 12

Giá trị sản xuất

(triệu USD) 4.51 3.58 4.31 5.06 5.64 4.99 5.29 5.83 4.71 5.61 4.91 4.19

Điện năng tiêu

thụ (triệu Kwh) 2.48 2.26 2.47 2.77 2.99 3.05 3.18 3.46 3.03 3.26 2.67 2.53

Biết giá trị sản xuất (y) có quan hệ với điện năng tiêu thụ (x) theo dạng y = b0 + b1x. Hãy ước lượng các tham số b0 và b1.

Hình 4.7 Trình bày cách nhập số liệu vào Excel và sử dụng hàm slope, intercept để ước lượng các tham số của hàm hồi quy đơn.

5.1.2 Sử dụng trình cài thêm regression để phân tích hồi quy đơn

Trình cài thêm regression nằm trong gói phần mềm Analysis Toolpak-VBA và được truy cập từ menu Tools / Data Analysis / Regression như hình 4.8. Ý nghĩa tùy chọn và các nút lệnh của hộp thoại regression trình bày trong bảng 4.

Regression không chỉ cho các ước lượng điểm của các tham số hồi quy mà còn cho các tham số thống kê để kiểm định mô hình hồi quy, để phân tích phương sai ước lượng khoảng của các tham số trong mô hình hổi quy. Sử dụng trình regression cho phép hồi quy tuyến tính bộ với số biến tối đa là 16.

Tên nút Ý nghĩa Vùng chứa biến phụ thuộc Y Vùng chứa biến các biến độc lập X

Chọn trùy chọn này nếu dòng đầu tiên của vùng dữ liệu có chứ tên biến

Chọn tùy chọn này nếu bỏ qua b0 (b0 = 0) Chọn mức độ tin cậy của hàm hồi quy (mặc định 95%)

Ô đầu tiên bên trái vùng kết quả khi kết quả trên cùng một sheet với vùng dữ liệu

Kết quả hiển thị trên một sheet riêng Kết quả hiển thị trên một file Excel khác Các tùy chọn hiển thị sai số:

Hình 4. 7 Sử dụng hàm của Excel để ước lượng các tham số của hàm hồi quy đơn

Ví dụ 4.4 Sử dụng các số liệu của ví dụ 4.3

Thống kê giá trị sản xuất và tiêu thụ điện năng trong 12 tháng người ta thu được các số liệu như bảng 4. Biết giá trị sản xuất (y) có quan hệ với điện năng tiêu thụ (x) theo dạng y = b0 +

b1x. Hãy ước lượng các tham số của hàm hồi quy, kiểm định sự phù hợp của mô hình hồi quy và kiểm định các tham số của mô hình.

Hình 4.8 tóm tắt các tham số thống kê do regreesion trả về. Hình 4.9 hiển thị kết quả phân tích phương sai do regression trả về.

Hình 4. 8 Hộp thoại regression

Tháng

1 2 3 4 5 6 7 8 9 10 11 12

Giá trị sản xuất

(triệu USD) 4.51 3.58 4.31 5.06 5.64 4.99 5.29 5.83 4.71 5.61 4.91 4.19

Điện năng tiêu

thụ (triệu Kwh) 2.48 2.26 2.47 2.77 2.99 3.05 3.18 3.46 3.03 3.26 2.67 2.53

Hình 4. 9 Tóm tắt các tham số thống kê do regression trả về

Hình 4. 10 Phân tích phương sai do regression trả về

Trong hình 4.9, bậc tự do của hồi quy (dòng regression cột df) là 1, bậc tự do của sai số (dòng residual cột df) là 10. Tổng bình phương các sai lệch do hồi qui (dòng Regression cột SS - ESS) là 3.918. Tổng bình phương các sai lệch do ngẫu nhiên (dòng residual cột SS – RSS) là 0.96. Phương sai tương ứng của các chỉ tiêu đó cho trong cột MS. Cột F cho phân phối F để kiểm định sự phù hợp của mô hình hồi qui. Giá trị significnace F cho biết xác suất để F nhỏ

hơn f a (k, n-k-1).

Hình 4.11 trình bày kết quả hồi quy và các tham số thống kê để kiểm định sự các tham số của mô hình hồi quy.

Hình 4. 11 Kết quả hồi quy do regression cung câp

Từ hình 4.11 thấy rằng hệ số tự do (intercept) b0 = 0. 3036, Se( b0) = 0.724. Thống kê t (t Stat) là 0.419. Giá trị P-value cho biết xác suất để t < t a/2 (n- k-1) . Các cột Lower 95% và upper 95% cho biết khoảng tin cậy của hệ số hồi qui.

Hình 4.12 hiển thị kết quả khi chọn residual trong hộp thoại regression.

Hình 4. 12 Kết quả phân tích sai số do regression trả về

Kiểm định sự phù hợp của mô hình hồi quy:

Giả thuyết H0: R2 = 0 Giả thuyết H1: R2 ≠ 0.

Căn cứ vào kết quả phân tích phương sai trong hình 4.9 cho thấy significance F = 8.09E-05 <

a =5% kết luận mô hình là phù hợp. Cũng có thể sử dụng hàm FINV để tra phân phối f a(k, n-k-1) theo cú pháp:

=finv(probability, deg_freedom1, deg_freedom2)

Trong đó:

Deg_freedom1: bậc tự do 1 (đối với hồi qui đơn là 1)

Deg_freedom2: Bậc tự do 2(đối với hồi quy đơn là n-2)

Với ví dụ 4.4, finv(0.05,1,10) = 4.96. Có F = 40.63 > f = 4.96 nên bác bỏ H0.

Kiểm định các tham số hồi qui. Kiểm định b0:

Từ hình 4.10 có thấy rằng P-value của b0 là 0.684 > a =5% nên kết luận hệ số b0 không có ý nghĩa khi mở rộng mô hình. Cũng có thể thấy điều này khi xem xét mô hình hồi qui vì khi không sản xuất (tiêu hao điện năng bằng 0) thì giá trị sản xuất không thể là số âm. Có thể dùng tiêu chuẩn t để kiểm định các hệ số hồi qui.

Giả thuyết H0 : b0 = 0 Giả thuyết H1: b0 ≠ 0

Giá trị t Stat= 0.419; Giá trị t a/2 (n-k-1) được tính từ hàm TINV theo cú pháp

= tinv(0.025, 10) = 2.633.

Có t Stat < t a/2 (n-2) nên không đủ cơ sở để bác bỏ H0. Việc kiểm định b1 tiến hành tương tự như kiểm định b0. Hàm hồi quy sau khi kiểm định là y = 1.61 x.

Một phần của tài liệu Giáo trình Tin học ứng dụng (Trang 95 - 99)

Tải bản đầy đủ (PDF)

(130 trang)