- Vào Tools/Data Analysis/ TTest: Paired two sample for means,
d) Lệnh TOOLS/DATA ANALYSIS/ REGRESSION: Dựng để giải bài toỏn hồi quy tuyến tớnh đơn và hồi quy bội.
tuyến tớnh đơn và hồi quy bội.
* Giới thiệu chung:
Hiện nay cú rất nhiều chương trỡnh cú thể giải bài toỏn dạng tương quan hồi quy (tuyến tớnh hay phi tuyến) nhưng trong kinh tế thường ỏp dụng cỏc chương trỡnh LIMDEP, SHAZAM, EXCEL (LOTUS và QUATTRO cũng cú thể giải được loại toỏn này nhưng kết quả bị hạn chế), SPSS, POM v.v... Tuy nhiờn, chương trỡnh EXCEL vẫn thụng dụng hơn cả
bởi vỡ cỏc thao tỏc tương đối đơn giản rất phự hợp với điều kiện người học. Khi SETUP chương trỡnh ban đầu cần khai bỏo phần ANALYSIS TOOKPAK thỡ khi đú mới cú thể giải
được những bài toỏn này.
* Cỏc thao tỏc chớnh:
Vào dữ liệu bỡnh thường, bố trớ theo cột - mỗi cột là 1 chỉ tiờu, giữa cột chỉ tiờu phản ỏnh kết quả và đầu vào cú thể khụng liền kề.
Lệnh chớnh: Chọn TOOLS/ DATA ANALYSIS với EXCEL 5.0 và chọn OPTIONS/ ANALYSIS TOOLS với EXCEL 4.0 hộp hội thoại ANALYSIS sẽ xuất hiện (cú nhiều lờnh
giải cỏc bài toỏn thống kờ: Tương quan (CORRELATION), số bỡnh quõn di động (MOVING AVERAGE), T-TEST, ANOVA, ... Chọn (bấm) theo danh sỏch (theo thanh cuốn hoặc theo chiều mũi tờn lờn, xuống), chọn mục REGRESSION (hồi quy), sau đú OK hay bấm đỳp chuột tại mục REGRESSION.
Hộp hội thoại REGRESSION xuất hiện. Trong đú cần phải khai bỏo địa chỉ của: - Input Y range: Miền chứa kết quả (cột kết quả - chỉđược 1 cột, cú thể chứa cả tiờu
đề). Đõy là biến phụ thuộc Y.
- Input X range: Miền dữ liệu phản ỏnh cỏ biến độc lập mà ta quy định ban đầu (cú thể là 1 hoặc nhiều cột). Đõy chớnh là cỏc biến độc lập Xi.
Nếu miền Y và Xi ta khai bỏo địa chỉ cú cả tiờu đề thỡ mục Labels phải đỏnh dấu. Khai bỏo địa chỉđể EXCEL đưa kết quả ra - nờn đưa ngay ở bảng tớnh hiện thời. - Bấm chuột tại Output range sau đú khai bỏo địa chỉ - là miền trống đủ rộng để
chứa kết quả (9 cột, 18 hàng tối thiểu, nếu thờm biến thỡ thờm hàng).
- Ngoài ra cũn cỏc mục khỏc - ta cú thể khai bỏo hoặc khụng (khi đú mỏy sẽ chạy theo mặc nhận - tối ưu nhất). Vớ dụ:
+ Residuals: Là phần dư khi tớnh toỏn (hiệu số giữa giỏ trị Y thực nghiệm và giỏ trị
tớnh toỏn theo hồi quy (Predicted values)). Nếu mụ hỡnh tốt thỡ phần dư này phải phõn bố ngẫu nhiờn theo luật chuẩn, điều này thể hiện rừ nếu ta lấy phần dưđó chuẩn hoỏ (Standartized residuals).
+ Confidence level: Là mức độ tin cậy (mặc nhiờn là 95%).
+ Nếu ta chọn Line fit plot thỡ EXCEL sẽ tớnh sốđường hồi quy bằng số biến đọc lập theo mụ hỡnh hụỡ quy tuyến tớnh đơn.
Nếu chọn Residual Plot thỡ mỏy sẽ vẽ phần dư của cỏc đường hồi quy đơn núi trờn. Ta cú thể thấy cỏc phần dư tản mạn ngẫu nhiờn 2 bờn đường trục ngang và cú biờn độ
ngẫu nhiờn (luật chuẩn) thỡ tốt, nếu phần dư cụm lại đoạn (toàn ở trờn, đoạn khỏc toàn ở dưới thỡ phải xem lại số liệu và nếu cần thỡ cú thể biến đổi theo một số biến
đổi thường dựng.
+ Nếu chọn Normal Probability Plot thỡ mỏy sẽ theo dừi cỏc biến phụ thuộc Y và căn cứ vào luật chuẩn để vẽ cỏc điểm ghi lại Yi từ nhỏ tới lớn, nếu cỏc điểm nằm trờn
đường thẳng thỡ chấp nhận giả thiết biến Y tuõn theo luật chuẩn.
- Sau khi khai bỏo xong, bấm OK mỏy sẽ bắt đầu giải và cuối cựng cho:
+ Bảng thống kờ cơ bản (Summary statistics), trong đú cú tớnh hệ số tương quan R, hệ số tương quan bỡnh phương R2 (cũn gọi là hệ số tương quan xỏc định), hệ số tương quan bỡnh phương sau khi hiệu chỉnh nếu mẫu nhỏ (số quan sỏt n ớt), sai số chuẩn Se (căn bậc hai của giỏ trị Se2 ở trong bảng phõn tớch phương sai ở dũng biến động do Error, cuối cựng là số quan sỏt n.
+ Bảng phõn tớch phương sai (ANOVA): Bảng này tỏch toàn bộ biến động (TSS) ra thành 2 thành phần: Biến động do hồi quy (RSS) và biến động do sai số (ESS), mỗi biến động cú số bậc tự do tương ứng.
Căn cứ vào giỏ trị F thực nghiệm để kết luận mụ hỡnh hồi quy tỡm được cú đỏng tin cậy hay khụng. Muốn kết luận phải so sỏnh F thực nghiệm với F lý thuyết tỡm được với mức sai alpha (thớ dụ 0,05), bậc tự do của tử số là bậc tự do của phần biến động do hồi quy (bằng số biến độc lập k), bậc tự do của mẫu số là bậc tự do của sai số
(bằng n - 1 - k). cũng cú thể căn cứ vào giỏ trị xỏc suất ở cột bờn cạnh để kết luận, nếu giỏ trị p đú bộ hơn alpha (0,05) thỡ hồi quy đỏng tin cậy, nếu lớn hơn alpha thỡ hồi quy khụng đỏng tin cậy.
+ Bảng tiếp theo cho ta cỏc hệ số của cỏc biến trong phương trỡnh hồi quy lần lượt ta cú hằng số a0, hệ số a1 của biến 1, hệ số a2 của biến 2, v.v....
Cột bờn cạnh tớnh sai số của cỏc hệ số. Nếu lấy giỏ trị của cỏc hệ số chia cho sai số
nghiệm với t lý thuyết tỡm được với sai số alpha và bậc tự do của sai số (n-1) (thụng qua hàm TINV) ta cú thể đỏnh giỏ hệ số nào khỏc khụng cũn hệ số nào khụng khỏc khụng rừ rệt và từđú cú thể đơn giản bớt phương trỡnh hồi quy. Cũng cú thể khụng cần so sỏnh mà tỡm giỏ trị xỏc suất ở cột bờn cạnh, nếu xỏc suất đú nhỏ hơn mức alpha (0,05) thỡ hệ số khỏc 0 rừ rệt, nếu xỏc suất lớn hơn alpha thỡ khụng khỏc 0 rừ rệt.
Sau khi phõn tớch nờn chạy lại hồi quy với số biến độc lập ớt hơn vỡ chỉ giữ lại cỏc biến cú hệ số khỏc khụng rừ rệt.
Hai cột cuối cựng cho ta cận dưới và cận trờn của khoảng ước lượng của hệ số. Muốn cú cận đú cú thể sử dụng cụng thức m ± Se*t (với t là giỏ trị t lý thuyết vừa núi ở
trờn).
Nếu chọn Option Residuals thỡ ta được bảng so sỏnh giỏ trị Y thực nghiệm và Y tớnh qua hàm hồi quy (Predicted) gọi là phần dư. Nếu chọn Option Standartized thỡ được cỏc phần dư chuẩn hoỏ (trừđi trung bỡnh và chia độ lệch chuẩn).
Nếu chọn Option Residual plot thỡ được cỏc hỡnh vẽ cỏc phần dư của cỏc hồi quy tuyến tớnh đơn của Y theo từng biến X1, X2, ..., Xk.
Nếu chọn Option Line fit plot thỡ được cỏc hỡnh vẽ hồi quy tuyến tớnh đơn Y theo X1, Y theo X2, ..., Y theo Xk.
Ta cú thể vào chế độ đồ hoạ (Graph) để sửa sang cỏc hỡnh cho đẹp và nếu cần thỡ thờm phương trỡnh hồi quy tuyến tớnh và hệ số tương quan R vào hỡnh vẽ.
Trong phần hồi quy của EXCEL khụng cú hồi quy đa thức, nếu muốn làm hồi quy đa thức: Y = a0 + a1X + a2X2 + ... + akXk cú 2 cỏch:
+ Làm hồi quy tuyến tớnh đơn Y theo X sau đú vào chếđộđồ hoạ, xoỏ cỏc điểm dự
bỏo (Predicted) bằng cỏch bật sỏng dóy điểm dự bỏo (nhỏy vào một điểm) rồi gừ phớm Del, tiếp theo là bật sỏng dóy điểm thực nghiệm rồi vào Menu Insert để Insert trend line, trong hộp hội thoại tiếp theo ta chọn dạng hồi quy là Polynomial bậc k, chọn Option thờm Equation và R2 sau đú OK.
+ Trong bảng số liệu sau cột X ta thờm ngay cỏc cột X2, X3, ..., Xk sau đú làm hồi quy bội tuyến tớnh Y theo cỏc biến X, X2, X3, ..., Xk. Muốn vậy như vậy trong Input Range của biến độc lập ta phải khai miền bao trựm lờn tất cả cỏc biến từ X đến Xk.
Để minh hoạ chỳng ta nghiờn cứu năng suất lỳa Y và 3 biến độc lập (Xi) là chiều dài bụng, số bụng và trọng lượng nghỡn hạt:
Chọn OK chỳng ta cú kết quả sau:
SUMMARY OUTPUT - Cỏc thống kờ cơ bản
Regression Statistics Thống kờ hồi quy
Multiple R 0.85890092 Hệ số tương quan bội R