Bài giảng Thống kê ứng dụng trong kinh doanh Chương 11: Hồi quy và tương quan đơn biến cung cấp cho người học các kiến thức: Làm quen với hồi quy, mô hình hồi quy tuyến tính đơn, tương quan tuyến tính, tương quan giữa các biến định tính. Mời các bạn cùng tham khảo.
Chương 11 HỒI QUY VÀ TƯƠNG QUAN ĐƠN BIẾN Ths Nguyễn Tiến Dũng Viện Kinh tế Quản lý, Trường ĐH Bách khoa Hà Nội Email: dung.nguyentien3@hust.edu.vn MỤC TIÊU CỦA CHƯƠNG ● Sau học xong chương này, người học ● Nói phạm vi ứng dụng phương pháp phân tích hồi quy tương quan đơn biến ● Biết cách thực phân tích hồi quy dựa liệu mẫu ● Nói điều kiện giả định cần thiết phân tích hồi quy ● Biết cách tính ý nghĩa hệ số tương quan Pearson hệ số tương quan hạng Spearman © Nguyễn Tiến Dũng Thống kê ứng dụng CÁC NỘI DUNG CHÍNH 11.1 Làm quen với hồi quy 11.2 Mô hình hồi quy tuyến tính đơn 11.3 Tương quan tuyến tính 11.4 Tương quan biến định tính © Nguyễn Tiến Dũng Thống kê ứng dụng 11.1 LÀM QUEN VỚI HỒI QUY ● 11.1.1 Khái niệm hồi quy ● Regression, Regression to mediority: quy điểm DL biết đường lý thuyết ● Đ/nghĩa TK: ● NC mối liên hệ phụ thuộc biến phụ thuộc (biến đầu ra) hay nhiều biến độc lập (biến đầu vào), ● nhằm ước tính dự báo giá trị trung bình tổng thể biến phụ thuộc dựa giá trị biết trước biến độc lập ● Hồi quy đơn biến (simple regression): biến PT biến ĐL, DL định lượng ● TD: ● KQ học tập = f(thời gian tự học) ● KQ học tập = f(thời gian tự học, yêu thích chuyên ngành) ● Lượng tiêu thụ = f(P1, P2, P3, P4) ● Chất lượng sản phẩm = f(NVL, thiết bị, công nghệ, người, quản lý) © Nguyễn Tiến Dũng Thống kê ứng dụng 11.1.2 Phân biệt liên hệ TK liên hệ hàm số phân tích hồi quy ● Liên hệ hàm số: Y = b0 + b1X ● Với giá trị X, có giá trị xác định Y ● Liên hệ TK: Y = b0 + b1.X ● X = thời gian tự học; Y = điểm GPA ● DL X: liệu mẫu ● Một X, có nhiều Y ● DL mẫu xác định đường HQ mẫu dự đoán đường HQ tổng thể © Nguyễn Tiến Dũng Thống kê ứng dụng 11.1.3 Quy ước ký hiệu tên gọi ● Biến số: Y = b0 + b1.X1 + b2X2 ● Biến độc lập, biến đầu vào, biến giải thích: X1, X2 ● Biến phụ thuộc, biến đầu ra, biến giải thích: Y ● Xki: giá trị quan sát thứ i biến Xk ● b0, b1, b2: hệ số phương trình hồi quy ● Hồi quy đơn biến hồi quy đa biến (HQ bội) ● HQ đơn biến (simple regression): biến ĐL ● HQ đa biến (multiple regression): nhiều biến ĐL © Nguyễn Tiến Dũng Thống kê ứng dụng 11.1.4 Các dạng liên hệ biến độc lập biến phụ thuộc © Nguyễn Tiến Dũng Thống kê ứng dụng 11.2 MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN ● 11.2.1 Mở đầu ● NC mối liên hệ thu nhập (X) chi tiêu (Y) ● Lấy mẫu n hộ gia đình ● Đường hồi quy lý thuyết ● E(y|xi) = b0 + b1.xi ● yi = b0 + b1xi + ei ● b0: hệ số tung độ gốc (hệ số chặn) ● b1: hệ số dốc (hệ số góc) ● ei: sai số, thể yếu tố nhiễu © Nguyễn Tiến Dũng Thống kê ứng dụng 11.2.2 Các giả định liên quan đến yếu tố nhiễu ● Các ei xi có phân phối bình thường ● Không có tương quan nhiễu, hay ei độc lập với © Nguyễn Tiến Dũng Thống kê ứng dụng 11.2.3 Ý nghĩa cách xác định hệ số hồi quy ● b1: hệ số độ dốc, đo lường lượng thay đổi TB biến phụ thuộc Y X thay đổi đơn vị ● b0: hệ số tung độ gốc cho biết giá trị Y X = 0, coi ảnh hưởng TB yếu tố khác mà mặt mô hình © Nguyễn Tiến Dũng Thống kê ứng dụng 10 11.2.5 Vấn đề cần ý dự đoán với mô hình hồi quy ● Chỉ nên dự đoán 𝑌𝑖 với giá trị Xi nằm Xmin Xmax, không xa Xmin Xmax ● Lý do: với giá trị Xi nằm xa Xtb, sai số ước lượng Yi lớn ● 𝑥 = 4,583 nên dự báo y quanh giá trị TB ● TD: Nếu NVBH có năm kinh nghiệm, doanh số người đạt là: yˆ 175,829 49,910 425,379 (tr.ñ.) © Nguyễn Tiến Dũng Thống kê ứng dụng 16 11.2.6 Hệ số xác định PTHQ ● Hệ số xác định (Coefficient of Determination) SST SSR SSE n SST ( yi y ) i 1 n SSR ( yˆ i y ) i 1 n SSE ( yi yˆ i ) i 1 SSR R SST © Nguyễn Tiến Dũng Thống kê ứng dụng 17 11.2.7 Sai số chuẩn hồi quy ● Sai số chuẩn hồi quy sY/X: Thể độ lệch giá trị ŷi xung quanh yi n ˆ ( y y ) i i sY / X SSE n2 sY / X 84.834, 295 92,1055 12 © Nguyễn Tiến Dũng i 1 n2 Thống kê ứng dụng 18 © Nguyễn Tiến Dũng Thống kê ứng dụng 19 11.2.8 Suy diễn TK hệ số độ dốc ● 11.2.8.1 Định lý Gauss-Markov ● Giả định: PP Y bình thường PP b0 b1 PP bình thường ● Đ/lý Gauss-Markov ● Trong ƯL tuyến tính không chệch cho hệ số hồi quy tổng thể, ƯL tìm PP bình phương bé có PS cực tiểu © Nguyễn Tiến Dũng Thống kê ứng dụng 20 11.2.8.2 Khoảng tin cậy cho hệ số độ dốc © Nguyễn Tiến Dũng Thống kê ứng dụng 21 11.2.8.3 KĐ ý nghĩa hệ số độ dốc ● Cặp giả thuyết KĐ ● Chỉ tiêu KĐ tính: t = b1/sb1 ● Quy tắc bác bỏ H0: H : 1 H : 1 Baùc boû H neáu t tn 2; /2 t tn 2; /2 ● TD: ● b1 = 49,910 ● sb1 = 10,502 (xem Trang 323 cách tính) ● tStat = 4,752 p-value = 0,008 ● t tra bảng: tn-2;α/2 = t10; 0,025=2,228 ● Bác bỏ H0 © Nguyễn Tiến Dũng Thống kê ứng dụng 22 s b1 sY2 / X n ( x x ) i 8.483, 429 110, 294 76, 917 i 1 sb1 110, 294 10, 502 © Nguyễn Tiến Dũng Thống kê ứng dụng 23 11.2.9 Phân tích phần dư (residuals/ errors) ● Mục đích: Kiểm tra tính đắn giả định (assumptions) phương trình hồi quy Quan hệ X Y thực quan hệ tuyến tính trung bình phần dư ei =0 Các phần dư ei có PP normal PS phần dư không đổi Các phần dư độc lập với (không có tượng tự tương quan phần dư) © Nguyễn Tiến Dũng Thống kê ứng dụng 24 11.2.10 Sử dụng PT hồi quy để dự đoán giá trị TB giá trị cá biệt Y ● Giá trị TB E (y | x0 ) yˆ e y yˆ b0 b1 x0 e y t n 2; / sY | X ( x0 x ) n n ( x x ) i i 1 ● Giá trị cá biệt y0 yˆ e y yˆ b0 b1 x0 e y t n 2; / sY | X ( x0 x ) 1 n n ( x x ) i i 1 © Nguyễn Tiến Dũng Thống kê ứng dụng 25 11.3 TƯƠNG QUAN TUYẾN TÍNH ● 11.3.1 Hệ số tương quan tổng thể rho ● 11.3.2 Hệ số tương quan mẫu rXY XY XY cov( X , Y ) var( X ) var(Y ) XY X Y n rXY s XY s X sY (x x )( yi y ) i 1 n n ( x x ) ( y y ) i i i 1 © Nguyễn Tiến Dũng i i 1 Thống kê ứng dụng 26 Giá trị ý nghĩa hệ số tương quan Pearson ● r < 0: có mối liên hệ TQTT nghịch ● r > 0: có mối liên hệ TQTT thuận ● |r| > 0,8 : TQTT mạnh ● |r| = 0,6 – 0,8 : TQTT mạnh ● |r| = 0,4 – 0,6 : TQTT vừa phải ● |r| = 0,2 – 0,4 : TQTT yếu ● |r| < 0,2 : TQTT yếu © Nguyễn Tiến Dũng Thống kê ứng dụng 27 KĐ ý nghĩa hệ số tương quan tuyến tính ● Cặp giả thuyết KĐ ● Chỉ tiêu KĐ ● Quy tắc bác bỏ H0 ● Bác bỏ H0 |t| > tn-2;α/2 H0 : H1 : ● TD: Trang 345 t ● tStat = 4,7057 ● tn-2; /2 = 2,228 n2 r 2 r 1 r n2 r ● Bác bỏ H0 hệ số TQ tổng thể thực khác © Nguyễn Tiến Dũng Thống kê ứng dụng 28 11.4 TƯƠNG QUAN GIỮA CÁC BIẾN ĐỊNH TÍNH 11.4.1 Hệ số tương quan hạng Spearman 11.4.2 Hệ số Kendall Tau 11.4.3 Hệ số tương quan khác DL thứ bậc © Nguyễn Tiến Dũng Thống kê ứng dụng 29 KĐ theo hệ số tương quan hạng Spearman rS ● Biến x1 x2 có liệu thứ bậc (hoặc DL khoảng, biến ● ● ● ● ● thành DL thứ bậc cách xếp hạng mẫu), mẫu n cặp quan sát Tính chênh lệch hạng di = x1i – x2i (i = 1, 2, … n) Tính hệ số tương quan hạng rS H0: Không có liên hệ biến (Hệ số tương quan hạng tổng thể = 0) Nếu số trường hợp có di = nhiều, cần thêm hệ số hiệu chỉnh Nếu n > 10, PP hệ số TQ hạng mẫu xấp xỉ PP bình thường với độ lệch chuẩn 1/(n – 1) Chỉ tiêu KĐ z n z rS 1/ n 1 © Nguyễn Tiến Dũng rS n rS Thống kê ứng dụng d i2 i 1 n ( n 1) 30