Xây dựng mơ hình hồi quy: Phân tích các nhân tố ảnh hưởng đến lương của kỹ sư sau kh

Một phần của tài liệu BÁO CÁO BÀI TẬP LỚN MÔN XÁC SUẤT THỐNG KÊ (Trang 59 - 66)

II. ANOVA

4. Xây dựng mơ hình hồi quy: Phân tích các nhân tố ảnh hưởng đến lương của kỹ sư sau kh

sư sau khi tốt nghiệp ĐH.

Xây dựng mơ hình 1 trong đó: - Biến phụ thuộc: Salary

Dựa vào kết quả mơ hình hồi quy tuyến tính trên, những biến nào sẽ bị loại khỏi mơ hình với mức tin cậy 5% ?

Ta đặt giả thiết:

H0: Các hệ số hồi quy khơng có ý nghĩa thống kê. H1: Các hệ số hồi quy có ý nghĩa thống kê.

Nhận xét: Dựa vào kết quả của mơ hình hồi quy, ta nhận thấy Pr(>|t|) của các biến

Genderm, DegreeMCA, collegeGPA, English, Logical, Quant, ComputerScience, ElectricalEngg, TelecomEngg, CivilEngg đều < mức ý nghĩa 0,05 nên ta bác bỏ H0, chấp

nhận H1 nên hệ số góc tương ứng với các biến (Genderm, DegreeMCA, collegeGPA, English, Logical, Quant, ComputerScience, ElectricalEngg, TelecomEngg, CivilEngg) đều có ý nghĩa thống kê.

Còn đối với các biến Degree,GraduationYear,MechanicalEngg ta thấy Pr(>|t|) của các biến > mức ý nghĩa 0,05 nên ta chưa thể bác bỏ giả thiết H0 được .Do đó các hệ số ứng

với các biến Degree, GraduationYear, MechanicalEngg khơng có ý nghĩa thống kê , vậy ta sẽ loại bỏ các biến Degree, GraduationYear, MechanicalEngg ra khỏi mơ hình.

Xây dựng mơ hình 2 loại bỏ biến GraduationYear từ mơ hình 1.

Xâ y dựng mơ hình 3 loại bỏ biến MechanicalEngg từ mơ hình 2.

So sánh các mơ hình:

Nhận xét:

Dựa vào kết quả phân tích ANOVA hai mơ hình M1 và M2, ta thu được giá trị Pr(>F) =0,9786. Với mức ý nghĩa 5%, khi đó Pr(>F)>0,05 nên chỉ ra rằng 2 mơ hình là như nhau. Mặt khác ta có thể dựa vào R2 hiệu chỉnh (Adjusted R squared) ở 2 mơ hình, ta thấy R2 hiệu chỉnh của M2 là 0,1813 > R2 hiệu chỉnh của M1 là 0.181. Vì vậy, mục dù kết quả phân tích ANOVA cho biết hai mơ hình như nhau nhưng ta vẫn có thể kết luận mơ hình M2 tốt hơn M1

Nhận xét:

Dựa vào kết quả phân tích ANOVA hai mơ hình M2 và M3, ta thu được giá trị Pr(>F) =0,8254. Với mức ý nghĩa 5%, khi đó Pr(>F)>0,05 nên chỉ ra rằng 2 mơ hình là như nhau. Lúc này ta tiếp tục dựa vào R2 hiệu chỉnh (Adjusted R squared)) ở 2 mơ hình, ta thấy R2 hiệu chỉnh của M3 là 0,1815 > R2 hiệu chỉnh của M2 là 0.1813. Vì vậy, mục dù kết quả phân tích ANOVA cho biết hai mơ hình như nhau nhưng ta vẫn có thể kết luận mơ hình M3 tốt hơn M2

Nhận xét:

Dựa vào kết quả phân tích ANOVA hai mơ hình M3 và M4, ta thu được giá trị Pr(>F) =0.09074. Với mức ý nghĩa 5%, khi đó Pr(>F)>0,05 nên chỉ ra rằng 2 mơ hình là như nhau. Lúc này ta tiếp tục dựa vào R2 hiệu chỉnh (Adjusted R squared) ở 2 mơ hình, ta thấy R2 hiệu chỉnh của M4 là 0,1806 < R2 hiệu chỉnh của M2 là 0.1815. Vì vậy, mục dù kết quả phân tích ANOVA cho biết hai mơ hình như nhau nhưng ta vẫn có thể kết luận mơ hình M3 tốt hơn M4. Tuy nhiên, giá trị Pr(>F) đã giảm rất mạnh so với các giá trị so sánh ở trên đã chỉ ra có sự thay đổi lớn khi loại bỏ biến Degree.

Nhận xét: Sau khi loại bỏ dần các biến GraduationYear, MechanicalEngg, Degree ra

khỏi mơ hình và xây dựng các mơ hình mới M2, M3, M4. Dựa trên kết quả tóm tắt trên mơ hình M2, M3,M4 , ta nhận thấy các biến collegeGPA, English, ComputerScience, Quant, ElectricalEngg, có Pr(>t) rất bé (***) , tức khả năng bác bỏ H0 càng cao, tức các hệ số ứng với các biến trên có ý nghĩa thống kê cao, có nghĩa là những thay đổi của các

biến này có ảnh hưởng nhiều đến sự thay đổi của lương của sinh viên kỹ sư mới ra trường.

Tiếp đến là biến Genderm, DegreeMCA, Logical, TelecomEngg, CivilEngg, có Pr(>t) khá bé ( (** ) và (*) ) tuy không quá nhỏ so với mức ý nghĩa 0,05 nhưng có xu hướng bác bỏ H0 nhiều hơn, nên có thể xem như có sự ảnh hưởng nhất định đến Salary (ít hơn so với các biến (***) ). Biến GraduationYear, MechanicalEngg, Degree được loại bỏ vì khơng có ý nghĩa thống kê, tức sự thay đổi của biến này hầu như không ảnh hưởng đến Salary của kỹ sư sinh viên mới ra trường . Mặt khác các hệ số hồi quy của 1 biến dự báo cũng được xem như ảnh hưởng trung bình lên biến phụ thuộc là lương khi tăng hoặc giảm 1 đơn vị của biến dự báo đó, giả sử khi các biến dự báo khác không đổi. Cụ thể hơn, hệ số hồi quy ứng với CollegeGPA = 8.212e-03 thì ứng với khi số điểm tăng 1 thì ta có thể kỳ vọng lương tăng 8.212e-03 INR (giả sử rằng các biến dự báo cịn lại khơng đổi).

Vẽ biểu đồ sai số hồi quy và giá trị dự báo:

Nhận xét:

Đồ thị trên vẽ các giá trị dự báo và các giá trị thặng dư (sai số) tương ứng. Dựa vào đồ thị ta thấy, đường thẳng màu đỏ trên đồ thị là đường thẳng nằm ngang, không phải đường cong, tức là mối quan hệ giữa các biến dự báo X và biến phụ thuộc Y được xem như là tuyến tính, thoả mản giả định tuyến tính của dữ liệu. Ngồi ra các giá trị thặng dư (sai số) phân tán tương đối đều xung quanh đường thẳng y = 0 (ngoài trừ một số giá trị là ngoại lai), chứng tỏ phương sai của các sai số là hằng số.

• Y và X có mối quan hệ tuyến tính

• Sai số hồi quy tuân theo phân phối chuẩn • Các sai số phải độc lập với nhau

• Phương sai các sai số phải là hằng số

Một phần của tài liệu BÁO CÁO BÀI TẬP LỚN MÔN XÁC SUẤT THỐNG KÊ (Trang 59 - 66)