1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÁO cáo bài tập lớn xây dựng mô hình hồi quy phân tích các nhân tố ảnh hưởng đến lương của kỹ sư sau khi tốt nghiệp đh

78 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 78
Dung lượng 9,8 MB

Nội dung

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KỸ THUẬT HOÁ HỌC BÁO CÁO BÀI TẬP LỚN MÔN XÁC SUẤT THỐNG KÊ HỌC KỲ 212 Nhóm – L18 GVHD: Thầy Nguyễn Bá Thi SVTH : Lâm Thuỳ Dương Hồ Chí Minh, 05/04/2022 MỤC LỤC PHHẦẦN CHUUNNG A I Hồồi quuy tuuyyếến tíínnh bội Đọc liệu (Imporort datata) Làm liệiệu (Data cleaeaniningng) Làm rõ liệu (Datata visuaualilizazatitionon) Xây dựnựng mơ hìnình hồi quy tuyến tính Dự báo (Prrededicicttioionsns) II ANNOOVVA Nhập làm liệu, thực thống kê mơ tả Phân tích phương sai nhân tố PHHẦẦN RIIÊÊNNG B Đề yêu cầu: Đọọc liiệệuu: Lààm sạạcch liiệệuu: Lààm rõ liiệệuu: Xây dựng mô hình hồi quy: Phân tích nhân tố ảnh hưởng đến lương kỹ sư sau tốt nghiệp ĐH 57 t.test: So sánh lương trung bình Nam Nữ 64 Xây dựng mơ hình anova: So sánh mức lương trung bình ứng cử viên đạt cấp khác 65 TÀI LIỆU THAM KHẢO 70 A PHẦN CHHUUNNG I Hồi quy tuyến tính bội Câu 1: Tập tin "gia_nha.csv" chứa thông tin giá bán thị trường (đơn vị đô la) 21613 nhà quận King nước Mỹ khoảng thời gian từ tháng 5/2014 đến 5/2015 Bên cạnh giá nhà, liệu bao gồm thuộc tính mơ tả chất lượng ngơi nhà Dữ liệu gốc cung cấp tại: https://www.kaggle.com/harlfoxem/housesalesprediction Các biến liệu: • price: Giá nhà bán • sqft_living15: Diện tích trung bình 15 ngơi nhà gần khu dân cư • floors: Số tầng nhà phân loại từ - 3.5 • condition: Điều kiện kiến trúc nhà từ - 5, 1: tệ 5: tốt • sqft_above: Diện tích ngơi nhà • sqft_living: Diện tích khn viên nhà u cầu: Đọc liệu (Import data): Hãy dùng lênh read.csv() để đọc tệp tin Làm liệu (Data cleaning): (a) Hãy trích liệu đặt tên new_DF bao gồm biến mà ta quan tâm trình bày phần giới thiệu liệu Từ câu hỏi sau, yêu cầu xử lý dựa tập liệu new_DF (b) Kiểm tra liệu bị khuyết tập tin (Các câu lênh tham khảo: is.na(), which(), apply()) Nếu có liệu bị khuyết, đề xuất phương pháp thay cho liệu bị khuyết Làm rõ liệu (Data visualization): (a) Chuyển đổi biến price, sqft_living15, sqft_above, sqft_living thành log(price), log(sqft_living15), log(sqft_above), log(sqft_living) Từ tính tốn với biến hiểu qua đổi biến dạng log (b) Đối với biến liên tục, tính giá trị thống kê mơ tả bao gồm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn giá trị nhỏ Xuất kết dạng bảng (Hàm gợi ý: mean(), median(), sd(), min(), max() , apply(), as.data.frame(), rownames()) (c) Đối với biến phân loại, lập bảng thống kê số lượng cho chủng loại (Hàm gợi ý: table()) (d) Hãy dùng hàm hist() để vẽ đồ thị phân phối biến price (e) Hãy dùng hàm boxplot() vẽ phân phối biến price cho nhóm phân loại biến floors biến condition (f) Dùng lệnh pairs() vẽ phân phối biến price theo biến sqft_living15, sqft_above, sqft_living Xây dựng mô hình hồi quy tuyến tính (Fitting linear regression models): Chúng ta muốn khám phá có nhân tố tác động đến giá nhà quận King (a) Xét mơ hình hồi quy tuyến tính bao gồm biến price biến phụ thuộc, tất biến lại biến độc lập Hãy dùng lệnh lm() để thực thi mơ hình hồi quy tuyến tính bội (b) Dựa vào kết mơ hình hồi quy tuyến tính trên, biến bạn loại khỏi mơ hình tương ứng với mức tin cậy 5%? (c) Xét mơ hình tuyến tính bao gồm biến price biến phụ thuộc nhưng: + mơ hình M1 chứa tất biến cịn lại biến độc lập + mơ hình M2 loại bỏ biến condition từ mơ hình M1 Hãy dùng lệnhh anova() để đề xuất mơ hình hồi quy hợp lý (d) Chọn mơ hình hợp lý từ câu (c) suy luận tác động biến lên giá nhà (e) Từ mơ hình hồi quy mà bạn chọn câu (c) dùng lệnh plot() để vẽ đồ thị biểu thị sai số hồi quy (residuals) giá trị dự báo (fitted values) Nêu ý nghĩa nhận xét đồ thị Dự báo (Predictions): (a) Từ mơ hình bạn chọn câu (c), dùng lệnh predict() để dự báo giá nhà thuộc tính sau: X1: sqft_living15 = mean(sqft_living15), sqft_above = mean(sqft_above), sqft_living = mean(sqft_living), floor = 2, condition = X2: sqft_living15 = max(sqft_living15), sqft_above = max(sqft_above), sqft_living = max(sqft_living), floor = 2, condition = (b) So sánh khoảng tin cậy cho giá trị dự báo THỰC HIỆN Đọc liệiệu (Import datata) Đọc liệu “gia_nha.csv” Làm sạcạch liệu (Datata cleaeaning) (a) tâm Tạo liệu new_DF bao gồm biến mà ta quan (b) Kiểm tra liệu bị khuyết new_DF Nhìn vào kết kiểm tra liệu bị khuyết new_DF, ta nhận thấy có 20 liệu bị khuyết biến price (lượng liệu khuyết chiếm 10% liệu) Vì vậy, ta cần xử lý liệu bị khuyết Phương pháp thay cho liệu bị khuyết: xoá quan sát chứa liệu bị khuyết 58 Nhận xét: Từ đồ thị phân tán biến Salary theo collegeGPA, GraduationYear, English, Quant, ComputerScience, MechanicalEngg, ElectricalEngg, TelecomEngg, CivilEngg : Ta nhận thấy biến Quant English có quan hệ tuyến tính với Max.HR theo quan hệ đồng biến rõ rệt Các biến lại collegeGPA, GraduationYear, ComputerScience, MechanicalEngg, ElectricalEngg, TelecomEngg, CivilEngg qua đồ thị quan hệ tuyến tính với Salary Xây dựng mơ hình hồi quy: Phân tích nhân tố ảnh hưởng đến lương kỹ sư sau tốt nghiệp ĐH Xây dựng mơ hình đó: - Biến phụ thuộc: Salary - Biến độc lập: tất biến cịn lại 59 Dựa vào kết mơ hình hồi quy tuyến tính trên, biến bị loại khỏi mơ hình với mức tin cậy 5% ? Ta đặt giả thiết: H0: Các hệ số hồi quy khơng có ý nghĩa thống kê H1: Các hệ số hồi quy có ý nghĩa thống kê Nhận xét: Dựa vào kết mơ hình hồi quy, ta nhận thấy Pr(>|t|) biến Genderm, DegreeMCA, collegeGPA, Engllish, Logical, Quant, ComputerScience,, ElectricalEngg, TelecomEngg, CivilEngg < mức ý nghĩa 0,05 nên ta bác bỏ H 0, chấp nhận H1 nên hệ số góc tương ứng với biến (Genderm, DegreeMCA, collegeGPA, English, Logical, Quant, ComputerScience, ElectricalEngg, TelecomEngg, CivilEngg) có ý nghĩa thống kê Cịn biến Degree,GraduationYear,MechanicalEngg ta thấy Pr(>|t|) biến > mức ý nghĩa 0,05 nên ta chưa thể bác bỏ giả thiết H0 Do hệ số ứng với biến Degree, GraduationYear, MechanicalEngg khơng có ý nghĩa thống kê , ta loại bỏ biến Degree, GraduationYear, MechanicalEngg khỏi mơ hình 60 Xây dựng mơ hình loại bỏ biến GraduationYear từ mơ hình y dựng mơ hình loại bỏ biến MechanicalEngg từ mơ hình Xâ 61 Xây dựng mơ hình loại bỏ biến Degree từ mơ hình 62 So sánh mơ hình: Nhận xét: Dựa vào kết phân tích ANOVA hai mơ hình M1 M2, ta thu giá trị Pr(>F) =0,9786 Với mức ý nghĩa 5%, Pr(>F)>0,05 nên mơ hình Mặt khác ta dựa vào R hiệu chỉnh (Adjusted R squared) mô hình, ta thấy R hiệu chỉnh M2 0,1813 > R2 hiệu chỉnh M1 0.181 Vì vậy, mục dù kết phân tích ANOVA cho biết hai mơ ta kết luận mơ hình M2 tốt M1 63 Nhận xét: Dựa vào kết phân tích ANOVA hai mơ hình M2 M3, ta thu giá trị Pr(>F) =0,8254 Với mức ý nghĩa 5%, Pr(>F)>0,05 nên mơ hình Lúc ta tiếp tục dựa vào R hiệu chỉnh (Adjusted R squared)) mơ hình, ta thấy R hiệu chỉnh M3 0,1815 > R2 hiệu chỉnh M2 0.1813 Vì vậy, mục dù kết phân tích ANOVA cho biết hai mơ ta kết luận mơ hình M3 tốt M2 Nhận xét: Dựa vào kết phân tích ANOVA hai mơ hình M3 M4, ta thu giá trị Pr(>F) =0.09074 Với mức ý nghĩa 5%, Pr(>F)>0,05 nên mơ hình Lúc ta tiếp tục dựa vào R2 hiệu chỉnh (Adjusted R squared) mô hình, ta thấy R2 hiệu chỉnh M4 0,1806 < R2 hiệu chỉnh M2 0.1815 Vì vậy, mục dù kết phân tích ANOVA cho biết hai mơ ta kết luận mơ hình M3 tốt M4 Tuy nhiên, giá trị Pr(>F) giảm mạnh so với giá trị so sánh có thay đổi lớn loại bỏ biến Degree Nhận xét: Sau loại bỏ dần biến GraduationYear, MechanicalEngg, Degree khỏi mơ hình xây dựng mơ hình M2, M3, M4 Dựa kết tóm tắt mơ hình M2, M3,M4 , ta nhận thấy biến collegeGPA, English, ComputerScience, Quant, ElectricalEngg, có Pr(>t) bé (***) , tức khả bác bỏ H cao, tức hệ số ứng với biến có ý nghĩa thống kê cao, có nghĩa thay đổi 64 biến có ảnh hưởng nhiều đến thay đổi lương sinh viên kỹ sư trường Tiếp đến biến Genderm, DegreeMCA, Logical, TelecomEngg, CivilEngg, có Pr(>t) bé ( (** ) (*) ) không nhỏ so với mức ý nghĩa 0,05 có xu hướng bác bỏ H0 nhiều hơn, nên xem có ảnh hưởng định đến Salary (ít so với biến (***) ) Biến GraduationYear, MechanicalEngg, Degree loại bỏ khơng có ý nghĩa thống kê, tức thay đổi biến không ảnh hưởng đến Salary kỹ sư sinh viên trường Mặt khác hệ số hồi quy biến dự báo xem ảnh hưởng trung bình lên biến phụ thuộc lương tăng giảm đơn vị biến dự báo đó, giả sử biến dự báo khác không đổi Cụ thể hơn, hệ số hồi quy ứng với CollegeGPA = 8.212e-03 ứng với số điểm tăng ta kỳ vọng lương tăng 8.212e-03 INR (giả sử biến dự báo cịn lại khơng đổi) Vẽ biểu đồ sai số hồi quy giá trị dự báo: Nhận xét: Đồ thị vẽ giá trị dự báo giá trị thặng dư (sai số) tương ứng Dựa vào đồ thị ta thấy, đường thẳng màu đỏ đồ thị đường thẳng nằm ngang, đường cong, tức mối quan hệ biến dự báo X biến phụ thuộc Y xem tuyến tính, thoả mản giả định tuyến tính liệu Ngồi giá trị thặng dư (sai số) phân tán tương đối xung quanh đường thẳng y = (ngoài trừ số giá trị ngoại lai), chứng tỏ phương sai sai số số *** Các giả định cần kiểm tra mơ hình hồi quy tuyến tính: 65 • Y X có mối quan hệ tuyến tính • Sai số hồi quy tn theo phân phối chuẩn • Các sai số phải độc lập với • Phương sai sai số phải số t.test: So sánh lương trung bình Nam Nữ Tạo liệu bao gồm biến Salary, Gender, Degree Thực kiểm định: 66 Xây dựng mơ hình anova: So sánh mức lương trung bình ứng cử viên đạt cấp khác Lọc liệu (chỉ xét loại cấp): Kiểm tra giả định phân phối chuẩn: 67 • Đối với loạoại cấp B.Teecch/h/B.E: 68 Nhận xét: Nhìn vào đồ thị, ta nhận thấy biến tập trung đa số xung quanh đường thẳng 15o, khoảng đầu cuối có vài giá trị lệch khỏi đường thẳng không đáng kể, nên giả định sai số tuân theo phân phối chuẩn thỏa mãn • Đối với loạoại cấp M.Teech./M.E: Nhận xét: Đây biểu đồ chưa phân phối chuẩn biến rời rạc 69 • Đốối vớới looạại bằằnng cấấp MCCAA: Nhận xét: Nhìn vào đồ thị, ta nhận thấy biến tập trung đa số xung quanh đường thẳng 15o, khoảng đầu cuối có vài giá trị lệch khỏi đường thẳng không đáng kể, nên giả định sai số tuân theo phân phối chuẩn thỏa mãn Thực kiểm tra giả định tính đồng phương sai: 70 Nhận xét: Do giá trị Pr(>F)=0,06524>0,05 nên phương sai nhau, từ đủ điều kiện phân tích phương sai nhân tố Thực phân tích phương sai nhân tố: Nhận xét: Pr(>F)=0,134>0,05 nên trung bình nhau, chưa đủ điều kiện để khẳng định có khác biệt nhóm biến phụ thuộc 71 TÀI LIỆU THAM KHẢO Hoàng Văn Hà, Bài giảng Xác suất Thống Kê Nguyễn Tiến Dũng (chủ biên), Nguyễn Đình Huy, Xác suất – Thống kê & Phân tích số liệu, 2019 72 ... Xây dựng mô hình hồi quy: Phân tích nhân tố ảnh hưởng đến lương kỹ sư sau tốt nghiệp ĐH 57 t.test: So sánh lương trung bình Nam Nữ 64 Xây dựng mơ hình anova:... với mơ hình, bỏ biến có ý nghĩa khỏi mơ hình khi? ??n mơ hình tệ Vì ta chọn mơ hình mơ hình phù hợp (d) Phân tích tác động nhân tố lên giá nhà: Như mơ hình hồi quy tuyến tính ảnh hưởng nhân tố lên... (số tầng, điều kiện nhà, diện tích nhà, ) Xây dựng mơ hình hồi quy tuyếyến tính Chúng ta muốn khám phá có nhân tố tác động đến giá nhà quận King (a) Xét mơ hình hồi quy tuyến tính bao gồm biến

Ngày đăng: 05/12/2022, 06:25

HÌNH ẢNH LIÊN QUAN

(c) Lập một bảng thống kê số lượng cho từng chủng loại của biến floors và condition.. - BÁO cáo bài tập lớn xây dựng mô hình hồi quy phân tích các nhân tố ảnh hưởng đến lương của kỹ sư sau khi tốt nghiệp đh
c Lập một bảng thống kê số lượng cho từng chủng loại của biến floors và condition (Trang 12)
(c) Xét 2 mơ hình tuyến tính cùng bao gồm biến log.price là biến phụ thuộc nhưng: + Mơ hình M1 chứa tất cả các biến còn lại là biến độc lập. - BÁO cáo bài tập lớn xây dựng mô hình hồi quy phân tích các nhân tố ảnh hưởng đến lương của kỹ sư sau khi tốt nghiệp đh
c Xét 2 mơ hình tuyến tính cùng bao gồm biến log.price là biến phụ thuộc nhưng: + Mơ hình M1 chứa tất cả các biến còn lại là biến độc lập (Trang 19)
So sánh hiệu quả của hai mơ hình: - BÁO cáo bài tập lớn xây dựng mô hình hồi quy phân tích các nhân tố ảnh hưởng đến lương của kỹ sư sau khi tốt nghiệp đh
o sánh hiệu quả của hai mơ hình: (Trang 20)
(a) Từ mơ hình 1, thực hiện dự báo tại hai thuộc tính như sau: - BÁO cáo bài tập lớn xây dựng mô hình hồi quy phân tích các nhân tố ảnh hưởng đến lương của kỹ sư sau khi tốt nghiệp đh
a Từ mơ hình 1, thực hiện dự báo tại hai thuộc tính như sau: (Trang 22)
Dùng hàm data.frame để xuất Kết quả dưới dạng bảng thống kê: - BÁO cáo bài tập lớn xây dựng mô hình hồi quy phân tích các nhân tố ảnh hưởng đến lương của kỹ sư sau khi tốt nghiệp đh
ng hàm data.frame để xuất Kết quả dưới dạng bảng thống kê: (Trang 29)
Nhận xét: Dựa trên bảng kết quả Tukey và đồ thị Tukey, ta có thể đưa ra nhận xét về các trung bình thời gian khởi hành trễ như sau: WN&gt;UA=F9=AA=B6=F9&gt;DL&gt;VX=AS&gt;US&gt;OO=HA - BÁO cáo bài tập lớn xây dựng mô hình hồi quy phân tích các nhân tố ảnh hưởng đến lương của kỹ sư sau khi tốt nghiệp đh
h ận xét: Dựa trên bảng kết quả Tukey và đồ thị Tukey, ta có thể đưa ra nhận xét về các trung bình thời gian khởi hành trễ như sau: WN&gt;UA=F9=AA=B6=F9&gt;DL&gt;VX=AS&gt;US&gt;OO=HA (Trang 54)
4. Xây dựng mơ hình hồi quy: Phân tích các nhân tố ảnh - BÁO cáo bài tập lớn xây dựng mô hình hồi quy phân tích các nhân tố ảnh hưởng đến lương của kỹ sư sau khi tốt nghiệp đh
4. Xây dựng mơ hình hồi quy: Phân tích các nhân tố ảnh (Trang 65)
Dựa vào kết quả mơ hình hồi quy tuyến tính trên, những biến nào sẽ bị loại khỏi mơ hình với mức tin cậy 5% ? - BÁO cáo bài tập lớn xây dựng mô hình hồi quy phân tích các nhân tố ảnh hưởng đến lương của kỹ sư sau khi tốt nghiệp đh
a vào kết quả mơ hình hồi quy tuyến tính trên, những biến nào sẽ bị loại khỏi mơ hình với mức tin cậy 5% ? (Trang 66)
Xây dựng mơ hình 2 loại bỏ biến GraduationYear từ mơ hình 1. - BÁO cáo bài tập lớn xây dựng mô hình hồi quy phân tích các nhân tố ảnh hưởng đến lương của kỹ sư sau khi tốt nghiệp đh
y dựng mơ hình 2 loại bỏ biến GraduationYear từ mơ hình 1 (Trang 67)
Xây dựng mơ hình 4 loại bỏ biến Degree từ mơ hình 3. - BÁO cáo bài tập lớn xây dựng mô hình hồi quy phân tích các nhân tố ảnh hưởng đến lương của kỹ sư sau khi tốt nghiệp đh
y dựng mơ hình 4 loại bỏ biến Degree từ mơ hình 3 (Trang 68)
So sánh các mô hình: - BÁO cáo bài tập lớn xây dựng mô hình hồi quy phân tích các nhân tố ảnh hưởng đến lương của kỹ sư sau khi tốt nghiệp đh
o sánh các mô hình: (Trang 69)
Dựa vào kết quả phân tích ANOVA hai mơ hình M2 và M3, ta thu được giá trị Pr(&gt;F) =0,8254 - BÁO cáo bài tập lớn xây dựng mô hình hồi quy phân tích các nhân tố ảnh hưởng đến lương của kỹ sư sau khi tốt nghiệp đh
a vào kết quả phân tích ANOVA hai mơ hình M2 và M3, ta thu được giá trị Pr(&gt;F) =0,8254 (Trang 70)
*** Các giả định cần kiểm tra trong mơ hình hồi quy tuyến tính: - BÁO cáo bài tập lớn xây dựng mô hình hồi quy phân tích các nhân tố ảnh hưởng đến lương của kỹ sư sau khi tốt nghiệp đh
c giả định cần kiểm tra trong mơ hình hồi quy tuyến tính: (Trang 71)
6. Xây dựng mơ hình anova: So sánh mức lương trung bình giữa các ứng cử viên đạt các bằng cấp khác nhau - BÁO cáo bài tập lớn xây dựng mô hình hồi quy phân tích các nhân tố ảnh hưởng đến lương của kỹ sư sau khi tốt nghiệp đh
6. Xây dựng mơ hình anova: So sánh mức lương trung bình giữa các ứng cử viên đạt các bằng cấp khác nhau (Trang 73)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w