BÁO cáo bài tập lớn xây dựng mô hình hồi quy phân tích các nhân tố ảnh hưởng đến lương của kỹ sư sau khi tốt nghiệp đh

72 4 0
BÁO cáo bài tập lớn xây dựng mô hình hồi quy phân tích các nhân tố ảnh hưởng đến lương của kỹ sư sau khi tốt nghiệp đh

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

  ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KỸ THUẬT HOÁ HỌC  BÁO CÁO BÀI TẬP LỚN MÔN XÁC SUẤT THỐNG KÊ HỌC KỲ 212 Nhóm – L18 GVHD: Thầy Nguyễn Bá Thi   SVTH : Lâm Thuỳ Dương 2012882  Hồ Chí Minh, 05/04/2022   MỤC LỤC A PHẦN C CH HUNG I Hồi qu quy ttuuyến tí tính bbộội Đọc Đọc liệu liệu (I (Imp mpor ortt ddat ata) a) Là Làm m ssạc ạchh ddữ ữ liệ liệuu (Da (Data ta cl clea eani ning ng)) .8 Là Làm m rõ li liệu ệu (D (Dat ataa vvis isua uali liza zati tion on)) Xâ Xâyy ddựn ựngg m môô hìn hìnhh hhồi ồi qu quyy ttuy uyến ến tí tính nh 14 Dự bá báoo (Pr (Predic edicttio ions ns)) 19 19 II ANOVA 20 Nhậ Nhậpp làm sạ ch liệ liệu, u, tthực hực hiệ hiệnn cá cácc th thống ống kê m môô tả 22 Ph Phân ân tí tích ch ph phươ ương ng sa saii m ột nhân nhân tố 31 31 B PHẦN RIÊNG 47 47 47 Đề yêu cầu: Đọc liệu: 48 Làm liệu: 49 49 Làm rrõõ liệu: 49 Xây ddựng ựng m mơơ hìn hìnhh hồi quy: P Phân hân ttích ích cá cácc nhân tố ảnh hưởng đến llương ương ccủa kỹ sư sa sauu 57 tốt nghiệp ĐH t.t t.test est:: So sán sánhh lương lương tru trung ng bìn bìnhh gi ữa Nam Nữ .64 Xây ddựng ựng m mơơ hìn hìnhh anov anova: a: So sánh mức llương ương ttrung rung bbình ình ggiữa iữa các ứng cử vi viên ên đạt cấp khác 65 .70 70 TÀI LIỆU THAM KHẢO   A PHẦN CHUNG I Hồi qu quyy tuyến ến tí tính nh bộii Câu 1: Tập tin "gia_nha.csv" chứa thông tin giá bán thị trường (đơn vị đô la) 21613 nhà ởgiáquận nước khoảng giantảtừchất tháng 5/2014 đến 5/2015.ngôi Bên cạnh nhà,King liệu cịnMỹ bao gồm thuộc thời tính mơ lượng nhà Dữ liệu gốc cung cấp tại: https://www https://www.kaggle.com/harlfox kaggle.com/harlfoxem/housesalespre em/housesalesprediction diction Các biến liệu: • price: Giá nhà bán  • sqft_living15: Diện tích trung bình 15 ngơi nhà gần khu dân cư • floors: Số tầng ngơi nhà phân loại từ - 3.5 • condition: Điều kiện kiến trúc nhà từ - 5, 1: tệ 5: tốt • sqft_above: Diện tích ngơi nhà • sqft_living: Diện tích khn viên nhà Yêu cầu: Đọc liệu (Import data): Hãy dùng lênh read.csv() để đọc tệp tin Làm liệu (Data cleaning): (a) Hãy trích liệu đặt tên new_DF bao gồm biến mà ta quan tâm trình bày phần giới thiệu liệu Từ câu hỏi sau, yêu cầu xử lý dựa tập liệu new_DF (b) Kiểm tra liệu bị khuyết tập tin (Các câu lênh tham khảo: is.na(), which(), apply()) Nếu có liệu bị khuyết, đề xuất phương pháp thay cho liệu bị khuyết Làm rõ liệu (Data visualization): (a) Chuyển đổi biến price, sqft_living15, sqft_above, sqft_living thành log(price), log(sqft_living15), log(sqft_above), log(sqft_living) Từ tính tốn với biến hiểu qua đổi biến dạng log (b) Đối với biến liên tục, tính giá trị thống kê mơ tả bao gồm: trung  bình, trung vị, độ lệch chuẩn, giá trị lớn giá trị nhỏ Xuất kết dạng    bảng (Hàm gợi ý: mean(), median(), sd(), min(), max() , apply(), as.data.frame(), rownames()) (c) Đối với biến phân loại, lập bảng thống kê số lượng cho chủng loại (Hàm gợi ý: table()) (d) Hãy dùng hàm hist() để vẽ đồ thị phân phối biến price (e) Hãy dùng hàm boxplot() vẽ phân phối biến price cho nhóm phân loại biến floors biến condition (f) Dùng lệnh pairs() vẽ phân phối biến price theo biến sqft_living15, sqft_above, sqft_living Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models): Chúng ta muốn khám phá có nhân tố tác động đến giá nhà quận King (a) Xét mơ hình hồi quy tuyến tính bao gồm biến price biến phụ thuộc, tất biến lại biến độc lập Hãy dùng lệnh lm() để thực thi mơ hình hồi quycảtuyến tính bội (b) Dựa vào kết mơ hình hồi quy tuyến tính trên, biến bạn loại khỏi mơ hình tương ứng với mức tin cậy 5%? (c) Xét mơ hình tuyến tính bao gồm biến price biến phụ thuộc nhưng: + mơ hình M1 chứa tất biến lại biến độc lập + mơ hình M2 loại bỏ biến condition từ mơ hình M1 Hãy dùng lệnhh anova() để đề xuất mơ hình hồi quy hợp lý (d) Chọn mơ hình hợp lý từ câu (c) suy luận tác động biến lên giá nhà (e) Từ mơ hình hồi quy mà bạn chọn câu (c) dùng lệnh plot() để vẽ đồ thị  biểu thị sai số hồi quy (residuals) giá trị dự báo (fitted values) Nêu ý nghĩa nhận xét đồ thị Dự báo (Predictions): (a) Từ mơ hình bạn chọn câu (c), dùng lệnh predict() để dự báo giá nhà thuộc tính sau: X1: sqft_living15 = mean(sqft_living15), sqft_above = mean(sqft_above), sqft_living = mean(sqft_living), floor = 2, condition =   X2: sqft_living15 = max(sqft_living15), sqft_above = max(sqft_above), sqft_living = max(sqft_living), floor = 2, condition = (b) So sánh khoảng tin cậy cho giá trị dự báo   THỰC HIỆN  Đọc Đọc dữ lliệ iệuu ((Im Impo port rt da data ta)) Đọc liệu “gia_nha.csv”.  Làm Làm sạc sạchh liệu liệu (D (Dat ataa clea cleani ning ng)) (a) Tạo liệu new_DF new_DF chỉ  chỉ bao gồm biến mà ta quan tâm   (b) Kiểm tra liệu bị khuyết new_DF  Nhìn vào kết kiểm tra tra liệu bị khuyết new_D new_DF, F, ta nhận thấy có 20 liệu  bị khuyết biến price (lượng liệu khuyết chiếm 10% liệu) Vì vậy, ta cần xử lý liệu bị khuyết Phương pháp thay cho liệu bị khuyết: xoá quan sát chứa liệu bị khuyết   Sau thực phương pháp, nhận thấy khơng cịn liệu bị khuyết Làm Làm rõ dữ liệu liệu (Dat (Dataa visu visual aliz izat atio ion) n) (a) Chuyển Chuyển đổi biến biến price price,,  sqft_living15, sqft_living15,  sqft_above, sqft_above,  sqft_living  sqft_living  thành log(price), log(sqft_living15), log(sqft_above), log(sqft_living). Từ log(sqft_living)  Từ tính tốn với biến hiểu qua đổi biến dạng log Giải thích lý chuyển sang dạng log(x): + Cải thiện phù hợp mơ hình: giả định ta xây dựng mơ hình hồi quy sai số hồi quy (phần dư) phải có phân phối chuẩn, trường hợp sai số hồi quy (phần dư) phân phối chuẩn việc lấy log của biến giúp thay đổi tỉ lệ làm cho biến có phân phối chuẩn Ngồi ra, trường hợp phần dư (phương sai thay đổi) biến độc lập gây ra, ta chuyển đổi biến sang dạng log + Diễn giải: lý giúp ta diễn giải mối quan hệ biến thuận tiện  Nếu ta lấy log biến phụ thuộc Y biến độc lập X, hệ số hồi quy β hệ số co giãn diễn giải sau: X tăng 1% dẫn đến tăng việc ta kỳ vọng Y tăng lên β% (về mặt trung bình Y), + Ước lượng mơ hình phi tuyến: việc lấy log cho phép ta ước lượng mơ hình  bằng hồi quy tuyến tính   (b) Tính giá trị thống kê mơ tả (trung bình, trung vị độ lệch chuẩn, giá trị lớn nhất, log.price,,  log.sqft_above, log.sqft_above,  log.sqft_living, log.sqft_living, giá trị nhỏ nhất) cho biến log.price log.sqft_living15 Xuất kết dạng bảng log.sqft_living15 (c) Lập bảng thống kê số lượng cho chủng loại biến floors floors và  và condition condition   (d) Vẽ biểu đồ histogram thể phân phối log.price log.price Dựa biểu đồ histogram biến log.price, ta nhận thấy đồ thị có hình dạng phân phối chuẩn (e) Vẽ biểu đồ boxplot thể phân phối biến log.price log.price cho  cho nhóm phân loại floors và condition biến floors  và biến condition log.price cho - Vẽ biểu đồ boxplot thể phân phối biến log.price  cho nhóm phân loại floors  biến floors 10   58   Nhận xét: Từ xét: Từ đồ thị phân tán biến Salary theo collegeGPA, GraduationYear, English, Engl ish, Quant, Quant, ComputerS ComputerScien cience, ce, Mechanica MechanicalEng lEngg, g, Electrica ElectricalEngg lEngg,, TelecomE TelecomEngg, ngg, CivilEngg : Ta nhận thấy biến Quant English có quan hệ tuyến tính với Max.HR theo quan hệ đồng biến rõ rệt Các biến lại collegeGPA, GraduationYear, ComputerScience, MechanicalEngg, ElectricalEngg, TelecomEngg, CivilEngg qua đồ thị quan hệ tuyến tính với Salary Xây dựng dựng mơ hình hình hồi quy: quy: Phân Phân tích tích cá cácc nhâ nhânn tố ảnh hư hưởng ởng đến đến lươ lương ng kỹ kỹ sư sau tốt nghiệp ĐH Xây dựng mơ hình đó: - Biến phụ thuộc: thuộc: Salary - Biến độc lập: lập: tất biến lại 59   Dựa vào kết mơ hình hồi quy tuyến tính trên, biến bị loại khỏi mơ hình với mức tin cậy 5% ? Ta đặt giả thiết: H0: Các hệ số hồi quy khơng có ý nghĩa thống kê H1: Các hệ số hồi quy có ý nghĩa thống kê Nhận xét: xét: Dựa vào kết mơ hình hồi quy, ta nhận thấy Pr(>|t|) biến Gender Gen derm, m, De Degre greeMC eMCA, A, colleg collegeGP eGPA, A, Englis English, h, Logica Logical,l, Quant Quant,, Comput ComputerS erScie cience nce,, ElectricalEngg, TelecomEngg, CivilEngg < mức ý nghĩa 0,05 nên ta bác bỏ H 0, chấp nhận H1 nên hệ số góc tương ứng với biến (Genderm, DegreeMCA, collegeGPA, English, Logical, Quant, ComputerScience, ElectricalEngg, TelecomEngg, CivilEngg) có ý nghĩa thống kê Cịn biến Degree,GraduationYear,MechanicalEngg ta thấy Pr(>|t|)  biến > mức ý nghĩa 0,05 nên ta chưa thể bác bỏ giả thiết H 0 được Do hệ số ứng với Degree, GraduationYear, MechanicalEngg không nghĩa ta sẽcác loạibiến bỏ biến Degree, GraduationYear, Mechanical MechanicalEngg Enggcó ýkhỏi mơthống hình kê , 60   Xây dựng mơ hình loại bỏ biến GraduationYear từ mơ hình Xâ y dựng mơ hình loại bỏ biến MechanicalEngg từ mơ hình 61   Xây dựng mơ hình loại bỏ biến Degree từ mơ hình 62   So sánh mơ hình: Nhận xét:  xét:  Dựa vào kết phân tích ANOVA hai mơ hình M1 M2, ta thu giá trị Pr(>F) =0,9786 Với mức ý nghĩa 5%, Pr(>F)>0,05 nên mơ hình Mặt khác ta dựa vào R 2 hiệu chỉnh (Adjusted R squared) mơ hình, ta thấy R 2 hiệu chỉnh M2 0,1813 > R2 hiệu chỉnh M1 0.181 Vì vậy, mục dù kết  phân tích ANOVA cho biết hai mơ ta kết luận mơ hình M2 tốt M1 63   Nhận xét:  xét:  Dựa vào kết phân tích ANOVA hai mơ hình M2 M3, ta thu giá trị Pr(>F) =0,8254 Với mức ý nghĩa 5%, Pr(>F)>0,05 nên mơ hình Lúc ta tiếp tục dựa vào R 2 hiệu chỉnh (Adjusted R squared)) mơ hình, ta thấy R 2 hiệu chỉnh M3 0,1815 > R2 hiệu chỉnh M2 0.1813 Vì vậy, mục dù kết phân tích ANOVA cho biết hai mơ ta kết luận mơ hình M3 tốt M2 Nhận xét:  xét:  Dựa vào kết phân tích ANOVA hai mơ hình M3 M4, ta thu giá trị Pr(>F) =0.09074 Với mức ý nghĩa 5%, Pr(>F)>0,05 nên mơ hình Lúc ta tiếp tục dựa vào R 2 hiệu chỉnh (Adjusted R squared) mơ hình, ta thấy R 2 hiệu chỉnh M4 0,1806 < R2 hiệu chỉnh M2 0.1815 Vì vậy, mục dù kết phân tích ANOVA cho biết hai mơ ta kết luận mơ hình M3 tốt M4 Tuy nhiên, giá trị Pr(>F) giảm mạnh so với giá trị so sánh có thay đổi lớn loại bỏ biến Degree Nhận xét: xét: Sau loại bỏ dần biến GraduationYear, MechanicalEngg, Degree khỏi mơ hình xây dựng mơ hình M2, M3, M4 Dựa kết tóm tắt mơ hình M2, M3,M4 , ta nhận thấy biến collegeGPA, English, ComputerScience, Quant, ElectricalEngg, có Pr(>t) bé (***) , tức khả bác bỏ H 0 càng cao, tức hệ số ứng với biến có ý nghĩa thống kê cao, có nghĩa thay đổi 64    biến có ảnh hưởng nhiều đến thay đổi lương sinh viên kỹ sư trường Tiếp đến biến Genderm, DegreeMCA, Logical, TelecomEngg, CivilEngg, có Pr(>t) bé ( (** ) (*) ) không nhỏ so với mức ý nghĩa 0,05 có xu hướng bác  bỏ H0 nhiều hơn, nên xem có ảnh hưởng định đến Salary (ít so với (***) ) Biến GraduationYear, đượchưởng loại bỏđến Salary khơng có ýbiến nghĩa thống kê, tức thay đổi củaMechanicalEngg, biến hầu nhưDegree không ảnh kỹ sư sinh viên trường Mặt khác hệ số hồi quy biến dự báo xem ảnh hưởng trung bình lên biến phụ thuộc lương tăng giảm đơn vị biến dự báo đó, giả sử biến dự báo khác không đổi Cụ thể hơn, hệ số hồi quy ứng với CollegeGPA = 8.212e-03 ứng với số điểm tăng ta kỳ vọng lương tăng 8.212e-03 INR (giả sử biến dự báo lại không đổi) Vẽ biểu đồ sai số hồi quy giá trị dự báo: Nhận xét:  Đồ thị vẽ giá trị dự báo giá trị thặng dư (sai số) tươ tương ng ứng Dựa vào đồ thị ta thấy, đường thẳng màu đỏ đồ thị đường thẳng nằm ngang, đường cong, tức mối quan hệ biến dự báo X biến phụ thuộc Y xem tuyến tính, thoả mản giả định tuyến tính liệu Ngoài giá trị thặng dư (sai số)  phân tán tương đối xung quanh đường thẳng y = (ngoài trừ số giá trị ngoại lai), chứng tỏ phương sai sai số số *** Các giả định cần kiểm tra mơ hình hồi quy tuyến tính: 65   • Y X có mối quan hệ tuyến tính • Sai số hồi quy tuân theo phân phối chuẩn • Các sai số phải độc lập với • Phương sai sai số phải số t.t t.test est:: So sánh sánh lương lương trun trungg bình bình gi ữa Nam Nam và Nữ Nữ Tạo liệu bao gồm biến Salary, Gender, Degree Thực kiểm định: 66   Xây dựng dựng mơ hình hình anova: anova: So sánh sánh mức mức lương lương tru trung ng bình bình các ứng ứng cử viê viênn đạt cấp khác Lọc liệu (chỉ xét loại cấp): Kiểm tra giả định phân phối chuẩn: 67   • Đối vớ vớii lloạ oạii bằ cấp B B.T Tech/B h/B.E E: 68   Nhận xét: Nhìn xét: Nhìn vào đồ thị, ta nhận thấy biến tập trung đa số xung quanh đường thẳng 15o, khoảng đầu cuối có vài giá trị lệch khỏi đường thẳng không đáng kể, nên giả định sai số tuân theo phân phối chuẩn thỏa mãn • Đối vớ vớii lloạ oạii bằ cấp M.T M.Tech ch./ /M M.E E:: Nhận xét: Đây xét: Đây biểu đồ chưa phân phối chuẩn biến rời rạc 69   • Đối với loại cấp MCA: Nhận xét: Nhìn xét: Nhìn vào đồ thị, ta nhận thấy biến tập trung đa số xung quanh đường thẳng 15o, khoảng đầu cuối có vài giá trị lệch khỏi đường thẳng không đáng kể, nên giả định sai số tuân theo phân phối chuẩn thỏa mãn Thực kiểm tra giả định tính đồng phương sai: 70   Nhận xét: xét: Do giá trị Pr(>F)=0,06524>0,05 nên phương sai nhau, từ đủ điều kiện  phân tích phương sai nhân tố Thực phân tích phương sai nhân tố: Nhận xét: Pr(>F)=0,134>0,05 xét: Pr(>F)=0,134>0,05 nên trung bình nhau, chưa đủ điều kiện để khẳng định có khác biệt nhóm biến phụ thuộc 71   TÀI LIỆU THAM KHẢO Hoà Hoàng ng Văn Văn Hà, B Bài ài giảng giảng Xác Xác suất suất Thống Thống Kê Kê Ngu Nguyễn yễn Ti Tiến ến Dũng (ch (chủủ biên), biên), Nguyễn Nguyễn Đình Huy, Huy, Xác suất – Thốn Thốngg kê & Phân tích số liệu, 2019 72 ... 49 Xây ddựng ựng m mô? ? hìn hìnhh hồi quy: P Phân hân ttích ích cá cácc nhân tố ảnh hưởng đến llương ương ccủa kỹ sư sa sauu 57 tốt nghiệp ĐH t.t t.test... với mơ hình, bỏ biến có ý nghĩa khỏi mơ hình khi? ??n mơ hình tệ Vì ta chọn mơ hình mơ hình phù hợp (d) Phân tích tác động nhân tố lên giá nhà:  Như mơ hình hồi quy tuyến tính ảnh hưởng nhân tố lên... ần kỹ th thuậ uậtt Xây Xây dựng dựng 49   Yêu cầu: • Phân tích nhân tố ảnh hưởng đến mức lương sinh viên kỹ sư trường • So sánh mức lương đề xuất trung bình ứng cử viên nam nữ • So sánh mức lương

Ngày đăng: 01/12/2022, 22:06

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan