Phân tích bộ dữ liệu từ Kaggle về đánh giá nhân viên tại IBM, bao gồm tổ chức dữ liệu, thống kê mô tả, kiểm định giả thuyết, phương trình hồi quy, phân tích phương sai bằng phần mềm SPSS, Excel, Tableau
ĐẠI HỌC ĐÀ NẴNG TRƢỜNG ĐẠI HỌC KINH TẾ BÀI THI KẾT THÚC HỌC PHẦN PHÂN TÍCH DỮ LIỆU BẰNG PHẦN MỀM THỐNG KÊ MÃ HỌC PHẦN: STA3004 Ngƣời thực hiện: Nguyễn Thị Trúc Xinh STT: 115 Lớp: 43k22 Đà Nẵng, ngày tháng năm 2021 Học phần: Phân tích liệu phần mềm thống kê STT:115_43K22 MỤC LỤC MỤC LỤC TỔ CHỨC DỮ LIỆU 1.1 Cách download lƣu trữ liệu 1.2 Import liệu vào Tableau, SPSS 1.2.1 Import liệu vào Tableau: 1.2.2 Import liệu vào SPSS: 1.2.3 Thiết kế chuyển đổi liệu SPSS THỐNG KÊ MÔ TẢ BẰNG TABLEAU 2.1 Mô tả độ tuổi nhân viên IBM 2.2 Mô tả mức thu nhập nhân viên 10 2.3 Mô tả mức độ hài lòng nhân viên 11 2.4 Mô tả mức thu nhập nhân viên với mức độ hài lòng công việc 11 KIỂM ĐỊNH GIẢ THUYẾT BẰNG SPSS 13 3.1 Kiểm định khác biệt trung bình: 13 3.2 Kiểm định khác biệt tỉ lệ 14 3.3 Kiểm định tƣơng quan Pearson 16 PHÂN TÍCH HỒI QUY 19 4.1 Hồi quy tuyến tính bội (đa biến) 19 4.1.1 Các bước thực 19 4.1.2 Phân tích kết 20 4.2 Hồi quy nhị phân 23 4.2.1 Các bước thực 23 4.2.2 Phân tích kết 24 PHÂN TÍCH PHƢƠNG SAI 25 5.1 Phân tích phƣơng sai yếu tố: 25 5.1 Phân tích phƣơng sai nhân tố: 26 PHỤ LỤC 29 Danh mục hình, biểu đồ, bảng 29 Trang 2/29 Học phần: Phân tích liệu phần mềm thống kê STT:115_43K22 TỔ CHỨC DỮ LIỆU Dữ liệu tiến hành phân tích liệu liên quan nhân viên làm việc công ty IBM nhà khoa học liệu IBM tạo ra, nhằm khám phá yếu tố ảnh hưởng đến hài lịng cơng việc 1.1 Cách download lƣu trữ liệu Nguồn liệu: Dữ liệu lấy từ trang Kaggle.com Link: https://www.kaggle.com/rohitsahoo/employee?select=test.csv Hình 1: Dữ liệu Kaggle.com Download lƣu trữ Ấn download Hình 2: Download liệu Trang 3/29 Học phần: Phân tích liệu phần mềm thống kê STT:115_43K22 Đổi tên lưu với xlsx Hình 3: Đổi tên lƣu với xlsx Hình 4: Dữ liệu đƣợc mở MS Execl Trang 4/29 Học phần: Phân tích liệu phần mềm thống kê STT:115_43K22 1.2 Import liệu vào Tableau, SPSS Dữ liệu gồm có 413 dịng 21 cột tiến hành import vào Tableau SPSS sau: 1.2.1 Import liệu vào Tableau: Khởi động phần mềm Tableau Connect to file - MS Excel chọn tên file 115_IBM_Employee Open Hình 5: Connect liệu từ MS Excel vào Tableau Hình 6: Connect liệu thành cơng Trang 5/29 Học phần: Phân tích liệu phần mềm thống kê STT:115_43K22 Hình 7: Màn hình làm việc Tableau 1.2.2 Import liệu vào SPSS: Hình 8: Khởi động phần mềm SPSS File Open Data Chọn file Open Hình 9: Xuất cửa sổ phạm vi liệu OK Trang 6/29 Học phần: Phân tích liệu phần mềm thống kê 1.2.3 STT:115_43K22 Thiết kế chuyển đổi liệu SPSS a Mã hóa biến: + Các biến EnvironmentSatisfaction, JobInvolvement, JobSatisfaction, PerformanceRating, RelationshipSatisfaction, WorkLifeBalance: gồm có giá trị: Low, Medium, High, Very high mã hóa tương tứng 1, 2, 3, + Biến BusinessTravel: gồm có giá trị: Non-Travel, Travel_Rarely, Travel_Frequently mã hóa tương tứng 1, 2, + Biến Department gồm có giá trị: Human Resources, Research & Development, Sales mã hóa tương tứng 1, 2, + Biến EducationField gồm có giá trị: Human Resources, Life Sciences, Marketing, Medical, Technical Degree, Other mã hóa tương tứng 1, 2, 3, 4, 5, + Biến Gender gồm có giá trị: Female, Male mã hóa tương tứng 0, + Biến MaritalStatus gồm có giá trị: Single, Married, Divorced mã hóa tương tứng 1, 2, + Biến OverTime gồm có giá trị: No, Yes mã hóa tương tứng 0, Hình 10: Thiết kế liệu Variable view Trang 7/29 Học phần: Phân tích liệu phần mềm thống kê STT:115_43K22 Hình 11: Dữ liệu chƣa mã hóa Hình 12: Dữ liệu đƣợc mã hóa b Kiểm tra missing value cách sử dụng bảng tần số: Thực hiện: Analys Descriptive Statistics Frequencies Chọn tất biến Nhấn OK Hình 13: Tạo bảng tần số Hình 14: Kiểm tra missing value Nhận xét: Dữ liệu đảm bảo điều kiện để tiến hành phân tích thống kê Trang 8/29 Học phần: Phân tích liệu phần mềm thống kê STT:115_43K22 THỐNG KÊ MÔ TẢ BẰNG TABLEAU 2.1 Mô tả độ tuổi nhân viên IBM B1: Tạo khoảng cách (bước nhảy) cho tuổi tuổi, ta trường Age(bin) Kích phải chuột trường Age Create Bin OK Hình 15: Tạo khoảng cách tuổi B2: Kéo thả trường vào hàng, cột để mô tả biểu đồ Hình 16: Mơ tả tuổi nhân viên IBM theo phòng ban Thực hiện: Kéo thả trường Age(bin) vào Columns, kéo trường Age vào Rows kích phải chuột Measure count Kéo thả trường Department vào ô Color , kéo thả trường Age vào ô Lable kích phải chuột Measure count Kéo thả trường Gender vào Filters Kích phải chuột Show filter Trang 9/29 Học phần: Phân tích liệu phần mềm thống kê STT:115_43K22 Hình 17: Mô tả tuổi nhân viên IBM theo giới tính Nhận xét: Độ tuổi chiếm tần số nhiều từ 28 38 Chiếm nhiều độ tuổi 34 Số lượng nhân viên phòng nghiên cứu phát triển chiếm số lượng lớn nhất, số lượng phòng nhân Nhân viên Nam chiếm tỉ trọng nhiều nhân viên Nữ 2.2 Mô tả mức thu nhập nhân viên Hình 18: Biểu đồ mơ tả mức thu thập trung bình theo ngành đào tạo Thực hiện: Kéo thả trường Overtime vào Columns, MonthlyIncome vào Columns kích phải chuột Measure Average, kéo trường EducationField vào Rows Kéo thả trường EducationField vào ô Color , kéo thả MonthlyIncome vào Lable kích phải chuột Measure Average Trang 10/29 Học phần: Phân tích liệu phần mềm thống kê STT:115_43K22 Hình 24: Thực kiểm định tỷ lệ One-Sample T Test c Giải thích kết quả: Ở bảng One-Sample T Test, Giá trị sig=0.000 < 0.05 nên ta khơng có sở để bác bỏ giả thuyết mức ý nghĩa 5% Nghĩa chấp nhận giải thuyết H0, tỷ lệ nhân viên Nam Nữ khác Hình 25: Kết kiểm định tỷ lệ One-Sample T Test Trang 15/29 Học phần: Phân tích liệu phần mềm thống kê STT:115_43K22 3.3 Kiểm định tƣơng quan Pearson Để thực kiểm định tương quan Peason, trước hết lựa chọn biến độc lập, biến phụ thuộc để đưa vào mô sau: Biến độc lập Biến phụ thuộc EnvironmentSatisfaction RelationshipSatisfaction JobInvolvement JobSatisfaction MonthlyIncome PercentSalaryHike YearsAtCompany Hình 26: Mơ hình Mối quan hệ biến a Giả thuyết đƣa ra: H0: Các biến EnvironmentSatisfaction, RelationshipSatisfaction, JobInvolvement, MonthlyIncome, PercentSalaryHike, YearsAtCompany có ảnh hưởng đến biến JobSatisfaction H1: Các biến EnvironmentSatisfaction, RelationshipSatisfaction, JobInvolvement, MonthlyIncome, PercentSalaryHike, YearsAtCompany khơng có ảnh hưởng đến biến JobSatisfaction Trang 16/29 Học phần: Phân tích liệu phần mềm thống kê STT:115_43K22 b Thực hiện: Vào Analysis Correlate Bivariate Xuất cửa sổ: đưa biến vào Variables OK Hình 27: Thực phân tích tƣơng quan Pearson Trang 17/29 Học phần: Phân tích liệu phần mềm thống kê STT:115_43K22 c Giải thích kết quả: Environment Satisfaction Correlations Relationship Job Satisfaction Involvement R Sig (2-tailed) N R ,086 Relationship Sig (2-tailed) ,082 Satisfaction N 412 R ,023 Job Sig (2-tailed) ,641 Involvement N 412 R ,032 Monthly Sig (2-tailed) ,523 Income N 412 R ,004 Percent Sig (2-tailed) ,929 SalaryHike N 412 R ,045 YearsAt Sig (2-tailed) ,366 Company N 411 R ,171** Job Sig (2-tailed) ,000 Satisfaction N 412 ** Correlation is significant at the 0.01 level (2-tailed) * Correlation is significant at the 0.05 level (2-tailed) Environment Satisfaction Monthly PercentSalary Income Hike YearsAt Company ,031 ,531 412 -,004 ,941 412 -,060 ,221 412 -,026 ,601 411 ,075 ,130 412 -,008 ,878 412 ,009 ,863 412 -,022 ,650 411 ,155** ,002 412 ,069 ,163 412 ,471** ,000 411 ,169** ,001 412 ,013 ,786 411 ,111* ,025 412 ,100* ,043 411 Hình 28: Bảng kết phân tích tƣơng quan Pearson Kết luận :Theo ma trận tương quan, giá trị sig (màu cam) < 0.05 R (màu xanh) > nghĩa biến độc lập với biến phụ thuộc có tương quan tuyến tính thuận; ngoại trừ biến “Relationship Satisfaction” có sig > 0.05 Cụ thể, biến “Environment Satisfaction”, “JobInvolvement”, “MonthlyIncome” “PercentSalaryHike” “YearsAtCompany” có mối tương quan với biến “JobSatisfaction” Trong đó: Biến “EnvironmentSatisfaction”, có tương quan tuyến tính yếu với biến phụ thuộc mạnh so với biến lại, với hệ số tương quan < R=0.171 0.05 nên biến khơng có ý nghĩa với mơ hình Do biến bị loại khỏi mơ hình hồi quy Trang 20/29 Học phần: Phân tích liệu phần mềm thống kê STT:115_43K22 Tiến hành thực lại mơ hình hồi quy với biến độc lập biến phụ thuộc Kết thu sau: Hình 31: Kết phân tích hồi quy sau loại biến Giải thích: Với R bình hiệu chỉnh 0.080 ~ 8% cho thấy biến độc lập mơ hình ảnh hưởng đến biến phụ thuộc 8%, lại 92% sai số ngẫu nhiên biến ngồi mơ hình Đối với hệ số Durbin-Watson 0.104 giá trị gần cho thấy phần sai số có tương quan chuỗi bậc với nhau, nghĩa mơ hình xây dựng không tốt, mức độ tương quan biến mơ hình yếu Tuy nhiên bảng ANOVA, Sig < 0.05 nên ta kết luận mơ hình hồi quy tuyến tính bội phù hợp áp dụng cho tổng thể Các giá trị sig nhỏ 0.05 cho thấy biến có ý nghĩa với mơ hình Các hệ số Beta chuẩn hóa mơ hình yếu tố 0.162; 0.152; 0.158; 0.098 Trong biến “Environment Satisfaction” có hệ số lớn nhất, nghĩa biến naỳ Trang 21/29 Học phần: Phân tích liệu phần mềm thống kê STT:115_43K22 có ảnh hưởng nhiều đến biến phụ thuộc, ngược lại biến “PercentSalaryHike” có hệ số Beta nhỏ nhất, nên biến có ảnh hưởng đến biến phụ thuộc Phương trình hồi quy sau: JobSatisfaction = 0.162* Environment Satisfaction + 0.152*Job Involvement + 0.158 * MonthlyIncome + 0.098* PercentSalaryHike Ngoài ra, biểu đồ P-P Plot cho thấy điểm tập trung thành đường chéo (đường kỳ vọng), không vi phạm giả định phân phối chuẩn phần dư Nghĩa tập liệu nghiên cứu tốt, phần dư chuẩn hóa khơng liên hệ với biến phụ thuộc Hình 32: Phần dƣ chuẩn hóa Normal P-P Plot Trang 22/29 Học phần: Phân tích liệu phần mềm thống kê STT:115_43K22 4.2 Hồi quy nhị phân Thực phép phân tích hồi quy nhị nhân để dự đốn khả làm thêm nhân viên Biến phụ thuộc Overtime mang giá trị: không làm thêm giờ, có làm thêm Xét biến gồm: độ tuổi Age, tình trạng nhân MarialStatus, mức thu nhập MonthlyIncome 4.2.1 Các bước thực Vào Analysis Regression Binary Logistic xuất cửa sổ thực sau: Hình 33: Thực Hồi quy nhị phân Trang 23/29 Học phần: Phân tích liệu phần mềm thống kê 4.2.2 STT:115_43K22 Phân tích kết Hình 34: Kết hồi quy nhị phân Giải thích : Mơ hình có giá trị sig>0.05 nên mơ hình hồi quy không mang ý nghĩa thống kê, nghĩa biến độc lập khơng có ảnh hưởng đến việc làm thêm nhân viên IBM Trang 24/29 Học phần: Phân tích liệu phần mềm thống kê STT:115_43K22 PHÂN TÍCH PHƢƠNG SAI 5.1 Phân tích phƣơng sai yếu tố: a Giả thuyết đƣa ra: Kiểm tra mức độ tham gia công việc nhân viên đến từ phòng ban khác liệu có khác b Thực hiện: Sử dụng phương pháp phân tích OneWay Anova để kiểm định giả thuyết Vào Analysis Compare Means One-Way Anova xuất cửa sổ sau OK Hình 35: Phƣơng pháp phân tích OneWay Anova Trang 25/29 Học phần: Phân tích liệu phần mềm thống kê STT:115_43K22 Hình 36: Kết qủa phân tích OneWay Anova c Giải thích kết quả: Ở bảng Test of Homogeneity, có giá trị sig=0.244 >= 0.05 nên phương sai lựa chọn phịng ban khơng khác Ở bảng Anova, giá trị Sig=0.989 >0.05 nên kết luận khơng có khác biệt mức độ tham gia nhân viên phòng ban 5.1 Phân tích phƣơng sai nhân tố: a Giả thuyết đƣa ra: Kiểm tra mối quan hệ giới tính tình trạng nhân có ảnh hưởng đến mức độ cân sống cuả nhân viên hay không b Thực hiện: Sử dụng phương pháp phân tích để kiểm định giả thuyết Vào Analysis General Liner Moder Univariate xuất cửa sổ sau OK Trang 26/29 Học phần: Phân tích liệu phần mềm thống kê Hình 37: Phƣơng pháp phân tích phƣơng sai nhân tố c Giải thích kết quả: Hình 38: Kết phân tích phƣơng sai nhân tố Trang 27/29 STT:115_43K22 Học phần: Phân tích liệu phần mềm thống kê STT:115_43K22 Giá trị Sig Gender 0.981> 0.05 Khơng có khác biệt mức độ cân sống nam nữ Giá trị Sig MaritalStatus 089 > 0.05 Không có khác biệt mức độ cân sống tình trạng nhân Giá trị Sig tƣơng tác Giới tính Tình trạng nhân 0.705 > 0.05 Sự tương tác giới tính tình trạng nhân khơng ảnh hưởng đến Mức độ cân sống nhân viên Hết - Trang 28/29 Học phần: Phân tích liệu phần mềm thống kê STT:115_43K22 PHỤ LỤC Danh mục hình, biểu đồ, bảng Hình 1: Dữ liệu Kaggle.com Hình 2: Download liệu Hình 3: Đổi tên lưu với đuôi xlsx - Hình 4: Dữ liệu mở MS Execl Hình 5: Connect liệu từ MS Excel vào Tableau. - Hình 6: Connect liệu thành cơng - Hình 7: Màn hình làm việc Tableau - Hình 8: Khởi động phần mềm SPSS File Open Data Chọn file Open - Hình 9: Xuất cửa sổ phạm vi liệu OK - Hình 10: Thiết kế liệu Variable view - Hình 11: Dữ liệu chưa mã hóa - Hình 12: Dữ liệu mã hóa - Hình 13: Tạo bảng tần số - Hình 14: Kiểm tra missing value Hình 15: Tạo khoảng cách tuổi Hình 16: Mơ tả tuổi nhân viên IBM theo phòng ban Hình 17: Mơ tả tuổi nhân viên IBM theo giới tính - 10 Hình 18: Biểu đồ mơ tả mức thu thập trung bình theo ngành đào tạo - 10 Hình 19: Biểu đồ mơ tả mức độ hài lịng cơng việc nhân viên - 11 Hình 20: Tạo biến rời rạc Income - 12 Hình 21: Mơ tả mức thu nhập nhân viên với mức độ hài lòng công việc - 12 Hình 22: Phương pháp phân tích OneWay Anova 13 Hình 23: Kết qủa phân tích OneWay Anova - 14 Hình 24: Thực kiểm định tỷ lệ One-Sample T Test - 15 Hình 25: Kết kiểm định tỷ lệ One-Sample T Test 15 Hình 26: Mơ hình Mối quan hệ biến - 16 Hình 27: Thực phân tích tương quan Pearson 17 Hình 28: Bảng kết phân tích tương quan Pearson - 18 Hình 29: Tiến hành phân tích hồi quy 19 Hình 30: Kết hồi quy - 20 Hình 31: Kết phân tích hồi quy sau loại biến 21 Hình 32: Phần dư chuẩn hóa Normal P-P Plot - 22 Hình 33: Thực Hồi quy nhị phân 23 Hình 34: Kết hồi quy nhị phân - 24 Hình 35: Phương pháp phân tích OneWay Anova 25 Hình 36: Kết qủa phân tích OneWay Anova - 26 Hình 37: Phương pháp phân tích phương sai nhân tố - 27 Hình 38: Kết phân tích phương sai nhân tố - 27 Trang 29/29 ... Học phần: Phân tích liệu phần mềm thống kê STT:115_43K22 Đổi tên lưu với đuôi xlsx Hình 3: Đổi tên lƣu với xlsx Hình 4: Dữ liệu đƣợc mở MS Execl Trang 4/29 Học phần: Phân tích liệu phần mềm thống. .. tra missing value Nhận xét: Dữ liệu đảm bảo điều kiện để tiến hành phân tích thống kê Trang 8/29 Học phần: Phân tích liệu phần mềm thống kê STT:115_43K22 THỐNG KÊ MÔ TẢ BẰNG TABLEAU 2.1 Mô tả độ... nghĩa thống kê, nghĩa biến độc lập khơng có ảnh hưởng đến việc làm thêm nhân viên IBM Trang 24/29 Học phần: Phân tích liệu phần mềm thống kê STT:115_43K22 PHÂN TÍCH PHƢƠNG SAI 5.1 Phân tích phƣơng