BT3 Phân tích dữ liệu kinh doanh

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	59
Dung lượng	7,25 MB

Nội dung

Bài 3. (Chapter 7 cont.) Dùng ngôn ngữ R và SPSS thực hiện về ANOVA và kiểm định Chi Square về tính độc lập của 2 biến định danh với các tập tin dữ liệu:Insurance SurveyEnergy Drink SurveyBài 3b ANOVADữ liệu thực tế tùy chọn của Việt NamBài 3c ANOVA với 2 yếu tố: tự chọn tập dữ liệuBài 3d Kiểm định Levene và Tukey

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MNH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN BÁO CÁO LAB Môn học: PHÂN TÍCH DỮ LIỆU KINH DOANH Giảng viên hướng dẫn: PGS.TS Nguyễn Đình Thuận Nhóm thực hiện: Nhóm 8: - Nguyễn Thị Cẩm Hoài – 17520499 - Phạm Huỳnh Mỹ Hạnh – 17520433 - Hồ Thị Ngọc Huyền – 17520596 - Trương Thị Mỹ Linh – 17520692 - Trà Thảo Nguyên - 17520831 TP HCM, Ngày 19 tháng 04 năm 2020 Nhóm Mục lục Nhóm I Tập liệu “Insurance Survey” 1.Sử dụng R 1.1 Nhập liệu: - Dùng lệnh setwd() để chuyển thư mục chứa file csv cần phân tích - Dùng lệnh read.csv() để nhập liệu vào gán cho tên bt3 - Lưu lại dùng lệnh attach() để đọc liệu thực thi - Kiểm tra liệu Nhóm 1.2 Kiểm định Chi Square tính độc lập biến định danh - Giả thuyết đặt sau: H0: Marial Status Education mối quan hệ H1: Marial Status Education có mối quan hệ - Sử dụng lệnh chiq.test() để kiểm định với Marial Status Education: - Nhận xét: - Giá trị Chi Square 7.5709 - Giá trị bậc tự df - Giá trị sig 0.2713 >0.05 nên ta chấp nhận H0, nghĩa khơng có mối liên hệ Marital Status Education I.3 Kiểm định giả thuyết trị trung bình tổng thể độc lập: - Ta kiểm định mối quan hệ Satisfaction Gender - Nhận xét: Ta thấy p-value=0.9758>0.05 nên khơng1.4 có khác biệt có ý nghĩa trung bình của tổng thể Giả thuyết đặt sau: H0: Khơng có khác phương sai tởng thể H1: Có khác phương sai tổng thể - Sử dụng lệnh t.test() Nhóm Kiểm định phương sai ANOVA: - Ta kiểm định mối quan hệ Years Employed Satisfaction - Giả thuyết đặt sau: I.4 H0: Phương sai nhóm khơng khác mợt cách có ý nghĩa H1: Phương sai nhóm khác mợt cách có ý nghĩa - Sử dụng lệnh anova - Nhận xét: Ta thấy p-value=0.4795>0.05 nên chấp nhận giả thuyết H0 Sử dụng SPSS thực ANOVA kiểm định Chi Square tính độc lập biến định danh với tập tin liệu: Insurance Survey: 2.1 Nhập liệu: - Để tạo dataset chọn New Dataset, chọn OK Nhóm - Chọn File -> Open -> Data để mở file Insurance Survey.xlxs - Tiếp tục chọn file Insurance Survey.xlxs, OK Nhóm - Chọn Read variable names from the first row of data, OK - Nhập liệu xong Nhóm 2.2 Biến đổi liệu: - Thêm Values Label để mã hóa số liệu: • Ở cợt Marital Status • Ở cợt Education: Nhóm 2.3 Kiểm định Chi Square tính độc lập biến định danh: - Giả thuyết đặt sau: H0: Marial Status Education mối quan hệ H1: Marial Status Education có mối quan hệ - Tiến hành: Vào Analyze  Descriptive Statistics  Crosstabs Đưa Marital Status vào Rows Education vào Columns Nhóm Chọn Statistics, sau đánh dấu vào Chi-square 10 Nhóm c) 45 Kết quả: Nhóm Nhận xét: Kiểm định Anova: Từ bảng đầu tiên, ta có: Đối với Vùng: Sig (Vùng) = < 0.05 => Bác bỏ H0 ó Vùng miền ảnh hưởng đến tỉ lệ thất nghiệp Đối với Giới tính: Sig (Giới tính) = < 0.05 => Bác bỏ H0 ó Giới tính ảnh hưởng đến tỉ lệ thất nghiệp Đối với Vùng Giới tính: Sig (Vùng * Giới tính) = 0.01 < 0.05 => Bác bỏ H0 ó Có ảnh hưởng của giới tính đến tỉ lệ thất nghiệp theo vùng miền  Kiểm định Turkey: dùng để kiểm định xem trung bình của nhóm khác d)  - 46 Nhóm Sau kiểm định Anova, ta thấy Vùng miền ảnh hưởng đến tỉ lệ thất nghiệp, ta muốn biết tỉ lệ thất nghiệp vùng khác ta dùng kiểm định Turkey Từ bảng thứ hai ta thấy: - - - Đồng sông Cửu Long – Đồng sơng Hồng có sig = 0.579 > 0.05 => Chấp nhận H0 ó Tỉ lệ thất nghiệp vùng khơng có khác biệt có ý nghĩa hay nói cách khác vùng miền thì chưa có chứng cho thấy có khác tỉ lệ thất nghiệp Mean Difference (I – J) =0.2325 có ý nghĩa tỉ lệ thất nghiệp trung bình Đồng sông Cửu Long cao tỉ lệ thất nghiệp trung bình Tây Nguyên 0.2325 (chênh lệch khơng đáng kể nên tính khơng khác biệt) Sự chênh lệch tỉ lệ thất nghiệp trung bình vùng có khoảng biển thiên từ -0.3273 0.7923 Đồng sơng Cửu Long – Tây Ngun có sig = 0.000 < 0.05 => Bác bỏ H0 óTỉ lệ thất nghiệp vùng khác biệt Mean Difference (I – J) =1.3625 có ý nghĩa tỉ lệ thất nghiệp trung bình Đồng sông Cửu Long cao tỉ lệ thất nghiệp trung bình Tây Nguyên 1.3625 Sự khác biệt tỉ lệ thất nghiệp trung bình vùng có khoảng biển thiên từ 0.8027 1.9223 Đồng sông Hồng – Tây Nguyên có sig = 0.000 < 0.05 => Bác bỏ H0 óTỉ lệ thất nghiệp vùng khác biệt Mean Difference (I – J) =1.13 có ý nghĩa tỉ lệ thất nghiệp trung bình Đồng sông Hồng cao tỉ lệ thất nghiệp trung bình Tây Nguyên 1.13 Sự khác biệt tỉ lệ thất nghiệp trung bình vùng có khoảng biển thiên từ 0.5702 1.6898 Dùng ngôn ngữ R 2.1 Nhập 47 liệu vào R: - Dùng lệnh setwd() để chuyển R thư mục cứa file “thất nghiệp.xlsx” cần phân tích - Dùng lệnh read_excel() để nhập liệu gán vào biến lab3 Nhóm 48 - Dùng lệnh attach() để đọc liệu thực thi - Xem liệu nhập vào - Dùng lệnh summary() để đưa một số thông số thống kê của bảng Nhóm 2.2 Kiểm 2.2.1 định Chi Square Kiểm định Region Gender Đặt vấn đề: a) - Giả thuyết đặt sau: + H0: Region Gennder đợc lập với + H1: Region Gender có mối quan hệ b) - Tiến hành Dùng kiểm định Chi bình phương (Chi squared test, chisq.test) c) Kết quả: d) Nhận xét: Kết ta thấy: p-value = > α = 0.05 Ta chấp nhận giả thuyết H0 có đợc lập Region và Unemployedrate 2.3 Kiểm Đặt vấn đề: a 49 định Leneve - Có thể cho tỉ lệ thất nghiệp nam nữ khơng? - Cặp giả thuyết: Nhóm + H0: µ1= µ2 + H1: µ1 ≠ µ2 Tiến hành: b Dùng lệnh leveneTest(): - c Kết quả: d Nhận xét: Trong kiểm định Levene Test có p=0.0396 < α = 0.05 => phương sai của nam nữ khác 2.4 Anova 2.4.1 one-way kiểm đinh TukeyHSD Kiểm định mối quan hệ Gender và Unemployedrate Đặt vấn đề: a) - Giả thuyết đặt sau: + H0: Phương sai nhóm khơng khác mợt cách có ý nghĩa + H1: Phương sai nhóm khác mợt cách có ý nghĩa b) - 50 Tiến hành: Dùng lệnh by() để đưa một số thống kê tồn thể của bảng theo “Gender” Nhóm - 51 Dùng ANOVA (aov): • Nhập liệu theo group vào: • Nhập nhóm thành mợt group thơng qua biến x: • Xem x mình vừa gom nào: • Kiểm tra x có phần từ thơng qua lệnh length(): Nhóm • Tạo một khung sườn chứa thông tin mình vừa nhập thơng qua biến group với lệnh data.frame() • Kết quả: c) - d) 52 Xem lại thông tin qua biến “dat” mình vừa tạo: Dùng lệnh aov(), hiển thị kết quả: Nhận xét: Nhóm Kết ta thấy: p= 0.00102 < α = 0.05, điều có nghĩa từ chối H0 Hay nói cách khác: phương sai nhóm khác mợt cách có ý nghĩa 2.4.2 Kiểm định Tukey cho từ chối:  Ta thấy khoảng tin cậy có giá trị nhỏ cho thấy có ý nghĩa thống kê 2.5 ANOVA two-way 2.5.1 kiểm định Tukey ANOVA two-way a Đặt vấn đề:  Đối với Vùng: Tỉ lệ thất nghiệp có bi ảnh hưởng vùng miền khơng? Cặp giả thuyết: + H0: µ1= µ2 = µ3 + H1: µ1 ≠ µ2 ≠ µ3   53 Đối với Giới tính: Tỉ lệ thất nghiệp có bị ảnh hưởng giới tính khơng? Cặp giả thuyết: + H0: µ1= µ2 + H1: µ1 ≠ µ2 Đối với Vùng Giới tính: Tỉ lệ thất nghiệp có bị ảnh hưởng vùng giới tính khơng? Nhóm Cặp giả thuyết: + H0: µ1= µ2 = µ3 + H1: µ1 ≠ µ2 ≠ µ3 Sau kiểm định Anova, giả sử ta có kết quả: Tỉ lệ thất nghiệp bị ảnh hưởng vùng miền, ta đặt câu hỏi Tỉ lệ thất nghiệp vùng miền có không? thì ta kiểm định Tukey  Đối với Đồng sông Cửu Long – Đồng sông Hồng: Cặp giả thuyết: + H0: µ1= µ2 + H1: µ1 ≠ µ2  Đối với Đồng sơng Cửu Long – Tây Nguyên: Cặp giả thuyết: + H0: µ1= µ2 + H1: µ1 ≠ µ2  Đối với Đồng sông Hồng – Đồng Tây Nguyên: Cặp giả thuyết: + H0: µ1= µ2 + H1: µ1 ≠ µ2 Tiến hành b 54 - Kiểm tra kiểu liệu của tḥc tính: - Chuyển kiểu liệu sang numberic: c Kết d Nhận xét Nhóm Đối với Region: p nhỏ xem gần < α = 0.05=> Bác bỏ H0 vùng miền ảnh hưởng đến tỉ lệ thất nghiệp Đối với Gender: p có giá trị nhỏ xem gần < α = 0.05 => Bác bỏ H0 giới tính ảnh hưởng đến tỉ lệ thất nghiệp Đối với Region Gender: p(Region*Gender) = < 0.05 => Bác bỏ H0 có ảnh hưởng của giới tính đến tỉ lệ thất nghiệp theo vùng miền - 2.5.2 Kiểm định TukeyHSD - Dùng lệnh: TukeyHSD() - Nhận xét: + Kiểm định Turkey: dùng để kiểm định xem trung bình của nhóm khác + Sau kiểm định Anova, ta thấy Region ảnh hưởng đến tỉ lệ thất nghiệp, ta muốn biết tỉ lệ thất nghiệp vùng khác ta sẽ dùng kiểm định Turkey + Kết là: • 55 Red river delta-Mekong delta (đồng sơng Hồng-đồng sơng Cửu Long) có p= 0.6445621 > 0.05 => Tỉ lệ thất nghiệp vùng khơng có khác biệt có ý nghĩa hay nói cách khác Nhóm • • 56 vùng miền thì chưa có chứng cho thấy có khác tỉ lệ thất nghiệp Mekong delta- Highlands (đồng sông Cửu Long-Tây Nguyên) có p = 0.000 < 0.05 => Tỉ lệ thất nghiệp vùng khác biệt Red river delta-Highlands (đồng song Hồng-Tây Nguyên) có p = 0.000 < 0.05 => Tỉ lệ thất nghiệp vùng khác biệt Nhóm TÀI LIỆU THAM KHẢO https://cran.r-project.org/doc/contrib/Intro_to_R_Vietnamese.pdf https://rstudio-pubsstatic.s3.amazonaws.com/381066_29ddbf0445814ac28cfe0abb91a6e7 c6.html - 1_c%C3%A1c_h%C3%A0m_trong_tidyverse https://www.gso.gov.vn/default.aspx?tabid=717 https://stats.stackexchange.com/questions/15722/how-to-use-levene-testfunction-in-r?fbclid=IwAR24kEyo4txLwYtyBbobAD4viiZpB3SDOr3UZ6ma4CofUmFG8U-HH9TNb0 http://phantichspss.com/cach-phan-tich-anova-hai-yeu-two-wayanova.html? fbclid=IwAR3XXGz8Njo17RYhxkF5Aj3Q7PIWBZNdgvTlalEpQ_E8H7J LL0kzgD2GSuw 57 Nhóm BẢNG PHÂN CƠNG Phần việc làm Tập liệu: Energy Drink Survey công cụ SPSS Tập liệu: Insurance Survey Thông tin SV Phạm Huỳnh Mỹ Hạnh17520433 Nguyễn Thị Cẩm Hoài17520499 Hồ Thị Ngọc Huyền-17520596 Tập liệu tự chọn thực tế: “That_nghiep_VN.xlsx” công cụ SPSS Trương Thị Mỹ LinhTập liệu tự chọn thực tế: 17520692 “That_nghiep_VN.xlsx” sử dụng ngôn ngữ R Trà Thảo Nguyên-17520831 Tập liệu: Energy Drink Survey sử dụng ngơn ngữ R 58 Nhóm 59 ... Nhóm I Tập liệu “Insurance Survey” 1.Sử dụng R 1.1 Nhập liệu: - Dùng lệnh setwd() để chuyển thư mục chứa file csv cần phân tích - Dùng lệnh read.csv() để nhập liệu vào gán cho tên bt3 - Lưu lại... 47 liệu vào R: - Dùng lệnh setwd() để chuyển R thư mục cứa file “thất nghiệp.xlsx” cần phân tích - Dùng lệnh read_excel() để nhập liệu gán vào biến lab3 Nhóm 48 - Dùng lệnh attach() để đọc liệu. .. Dùng ngôn ngữ R 2.1 Xử lí liệu - 29 Nạp liệu từ file Energy Drink Survey.csv (đã chuyển đởi từ file excel sang csv) vào R Nhóm - Đây liệu nhập vào - Ta cần biến đỗi liệu + Cột Brand.Preference

Ngày đăng: 22/08/2020, 16:01