1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BT3 Phân tích dữ liệu kinh doanh

59 144 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 59
Dung lượng 7,25 MB

Nội dung

Bài 3. (Chapter 7 cont.) Dùng ngôn ngữ R và SPSS thực hiện về ANOVA và kiểm định Chi Square về tính độc lập của 2 biến định danh với các tập tin dữ liệu:Insurance SurveyEnergy Drink SurveyBài 3b ANOVADữ liệu thực tế tùy chọn của Việt NamBài 3c ANOVA với 2 yếu tố: tự chọn tập dữ liệuBài 3d Kiểm định Levene và Tukey

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MNH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN BÁO CÁO LAB Môn học: PHÂN TÍCH DỮ LIỆU KINH DOANH Giảng viên hướng dẫn: PGS.TS Nguyễn Đình Thuận Nhóm thực hiện: Nhóm 8: - Nguyễn Thị Cẩm Hoài – 17520499 - Phạm Huỳnh Mỹ Hạnh – 17520433 - Hồ Thị Ngọc Huyền – 17520596 - Trương Thị Mỹ Linh – 17520692 - Trà Thảo Nguyên - 17520831 TP HCM, Ngày 19 tháng 04 năm 2020 Nhóm Mục lục Nhóm I Tập liệu “Insurance Survey” 1.Sử dụng R 1.1 Nhập liệu: - Dùng lệnh setwd() để chuyển thư mục chứa file csv cần phân tích - Dùng lệnh read.csv() để nhập liệu vào gán cho tên bt3 - Lưu lại dùng lệnh attach() để đọc liệu thực thi - Kiểm tra liệu Nhóm 1.2 Kiểm định Chi Square tính độc lập biến định danh - Giả thuyết đặt sau: H0: Marial Status Education mối quan hệ H1: Marial Status Education có mối quan hệ - Sử dụng lệnh chiq.test() để kiểm định với Marial Status Education: - Nhận xét: - Giá trị Chi Square 7.5709 - Giá trị bậc tự df - Giá trị sig 0.2713 >0.05 nên ta chấp nhận H0, nghĩa khơng có mối liên hệ Marital Status Education I.3 Kiểm định giả thuyết trị trung bình tổng thể độc lập: - Ta kiểm định mối quan hệ Satisfaction Gender - Nhận xét: Ta thấy p-value=0.9758>0.05 nên khơng1.4 có khác biệt có ý nghĩa trung bình của tổng thể Giả thuyết đặt sau: H0: Khơng có khác phương sai tởng thể H1: Có khác phương sai tổng thể - Sử dụng lệnh t.test() Nhóm Kiểm định phương sai ANOVA: - Ta kiểm định mối quan hệ Years Employed Satisfaction - Giả thuyết đặt sau: I.4 H0: Phương sai nhóm khơng khác mợt cách có ý nghĩa H1: Phương sai nhóm khác mợt cách có ý nghĩa - Sử dụng lệnh anova - Nhận xét: Ta thấy p-value=0.4795>0.05 nên chấp nhận giả thuyết H0 Sử dụng SPSS thực ANOVA kiểm định Chi Square tính độc lập biến định danh với tập tin liệu: Insurance Survey: 2.1 Nhập liệu: - Để tạo dataset chọn New Dataset, chọn OK Nhóm - Chọn File -> Open -> Data để mở file Insurance Survey.xlxs - Tiếp tục chọn file Insurance Survey.xlxs, OK Nhóm - Chọn Read variable names from the first row of data, OK - Nhập liệu xong Nhóm 2.2 Biến đổi liệu: - Thêm Values Label để mã hóa số liệu: • Ở cợt Marital Status • Ở cợt Education: Nhóm 2.3 Kiểm định Chi Square tính độc lập biến định danh: - Giả thuyết đặt sau: H0: Marial Status Education mối quan hệ H1: Marial Status Education có mối quan hệ - Tiến hành: Vào Analyze  Descriptive Statistics  Crosstabs Đưa Marital Status vào Rows Education vào Columns Nhóm Chọn Statistics, sau đánh dấu vào Chi-square 10 Nhóm c) 45 Kết quả: Nhóm Nhận xét: Kiểm định Anova: Từ bảng đầu tiên, ta có: Đối với Vùng: Sig (Vùng) = < 0.05 => Bác bỏ H0 ó Vùng miền ảnh hưởng đến tỉ lệ thất nghiệp Đối với Giới tính: Sig (Giới tính) = < 0.05 => Bác bỏ H0 ó Giới tính ảnh hưởng đến tỉ lệ thất nghiệp Đối với Vùng Giới tính: Sig (Vùng * Giới tính) = 0.01 < 0.05 => Bác bỏ H0 ó Có ảnh hưởng của giới tính đến tỉ lệ thất nghiệp theo vùng miền  Kiểm định Turkey: dùng để kiểm định xem trung bình của nhóm khác d)  - 46 Nhóm Sau kiểm định Anova, ta thấy Vùng miền ảnh hưởng đến tỉ lệ thất nghiệp, ta muốn biết tỉ lệ thất nghiệp vùng khác ta dùng kiểm định Turkey Từ bảng thứ hai ta thấy: - - - Đồng sông Cửu Long – Đồng sơng Hồng có sig = 0.579 > 0.05 => Chấp nhận H0 ó Tỉ lệ thất nghiệp vùng khơng có khác biệt có ý nghĩa hay nói cách khác vùng miền thì chưa có chứng cho thấy có khác tỉ lệ thất nghiệp Mean Difference (I – J) =0.2325 có ý nghĩa tỉ lệ thất nghiệp trung bình Đồng sông Cửu Long cao tỉ lệ thất nghiệp trung bình Tây Nguyên 0.2325 (chênh lệch khơng đáng kể nên tính khơng khác biệt) Sự chênh lệch tỉ lệ thất nghiệp trung bình vùng có khoảng biển thiên từ -0.3273 0.7923 Đồng sơng Cửu Long – Tây Ngun có sig = 0.000 < 0.05 => Bác bỏ H0 óTỉ lệ thất nghiệp vùng khác biệt Mean Difference (I – J) =1.3625 có ý nghĩa tỉ lệ thất nghiệp trung bình Đồng sông Cửu Long cao tỉ lệ thất nghiệp trung bình Tây Nguyên 1.3625 Sự khác biệt tỉ lệ thất nghiệp trung bình vùng có khoảng biển thiên từ 0.8027 1.9223 Đồng sông Hồng – Tây Nguyên có sig = 0.000 < 0.05 => Bác bỏ H0 óTỉ lệ thất nghiệp vùng khác biệt Mean Difference (I – J) =1.13 có ý nghĩa tỉ lệ thất nghiệp trung bình Đồng sông Hồng cao tỉ lệ thất nghiệp trung bình Tây Nguyên 1.13 Sự khác biệt tỉ lệ thất nghiệp trung bình vùng có khoảng biển thiên từ 0.5702 1.6898 Dùng ngôn ngữ R 2.1 Nhập 47 liệu vào R: - Dùng lệnh setwd() để chuyển R thư mục cứa file “thất nghiệp.xlsx” cần phân tích - Dùng lệnh read_excel() để nhập liệu gán vào biến lab3 Nhóm 48 - Dùng lệnh attach() để đọc liệu thực thi - Xem liệu nhập vào - Dùng lệnh summary() để đưa một số thông số thống kê của bảng Nhóm 2.2 Kiểm 2.2.1 định Chi Square Kiểm định Region Gender Đặt vấn đề: a) - Giả thuyết đặt sau: + H0: Region Gennder đợc lập với + H1: Region Gender có mối quan hệ b) - Tiến hành Dùng kiểm định Chi bình phương (Chi squared test, chisq.test) c) Kết quả: d) Nhận xét: Kết ta thấy: p-value = > α = 0.05 Ta chấp nhận giả thuyết H0 có đợc lập Region và Unemployedrate 2.3 Kiểm Đặt vấn đề: a 49 định Leneve - Có thể cho tỉ lệ thất nghiệp nam nữ khơng? - Cặp giả thuyết: Nhóm + H0: µ1= µ2 + H1: µ1 ≠ µ2 Tiến hành: b Dùng lệnh leveneTest(): - c Kết quả: d Nhận xét: Trong kiểm định Levene Test có p=0.0396 < α = 0.05 => phương sai của nam nữ khác 2.4 Anova 2.4.1 one-way kiểm đinh TukeyHSD Kiểm định mối quan hệ Gender và Unemployedrate Đặt vấn đề: a) - Giả thuyết đặt sau: + H0: Phương sai nhóm khơng khác mợt cách có ý nghĩa + H1: Phương sai nhóm khác mợt cách có ý nghĩa b) - 50 Tiến hành: Dùng lệnh by() để đưa một số thống kê tồn thể của bảng theo “Gender” Nhóm - 51 Dùng ANOVA (aov): • Nhập liệu theo group vào: • Nhập nhóm thành mợt group thơng qua biến x: • Xem x mình vừa gom nào: • Kiểm tra x có phần từ thơng qua lệnh length(): Nhóm • Tạo một khung sườn chứa thông tin mình vừa nhập thơng qua biến group với lệnh data.frame() • Kết quả: c) - d) 52 Xem lại thông tin qua biến “dat” mình vừa tạo: Dùng lệnh aov(), hiển thị kết quả: Nhận xét: Nhóm Kết ta thấy: p= 0.00102 < α = 0.05, điều có nghĩa từ chối H0 Hay nói cách khác: phương sai nhóm khác mợt cách có ý nghĩa 2.4.2 Kiểm định Tukey cho từ chối:  Ta thấy khoảng tin cậy có giá trị nhỏ cho thấy có ý nghĩa thống kê 2.5 ANOVA two-way 2.5.1 kiểm định Tukey ANOVA two-way a Đặt vấn đề:  Đối với Vùng: Tỉ lệ thất nghiệp có bi ảnh hưởng vùng miền khơng? Cặp giả thuyết: + H0: µ1= µ2 = µ3 + H1: µ1 ≠ µ2 ≠ µ3   53 Đối với Giới tính: Tỉ lệ thất nghiệp có bị ảnh hưởng giới tính khơng? Cặp giả thuyết: + H0: µ1= µ2 + H1: µ1 ≠ µ2 Đối với Vùng Giới tính: Tỉ lệ thất nghiệp có bị ảnh hưởng vùng giới tính khơng? Nhóm Cặp giả thuyết: + H0: µ1= µ2 = µ3 + H1: µ1 ≠ µ2 ≠ µ3 Sau kiểm định Anova, giả sử ta có kết quả: Tỉ lệ thất nghiệp bị ảnh hưởng vùng miền, ta đặt câu hỏi Tỉ lệ thất nghiệp vùng miền có không? thì ta kiểm định Tukey  Đối với Đồng sông Cửu Long – Đồng sông Hồng: Cặp giả thuyết: + H0: µ1= µ2 + H1: µ1 ≠ µ2  Đối với Đồng sơng Cửu Long – Tây Nguyên: Cặp giả thuyết: + H0: µ1= µ2 + H1: µ1 ≠ µ2  Đối với Đồng sông Hồng – Đồng Tây Nguyên: Cặp giả thuyết: + H0: µ1= µ2 + H1: µ1 ≠ µ2 Tiến hành b 54 - Kiểm tra kiểu liệu của tḥc tính: - Chuyển kiểu liệu sang numberic: c Kết d Nhận xét Nhóm Đối với Region: p nhỏ xem gần < α = 0.05=> Bác bỏ H0 vùng miền ảnh hưởng đến tỉ lệ thất nghiệp Đối với Gender: p có giá trị nhỏ xem gần < α = 0.05 => Bác bỏ H0 giới tính ảnh hưởng đến tỉ lệ thất nghiệp Đối với Region Gender: p(Region*Gender) = < 0.05 => Bác bỏ H0 có ảnh hưởng của giới tính đến tỉ lệ thất nghiệp theo vùng miền - 2.5.2 Kiểm định TukeyHSD - Dùng lệnh: TukeyHSD() - Nhận xét: + Kiểm định Turkey: dùng để kiểm định xem trung bình của nhóm khác + Sau kiểm định Anova, ta thấy Region ảnh hưởng đến tỉ lệ thất nghiệp, ta muốn biết tỉ lệ thất nghiệp vùng khác ta sẽ dùng kiểm định Turkey + Kết là: • 55 Red river delta-Mekong delta (đồng sơng Hồng-đồng sơng Cửu Long) có p= 0.6445621 > 0.05 => Tỉ lệ thất nghiệp vùng khơng có khác biệt có ý nghĩa hay nói cách khác Nhóm • • 56 vùng miền thì chưa có chứng cho thấy có khác tỉ lệ thất nghiệp Mekong delta- Highlands (đồng sông Cửu Long-Tây Nguyên) có p = 0.000 < 0.05 => Tỉ lệ thất nghiệp vùng khác biệt Red river delta-Highlands (đồng song Hồng-Tây Nguyên) có p = 0.000 < 0.05 => Tỉ lệ thất nghiệp vùng khác biệt Nhóm TÀI LIỆU THAM KHẢO https://cran.r-project.org/doc/contrib/Intro_to_R_Vietnamese.pdf https://rstudio-pubsstatic.s3.amazonaws.com/381066_29ddbf0445814ac28cfe0abb91a6e7 c6.html - 1_c%C3%A1c_h%C3%A0m_trong_tidyverse https://www.gso.gov.vn/default.aspx?tabid=717 https://stats.stackexchange.com/questions/15722/how-to-use-levene-testfunction-in-r?fbclid=IwAR24kEyo4txLwYtyBbobAD4viiZpB3SDOr3UZ6ma4CofUmFG8U-HH9TNb0 http://phantichspss.com/cach-phan-tich-anova-hai-yeu-two-wayanova.html? fbclid=IwAR3XXGz8Njo17RYhxkF5Aj3Q7PIWBZNdgvTlalEpQ_E8H7J LL0kzgD2GSuw 57 Nhóm BẢNG PHÂN CƠNG Phần việc làm Tập liệu: Energy Drink Survey công cụ SPSS Tập liệu: Insurance Survey Thông tin SV Phạm Huỳnh Mỹ Hạnh17520433 Nguyễn Thị Cẩm Hoài17520499 Hồ Thị Ngọc Huyền-17520596 Tập liệu tự chọn thực tế: “That_nghiep_VN.xlsx” công cụ SPSS Trương Thị Mỹ LinhTập liệu tự chọn thực tế: 17520692 “That_nghiep_VN.xlsx” sử dụng ngôn ngữ R Trà Thảo Nguyên-17520831 Tập liệu: Energy Drink Survey sử dụng ngơn ngữ R 58 Nhóm 59 ... Nhóm I Tập liệu “Insurance Survey” 1.Sử dụng R 1.1 Nhập liệu: - Dùng lệnh setwd() để chuyển thư mục chứa file csv cần phân tích - Dùng lệnh read.csv() để nhập liệu vào gán cho tên bt3 - Lưu lại... 47 liệu vào R: - Dùng lệnh setwd() để chuyển R thư mục cứa file “thất nghiệp.xlsx” cần phân tích - Dùng lệnh read_excel() để nhập liệu gán vào biến lab3 Nhóm 48 - Dùng lệnh attach() để đọc liệu. .. Dùng ngôn ngữ R 2.1 Xử lí liệu - 29 Nạp liệu từ file Energy Drink Survey.csv (đã chuyển đởi từ file excel sang csv) vào R Nhóm - Đây liệu nhập vào - Ta cần biến đỗi liệu + Cột Brand.Preference

Ngày đăng: 22/08/2020, 16:01

TỪ KHÓA LIÊN QUAN

w