Mục tiêu của bài này nhằm hướng dẫn sinh viên cách nhập liệu, xử lý và phân tích dữ liệu; các kỹ thuật phân tích dữ liệu mang tính khám phá; cách sử dụng bảng chéo để trắc nghiệm mối quan hệ giữa các biến phân loại; cách sử dụng các thống kê phân tích trắc nghiệm giả thiết. Mời các bạn cùng tham khảo.
Bài 7. Nhập và xử lý dữ liệu Mơn học: Phương pháp nghiên cứu kinh tế Khoa Kinh tế Phát triển Đại học Kinh Tế TP. Hồ Chí Minh 7.1 Giới thiệu Nhằm hướng dẫn sinh viên cách: Cách nhập liệu, xử lý và phân tích dữ liệu Các kỹ thuật phân tích dữ liệu mang tính khám phá (exploratory data analysis). Cách sử dụng bảng chéo (crosstabulation) để trắc nghiệm mối quan hệ giữa các biến phân loại (categorical variables). Cách sử dụng các thống kê phân tích trắc nghiệm giả thiết TS. Trần Tiến Khai, UEH 7.2 Quy trình phân tích dữ liệu Hình 8.1 Các bước khám phá, trắc nghiệm và phân tích trong q trình nghiên cứu Lập đề cương NC Thu thập chuẩn bị liệu Kế hoạch phân tích sơ khởi Xác định lại giả tthuyết Thể trực quan liệu Phân tích diễn giải liệu Phân tích mơ tả biến số Lập bảng chéo cho biến số Trình bày liệu (histogram, boxplots, Pareto, stemand-leaf, AID, etc.) Phân tích liệu Trắc nghiệm giả thiết Báo cáo nghiên cứu Ra định TS. Trần Tiến Khai, UEH 7.3 Nhập số liệu 7.3.1 Cách bố trí dữ liệu trên máy tính Mục tiêu: Nhằm tạo điều kiện thuận tiện cho việc nhập liệu Nhằm tạo sự thuận lợi cho việc chỉnh sửa dữ liệu TS. Trần Tiến Khai, UEH 7.3 Nhập số liệu Thực hiện: Ngun tắc chung: đặt tên biến ngắn gọn, viết tắt (tiếng Việt khơng dấu hoặc tiếng Anh). Tên biến nên được đặt theo quy định. Dùng Excel: dễ thao tác và chỉnh sửa, khơng gian lưu trữ hạn chế, cơng cụ thống kê và kinh tế lượng khơng đủ cho phân tích Dùng SPSS: khơng gian lưu trữ gần như khơng hạn chế, cơng cụ thống kê và kinh tế lượng phát triển đầy đủ cho nhu cầu phân tích. Khai báo dữ liệu bắt buộc, mất thời gian. TS. Trần Tiến Khai, UEH 7.3 Nhập số liệu Hình 5. 2 Cách nhập dữ liệu vào bảng tính SPSS TS. Trần Tiến Khai, UEH 7.3 Nhập số liệu Hình 8.3 Cách định nghĩa các thuộc tính của các biến số định tính và định lượng TS. Trần Tiến Khai, UEH Định nghĩa kiểu biến TS. Trần Tiến Khai, UEH Xác định nhãn (giải thích) của biến TS. Trần Tiến Khai, UEH Xác định giá trị phân loại của biến TS. Trần Tiến Khai, UEH 10 7.7 Một số áp dụng cụ thể Two-Sample T Test Independent Samples T est Levene's Test for Equality of Variances F Age of motorbike user Equal variances assumed Equal variances not assumed 1.239 Sig .268 t-test for Equality of Means t df Sig (2-tailed) Mean Difference Std Error Difference 95% Confidence Interval of the Difference Lower Upper -.315 98 754 -.93 2.95 -6.77 4.92 -.321 91.785 749 -.93 2.89 -6.66 4.81 P values (Sig (2-tailed)) cao α = 0.05 nhiều Ta chấp nhận giả thiết diễn giải khơng có khác biệt tuổi trung bình người sử dụng xe máy Nam Nữ TS. Trần Tiến Khai, UEH 77 7.7 Một số áp dụng cụ thể 4. TwoSample Nonparametric Test Ví dụ 4. Số liệu điều tra sử dụng xe máy Giả thiết: sự lựa chọn nhãn hiệu xe máy giữa người sử dụng nam nữ nhau. Analyze Nonparametric Test TwoIndependent Samples TS. Trần Tiến Khai, UEH 78 7.7 Một số áp dụng cụ thể Two-Sample Nonparametric Test TS. Trần Tiến Khai, UEH Analyze Nonparametric Test Two-Independent Samples 79 7.7 Một số áp dụng cụ thể Two-Sample Nonparametric Test Mann-Whitney Test Two-Sample Kolmogorov-Smirnov Test a T est St at ist ics a T est St at ist ics Mann-Whitney U Wilcoxon W Z Asymp Sig (2-tailed) Motobike Names 1200.000 2970.000 -.067 946 a Grouping Variable: User gender Most Extreme Differences Absolute Positive Negative Kolmogorov-Smirnov Z Asymp Sig (2-tailed) Motobike Names 045 045 -.018 224 1.000 a Grouping Variable: User gender Kết luận: chấp nhận giả thiết phát biểu lựa chọn nhãn hiệu xe máy người sử dụng nam nữ TS. Trần Tiến Khai, UEH 80 7.7 Một số áp dụng cụ thể One-Way ANOVA (Parametric Test) Phương pháp thống kê để kiểm định giả thiết là các trung bình của các dân số bằng nhau là Phân tích phương sai analysis of variance (ANOVA) Oneway ANOVA sử dụng các mơ hình 1 yếu tố, các ảnh hưởng cố định để so sánh ảnh hưởng của một nghiệm thức (treatment) hoặc một yếu tố (factor) trên một biến phụ thuộc và liên tục. TS. Trần Tiến Khai, UEH 81 7.7 Một số áp dụng cụ thể One-Way ANOVA (Parametric Test) Ví dụ 5. Số liệu điều tra sử dụng xe máy Giả thiết: Khơng có sự khác biệt giữa các người sử dụng xe máy ở các nhóm tuổi khác nhau về số ngày sử dụng bình qn trong tháng. Analyze Compare Means One-Way ANOVA… TS. Trần Tiến Khai, UEH 82 7.7 Một số áp dụng cụ thể One-Way ANOVA (Parametric Test) TS. Trần Tiến Khai, UEH 83 7.7 Một số áp dụng cụ thể One-Way ANOVA (Parametric Test) TS. Trần Tiến Khai, UEH 84 7.7 Một số áp dụng cụ thể One-Way ANOVA (Parametric Test) ANOVA Number of used days in a month Between Groups Within Groups Total Sum of Squares 1428.944 3987.806 5416.750 df 94 99 Mean Square 285.789 42.423 F 6.737 Sig .000 P value < 0.05 Kết luận: bác bỏ giả thiết; Phát biểu có khác biệt người sử dụng xe máy nhóm tuổi khác số ngày sử dụng bình quân tháng TS. Trần Tiến Khai, UEH 85 7.7 Một số áp dụng cụ thể One-Way ANOVA (Parametric Test) Number of used d ays in a mont h Tukey HSDa,b Duncana,b Age groups under 60 under 50 under 20 under 30 under 40 older than 60 Sig under 60 under 50 under 20 under 30 under 40 older than 60 Sig N 19 25 26 17 19 25 26 17 Subset for alpha = 05 14.47 17.96 17.96 18.33 18.33 22.62 22.62 24.12 24.12 26.14 695 198 769 14.47 17.96 17.96 18.33 18.33 22.62 22.62 24.12 26.14 175 101 215 Means for groups in homogeneous subsets are displayed a Uses Harmonic Mean Sample Size = 12.013 b The group sizes are unequal The harmonic mean of the group sizes is used Type I error levels TS. Tr are not guaranteed ần Ti ến Khai, UEH 86 7.7 Một số áp dụng cụ thể One-Way ANOVA (Parametric Test) Age Group Value Grouping Under 60 14,5 a Under 50 17,9 ab Under 20 18,3 ab Under 30 22,6 abc Under 40 24,1 abc Older than 60 26,1 abc TS. Trần Tiến Khai, UEH 87 7.7 Một số áp dụng cụ thể One-Way ANOVA (Parametric Test) Hình Phân bố số ngày sử dụng xe máy bình quân tháng theo độ tuổi người sử dụng TS. Trần Tiến Khai, UEH 88 7.7 Một số áp dụng cụ thể Nonparametric Test for k-Independent Samples Ví dụ Số liệu điều tra sử dụng xe máy Giả thiết: Khơng có khác biệt người sử dụng xe máy nhóm tuổi khác nhãn hiệu xe. Analyze Nonparametric Tests k Independent Samples TS. Trần Tiến Khai, UEH 89 7.7 Một số áp dụng cụ thể Nonparametric Test for k-Independent Samples TS. Trần Tiến Khai, UEH 90 7.7 Một số áp dụng cụ thể Nonparametric Test for k-Independent Samples Kruskal-Wallis Test a,b T est St at ist ics Ranks Motobike Names Age groups under 20 under 30 under 40 under 50 under 60 older than 60 Total N 26 17 25 19 100 Mean Rank 46.25 49.40 50.62 55.66 45.87 52.07 Chi-Square df Asymp Sig Motobike Names 1.493 914 a Kruskal Wallis Test b Grouping Variable: Age groups P value > 0.05 Kết luận: chấp nhận giả thiết; Phát biểu lựa chọn nhãn hiệu xe máy người sử dụng xe máy nhóm tuổi khác TS. Trần Tiến Khai, UEH 91 ... Hình 8.3 Cách định nghĩa các thuộc tính của các biến số định tính và định lượng TS. Trần Tiến Khai, UEH Định nghĩa kiểu biến TS. Trần Tiến Khai, UEH Xác định nhãn (giải thích) của biến TS. Trần Tiến Khai, UEH Xác định giá trị phân loại của biến TS. Trần Tiến Khai, UEH... đủ cho nhu cầu phân tích. Khai báo dữ liệu bắt buộc, mất thời gian. TS. Trần Tiến Khai, UEH 7. 3 Nhập số liệu Hình 5. 2 Cách nhập dữ liệu vào bảng tính SPSS TS. Trần Tiến Khai, UEH 7. 3 Nhập số liệu... Xác định thang đo của biến TS. Trần Tiến Khai, UEH 11 7. 4 Làm sạch dữ liệu 7. 4.1 Phát hiện giá trị dị biệt trong dữ liệu a. Sử dụng Excel: hàm Max và Min, cơng cụ Auto Filter, đồ thị Scatter TS. Trần Tiến Khai, UEH