1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bài giảng Phương pháp nghiên cứu kinh tế: Chương 7 - TS. Trần Tiến Khai

0 124 1

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 0
Dung lượng 3,75 MB

Nội dung

Nội dung bài giảng nhằm hướng dẫn sinh viên cách: Cách nhập liệu, xử lý và phân tích dữ liệu, các kỹ thuật phân tích dữ liệu mang tính khám phá, cách sử dụng bảng chéo để trắc nghiệm mối quan hệ giữa các biến phân loại, cách sử dụng các thống kê phân tích trắc nghiệm giả thiết

Bài 8.  Nhập và xử lý dữ liệu Mơn học: Phương pháp nghiên cứu kinh tế Khoa Kinh tế Phát triển Đại học Kinh Tế TP. Hồ Chí Minh 8.1 Giới thiệu Nhằm hướng dẫn sinh viên cách:  Cách nhập liệu, xử lý và phân tích dữ liệu  Các kỹ thuật phân tích dữ liệu mang tính khám  phá (exploratory data analysis).   Cách sử dụng bảng chéo (cross­tabulation) để  trắc nghiệm mối quan hệ giữa các biến phân loại  (categorical variables).   Cách sử dụng các thống kê phân tích trắc  nghiệm giả thiết TS. Trần Tiến Khai, UEH 8.2 Quy trình phân tích dữ liệu Hình 8.1 Các bước khám phá,  trắc nghiệm và phân tích trong  q trình nghiên cứu  Lập đề cương NC Thu thập chuẩn bị liệu Kế hoạch phân tích sơ khởi Xác định lại giả tthuyết Thể trực quan liệu Phân tích diễn giải liệu Phân tích mơ tả biến số Lập bảng chéo cho biến số Trình bày liệu (histogram, boxplots, Pareto, stemand-leaf, AID, etc.) Phân tích liệu Trắc nghiệm giả thiết Báo cáo nghiên cứu Ra định TS. Trần Tiến Khai, UEH 8.3 Nhập số liệu 8.3.1 Cách bố trí dữ liệu trên máy tính  Mục tiêu:  Nhằm tạo điều kiện thuận tiện cho việc nhập  liệu  Nhằm tạo sự thuận lợi cho việc chỉnh sửa dữ  liệu TS. Trần Tiến Khai, UEH 8.3 Nhập số liệu  Thực hiện:    Ngun tắc chung: đặt tên biến ngắn gọn, viết tắt  (tiếng Việt khơng dấu hoặc tiếng Anh). Tên biến nên  được đặt theo quy định.  Dùng Excel: dễ thao tác và chỉnh sửa, khơng gian lưu  trữ hạn chế, cơng cụ thống kê và kinh tế lượng khơng  đủ cho phân tích Dùng SPSS: khơng gian lưu trữ gần như khơng hạn  chế, cơng cụ thống kê và kinh tế lượng phát triển đầy  đủ cho nhu cầu phân tích. Khai báo dữ liệu bắt buộc,  mất thời gian.  TS. Trần Tiến Khai, UEH 8.3 Nhập số liệu Hình 5. 2 Cách  nhập dữ liệu vào  bảng tính SPSS  TS. Trần Tiến Khai, UEH 8.3 Nhập số liệu Hình 8.3 Cách định nghĩa các thuộc tính của các biến số định tính và định lượng  TS. Trần Tiến Khai, UEH Định nghĩa kiểu biến TS. Trần Tiến Khai, UEH Xác định nhãn (giải thích) của biến TS. Trần Tiến Khai, UEH Xác định giá trị phân loại của biến TS. Trần Tiến Khai, UEH 10 Xác định thang đo của biến TS. Trần Tiến Khai, UEH 11 8.4 Làm sạch dữ liệu 8.4.1 Phát hiện giá trị dị biệt trong dữ liệu a. Sử dụng Excel: hàm Max và Min, công cụ Auto Filter, đồ thị Scatter  TS. Trần Tiến Khai, UEH 12 8.4 Làm sạch dữ liệu Hình 5.4 Cơng cụ đồ thị  Scatter trong Excel  TS. Trần Tiến Khai, UEH 13 8.4 Làm sạch dữ liệu 8.4.1 Phát hiện giá trị dị biệt trong dữ liệu b. Sử dụng SPSS: đồ thị Scatter, cơng cụ Frequency, Bar Chart, Pie  Chart,  và Box Plot trong Explore  TS. Trần Tiến Khai, UEH 14 8.4 Làm sạch dữ liệu b. Sử dụng SPSS: đồ thị Scatter  Motobike Names 80 Others 70 Honda @ Honda Dream A ge of m otorbike user 60 SYM Attila 50 Yamaha Cygnus 40 Honda Wave Yamaha Jupiter 30 Yamaha Sirius 20 Honda Future Neo 10 Honda AirBlade 10 20 30 40 Number of used days in a month TS. Tr ần Tiến Khai, UEH 15 8.4 Làm sạch dữ liệu b. Sử dụng SPSS: cơng cụ Frequency, Explore  TS. Trần Tiến Khai, UEH Hình 8.6 Cơng cụ Frequency và Explore trong SPSS   16 8.4 Làm sạch dữ liệu b. Sử dụng SPSS: công cụ Frequency Frequency Honda Air Blade Percent %Valid Cumulative  Percent 10 10.0 10.0 10.0 Honda Future Neo 8.0 8.0 18.0 Yamaha Sirius 7.0 7.0 25.0 Yamaha Jupiter 13 13.0 13.0 38.0 Honda Wave 24 24.0 24.0 62.0 4.0 4.0 66.0 11 11.0 11.0 77.0 Honda Dream 6.0 6.0 83.0 Honda @ 7.0 7.0 90.0 10 10.0 10.0 100.0 100 100.0 100.0   Yamaha Cygnus SYM Attila Others Total TS. Trần Tiến Khai, UEH 17 8.4 Làm sạch dữ liệu b. Sử dụng SPSS: công cụ Pie Chart và Bar Chart 30 10.0% Honda @ 7.0% Honda Dream 6.0% Honda AirBlade 10.0% 8.0% Yamaha Sirius 7.0% SYM Attila 11.0% Yamaha Cygnus 20 Honda Future Neo Yamaha Jupiter 10 P ercent Others 13.0% 4.0% Honda Wave 24.0% TS. Trần Tiến Khai, UEH Motobike Names 18 8.4 Làm sạch dữ liệu b. Sử dụng SPSS: công cụ Histogram   Biểu đồ histogram là một giải pháp quy ước dùng  để thể hiện các dữ liệu tỷ lệ hoặc khoảng cách.   Biểu đồ histogram được sử dụng để phân nhóm  các giá trị dữ liệu của các biến số (variable)  thành các khoảng cách.   Biểu đồ histogram được xây dựng dưới dạng các  thanh thể hiện giá trị dữ liệu TS. Trần Tiến Khai, UEH 19 8.4 Làm sạch dữ liệu b. Sử dụng SPSS: cơng cụ Histogram   Biểu đồ histogram rất hữu dụng cho việc: (1) thể hiện  tất cả các khoảng cách  trong một phân phối  (distribution), và (2) trắc nghiệm dạng hình của phân  phối như độ méo (skewness), độ nhọn (kurtosis).   Ghi chú: Biểu đồ histogram khơng dùng được cho  các biến danh nghĩa TS. Trần Tiến Khai, UEH 20 8.4 Làm sạch dữ liệu b. Sử dụng SPSS: cơng cụ Histogram  30 Ví dụ 8.2 Phân phối  biến số tuổi của người  sử dụng xe máy 20 10 Std Dev = 14.42 Mean = 39 N = 100.00 20 25 30 35 40 45 50 55 60 65 70 75 Age of motorbike user TS. Trần Tiến Khai, UEH 21 8.4 Làm sạch dữ liệu b. Sử dụng SPSS: biểu đồ Thân­và­Lá (Stem­and­Leaf Displays)   Mỗi dòng của biểu đồ được gọi là một  thân; và mỗi số liệu thể hiện trên một thân  gọi là một lá.   Khi biểu đồ thân­và­lá được quay trái 900 ,  nó sẽ có dạng hình tương tự như biểu đồ  histogram.  TS. Trần Tiến Khai, UEH 22 8.4 Làm sạch dữ liệu b. Sử dụng SPSS: biểu đồ Thân­và­Lá (Stem­and­Leaf Displays)  Age of motorbike user Stem­and­Leaf Plot  Frequency    Stem &  Leaf      6.00        1 .  889999     18.00       2 .  000111122222233344      8.00        2 .  55677788     13.00       3 .  0012233334444      4.00        3 .  5556     12.00       4 .  123333334444     13.00       4 .  5555566777789     10.00       5 .  0123344444      9.00        5 .  566667779      2.00        6 .  03      4.00        6 .  5567       .00         7       1.00        7 .  6  Stem width:        10  Each leaf:       1 case(s) TS. Trần Tiến Khai, UEH 8.3 Biểu đồ Thân­và Lá  của biến số Tuổi của  người sử dụng xe máy  23 8.4 Làm sạch dữ liệu b. Sử dụng SPSS: biểu đồ hộp (Box­Plots)   Biểu đồ hộp, hay còn gọi là biểu đồ hộp­và­râu (box­and­ whisker plot), cho ta một hình ảnh trực quan khác về vị trí, độ  phân tán, dạng hình, độ dài đi và các giá trị bất thường  (outliers) của phân phối.    Biểu đồ hộp thể hiện tóm tắt 5 giá trị thống kê của một phân  phối là trung vị (median), hai tứ phân vị trên và dưới (the upper  and lower quartiles), và các giá trị quan sát lớn nhất và nhỏ nhất  TS. Trần Tiến Khai, UEH 24 8.4 Làm sạch dữ liệu b. Sử dụng SPSS: biểu đồ hộp (Box­Plots)   Các thành phần chủ yếu của biểu đồ hộp là:   Hộp hình chữ nhật chứa đựng 50% các giá trị dữ liệu.   Đường thẳng ở trung tâm hộp là giá trị trung vị.   Hai lề của hộp thể hiện hai giá trị tứ phân vị thứ 1 và thứ 3  (tương ứng với giá trị thứ 25% (25th percentile) và giá trị thứ  75% (75th percentile) của dãy số liệu.    Các “râu” kéo dài từ lề phía trên và phía dưới của hộp thể  hiện giá trị lớn nhất và nhỏ nhất. Các giá trị này nằm trong  khoảng tối đa 1,5 lần khoảng cách giữa các tứ phân vị tính  từ lề của hộp.    TS. Trần Tiến Khai, UEH 25 8.4 Làm sạch dữ liệu b. Sử dụng SPSS: biểu đồ hộp (Box­Plots)  Các giá trị lớn lần so với độ dài hộp tính từ giá trị tứ phân vị thứ (75th percentile) (extremes) Các giá trị lớn 1,5 lần so với độ dài hộp tính từ giá trị tứ phân vị thứ (75th percentile) (outliers) Giá trị lớn quan sát giá trị bất thường 50% trường  hợp có giá  trị nằm  trong hộp  Tứ phân vị thứ (75th PERCENTILE) Trung vị (MEDIAN) Tứ phân vị thứ (25th PERCENTILE) Giá trị lớn quan sát giá trị bất thường Các giá trị lớn 1,5 lần so với độ dài hộp tính từ giá trị tứ phân vị thứ (25th percentile) (outliers) Các giá trị lớn lần so với độ dài hộp tính từ giáếtrị tứ phân vị thứ (25th percentile) (extremes) TS. Trần Ti n Khai, UEH 26 8.4 Làm sạch dữ liệu b. Sử dụng SPSS: biểu đồ hộp (Box­Plots)  100 80 60 40 8.4 Biểu đồ hộp của biến số  Tuổi của người sử dụng xe  máy và số ngày sử dụng trong  tháng  20 N= 100 100 Age of motorbike use Number of used days TS. Trần Tiến Khai, UEH 27 8.5 Phân tích thống kê mơ tả 8.5.1 Phân tích thống kê mơ tả cho biến định lượng  Sử dụng Excel: cơng cụ Descriptives Statistics  trong chức năng Data Analysis  Sử dụng SPSS: cơng cụ Frequency, Descriptives,  Explore trong chức năng Descriptive Statistics của  SPSS TS. Trần Tiến Khai, UEH 28 8.5 Phân tích thống kê mơ tả 8.5.1 Phân tích thống kê mơ tả cho biến định lượng Các chỉ tiêu thống kê mơ tả :  xu hướng trung tâm,   tính biến thiên và   dạng hình phân phối của dữ liệu TS. Trần Tiến Khai, UEH 29 8.5 Phân tích thống kê mơ tả 8.5.1 Phân tích thống kê mơ tả cho biến định lượng Đo lường xu hướng trung tâm (Measures of Central Tendency)  Giá trị trung bình (mean) là tổng tất cả giá trị của các dữ liệu chia cho  số lượng của dữ liệu.   Trung vị (median) là giá trị của số liệu có vị trí nằm giữa bộ số liệu  sắp xếp theo trật tự. Đây chính là điểm giữa của phân phối. Khi số  quan sát là chẵn, trung vị là giá trị trung bình của hai quan sát ở vị trí  trung tâm.   Mode là giá trị của quan sát có tần suất xuất hiện nhiều nhất trong bộ  dữ liệu.   Khoảng cách (range) là giá trị khác biệt giữa con số lớn nhất và nhỏ  nhất trong bộ dữ liệu.  TS. Trần Tiến Khai, UEH 30 8.5 Phân tích thống kê mơ tả 8.5.1 Phân tích thống kê mơ tả cho biến định lượng Đo lường tính biến thiên (Measures of Variability)  Phương sai (Variance; σ 2) là trung bình tổng các sai số bình  phương giữa các giá trị của các quan sát và giá trị trung bình  Độ lệch chuẩn (Standard deviation; SD; σ) đo lường mức độ  phân tán của số liệu xung quanh giá trị trung bình.   Sai số chuẩn của giá trị trung bình (Standard error of the  mean; s.e.) đo lường phạm vi mà giá trị trung bình của quần  thể (µ) có thể xuất hiện với một xác suất cho trước dựa trên giá  trị trung bình của mẫu (mean).  TS. Trần Tiến Khai, UEH 31 8.5 Phân tích thống kê mơ tả 8.5.1 Phân tích thống kê mơ tả cho biến định lượng Đo lường dạng hình của phân phối (Measures of Shape)  Độ méo (skewness) đo lường độ lệch của phân phối về một  trong hai phía.   Phân phối méo trái (negative skew, left­skewed) khi đi phía trái  dài hơn, và phần lớn số liệu tập trung ở phía phải của phân phối.   Phân phối méo phải (positive sknew, right­skewed) khi đi phía  phải dài hơn, và phần lớn số liệu tập trung ở phía trái của phân  phối.   Khi lệch phải, giá trị sknewness dương; khi lệch trái, giá trị  skewness âm. Độ méo càng lớn thì giá trị sknewness càng lớn  hơn 0.  TS. Trần Tiến Khai, UEH 32 8.5 Phân tích thống kê mơ tả 8.5.1 Phân tích thống kê mơ tả cho biến định lượng Hình 8.10 Đường phân phối chuẩn và các đặc tính TS. Trần Tiến Khai, UEH 33 8.5 Phân tích thống kê mơ tả 8.5.1 Phân tích thống kê mơ tả cho biến định lượng Hình 8.11 Các dạng phân phối lệch trái và lệch phải so với phân phối bình  thường  TS. Trần Tiến Khai, UEH 34 8.5 Phân tích thống kê mơ tả 8.5.1 Phân tích thống kê mơ tả cho biến định lượng Đo lường dạng hình của phân phối (Measures of Shape)   Độ nhọn (kurtosis) đo lường mức độ nhọn hay bẹt của phân  phối so với phân phối bình thường (có độ nhọn bằng 0). Phân  phối có dạng nhọn khi giá trị kurtosis dương và có dạng bẹt khi  giá trị kurtosis âm.  Với phân phối bình thường, giá trị của độ méo và độ nhọn  bằng 0. Căn cứ trên tỷ số giữa giá trị skewness và kurtosis và  sai số chuẩn của nó, ta có thể đánh giá phân phối có bình  thường hay khơng (khi tỷ số này nhỏ hơn ­2 và lớn hơn +2,  phân phối là khơng bình thường).  TS. Trần Tiến Khai, UEH 35 8.5 Phân tích thống kê mơ tả Phân tích thống kê mơ tả với SPSS: cơng cụ Descriptive  ần Tiến Khai, UEH Hình 8.13 Các chức năng thốTS. Tr ng kê mơ t ả của cơng cụ Descriptives  36 8.5 Phân tích thống kê mơ tả Phân tích thống kê mơ tả với SPSS: cơng cụ Descriptive  Bảng 8.6 Thống kê mơ tả các biến số Tuổi của người sử dụng xe máy  Statistic Age of motorbike user N 100 Range 58 Minimum 18 Maximum 76 Mean 39.01 Std Deviation 14.42 Variance Skewness Kurtosis TS. Trần Tiến Khai, UEH Std Error 1.44 207.909 242 241 -.948 478 37 8.5 Phân tích thống kê mơ tả Phân tích thống kê mơ tả với SPSS: cơng cụ Explore Cơng cụ Explore rất thích hợp để thống kê mơ tả chi tiết các biến số phân nhóm  theo một biến phân loại khác (factor variable).  TS. Trần Tiến Khai, UEH 38 7.7 Thống kê mơ tả các biến số Tuổi của người sử dụng xe máy và số ngày sử  dụng trong tháng phân theo giới tính  Age of motorbike user User gender female Mean 95% Confidence Interval for Mean Number of used days in a month Statistic Std Error Statistic Std Error 38.46 2.11 20.71 1.07 Lower Bound 34.19 18.54 Upper Bound 42.74 22.88 5% Trimmed Mean 38.13 20.95 Median 41.00 22.00 183.205 47.212 13.54 6.87 Minimum 19 Maximum 65 30 Range 46 23 23.00 11.00 Variance Std Deviation Interquartile Range Skewness Kurtosis 118 369 -.513 369 TS. Trần Tiến Khai, UEH -1.089 724 -.838 39 724 7.7 Thống kê mơ tả các biến số Tuổi của người sử dụng xe máy và số ngày sử  dụng trong tháng phân theo giới tính  male Mean 95% Confidence Interval for Mean 39.39 1.97 19.76 Lower Bound 35.45 17.74 Upper Bound 43.33 21.79 5% Trimmed Mean 38.87 19.90 Median 42.00 21.00 228.173 60.460 15.11 7.78 Minimum 18 Maximum 76 32 Range 58 27 28.00 15.00 Variance Std Deviation Interquartile Range Skewness Kurtosis 1.01 292 311 -.175 311 -.932 613 -1.271 613 TS. Trần Tiến Khai, UEH 40 ...     18.00       2 .  000111122222233344      8.00        2 .  55 677 788     13.00       3 .  0012233334444      4.00        3 .  5556     12.00       4 .  123333334444     13.00       4 .  555556 677 778 9     10.00       5 .  0123344444...      9.00        5 .  5666 677 79      2.00        6 .  03      4.00        6 .  55 67       .00         7      1.00        7 .  6  Stem width:        10  Each leaf:       1 case(s) TS. Trần Tiến Khai,  UEH... 8.0 8.0 18.0 Yamaha Sirius 7. 0 7. 0 25.0 Yamaha Jupiter 13 13.0 13.0 38.0 Honda Wave 24 24.0 24.0 62.0 4.0 4.0 66.0 11 11.0 11.0 77 .0 Honda Dream 6.0 6.0 83.0 Honda @ 7. 0 7. 0 90.0 10 10.0 10.0 100.0

Ngày đăng: 05/02/2020, 01:01

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN