Chương 6 Xử lý số liệu với bảng tính điện tử
6.6 Phân tích số liệu thống kê bằng bảng tính điện tử
6.6.1 Tổng hợp và phân tích số liệu với Pivottable
Các thao tác trong phần này sẽ giúp người dùng từng bước triển khai phân tích dữ liệu có được thông qua điều tra bằng bảng câu hỏi (Questionaries).
Dữ liệu mẫu và câu hỏi nghiên cứu
Xét ví dụ sau: Xét một bảng câu hỏi đơn giản gồm 6 câu hỏi liên quan đến khách đến giải trí tại công viên A nhằm phân tích, đánh giá mức độ hài lòng của khách với các dịch vụ của công viên.
Sau đây là ý nghĩa của các biến sử dụng trong nghiên cứu.
Giáo trình Tin học đại cương
- Family (khác): Đối tượng trả lời câu hỏi, khách.
- Time (thời gian): Thời gian hoạt động của Family trong công viên. Tính bằng phút và có kiểu dữ liệu định lượng.
- Mode (loại phương tiện): Loại hình phương tiện mà Family lựa chọn đi đến công viên. Gồm các giá trị như sau: (1)walk, (2) car, (3) bicycle, (4) bus. Mỗi gia đình chỉ chọn 1 trong 4 giá trị của Mode
- Activity (hoạt động): Chỉ các hoạt động của gia đình tại công viên, có kiểu dữ liệu định danh và gồm 6 hoạt động như sau: (1) sport, (2) picnic, (3) reading, (4) walk, (5) meditation, (6) jog. Mỗi gia đình có thể chọn nhiều hoạt động.
- Satisfaction (Sự hài lòng): Đo lường sự hài lòng của khách đến giải trí tại công viên đối với các dịch vụ của công viên, gồm 5 mức như sau:
-2 = very dissatisfied (rất không hài lòng)
-1 = dissatisfied (không hài lòng)
0 = indifference (không quan tâm)
1 = satisfied (hài lòng)
2 = Very satisfied (rất hài lòng)
- Playground: Gồm hai giá trị là là Yes và No cho biết công viên có sân chơi cho trẻ con hay không.
Giả sử rằng các câu hỏi điều tra được hỏi với 12 gia đình đã đến công viên giải trí và dữ liệu ban đầu thu được như sau:
Hình 6.33 Minh họa dữ liệu mẫu và câu hỏi nghiên cứu
Với những dữ liệu thu được như trên, chúng ta muốn nghiên cứu để làm tăng mức độ hài lòng của khách đến công viên. Câu hỏi nghiên cứu cần trả lời là “Làm sao nâng cao mức độ hài lòng của khách đến vui chơi tại công ty A?”
Giáo trình Tin học đại cương
Bản quyền thuộc Khoa Công nghệ thông tin Trang 297
Trường ĐH Sư phạm Tp. Hồ Chí Minh
Để trả lời câu hỏi trên, ta phải trả lời các câu hỏi nhỏ sau:
1. Mức độ hài lòng của khách tới vui chơi tại công viên A là bao nhiêu?
2. Hoạt động nào được lựa chọn nhiều nhất trong công viên?
3. Khách thường đến công viên bằng phương tiện nào?
4. Nếu có sân chơi cho trẻ em ở công viên thì liệu mức độ hài lòng của khách có tăng lên không?
5. Có mối quan hệ giữa hoạt động và thời gian hoạt động của khách không?
6. Có mối quan hệ giữa thời gian mà khách lưu lại công viên với phương tiện mà họ sử dụng để đến công viên không?
Để trả lời cho 6 câu hỏi phía trên, ta phải trải qua ba giai đoạn:
- Mã hóa dữ liệu từ bảng câu hỏi.
- Phân tích đơn giản với thống kê mô tả - Phân tích với Pivot Table
Mã hóa dữ liệu từ bảng câu hỏi
Khi đã có dữ liệu điều tra từ bảng câu hỏi, ta phải phân tích bảng điều tra này để thu thập dữ liệu.
Bước đầu tiên của phân tích dữ liệu là mã hóa dữ liệu. Đây là quá trình chuyển đổi dữ liệu có được từ bảng câu hỏi sang định dạng phù hợp để có thể phân tích trên máy tính.
Dữ liệu thu được gồm 6 biến và chỉ có 2 biến định danh là Activity và Playground là cần chuyển đổi, 4 biến còn lại đã có kiểu dữ liệu phù hợp.
Biến Activity được chuyển qua kiểu nhị phân chỉ nhận một trong hai giá trị 1 (hoạt động đó được chọn) và 0 (không chọn hoạt động đó). Vì bài toán đặt ra có 6 hoạt động nên chuyển thành 6 cột – mỗi cột tương ứng một hoạt động.
Biến Playground cũng được chuyển sang dạng nhị phân (1 = Yes: Có sân chơi; 0 = No: Không có sân chơi).
Kết quả của bước mã hóa dữ liệu ta thu được dữ liệu đã mã hóa như sau:
Giáo trình Tin học đại cương
Hình 6.34 Minh họa mã hóa dữ liệu từ bảng câu hỏi
Phân tích đơn giản với Descriptive Statistics (thống kê mô tả) Thao tác này sẽ trả lời cho 3 câu hỏi phía trên:
1. Mức độ hài lòng của khách tới vui chơi tại công viên A là bao nhiêu?
2. Hoạt động nào được lựa chọn nhiều nhất trong công viên?
3. Khách thường đến công viên bằng phương tiện nào?
Giáo trình Tin học đại cương
Bản quyền thuộc Khoa Công nghệ thông tin Trang 299
Trường ĐH Sư phạm Tp. Hồ Chí Minh
Để thực hiện tính các thống kê mô tả trong MS Excel 2003 ta thực hiện như sau:
- Chọn Tools/Data Analysis/Descriptive Statistics
Hình 6.35 Hộp thoại Data Analysis
- Thiết lập các tùy chọn cho hộp thoại Descriptive Statistics như hình sau và bấm OK.
-
Hình 6.36 Thiết lập cho hộp thoại Descriptive Statistics
Nhận xét:Từ dữ liệu bảng trên, ta thấy rằng mức độ hài lòng (Satisfaction) trung bình là 1 (thang đo mức độ hài lòng có 5 mức độ từ -2 đến 2). Ta có thể kết luận rằng khách khá hài lòng với điều kiện của công viên A.
Phần đông khách đến bằng xe hơi Mức độ hài lòng trung bình
Tần suất sử dụng của mỗi hoạt động
Giáo trình Tin học đại cương
Cũng từ kết quả tính toán trên, ta có được tần suất sử dụng các hoạt động tại công viênA như sau:
Hình 6.37 Tần suất sử dụng các hoạt động tại công viên
Dựa vào dữ liệu về tần suất các hoạt động trên, ta có thể kết luận phần lớn gia đình tới công viên để hoạt động picnic (27.3%) hoặc đi bộ (walk) (22.7%).
Từ giá trị của biến Mode (phương tiện) ta có thể kết luận phần lớn khách đến công viên bằng xe hơi (Mode = 2: car).
Phân tích dựa Cross Tabulation (Pivot Table) Thao tác này sẽ trả lời cho 3 câu hỏi cuối:
1. Nếu có sân chơi cho trẻ em ở công viên thì liệu mức độ hài lòng của khách có tăng lên không?
2. Có mối quan hệ giữa hoạt động và thời gian hoạt động của khách không?
Giáo trình Tin học đại cương
Bản quyền thuộc Khoa Công nghệ thông tin Trang 301
Trường ĐH Sư phạm Tp. Hồ Chí Minh
3. Có mối quan hệ giữa thời gian mà khách lưu lại công viên với phương tiện mà họ sử dụng để đến công viên không?
Bởi vì các câu hỏi nghiên cứu này về mối quan hệ giữa 2 biến, chúng ta cần sử dụng kỹ thuật phân tích dựa trên Cross Tabulation (Pivot Table) để trả lời các câu hỏi này. Cross tabulation là bảng tần suất giữa hai hay nhiều biến.
Để tạo Pivot Table trong MS Excel 2003 ta tiến hành như sau:
- Menu DataPivot Table and Pivot Chart Report
Hình 6.38 Hộp thoại Pivot Table - Step 1
- Chọn Nextsau đó chọn vùng dữ liệu, ta có
Hình 6.39 Hộp thoại Pivot Table - Step 2
- Nhấn Next và chọn Layout button
Giáo trình Tin học đại cương
- Để trả lời mối quan hệ giữa 2 biến Playground và Satisfaction, kéo và thả tên các biến tương ứng ở bên phải vào sơ đồ. Đặt biến Satisfaction trong hàng (row) và biến Playground trong cột (column) và kéo thả biến Satisfaction một lần nữa vào vùng Data.
Vùng Data xuất hiện Sum of Satisfaction. Sau đó, double click Sum of Satisfaction và Pivot Table Field dialog xuất hiện. Trong mục summarized by chọn Count và click OK 2 lần, xem hình sau:
Hình 6.40 Giao diện Pivot Table - Layout
- Khi quay trở lại bước 3 của Pivot table wizard, Click Finish.
Giáo trình Tin học đại cương
Bản quyền thuộc Khoa Công nghệ thông tin Trang 303
Trường ĐH Sư phạm Tp. Hồ Chí Minh
Hình 6.41 Giao diện Pivot Table – Finish - 1
- Để biết liệu biến Playground có quan hệ với biến Satisfaction hay không, ta thực hiện kiểm định đơn giản gọi là Chi-square test.
𝑒𝑖𝑗 = 𝑂𝑖 𝑂𝑗 𝑂𝑖 𝑗 𝑗
Trong đó Oij là giá trị quan sát (Observe value) tại dòng i cột j
Ý nghĩa: để có được giá trị độc lập tại dòng i cột j, ta nhân tổng của dòng i với tổng của cột j và chia cho tổng của tất cả dữ liệu trong bảng.
Hình 6.42 Giá trị quan sát
- Giá trị trong bảng trên đây được lấy tổng hợp từ mẫu nên gọi là Observe value (giá trị quan sát)
- Ví dụ, giá trị độc lập của ô tại dòng 3 cột 2, ta có Satisfaction = 1 và Playground = 1, ta có 2 trả lời. Ta có tổng dòng là 4 và tổng cột là 7. Tổng toàn bộ dữ liệu là 12 cho nên giá trị độc lập cho ô (cell) này là 4*7/12 = 2.333. Thực hiện tương tự ta có giá trị độc lập cho tất cả các ô còn lại của bảng như sau:
Giáo trình Tin học đại cương
Hình 6.43 Giá trị kỳ vọng
- Giá trị độc lập trong bảng trên còn gọi là giá trị kỳ vọng (expected value). Giá trị kỳ vọng là giá trị tính được với giả thuyết H0 đúng (Trong trường hợp này giả thuyết H0 là: Giữa Playground và Satisfaction không có mối quan hệ)
- Bảng này có nghĩa là nếu biến Playground hoàn toàn (100%) độc lập với Satisfaction thì giá trị quan sát trong Pivot Table phải bằng với với những giá trị kỳ vọng trong bảng này.
- Chi-square Test: được dùng để kiểm định sự độc lập của 2 biến phân loại ngẫu nhiên.
Nếu xác suất nhỏ hơn 0.05 (5%, mức ý nghĩa) thì có thể kết luận 2 biến có mối quan hệ.
Ngược lại, không có cơ sở để kết luận giữa 2 biến có mối quan hệ.
- Xác suất đó có thể được tính trong MS Excel 2003 bằng hàm kiểm định Chi-square như sau:
= 𝐶𝐻𝐼𝐷𝐼𝑆𝑇(𝜒2, 𝑑𝑓) Trong đó:
𝜒2: Giá trị Chi-square (Chi-square value)
𝑑𝑓: bậc tự do (degree of freedom)
- Để tính xác suất này, ta phải tính bình phương độ lệch giữa giá trị quan sát (observe value) từ Pivot Table và giá trị kỳ vọng (expected value) từ Independent table và chia cho giá trị kỳ vọng rồi tính tổng tất cả các độ lệch này trong bảng. Giá trị này gọi là giá trị Chi-square. Công thức tính như sau:
𝜒2 = (𝑂𝑖𝑗 − 𝑒𝑖𝑗) 𝑒𝑖𝑗
𝑗 𝑖
- Bậc tự do (df – degree of freedom) được tính là tổng số hàng trừ 1, nhân với tổng số cột trừ 1
df = (total rows- 1)*(total columns -1)
Giáo trình Tin học đại cương
Bản quyền thuộc Khoa Công nghệ thông tin Trang 305
Trường ĐH Sư phạm Tp. Hồ Chí Minh
- Từ dữ liệu trong ví dụ trên ta tính tổng bình phương các độ lệch bằng 7.886 và bậc tự do df = (4-1)*(2-1)=3. Sử dụng hàm CHIDIST (7.886, 3) ta có xác suất p=0.048 (xem bảng dữ liệu sau)
- Vì xác suất p=0.048 nhỏ hơn 0.05 (mức ý nghĩa 5%) nên ta có thể kết luận rằng tồn tại mối quan hệ giữa playground và Satisfaction. Phân tích này cho phép trả lời câu hỏi nghiên cứu 4 ở trên. Có nghĩa là nếu công viên có sân chơi cho trẻ em thì sẽ làm tăng mức độ hài lòng của khách.
- Để trả lời hai câu hỏi còn lại (câu hỏi 5,6) ta làm tương tự như trên để tạo ra Pivot table của Activity và Time