Chương 2: Phân tích dữ liệu mô tả với các công cụ phân tích dữ liệu
2.2 Tổ chức và trình bày dữ liệu 1 Tổ chức dữ liệu phân loại và dữ liệu số
2.2.1. Tổ chức dữ liệu phân loại và dữ liệu số
Bạn tổ chức dữ liệu phân loại bằng cách kiểm tra các giá trị của một biến theo các loại và đưa kết quả vào các bảng. Thông thường, bạn xây dựng một bảng tóm tắt để tổ chức dữ liệu cho một biến phân loại duy nhất và bạn xây dựng một bảng ngẫu nhiên để tổ chức dữ liệu từ hai hoặc nhiều biến phân loại.
Bảng tóm tắt hay Bảng tóm lược các giá trị bằng tần suất hoặc tỷ lệ phần trăm cho mỗi loại. Bảng tóm tắt giúp bạn thấy sự khác biệt giữa các danh mục bằng cách hiển thị tần số, số tiền hoặc phần trăm mục trong một tập hợp các loại trong một cột riêng biệt. Ví dụ như :
Hình 2.2.1A
Hay tuần xuất :
Hình 2.2.1B
Bảng ngẫu nhiên mô tả các bảng hoặc tổng hợp các giá trị của hai hoặc nhiều biến phân loại, cho phép bạn nghiên cứu các mẫu có thể tồn tại giữa các biến. Nó có thể được hiển thị dưới dạng tần suất, một phần trăm tổng thể, một phần trăm của tổng số hàng hoặc một phần trăm của tổng số cột, tùy thuộc vào loại bảng mà bạn sử dụng. Mỗi nhãn xuất hiện trong phần riêng của nó, và có một phần cho mỗi phản ứng chung, một sự kết hợp độc đáo của các giá trị cho các biến được đánh giá. Trong bảng ngẫu nhiên đơn giản nhất, chỉ có hai biến phân loại,
các câu trả lời chung xuất hiện trong một bảng sao cho các số liệu của một biến được đặt trong các hàng và các số liệu của biến khác nằm trong các cột. Ví dụ :
Hình 2.2.1C
Hay :
Hình 2.2.1D
Hình 2.2.1E
Bạn tổ chức dữ liệu số bằng cách tạo các mảng được sắp xếp hoặc được phân phối. Để chuẩn bị dữ liệu thu thập được tổ chức, trước hết bạn phải quyết định xem bạn sẽ cần phải phân tích các biến số của bạn theo các nhóm được xác định bởi các giá trị của thứ hai, biến phân loại. Quyết định của bạn ảnh hưởng đến cách bạn chuẩn bị dữ liệu của bạn.
Dữ liệu được xếp lên nhau và không xếp lên nhau: Nếu bạn quyết định rằng bạn sẽ cần phải phân tích biến số bằng các nhóm được xác định bởi các giá trị của thứ hai, biến phân loại, thì bạn phải quyết định xem bạn sẽ sử dụng định dạng được xếp lên nhau hay không xếp
lên. Trong một định dạng được xếp lên nhau, tất cả các giá trị cho một biến số xuất hiện trong một cột và một cột thứ hai, riêng biệt chứa các giá trị phân loại để xác định nhóm con mà mỗi giá trị số thuộc về. Ví dụ: để nghiên cứu chi phí bữa ăn tại nhà hàng, bạn có thể quyết định so sánh chi phí tại các nhà hàng nằm trong thành phố với chi phí tại các nhà hàng ở ngoại ô. Để chuẩn bị dữ liệu này theo định dạng được xếp chồng lên nhau, bạn sẽ tạo ra một cột cho chi phí bữa ăn thay đổi và một cột cho vị trí biến phân loại có các giá trị thành phố và ngoại ô. Bạn sẽ tạo ra hai cột, một cột chứa chi phí bữa ăn cho các nhà hàng thành phố và một cửa hàng có chứa các bữa ăn cho các nhà hàng ngoại ô.
Một mảng sắp xếp sắp xếp các giá trị của một biến số theo bậc, từ giá trị nhỏ nhất đến
giá trị lớn nhất. Một mảng được sắp xếp giúp bạn hiểu rõ phạm vi giá trị trong dữ liệu của bạn và đặc biệt hữu ích khi bạn có nhiều hơn một vài giá trị. Ví dụ, các nhà phân tích tài chính xem xét chi phí đi lại và giải trí có thể có mục tiêu kinh doanh để xác định xem chi phí bữa ăn tại các nhà hàng của thành phố với chi phí bữa ăn ở nhà hàng ngoại ô. Họ thu thập dữ liệu từ một mẫu của 50 nhà hàng thành phố và từ một mẫu của 50 nhà hàng ngoại ô cho chi phí của một bữa ăn ($). Bảng (Hình 2.2.1F) hiển thị dữ liệu không có thứ tự :
Hình 2.2.1F
Phân bố tần số sẽ đếm các giá trị của một biến số thành một tập các lớp có thứ tự số.
mỗi lớp nhóm có một phạm vi giá trị riêng biệt, được gọi là một khoảng lớp. Mỗi giá trị có thể được gán cho chỉ một lớp và mỗi giá trị phải được chứa trong một khoảng giữa các lớp. Ví dụ :
Hình 2.2.1G
Tần suất tương đối và tỷ lệ phần trăm phân bố xuất hiện theo những cách khác hơn
là tần số. Phân bố tần số trình bày tần số tương đối, hoặc tỷ lệ, của tổng số cho mỗi nhóm của mỗi lớp đại diện. Phân phối phần trăm thể hiện phần trăm của tổng số cho mỗi nhóm của mỗi lớp đại diện. Ví dụ sau cho thấy tổ chức dữ liệu về chi phí bữa ăn theo cách tạo thuận lợi cho việc so sánh.
Hình 2.2.1H
Phân phối tỷ lệ phần trăm tích lũy cung cấp cách trình bày thông tin về phần trăm của các giá trị nhỏ hơn một lượng cụ thể. Bạn sử dụng một phần trăm phân phối làm cơ sở để xây dựng một phân phối phần trăm tích lũy. Ví dụ :
Hình 2.2.1K
Để có thể hiểu rõ cách tổ chức và trình bày, giảng viên sẽ làm bài tập mẫu trong sách bài tập trên lớp cho sinh viên được thực hành. Sinh viên cũng xem các hướng dẫn trong sách bài tập với dữ liệu để biết cách tổ chức các loại dữ liệu.