Chương 2: Phân tích dữ liệu mô tả với các công cụ phân tích dữ liệu
2.2.2. Trình bày dữ liệu phân loại và dữ liệu số
Biểu đồ bạn chọn để trình bày dữ liệu cho một biến phân loại duy nhất phụ thuộc vào việc bạn muốn nhấn mạnh cách các loại so sánh trực tiếp với nhau (biểu đồ thanh) hoặc cách các loại thành phần của toàn bộ (biểu đồ tròn) hoặc dữ liệu chỉ tập trung vào một vài danh mục của bạn (biểu đồ Pareto). Để hình dung dữ liệu cho hai biến phân loại, bạn sử dụng biểu đồ thanh cạnh nhau.
Biểu đồ thanh minh họa (Hình 2.2.2A) một biến phân loại như là một loạt các thanh, với mỗi thanh tượng trưng cho các đỉnh cho một thể loại. Trong biểu đồ thanh, độ dài của mỗi thanh tượng trưng cho tần suất hoặc tỷ lệ phần trăm của các giá trị cho một loại và mỗi thanh được phân cách bằng không gian, gọi là khoảng cách. Ví dụ :
Hình 2.2.2A
Biểu đồ hình tròn (Hình 2.2.2B) sử dụng các phần của một vòng tròn để thể hiện các nhãn của mỗi loại. Kích thước của mỗi phần, hoặc phần bánh, thay đổi theo tỷ lệ phần trăm trong mỗi loại. Ví dụ :
Hình 2.2.2B
Trong biểu đồ Pareto, số liệu cho mỗi loại được vẽ dưới dạng thanh dọc theo thứ tự giảm dần, hay theo tần suất của chúng và được kết hợp với một tỷ lệ phần trăm tích lũy trên cùng biểu đồ. Biểu đồ Pareto lấy tên từ nguyên tắc Pareto, quan sát thấy rằng trong nhiều bộ dữ liệu, một vài loại của biến phân loại đại diện cho phần lớn dữ liệu, trong khi nhiều loại khác đại diện cho một lượng dữ liệu tương đối nhỏ hay nhỏ. Biểu đồ Pareto giúp bạn xác định
trực quan các danh mục "ít quan trọng" từ các danh mục "bình thường" để bạn có thể tập trung vào các danh mục quan trọng. Biểu đồ Pareto cũng là công cụ mạnh mẽ để ưu tiên cho cải tiến, chẳng hạn như khi dữ liệu được thu thập xác định các mục bị lỗi hoặc không phù hợp. Ví dụ :
Hình 2.2.2C
Biểu đồ thanh ngang song song sử dụng các bộ thanh để hiển thị các phản hồi chung từ hai biến phân loại. Ví dụ, Biểu đồ song song với hình dưới cho thấy các dữ liệu về mức độ rủi ro cho sự tăng trưởng giá trị của các quỹ.
Hình 2.2.2D
Bạn trình bày dữ liệu cho một biến số thông qua một loạt các kỹ thuật cho thấy sự phân bố các giá trị. Các kỹ thuật này bao gồm hiển thị biểu đồ lịch sử, đa giác phần trăm và đa giác tỷ lệ phần trăm tích lũy…
Biểu đồ lịch sử hiển thị dữ liệu dưới dạng biểu đồ thanh dọc trong đó mỗi thanh tượng trưng cho khoảng lớp từ tần suất hoặc phân bố phần trăm. Trong biểu đồ, bạn sẽ hiển thị biến số dọc theo trục ngang (X) và sử dụng trục dọc (Y) để biểu diễn tần suất hoặc tỷ lệ phần trăm của các giá trị cho mỗi khoảng lớp. Không có khoảng trống nào giữa các thanh liền kề trong một biểu đồ.
Hình 2.2.2E
Khi sử dụng một biến phân loại để phân chia dữ liệu của một biến số thành hai hoặc nhiều nhóm, bạn hình dung dữ liệu bằng cách xây dựng một đa giác phần trăm. Biểu đồ này sử dụng các điểm giữa của mỗi khoảng lớp để biểu diễn dữ liệu của mỗi lớp và sau đó vẽ các điểm giữa, theo tỷ lệ phần trăm tương ứng, như các điểm trên một đường dọc theo trục X. Trong khi bạn có thể xây dựng hai hoặc nhiều biểu đồ, như đã được thực hiện trong hình dưới, một đa giác phần trăm cho phép bạn thực hiện một phép so sánh trực tiếp dễ hiểu hơn.
Đa giác tỷ lệ phần trăm tích lũy, hoặc hình ảnh minh hoạ, sử dụng phân phối phần trăm tích lũy để vẽ các tỷ lệ tích lũy dọc theo trục Y. Không giống như đa giác phần trăm, giới hạn dưới của khoảng lớp cho biến số được vẽ theo hướng phát triển, với tỷ lệ phần trăm tương ứng, như các điểm trên một đường dọc theo trục X.
Hình 2.2.2H