1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo giữa kỳ đề tài data visualization

51 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Data Visualization
Tác giả Đỗ Ngọc Chí Công, Trần Sĩ Nguyên, Huỳnh Gia Hân, Phan Cao Bằng
Người hướng dẫn Trần Trọng Bình
Trường học Trường Đại học Sư phạm Kỹ thuật TP. Hồ Chí Minh
Chuyên ngành Lập Trình R
Thể loại Báo cáo giữa kỳ
Năm xuất bản 2023
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 51
Dung lượng 3,83 MB

Cấu trúc

  • 1. Trực quan hoá dữ liệu (Data Visualization) (4)
    • 1.1. Khái niệm (4)
    • 1.2. Lợi ích (5)
    • 1.3. Trực quan hoá dữ liệu Tốt và Xấu (Good and Bad Data Visualization) (6)
      • 1.3.1. Good Data Visualization (6)
      • 1.3.2. Bad Data Visualization (6)
    • 1.4. Khi nào sử dụng Trực quan hoá dữ liệu? (7)
  • 2. Một số nguyên tắc khi Trực quan hoá dữ liệu (10)
    • 2.1. Trực quan hóa dọc theo trục tuyến tính (10)
    • 2.2. Trực quan hóa dọc theo trục logarit (13)
    • 2.3. Trực quan hóa khu vực trực tiếp (15)
  • 3. Data Storytelling (16)
  • 4. Các package thường dùng khi trực quan hoá dữ liệu (16)
    • 4.1. ggplot2 (16)
    • 4.2. tidyverse (19)
  • 5. Các dạng biểu đồ thưởng sử dụng trong Trực quan hoá dữ liệu (20)
    • 5.1. Histogram (20)
    • 5.2. KDE Chart (Kernel Density Estimation) (25)
    • 5.3. Pie Chart (27)
    • 5.4. Bubble chart (33)
    • 5.5. Hexbin plots (36)
    • 5.6. Area chart (38)
    • 5.7. Biểu đồ thanh chồng (stacked) (40)
    • 5.8. Biểu đồ phân tán (scatter plots) (43)
    • 5.9. Pairs Plot (46)
    • 5.10. Box plot (48)
    • 5.11. Bar chart (49)

Nội dung

Hay nói cách khác Trực quan hóa dữ liệu là biến đổi dữ liệu, thông tin thành hình ảnh nhìn thấy được, với yêu cầu là phụ thuộc vào tính chất của dữ liệu và mục đích của người sử dụng.VD:

Trực quan hoá dữ liệu (Data Visualization)

Khái niệm

Data Visualization (hay còn gọi là trực quan hóa dữ liệu) là quy trình giao tiếp dữ liệu hoặc thông tin thông qua một hình vẽ nhìn thấy được như là charts, graphs, maps, hoặc infographics… Hay nói cách khác Trực quan hóa dữ liệu là biến đổi dữ liệu, thông tin thành hình ảnh nhìn thấy được, với yêu cầu là phụ thuộc vào tính chất của dữ liệu và mục đích của người sử dụng.

VD: Một biểu đồ đường thẳng trình bày về số lượng sản phẩm được bán ra trong những tháng trong quá khứ.

Một biểu đồ hình cột trình bày về số lượng học sinh đăng ký vào mỗi khối trong một trường học.

Một biểu đồ map trình bày về độ lấy nhiễm của đại dịch covid trên thế giới(được cập nhật vào ngày 18.03.2020)

Lợi ích

- Làm cho dữ liệu dễ tiếp cận và dể hiễu hơn.

- Giúp cho con người xác định được những xu hướng và ngoại lệ (điểm khác biệt) trong dữ liệu.

- Làm cho dữ liệu hấp dẫn và đáng nhớ hơn.

- Có thể được sử dụng để giao tiếp với dữ liệu phức tạp trong một cách đơn giản.

- Có thể được sử dụng để đưa ra quyết định tốt hơn cơ bản dữ vào dữ liệu.

Trực quan hoá dữ liệu Tốt và Xấu (Good and Bad Data Visualization)

Trực quan hoá dữ liệu Tốt hay Xấu chỉ dựa trên ước tính tương đối.

Một trực quan hóa dữ liệu được xem là tốt nên thỏa mãn hai điều kiện sau:

- Trình bày ra được những mối liên kết bên trong dữ liệu.

- Làm cho những khán giả, đối tác hiểu được những thông tin bên trong và xem xét được những ý nghĩa từ dữ liệu đó.

Bao gồm: Xấu, Tệ và Sai

- Xấu (Ugly): Một hình vẽ có vấn đề về mặt thẩm mỹ nhưng mặt khác lại rõ ràng và giàu thông tin.

- Tệ (Bad): Một hình vẽ không rõ ràng, khó hiểu, quá phức tạp hoặc mang tính giả dối

- Sai (Wrong): Một hình vẽ có vấn đề liên quan đến toán học, nó trình bày sai về dữ liệu thông tin.

Khi nào sử dụng Trực quan hoá dữ liệu?

Khó có thể nói là khi nào nên sử dụng Tuy nhiên nó mang lại rất nhiều lợi ích như được đề cập, và trong xã hội hiện đại việc trực quan hóa dữ liệu đóng nhiều vai trò quan trọng, không chỉ trong đời sống của cá nhân ví dụ như Google map…, mà còn có trong các tập đoàn doanh nghiệp vì vậy nó luôn được sử dụng khi cần thiết.

Trực quan hóa dữ liệu nên được sử dụng khi bạn cần truyền đạt thông tin dữ liệu một cách hiệu quả và dễ hiểu Nó có thể được sử dụng trong nhiều ngữ cảnh khác nhau, bao gồm:

- Trình bày dữ liệu cho người khác: Trực quan hóa dữ liệu là một cách tuyệt vời để chia sẻ dữ liệu với những người không phải là chuyên gia phân tích dữ liệu Nó có thể giúp họ hiểu các xu hướng, mẫu hình và mối quan hệ trong dữ liệu một cách nhanh chóng và dễ dàng.

- Tìm hiểu và khám phá dữ liệu: Trực quan hóa dữ liệu cũng có thể được sử dụng để tìm hiểu và khám phá dữ liệu Nó có thể giúp bạn phát hiện các xu hướng và mẫu hình mà bạn có thể không nhận thấy khi xem dữ liệu dưới dạng bảng hoặc văn bản.

- Tạo báo cáo và tài liệu: Trực quan hóa dữ liệu có thể được sử dụng để tạo các báo cáo và tài liệu dữ liệu chuyên nghiệp Nó có thể giúp bạn truyền đạt thông tin một cách rõ ràng và hiệu quả, và thu hút sự chú ý của người đọc.

Dưới đây là một số ví dụ cụ thể về khi nào nên sử dụng trực quan hóa dữ liệu:

- Để trình bày dữ liệu về doanh số bán hàng, bạn có thể sử dụng biểu đồ đường để theo dõi doanh số theo thời gian, biểu đồ tròn để hiển thị phân phối doanh số theo sản phẩm hoặc biểu đồ thanh để so sánh doanh số giữa các khu vực.

- Để trình bày dữ liệu về khảo sát khách hàng, bạn có thể sử dụng biểu đồ tròn để hiển thị tỷ lệ phần trăm khách hàng hài lòng với sản phẩm hoặc dịch vụ, biểu đồ thanh để so sánh mức độ hài lòng của khách hàng theo các yếu tố khác nhau hoặc biểu đồ nhiệt để hiển thị mức độ hài lòng của khách hàng theo từng câu hỏi.

- Để trình bày dữ liệu về nghiên cứu thị trường, bạn có thể sử dụng biểu đồ phân tán để hiển thị mối quan hệ giữa hai biến, biểu đồ hộp để so sánh phân phối của hai biến hoặc biểu đồ thời gian để hiển thị sự thay đổi của một biến theo thời gian.

Tất nhiên, không phải tất cả các dữ liệu đều cần được trực quan hóa Nếu dữ liệu của bạn đơn giản và dễ hiểu, thì bạn có thể không cần sử dụng trực quan hóa Tuy nhiên, nếu dữ liệu của bạn phức tạp hoặc có nhiều thông tin, thì trực quan hóa dữ liệu có thể là một cách tuyệt vời để truyền đạt thông tin một cách hiệu quả và dễ hiểu.

Một số nguyên tắc khi Trực quan hoá dữ liệu

Trực quan hóa dọc theo trục tuyến tính

Hình ảnh trực quan dọc theo trục tuyến tính là các biểu đồ và đồ thị sử dụng tỷ lệ tuyến tính để biểu thị các giá trị dữ liệu Thang đo tuyến tính là thang đo trong đó khoảng cách bằng nhau biểu thị những thay đổi về giá trị như nhau Điều này giúp dễ dàng so sánh giá trị của các điểm dữ liệu khác nhau và xem chúng thay đổi như thế nào theo thời gian, một số biểu đồ phổ biến khi dùng theo trục tuyến tính gồm: Line charts, Bar charts, Histogram charts, Scatter plots…

Khi sử dụng nguyên tắc này ta cần chú ý khi đưa ra trực quan dữ liệu sao cho phù hợp tránh trường hợp rơi vào Bad Data Visualization.

Trực quan hóa dọc theo trục logarit

Là một kiểu trực quan hoá dữ liệu sử dụng thang đo logarit trên một hoặc cả hai trực.Điều này có thể hữu ích khi hiển thị dữ liệu có phạm vi giá trị rộng vì nó cho phép bạn xem chi tiết hơn ở phạm vi dữ liệu thấp hơn và cao hơn.

- Bad Data Visualization khi không dùng logarit scale

Trực quan hóa khu vực trực tiếp

Một kiểu trực quan hóa dữ liệu sử dụng diện tích của hình để biểu thị giá trị của điểm dữ liệu Đây có thể là một cách hữu ích để so sánh kích thước tương đối của các điểm dữ liệu khác nhau, đặc biệt khi các giá trị rất khác nhau Một số loại biểu đồ bao gồm: Pie charts, Treemaps, Bubble charts, …

Data Storytelling

Là quá trình chuyển đổi các phân tích dữ liệu thành một cốt truyện dễ hiểu cho nhiều đối tượng hơn nhằm tác động đến quyết định của ngườidùng doanh nghiệp và các bên liên quan khác thông qua các đồ thị, các hình ảnh trực quan.

Yếu tố chính bao gồm Dữ liệu, Hình ảnh và Cốt truyện.

Các package thường dùng khi trực quan hoá dữ liệu

ggplot2

ggplot2 là một package hỗ trợ visualization rất mạnh trong R Chữ “gg” bắt nguồn từ chữ “grammar of graphics” (ngữ pháp đồ thị) dùng để xây dựng các biểu đồ Dựa trên package này ta có thể vẽ được các đồ thị dạng bar chart, line, plot, density, candle chart,pie,… và rất nhiều các đồ thị khác Ngoài ra ggplot2 còn cho phép người dùng tùy chỉnh màu sắc, kích cỡ, theme, title, … để đồ thị được đẹp hơn Cấu trúc của ggplot2 được chia rõ ràng làm 2 phần chính. ggplot(): phần này quy định đồ thị sẽ sử dụng data nào làm đầu vào Lưu ý data phải có dạng data.frame Dạng vector sẽ không được support. geom_(aes(x,y)): Phần này quy định kiểu đồ thị và các trục tọa độ từ dữ liệu đầu vào. Nếu chỉ có ggplot() mà không thêm geom_() thì chúng ta chỉ nhận được background mà không có đồ thị mặc dù data đã được khai báo Trong geom_() chúng ta phải khai báo thêm trục tọa độ vào các arguments x và y của aes() chẳng hạn như geom_point(aes(x=bienx,y=bieny)).

Biểu đồ cột - geom_bar() hoặc geom_col()

Box plots - geom_boxplot() Điểm (vd: biểu đồ phân tán) - geom_point()

Biểu đồ đường - geom_line() hoặc geom_path() Đường xu hướng - geom_smooth()

Trong ggplot, thuật ngữ “thẩm mỹ đồ thị” có một ý nghĩa đặc biệt Nó đề cập đến một thuộc tính trực quan của dữ liệu được vẽ Lưu ý rằng “thẩm mỹ” ở đây đề cập đến dữ liệu được vẽ bằng các geoms/shapes - không phải các thành phần hiển thị xung quanh như là tiêu đề, nhãn của trục, màu nền, mà bạn có thể liên kết với từ

“thẩm mỹ” trong tiếng Anh thông dụng Trong ggplot, những chi tiết đó được gọi là

“chủ đề” và được điều chỉnh trong lệnh theme()(xem phần này).

Do đó, thẩm mỹ của đối tượng biểu đồ có thể là màu sắc, kích thước, độ trong suốt, vị trí, v.v của dữ liệu được vẽ Không phải tất cả các geoms sẽ có các tùy chọn thẩm mỹ giống nhau, nhưng một số tùy chọn được áp dụng với phần lớn các geoms Dưới đây là một số ví dụ:

1 shape = Hiển thị một điểm với hàm geom_point() dưới dạng dấu chấm, ngôi sao, hình tam giác hoặc hình vuông…

2 fill = Màu sắc bên trong (vd: của cột hoặc boxplot)

3 color = Đường bên ngoài của cột, boxplot, v.v., hoặc màu của điểm nếu sử dụng hàm geom_point()

4 size = Kích thước (vd: độ dày của đường, kích thước của điểm)

5 alpha = Độ trong suốt (1 = bình thường, 0 = vô hình)

6 binwidth = Độ rộng các bins trong biểu đồ histogram

7 width = Độ rộng của các cột trong “biểu đồ cột”

8 linetype = Kiểu của đường (vd: liền, nét đứt, chấm chấm)

Cuối cùng chúng ta có thể thêm các yếu tố thiết kế vào đồ thị, chẳng hạn như nhãn trục, tiêu đề, phông chữ, kích thước, phối màu, chú giải hoặc xoay trục Đây là một trong những phần hay nhất của ggplot2 là mức độ kiểm soát của bạn đối với biểu đồ - bạn có thể định nghĩa bất kỳ điều gì! Như đã đề cập ở trên, thiết kế của biểu đồ không liên quan tới dạng biểu đồ mà được điều chỉnh bên trong hàm theme() Ví dụ, màu nền của biểu đồ, sự xuất hiện/biến mất của đường lưới, cũng như phông chữ/cỡ chữ/màu sắc/căn lề của văn bản (tiêu đề chính, tiêu đề phụ, captions, chữ trên các trục…) Những điều chỉnh này có thể được thực hiện theo hai cách:

Thêm một chủ đề hoàn chỉnh bằng hàm theme_() để điều chỉnh toàn bộ các thành phần biểu đồ - các chủ đề hoàn chỉnh này bao gồm theme_classic(), theme_minimal(), theme_dark(), theme_light() theme_grey(), theme_bw() Điều chỉnh từng khía cạnh đơn lẻ của biểu đồ với hàm theme()

Khai báo trục x y trong geom_point(): đang ánh xạ dữ liệu của mình trực tiếp với các trục x và y của biểu đồ -> Có thể kiểm soát chính xác vị trí của các point trên biểu đồ.

Khai báo trục x y ở cấp ggplot(): đang ánh xạ dữ liệu của mình với các trục x và y của biểu đồ thông qua một lớp dữ liệu -> Ít kiểm soát hơn đối với vị trí của các point trên biểu đồ, nhưng nó cũng linh hoạt hơn Ví dụ, bạn có thể sử dụng cùng một lớp dữ liệu để tạo nhiều biểu đồ khác nhau, chỉ cần thay đổi tham số geom_point() một chút.

tidyverse

Có rất nhiều gói hỗ trợ trong quá trình phân tích dữ liệu, tuy nhiên việc chọn tidyverse tìm hiểu sẽ bao gồm rất nhiều gói nhỏ khác, việc tìm hiểu một gói rộng hơn các gói còn lại sẽ giúp chúng em có cái nhìn toàn diện và bao quát hơn, từ đó làm nền tảng cho việc học và phân tích các gói còn lại Ngoài ra, tidyverse có một cộng đồng hỗ trợ nhiệt tình bao gồm các nhà phát triển và người dùng trên toàn thế giới, cho nên việc nghiên cứu tidyverse giúp chúng em học được nhiều kiến thức hơn từ cộng đồng đó.

Ngoài ra, sau khi nghiên cứu về gói này chúng em sẽ đưa ra: Đánh giá hiệu suất và hiệu quả của tidyverse, mục tiêu này tập trung vào việc nghiên cứu và đánh giá khả năng của tidyverse trong việc xử lý dữ liệu và phân tích dữ liệu so với các phương pháp và công cụ khác Qua đó, ta có thể đưa ra nhận xét về hiệu suất và hiệu quả của tidyverse trong quy trình làm việc với dữ liệu Khám phá quy trình làm việc và thực tiễn sử dụng tidyverse, tập trung vào việc khám phá quy trình làm việc sử dụng tidyverse và thực hiện các bước thực tế trong quá trình xử lý và phân tích dữ liệu Nghiên cứu này có thể xem xét các bước từ nhập dữ liệu, làm sạch dữ liệu, xử lý dữ liệu, tạo biểu đồ, và lập trình sử dụng tidyverse và phân tích những lợi ích và thách thức của việc sử dụng tidyverse trong quy trình làm việc thực tế Áp dụng tidyverse trong các ứng dụng thực tế.

Tidyverse bao gồm Dplyr(), ggplot2(), readr(), purr()….

Các dạng biểu đồ thưởng sử dụng trong Trực quan hoá dữ liệu

Histogram

Khái niệm: Biểu đồ Histogram là một dạng biểu đồ thể hiện tần suất theo dạng cột.

Dữ liệu được biểu thị bằng các cột trên biểu đồ có độ cao khác nhau tùy thuộc vào tần suất (bao nhiêu lần) phạm vi dữ liệu cụ thể xảy ra.

Lợi ích: Đối với loại biểu đồ Histogram, chúng thể hiện hình thái phân bổ của dữ liệu, từ đó xác lập được mục tiêu và hướng khắc phục Chúng có ý nghĩa đặc trưng sau đây:

- Hiển thị dữ liệu dưới dạng đồ họa dễ hiểu.

- Hiển thị tần suất xuất hiện của các giá trị dữ liệu.

- Tiết lộ các dạng, biến thể của dữ liệu.

- Minh họa sự phân phối cơ bản của dữ liệu.

- Cho phép dự đoán trong tương lai về hiệu suất của quy trình.

- Cho phép xác định các thay đổi trong thông số quy trình.

- Cho phép trả lời câu hỏi: “Quy trình có khả năng đáp ứng các yêu cầu không?”.

- Data Visualization: Biểu đồ đưa dữ liệu thô thành các mẫu và hình dạng sống động Nó trình bày thông tin theo cách hấp dẫn trực quan, giúp chúng ta dễ dàng nắm bắt và giải thích các tập dữ liệu phức tạp.

- Distribution Insights: Biểu đồ cho phép chúng ta khám phá các mẫu và phân phối ẩn trong dữ liệu Giống như các thám tử, chúng ta có thể kiểm tra hình dạng và độ lan rộng của biểu đồ để hiểu các giá trị được phân bổ như thế nào Ví dụ như là khám phá những cỡ giày phổ biến nhất hay chiều cao của bạn cùng lớp, biểu đồ sẽ giúp chúng ta khám phánhững thông tin chi tiết thú vị.

- Data Analysis: chúng ta sẽ trở thành nhà phân tích dữ liệu được trang bị các công cụ mạnh mẽ Bằng cách kiểm tra chiều cao và chiều rộng của các thanh, chúng ta có thể so sánh các danh mục khác nhau và đưa ra quyết định sáng suốt Biểu đồ cho phép chúng tôi xác định xu hướng, các điểm ngoại lệ và các điểm dữ liệu quan trọng, giúp chúng tôi đưa ra kết luận có ý nghĩa.

- Understanding Frequency: Biểu đồ giúp chúng ta hiểu tần suất xuất hiện dữ liệu, giống như đếm vỏ sò trên bãi biển Bằng cách quan sát chiều cao của mỗi thanh, chúng ta có thể xác định số lần một giá trị cụ thể xuất hiện trong tập dữ liệu Thông tin này có giá trị trong nhiều lĩnh vực khác nhau, từ phân tích điểm kiểm tra đến đếm số lượng vật nuôi trong khu vực lân cận.

- Simplifying Complexity: Nó đơn giản hóa sự phức tạp của dữ liệu bằng cách tổ chức dữ liệu thành các danh mục riêng biệt và hiển thị nó ở định dạng dễ hiểu

Nhược điểm: Đôi khi trình bày thông tin gây hiểu lầm Ví dụ về việc quá nhiều dữ liệu phân tích gây ra khó khăn trong việc phân tích hoặc quá ích có thể bỏ qua những điểm dữ liệu quan trọng.

Sự khác biệt giữa Bar graphs và Histogram: Histogram được sử dụng để trình bày sự phân phối của biến, trong khi Bar chart được sử dụng để so sách giữa các biến.Hình dạng của Histogram:

KDE Chart (Kernel Density Estimation)

Khái niệm: là một phương pháp để trực quan hóa sự phân bố của các quan sát trong tập dữ liệu, tương tự như biểu đồ histogram KDE biểu thị dữ liệu bằng cách sử dụng đường cong mật độ xác suất liên tục theo một hoặc nhiều chiều.

Một vài đặc điểm của KDE tương tự với Histogram:

- Được sử dụng để trực quan hóa việc phân phối dữ liệu liên tục hoặc rời rạc.

- Chia dữ liệu vào các ngăn rồi đếm số điểm dữ liệu trong mỗi ngăn.

- Có thể được sử dụng để xác định xu hướng trung tâm, sự lan truyền và hình dạng của phân phối dữ liệu.

Khác với Histogram, KDE có:

- Tạo ra một đường cong trơn tru, liên tục biểu thị hàm mật độ xác suất ước tính của dữ liệu Còn đối với histogram thì tạo ra một loạt các thanh biểu thị tần số tương đối của từng điểm dữ liệu.

- Nhạy cảm hơn với các giá trị ngoại lệ so với biểu đồ Các giá trị ngoại lệ có thể khiến KDE tạo ra ước tính không chính xác về hàm mật độ xác suất.

Pie Chart

Pie Chart là một trong các loại biểu đồ phổ biến nhất trong phân tích dữ liệu PieChart có dạng hình tròn để trình bày tỷ lệ của từng phần trên một tổng số Mỗi phần được biểu diễn bằng một màu sắc riêng biệt và tỷ lệ của nó được biểu diễn bằng góc.

Một số lưu ý khi dùng Pie Chart:

- Đảm bảo tổng các thành phần là 100%: Với các công cụ hỗ trợ thì không cần lo lắng về lỗi này vì các công cụ đã đảm bảo được sự chính xác của số liệu khi biểu diễn Nếu vẽ Pie chart thủ công thì chúng ta cần kiểm tra lại tính đúng đắn một lần nữa.

- Chỉ dùng Pie chart khi số lượng thể loại ít hơn 6: Trừ khi bạn có 1 thể loại trội hơn cả và muốn tập trung vào thể loại này Việc sử dụng Pie Chart khi có quá nhiều thể loại sẽ khiến cho biểu đồ khá rối Nếu có quá nhiều thể loại, bạn nên xem xét một biểu đồ khác như Column Chart.

- Không dùng Pie Chart nếu tỉ lệ giữa các thể loại gần tương đương nhau: Nếu tỉ lệ giữa các thể loại là tương đương nhau thì dường như Pie Chart lúc này là vô dụng vì không thể hiện cụ thể một ý nghĩa gì Con người có thể nhận ra dễ dàng sự khác biệt về chiều dài, nhưng có đánh giá được các góc hay diện tích Có thể sử dụng label để chỉ rõ giá trị phần trăm nhưng đây không hẳn là giải pháp Giải pháp lúc này là xem xét một dạng biểu đồ khác như Column Chart hoặc Bar Chart.

- Nên sắp xếp giá trị các thể loại để dễ hiểu hơn: Sắp xếp lại dữ liệu giúp cho người xem nhận ra ngay thể loại có tỉ lệ cao nhất Đồng thời với 2 thể loại gần như tương đương thì biết được thể loại nào có giá trị lớn hơn Thông thường, giá trị trong Pie Chart được sắp xếp từ lớn đến nhỏ theo chiều kim đồng hồ như ví dụ bên dưới.

- Tránh sử dụng dạng 3D hoặc nghiêng: Các biểu đồ dạng 3D hoặc nghiêng có thể làm tăng tính thẩm mỹ nhưng không thể tăng “mức độ dễ hiểu” cho biểu đồ của chúng ta Các dạng 3D hoặc nghiêng làm biến đổi các góc và diện tích càng khiến cho chúng ta khó hiểu biểu đồ hơn.

Một số trường hợp sử dụng Pie Chart

- Trình bày tỷ lệ phần trăm: Pie chart thường được sử dụng để trình bày tỷ lệ phần trăm của từng thành phần trong một tổng số Ví dụ, trình bày tỷ lệ phần trăm của từng loại sản phẩm trong tổng số sản phẩm bán ra.

- So sánh tỷ lệ: Pie chart cũng có thể được sử dụng để so sánh tỷ lệ của các thành phần trong một tổng số Ví dụ, so sánh tỷ lệ của từng nhóm khách hàng trong tổng số khách hàng.

- Trình bày các chi phí: Pie chart có thể được sử dụng để trình bày các chi phí của một dự án hoặc doanh nghiệp Ví dụ, trình bày các chi phí cho một dự án đầu tư.

- Trình bày tỷ lệ phân bố: Pie chart cũng có thể được sử dụng để trình bày tỷ lệ phân bố của các thành phần trong một tổng. Ưu điểm của Pie Chart trong lập trình:

- Dễ hiểu và trực quan: Pie Chart là một loại biểu đồ tròn, sử dụng các phần của một vòng tròn để thể hiện tỷ lệ giữa các giá trị khác nhau Do đó, Pie Chart rất dễ hiểu và trực quan, giúp người dùng có thể dễ dàng nắm bắt thông tin dữ liệu một cách nhanh chóng.

- Tiết kiệm không gian: Pie Chart là một loại biểu đồ tiết kiệm không gian, vì chỉ cần sử dụng một hình tròn để thể hiện dữ liệu Điều này giúp ích cho việc trình bày dữ liệu trên các màn hình có kích thước nhỏ.

- Thích hợp để so sánh các tỷ lệ: Pie Chart là một loại biểu đồ thích hợp để so sánh các tỷ lệ giữa các giá trị khác nhau Điều này là do các phần của vòng tròn có thể được so sánh trực tiếp với nhau.

Nhược điểm của Pie Chart trong lập trình:

- Khó so sánh các giá trị cụ thể: Pie Chart không thể so sánh các giá trị cụ thể giữa các thể loại Ví dụ, nếu một Pie Chart có 4 phần, thì chúng ta không thể biết giá trị cụ thể của phần thứ 3 là bao nhiêu.

- Khó so sánh dữ liệu khi có nhiều thể loại: Pie Chart có thể trở nên khó hiểu khi có nhiều thể loại Điều này là do các phần của vòng tròn có thể chồng chéo lên nhau.

Bubble chart

Bubble chart là một biểu đồ phổ biến để biểu thị dữ liệu có mối quan hệ giữa ba chiều: hoành độ, tung độ và kích cỡ Bubble chart cho phép bạn giải thích mối quan hệ giữa hai biến và thể hiện cả mức độ sự liên quan giữa hai biến đó Kích cỡ của các điểm trên biểu đồ có thể được sử dụng để biểu thị một giá trị thứ ba.

Công dụng của Column Chart

- Hiển thị mối quan hệ giữa hai biến: Hoành độ và tung độ của các điểm trên biểu đồ cho thấy mối quan hệ giữa hai biến.

- Hiển thị mức độ sự liên quan: Kích cỡ của các điểm trên biểu đồ cho thấy mức độ sự liên quan giữa hai biến.

- Biểu thị giá trị thứ ba: Kích cỡ của các điểm trên biểu đồ có thể được sử dụng để biểu thị một giá trị thứ ba.

Một số trường hợp sử dụng Bubble Chart

- Phân tích sự tương quan giữa hai biến: Bubble chart có thể giúp ta phân tích sự tương quan giữa hai biến, ví dụ như sự liên quan giữa doanh số và số lượng sản phẩm bán được.

- Phân tích dữ liệu trên nhiều chiều: Bubble chart có thể giúp ta phân tích dữ liệu trên nhiều chiều, ví dụ như sự tương quan giữa doanh số, số lượng sản phẩm bán được và chi phí quảng cáo.

- So sánh dữ liệu trên nhiều năm: Bubble chart có thể giúp ta so sánh dữ liệu trên nhiều năm về doanh số, số lượng sản phẩm bán được và chi phí quảng cáo. Bubble chart có một số ưu điểm sau:

- Giúp hiểu rõ hơn về mối quan hệ giữa ba biến: Bubble chart giúp người dùng dễ dàng nhìn thấy mối quan hệ giữa ba biến Điều này có thể hữu ích để xác định các xu hướng hoặc mối tương quan.

- Dễ hiểu và giải thích: Bubble chart là một loại biểu đồ dễ hiểu và giải thích Điều này làm cho nó trở thành một lựa chọn tốt cho các ứng dụng trong đó cần phải truyền đạt kết quả phân tích dữ liệu cho người dùng không chuyên.

- Linh hoạt: Bubble chart có thể được sử dụng để hiển thị dữ liệu có cấu trúc và không có cấu trúc.

Bubble chart cũng có một số nhược điểm sau:

- Có thể khó hiểu đối với dữ liệu có nhiều điểm dữ liệu: Bubble chart có thể khó hiểu đối với dữ liệu có nhiều điểm dữ liệu Điều này là do có thể khó theo dõi các điểm dữ liệu trên biểu đồ.

- Có thể khó tạo: Bubble chart có thể khó tạo, đặc biệt là khi có nhiều điểm dữ liệu.

Dưới đây là một số ví dụ về cách sử dụng bubble chart trong phân tích dữ liệu:

- Phân tích dữ liệu kinh doanh: Một công ty bán lẻ có thể sử dụng bubble chart để phân tích dữ liệu bán hàng Biểu đồ có thể được sử dụng để hiển thị mối quan hệ giữa doanh số bán hàng và chi phí tiếp thị.

- Phân tích dữ liệu khoa học: Một nhà khoa học có thể sử dụng bubble chart để phân tích dữ liệu khí hậu Biểu đồ có thể được sử dụng để hiển thị mối quan hệ giữa nhiệt độ và lượng mưa.

- Phân tích dữ liệu xã hội: Một nhà nghiên cứu xã hội có thể sử dụng bubble chart để phân tích dữ liệu dân số Biểu đồ có thể được sử dụng để hiển thị mối quan hệ giữa thu nhập và giáo dục.

Bubble chart là một công cụ hữu ích có thể được sử dụng trong nhiều lĩnh vực khác nhau Bubble chart giúp người dùng dễ dàng hiểu rõ hơn về mối quan hệ giữa ba biến.

Dưới đây là một số tips để sử dụng bubble chart hiệu quả trong phân tích dữ liệu:

- Sử dụng các màu sắc và kích thước khác nhau để giúp người dùng dễ dàng phân biệt các điểm dữ liệu.

- Sử dụng các chú thích để giải thích ý nghĩa của các điểm dữ liệu.

Hexbin plots

Hexbin plots là một loại biểu đồ dữ liệu được sử dụng để trực quan hóa mối quan hệ giữa hai biến Các biến này được thể hiện dưới dạng lưới lục giác, với mỗi ô lục giác chứa một số lượng dữ liệu cụ thể Cường độ màu của mỗi ô lục giác thể hiện mức độ phổ biến của các điểm dữ liệu trong ô đó.

Hexbin plots có thể được sử dụng để hiển thị dữ liệu phân tán, trong đó các điểm dữ liệu có thể được phân bố theo bất kỳ cách nào Chúng cũng có thể được sử dụng để hiển thị dữ liệu theo phân phối, trong đó các điểm dữ liệu có thể được phân bố theo một cách cụ thể

Hexbin plots có thể được sử dụng trong nhiều tình huống khác nhau, bao gồm:

- Để hiển thị mối quan hệ giữa hai biến phân tán.

- Để hiển thị sự phân bố của dữ liệu theo một cách cụ thể.

- Để so sánh sự phân bố của dữ liệu giữa các nhóm khác nhau.

Hexbin plots có một số ưu điểm, bao gồm:

- Chúng có thể được sử dụng để hiển thị dữ liệu phân tán hoặc theo phân phối.

- Chúng có thể được sử dụng để so sánh sự phân bố của dữ liệu giữa các nhóm khác nhau.

- Chúng có thể giúp xác định các xu hướng và mẫu dữ liệu.

Hexbin plots cũng có một số nhược điểm, bao gồm:

- Chúng có thể khó sử dụng để hiển thị dữ liệu có nhiều biến.

- Chúng có thể không chính xác nếu dữ liệu không được phân phối đồng đều.

Area chart

Area chart giống biểu đồ đường về thể hiện xu hướng biến động của đối tượng dữ liệu theo thời gian, nhưng khác biệt ở chỗ Area chart có thể thể hiện giá trị định lượng giữa các đường vẽ của các biến dữ liệu hay các thành phần có trong một tổng, tập hợp nào đó bằng một dải màu sắc, các dải màu này sẽ chồng lên nhau để tạo thành giá trị của một tổng, tập hợp nào đó.

Mục đích của Area chart là chính là tìm hiểu về xu hướng biến động tổng thể, cả xu hướng biến động của từng thành phần, và chênh lệch giữa chúng như thế nào theo thời gian, thành phần nào chiếm nhiều hay chiếm ít trong tổng thể, hoặc thành phần nào hơn thành phần nào.

Một số trường hợp sử dụng Area Chart

- Hiển thị tăng giảm của một biến số trong thời gian: Area chart là một công cụ tuyệt vời để hiển thị tăng giảm của một biến số theo thời gian, giúp cho người xem dễ dàng phân tích đồ thị và nhận ra mối quan hệ giữa các giá trị.

- So sánh sự biến đổi của nhiều biến: Area chart cũng có thể được sử dụng để so sánh sự biến đổi của nhiều biến trong một khoảng thời gian nhất định Khi sử dụng nhiều màu sắc cho các biến, người xem có thể dễ dàng nhận ra sự khác biệt giữa chúng.

- Tổng hợp dữ liệu: Area chart có thể được sử dụng để tổng hợp dữ liệu của một số biến, ví dụ như tổng số doanh thu trong một khoảng thời gian, tổng số lượt truy cập vào một trang web, hoặc tổng số sản phẩm được bán.

Trên hình là biểu đồ thể hiện biến động của tổng lợi nhuận từ chuỗi cửa hàng tạp hóa, trong đó bao gồm biến động lợi nhuận của từng cửa hàng gộp lại thành tổng lợi nhuận. Ưu điểm của biểu đồ diện tích:

- Hiển thị xu hướng chung: Biểu đồ diện tích thường giúp nhận biết được xu hướng chung của dữ liệu theo thời gian hoặc trong một khoảng thời gian cụ thể Điều này giúp phân tích sự biến đổi và dự đoán xu hướng tương lai.

- So sánh mức độ thay đổi: Biểu đồ diện tích cho phép bạn so sánh mức độ thay đổi của các biến số theo thời gian hoặc giữa các nhóm dữ liệu khác nhau Điều này giúp trong việc tìm hiểu sự tương quan giữa chúng.

- Tạo ra cảm giác diễn biến liên tục: Biểu đồ diện tích thường tạo ra một cảm giác về sự diễn biến liên tục của dữ liệu, đặc biệt khi các khu vực diện tích nối liền nhau.

- Thể hiện tỷ lệ phần trăm: Bằng cách diễn giải diện tích của từng khu vực, bạn có thể thấy được tỷ lệ phần trăm của mỗi phần trong tổng thể một cách rõ ràng. Nhược điểm của biểu đồ diện tích:

- Khó khăn trong việc so sánh chính xác: Biểu đồ diện tích có thể gây khó khăn trong việc so sánh chính xác giữa các giá trị, đặc biệt là khi có nhiều khu vực diện tích chồng lấn lên nhau.

- Không phù hợp cho dữ liệu lớn: Với dữ liệu lớn, biểu đồ diện tích có thể trở nên rối rắm và khó đọc Nó thường không phù hợp cho việc hiển thị dữ liệu chi tiết.

- Rủi ro biểu đồ "đánh lừa": Do sự chồng chéo của các khu vực diện tích, có thể xảy ra hiểu lầm hoặc tạo ra sự đánh lừa khi diễn giải dữ liệu.

- Khó khăn trong việc xác định giá trị chính xác: Việc xác định giá trị cụ thể của các điểm trên biểu đồ diện tích có thể không chính xác do sự mờ mịt của các khu vực diện tích.

Biểu đồ thanh chồng (stacked)

Stacked Bar chart là một trong những biểu đồ được sử dụng rất phổ biến trong việc phân tích dữ liệu Được sử dụng để biểu diễn cùng lúc 2 biến phân loại trong một tập dữ liệu Nó cho phép chúng ta trực quan hóa số liệu bằng cách sắp xếp những cột kết hợp vào nhau để tạo ra một hình ảnh đại diện cho một số dữ liệu nhiều chiều. Biểu đồ này thường được sử dụng để hiển thị mối quan hệ giữa các phần tử cụ thể và tổng thể. Đặc điểm chính của biểu đồ cột chồng là các cột dọc được xếp chồng lên nhau, và mỗi cột đại diện cho một loại hoặc nhóm phần tử Các cột con bên trong mỗi cột chính thể hiện các thành phần riêng lẻ của loại hoặc nhóm đó và đạt tổng giá trị bằng giá trị của cột chính.

Một số trường hợp sử dụng Stacked Bar Chart

- Phân tích tỷ lệ: Stacked Bar chart có thể sử dụng để phân tích tỷ lệ của mỗi phần của tổng số Ví dụ, nếu bạn muốn phân tích tỷ lệ doanh thu của các sản phẩm, bạn có thể sử dụng một Stacked Bar chart.

- So sánh số liệu: Stacked Bar chart có thể sử dụng để so sánh số liệu giữa các nhóm hoặc giữa các thời điểm khác nhau Ví dụ, nếu bạn muốn so sánh doanh thu giữa các nhóm sản phẩm, bạn có thể sử dụng một Stacked Bar chart.

- Phân tích tăng trưởng: Stacked Bar chart có thể sử dụng để phân tích tăng trưởng của một số liệu theo thời gian Ví dụ, nếu bạn muốn phân tích tăng trưởng của doanh thu theo năm, bạn có thể sử dụng một Stacked Bar chart.

- Phân tích nguồn cung cấp: Stacked Bar chart có thể sử dụng để phân tích nguồn cung cấp của một sản phẩm hoặc dịch vụ Ví dụ, nếu bạn muốn phân tích nguồn cung cấp của sản phẩm của mình, bạn có thể sử dụng stacked bar.

Dân số TP.HCM năm 2019 chia theo nhóm tuổi và chia theo tình trạng hôn nhân, được trực quan bằng biểu đồ thanh chồng (Nguồn dữ liệu: Cục thống kê TP.HCM, 2020) Ưu điểm:

- Biểu diễn số liệu phức tạp: Stacked Bar chart cho phép chúng ta biểu diễn nhiều dữ liệu cùng một lúc với nhiều chiều khác nhau.

- So sánh tỷ lệ giữa các nhóm dữ liệu: Bằng cách sắp xếp những cột lên nhau, chúng ta có thể so sánh tỷ lệ giữa các nhóm dữ liệu một cách rõ ràng.

- Phân tích sự khác biệt giữa các nhóm: Stacked Bar chart cho phép chúng ta phân tích sự khác biệt giữa các nhóm dữ liệu về mặt số lượng và tỷ lệ.

- Trình bày dữ liệu rõ ràng: Biểu đồ cột chồng thường trình bày dữ liệu một cách rõ ràng và dễ hiểu, đặc biệt là khi bạn muốn thể hiện sự thay đổi trong thời gian hoặc trong các nhóm khác nhau.

- Khó khăn trong việc so sánh giữa các nhóm: Khi bạn cố gắng so sánh lượng dữ liệu giữa các nhóm dưới dạng cột chồng, đặc biệt là khi có nhiều phần tử trong mỗi nhóm, việc này có thể trở nên khó khăn.

- Khó khăn khi có quá nhiều phần tử: Nếu có quá nhiều phần tử trong mỗi nhóm, biểu đồ có thể trở nên rối mắt và khó đọc Trong trường hợp này, nên cân nhắc sử dụng biểu đồ khác hoặc tạo các biểu đồ con để trình bày dữ liệu một cách rõ ràng hơn.

- Không thể biểu thị dữ liệu âm: Stacked bar chart không thể biểu thị được dữ liệu âm (negative values) một cách hiệu quả, vì dữ liệu âm sẽ bị chồng lên trên dữ liệu dương và gây hiểu nhầm.

- Khó khăn trong việc trình bày chi tiết dữ liệu: Nếu bạn muốn trình bày chi tiết về mỗi phần tử trong từng nhóm, stacked bar chart có thể không phải là lựa chọn tốt, và bạn cần xem xét sử dụng biểu đồ khác như clustered bar chart hoặc line chart.

Biểu đồ phân tán (scatter plots)

Biểu đồ phân tán Scatter plot hiển thị mối quan hệ giữa hai biến định lượng khác nhau hoặc nó có thể thể hiện xu hướng phân phối của dữ liệu, ngoài ra còn có thể tìm ra các giá trị ngoại lệ, và kiểm tra tính tương đồng của các bộ dữ liệu.

- Về công dụng, biểu đồ phân tán thường được sử dụng khi muốn biết mối liên hệ giữa hai biến số theo quan hệ nguyên nhân - kết quả Bằng cách vẽ biểu đồ tương quan, bạn có thể thấy kết quả của biến phụ thuộc dựa trên các mốc của biến độc lập.

Ví dụ như biểu đồ thể hiện mối quan hệ giữa sử dụng phần mềm quản lý và hiệu suất công việc của công ty.

- Với những ưu điểm của mình, biểu đồ phân tán được sử dụng phổ biến trong lĩnh vực Data Science từ Data mining, Predictive analytics cho đến Machine learning khi khối lượng dữ liệu phải phân tích là rất nhiều.

Ví dụ minh họa trong Hình 2 dưới đây thể hiện mối tương quan giữa 2 biến định lượng độc lập với nhau: chiều dài đầu (mm) và khối lượng cơ thể (g) của 123 con chim blue jay Dễ dàng nhận thấy sự tương quan thuận chiều giữa chiều dài đầu với khối lượng cơ thể Con chim có đầu dài nhất gần với khối lượng cơ thể tối đa quan sát được và con chim có đầu ngắn nhất gần với khối lượng cơ thể tối thiểu quan sát được.

Biểu đồ phân tán về mối tương quan giữa chiều dài đầu và khối lượng cơ thể của

123 con chim blue jay (Nguồn: Fundamentals of Data Visualization (Wike, 2019))

Ta có thể sử dụng thêm biến phân loại để phân tích sự khác biệt giữa chim đực và cái (Hình 3) Có thể thấy trong biểu đồ, ở cùng một khối lượng cơ thể, con mái có xu hướng có đầu ngắn hơn con đực, đồng thời trọng lượng của chim cái cũng nhẹ hơn chim đực.

Biểu đồ phân tán về mối tương quan giữa chiều dài đầu và khối lượng cơ thể của

123 con chim blue jay, phân loại theo chim đực và cái (Nguồn: Fundamentals of Data Visualization (Wike, 2019)) Ưu điểm:

- Hiển thị mối quan hệ: Biểu đồ phân tán rất hiệu quả trong việc biểu thị mối quan hệ giữa hai hoặc nhiều biến số Điều này giúp người xem dễ dàng nhận thấy sự tương quan hoặc mức độ phân tán của dữ liệu.

- Phát hiện biểu đồ ngoại lai: Biểu đồ phân tán giúp xác định các điểm ngoại lai(outliers) trong dữ liệu một cách dễ dàng Những điểm ngoại lai có thể đại diện cho các sự kiện đặc biệt hoặc lỗi trong dữ liệu.

- Dễ hiểu: Scatter plots thường dễ hiểu và thân thiện với người xem Người xem - không cần có kiến thức chuyên môn đặc biệt để hiểu nội dung biểu đồ.

- Thể hiện sự phân tán: Biểu đồ phân tán cho phép bạn thấy được cách dữ liệu phân tán xung quanh một giá trị trung bình hoặc điểm trung tâm khác.

- Hạn chế trong việc hiển thị dữ liệu lớn: Với các tập dữ liệu lớn, biểu đồ phân tán có thể trở nên rất đông đúc và khó hiểu Điều này có thể làm mất đi sự rõ ràng và dễ đọc của biểu đồ.

- Không thể sử dụng cho biến số rời rạc: Biểu đồ phân tán thích hợp cho dữ liệu liên tục hoặc dạng số học, nhưng không phải lúc nào cũng thích hợp cho biến số rời rạc.

- Không thể xác định nguyên nhân và hệ quả: Biểu đồ phân tán chỉ thể hiện mối quan hệ tương quan giữa biến số, nhưng không cho biết nguyên nhân và hệ quả giữa chúng.

- Yêu cầu kiến thức trong việc đọc và hiểu biểu đồ: Mặc dù biểu đồ phân tán dễ hiểu hơn nhiều so với các biểu đồ phức tạp hơn, nhưng vẫn cần một mức độ cơ bản về đọc và hiểu biểu đồ để tận dụng hết ưu điểm của nó.

Pairs Plot

Pairs plot là một loại biểu đồ thường được sử dụng trong thống kê để biểu thị mối quan hệ giữa hai biến liên tục Biểu đồ này giúp bạn hiểu cách biến thay đổi theo thời gian hoặc trong các điều kiện khác nhau, đồng thời xác định có sự tương quan giữa chúng hay không Pairs plot thường được sử dụng để trực quan hóa dữ liệu và kiểm tra sự tương quan giữa hai biến.

Pairs plot sử dụng hai trục dọc và ngang để biểu thị hai biến Mỗi điểm trên biểu đồ thể hiện một cặp giá trị của hai biến Dựa vào sự phân bố của các điểm trên biểu đồ, bạn có thể kết luận về mối quan hệ giữa hai biến đó.

Khi nào sử dụng Pairs plot

- Kiểm tra mối quan hệ giữa hai biến liên tục: Pairs plot giúp bạn xác định liệu có mối quan hệ nào đó giữa hai biến liên tục hay không Khi bạn muốn biết xem sự thay đổi của một biến có ảnh hưởng đến biến khác, Pairs plot có thể hữu ích Ví dụ: Bạn muốn kiểm tra xem có mối quan hệ giữa tuổi của người làm việc và thu nhập hàng năm Bạn thu thập dữ liệu về tuổi và thu nhập của một nhóm người làm việc và sử dụng Pairs plot để biểu thị mối quan hệ giữa hai biến này.

- So sánh phân phối của hai biến: Pairs plot cũng cho phép bạn so sánh phân phối của hai biến Điều này có thể giúp bạn xác định xem hai biến có phân phối tương tự hay không Ví dụ: Bạn muốn so sánh phân phối giá trị đầu vào và đầu ra của một quy trình sản xuất để xem liệu quy trình này có hoạt động ổn định hay không Bạn sử dụng Pairs plot để biểu thị phân phối của hai biến này và xem xét sự tương đồng.

- Kiểm tra sự biến đổi theo thời gian: Pairs plot cũng có thể sử dụng để theo dõi sự biến đổi của một biến theo thời gian hoặc theo các điều kiện khác nhau.

Ví dụ: Bạn thu thập dữ liệu về nhiệt độ hàng ngày trong một tháng và muốn xem xét sự biến đổi của nhiệt độ theo thời gian Bạn sử dụng Pairs plot để biểu thị sự biến đổi này và xem xét xu hướng. Ưu điểm của Pairs plot:

- Trực quan hóa dữ liệu: Pairs plot cho phép trực quan hóa dữ liệu một cách dễ dàng, giúp bạn hiểu sự phân phối và mối quan hệ giữa hai biến.

- Xác định mối quan hệ: Pairs plot giúp xác định mối quan hệ giữa hai biến, có thể là tương quan tích cực (cùng tăng hoặc cùng giảm), tương quan âm (một biến tăng khi biến kia giảm) hoặc không có mối quan hệ.

Nhược điểm của Pairs plot:

- Giới hạn cho biến liên tục: Pairs plot thích hợp cho việc so sánh hai biến liên tục Nó không phù hợp cho việc so sánh biến định tính (như giới tính hoặc ngành học).

- Không thể dù.ng cho dữ liệu lớn: Đối với dữ liệu lớn, Pairs plot có thể trở nên rối và khó đọc Nó không phù hợp cho việc trực quan hóa dữ liệu có quá nhiều điểm dữ liệu.

- Không phân biệt được giữa nguồn gốc và tương quan: Pairs plot chỉ biểu thị mối quan hệ giữa hai biến mà không xác định nguyên nhân hoặc tương quan thực sự Điều này có thể dẫn đến sự hiểu lầm nếu không kết hợp với kiểm định thống kê hoặc nghiên cứu thêm.

Box plot

Biểu đồ hộp (box plot) là một loại biểu đồ thống kê được sử dụng để biểu diễn phân phối dữ liệu và phát hiện các giá trị ngoại lệ Nó là một công cụ quan trọng trong thống kê và trình bày dữ liệu.

Biểu đồ hộp bao gồm các thành phần sau:

- Hộp (box): Đại diện cho khoảng giữa (interquartile range - IQR), nơi chứa 50% dữ liệu Đường ngang bên trong hộp là giá trị trung vị (median).

- Viền trên và dưới (whiskers): Đại diện cho phạm vi của dữ liệu ngoài hộp Thường được tính bằng cách sử dụng 1.5 lần IQR hoặc phạm vi thực tế của dữ liệu.

- Các điểm ngoài viền (outliers): Các giá trị nằm ngoài phạm vi của các viền và được biểu diễn riêng biệt.

Khi nào sử dụng box plot:

- So sánh phân phối của nhiều biến số hoặc nhóm.

- Phát hiện giá trị ngoại lệ (outliers) trong dữ liệu.

- Hiểu phân phối của dữ liệu, bao gồm trung vị (median), phân vị (quartiles), và phạm vi (range).

Ví dụ về việc sử dụng biểu đồ hộp là để so sánh điểm số của các lớp học kỳ cuối cùng của hai Ưu điểm của box plot:

- Hữu ích trong trình bày dữ liệu và so sánh phân phối dữ liệu giữa các nhóm.

- Giúp phát hiện và hiểu giá trị ngoại lệ (outliers).

- Không yêu cầu giả định về phân phối của dữ liệu.

Nhược điểm của box plot:

- Không cung cấp thông tin về hình dạng cụ thể của phân phối (như biểu đồ histogram).

- Không phản ánh sự biến đổi trong dữ liệu (như biểu đồ chuỗi thời gian).

- Không thể hiện tất cả các giá trị dữ liệu khi dữ liệu rất lớn.

Bar chart

Biểu đồ cột – bar chart hay còn gọi là Bar graphs là dạng biểu đồ sử dụng những thanh đứng (hoặc có thể nằm ngang) để so sánh số liệu giữa một số đối tượng Một trục của biểu đồ dùng để biểu thị các hạng mục được so sánh, trục còn lại biểu thị các mốc giá trị.

Bar chart là một loại biểu đồ thường được sử dụng để biểu diễn dữ liệu số liệu rời rạc và so sánh giữa các nhóm dữ liệu khác nhau

VD:Biểu diễn doanh thu của các cửa hàng trong một tháng: Bar chart có thể được sử dụng để so sánh doanh thu của các cửa hàng khác nhau trong cùng một tháng Trục đứng của biểu đồ biểu thị giá trị doanh thu và trục hoành biểu thị tên các cửa hàng.

Biểu diễn thống kê ngân sách của các bộ phận trong một công ty: Bar chart có thể được sử dụng để biểu diễn thống kê ngân sách của các bộ phận khác nhau trong một công ty Trục đứng của biểu đồ biểu thị giá trị ngân sách và trục hoành biểu thị tên các bộ phận. Ưu điểm:

- Trực quan và dễ hiểu: Biểu đồ cột rất trực quan và dễ hiểu cho hầu hết mọi người Điều này làm cho nó trở thành một công cụ hữu ích để trình bày thông tin cho cả khán giả chuyên nghiệp và không chuyên nghiệp.

- So sánh dễ dàng: Biểu đồ cột cho phép bạn so sánh giá trị của các mục tiêu hoặc phần tử khác nhau một cách rất dễ dàng bằng cách đặt chúng cạnh nhau hoặc xếp chồng lên nhau.

- Phù hợp cho dữ liệu phân loại: Nó thường được sử dụng để biểu đồ dữ liệu phân loại, ví dụ: thị phần thị trường theo ngành, doanh số bán hàng theo tháng, hoặc điểm số của các đối tượng khác nhau.

- Có thể sử dụng cho dữ liệu lượng và dữ liệu phần trăm: Biểu đồ cột có thể được sử dụng để biểu thị dữ liệu lượng (số lượng, doanh số) hoặc dữ liệu phần trăm (tỷ lệ phần trăm).

- Không thích hợp cho dữ liệu liên tục: Nếu bạn có dữ liệu liên tục (ví dụ: dữ liệu thời gian liên tục), biểu đồ cột có thể không phải lựa chọn tốt nhất và biểu đồ đường có thể phù hợp hơn.

- Không thể hiện sự thay đổi liên tục: Biểu đồ cột thể hiện dữ liệu theo các cột riêng lẻ và không thể hiện sự thay đổi liên tục trong dữ liệu.

Ngày đăng: 14/04/2024, 21:28

w