1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo giữa kỳ đề tài data visualization

51 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Hay nói cách khác Trực quan hóa dữ liệu là biến đổi dữ liệu, thông tin thành hình ảnh nhìn thấy được, với yêu cầu là phụ thuộc vào tính chất của dữ liệu và mục đích của người sử dụng.VD:

Trang 1

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN

-MÔN HỌC: LẬP TRÌNH RBÁO CÁO GIỮA KỲ Đề tài: Data Visualization

Trang 2

MỤC LỤC

1 Trực quan hoá dữ liệu (Data Visualization) 3

1.1 Khái niệm 3

1.2 Lợi ích 3

1.3 Trực quan hoá dữ liệu Tốt và Xấu (Good and Bad Data Visualization) 3

1.3.1 Good Data Visualization 3

1.3.2 Bad Data Visualization 3

1.4 Khi nào sử dụng Trực quan hoá dữ liệu? 3

2 Một số nguyên tắc khi Trực quan hoá dữ liệu 3

2.1 Trực quan hóa dọc theo trục tuyến tính 3

2.2 Trực quan hóa dọc theo trục logarit 3

2.3 Trực quan hóa khu vực trực tiếp 3

Trang 3

5.6 Area chart 4

5.7 Biểu đồ thanh chồng (stacked) 4

5.8 Biểu đồ phân tán (scatter plots) 4

5.9 Pairs Plot 4

5.10 Box plot 4

5.11 Bar chart 4

Trang 4

1 Trực quan hoá dữ liệu (Data Visualization) 1.1 Khái niệm

Data Visualization (hay còn gọi là trực quan hóa dữ liệu) là quy trình giao tiếp dữ liệu hoặc thông tin thông qua một hình vẽ nhìn thấy được như là charts, graphs, maps, hoặc infographics… Hay nói cách khác Trực quan hóa dữ liệu là biến đổi dữ liệu, thông tin thành hình ảnh nhìn thấy được, với yêu cầu là phụ thuộc vào tính chất của dữ liệu và mục đích của người sử dụng.

VD: Một biểu đồ đường thẳng trình bày về số lượng sản phẩm được bán ra trong những tháng trong quá khứ.

Một biểu đồ hình cột trình bày về số lượng học sinh đăng ký vào mỗi khối trong một trường học.

4

Trang 5

Một biểu đồ map trình bày về độ lấy nhiễm của đại dịch covid trên thế giới (được cập nhật vào ngày 18.03.2020)

1.2 Lợi ích

- Làm cho dữ liệu dễ tiếp cận và dể hiễu hơn.

Trang 6

- Giúp cho con người xác định được những xu hướng và ngoại lệ (điểm khác biệt) trong dữ liệu.

- Làm cho dữ liệu hấp dẫn và đáng nhớ hơn.

- Có thể được sử dụng để giao tiếp với dữ liệu phức tạp trong một cách đơn giản - Có thể được sử dụng để đưa ra quyết định tốt hơn cơ bản dữ vào dữ liệu 1.3 Trực quan hoá dữ liệu Tốt và Xấu (Good and Bad Data Visualization)

Trực quan hoá dữ liệu Tốt hay Xấu chỉ dựa trên ước tính tương đối 1.3.1 Good Data Visualization

Một trực quan hóa dữ liệu được xem là tốt nên thỏa mãn hai điều kiện sau: - Trình bày ra được những mối liên kết bên trong dữ liệu.

- Làm cho những khán giả, đối tác hiểu được những thông tin bên trong và xem xét được những ý nghĩa từ dữ liệu đó.

1.3.2 Bad Data Visualization Bao gồm: Xấu, Tệ và Sai

- Xấu (Ugly): Một hình vẽ có vấn đề về mặt thẩm mỹ nhưng mặt khác lại rõ ràng và giàu thông tin.

- Tệ (Bad): Một hình vẽ không rõ ràng, khó hiểu, quá phức tạp hoặc mang tính giả dối

- Sai (Wrong): Một hình vẽ có vấn đề liên quan đến toán học, nó trình bày sai về dữ liệu thông tin.

6

Trang 7

1.4 Khi nào sử dụng Trực quan hoá dữ liệu?

Khó có thể nói là khi nào nên sử dụng Tuy nhiên nó mang lại rất nhiều lợi ích như được đề cập, và trong xã hội hiện đại việc trực quan hóa dữ liệu đóng nhiều vai trò quan trọng, không chỉ trong đời sống của cá nhân ví dụ như Google map…, mà còn có trong các tập đoàn doanh nghiệp vì vậy nó luôn được sử dụng khi cần thiết Trực quan hóa dữ liệu nên được sử dụng khi bạn cần truyền đạt thông tin dữ liệu một cách hiệu quả và dễ hiểu Nó có thể được sử dụng trong nhiều ngữ cảnh khác nhau, bao gồm:

- Trình bày dữ liệu cho người khác: Trực quan hóa dữ liệu là một cách tuyệt vời để chia sẻ dữ liệu với những người không phải là chuyên gia phân tích dữ liệu Nó có

Trang 8

thể giúp họ hiểu các xu hướng, mẫu hình và mối quan hệ trong dữ liệu một cách nhanh chóng và dễ dàng.

- Tìm hiểu và khám phá dữ liệu: Trực quan hóa dữ liệu cũng có thể được sử dụng để tìm hiểu và khám phá dữ liệu Nó có thể giúp bạn phát hiện các xu hướng và mẫu hình mà bạn có thể không nhận thấy khi xem dữ liệu dưới dạng bảng hoặc văn bản.

- Tạo báo cáo và tài liệu: Trực quan hóa dữ liệu có thể được sử dụng để tạo các báo cáo và tài liệu dữ liệu chuyên nghiệp Nó có thể giúp bạn truyền đạt thông tin một cách rõ ràng và hiệu quả, và thu hút sự chú ý của người đọc.

Dưới đây là một số ví dụ cụ thể về khi nào nên sử dụng trực quan hóa dữ liệu: - Để trình bày dữ liệu về doanh số bán hàng, bạn có thể sử dụng biểu đồ đường để theo dõi doanh số theo thời gian, biểu đồ tròn để hiển thị phân phối doanh số theo sản phẩm hoặc biểu đồ thanh để so sánh doanh số giữa các khu vực.

- Để trình bày dữ liệu về khảo sát khách hàng, bạn có thể sử dụng biểu đồ tròn để hiển thị tỷ lệ phần trăm khách hàng hài lòng với sản phẩm hoặc dịch vụ, biểu đồ thanh để so sánh mức độ hài lòng của khách hàng theo các yếu tố khác nhau hoặc biểu đồ nhiệt để hiển thị mức độ hài lòng của khách hàng theo từng câu hỏi - Để trình bày dữ liệu về nghiên cứu thị trường, bạn có thể sử dụng biểu đồ phân tán để hiển thị mối quan hệ giữa hai biến, biểu đồ hộp để so sánh phân phối của hai biến hoặc biểu đồ thời gian để hiển thị sự thay đổi của một biến theo thời gian.

Tất nhiên, không phải tất cả các dữ liệu đều cần được trực quan hóa Nếu dữ liệu của bạn đơn giản và dễ hiểu, thì bạn có thể không cần sử dụng trực quan hóa Tuy nhiên, nếu dữ liệu của bạn phức tạp hoặc có nhiều thông tin, thì trực quan hóa dữ liệu có thể là một cách tuyệt vời để truyền đạt thông tin một cách hiệu quả và dễ hiểu.

8

Trang 10

2 Một số nguyên tắc khi Trực quan hoá dữ liệu 2.1 Trực quan hóa dọc theo trục tuyến tính

Hình ảnh trực quan dọc theo trục tuyến tính là các biểu đồ và đồ thị sử dụng tỷ lệ tuyến tính để biểu thị các giá trị dữ liệu Thang đo tuyến tính là thang đo trong đó khoảng cách bằng nhau biểu thị những thay đổi về giá trị như nhau Điều này giúp dễ dàng so sánh giá trị của các điểm dữ liệu khác nhau và xem chúng thay đổi như thế nào theo thời gian, một số biểu đồ phổ biến khi dùng theo trục tuyến tính gồm: Line charts, Bar charts, Histogram charts, Scatter plots…

Khi sử dụng nguyên tắc này ta cần chú ý khi đưa ra trực quan dữ liệu sao cho phù hợp tránh trường hợp rơi vào Bad Data Visualization.

Ví dụ:

- Bad Data Visualization

- Good Data Visualization

10

Trang 11

- Bad Data Visualization

Trang 12

- Good Data Visualization

12

Trang 13

2.2 Trực quan hóa dọc theo trục logarit

Là một kiểu trực quan hoá dữ liệu sử dụng thang đo logarit trên một hoặc cả hai trực Điều này có thể hữu ích khi hiển thị dữ liệu có phạm vi giá trị rộng vì nó cho phép bạn xem chi tiết hơn ở phạm vi dữ liệu thấp hơn và cao hơn.

Trang 14

Ví dụ:

- Bad Data Visualization khi không dùng logarit scale

14

Trang 15

- Good Data Visualization

2.3 Trực quan hóa khu vực trực tiếp

Một kiểu trực quan hóa dữ liệu sử dụng diện tích của hình để biểu thị giá trị của điểm dữ liệu Đây có thể là một cách hữu ích để so sánh kích thước tương đối của

Trang 16

các điểm dữ liệu khác nhau, đặc biệt khi các giá trị rất khác nhau Một số loại biểu đồ bao gồm: Pie charts, Treemaps, Bubble charts, …

3 Data Storytelling

Là quá trình chuyển đổi các phân tích dữ liệu thành một cốt truyện dễ hiểu cho nhiều đối tượng hơn nhằm tác động đến quyết định của ngườidùng doanh nghiệp và các bên liên quan khác thông qua các đồ thị, các hình ảnh trực quan.

Yếu tố chính bao gồm Dữ liệu, Hình ảnh và Cốt truyện 4 Các package thường dùng khi trực quan hoá dữ liệu

4.1 ggplot2

ggplot2 là một package hỗ trợ visualization rất mạnh trong R Chữ “gg” bắt nguồn từ chữ “grammar of graphics” (ngữ pháp đồ thị) dùng để xây dựng các biểu đồ Dựa trên package này ta có thể vẽ được các đồ thị dạng bar chart, line, plot, density, candle chart,pie,… và rất nhiều các đồ thị khác Ngoài ra ggplot2 còn cho phép

16

Trang 17

người dùng tùy chỉnh màu sắc, kích cỡ, theme, title, … để đồ thị được đẹp hơn Cấu trúc của ggplot2 được chia rõ ràng làm 2 phần chính.

ggplot(): phần này quy định đồ thị sẽ sử dụng data nào làm đầu vào Lưu ý data phải có dạng data.frame Dạng vector sẽ không được support.

geom_(aes(x,y)): Phần này quy định kiểu đồ thị và các trục tọa độ từ dữ liệu đầu vào Nếu chỉ có ggplot() mà không thêm geom_() thì chúng ta chỉ nhận được background mà không có đồ thị mặc dù data đã được khai báo Trong geom_() chúng ta phải khai báo thêm trục tọa độ vào các arguments x và y của aes() chẳng hạn như

Histograms - geom_histogram() Biểu đồ cột - geom_bar() hoặc geom_col() Box plots - geom_boxplot()

Điểm (vd: biểu đồ phân tán) - geom_point() Biểu đồ đường - geom_line() hoặc geom_path() Đường xu hướng - geom_smooth()

Trong ggplot, thuật ngữ “thẩm mỹ đồ thị” có một ý nghĩa đặc biệt Nó đề cập đến một thuộc tính trực quan của dữ liệu được vẽ Lưu ý rằng “thẩm mỹ” ở đây đề cập đến dữ liệu được vẽ bằng các geoms/shapes - không phải các thành phần hiển thị xung quanh như là tiêu đề, nhãn của trục, màu nền, mà bạn có thể liên kết với từ “thẩm mỹ” trong tiếng Anh thông dụng Trong ggplot, những chi tiết đó được gọi là “chủ đề” và được điều chỉnh trong lệnh theme()(xem phần này).

Do đó, thẩm mỹ của đối tượng biểu đồ có thể là màu sắc, kích thước, độ trong suốt, vị trí, v.v của dữ liệu được vẽ Không phải tất cả các geoms sẽ có các tùy chọn thẩm mỹ giống nhau, nhưng một số tùy chọn được áp dụng với phần lớn các geoms Dưới đây là một số ví dụ:

Trang 18

1 shape = Hiển thị một điểm với hàm geom_point() dưới dạng dấu chấm, ngôi sao, hình tam giác hoặc hình vuông…

2 fill = Màu sắc bên trong (vd: của cột hoặc boxplot)

3 color = Đường bên ngoài của cột, boxplot, v.v., hoặc màu của điểm nếu sử dụng hàm geom_point()

4 size = Kích thước (vd: độ dày của đường, kích thước của điểm) 5 alpha = Độ trong suốt (1 = bình thường, 0 = vô hình) 6 binwidth = Độ rộng các bins trong biểu đồ histogram 7 width = Độ rộng của các cột trong “biểu đồ cột” 8 linetype = Kiểu của đường (vd: liền, nét đứt, chấm chấm)

Cuối cùng chúng ta có thể thêm các yếu tố thiết kế vào đồ thị, chẳng hạn như nhãn trục, tiêu đề, phông chữ, kích thước, phối màu, chú giải hoặc xoay trục Đây là một trong những phần hay nhất của ggplot2 là mức độ kiểm soát của bạn đối với biểu đồ -bạn có thể định nghĩa bất kỳ điều gì! Như đã đề cập ở trên, thiết kế của biểu đồ không liên quan tới dạng biểu đồ mà được điều chỉnh bên trong hàm theme() Ví dụ, màu nền của biểu đồ, sự xuất hiện/biến mất của đường lưới, cũng như phông chữ/cỡ chữ/màu sắc/căn lề của văn bản (tiêu đề chính, tiêu đề phụ, captions, chữ trên các trục…) Những điều chỉnh này có thể được thực hiện theo hai cách:

Thêm một chủ đề hoàn chỉnh bằng hàm theme_() để điều chỉnh toàn bộ các thành phần biểu đồ - các chủ đề hoàn chỉnh này bao gồm theme_classic(),

theme_minimal(), theme_dark(), theme_light() theme_grey(), theme_bw() Điều chỉnh từng khía cạnh đơn lẻ của biểu đồ với hàm theme() Ví dụ:

18

Trang 19

Khai báo trục x y trong geom_point(): đang ánh xạ dữ liệu của mình trực tiếp với các trục x và y của biểu đồ -> Có thể kiểm soát chính xác vị trí của các point trên biểu đồ.

Khai báo trục x y ở cấp ggplot(): đang ánh xạ dữ liệu của mình với các trục x và y của biểu đồ thông qua một lớp dữ liệu -> Ít kiểm soát hơn đối với vị trí của các point trên biểu đồ, nhưng nó cũng linh hoạt hơn Ví dụ, bạn có thể sử dụng cùng một lớp dữ liệu để tạo nhiều biểu đồ khác nhau, chỉ cần thay đổi tham số geom_point() một chút.

4.2 tidyverse

Có rất nhiều gói hỗ trợ trong quá trình phân tích dữ liệu, tuy nhiên việc chọn tidyverse tìm hiểu sẽ bao gồm rất nhiều gói nhỏ khác, việc tìm hiểu một gói rộng hơn các gói còn lại sẽ giúp chúng em có cái nhìn toàn diện và bao quát hơn, từ đó làm nền tảng cho việc học và phân tích các gói còn lại Ngoài ra, tidyverse có một cộng đồng hỗ trợ nhiệt tình bao gồm các nhà phát triển và người dùng trên toàn thế giới, cho nên việc nghiên cứu tidyverse giúp chúng em học được nhiều kiến thức hơn từ cộng đồng đó.

Ngoài ra, sau khi nghiên cứu về gói này chúng em sẽ đưa ra: Đánh giá hiệu suất và hiệu quả của tidyverse, mục tiêu này tập trung vào việc nghiên cứu và đánh giá khả năng của tidyverse trong việc xử lý dữ liệu và phân tích dữ liệu so với các phương pháp và công cụ khác Qua đó, ta có thể đưa ra nhận xét về hiệu suất và hiệu quả của tidyverse trong quy trình làm việc với dữ liệu Khám phá quy trình làm việc và thực tiễn sử dụng tidyverse, tập trung vào việc khám phá quy trình làm việc sử dụng tidyverse và thực hiện các bước thực tế trong quá trình xử lý và phân tích dữ liệu Nghiên cứu này có thể xem xét các bước từ nhập dữ liệu, làm sạch dữ liệu, xử lý dữ liệu, tạo biểu đồ, và lập trình sử dụng tidyverse và phân tích những lợi ích và thách thức của việc sử dụng tidyverse trong quy trình làm việc thực tế Áp dụng tidyverse trong các ứng dụng thực tế.

Trang 20

Tidyverse bao gồm Dplyr(), ggplot2(), readr(), purr()… 5 Các dạng biểu đồ thưởng sử dụng trong Trực quan hoá dữ liệu

5.1 Histogram

Khái niệm: Biểu đồ Histogram là một dạng biểu đồ thể hiện tần suất theo dạng cột Dữ liệu được biểu thị bằng các cột trên biểu đồ có độ cao khác nhau tùy thuộc vào tần suất (bao nhiêu lần) phạm vi dữ liệu cụ thể xảy ra.

Lợi ích:

Đối với loại biểu đồ Histogram, chúng thể hiện hình thái phân bổ của dữ liệu, từ đó xác lập được mục tiêu và hướng khắc phục Chúng có ý nghĩa đặc trưng sau đây: - Hiển thị dữ liệu dưới dạng đồ họa dễ hiểu.

- Hiển thị tần suất xuất hiện của các giá trị dữ liệu.

20

Trang 21

- Tiết lộ các dạng, biến thể của dữ liệu - Minh họa sự phân phối cơ bản của dữ liệu.

- Cho phép dự đoán trong tương lai về hiệu suất của quy trình - Cho phép xác định các thay đổi trong thông số quy trình.

- Cho phép trả lời câu hỏi: “Quy trình có khả năng đáp ứng các yêu cầu không?” Ví dụ:

Trang 22

Ưu điểm:

- Data Visualization: Biểu đồ đưa dữ liệu thô thành các mẫu và hình dạng sống động Nó trình bày thông tin theo cách hấp dẫn trực quan, giúp chúng ta dễ dàng nắm bắt và giải thích các tập dữ liệu phức tạp.

- Distribution Insights: Biểu đồ cho phép chúng ta khám phá các mẫu và phân phối ẩn trong dữ liệu Giống như các thám tử, chúng ta có thể kiểm tra hình dạng và độ lan rộng của biểu đồ để hiểu các giá trị được phân bổ như thế nào Ví dụ như là khám phá những cỡ giày phổ biến nhất hay chiều cao của bạn cùng lớp, biểu đồ sẽ giúp chúng ta khám phánhững thông tin chi tiết thú vị.

- Data Analysis: chúng ta sẽ trở thành nhà phân tích dữ liệu được trang bị các công cụ mạnh mẽ Bằng cách kiểm tra chiều cao và chiều rộng của các thanh, chúng ta

22

Trang 23

có thể so sánh các danh mục khác nhau và đưa ra quyết định sáng suốt Biểu đồ cho phép chúng tôi xác định xu hướng, các điểm ngoại lệ và các điểm dữ liệu quan trọng, giúp chúng tôi đưa ra kết luận có ý nghĩa.

- Understanding Frequency: Biểu đồ giúp chúng ta hiểu tần suất xuất hiện dữ liệu, giống như đếm vỏ sò trên bãi biển Bằng cách quan sát chiều cao của mỗi thanh, chúng ta có thể xác định số lần một giá trị cụ thể xuất hiện trong tập dữ liệu Thông tin này có giá trị trong nhiều lĩnh vực khác nhau, từ phân tích điểm kiểm tra đến đếm số lượng vật nuôi trong khu vực lân cận.

- Simplifying Complexity: Nó đơn giản hóa sự phức tạp của dữ liệu bằng cách tổ chức dữ liệu thành các danh mục riêng biệt và hiển thị nó ở định dạng dễ hiểu Nhược điểm: Đôi khi trình bày thông tin gây hiểu lầm Ví dụ về việc quá nhiều dữ liệu phân tích gây ra khó khăn trong việc phân tích hoặc quá ích có thể bỏ qua những điểm dữ liệu quan trọng.

Sự khác biệt giữa Bar graphs và Histogram: Histogram được sử dụng để trình bày sự phân phối của biến, trong khi Bar chart được sử dụng để so sách giữa các biến Hình dạng của Histogram:

Trang 25

5.2 KDE Chart (Kernel Density Estimation)

Ngày đăng: 14/04/2024, 21:28

w