Bài viết Trình bày dữ liệu đồ thị trong trực quan hóa dữ liệu tập trung vào nội dung trình bày dữ liệu trong trực quan hóa dữ liệu. Đây là bước quan trọng của bất kì quy trình phân tích hay khai phá dữ liệu và là công cụ được sử dụng phổ biến và rộng rãi ở mọi tổ chức thuộc mọi lĩnh vực với mục đích truyền đạt, trình bày một cách đơn giản, hiệu quả, thu hút những thông tin, dữ liệu đến người đọc. Mời các bạn cùng tham khảo!
TRÌNH BÀY DỮ LIỆU ĐỒ THỊ TRONG TRỰC QUAN HĨA DỮ LIỆU Vũ Thị Thanh Hương Khoa Công nghệ Thông tin Trường Đại học Tài - Marketing Email: vtthuong@ufm.edu.vn Tóm tắt: Trong kinh tế bước chuyển đổi số nay, phân tích thấu hiểu liệu có sẵn giúp doanh nghiệp nhận thấy sai xót, khiếm khuyết q khứ tìm phương án giải quyết, đồng thời khám phá hội để phát triển doanh nghiệp Một bước quan trọng q trình phân tích liệu trực quan hóa liệu… Trực quan hóa liệu bước quan trọng quy trình phân tích hay khai phá liệu công cụ sử dụng phổ biến rộng rãi tổ chức thuộc lĩnh vực với mục đích truyền đạt, trình bày cách đơn giản, hiệu quả, thu hút thông tin, liệu đến người đọc Bài viết tập trung vào nội dung trình bày liệu trực quan hóa liệu Từ khóa: trực quan hóa liệu, liệu, phân tích liệu MỞ ĐẦU Dữ liệu tài sản quý giá doanh nghiệp cần chế biến để chuyển hóa thành giá trị sử dụng Hầu hết nhà quản trị quan tâm đến vấn đề xây dựng văn hóa đưa định kinh doanh dựa liệu Hầu hết phận doanh nghiệp sales & marketing, quản trị nhân sự, quản lý vận hành, quản lý tài chính, quản lý rủi ro kiểm toán…đều cần trực quan hóa liệu nhằm cho mục đích báo cáo nội bộ, cung cấp báo cáo cho khách hàng ấn phẩm marketing, giúp người đọc thông tin quan trọng khó nhìn thấy liệu thơ Để chuyển hóa tạo giá trị từ liệu thơ ban đầu, thơng thường cần có ba giai đoạn sau: - Dữ liệu (Data): liệu thô tạo từ thực tế, thường dạng số (number) dạng văn (text) trích xuất từ sở liệu doanh nghiệp Dữ liệu định lượng định tính - Thơng tin (Information): ‘dữ liệu’ xử lý, tổng hợp, xếp thành định dạng có cấu trúc cung cấp nhiều ngữ cảnh cụ thể để tạo thông tin có ý nghĩa Dữ liệu mà khơng có ngữ cảnh có giá trị 43 - Những hiểu biết giá trị (Insights): kết từ việc phân tích thơng tin rút kết luận, từ mang đến hiểu biết có giá trị doanh nghiệp để giúp nhà quản trị đưa định kinh doanh Trực quan hóa liệu (data vizualization) kỹ thuật trình bày số liệu thơng tin hình ảnh, thơng thường biểu đồ, đồ thị dạng báo cáo dashboard Mục tiêu trực quan hóa liệu truyền đạt thông tin hiệu đến người đọc thông qua phương tiện đồ họa; minh họa hình ảnh cung cấp cho người đọc thông tin quan trọng khó nhìn thấy liệu thơ Việc thực trực quan hóa liệu phân tích thơng tin bước sau quy trình khai thác liệu, sau thu thập, xử lý tổ chức liệu, đó, kết việc trình bày liệu phụ thuộc nhiều vào chất lượng nguồn liệu mức độ chuẩn hóa thơng tin đầu vào Mục đích trực quan hóa liệu biến nguồn liệu thành thông tin thể cách trực quan, dễ quan sát, dễ hiểu, để truyền đạt rõ ràng hiểu biết đầy đủ từ liệu đến người xem, người đọc Trực quan liệu công cụ hỗ trợ dành cho chuyên gia, nhà phân tích để hiểu xư liệu, tóm tắt thơng tin có giá trị liệu cách nhanh chóng Khái niệm trực quan liệu đơn giản, để hiểu chất cỉa phải tìm hiểu qua dạng đồ thị, biểu đồ trình bày mục sau viết PHƯƠNG PHÁP TĨM TẮT, TRÌNH BÀY DỮ LIỆU Tóm tắt, trình bày liệu phần nằm trực quan hóa liệu liên quan đến việc thể hiện, mơ tả liệu định tính, định lượng dạng đồ thị phù hợp 2.1 Trình bày liệu định tính Dữ liệu định tính phản ánh tính chất, hay loại hình, khơng có biểu trực tiếp số Ví dụ giới tính, nghề nghiệp, tình trạng hôn nhân, dân tộc, tôn giáo, học thức,… Với biến định tính đếm số quan sát cho loại (tần số) tính % cho loại tổng thể (tần suất) Để thể liệu định tính dướng dạng đồ thị, biểu đồ trước hết liệu định tính phải tóm tắt, xếp bảng phân phối tần số gọi Frequency Distributiob Table 44 Phân tổ nhóm (class) q trình vào hay số biến đặc trưng cụ thể để xếp đơn vị quan sát vào tổ, nhóm có đặc điểm khác nhau, tức chia mẫu tổng thể thành tổ nhóm có tính chất khác Ví dụ liệu loại nước giải khát tiêu thụ phổ biến 50 sinh viên trường đại học Tp Hồ Chí Minh sau: Bảng Dữ liệu loại nước giải khát Dasani 11 Sting 21 Pepsi 31 Dasani 41 C2 Dasani 12 Coca-cola 22 Pepsi 32 Pepsi 42 Sting Sting 13 Dasani 23 Dasani 33 Twister 43 Pepsi Coca-cola 14 Coca-cola 24 Sting 34 Dasani 44 C2 Pepsi 15 Sting 25 Pepsi 35 C2 45 Coca-cola Dasani 16 Pepsi 26 Coca-cola 36 Coca-cola 46 Dasani Sting 17 Pepsi 27 Dasani 37 Dasani 47 C2 Dasani 18 Dasani 28 Twister 38 Sting 48 Sting Sting 19 Pepsi 29 Sting 39 Pepsi 49 Sting 10 Twister 20 Sting 30 Twister 40 Sting 50 C2 Chúng ta lấy thử mẫu 50 quan sát bảng trên, ta nhận thấy số loại nước khơng q nhiều, gồm có loại là: Dasani, Coca-cola, Pepsi, Sting, Twister, C2 Ta phân tổ, tổ nhãn hiệu nước giải khát sau: Bảng Phân phối tần suất nước giải khát Loại nước giải khát Dasani Tần số Tần số tương đối Tần suất Tần suất tích lũy 12 0.24 24 24 0.12 12 36 Sting 10 0.2 20 56 Pepsi 0.08 64 13 0.26 26 90 0.1 10 100 50 100 Coca-cola Twister C2 Tổng Trường hợp lấy mẫu lớn 50 hay xem xét tổng thể tất sinh viên trường liệu loại nước giải khát đa dạng nhãn hiệu khơng có loại trên, 45 để thống kê hiệu quả, đồ thị, biểu đồ vẽ phù hợp, chia tổ theo nhóm ví dụ cụ sau: - Nước khoáng (Dasani, Lavie, Aquafina,…) - Nước giải khát có gas (Coca-cola, Pepsi, Sprite,…) - Nước tăng lực (Sting, Wake-up 247, Rồng Đỏ, ) - Nước ép trái (Twister, Nutri Boost, Aloe Vera Juice,…) - Các loại nước giải khát khác (C2, Ô long,…) Lưu ý định lượng chuyển đổi thành liệu định tính đề khảo sát phân phối tần số chia tổ/ nhóm Ví dụ thu thập liệu thu nhập bình quân hàng tháng 50 hộ gia đình đa dạng phạm vi để tóm tắt đơn giản ta chia tổ nhóm theo: - Thu nhập triệu: hộ - Từ triệu đến 10 triệu: 12 hộ - Từ 10 triệu đến 15 triệu: 23 hộ - Trên 15 triệu: hộ Trở lại với Bảng 2: - Tần số (Frequenc/ Frequency of Class) quan sát nhóm mẫu tổng thể - Tần số tương đối (Relative Frequency) tần số quan sát mà nhóm chiếm mẫu tổng thể ,tức lấy số quan sát nhóm chia cho tổng đơn vị mẫu tổng thể - Tần suất (Class Percentage): tỷ lệ % nhóm chiếm mẫu, lấy tần số tương đối nhân cho 100 - Tần suất tích lũy (Cumulatove Percent) tính cách cộng dồn tần suất theo thứ tự từ tổ nhóm đến cuối Tần suất tích lũy áp dụng chủ yếu cho liệu định lượng có phân tổ bảng phân phối tần số có ý nghĩa phân tích cịn liệu định tính (biến định danh) ta lấy ví dụ thường khơng áp dụng 46 Những dạng đồ thị sử dụng trực quan hóa liệu chia làm loại chính, phụ thuộc vào mục đích, thơng tin mà muốn biết: - Comparision: đồ thị cho biết đối tượng nghiên cứu - Composition: đồ thị thể cụ thể thành phần cấu tạo nên nhóm, vùng,… thành phần chiếm tỷ lệ - Distribution: đồ thị xem xét phân phối liệu, mức độ phân tán, mức độ tập trung liệu, hay xác định điểm bất thường, giá trị ngoại lệ liệu - Trend: đồ thị thể xu hướng biến động đối tượng nghiên cứu liệu - Realtionship/ Correlation: đồ thị thể mối quan hệ, tương quan hay nhiều đối tượng nghiên cứu liệu Để trực quan liệu định tính theo cách phân phối tần số, cần vẽ biểu đồ cột đứng ngang (Bar chart/ Column chart), biểu đồ tròn (Pie Chart), biểu đồ Pareto Các biểu đồ minh họa sau: • Bar chart/ Column chart: Hình Biểu đồ cột đứng thể tần số loại nước giải khát Ở cột đứng, cột ngang “Tần số”, thay “tần suất” với giá trị tần suất loại nước giải khác để vẽ biểu đồ 47 Hình Biểu đồ cột ngang thể tần số loại nước giải khát Biểu đồ cột đứng hay cột ngang thể tần số loại, đối tượng thể so sánh chúng Biểu đồ cột biểu đồ đơn giản, trực quan nhất, người xem dễ thấy rõ giá trị lớn nhất, bé nhất, (thơng thường xếp theo thứ tự) • Pie chart Biểu đồ hình trịn áp dụng cho trường hợp số lượng thành phần riêng lẻ không nhiều, từ thành phần, trường hợp có nhiều thành phần giá trị hay tỷ lệ % thành phần phải khác biệt rõ rệt để dễ so sánh Biểu đồ tròn phải đảm bảo yếu tố trực quan, nghĩa người xem thấy nhanh chóng thành phần chiếm tỷ lệ lớn nhất, bé nhất, thành phần thành phần nào, tốt để số % lên đồ thị, đặc biệt tránh trường hợp gây nhầm lẫn, khó hiểu cho người xem ví dụ phần có tỷ lệ 26% lại vẽ giống gần phần có tỷ lệ 30% Biểu đồ trịn có nhiều ứng dụng khơng phải mà sử dụng tùy tiện mà cần xem xét đến tính hợp lý hiệu trực quan hóa liệu Biểu đồ hình trịn hay cịn gọi hình bánh thể tốt tần suất, tần số loại nước giải khát Biểu đồ hình trịn giống bánh lát bánh cho loại Kích thước lát tương ứng với tỷ lệ phần trăm số quan sát hay gọi tần suất tổng thể mẫu Biểu đồ trịn thể phần khơng rõ biểu đồ cột 48 Hình Biểu đồ tròn thể tần suất loại nước giải khát • Pareto chart Là loại biểu đồ cột mà cột xếp theo thứ tự từ thấp đến cao theo tần số giá trị tần suất tích lũy biểu diễn đường thẳng đặt tên theo nhà kinh tế học người Ý Vilfredo Pareto (1848-1923) Hình Biểu đồ Pareto thể xếp tần số loại nước giải khát Biểu đồ Pareto thường sử dụng lĩnh vực kinh doanh để xác định kết phổ biến nhất, chẳng hạn xác định sản phẩm có doanh số cao xác định loại khiếu nại phổ biến mà trung tâm chăm sóc khách hàng nhận Mục đích biểu đồ Pareto tìm nhóm nguyên nhân nguyên nhân quan trọng Trong kiểm soát chất lượng, biểu đồ thường dùng để biểu diễn nguyên nhân gây lỗi phổ biến nhất, loại lỗi xuất phổ biến nguyên nhân phổ biến khiến cho khách hàng phàn nàn 49 • Scatter plot Biểu đồ phân tán Scatter plot thể mối quan hệ hai biến định lượng khác thể xu hướng phân phối liệu, ngồi cịn tìm giá trị ngoại lệ, kiểm tra tính tương đồng liệu Với ưu điểm mình, biểu đồ phân tán sử dụng phổ biến lĩnh vực khoa học liệu từ khai mỏ liệu, phân tích liệu đến học máy khối lượng liệu phải phân tích nhiều Tuy nhiên, người xem, người đọc không am hiểu lĩnh vực liệu, hay chưa quen đọc biểu đồ phân tán không hiểu biểu đồ trực quan liệu tốt Hình Biểu đồ Scatter lot thể mối liên hệ số thể trọng (BMI) lượng chất béo thể (% fat) Hình Biểu đồ Scatter plot thể mối liên hệ mức độ hài lòng khách hàng thời gian phản hồi khách hàng 50 • Bubble chart Biểu đồ Bubble chart giống biểu đồ Scatter plot có thêm biến thứ 3, thể chấm trịn Biến thêm vào biến định lượng biến định tính Các chấm Scatter plot thường chấm nhỏ thấy rõ khác biệt chúng, đồ thị Bubble chấm trịn phải khác biệt, có độ lớn hay bé quy ước dựa giá trị định lượng biến thêm vào Chính đồ thị thấy chấm trịn to, chấm trịn nhỏ khác bọt bong bóng, nên đặt tên Bubble chart Mục đích sử dụng Bubble chart bao gồm mục đích sử dụng Scatter plot, bên cạnh Bubble chart cho thấy thêm mối liên hệ biến thêm vào so với biến cố định Scatter plot trước đó, hay so sánh trực tiếp giá trị biến thêm vào, xem xét quan hệ nhiều biến giúp tìm nhiều thơng tin hữu ích • Area chart Area chart giống biểu đồ đường thể xu hướng biến động đối tượng liệu theo thời gian, khác biệt chỗ Area chart thể giá trị định lượng đường vẽ biến liệu hay thành phần có tổng, tập hợp dải màu sắc, dải màu chồng lên để tạo thafnhn giá trị tổng, tập hợp Mục đích Area chart tìm hiểu xu hướng biến động tổng thể, xu hướng biến động thành phần, chênh lệch chúng theo thời gian, thành phần chiếm nhiều, hay chiếm tổng thể, thành phần thành phần Hình Minh họa cho Area chart 51 Trên hình biểu đồ thể biến động tổng lợi nhuận từ chuỗi cửa hàng tạp hóa, bao gồm biến động lợi nhuận cửa hàng gộp lại thành tổng lợi nhuận • Waterfall chart Biểu đồ Waterfall biểu đồ trực quan thông tin sử dụng thấy giá trị ban đầu bị ảnh hưởng bới giá trị trung gian để dẫn đến giá trị cuối Các giá trị âm dương Hình Waterfall chart mơ tả q trình Gross Revenue tăng giảm yếu tố giá trị Net Income sau 2.2 Trình bày liệu định lượng Trường hợp liệu định lượng ví dụ độ tuổi 30 sinh viên học trường Đại học X Thành phố Hồ Chí Minh (từ bậc đại học trở lên) sau: 28 22 25 21 26 24 23 30 31 33 19 20 22 27 30 19 28 31 22 27 37 35 22 19 22 23 26 28 25 36 Để tóm tắt sử dụng biểu đồ thân lá, với số liệu bên phải giá trị liệu hay hai chữ số hàng đơn vị hàng chục, nhánh số liệu bên trái giá trị liệu phải hay hai chữ số hàng chục hàng trăm Tóm Tắt liệu: Số bên trái 1, 2, nhánh vị trí hàng chục, số bên phải hàng đơn vị, Biểu đồ nhánh thực SPSS có kết sau: 52 Hình Biểu đồ nhánh Trường hợp liệu định lượng thu thập nhiều (có nhiều đơn vị quan sát), phạm vi giá trị rộng hơn, đa dạng mà biểu đồ nhánh hết hay nói cách khác khó nhận thấy vấn đề, thông tin tổng quan từ liệu, cảm thấy rối mắt, biểu đồ nhánh lúc chưa trực quan liệu tốt mà dừng lại mức tóm tắt giá trị từ liệu mà Nếu muốn biến đổi liệu định lượng thành liệu định tính để xem xét phân phối tần số trường hợp số quan sát liệu lớn cần phân bổ với tổ có khoảng cách Công thức sau: với h trị số khoảng cách tổ/nhóm; K số tổ; Xmax mà giá trị lớn nhất, Xmin giá trị nhỏ Công thức K=(2 x n)1/3 với n tổng số quan sát Bảng Dữ liệu sản lượng lúa 50 hộ dân Chúng ta có số liệu suất lúa 50 hộ dân (tạ/ha), số liệu khơng thể trình bày dạng biểu đồ nhánh, khơng hiệu Chúng ta tiến hành phân tổ theo công thức: K=(2 x 50)1/3 = 4.64 xấp xỉ tổ, tức nhóm, h = (54 -30)/5 = 4.8 xấp xỉ tổ Chúng ta có bảng tần số sau, tiến hành vẽ đồ Histogram (đồ thị phân phối tần số cho biến định lượng) với biểu đồ cột biểu đồ tần suất tích lũy tương tự phần liệu định tính 53 Bảng Phân phối tần số sản lượng lúa 50 hộ dân Sản lượng lúa (tạ/ha) Số hộ (tần số) Tần suất (%) Tần suất tích lũy 30-35 18 18 35-40 11 22 40 40-45 13 26 66 45-50 16 82 50-55 18 100 Tổng 50 100 Hình Đồ thị Histogram thể suất lúa 50 hộ nông dân Lưu ý đồ thị Histogram khoảng cách cột khơng có suất lúa liệu định lượng liên tục, tổ có giá trị lớn giá trị nhỏ tổ tiếp theo, khác biệt so với biểu đồ cột liệu định tính biểu đồ cột liệu định lượng phân tổ khơng có khoảng cách tổ rõ rệt Đối với biểu đồ phân phối tần suất tích lũy, lưu ý thêm liệu định lượng biểu đồ không gọi biểu đồ Pareto, cột tần suất khơng xếp theo thứ tự từ cao đến thấp Bảng phân phối tần suất tích lũy hay biểu đồ phân phối tần suất tích lũy cho biết có phần trăm số quan sát nhỏ trị số biến khảo sát, ví dụ dựa vào đồ thị đây, thấy có 66% số hộ có suất 45 tạ/ha 54 Đây lí phần trình bày liệu định tính, tần suất tích lũy áp dụng chủ yếu cho liệu định lượng có mang lại ý nghĩa phân tích rõ ràng KẾT LUẬN Trực quan hóa liệu có vai trị quan trọng kỷ ngun liệu lớn với việc đầu tư ngày nhiều vào ứng dụng phân tích trực quan hóa liệu doanh nghiệp Thực tế, não người xử lý nội dung hình ảnh nhanh so với chữ số liệu nhiều lần Chính nhờ vào đặc trưng này, trực quan hóa liệu giúp gia tăng lợi cạnh tranh, tăng trưởng doanh thu lợi nhuận doanh nghiệp thơng qua: - Tìm hiểu nhu cầu, phân tích ứng xử khách hàng nhằm hỗ trợ định chiến lược: sách giá, thị trường sản phẩm tiềm năng… - Giảm thiểu, tối ưu chi phí hoạt động - Đơn giản hóa liệu, thơng tin phức tạp, giúp người đọc dễ dàng nhanh chóng nắm bắt xu hướng thơng tin, tập trung vào nội dung quan trọng nhất, mối quan hệ yếu tố, từ đưa định quản trị phù hợp TÀI LIỆU THAM KHẢO [1] Cole Nussbaumer Knaflic, Storytelling with data: Wiley, 2020 [2] Kieran Healy, Data Visualization A Practice Introduction, 2020 55 ... liệu cách nhanh chóng Khái niệm trực quan liệu đơn giản, để hiểu chất cỉa phải tìm hiểu qua dạng đồ thị, biểu đồ trình bày mục sau viết PHƯƠNG PHÁP TĨM TẮT, TRÌNH BÀY DỮ LIỆU Tóm tắt, trình bày. .. định kinh doanh Trực quan hóa liệu (data vizualization) kỹ thuật trình bày số liệu thơng tin hình ảnh, thơng thường biểu đồ, đồ thị dạng báo cáo dashboard Mục tiêu trực quan hóa liệu truyền đạt... LIỆU Tóm tắt, trình bày liệu phần nằm trực quan hóa liệu liên quan đến việc thể hiện, mơ tả liệu định tính, định lượng dạng đồ thị phù hợp 2.1 Trình bày liệu định tính Dữ liệu định tính phản ánh