1. Trang chủ
  2. » Luận Văn - Báo Cáo

Trực quan hóa dữ liệu sử dụng R

6 186 4

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 6
Dung lượng 312,46 KB

Nội dung

Nội dung chính của bài viết trình bày mối quan hệ giữa các giá trị định lượng, trực quan hóa dữ liệu cũng được dùng để biểu diễn các mối quan hệ định tính. Ví dụ, mối quan hệ giữa mọi người trong một mạng xã hội như Facebook hoặc mạng lưới các nghi can khủng bố…

THỐNG KÊ QUỐC TẾ VÀ HỘI NHẬP TRỰC QUAN HÓA DỮ LIỆU SỬ DỤNG R Bùi Ngọc Tân* Tổng quan trực quan hóa liệu Trực quan hóa liệu việc biểu diễn đồ họa thông tin trừu tượng nhằm mục đích: phân tích liệu truyền thông Dữ liệu thường chứa đựng nhiều câu chuyện quan trọng trực quan hóa liệu một công cụ mạnh mẽ để khám phá thấu hiểu câu truyện này, sau truyền đạt tới người khác Thơng tin thường trừu tượng miêu tả thứ không hữu Thông tin thống kê lại trừu tượng Dù có liên quan tới doanh số bán hàng, tỷ lệ mắc bệnh, hoạt động thể chất thứ khác, thơng tin khơng gắn với giới vật chất Chúng ta hiển thị cách trực quan thơng qua việc diễn giải thơng tin trừu tượng thành đặc tính vật lý thị giác (độ dài, vị trí, kích thước, hình dạng, màu sắc…) sử dụng trình tiếp nhận trực quan nhận thức Trực quan hóa liệu có hiệu chuyển dịch nhận thức tri thức nhằm tận dụng triệt để khả não người Nhận thức thị giác xử lý vỏ não thị giác nằm phía sau não bộ, nhanh nhạy hiệu Chúng ta nhìn thấy vật tượng mà không chút nỗ lực Tri thức chủ yếu vỏ não trước xử lý, thường chậm hiệu nhiều Thơng thường, thức trình bày suy diễn liệu truyền thống * Vụ Thống kê nước Hợp tác quốc tế SỐ 05 – 2016 chủ yếu dựa vào hoạt động nhận thức não Trực quan hóa liệu chuyển dịch cân theo hướng tăng cường nhận thức thị giác, tận dụng sức mạnh mắt người Tuy nhiên, câu ngạn ngữ “một tranh nghìn lời nói” với tranh thiết kế tốt Chúng ta nghiền ngẫm bảng số liệu ngày mà chẳng thể rõ ràng nhìn thống qua tranh mô tả số Cụ thể hơn, số giao tiếp trình bày dạng văn bảng số liệu, não diễn giải sử dụng xử lý tri thức lời nói Tuy nhiên, liệu trở nên rõ ràng dễ hiểu truyền thông trực quan sử dụng sức mạnh “trực quan hóa liệu” Ngoài việc làm bật mối quan hệ giá trị định lượng, trực quan hóa liệu dùng để biểu diễn mối quan hệ định tính Ví dụ, mối quan hệ người mạng xã hội Facebook mạng lưới nghi can khủng bố… Lịch sử trực quan hóa liệu Con người biết xếp liệu thành bảng (cột dòng) từ kỷ thứ 2, ý tưởng việc biểu diễn thông tin định lượng dạng đồ họa xuất kỷ thứ 17 theo sáng kiến nhà triết học toán học người Pháp Rene Decaster Ông phát triển hệ thống tọa độ 17 Thống kê Quốc tế Hội nhập chiều gồm trục hoành trục tung dùng để biểu diễn trực quan phép toán Đến kỷ thứ 18, Scotsman William Playfair người tiên phong việc khai thác tiềm đồ họa việc truyền thơng liệu định lượng Ơng sáng tạo nhiều loại đồ thị mà ngày sử dụng chẳng hạn sử dụng đường kẻ lên xuống theo chiều từ trái sang phải để biểu diễn thay đổi giá trị theo thời gian, biểu đồ cột, biểu đồ hình tròn Việc sử dụng biểu đồ trực quan hóa liệu định lượng ngày phổ biến, cách thức hiệu hạn chế Trong nửa cuối kỷ 20, Jacques Bertin đặt móng cho nhiều tiến lĩnh vực trực quan hóa việc xuất sách “Triệu chứng học đồ họa” (The Semiology of Graphics) vào năm 1967 Cho đến năm 1983, Edward Tufte người xem cha để trực quan hóa liệu đại xuất sách mang tính đột phá “Biểu diễn trực quan thông tin định lượng” (The Visual Display of Quantitative Information) Trong ơng có cách hiệu biểu diễn liệu cách trực quan nhiên cách thức mà hầu hết người thường làm không mang lại nhiều hiệu Cũng phải kể đến công việc cải thiện thực hành trực quan hóa liệu William Cleveland, người mở rộng hồn thiện kỹ thuật trực quan hóa liệu cho nhà thống kê Kể từ bước sang kỷ 21, trực quan hóa liệu phổ biến rộng rãi, thông qua nhiều phần mềm máy tính, chủ yếu phần mềm thương mại Tuy nhiên có nhiều phần mềm tảng miễn phí giúp cải thiện trực quan hóa liệu cách tăng cường tính thẩm mỹ hiệu khai phá liệu, truyền tải thông tin Trong phần xem xét R, cơng cụ miễn phí mạnh mẽ dùng để phân 18 Trực quan hóa liệu… tích thống kê trực quan hóa liệu Sử dụng R phân tích trực quan hóa liệu R gì? Đây câu hỏi đơn giản không dễ trả lời Theo định nghĩa rộng thường sử dụng để mô tả ngơn ngữ máy tính, R ngơn ngữ máy tính cho phép người sử dụng lập trình thuật tốn sử dụng cơng cụ lập trình người khác Cụ thể hơn, R ngơn ngữ lập trình mơi trường phần mềm dành cho tính tốn đồ họa thống kê Hình 1: Màn hình làm việc R, hay gọi cửa sổ lệnh Ưu điểm R thống kê trực quan hóa liệu Hiện tại, có nhiều phần mềm có sẵn để phân tích liệu: phần mềm bảng tính Excel, hệ thống dựa thủ tục SAS, hệ thống dựa giao diện người dùng SPSS, nhiều hệ thống khai thác liệu khác Điều làm cho R trở nên khác biệt? Thứ nhất, R miễn phí Là dự án mã nguồn mở, người sử dụng tải sử dụng R miễn phí khơng phải lo lắng phí thuê bao, quản lý giấy phép, giới hạn người dùng Nhưng quan trọng nhất, R hệ thống mở, người sử dụng SỐ 05– 2016 Trực quan hóa liệu… kiểm tra mã đóng góp để hồn thiện R Hàng nghìn chuyên gia khắp giới làm điều này, đóng góp họ mang lại lợi ích cho hàng triệu người sử dụng R ngày hôm Thứ hai, R ngôn ngữ Trong R, người sử dụng phân tích liệu cách viết hàm kịch bản, cách trỏ nhấn chuột Tưởng chừng điểm yếu, thực R ngôn ngữ dễ học, cách tự nhiên mạnh mẽ dùng cho phân tích liệu Khi học biết ngôn ngữ này, người sử dụng cảm nhận nhiều tiện ích Ngồi kịch phân tích lưu lại sử dụng nhiều lần tự động hóa chuỗi tác vụ, lồng ghép trình khác Thứ ba, R mạnh hoạt động đồ họa trực quan liệu Một nguyên tắc thiết kế R biểu đồ đồ thị phần thiết yếu q trình phân tích liệu Kết là, R có cơng cụ đồ họa tuyệt vời, từ biểu đồ sử dụng phổ biến biểu đồ cột biểu đồ tán xạ loại đồ họa phức tạp tích hợp ma trận biểu đồ, loại đồ họa người dùng tự sáng tạo Kết loại hình đồ họa dựa R thường xuyên xuất ấn phẩm phổ thông Thời báo New York, the Economist v.v Thứ tư, R cơng cụ phân tích thống kê linh hoạt Tất cơng cụ phân tích liệu tiêu chuẩn xây dựng ngơn ngữ R: từ việc truy cập liệu nhiều định dạng khác nhau, thao tác liệu (biến đổi biến, trộn tổng hợp biến v.v…), tới mơ hình thống kê truyền thống đại (hồi quy, ANOVA, GLM, mơ hình v.v…) Tất kỹ thuật nói xây dựng dựa khuôn khổ hướng đối tượng, giúp dễ dàng trích xuất SỐ 05 – 2016 Thống kê Quốc tế Hội nhập kết hợp thông tin từ kết phân tích, khơng đơn cắt dán từ kết đơn lẻ Thứ năm, R cập nhật kỹ thuật phân tích đồ họa mạnh mẽ, tiên tiến Các học giả nhà nghiên cứu hàng đầu từ khắp nơi giới sử dụng R để phát triển phương pháp thống kê, máy học, mơ hình dự đốn R sử dụng rộng rãi lĩnh vực tài chính, phân tích di truyền hiều lĩnh vực khác Hiện có 2000 gói mở rộng R áp dụng lĩnh vực, có sẵn để tải Ngồi ra, R có cộng đồng người dùng mạnh mẽ tích cực Với hàng ngàn người đóng góp mã nguồn hai triệu người dùng khắp giới, câu hỏi R giải đáp cặn kẽ Có thể nói nguồn lực cộng đồng cho R ln sẵn có Internet hỗ trợ lĩnh vực Thứ sáu, tính đa tảng R chạy nhiều tảng hệ điều hành khác gồm Windows, Unix, Mac OS X Như người sử dụng chạy phần mềm máy tính sẵn có Thứ bảy, R có khả vơ hạn Với R, người sử dụng sử dụng đoạn mã người khác đóng góp cộng đồng mã nguồn mở tự xây dựng hàm, cơng cụ R riêng R công cụ tuyệt vời để tương tác với ứng dụng khác: kết hợp R với sở liệu MySQL, máy chủ web Apache, với giao diện lập trình API dịch vụ Google Maps, giúp người dùng có cơng cụ phân tích GIS theo thời gian thực v.v… Nhược điểm R thống kê trực quan hóa liệu: Thứ nhất, R tương đối khó nắm bắt người sử dụng có giao diện dòng lệnh Tuy có nhiều giao diện 19 Trực quan hóa liệu… Thống kê Quốc tế Hội nhập người dùng đồ họa (GUI) dễ sử dụng cho R, chẳng hạn RGUI, R Commander, RStudio, RKWard…, sử dụng tương tác chỏ nhấn, nhìn chung giao điện không thực đẹp mắt phần phềm thương mại Bảng 1: Doanh số bán hàng năm 2015 Đơn vị: nghìn la Mỹ Thời gian Nội địa Quốc tế Tổng Tháng 1983 574 2557 Tháng 2343 636 2979 Tháng 2593 673 3266 nhiều ngắn gọn, tương đối khó hiểu người không chuyên thống kê Tuy nhiên, ngày nhiều tài liệu, sách hướng dẫn có chất lượng cao R xuất bản, giúp người sử dụng dễ dàng tiếp cận với R Tháng 2283 593 2876 Tháng 2574 644 3218 Tháng 2838 679 3571 Tháng 2382 593 2975 Tháng 2634 139 2773 Tháng 2938 599 3537 Thứ ba, chất lượng số gói mở Tháng 10 2739 583 3322 Tháng 11 2983 602 3585 Tháng 12 3493 690 4183 Tổng 31783 7005 38788 Thứ hai, tài liệu hướng dẫn R rộng R chưa thực hồn hảo Tuy nhiên, gói mở rộng nhiều người sử dụng, nhanh chóng phát triển thành sản phẩm mạnh mẽ thông qua nỗ lực hợp tác cộng đồng người sử dụng R Ngồi người sử dụng R mua gói hỗ trợ từ số nhà cung cấp quốc tế Thứ tư, nhiều lệnh R không thực trọng vào việc quản lý nhớ, R nhanh chóng chiếm dụng hết nhớ máy tính Đây xem hạn chế thực hoạt động khai thác liệu Có nhiều giải pháp vấn đề này, chẳng hạn việc sử dụng hệ điều hành 64-bít giúp truy cập nhiều nhớ Tuy nhiên, cần xem xét hình mẫu, xu hướng khác biệt giá trị nói trên, muốn có nhìn thoáng qua câu truyện chứa đựng số nói trên, hặc cần so sánh tồn tập số liệu khơng phải so sánh số lúc, bảng làm điều Hãy xem xét đồ thị đường kẻ dùng để biểu diễn liệu Hình 2: Ví dụ trực quan hóa liệu sử dụng R Dưới bảng đơn giản doanh số bán hàng năm công ty phân theo khu vực nội địa quốc tế Bảng làm tốt việc: biểu thị giá trị doanh số bán cách xác cung cấp phương tiện hiệu để tra cứu giá trị theo khu vực tháng định Hình 2: Biểu đồ đường thể doanh số bán hàng năm 2015 20 SỐ 05– 2016 Thống kê Quốc tế Hội nhập Trực quan hóa liệu… Thơng qua đồ thị trên, thấy: - Doanh số bán nội địa cao nhiều có xu hướng tăng vững so với doanh số bán quốc tế - Nhìn tổng thể, doanh số bán nội địa có xu hướng tăng năm - Doanh số bán quốc tế, ngược lại, tương đối ổn định có sụt giảm đáng kể tháng - Doanh số bán nội địa thể hình mẫu tăng giảm theo chu kỳ quý, cụ thể luôn tăng cao tháng cuối quý sau giảm mạnh tháng đầu quý Ví dụ bảng số liệu nguyên nhân tử vong Mỹ năm 2007: Bảng 2: Nguyên nhân tử vong năm 2007 Mỹ Nguyên nhân tử vong Số ca tử vong Bệnh tim 616067 Các bệnh khác 577181 Ung thư 562875 Đột quỵ 135952 Bệnh hơ hấp mãn tính 127924 Tai nạn 123706 Alzheimer 74632 Đái đường 71382 Cúm viêm phổi 52717 Hội chứng thận hư 46448 Nhiễm trùng máu 34828 Tổng 2423712 Với mục đích chuyển tải thơng tin vắn tắt thành trình bày trực quan mà người giải mã cách dễ dàng, hiệu quả, xác có ý nghĩa, xem xét phân tích việc sử dụng biểu đồ hình tròn để biểu diễn liệu liên quan đến nguyên nhân tử vong (xem Hình bên dưới) Có thể thấy, trực quan hóa liệu sử dụng biểu đồ hình tròn đạt mục đích SỐ 05 – 2016 truyền tải thông tin tới người sử dụng Cụ thể: - Chỉ rõ chất mối quan hệ Điểm mạnh biểu đồ hình tròn rõ mối quan hệ phần với tổng thể giá trị - Biểu diễn số lượng cách xác Biểu đồ hình tròn mã hóa giá trị sử dụng tính chất hình ảnh: diện tích miếng cắt, góc độ miếng cắt tâm hình tròn, độ dài miếng cắt theo chu vi đường tròn Nhận thức hình ảnh người không hỗ trợ nhiều việc giải mã diện tích, góc độ độ dài miếng cắt Tuy nhiên, việc bổ sung giá trị phần trăm tương ứng với miếng cắt giúp cảm nhận cách xác liệu biểu diễn đồ thị - Dễ dàng so sánh số lượng Do cảm nhận cách xác nên so sánh số lượng cách dễ dàng xác Tuy nhiên, biểu đồ sử dụng ghi để ghi nhãn miếng cắt buộc người sử dụng phải nhìn kỹ ghi chú, làm cho việc so sánh trở nên khó khăn Sử dụng biểu đồ cột trường hợp giúp cho việc so sánh số lượng dễ dàng người sử dụng dễ dàng so sánh chiều dài biểu đồ - Thấy thứ tự xếp hạng giá trị Trong biểu đồ hình tròn trên, khác biệt diện tích, góc độ chiều dài theo chu vi miếng cắt giúp người sử dụng thấy thứ tự xếp hạng nguyên nhân gây tử vong từ cao đến thấp theo chiều kim đồng hồ - Làm rõ cách thức sử dụng thông tin Thông qua việc so sánh miếng cắt biểu đồ hình tròn, người sử dụng hiểu rõ nguyên nhân gây tử vong tỷ lệ nguyên nhân so với tổng số ca tử vong Mỹ năm 2007 (Xem tiếp trang 26) 21 Xác định lại vai trò trách nhiệm… Thống kê Quốc tế Hội nhập thường điều chỉnh liệu Hiện họ dành nhiều thời gian phân tích tiếp cận cộng đồng để cải thiện liên quan đến kết liệu đầu ra, dựa vào trung tâm chuyên môn để thu thập xử lý liệu 15 Liên quan đến dịch vụ phương pháp luận, có thay đổi trách nhiệm từ quy trình đến thiết kế thành phần Nguồn lực phương pháp có liên quan đến hệ thống hai phương pháp xử lý thiết kế khung cho tất điều tra kinh doanh Các chức quy trình mà họ tham gia chuyển giao cho dịch vụ xử lý tập trung Trong khuôn khổ với nhiều đối tượng tham gia, điều cần thiết để đảm bảo tính tối ưu quán tất quy trình điều tra Biện pháp chất lượng phải xác định tích hợp vào tất bước quy trình kinh doanh thống kê Dịch vụ Phương pháp đóng vai trò hàng đầu việc quản lý đảm bảo chất lượng tổng thể cho quy trình khác 16 Việc tạo nhóm chuyên trách quản lý IBSP siêu liệu, thay đổi bắt buộc tất hoạt động xử lý liệu từ phận chuyên đề dịch vụ phương pháp cho dịch vụ xử lý tập trung tất hoạt động công nghệ thông tin thay đổi mơ hình doanh nghiệp 17 Việc quản lý quy trình thống kê đòi hỏi phải có phối hợp tất đối tác môi trường ma trận Việc chuyển đổi sang mơ hình kinh doanh thách thức nhà quản lý khảo sát người sử dụng tương tác với số lượng hạn chế trung tâm dịch vụ Quá trình định liên quan đến số lượng lớn bên liên quan, cấu quản trị, ban quản lý lịch trình tích hợp đầy đủ đưa để đảm bảo sở thích địa phương khơng có hại cho mục tiêu công ty tất định Đỗ Ngát (dịch) Nguồn: https://www.unece.org/fileadmin/DAM/stats/d ocuments/ece/ces/ge.44/2015/mtg1/WP_9_Ca nada_New_harmonised_statistical_production_ process.pdf (Tiếp theo trang 21) Hình 3: Biểu đồ thể nguyên nhân tử vong Mỹ năm 2007 3% 3% 5% 2%2% 1% 25% 5% 6% 23% 24% Bệnh tim Các bệnh khác Ung thư Đột quỵ Bệnh hơ hấp mãn tính Tai nạn Alzhelmer Đái đường Cúm viêm phổi Hội chứng thận hư Nhiễm trùng máu Tài liệu tham khảo: Winston Chang, R Graphics Cookbook, 2013; Nguyen Van Tuan, Phân Tích Dữ Liệu Với R, 2014; Data Journalism Handbook, Using Data Visualization to Find Insights in Data, 2011 26 SỐ 05– 2016 ... tích thống kê trực quan hóa liệu Sử dụng R phân tích trực quan hóa liệu R gì? Đây câu hỏi đơn giản không dễ trả lời Theo định nghĩa r ng thường sử dụng để mô tả ngôn ngữ máy tính, R ngơn ngữ máy... thiện trực quan hóa liệu cách tăng cường tính thẩm mỹ hiệu khai phá liệu, truyền tải thông tin Trong phần xem xét R, cơng cụ miễn phí mạnh mẽ dùng để phân 18 Trực quan hóa liệu tích thống kê trực. .. Tuy có nhiều giao diện 19 Trực quan hóa liệu Thống kê Quốc tế Hội nhập người dùng đồ họa (GUI) dễ sử dụng cho R, chẳng hạn RGUI, R Commander, RStudio, RKWard…, sử dụng tương tác chỏ nhấn, nhìn

Ngày đăng: 16/01/2020, 14:04

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w