1 BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG BÀI GIẢNG LƯU TRỮ VÀ PHÂN TÍCH DỮ LIỆU Ngành đào tạo Kỹ thuật Điện tử Viễn thông (Lưu hành nội bộ) Hà nội 11/2022[.]
BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - - BÀI GIẢNG LƯU TRỮ VÀ PHÂN TÍCH DỮ LIỆU Ngành đào tạo Kỹ thuật Điện tử Viễn thông (Lưu hành nội bộ) Hà nội - 11/2022 Bài giảng Lưu trữ phân tích liệu LỜI NĨI ĐẦU Mơn học trang bị cho sinh viên kiến thức lưu trữ phân tích liệu, hiểu ý nghĩa vai trò cấu trúc lưu trữ liệu, đặc biệt Bigdata kiến thức trích xuất liệu từ hệ thống lưu trữ liệu lớn Bên cạnh cung cấp kiến thức phân tích liệu bao gồm phương pháp biến đổi liệu có mục tiêu, phương pháp phân tích liệu truyền thống phương pháp phân tích liệu thơng minh ứng dụng học máy, học sâu Ngồi phương pháp trực quan báo cáo kết phân tích liệu truyền đạt để giúp cho sinh viên có khả khai thác hệ thống liệu Bigdata Bài giảng tổ chức thành 06 chương với nội dung sau: ✓ Chương Tổng quan lưu trữ phân tích liệu: Giới thiệu tổng quan tiến hóa hệ thống lưu trữ liệu số công nghệ lưu trữ liệu nay, đồng thời trình bày khái niệm phân tích liệu ✓ Chương Cấu trúc liệu hướng đối tượng: Trình bày số giải pháp cấu trúc lưu trữ liệu đánh giá cấu trúc khả thi ✓ Chương Khai phá xử lý liệu thô: Giới thiệu thách thức xử lý liệu vấn đề chất lượng liệu ✓ Chương Kiến trúc sở liệu lớn: Giới thiệu khái niệm kiến trúc khung tính tốn, kiến trúc kho liệu, kiến trúc hồ liệu hệ thống xử lý liệu ✓ Chương Phân tích liệu truyền thống: Giới thiệu nội dung liên quan đến kỹ thuật thu thập liệu phương pháp phân tích liệu truyền thống ✓ Chương Phân tích liệu thơng minh: Trình bày tổng quan mục tiêu phân tích liệu thơng minh, khái niệm vấn đề trích xuất liệu, ngơn ngữ phương pháp trích xuất, phương pháp biến đổi liệu phương pháp phân tích học máy việc trực quan hóa báo cáo phân tích liệu Do nội dung mơn học rộng thời gian biên soạn có hạn nên khơng tránh khỏi thiếu sót Mọi ý kiến góp ý nội dung giảng xin gửi Bộ môn Kỹ thuật liệu, Khoa Viễn thông I, tầng 10A2, Học viện Cơng nghệ Bưu Viễn thơng Chúng tơi xin chân thành cảm ơn! Nhóm tác giả i Bài giảng Lưu trữ phân tích liệu MỤC LỤC LỜI NÓI ĐẦU i DANH MỤC HÌNH ẢNH v THUẬT NGỮ VIẾT TẮT viii CHƯƠNG TỔNG QUAN VỀ LƯU TRỮ VÀ PHÂN TÍCH DỮ LIỆU 1.1 Tiến hóa hệ thống lưu trữ liệu 1.2 Các hệ thống lưu trữ liệu 1.3 Khái niệm phân tích liệu Câu hỏi tập 12 CHƯƠNG CẤU TRÚC DỮ LIỆU HƯỚNG ĐỐI TƯỢNG 13 2.1 Giới thiệu 13 2.1.1 Cấu trúc liệu 13 2.1.2 Cấu trúc liệu hướng đối tượng .16 2.1.3 Tổ chức theo hướng liệu-DDO 21 2.2 Giải pháp cấu trúc lưu trữ liệu 24 2.3 Đánh giá cấu trúc khả thi 31 Câu hỏi tập 33 CHƯƠNG KHAI PHÁ VÀ XỬ LÝ DỮ LIỆU THÔ .35 3.1 Giới thiệu 35 3.1.1 Giới thiệu chung 35 3.1.2 Khai phá liệu gì? 37 3.1.3 Khai phá liệu khám phá tri thức sở liệu 40 3.1.4 Nguồn gốc khai phá liệu 41 3.1.5 Nhiệm vụ khai phá liệu .43 3.1.6 Thách thức động lực 46 3.2 Thách thức xử lý liệu 48 3.2.1 Xử lí liệu 48 3.2.2 Thách thức xử lý liệu 49 3.3 Chất lượng liệu 56 3.3.1 Đo lường liệu 56 ii Bài giảng Lưu trữ phân tích liệu 3.3.2 Các vấn đề liên quan đến ứng dụng 61 Câu hỏi tập 62 CHƯƠNG 4: KIẾN TRÚC CƠ SỞ DỮ LIỆU LỚN 63 4.1 Kiến trúc khung tính tốn (computing frameworks) 63 4.1.1 Kiến trúc liệu lớn 63 4.1.2 Kiến trúc khung tính tốn 66 4.1.3 Khung xử lý tính tốn phân tán 78 4.2 Kiến trúc kho liệu 86 4.2.1 Kho liệu 86 4.2.2 Kiến trúc kho liệu 90 4.3 Kiến trúc hồ liệu 98 4.3.1 Giới thiệu hồ liệu .98 4.3.2 Kiến trúc hồ liệu 100 4.3.2.1 Kiến trúc hồ liệu 100 4.3.2.2 Kiến trúc hồ liệu Hadoop 103 4.4 Các hệ thống xử lý liệu 106 Câu hỏi tập 107 CHƯƠNG 5: PHÂN TÍCH DỮ LIỆU TRUYỀN THỐNG 108 5.1 Giới thiệu 108 5.2 Thu thập liệu 108 5.3 Phương pháp phân tích 111 5.3.1 Phân tích thống kê 111 5.3.2 Phân tích cụm 118 5.3.3 Phân tích nhân tố .119 5.3.4 Phân tích hồi quy .124 Câu hỏi tập 126 CHƯƠNG 6: PHÂN TÍCH DỮ LIỆU THÔNG MINH 127 6.1 Tổng quan mục tiêu phân tích liệu thơng minh 127 6.2 Trích xuất liệu 128 6.2.1 Ngơn ngữ trích xuất liệu 129 6.2.2 Phương pháp trích xuất .137 6.3 Biến đổi liệu 143 6.3.1 Mục đích biến đổi liệu 143 iii Bài giảng Lưu trữ phân tích liệu 6.3.2 Các phương pháp 145 6.4 Phương pháp phân tích học máy 152 6.4.1 Ensemble learning 154 6.4.2 Học sâu (DL) 169 6.5 Trực quan báo cáo phân tích liệu 180 6.5.1 Trực quan liệu 180 6.5.1.1 Giới thiệu trực quan hóa liệu 180 6.5.1.2 Quy trình trực quan hóa liệu lớn 181 6.5.1.3 Các loại trực quan hóa liệu 181 6.5.1.4 Phương pháp trực quan hóa liệu lớn 182 6.5.1.5 Các cơng cụ trực quan hóa liệu 183 6.5.2 Cấu trúc báo báo phân tích liệu .184 6.5.2.1 Cấu trúc tổng thể 184 6.5.2.2 Tầm quan trọng báo cáo phân tích liệu đại 185 6.5.2.3 Các bước lập báo cáo phân tích .186 Câu hỏi tập 187 TÀI LIỆU THAM KHẢO 188 iv Bài giảng Lưu trữ phân tích liệu DANH MỤC HÌNH ẢNH Hình 1: Các đặc tính liệu lớn Hình 2: Tiến hóa cấu trúc liệu lưu trữ liệu Hình 3: Các loại lưu trữ NoSQL Hình 1: Phân loại cấu trúc liệu 14 Hình 2: Cấu trúc liệu 15 Hình 3: Cấu trúc truyền thống 24 Hình 4: Cách tiếp cận liệu lớn .24 Hình 5: Lưu trữ đối tượng 28 Hình 1: Quá trình khám phá tri thức sở liệu (KDD) .41 Hình 2: Khai phá liệu kết hợp nhiều lĩnh vực .42 Hình 3: Minh họa bốn số nhiệm vụ khai phá liệu cốt lõi .43 Hình 4: Chiều rộng cánh hoa so với chiều dài cánh hoa 150 Iris .45 Hình 5: Khối lượng lưu trữ 53 Hình 6: Bảo mật liệu 55 Hình 7: Nhiễu theo thơi gian .57 Hình 8: Nhiễu theo không gian 58 Hình 1: Kiến trúc lambda 63 Hình 2: Kiến trúc Kappa 64 Hình 3: Kiến trúc Microserive 64 Hình 4: Kiến trúc Zeta .65 Hình 5: Kiến trúc iot-a 66 Hình 6: Tính tốn song song .67 Hình 7: Điện tốn lưới 70 Hình 8: Mạng lưới điện tốn lưới .70 Hình 9: Các thành phần điện tốn lưới 72 Hình 10: ĐIện tốn tiện ích .74 Hình 11: Kiến trúc điện toán cụm 74 Hình 12: Kiến trúc điện tốn đám mây .76 Hình 13: Kiến trúc HDFS 80 Hình 14: Luồng làm việc MapReduce 81 Hình 15: Kiến trúc Apache Spark .83 Hình 16: Kiến trúc Apache Storm 84 Hình 17: Hệ thống OLAP OLTP 87 Hình 18: Các thuộc tính cần có có kiến trúc kho liệu 89 Hình 19: Các thành phần kho liệu 90 v Bài giảng Lưu trữ phân tích liệu Hình 20: Kiến trúc tầng 95 Hình 21: Kiến trúc tầng 96 Hình 22: Kiến trúc tầng 97 Hình 23: Data lake 98 Hình 24: Kiến trúc hồ liệu 101 Hình 25: Kiến trúc hồ liệu hadoop 104 Hình 26: Các khái niệm hồ liệu 105 Hình 27: Dịng thời gian hệ thống SQL-on Hadoop 107 Hình 1: Phân loại biến liệu 112 Hình 2: Thống kê suy luận .117 Hình 3: Mơ hình nhân tố chung 120 Hình 4: Mơ hình minh họa PCA 123 Hình 5: Phân tính hồi quy .125 Hình 1: Các bước trích xuất liệu 138 Hình 2: Dữ liệu có cấu trúc liệu phi cấu trúc .139 Hình 3: Hai phương pháp trích xuất vật lý .141 Hình 4: Dữ liệu tích hợp 147 Hình 5: Dạng chuẩn hóa 150 Hình 6: Hình ảnh làm mịn .152 Hình 7: Bias-Variance Tradeoff 155 Hình 8: Các phương pháp Ensemble Learning .157 Hình 9: Minh họa trình bootstrap 159 Hình 10: Bootstrapping thường sử dụng để đánh giá phương sai khoảng tin cậy số cơng cụ ước tính thống kê 160 Hình 11: Bagging 161 Hình 12: Random forest 163 Hình 13: Boosting 163 Hình 14: Q trình tính tốn thuật tốn AdaBoost 165 Hình 15: Gradient boosting 166 Hình 16: Mơ hình xếp chồng 167 Hình 17: Xếp chồng giai đoạn 168 Hình 18: Tổng quan mạng học sâu .169 Hình 19: Sơ đồ bước làm học sâu 171 Hình 20: Mơ hình ANN 172 Hình 21: Mơ hình tổng qt CNN 174 Hình 22: Thủ tục thực tích chập 175 Hình 23: Hàm kích hoạt cho NN: a) ReLU, b) sigmoid, c) 175 Hình 24: Cấu trục máy học cực đoan .177 Hình 25: Sự khác biệt đào tạo tiêu chuẩn theo phương pháp học máy truyền thống học chuyển tiếp .179 vi Bài giảng Lưu trữ phân tích liệu Hình 26: Q trình trực quan hóa liệu lớn 181 vii Bài giảng Lưu trữ phân tích liệu THUẬT NGỮ VIẾT TẮT Từ viết tắt Nghĩa tiếng Anh Nghĩa tiếng Việt Associtation for the Advancement of Hiệp hội tiến Medical Instrumentation Thiết bị y tế ACM Computing Analysis Scheme Hiệp hội Máy tính Quốc tế AED Automated External Defibrillator AGI Artificial General Intelligence Trí tuệ nhân tạo tổng hợp AHA American Heart Association Hiệp hội Tim mạch Hoa Kỳ AI Artificial Intelligence Trí tuệ nhân tạo ANI Artificial Narow Intelligence Trí tuệ nhân tạo hẹp ASI Artificial Super Intelligence Trí tuệ siêu nhân tạo AUC Area Under the Curve Diện tích đường cong AV AtrioVentricular Nút nhĩ thất BG Bagging Thuật tốn đóng bao AAMI viii Máy khử rung tim tự động bên Bài giảng Lưu trữ phân tích liệu CNN Convolutional Neural Network CSV Comma Separated Values Mạng nơ-ron tích chập Các giá trị phân tách dấu phẩy Creighton University Ventricular Cơ sở liệu nhịp nhanh Tachyarrhythmia Database thất Đại học Creighton DL Deep Learning Học sâu ECG EletroCardioGram Điện tâm đồ EMD Empirical Mode Decomposition Phân rã tín hiệu thực nghiệm IBM International Business Machines IMF Intricsic Mode Function KNN K-Nearest Neighbor ML Machine Learning ROC Receiver Operating Curve SA SinoAtrial Nút xoang nhĩ SAA Shock Advice Algorithm Thuật toán tư vấn sốc SCA Sudden Cardiac Arrest Ngưng tim đột ngột SVM Support Vector Machine Máy vecto hỗ trợ VF Ventricular Fibrillation Rung thất CUDB ix Tập đồn cơng nghệ máy tính đa quốc gia Hàm chế độ nội Thuật toán K láng giềng gần Học máy Đường cong đặc trưng hoạt động phận thu-nhận Chương Phân tích liệu thơng minh Các khối xây dựng CNN bao gồm ba lớp: đầu vào, lớp ẩn lớp đầu Vectơ đầu vào X cung cấp cho nơ-ron riêng biệt nhận đầu Y từ cách sử dụng phép toán F cho F(X,W)=Y Trong đó, W đại diện cho hệ số trọng số dùng để giải thích tầng số kết nối với lớp nơ-ron lân cận; sử dụng toán phân loại ảnh Lớp ẩn CNN bao gồm phần tử sau hiển thị Hình 6.21 đặt tên lớp tích chập, lớp pooling lớp kết nối đầy đủ Trong kiến trúc chuẩn, lớp tích chập ban đầu sử dụng, lớp pooling Các lớp kết nối đầy đủ tạo thành kiến trúc lớp khác cấu trúc ANN Lớp cuối kết nối với lớp đầu Lan truyền nguồn cấp liệu thực cách chuyển đổi liệu đầu vào thành liệu đầu cách sử dụng lớp Quy trình làm việc phần tử thảo luận Hình 21: Mơ hình tổng qt CNN Lớp tích chập Phần tử kiến trúc CNN lớp tích chập để trích xuất tính năng, mang tập hợp hàm tuyến tính phi tuyến gọi hàm tích chập kích hoạt, tương ứng Trong tích chập, hạt nhân kernel (tức mảng số) áp dụng cho đầu vào (tensor) Một element-wise dot thực phần tử nhân phần tử tensor đầu vào tích hợp để đạt kết đầu không gian tương ứng tensor đầu ra, gọi đồ đặc trưng, Hình 6.22 Quá trình tương tự lặp lại để tạo đồ đặc trưng không giới hạn đại diện cho đặc điểm tensor đầu vào khác cho hạt nhân kernel xem 174 Chương Phân tích liệu thơng minh trích xuất đặc trưng Kích thước số lượng kernel hai tham số mơ tả phép tốn tích chập Hình 22: Thủ tục thực tích chập Việc chia sẻ trọng số q trình tích chập tạo đặc điểm sau: (i) cho phép mẫu đặc trưng cục bắt nguồn phép dịch-bất biến kernel di chuyển qua tất vị trí ảnh nhận mẫu cục học; (ii) cách giảm mẫu xuống down sampling kết hợp với hoạt động pooling, nghiên cứu phân cấp không gian cấu hình đặc trưng, dẫn đến việc thu thập trường xem rộng theo cấp số nhân; (iii) độ tin cậy mơ hình học cách giảm số lượng tham số so với mạng nơ-ron kết nối đầy đủ Phép toán tích chập thực cách sử dụng aij = ((W * X )ij + b) Trong X đầu vào cấp cho lớp, kernal trượt qua đầu vào W b đại diện cho độ lệch Mục đích phép tính tích chập ảnh làm mờ, làm nét ảnh, xác định đường,…Mỗi kernel khác có phép tính tích chập có ý nghĩa khác Hàm kích hoạt phi tuyến Sau đó, hàm kích hoạt với đặc tính phi tuyến chuyển qua đầu tích chập Các hàm trơn, phi tuyến bao gồm hàm tiếp tuyến sigmoid hyperbolic có sẵn với hành vi toán học nơron sinh học, thể Hình 6.23 Hình 23: Hàm kích hoạt cho NN: a) ReLU, b) sigmoid, c) Lớp tổng hợp (Lớp pooling) 175 Chương Phân tích liệu thông minh Trong pooling, bất biến dịch thêm vào dịch chuyển phép biến đổi nhỏ Số lượng tham số học tương ứng giảm quy trình lấy mẫu xuống làm giảm kích thước mặt phẳng hàm map Với mục đích này, cửa sổ chọn thực hoạt động pooling mục đầu vào chuyển hàm pooling nằm cửa sổ Max pooling average pooling chiến lược pooling sử dụng rộng rãi Max pooling - Đây cách tiếp cận sử dụng rộng rãi để trích xuất patch từ feature map đầu vào loại bỏ tất giá trị khác để nhận giá trị đầy đủ từ patch dạng đầu Nó làm giảm kích thước map đáng kể Average pooling tồn cục - Nó tiến hành down sampling feature map thành mảng × cách lấy giá trị trung bình tất phần tử có feature map, giữ cho độ sâu khơng đổi Lớp kết nối đầy đủ (Fully connected) Lớp mơ hình chung tương đương với lớp kết nối đầy đủ Đầu từ giai đoạn (tức tích chập pooling) áp dụng cho lớp kết nối đầy đủ Sản phẩm chấm lấy vectơ trọng lượng đầu vào để đạt đầu cuối Thuật toán ngoại tuyến học chế độ hàng loạt tên gọi khác gradient descent Nó làm giảm giá trị hàm fitness thông qua việc đánh giá fitness qua tập liệu huấn luyện đầy đủ tất giá trị thông số cập nhật sau epoch Một epoch tương ứng với toàn tập liệu Điều cung cấp giải pháp tối ưu toàn cục, để đào tạo tập liệu lớn thơng qua mạng, địi hỏi lượng lớn thời gian Hàm kích hoạt lớp cuối Một hàm SoftMax áp dụng hàm kích hoạt tốn phân loại để kích hoạt nơ-ron chuẩn hóa tất giá trị từ đến tổng cho tất giá trị 6.4.2.1.2 Máy học cực đoan Trong thập kỷ trước, ANN thu hút ý nhà nghiên cứu lĩnh vực nghiên cứu khác DSP (xử lý tín hiệu kỹ thuật số), dự báo xác nhận dạng mẫu Mạng nơ-ron đơn-lớp ẩn-lớp-chuyển-tiếp (SFLN) hình thức ANN chấp nhận nhiều G Huang cộng trình bày máy học cực đoan (ELM) vào năm 2006 để cung cấp hiệu suất tổng quát hóa tốt tốc độ học cực nhanh ELM không yêu cầu lan truyền ngược dựa gradient để hoạt động Nó sử dụng nghịch đảo tổng quát Moore-Penrose để thiết lập trọng số Một thuật tốn học tiêu chuẩn cho mạng nơ-ron yêu cầu để xác định tất tham số trình huấn luyện cách ngẫu nhiên sử dụng phương pháp lặp lại để tinh chỉnh tham số Nó tạo câu trả lời tối ưu cục Nhưng ELM, trọng số độ lệch nơ-ron ẩn cần thiết để đặt ngẫu nhiên 176 Chương Phân tích liệu thơng minh Các trọng số tính theo quy tắc Moore-Penrose theo tiêu chí bình phương nhỏ ELM dựa SFLN bao gồm đầu vào, đầu lớp ẩn kiến trúc Trong thuật tốn ELM, cần thiết lập số nơ-ron ẩn Giá trị trọng số sử dụng lớp đầu vào đầu độ lệch tạo ngẫu nhiên ELM Việc tính tốn ma trận cho lớp ẩn thực Bước cập nhật trọng số cách sử dụng nghịch đảo Moore-Penrose ELM có tốc độ học nhanh kiến trúc đơn giản u cầu tham số tính tốn Kiến trúc ELM cho Hình 6.24 Hình 24: Cấu trục máy học cực đoan Xét N mẫu tùy ý (Xj, tj) Rn XRm với SLFN, có L nút ẩn xấp xỉ N mẫu với sai số khơng Hàm kích hoạt G( i , i , X i ) thể mô hình tốn học sau L f L ( X j ) = i G ( i X j + bi ) = t j i =1 Trong đó, i bi tham số học nút ẩn, i kết nối vectơ trọng số đầu vào nút đầu vào với nút ẩn bi biểu thị ngưỡng nút ẩn ith i tj đại diện cho trọng số đầu điểm kiểm tra, hàm kích hoạt G( i , i , X i ) cung cấp đầu cho nút ẩn ith Phương trình đưa H =T G (1 , 1 , X ) Trong đó: H = (1 , , L , b1 , , bL , X , X N ) = G (1 , 1 , X N ) 1T T1T = ,T = LT TLT 177 G ( L , L , X ) G ( L , L , X N ) NXL Chương Phân tích liệu thơng minh Theo lý thuyết ELM, giá trị i bi tạo ngẫu nhiên Nghiệm phương trình cho theo cách sau: = H *T H* nghịch đảo cho ma trận đầu H Nghịch đảo tổng quát Moore-Penrose sử dụng cho mục đích Để có kết nâng cao ổn định từ mạng này, thuật ngữ quy thêm vào Nếu tế bào thần kinh lớp ẩn so với mẫu huấn luyện, biểu diễn dạng −1 1 = + H * H H *T Nếu nút lớp ẩn nhiều so với mẫu đào tạo, biểu thị −1 1 = H * + H * H T 6.4.2.1.2 Học chuyển giao Yêu cầu thuật toán dựa AI liệu đào tạo liệu mục tiêu phải có khơng gian hàm với phân phối Tuy nhiên, giả định không áp dụng số triển khai thực tế Trong trường hợp này, việc truyền tải thông tin hiệu tăng cường đáng kể hiệu học tập cách ngăn chặn nỗ lực gắn nhãn liệu lãng phí Nếu khơng gian đặc trưng và/hoặc phân bố liệu khác nhau, mơ hình phải tạo Bất nhận tập liệu mới, việc tạo mơ hình từ đầu trở nên tốn Vì vậy, học chuyển giao giảm thiểu nhu cầu nỗ lực ghi nhớ khối lượng liệu đào tạo khổng lồ Học tập chuyển giao bao gồm phương pháp truyền tải sử dụng thông tin thu nhiều tập để tạo điều kiện thuận lợi cho việc học tập nhiệm vụ mục tiêu có liên quan Các thuật tốn truyền thống để khai thác liệu học sâu đưa dự báo cho mơ hình sử dụng liệu tương lai dựa số liệu thống kê Các mơ hình đào tạo dựa liệu đào tạo phân loại không gắn nhãn thu trước Mục đích học chuyển giao tận dụng lợi ích liệu từ tập hợp để đạt kiến thức hữu ích tập hợp thứ hai có u cầu đưa dự đốn trực tiếp 178 Chương Phân tích liệu thơng minh Hình 25: Sự khác biệt đào tạo tiêu chuẩn theo phương pháp học máy truyền thống học chuyển tiếp Các phương pháp học máy tiêu chuẩn học tác vụ từ đầu, học chuyển giao sử dụng thơng tin từ tác vụ trước sang tác vụ mục tiêu mà tác vụ sau có liệu đào tạo chất lượng cao Những cân nhắc quan trọng học chuyển tiếp Ba vấn đề nghiên cứu xem xét trình học chuyển tiếp: 1) Chuyển giao gì, 2) chuyển giao nào, 3) chuyển giao Các câu hỏi “Chuyển giao gì” nên chuyển phần thông tin nguồn hoạt động mục tiêu Một số kiến thức cho lĩnh vực nhiệm vụ cụ thể số kiến thức phổ biến lĩnh vực khác nhau, để đầu miền nhiệm vụ đích nâng cao “Khi cần chuyển giao” hỏi tình nên thực kỹ chuyển giao Chúng ta không nên cố gắng kết hợp việc học chuyển giao miền nguồn miền mục tiêu hồn tồn khơng kết nối Các hình thức học chuyển giao Học chuyển giao phân thành ba lớp: học tập chuyển giao quy nạp, chuyển đổi không giám sát tóm tắt Hình 6.25 Phương pháp học chuyển giao ba bối cảnh khác chia thành bốn nhóm sở “Chuyển giao gì” Nhóm sử dụng số liệu miền nguồn phần sử dụng để học miền đích Trong trường hợp này, kỹ thuật lấy mẫu trọng số lấy mẫu ý nghĩa sử dụng Loại thứ hai cách tiếp cận chuyển giao feature map Khái niệm sử dụng cho phương pháp tìm hiểu cách biểu diễn miền đích thành cơng tính Thơng tin sử dụng để chuyển miền nhóm mã hóa thành biểu diễn hàm thu được, cho làm tăng đáng kể hiệu nhiệm vụ mục tiêu Loại thứ ba cách tiếp cận truyền tham số, tham số 179 Chương Phân tích liệu thơng minh định mơ hình phân phối tác vụ nguồn mục tiêu Trong tham số tương hỗ trước đó, thơng tin truyền mã hóa Cuối cùng, loại cuối phương pháp tiếp cận chuyển giao kiến thức-quan hệ, quản lý mối quan hệ lĩnh vực khác 6.5 Trực quan báo cáo phân tích liệu 6.5.1 Trực quan liệu 6.5.1.1 Giới thiệu trực quan hóa liệu Trực quan hóa hình ảnh đồ họa hiển thị liệu Trực quan hóa liệu phải diễn giải cách thức để đánh giá trích xuất quan điểm chuyên sâu từ liệu lớn Trực quan hóa liệu giúp kéo nhiều điểm liệu lại với nhau, hiểu mối quan hệ liệu thảo luận vấn đề thời gian thực dễ dàng xác định vị trí tập trung phân tích Nó cho phép nhà khoa học liệu tìm mẫu liệu bí mật cách chúng lưu trữ Các nhà phân tích kinh doanh sử dụng kỹ thuật trực quan hóa liệu để xác định lĩnh vực cần thay đổi nâng cao, tập trung vào biến số ảnh hưởng đến hành vi người tiêu dùng dự báo khối lượng doanh thu Trực quan hóa liệu biểu diễn liệu thông qua việc sử dụng đồ họa thông thường, chẳng hạn biểu đồ, hình vẽ, đồ họa thơng tin chí hình ảnh động Những hình hiển thị thông tin trực quan truyền đạt mối quan hệ liệu phức tạp thông tin chi tiết theo hướng liệu theo cách dễ hiểu Trực quan hóa liệu bước quan trọng quy trình khoa học liệu, giúp nhóm cá nhân truyền tải liệu hiệu đến đồng nghiệp người định Các nhóm quản lý hệ thống báo cáo thường tận dụng chế độ xem mẫu xác định để theo dõi hiệu suất Tuy nhiên, trực quan hóa liệu không giới hạn trang tổng quan hiệu suất Ví dụ: khai thác văn bản, nhà phân tích sử dụng đám mây từ để nắm bắt khái niệm chính, xu hướng mối quan hệ ẩn liệu phi cấu trúc Ngồi ra, họ sử dụng cấu trúc đồ thị để minh họa mối quan hệ thực thể biểu đồ tri thức Trực quan hóa liệu sử dụng cho nhiều mục đích khác điều quan trọng cần lưu ý khơng dành riêng cho nhóm liệu Ban quản lý tận dụng để truyền đạt cấu trúc tổ chức hệ thống phân cấp nhà phân tích liệu nhà khoa học liệu sử dụng để khám phá giải thích mẫu xu hướng Harvard Business Review phân loại trực quan hóa liệu thành bốn mục đích chính: tạo ý tưởng, minh họa ý tưởng, khám phá trực quan liệu hàng ngày • Ý tưởng tạo ra: Trực quan hóa liệu thường sử dụng để thúc đẩy trình tạo ý tưởng nhóm Họ thường tận dụng buổi trao đổi lên ý tưởng bắt đầu dự án cách hỗ trợ thu thập quan điểm khác nêu bật mối quan tâm chung tập thể 180 Chương Phân tích liệu thơng minh • Minh họa ý tưởng: Trực quan hóa liệu để minh họa ý tưởng hỗ trợ truyền đạt ý tưởng, chẳng hạn chiến thuật quy trình Nó thường sử dụng môi trường học tập, chẳng hạn hướng dẫn, khóa học chứng nhận, sử dụng để đại diện cho cấu trúc quy trình tổ chức, tạo điều kiện giao tiếp cá nhân phù hợp cho nhiệm vụ cụ thể Các nhà quản lý dự án thường sử dụng biểu đồ Gantt biểu đồ thác nước để minh họa quy trình làm việc Mơ hình hóa liệu sử dụng tính trừu tượng để trình bày hiểu rõ luồng liệu hệ thống thông tin doanh nghiệp, giúp nhà phát triển, nhà phân tích kinh doanh, kiến trúc sư liệu người khác hiểu mối quan hệ sở liệu kho liệu dễ dàng • Khám phá trực quan trực quan hóa liệu hàng ngày liên kết chặt chẽ với nhóm liệu Mặc dù khám phá trực quan giúp nhà phân tích liệu, nhà khoa học liệu chuyên gia liệu khác xác định mẫu xu hướng tập liệu, liệu hàng ngày hỗ trợ việc kể chuyện sau tìm thấy thơng tin chi tiết Hình 26: Q trình trực quan hóa liệu lớn 6.5.1.2 Quy trình trực quan hóa liệu lớn Như thấy hình trình trực quan hóa liệu lớn, phương pháp trực quan bao gồm bước sau: • Bước phương pháp trực quan truy xuất liệu từ nhiều nguồn Có thể có liệu phi cấu trúc/bán cấu trúc thu từ nguồn khơng đồng nhất, liệu cần phân tích cú pháp định dạng có cấu trúc Để dễ hình dung, tất liệu khơng cần thiết • Bước loại bỏ liệu không quan trọng Dưới dạng sơ đồ biểu đồ, mẫu hữu ích sau suy biểu diễn Các mẫu hữu ích sau trích xuất mô tả biểu đồ đồ thị để thể hiểu biết đơn giản người dùng kiến thức bí mật 6.5.1.3 Các loại trực quan hóa liệu Hình thức trực quan hóa liệu sớm bắt nguồn từ người Ai Cập trước kỷ 17, phần lớn sử dụng để hỗ trợ điều hướng Theo thời gian, người tận 181 Chương Phân tích liệu thơng minh dụng trực quan hóa liệu cho ứng dụng rộng hơn, chẳng hạn lĩnh vực kinh tế, xã hội, y tế Có lẽ đáng ý nhất, Edward Tufte xuất Hiển thị trực quan thơng tin định lượng (liên kết nằm bên ngồi IBM), minh họa cá nhân sử dụng trực quan hóa liệu để trình bày liệu theo cách hiệu Cuốn sách ông tiếp tục đứng vững trước thử thách thời gian, đặc biệt công ty chuyển sang trang tổng quan để báo cáo số hiệu suất họ thời gian thực Trang tổng quan công cụ trực quan hóa liệu hiệu để theo dõi trực quan hóa liệu từ nhiều nguồn liệu, cung cấp khả hiển thị tác động hành vi cụ thể nhóm nhóm liền kề hiệu suất Trang tổng quan bao gồm kỹ thuật hình ảnh hóa phổ biến, chẳng hạn như: • Bảng: Bao gồm hàng cột sử dụng để so sánh biến Các bảng hiển thị nhiều thơng tin theo cách có cấu trúc • Biểu đồ hình tròn biểu đồ xếp chồng lên nhau: Những biểu đồ chia thành phần đại diện cho phần tổng thể Chúng cung cấp cách đơn giản để tổ chức liệu so sánh kích thước thành phần với • Biểu đồ đường biểu đồ khu vực: Những hình ảnh trực quan cho thấy thay đổi nhiều số lượng cách vẽ loạt điểm liệu theo thời gian thường sử dụng phân tích dự đốn Biểu đồ đường sử dụng đường để thể thay đổi biểu đồ vùng kết nối điểm liệu với đoạn đường, xếp chồng biến lên sử dụng màu sắc để phân biệt biến • Biểu đồ: Biểu đồ vẽ biểu đồ phân bố số biểu đồ (khơng có khoảng cách thanh), đại diện cho số lượng liệu nằm phạm vi cụ thể Hình ảnh trực quan giúp người dùng cuối dễ dàng xác định ngoại lệ tập liệu định • Biểu đồ phân tán: Những hình ảnh trực quan có lợi việc khám phá mối quan hệ hai biến chúng thường sử dụng phân tích liệu hồi quy Tuy nhiên, đơi chúng bị nhầm lẫn với biểu đồ bong bóng, sử dụng để hình dung ba biến số thông qua trục x, trục y kích thước bong bóng • Bản đồ nhiệt: Các hình biểu diễn đồ họa hữu ích việc trực quan hóa liệu hành vi theo vị trí Đây vị trí đồ chí trang web • Bản đồ dạng cây, hiển thị liệu phân cấp dạng tập hợp hình dạng lồng nhau, thường hình chữ nhật Biểu đồ dạng tuyệt vời để so sánh tỷ lệ danh mục thơng qua kích thước khu vực chúng 6.5.1.4 Phương pháp trực quan hóa liệu lớn 182 Chương Phân tích liệu thơng minh Một số phương pháp tiếp cận trực quan hóa liệu lớn sử dụng Các phương pháp phân loại dựa trên: (1) kích thước liệu, (2) đa dạng cho liệu (3) động lực liệu Các phương pháp khác để hiển thị liệu là: • Đóng gói vịng trịn: Đây phương pháp tiếp cận dạng đồ thay sử dụng vòng tròn để đại diện cho lớp phân cấp khác Vùng hình trịn xác định số lượng loại Nó sử dụng nhiều màu nhóm khác nhau, bao gồm dạng treemap Cách tiếp cận không hiệu không gian, trái ngược với sơ đồ dạng • Tọa độ song song: Phương pháp phương tiện hiển thị liệu lớn Các thành phần liệu ánh xạ riêng rẽ qua nhiều kích thước; rừng nhìn thấy tọa độ song song Xu hướng đường vẽ để thu thập kết quán Tuy nhiên, nhiều đối tượng liệu góp phần vào việc ghi đè Phương pháp không sử dụng để phân loại liệu • Đồ thị luồng: Phương pháp sử dụng để hiển thị dịch chuyển giá trị dọc theo dòng thời gian trung tâm khác Nó cải tiến liệu từ nhiều danh mục theo thời gian Kích thước biểu mẫu luồng giá trị danh mục biểu đồ luồng Lý tưởng để trình bày tập liệu lớn 6.5.1.5 Các cơng cụ trực quan hóa liệu Các cơng cụ trực quan hóa liệu nhanh chóng đạt nhận thức từ khối lượng lớn thông tin Mọi người khám phá điều họ khơng biết (ngoại lệ, mơ hình bí mật nhóm) cơng cụ hồn hảo để trực quan hóa liệu Những công cụ cho phép đào sâu vào tập liệu chuyển đổi nhanh chóng Các tính cho ứng dụng trực quan hóa liệu lớn nêu bảng sau: Bảng 1: Các cơng cụ trực quan hóa liệu Cơng cụ Tableau Ứng dụng Đặc tính Nền tảng trí tuệ thị trường để Có thể quản lý lượng liệu khổng lồ, thu thập liệu trực quan lọc nhiều tập liệu đồng thời, người sử dụng học giả dùng tạo chia sẻ động có quan cơng quyền Plotly thể chia sẻ, bảng điều khiển mô tả mẫu biến thể, phát triển bảng điều khiển tương tác, hỗ trợ R tích hợp, API truy vấn liệu lớn Google Vẽ đồ thị trực tuyến, phân tích Framework truy cập mở dành cho công cụ tĩnh phân tích liệu nghiên cứu thị thư viện đồ họa Python, R, trường 183 Chương Phân tích liệu thơng minh MATLAB, Perl, J Arduino Restate SAS Visual Analytics Microsoft Power BI Công cụ thiết kế; báo cáo, Công cụ nghiên cứu đầy đủ bảng điều khiển phân phối phép người dùng nhận xu phân tích hướng mối quan hệ liệu ban đầu không rõ ràng Sử dụng câu hỏi ngôn ngữ Đối với người dùng doanh nghiệp với tự nhiên trang tổng quan phép đo quan trọng họ để tạo đồ họa, biểu đồ trang nơi nhất, cập nhật gần tổng quan phong phú D3.js theo thời gian thực khả dụng tất thiết bị họ, bảng điều khiển điện bao gồm chế độ xem 360 ° Sử dụng SVG, đặc tả CSS Thư viện JavaScript để trực quan hóa HTML5 thường áp dụng trình duyệt web cộng tác, phong phú 6.5.2 Cấu trúc báo báo phân tích liệu 6.5.2.1 Cấu trúc tổng thể Cấu trúc tổng thể báo cáo phân tích liệu đơn giản: Giới thiệu Phần thân Kết luận / Thảo luận Phụ lục / Phụ lục Báo cáo phân tích liệu viết cho nhiều đối tượng khác lúc: • Đối tượng chính: Một cộng tác viên khách hàng Đọc Phần mở đầu có lẽ phần kết luận để biết bạn làm kết luận bạn gì/lướt qua Phần thân, dừng lại số chi tiết bổ sung phần họ cho thú vị bắt mắt Sắp xếp báo xung quanh chương trình làm việc cho trị chuyện mà bạn muốn có với người bạn học liệu họ Cung cấp chứng từ phân tích bạn (dạng bảng, dạng đồ họa cách khác) Phần nội dung để hỗ trợ điểm kết luận mà bạn đạt được, lưu chứng chi tiết tài liệu phụ trợ khác cho Phụ lục 184 Chương Phân tích liệu thơng minh • Đối tượng thứ cấp: Một người điều hành Có lẽ đọc lướt phần Giới thiệu có lẽ phần Kết luận để tìm hiểu xem bạn làm kết luận bạn Để lại biển dẫn Phần mở đầu, Phần thân Phần kết luận để người dễ dàng truy cập, tìm thấy “tiêu đề” cơng việc kết luận bạn quay lại • Đối tượng phụ: Người giám sát kỹ thuật Đọc Phần nội dung sau xem phần Phụ lục kiểm sốt chất lượng: Bạn làm tốt công việc việc (nêu và) trả lời câu hỏi thú vị? Bạn làm việc hiệu nào? Bạn có đạt kết luận hợp lý phương pháp thống kê bảo vệ không? Thực tham chiếu chéo cụ thể Phần thân phần cụ thể Phụ lục để người dễ dàng tìm thấy tài liệu hỗ trợ phụ trợ liên quan đến phân tích mà bạn báo cáo Phần thân Thêm văn vào tài liệu kỹ thuật Phụ lục để người thấy cách thức lý bạn thực cơng việc chi tiết trình bày Báo cáo phân tích liệu trình bày số liệu, phân tích, kết luận đề xuất định dạng trực quan dễ tiếp cận để người tổ chức đưa định dựa liệu Hay nói cách khác báo cáo trình xếp liệu thành tóm tắt thơng tin để theo dõi lĩnh vực khác tổ chức hoạt động Báo cáo phân tích sử dụng liệu định tính định lượng tổ chức để phân tích đánh giá chiến lược quy trình kinh doanh đồng thời trao quyền cho nhân viên đưa định dựa liệu dựa chứng phân tích Sự khác báo cáo phân tích liệu Báo cáo chuyển liệu thơ thành thơng tin Phân tích chuyển đổi liệu thông tin thành thông tin chi tiết Báo cáo giúp công ty giám sát hoạt động kinh doanh trực tuyến họ cảnh báo liệu nằm phạm vi dự kiến Báo cáo tốt đặt câu hỏi doanh nghiệp từ người dùng cuối Mục tiêu phân tích trả lời câu hỏi cách giải thích liệu mức độ sâu đưa khuyến nghị hành động Thơng qua q trình thực phân tích, đưa câu hỏi bổ sung, mục tiêu xác định câu trả lời, câu trả lời tiềm kiểm tra Tóm lại, báo cáo cho bạn biết điều xảy phân tích tập trung vào việc giải thích lý điều xảy bạn làm với điều Mặc dù báo cáo phân tích dựa số liệu thống kê, liệu lịch sử đưa dự đốn vấn đề cụ thể, việc sử dụng phổ biến việc phân tích liệu loạt ngành Ví dụ, bệnh viện thấy phân tích thời gian chờ đợi trung bình giảm bớt cách tiến hành hành động cụ thể Một đại lý tiếp thị định phân bổ ngân sách theo cách khác sau nhóm nhận thấy hầu hết lưu lượng truy cập đến từ nguồn ngân sách đầu tư khác Ứng dụng loại báo cáo khác nhau, đó, phong cách viết tạo hiểu biết có giá trị khác biệt ngành 6.5.2.2 Tầm quan trọng báo cáo phân tích liệu đại 185 Chương Phân tích liệu thơng minh Nếu tận dụng tối đa báo cáo phân tích hiệu quả, gặt hái mang lại nhiều lợi ích cho cá nhân tổ chúc Các báo cáo phân tích đại nâng cao hiệu giao tiếp công ty công ty với công ty khác Việc sử dụng báo cáo phân tích đảm bảo tính khách quan, quán xác liệu tảng Vì vậy, cần thơng tin, họ truy cập báo cáo lúc mà không cần lặp lại yêu cầu người khác gửi tài liệu Do q trình giao tiếp làm việc trở nên hiệu Quan trọng hơn, sử dụng báo cáo phân tích khơng giúp giảm bớt trình định mà cho phép nhà quản lý đưa định dựa phân tích đầy đủ thay kinh nghiệm Các báo cáo phân tích đại thường chứa đầy liệu trực quan để người quản lý tìm vấn đề cách trực quan sau phân tích ngun nhân cách sử dụng chức khoan liệu công cụ báo cáo Khoan liệu đề cập đến hoạt động biến đổi khác liệu dạng bảng, quan hệ đa chiều Thuật ngữ sử dụng rộng rãi bối cảnh khác nhau, chủ yếu liên quan đến phần mềm chuyên dụng thiết kế đặc biệt để phân tích liệu Ngồi ra, báo cáo phân tích tạo phần mềm báo cáo cung cấp liệu cập nhật kịp thời cho công ty để theo dõi số thơng tin chuẩn bị cho thách thức tiềm ẩn Và họ dự đốn xu hướng tương lai dựa xu hướng lịch sử hiển thị báo cáo 6.5.2.3 Các bước lập báo cáo phân tích ❖ Bước 1: Xem xét mục tiêu đối tượng bạn Thông thường, nên xác định mục tiêu tốt trước bắt đầu việc Tương tự vậy, trước lập báo cáo phân tích, nhớ nói rõ mục đích Nếu khơng, cuối vơ ích Vì vậy, việc lập báo cáo phân tích định hướng mục tiêu vô cần thiết Bên cạnh mục tiêu, đối tượng yếu tố cần quan tâm Những người dùng cuối ảnh hưởng đến trọng tâm báo cáo phân tích liệu Những người vị trí khác phân tích vấn đề từ cấp độ khác Vì vậy, cố gắng suy nghĩ người đọc, người nghe, người sử dụng báo cáo phân tích liệu kỳ vọng họ trước tạo báo cáo phân tích ❖ Bước 2: Tập trung vào KPI Thu thập thông tin liên quan Một báo cáo phân tích sử dụng để giúp người định có thơng tin quan trọng Do đó, nên tập trung vào số thơng tin sau lọc phân tích lượng lớn liệu thay ghi lại tồn thơng tin để người đọc tự phân tích ❖ Bước 3: Chọn loại báo cáo phân tích thích hợp Theo truyền thống, liệu hiển thị trang, điều trực tiếp làm tăng độ dài báo cáo Do sử dụng số loại báo cáo chứa khối lượng lớn 186 Chương Phân tích liệu thơng minh liệu hình Một số dạng báo cáo sử dụng phổ biến như: báo cáo tổng quan, báo cáo tổng hợp dashboard reporting Báo cáo tổng quan loại báo cáo giống excel Điểm khác biệt rõ ràng loại báo cáo hỗ trợ tìm nạp liệu từ nhiều sở liệu lập báo cáo cho mục đích khác nhau, chẳng hạn báo cáo phân tích bán hàng, báo cáo phân tích nhân sự, báo cáo phân tích tài chính, Dashboard reporting giao diện số trực quan sử dụng để thu thập tổng hợp liệu doanh nghiệp, Dashboard reporting giải pháp báo cáo phân tích nhằm hỗ trợ nhà quản lý dễ dàng đưa định đắn, nhanh chóng, kịp thời Câu hỏi tập Thế phân tích liệu thơng minh? Hãy trình bày nhiệm vụ quy trình phân tích liệu thơng minh Trích xuất liệu gì? Nêu vấn đề việc trích xuất liệu Hãy trình bày ngơn ngữ trích xuất liệu (DEL) Trình bày phương pháp trích xuất liệu Thế biến đổi liệu? Nêu lợi ích thách thức việc biến đổi liệu Hãy trình bày phương pháp biến đổi liệu Chuẩn hóa liệu gì? Hãy trình bày số kỹ thuật chuẩn hóa liệu Phân tích học máy gì? Phân loại phương pháp phân tích học máy Thế học sâu? Trình bày mơ hình mạng nơ-ron tích chập (CNN) 10 Trực quan hóa liệu gì? Phân loại trực quan hóa liệu 11 Hãy trình bày cấu trúc tổng thể báo cáo phân tích liệu 187 Tài liệu tham khảo TÀI LIỆU THAM KHẢO [1] Amit Kumar Tyagi, Data science and Data analysis, Chapman and Hall/CRC, 2022 [2] Roy Jafari, Hands-On Data Preprocessing in Python: Learn how to effectively prepare data for successful data analytics, 2022, ISBN: 1801072132,9781801072137 [3] R O Duda, P E Hart, and D G Stork, Pattern Classification, 2nd ed New York, NY, USA: Wiley, 2001 [4] Yong Shi, Advances in Big Data Analytics, 2022, ISBN: 9811636060,9789811636066 [5] Kiran Chaudhary, Mansaf Alam, Big Data Analysis: Applications in Business and Marketing, 2022 [6] Debabrata Samanta, S K Hafizul Islam, Naveen Chilamkurti, Mohammad Hammoudeh, Data Analytics, Computational Statistics, and Operations Research for Engineers: Methodologies and Applications, 2022, ISBN: 0367715112,9780367715113 [7] Hwang, Jaejin; Yoon, Youngjin, Data Analytics and Visualization in Quality Analysis using Tableau, 2021, ISBN: 9780367744144,9780367744168,9781003157694 188