Bài giảng môn học KHAI PHÁ DỮ LIỆU CHƯƠNG 3. HIỂU DỮ LIỆU VÀ TIỀN XỬ LÝ DỮ LIỆU
Chương 3: Tiền xử lý dữ liệu
Hiểu dữ liệu
3.1.1. Vai trò của hiểu dữ liệu: một mô hình KPDL hướng BI
Vai trò của hiểu dữ liệu: Một mô hình KPDL hướng ứng dụng
Hiểu dữ liệu qua hai phiên bản sách
3.1.2. Kiểu tập dữ liệu
Đặc trưng quan trọng của DL có cấu trúc
Đối tượng dữ liệu
Thuộc tính
Kiểu thuộc tính
Kiểu thuộc tính số
Thuộc tính rời rạc và liên tục
3.1.4. Tương tự và phân biệt
Ma trận DL và ma trận phân biệt
Đo khảng cách thuộc tính định danh
Đo khoảng cách các thuộc tính nhị phân
Phân biệt giữa các biến nhị phân
Chuẩn hóa DL số
Ví dụ: Ma trận DL và ma trận phân biệt
Khoảng cách DL số: KC Minkowski
KC Minkowski: các trường hợp đặc biệt
Ví dụ: KC Minkowski
Biến có thứ tự
Thuộc tính có kiểu pha trộn
Độ tương tự cosine
Ví dụ: Đô tương tự Cosine
So sánh hai phân bố XS: Phân kỳ KL
Cách tính PK KL
3.1.4. Thu thập dữ liệu
3.1.5 . Mô tả thống kê cơ bản của dữ liệu
3.1.6. Mô tả dữ liệu: trực quan hóa
3.1.7. Đánh giá và lập hồ sơ dữ liệu
3.2. Tiền xử lý dữ liệu
3.2.1. Vai trò của tiền xử lý
Các vấn đề về chất lượng dữ liệu [RD00]
Độ đo đa chiều chất lượng dữ liệu
Các bài toán chính trong tiền XL DL
Các thành phần của tiền xử lý dữ liệu (Bảng 2.1)
Một số bài toán cụ thể
3.2.2. Làm sạch dữ liệu
Làm sạch dữ liệu
3.2.3. Xử lý thiếu giá trị
Dữ liệu nhiễu
Xử lý dữ liệu nhiễu
Phương pháp rời rạc hóa đơn giản: Xếp thùng (Binning)
Phương pháp xếp thùng làm trơn dữ liệu (Data Smoothing)
Phân tích cụm (Cluster Analysis)
Hồi quy (Regression)
3.3.4. Tích hợp dữ liệu
Nguồn dữ liệu đơn: mức sơ đồ (Ví dụ)
Nguồn dữ liệu đơn: mức thể hiện (Ví dụ)
Nguồn dữ liệu phức: sơ đồ/thể hiện (Ví dụ)
Nắm bắt dư thừa trong tích hợp dữ liệu
Chuyển dạng dữ liệu
Chuyển đổi dữ liệu: Chuẩn hóa
Chiến lược rút gọn dữ liệu
Kết hợp khối dữ liệu: DataCube Aggregation
Rút gọn chiều
Slide 60
Phân lớp cây quyết định
Slide 62
Slide 63
Nén dữ liệu (Data Compression)
Slide 66
Chuyển dạng sóng (Wavelet Transformation)
DWT cho nén ảnh
Phân tích thành phần chính (Principal Component Analysis )
Slide 70
Rút gọn kích thước số
Hồi quy và mô hình logarit tuyến tính
Phân tích hồi quy và mô hình logarit tuyến tính
Lược đồ (Histograms)
Phân cụm
Rút gọn mẫu (Sampling)
Slide 77
Slide 78
Rút gọn phân cấp
Rời rạc hóa
Rời rạc hóa và kiến trúc khái niệm
Rời rạc hóa & kiến trúc khái niệm DL số
Rời rạc hóa dựa trên Entropy
Phân đoạn bằng phân hoạch tự nhiên
Ví dụ luật 3-4-5
Sinh kiến trúc khái niệm cho dữ liẹu phân loại
Sinh kiến trúc khái niệm tự động