Tiếp tục chương 3, chương 4 của Bài giảng Kho dữ liệu và khai phá dữ liệu gồm các nội dung về tiền xử lí dữ liệu, phương pháp khai phá bằng luật kết hợp, phương pháp cây quyết định, các phương pháp phân cụm, phương pháp khai phá dữ liệu phức tạp. Mời các bạn tham khảo.
Chương Khai phá liệu 1 Nội dung Tiền xử lý liệu Phương pháp khai phá luật kết hợp Phương pháp định Các phương pháp phân cụm Các phương pháp khai phá liệu phức tạp Tiền xử lý liệu Dữ liệu phát sinh trình tác nghiệp gọi liệu thơ (raw/original data), Dữ liệu thô: Từ nguồn file/cơ sở liệu (database), Khơng hồn chỉnh: thiếu thuộc tính, giá trị cần Chứa giá trị nhiễu: có lỗi có giá trị lệch, Khơng qn Để khai phá khía cạnh khác chúng cần phải biến đổi dạng thích hợp, Tiền xử lý liệu Chất lượng liệu Tính xác (accuracy): giá trị ghi nhận với giá trị thực, Tính hành (currency/timeliness): giá trị ghi nhận không bị lỗi thời Tính tồn vẹn (completeness): tất giá trị dành cho biến/thuộc tính ghi nhận Tính quán (consistency): tất giá trị liệu biểu diễn tất trường hợp Tiền xử lý liệu Các kỹ thuật tiền xử lý: Tích hợp liệu (Data integration): Làm tăng lượng thông tin Tuy nhiên làm dư thừa khơng qn Làm liệu (Data cleaning): Bổ sung giá trị thiếu, Loại liệu nhiễu, Loại giá trị lệch, Nhất hóa liệu Tiền xử lý liệu Các kỹ thuật tiền xử lý (tt): Chuyển dạng liệu (Data transformation): Chuẩn hóa (normalization), Gộp nhóm (aggregation) Rút gọn liệu (Data reduction): Giảm số chiều, Giảm biểu diễn số lớn, Lựa chọn tập thuộc tính, … Tiền xử lý liệu Tóm tắt – mô tả liệu: Xác định thuộc tính (properties) tiêu biểu liệu xu hướng (central tendency) phân tán (dispersion) liệu Làm bật giá trị liệu nên xem nhiễu (noise) phần tử biên (outliers), cung cấp nhìn tổng quan liệu Tiền xử lý liệu Các yếu tố cần quan tâm nghiên cứu khai phá liệu: Xu hướng tập trung (central tendency): đặc trưng đại lượng thống kê: trung bình (Mean), trung vị (Median), mode, khoảng trung bình (midrange), … Sự phân ly (dispersion): tứ nhân vị (quartile), khoảng tứ phân vị (interquartile range), phương sai (variance), độ lệch chuẩn (standard deviation) Tiền xử lý liệu Công thức tính độ đo xu hướng liệu: Mean: Weighted arithmetic mean: Median: Tiền xử lý liệu Cơng thức tính độ đo xu hướng liệu (tt): Mode: giá trị xuất thường xuyên tập liệu Midrange: Giá trị trung bình trị lớn nhỏ tập liệu 10 ... xử lý liệu Phương pháp khai phá luật kết hợp Phương pháp định Các phương pháp phân cụm Các phương pháp khai phá liệu phức tạp Tiền xử lý liệu Dữ liệu phát sinh q trình tác nghiệp gọi liệu thơ... xếp: 3, 4, 4, 5, 6, 8, Q1 = 4; Q2 = 5; Q3 = Nếu vị trí cắt số tứ phân vị giá trị trung bình số 12 Tiền xử lý liệu Tóm tắt mơ tả liệu: Q1 Q2 Q3 (a): Dữ liệu cân đối (b): Dữ liệu lệch... dương (c): Dữ liệu lệch âm Minimum < Q1 < Median < Q3 < Maximum 13 Tiền xử lý liệu Tóm tắt mơ tả liệu: Độ lệch chuẩn (Standard deviation): 14 Tiền xử lý liệu Làm liệu: Xử lý liệu bị thiếu