1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 4 - Nguyễn Ngọc Duy

114 12 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Khai Phá Dữ Liệu
Định dạng
Số trang 114
Dung lượng 3,68 MB

Nội dung

Tiếp tục chương 3, chương 4 của Bài giảng Kho dữ liệu và khai phá dữ liệu gồm các nội dung về tiền xử lí dữ liệu, phương pháp khai phá bằng luật kết hợp, phương pháp cây quyết định, các phương pháp phân cụm, phương pháp khai phá dữ liệu phức tạp. Mời các bạn tham khảo.

Chương Khai phá liệu 1 Nội dung Tiền xử lý liệu Phương pháp khai phá luật kết hợp Phương pháp định Các phương pháp phân cụm Các phương pháp khai phá liệu phức tạp Tiền xử lý liệu  Dữ liệu phát sinh trình tác nghiệp gọi liệu thơ (raw/original data),   Dữ liệu thô:  Từ nguồn file/cơ sở liệu (database),  Khơng hồn chỉnh: thiếu thuộc tính, giá trị cần  Chứa giá trị nhiễu: có lỗi có giá trị lệch,  Khơng qn Để khai phá khía cạnh khác chúng cần phải biến đổi dạng thích hợp, Tiền xử lý liệu  Chất lượng liệu     Tính xác (accuracy): giá trị ghi nhận với giá trị thực, Tính hành (currency/timeliness): giá trị ghi nhận không bị lỗi thời Tính tồn vẹn (completeness): tất giá trị dành cho biến/thuộc tính ghi nhận Tính quán (consistency): tất giá trị liệu biểu diễn tất trường hợp Tiền xử lý liệu  Các kỹ thuật tiền xử lý:  Tích hợp liệu (Data integration):  Làm tăng lượng thông tin  Tuy nhiên làm dư thừa khơng qn  Làm liệu (Data cleaning):  Bổ sung giá trị thiếu,  Loại liệu nhiễu,  Loại giá trị lệch,  Nhất hóa liệu Tiền xử lý liệu  Các kỹ thuật tiền xử lý (tt):  Chuyển dạng liệu (Data transformation):   Chuẩn hóa (normalization),  Gộp nhóm (aggregation) Rút gọn liệu (Data reduction):  Giảm số chiều,  Giảm biểu diễn số lớn,  Lựa chọn tập thuộc tính,  … Tiền xử lý liệu  Tóm tắt – mô tả liệu:  Xác định thuộc tính (properties) tiêu biểu liệu xu hướng (central tendency) phân tán (dispersion) liệu  Làm bật giá trị liệu nên xem nhiễu (noise) phần tử biên (outliers), cung cấp nhìn tổng quan liệu Tiền xử lý liệu  Các yếu tố cần quan tâm nghiên cứu khai phá liệu:  Xu hướng tập trung (central tendency): đặc trưng đại lượng thống kê: trung bình (Mean), trung vị (Median), mode, khoảng trung bình (midrange), …  Sự phân ly (dispersion): tứ nhân vị (quartile), khoảng tứ phân vị (interquartile range), phương sai (variance), độ lệch chuẩn (standard deviation) Tiền xử lý liệu  Công thức tính độ đo xu hướng liệu:  Mean:  Weighted arithmetic mean:  Median: Tiền xử lý liệu  Cơng thức tính độ đo xu hướng liệu (tt):  Mode: giá trị xuất thường xuyên tập liệu  Midrange: Giá trị trung bình trị lớn nhỏ tập liệu 10 ... xử lý liệu Phương pháp khai phá luật kết hợp Phương pháp định Các phương pháp phân cụm Các phương pháp khai phá liệu phức tạp Tiền xử lý liệu  Dữ liệu phát sinh q trình tác nghiệp gọi liệu thơ... xếp: 3, 4, 4, 5, 6, 8,  Q1 = 4; Q2 = 5; Q3 = Nếu vị trí cắt số tứ phân vị giá trị trung bình số  12 Tiền xử lý liệu  Tóm tắt mơ tả liệu: Q1 Q2 Q3  (a): Dữ liệu cân đối  (b): Dữ liệu lệch... dương  (c): Dữ liệu lệch âm  Minimum < Q1 < Median < Q3 < Maximum 13 Tiền xử lý liệu  Tóm tắt mơ tả liệu:  Độ lệch chuẩn (Standard deviation): 14 Tiền xử lý liệu  Làm liệu:  Xử lý liệu bị thiếu

Ngày đăng: 24/04/2022, 10:27

HÌNH ẢNH LIÊN QUAN

 Mơ hình khai phá dữ liệu bằng luật kết hợp. - Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 4 - Nguyễn Ngọc Duy
h ình khai phá dữ liệu bằng luật kết hợp (Trang 34)
 Mơ hình khai phá dữ liệu bằng luật kết hợp - Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 4 - Nguyễn Ngọc Duy
h ình khai phá dữ liệu bằng luật kết hợp (Trang 35)
 Mơ hình khai phá dữ liệu bằng luật kết hợp - Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 4 - Nguyễn Ngọc Duy
h ình khai phá dữ liệu bằng luật kết hợp (Trang 36)
 Là một mơ hình phân lớp điển hình. - Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 4 - Nguyễn Ngọc Duy
m ột mơ hình phân lớp điển hình (Trang 74)

TỪ KHÓA LIÊN QUAN