1. Trang chủ
  2. » Thể loại khác

Các vấn đề tiền xử lý dữ liệuKhai phá dữ liệu(Data mining)

54 19 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Các Vấn Đề Tiền Xử Lý Dữ Liệu Khai Phá Dữ Liệu (Data Mining)
Trường học Trường Đại Học Bách Khoa Tp. Hồ Chí Minh
Chuyên ngành Khoa Khoa Học & Kỹ Thuật Máy Tính
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 54
Dung lượng 1,41 MB

Nội dung

Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại Học Bách Khoa Tp Hồ Chí Minh Chương 2: Các vấn đề tiền xử lý liệu Khai phá liệu (Data mining) Nội dung • 2.1 Tổng quan giai đoạn tiền xử lý liệu • 2.2 Tóm tắt mơ tả liệu • 2.3 Làm liệu • 2.4 Tích hợp liệu • 2.5 Biến đổi liệu • 2.6 Thu giảm liệu • 2.7 Rời rạc hóa liệu • 2.8 Tạo phân cấp ý niệm • 2.9 Tóm tắt Tài liệu tham khảo • Data Cleaning (p.61 – p.67) • Data Integration and Transformation (p.67 – p.72) • Data Reduction (p.72 – p.86) 2.1 Tổng quan giai đoạn tiền xử lý liệu • Giai đoạn tiền xử lý liệu • Q trình xử lý liệu thô/gốc (raw/original data) nhằm cải thiện chất lượng liệu (quality of the data) đó, cải thiện chất lượng kết khai phá • Dữ liệu thơ/gốc • Có cấu trúc, bán cấu trúc, phi cấu trúc • Được đưa vào từ nguồn liệu hệ thống xử lý tập tin (file processing systems) và/hay hệ thống sở liệu (database systems) • Chất lượng liệu (data quality): tính xác, tính hành, tính tồn vẹn, tính quán 2.1 Tổng quan giai đoạn tiền xử lý liệu • Chất lượng liệu (data quality) • Tính xác (accuracy): giá trị ghi nhận với giá trị thực • Tính hành (currency/timeliness): giá trị ghi nhận khơng bị lỗi thời • Tính tồn vẹn (completeness): tất giá trị dành cho biến/thuộc tính ghi nhận • Tính quán (consistency): tất giá trị liệu biểu diễn tất trường hợp 2.1 Tổng quan giai đoạn tiền xử lý liệu Pattern Evaluation/ Presentation Data Mining Patterns Task-relevant Data Data Warehouse Data Cleaning Selection/Transformation Data Integration Data Sources 2.1 Tổng quan giai đoạn tiền xử lý liệu 2.1 Tổng quan giai đoạn tiền xử lý liệu • Các kỹ thuật tiền xử lý liệu • Làm liệu (data cleaning/cleansing): loại bỏ nhiễu (remove noise), hiệu chỉnh phần liệu khơng qn (correct data inconsistencies) • Tích hợp liệu (data integration): trộn liệu (merge data) từ nhiều nguồn khác vào kho liệu • Biến đổi liệu (data transformation): chuẩn hoá liệu (data normalization) • Thu giảm liệu (data reduction): thu giảm kích thước liệu (nghĩa giảm số phần tử) kết hợp liệu (data aggregation), loại bỏ đặc điểm dư thừa (redundant features) (nghĩa giảm số chiều/thuộc tính liệu), gom cụm liệu 2.1 Tổng quan giai đoạn tiền xử lý liệu • Các kỹ thuật tiền xử lý liệu • Làm liệu (data cleaning/cleansing) • Tóm tắt hoá liệu: nhận diện đặc điểm chung liệu diện nhiễu phần tử kì dị (outliers) • Xử lý liệu bị thiếu (missing data) • Xử lý liệu bị nhiễu (noisy data) • Tích hợp liệu (data integration) • Tích hợp lược đồ (schema integration) so trùng đối tượng (object matching) • Vấn đề dư thừa (redundancy) • Phát xử lý mâu thuẫn giá trị liệu (detection and resolution of data value conflicts) 2.1 Tổng quan giai đoạn tiền xử lý liệu • Các kỹ thuật tiền xử lý liệu • Biến đổi liệu (data transformation) • Làm trơn liệu (smoothing) • Kết hợp liệu (aggregation) • Tổng qt hóa liệu (generalization) • Chuẩn hóa liệu (normalization) • Xây dựng thuộc tích (attribute/feature construction) • Thu giảm liệu (data reduction) • Kết hợp khối liệu (data cube aggregation) • Chọn tập thuộc tính (attribute subset selection) • Thu giảm chiều (dimensionality reduction) • Thu giảm lượng (numerosity reduction) 10 • Tạo phân cấp ý niệm (concept hierarchy generation) rời rạc hóa (discretization)

Ngày đăng: 19/04/2022, 07:11

HÌNH ẢNH LIÊN QUAN

• Các phương pháp có thông số (parametric): mô hình ước lượng dữ liệu  các thông số được lưu trữ thay cho dữ  liệu thật - Các vấn đề tiền xử lý dữ liệuKhai phá dữ liệu(Data mining)
c phương pháp có thông số (parametric): mô hình ước lượng dữ liệu  các thông số được lưu trữ thay cho dữ liệu thật (Trang 49)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN