1. Trang chủ
  2. » Thể loại khác

Các vấn đề tiền xử lý dữ liệu Khai phá dữ liệu (Data mining) Khoa Khoa Học & Kỹ Thuật Máy Tính

57 14 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 57
Dung lượng 667,5 KB

Nội dung

Chapter 2 Data preprocessing issues 1 Chương 2 Các vấn đề tiền xử lý dữ liệuChương 2 Các vấn đề tiền xử lý dữ liệu Khai phá dữ liệu (Data mining) Học kỳ 1 – 2009 2010 Khoa Khoa Học & Kỹ Thuật Máy Tính[.]

Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại Học Bách Khoa Tp Hồ Chí Minh Chương 2: Các vấn đề tiền xử lý liệu Khai phá liệu (Data mining) Học kỳ – 2009-2010 Nội dung  2.1 Tổng quan giai đoạn tiền xử lý liệu  2.2 Tóm tắt mơ tả liệu  2.3 Làm liệu  2.4 Tích hợp liệu  2.5 Biến đổi liệu  2.6 Thu giảm liệu  2.7 Rời rạc hóa liệu  2.8 Tạo phân cấp ý niệm  2.9 Tóm tắt Tài liệu tham khảo  [1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006  [2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT Press, 2001  [3] David L Olson, Dursun Delen, “Advanced Data Mining Techniques”, Springer-Verlag, 2008  [4] Graham J Williams, Simeon J Simoff, “Data Mining: Theory, Methodology, Techniques, and Applications”, SpringerVerlag, 2006  [5] ZhaoHui Tang, Jamie MacLennan, “Data Mining with SQL Server 2005”, Wiley Publishing, 2005  [6] Oracle, “Data Mining Concepts”, B28129-01, 2008  [7] Oracle, “Data Mining Application Developer’s Guide”, B28131-01, 2008 2.1 Tổng quan giai đoạn tiền xử lý liệu  Giai  đoạn tiền xử lý liệu Quá trình xử lý liệu thô/gốc (raw/original data) nhằm cải thiện chất lượng liệu (quality of the data) đó, cải thiện chất lượng kết khai phá  Dữ liệu thơ/gốc  Có cấu trúc, bán cấu trúc, phi cấu trúc  Được đưa vào từ nguồn liệu hệ thống xử lý tập tin (file processing systems) và/hay hệ thống sở liệu (database systems)  Chất lượng liệu (data quality): tính xác, tính hành, tính tồn vẹn, tính quán 2.1 Tổng quan giai đoạn tiền xử lý liệu  Chất lượng liệu (data quality)  tính xác (accuracy): giá trị ghi nhận với giá trị thực  tính hành (currency/timeliness): giá trị ghi nhận không bị lỗi thời  tính tồn vẹn (completeness): tất giá trị dành cho biến/thuộc tính ghi nhận  tính quán (consistency): tất giá trị liệu biểu diễn tất trường hợp 2.1 Tổng quan giai đoạn tiền xử lý liệu Pattern Evaluation/ Presentation Data Mining Patterns Task-relevant Data Data Warehouse Data Cleaning Selection/Transformation Data Integration Data Sources 2.1 Tổng quan giai đoạn tiền xử lý liệu 2.1 Tổng quan giai đoạn tiền xử lý liệu  Các kỹ thuật tiền xử lý liệu  Làm liệu (data cleaning/cleansing): loại bỏ nhiễu (remove noise), hiệu chỉnh phần liệu khơng qn (correct data inconsistencies)  Tích hợp liệu (data integration): trộn liệu (merge data) từ nhiều nguồn khác vào kho liệu  Biến đổi liệu (data transformation): chuẩn hoá liệu (data normalization)  Thu giảm liệu (data reduction): thu giảm kích thước liệu (nghĩa giảm số phần tử) kết hợp liệu (data aggregation), loại bỏ đặc điểm dư thừa (redundant features) (nghĩa giảm số chiều/thuộc tính liệu), gom cụm liệu 2.1 Tổng quan giai đoạn tiền xử lý liệu  Các kỹ thuật tiền xử lý liệu   Làm liệu (data cleaning/cleansing)  Tóm tắt hoá liệu: nhận diện đặc điểm chung liệu diện nhiễu phần tử kì dị (outliers)  Xử lý liệu bị thiếu (missing data)  Xử lý liệu bị nhiễu (noisy data) Tích hợp liệu (data integration)  Tích hợp lược đồ (schema integration) so trùng đối tượng (object matching)  Vấn đề dư thừa (redundancy)  Phát xử lý mâu thuẫn giá trị liệu (detection and resolution of data value conflicts) 2.1 Tổng quan giai đoạn tiền xử lý liệu  Các kỹ thuật tiền xử lý liệu   Biến đổi liệu (data transformation)  Làm trơn liệu (smoothing)  Kết hợp liệu (aggregation)  Tổng quát hóa liệu (generalization)  Chuẩn hóa liệu (normalization)  Xây dựng thuộc tích (attribute/feature construction) Thu giảm liệu (data reduction)  Kết hợp khối liệu (data cube aggregation)  Chọn tập thuộc tính (attribute subset selection)  Thu giảm chiều (dimensionality reduction)  Thu giảm lượng (numerosity reduction)  Tạo phân cấp ý niệm (concept hierarchy generation) rời rạc hóa (discretization) 10

Ngày đăng: 20/04/2022, 16:40

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w