Data Mining - Chapter 2

57 728 19
Data Mining - Chapter 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

hay

Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại Học Bách Khoa Tp Hồ Chí Minh Chương 2: Các vấn đề tiền xử lý liệu Khai phá liệu (Data mining) Học kỳ – 2009-2010 Nội dung  2.1 Tổng quan giai đoạn tiền xử lý liệu  2.2 Tóm tắt mơ tả liệu  2.3 Làm liệu  2.4 Tích hợp liệu  2.5 Biến đổi liệu  2.6 Thu giảm liệu  2.7 Rời rạc hóa liệu  2.8 Tạo phân cấp ý niệm  2.9 Tóm tắt Tài liệu tham khảo  [1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006  [2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT Press, 2001  [3] David L Olson, Dursun Delen, “Advanced Data Mining Techniques”, Springer-Verlag, 2008  [4] Graham J Williams, Simeon J Simoff, “Data Mining: Theory, Methodology, Techniques, and Applications”, Springer-Verlag, 2006  [5] ZhaoHui Tang, Jamie MacLennan, “Data Mining with SQL Server 2005”, Wiley Publishing, 2005  [6] Oracle, “Data Mining Concepts”, B28129-01, 2008  [7] Oracle, “Data Mining Application Developer’s Guide”, B28131-01, 2008 2.1 Tổng quan giai đoạn tiền xử lý liệu  Giai  đoạn tiền xử lý liệu Quá trình xử lý liệu thô/gốc (raw/original data) nhằm cải thiện chất lượng liệu (quality of the data) đó, cải thiện chất lượng kết khai phá  Dữ liệu thơ/gốc  Có cấu trúc, bán cấu trúc, phi cấu trúc  Được đưa vào từ nguồn liệu hệ thống xử lý tập tin (file processing systems) và/hay hệ thống sở liệu (database systems)  Chất lượng liệu (data quality): tính xác, tính hành, tính tồn vẹn, tính quán 2.1 Tổng quan giai đoạn tiền xử lý liệu  Chất lượng liệu (data quality)  tính xác (accuracy): giá trị ghi nhận với giá trị thực  tính hành (currency/timeliness): giá trị ghi nhận không bị lỗi thời  tính tồn vẹn (completeness): tất giá trị dành cho biến/thuộc tính ghi nhận  tính quán (consistency): tất giá trị liệu biểu diễn tất trường hợp 2.1 Tổng quan giai đoạn tiền xử lý liệu Pattern Evaluation/ Presentation Data Mining Patterns Task-relevant Data Data Warehouse Data Cleaning Selection/Transformation Data Integration Data Sources 2.1 Tổng quan giai đoạn tiền xử lý liệu 2.1 Tổng quan giai đoạn tiền xử lý liệu  Các kỹ thuật tiền xử lý liệu  Làm liệu (data cleaning/cleansing): loại bỏ nhiễu (remove noise), hiệu chỉnh phần liệu khơng qn (correct data inconsistencies)  Tích hợp liệu (data integration): trộn liệu (merge data) từ nhiều nguồn khác vào kho liệu  Biến đổi liệu (data transformation): chuẩn hoá liệu (data normalization)  Thu giảm liệu (data reduction): thu giảm kích thước liệu (nghĩa giảm số phần tử) kết hợp liệu (data aggregation), loại bỏ đặc điểm dư thừa (redundant features) (nghĩa giảm số chiều/thuộc tính liệu), gom cụm liệu 2.1 Tổng quan giai đoạn tiền xử lý liệu  Các kỹ thuật tiền xử lý liệu  Làm liệu (data cleaning/cleansing)   Xử lý liệu bị thiếu (missing data)   Tóm tắt hoá liệu: nhận diện đặc điểm chung liệu diện nhiễu phần tử kì dị (outliers) Xử lý liệu bị nhiễu (noisy data) Tích hợp liệu (data integration)  Tích hợp lược đồ (schema integration) so trùng đối tượng (object matching)  Vấn đề dư thừa (redundancy)  Phát xử lý mâu thuẫn giá trị liệu (detection and resolution of data value conflicts) 2.1 Tổng quan giai đoạn tiền xử lý liệu  Các kỹ thuật tiền xử lý liệu  Biến đổi liệu (data transformation)   Kết hợp liệu (aggregation)  Tổng quát hóa liệu (generalization)  Chuẩn hóa liệu (normalization)   Làm trơn liệu (smoothing) Xây dựng thuộc tích (attribute/feature construction) Thu giảm liệu (data reduction)  Kết hợp khối liệu (data cube aggregation)  Chọn tập thuộc tính (attribute subset selection)  Thu giảm chiều (dimensionality reduction)  Thu giảm lượng (numerosity reduction)  Tạo phân cấp ý niệm (concept hierarchy generation) rời rạc hóa (discretization) 10 2.6 Thu giảm liệu  Tập liệu biến đổi đảm bảo tồn vẹn, nhỏ/ít nhiều số lượng so với ban đầu  Các chiến lược thu giảm  Kết hợp khối liệu (data cube aggregation)  Chọn số thuộc tính (attribute subset selection)  Thu giảm chiều (dimensionality reduction)  Thu giảm lượng (numerosity reduction)  Rời rạc hóa (discretization)  Tạo phân cấp ý niệm (concept hierarchy generation)  Thu giảm liệu: lossless lossy 43 2.6 Thu giảm liệu  Kết hợp khối liệu (data cube aggregation)   Dạng liệu: additive, semi-additive (numerical) Sum() Kết hợp liệu hàm nhóm: average, min, max, sum, count, …  Dữ liệu mức trừu tượng khác  Mức trừu tượng cao giúp thu giảm lượng liệu nhiều cube: Sale 44 2.6 Thu giảm liệu  Chọn số thuộc tính (attribute subset selection)  Giảm kích thước tập liệu việc loại bỏ thuộc tính/chiều/đặc trưng (attribute/dimension/feature) dư thừa/khơng thích hợp (redundant/irrelevant)  Mục tiêu: tập thuộc tính đảm bảo phân bố xác suất (probability distribution) lớp liệu đạt gần với phân bố xác suất ban đầu với tất thuộc tính  Bài tốn tối ưu hóa: vận dụng heuristics 45 2.6 Thu giảm liệu  Chọn số thuộc tính (attribute subset selection) 46 2.6 Thu giảm liệu  Thu giảm chiều (dimensionality reduction)  Biến đổi wavelet (wavelet transforms)  Phân tích nhân tố (principal component analysis)  đặc điểm ứng dụng? 47 2.6 Thu giảm liệu  Thu giảm lượng (numerosity reduction)  Các kỹ thuật giảm lượng liệu dạng biểu diễn liệu thay  Các phương pháp có thơng số (parametric): mơ hình ước lượng liệu  thơng số lưu trữ thay cho liệu thật  Hồi  quy Các phương pháp phi thông số (nonparametric): lưu trữ biểu diễn thu giảm liệu  Histogram, Clustering, Sampling 48 2.7 Rời rạc hóa liệu  Giảm số lượng giá trị thuộc tính liên tục (continuous attribute) chia miền trị thuộc tính thành khoảng (intervals)  Các nhãn (labels) gán cho khoảng (intervals) dùng thay giá trị thực thuộc tính  Các trị thuộc tính phân hoạch theo phân cấp (hierarchical) hay nhiều mức phân giải khác (multiresolution) 49 2.7 Rời rạc hóa liệu  Rời rạc hóa liệu cho thuộc tính số (numeric attributes)  Các phân cấp ý niệm dùng để thu giảm liệu việc thu thập thay ý niệm cấp thấp ý niệm cấp cao  Các phân cấp ý niệm xây dựng tự động dựa việc phân tích phân bố liệu  Chi tiết thuộc tính bị  Dữ liệu đạt có ý nghĩa dễ diễn dịch hơn, địi hỏi khơng gian lưu trữ 50 2.7 Rời rạc hóa liệu  Các phương pháp rời rạc hóa liệu cho thuộc tính số  Binning  Histogram analysis  Interval merging by χ2 analysis  Cluster analysis  Entropy-based discretization  Discretization by “natural/intuitive partitioning” 51 2.8 Tạo phân cấp ý niệm  Dữ liệu phân loại (categorical data)  Dữ liệu rời rạc (discrete data)  Miền trị thuộc tính phân loại (categorical attribute)  Số giá trị phân biệt hữu hạn  Khơng có thứ tự giá trị  Tạo phân cấp ý niệm cho liệu rời rạc 52 2.8 Tạo phân cấp ý niệm  Các phương pháp tạo phân cấp ý niệm cho liệu rời rạc (categorical/discrete data)  Đặc tả thứ tự riêng phần (partial ordering)/thứ tự toàn phần (total ordering) thuộc tính tường minh mức lược đồ người sử dụng chuyên gia  Đặc tả phần phân cấp cách nhóm liệu tường minh 53 2.8 Tạo phân cấp ý niệm  Các phương pháp tạo phân cấp ý niệm cho liệu rời rạc (categorical/discrete data)  Đặc tả tập thuộc tính, khơng bao gồm thứ tự riêng phần chúng  Đặc tả tập riêng phần thuộc tính (partial set of attributes)  Tạo phân cấp ý niệm cách dùng kết nối ngữ nghĩa định trước 54 2.9 Tóm tắt  Dữ liệu thực tế: khơng đầy đủ (incomplete/missing), nhiễu (noisy), khơng qn (inconsistent)  Q trình tiền xử lý liệu  làm liệu: xử lý liệu bị thiếu, làm trơn liệu nhiễu, nhận dạng phần tử biên, hiệu chỉnh liệu khơng qn  tích hợp liệu: vấn đề nhận dạng thực thể, vấn đề dư thừa, vấn đề mâu thuẫn giá trị liệu  biến đổi liệu: làm trơn liệu, kết hợp liệu, tổng qt hóa, chuẩn hóa, xây dựng thuộc tính/đặc tính  thu giảm liệu: kết hợp khối liệu, chọn số thuộc tính, thu giảm chiều, rời rạc hóa tạo phân cấp ý niệm55 2.9 Tóm tắt  Rời rạc hóa liệu   Tiến hành theo hai cách: xuống (top down) lên (bottom up), có giám sát (supervised) khơng có giám sát (unsupervised)   Thu giảm số trị thuộc tính liên tục (continuous attribute) cách chia miền trị thành khoảng (interval) có dán nhãn Các nhãn dùng thay cho giá trị thực Tạo phân hoạch phân cấp/đa phân giải (multiresolution) trị thuộc tính  phân cấp ý niệm cho thuộc tính số (numerical attribute) Tạo phân cấp ý niệm  Hỗ trợ khai phá liệu nhiều mức trừu trượng  Cho thuộc tính số (numerical attributes): binning, histogram analysis, entropy-based discretization, χ2-merging, cluster analysis, discretization by intuitive partitioning  Cho thuộc tính phân loại/rời rạc (categorical/discrete attributes): định tường minh người sử dụng hay chuyên gia, nhóm liệu tường minh, dựa số lượng trị phân biệt (khác nhau) thuộc tính 56 Hỏi & Đáp … 57 ... Springer-Verlag, 20 06  [5] ZhaoHui Tang, Jamie MacLennan, ? ?Data Mining with SQL Server 20 05”, Wiley Publishing, 20 05  [6] Oracle, ? ?Data Mining Concepts”, B28 12 9-0 1, 20 08  [7] Oracle, ? ?Data Mining. .. “Principles of Data Mining? ??, MIT Press, 20 01  [3] David L Olson, Dursun Delen, “Advanced Data Mining Techniques”, Springer-Verlag, 20 08  [4] Graham J Williams, Simeon J Simoff, ? ?Data Mining: Theory,...Nội dung  2. 1 Tổng quan giai đoạn tiền xử lý liệu  2. 2 Tóm tắt mơ tả liệu  2. 3 Làm liệu  2. 4 Tích hợp liệu  2. 5 Biến đổi liệu  2. 6 Thu giảm liệu  2. 7 Rời rạc hóa liệu  2. 8 Tạo phân

Ngày đăng: 23/01/2013, 22:17

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan