Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 40 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
40
Dung lượng
774,29 KB
Nội dung
Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại Học Bách Khoa Tp Hồ Chí Minh Chương 7: Khai phá liệu công nghệ sở liệu Cao Học Ngành Khoa Học Máy Tính Giáo trình điện tử Biên soạn bởi: TS Võ Thị Ngọc Châu (chauvtn@cse.hcmut.edu.vn) Học kỳ – 2011-2012 1 Tài liệu tham khảo [1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006 [2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT Press, 2001 [3] David L Olson, Dursun Delen, “Advanced Data Mining Techniques”, Springer-Verlag, 2008 [4] Graham J Williams, Simeon J Simoff, “Data Mining: Theory, Methodology, Techniques, and Applications”, Springer-Verlag, 2006 [5] Hillol Kargupta, Jiawei Han, Philip S Yu, Rajeev Motwani, and Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC, 2009 [6] Daniel T Larose, “Data mining methods and models”, John Wiley & Sons, Inc, 2006 [7] Ian H.Witten, Eibe Frank, “Data mining : practical machine learning tools and techniques”, Second Edition, Elsevier Inc, 2005 [8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire, “Successes and new directions in data mining”, IGI Global, 2008 [9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge Discovery Handbook”, Second Edition, Springer Science + Business Media, LLC 2005, 2010 2 Nội dung Chương 1: Tổng quan khai phá liệu Chương 2: Các vấn đề tiền xử lý liệu Chương 3: Hồi qui liệu Chương 4: Phân loại liệu Chương 5: Gom cụm liệu Chương 6: Luật kết hợp Chương 7: Khai phá liệu công nghệ sở liệu Chương 8: Ứng dụng khai phá liệu Chương 9: Các đề tài nghiên cứu khai phá liệu Chương 10: Ôn tập 3 Chương 7: Khai phá liệu công nghệ sở liệu 7.1 Tổng quan công nghệ sở liệu 7.2 Khả hỗ trợ khai phá liệu công nghệ sở liệu 7.3 Các ngôn ngữ truy vấn dành cho khai phá liệu 7.4 Hỗ trợ DBMS ngày dành cho khai phá liệu 7.5 Tóm tắt 4 7.0 Tình Người sử dụng thẻ ID = 1234 thật chủ nhân thẻ tên trộm? 5 7.0 Tình Tid Refund Marital Status Taxable Evade Income Yes Single 125K No No Married 100K No No Single 70K No Yes Married 120K No No Divorced 95K Yes No Married No Yes Divorced 220K No No Single 85K Yes No Married 75K No 10 No Single 90K Yes 60K Ơng A (Tid = 100) có khả trốn thuế??? 10 6 7.0 Tình Ngày mai cổ phiếu STB tăng??? 7 7.0 Tình Khóa MãSV MơnHọc1 MơnHọc2 … TốtNghiệp 2004 9.0 8.5 … Có 2004 6.5 8.0 … Có 2004 4.0 2.5 … Không 2004 5.5 3.5 … Khơng 2004 14 5.0 5.5 … Có … … … … … … 2005 90 7.0 6.0 … Có (80%) 2006 24 9.5 7.5 … Có (90%) 2007 82 5.5 4.5 … Không (45%) 2008 47 2.0 3.0 … Không (97%) … … … … … … Làm xác định khả tốt nghiệp sinh viên tại? 8 7.0 Tình … We are data rich, but information poor “Necessity is the mother of invention” - Plato 9 7.1 Tổng quan công nghệ sở liệu Đặc điểm liệu thu thập cho trình khai phá liệu (tóm tắt từ Chương 1) Bắt nguồn từ yêu cầu ứng dụng thực tiễn Dữ liệu thật/dữ liệu nhân tạo từ mô Cấu trúc từ đơn giản đến phức tạp Lượng liệu lớn, biến động nhiều Lưu trữ lâu dài/lưu trữ tạm thời Ỉ Quản lý tận dụng hiệu 10 10 7.2 Khả hỗ trợ khai phá liệu công nghệ sở liệu Từ yêu cầu tri thức liệu thu thập ngày đến yêu cầu dành cho trình khai phá liệu Từ yêu cầu trình khai phá liệu đến yêu cầu dành cho công nghệ sở liệu Ỉ conventional DBMS, in-memory DBMS, column-oriented DBMS, IR + DBMS, semantic technologies + DBMS, service-oriented DBMS, … 26 26 7.3 Các ngôn ngữ truy vấn dành cho khai phá liệu A data mining query language select the data to be mined and pre-process these data, specify the kind of patterns to be mined, specify the needed background knowledge (as item hierarchies when mining generalized association rules), define the constraints on the desired patterns, patterns post-process extracted patterns patterns Source: J-F Boulicaut, C Masson, Data Mining Query Languages, Chapter in: The Data Mining and Knowledge Discovery Handbook, O Maimon and L Rokach (Eds.), Springer, 2005, pp 715-727 27 27 7.3 Các ngôn ngữ truy vấn dành cho khai phá liệu Proposals for association rule mining MSQL (Imielinski and Virmani, 1999) at the Rutgers University MINE RULE (Meo et al., 1998) at the University of Torino and the Politecnico di Milano DMQL (Han et al., 1996) at the Simon Fraser University OLE DB for DM by Microsoft Corporation (Netz et al., 2000) Source: J-F Boulicaut, C Masson, Data Mining Query Languages, Chapter in: The Data Mining and Knowledge Discovery Handbook, O Maimon and L Rokach (Eds.), Springer, 2005, pp 715-727 28 28 7.3 Các ngôn ngữ truy vấn dành cho khai phá liệu MSQL (Imielinski and Virmani, 1999) at the Rutgers University Inductive queries to mine rules Post-processing queries over a materialized collection of rules Source: J-F Boulicaut, C Masson, Data Mining Query Languages, Chapter in: The Data Mining and Knowledge Discovery Handbook, O Maimon and L Rokach (Eds.), Springer, 2005, pp 715-727 29 29 7.3 Các ngôn ngữ truy vấn dành cho khai phá liệu MINE RULE (Meo et al., 1998) at the University of Torino and the Politecnico di Milano Source: J-F Boulicaut, C Masson, Data Mining Query Languages, Chapter in: The Data Mining and Knowledge Discovery Handbook, O Maimon and L Rokach (Eds.), Springer, 2005, pp 715-727 30 30 7.3 Các ngôn ngữ truy vấn dành cho khai phá liệu DMQL (Han et al., 1996) at the Simon Fraser University Source: J-F Boulicaut, C Masson, Data Mining Query Languages, Chapter in: The Data Mining and Knowledge Discovery Handbook, O Maimon and L Rokach (Eds.), Springer, 2005, pp 715-727 31 31 7.3 Các ngôn ngữ truy vấn dành cho khai phá liệu OLE DB for DM by Microsoft Corporation (Netz et al., 2000) Source: J-F Boulicaut, C Masson, Data Mining Query Languages, Chapter in: The Data Mining and Knowledge Discovery Handbook, O Maimon and L Rokach (Eds.), Springer, 2005, pp 715-727 32 32 7.4 Hỗ trợ DBMS ngày dành cho khai phá liệu The SQL Multimedia and Applications Packages Standard (SQL/MM) An initiative developed and published by the International Organization for Standardization (ISO) Includes: Part 1: Framework Part 2: Full-Text Part 3: Spatial Part 5: Still Image Part 6: Data Mining Part specifies an SQL interface to data mining applications and services through accessing data from SQL/MM-compliant relational databases A standardized interface to data mining algorithms that can be layered atop any objectrelational database system and even deployed as middle-ware when required A collection of user-defined types provided for the key data mining functions, namely, Association Rule Discovery, Discovery Clustering, Clustering Classification and Regression Source: S S Anand, M Grobelnik, F Herrmann, D Wettschereck, M Hornick, C Lingenfelder, N Rooney, Knowledge discovery standards, Artif Intell Rev (2007) 27:21-56 33 33 7.4 Hỗ trợ DBMS ngày dành cho khai phá liệu The SQL Multimedia and Applications Packages Standard (SQL/MM) – Part User-defined types related to data DM_LogicalDataSpec an abstraction for a set of data mining fields identified by their names DM_MiningData a description of data contained in tables, which represents the metadata required to access the data during training, test or application runs DM_ApplicationData used to submit a single record of data for model application Source: S S Anand, M Grobelnik, F Herrmann, D Wettschereck, M Hornick, C Lingenfelder, N Rooney, Knowledge discovery standards, Artif Intell Rev (2007) 27:21-56 34 34 7.4 Hỗ trợ DBMS ngày dành cho khai phá liệu The SQL Multimedia and Applications Packages Standard (SQL/MM) – Part User-defined types related to the mining phases Training phase (CRISP-DM modelling) DM_Settings, DM_BldTask, DM_Model Testing phase (CRISP-DM evaluation) DM_TestTask, DM_Model, DM_TestResult Application phase (CRISP-DM deployment) DM_ApplTask, DM_Model, DM_Result, DM_ApplicationData Source: S S Anand, M Grobelnik, F Herrmann, D Wettschereck, M Hornick, C Lingenfelder, N Rooney, Knowledge discovery standards, Artif Intell Rev (2007) 27:21-56 35 35 7.4 Hỗ trợ DBMS ngày dành cho khai phá liệu Source: S S Anand, M Grobelnik, F Herrmann, D Wettschereck, M Hornick, C Lingenfelder, N Rooney, Knowledge discovery standards, Artif Intell Rev (2007) 27:21-56 36 36 7.4 Hỗ trợ DBMS ngày dành cho khai phá liệu The application retrieves the model with the statement: and calls the following to compute the predicted class: Source: S S Anand, M Grobelnik, F Herrmann, D Wettschereck, M Hornick, C Lingenfelder, N Rooney, Knowledge discovery standards, Artif Intell Rev (2007) 27:21-56 37 37 7.4 Hỗ trợ DBMS ngày dành cho khai phá liệu A number of vendor specific mining extensions to SQL Microsoft’s Microsoft OLE DB for Data Mining (OLE-DB 2000): an approach which is specially designed for data mining needs—it combines SQL with a low level API (a set of COM interfaces) to achieve interoperability with other client and server technologies IBM’s IBM DB2 Intelligent Miner products contain a set of DB2 database extenders (DB2-IM 2004): incorporate data mining functionality into standard database SQL language in a relatively standard way MS Naïve Bayes, MS Decision Trees, MS Time Series, MS Clustering, MS Sequence Clustering, MS Association Rules, MS Neural Network Functionality is based on IBM’s “Intelligent Miner” data mining product, now part of the IBM DB2 Data Warehouse Edition V9.1 Intelligent Miner fully implements SQL/MM data mining as well as most of PMML Oracle Data Mining (Oracle 2004): a set of functions available in Oracle’s database and accessible though PL/SQL (programming language available to database programmers) and through a Java interface Decision Tree, Generalized Linear Models, Minimum Description Length, Naïve Bayes, Support Vector Machines, Apriori, k-Means, Non-Negative Matrix Factorization, One Class Support Vector Machine, Orthogonal Partitioning Clustering Source: S S Anand, M Grobelnik, F Herrmann, D Wettschereck, M Hornick, C Lingenfelder, N Rooney, Knowledge discovery standards, Artif Intell Rev (2007) 27:21-56 38 38 7.5 Tóm tắt Data mining: “extracting or mining knowledge from large amounts of data” Need for effective and efficient data management Need for effective and efficient knowledge management Æ Database technologies: conceptual >> logical >> physical issues Data mining query languages: MSQL, MINE RULE, DMQL, OLE DB for DM Data mining seems to be less non-trivial to users Current support for data mining from DBMSs From SQL standards: SQL/MM Part for data mining functions: Association Rule Discovery, Discovery Clustering, Clustering Classification and Regression From Commercial DBMSs: Microsoft’s OLE DB for DM, IBM’s Intelligent Miner, Oracle Data Mining From Open source DBMSs: easily associated with open source data mining libraries 39 39 Hỏi & Đáp … 40 40