Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 61 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
61
Dung lượng
2,13 MB
Nội dung
1 TổngquanvềkhaiphádữliệuTổngquanvềkhaiphádữliệu (Data mining) 2 Nội dung 0. Tình huống 1. Quá trình khám phá tri thức 2. Các khái niệm 3. Ý nghĩa và vai trò của khaiphádữliệu 4. Ứng dụng của khaiphádữliệu 5. Tóm tắt 3 Tài liệu tham khảo [1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006. [2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT Press, 2001. [3] David L. Olson, Dursun Delen, “Advanced Data Mining Techniques”, Springer-Verlag, 2008. [4] Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory, Methodology, Techniques, and Applications”, Springer-Verlag, 2006. [5] ZhaoHui Tang, Jamie MacLennan, “Data Mining with SQL Server 2005”, Wiley Publishing, 2005. [6] Oracle, “Data Mining Concepts”, B28129-01, 2008. [7] Oracle, “Data Mining Application Developer’s Guide”, B28131-01, 2008. 4 0. Tình huống 1 Người đang sử dụng thẻ ID = 1234 thật sự là chủ nhân của thẻ hay là một tên trộm? 5 0. Tình huống 2 Tid Refund Marital Status Taxable Income Evade 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes 10 Ông A (Tid = 100) có khả năng trốn thuế??? 6 1.0. Tình huống 3 Ngày mai cổ phiếu STB sẽ tăng??? 7 0. Tình huống 4 Khóa MãSV MônHọc1 MônHọc2 … TốtNghiệp 2004 1 9.0 8.5 … Có 2004 2 6.5 8.0 … Có 2004 3 4.0 2.5 … Không 2004 8 5.5 3.5 … Không 2004 14 5.0 5.5 … Có … … … … … … 2005 90 7.0 6.0 … Có (80%) 2006 24 9.5 7.5 … Có (90%) 2007 82 5.5 4.5 … Không (45%) 2008 47 2.0 3.0 … Không (97%) … … … … … … Làm sao xác định được khả năng tốt nghiệp của một sinh viên hiện tại? 8 0. Tình huống … We are data rich, but information poor. “Necessity is the mother of invention”. - Plato 9 1.1. Quá trình khám phá tri thức Data Cleaning Data Integration Data Sources Data Warehouse Task-relevant Data Selection/Transformation Data Mining Pattern Evaluation/ Presentation Patterns 10 1. Quá trình khám phá tri thức “Knowledge discovery in databases is the nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data.” Frawley, W. J et al. (1991). Knowledge discovery in databases: an overview. “Knowledge discovery from databases is the process of using the database along with any required selection, preprocessing, sub-sampling, and transformations of it; to apply data mining methods (algorithms) to enumerate patterns from it; and to evaluate the products of data mining to identify the subset of the enumerated patterns deemed knowledge.” Fayyad, U.M et al. (1996). Advances in Knowledge Discovery and Data Mining. MIT Press. [...]... dữliệuquan hệ 22 2.1 Khaiphádữliệu Khaiphádữliệu và lý thuyết thống kê Statistics Descriptive Statistics Mô tả dữliệu Inductive Statistics Dự báo và suy luận Hai tập dữliệu mẫu có cùng phân bố? 23 2.1 Khaiphádữliệu Khaiphádữliệu và học máy Machine Learning Unsupervised “Natural groupings” Supervised Reinforcement 24 2.1 Khaiphádữliệu Khaiphádữliệu và trực quan hóa Dữ liệu: ... evolution 25 2.1 Khaiphádữliệu Khaiphádữliệu và trực quan hóa Feature Selection Mean Feature Image 26 2.1 Khaiphádữliệu Khai phádữliệu và trực quan hóa Gán nhãn các lớp Isodata (K-means) Clustering Mean Feature Image Label Image 27 2.2 Các tác vụ khai phádữliệuKhaiphá mô tả lớp/khái niệm (đặc trưng hóa và phân biệt hóa dữ liệu) Khaiphá luật kết hợp/tương quan Phân loại dữliệu Dự... Dữliệu cụ thể sẽ được khaiphá (taskrelevant data) Phần dữliệu từ các dữliệu nguồn được quan tâm Tương ứng với các thuộc tính hay chiều dữliệu được quan tâm Bao gồm: tên kho dữ liệu/ cơ sở dữ liệu, các bảng dữliệu hay các khối dữ liệu, các điều kiện chọn dữ liệu, các thuộc tính hay chiều dữliệu được tâm, các tiêu chí gom nhóm dữliệu 31 2.2 Các tác vụ khaiphádữliệu Loại tri thức sẽ... Các cơ sở dữliệuquan hệ (relational databases) hay quan hệ đối tượng (object relational databases) Các cơ sở dữliệu giao tác (transactional databases) hay kho dữliệu (data warehouses) Các cơ sở dữliệu hướng ứng dụng: cơ sở dữliệu không gian (spatial databases), cơ sở dữliệu thời gian (temporal databases), cơ sở dữliệu không thời gian (spatio-temporal databases), cơ sở dữliệu chuỗi thời... Analyst Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA Data Sources Paper, Files, Information Providers, Database Systems, OLTP DBA 13 2 Các khái niệm 1.2.1 Khaiphádữliệu (data mining) 1.2.2 Các tác vụ khaiphádữliệu (data mining tasks/functions) 1.2.3 Các quy trình khaiphádữliệu (data mining processes) 1.2.4 Các hệ thống khaiphádữ liệu. .. trợ khaiphádữliệu Oracle Data Mining (Oracle 9i, 10g, 11g) Các công cụ khaiphádữliệu của Microsoft (MS SQL Server 2000, 2005, 2008) Intelligent Miner (IBM) Các hệ cơ sở dữliệu qui nạp (inductive database) hỗ trợ khám phá tri thức Chuẩn SQL/MM 6 :Data Mining của ISO/IEC 132496:2006 hỗ trợ khaiphádữliệu Đặc tả giao diện SQL cho các ứng dụng và dịch vụ khaiphádữliệu từ các cơ sở dữ. .. … 18 2.1 Khaiphádữliệu (trends, regularities, …) (characterizatio n and discrimination) 19 2.1 Khaiphádữliệu Machine Learning Statistics Data Mining Database Technology Visualization Other Disciplines Khaiphádữliệu là một lĩnh vực liên ngành, nơi hội tụ của nhiều học thuyết và công nghệ Data mining as a confluence of multiple disciplines” 20 2.1 Khaiphádữliệu Khai phádữliệu và công... trình khám phá tri thức Quá trình khám phá tri thức là một chuỗi lặp gồm các bước: Data cleaning (làm sạch dữ liệu) Data integration (tích hợp dữ liệu) Data selection (chọn lựa dữ liệu) Data transformation (biến đổi dữ liệu) Data mining (khai phádữ liệu) Pattern evaluation (đánh giá mẫu) Knowledge presentation (biểu diễn tri thức) 11 1 Quá trình khám phá tri thức Quá trình khám phá tri... cơ sở dữliệu hiện đại có khả năng xử lý nhiều loại dữliệu phức tạp (spatial, temporal, spatiotemporal, multimedia, text, Web, …) Các chức năng khác (xử lý đồng thời, bảo mật, hiệu năng, tối ưu hóa, …) của các hệ cơ sở dữliệu đã được phát triển tốt 21 2.1 Khai phádữliệu Khaiphádữliệu và công nghệ cơ sở dữliệu Thực trạng đóng góp của công nghệ cơ sở dữliệu Các hệ quản trị cơ sở dữ liệu. .. khaiphádữliệu Năm thành tố cơ bản để đặc tả một tác vụ khaiphádữliệu Dữliệu cụ thể sẽ được khaiphá (task-relevant data) Loại tri thức sẽ đạt được (kind of knowledge) Tri thức nền (background knowledge) Các độ đo (interestingness measures) Các kỹ thuật biểu diễn tri thức/trực quan hóa mẫu (pattern visualization and knowledge presentation) 30 2.2 Các tác vụ khaiphádữliệu Dữliệu . 1.2.3. Các quy trình khai phá dữ liệu (data mining processes) 1.2.4. Các hệ thống khai phá dữ liệu (data mining systems) 15 2.1. Khai phá dữ liệu Khai phá dữ liệu một quá trình trích. 1 Tổng quan về khai phá dữ liệu Tổng quan về khai phá dữ liệu (Data mining) 2 Nội dung 0. Tình huống 1. Quá trình khám phá tri thức 2. Các khái niệm 3. Ý nghĩa và vai trò của khai phá. / Data Marts Data Sources Paper, Files, Information Providers, Database Systems, OLTP 14 2. Các khái niệm 1.2.1. Khai phá dữ liệu (data mining) 1.2.2. Các tác vụ khai phá dữ liệu (data mining