Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 22 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
22
Dung lượng
3,19 MB
Nội dung
Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại Học Bách Khoa Tp Hồ Chí Minh Chương 7: Phát triển ứng dụng khai phá liệu Khai phá liệu (Data mining) Học kỳ – 2009-2010 Nội dung 7.1 Tổng quan vấn đề phát triển ứng dụng khai phá liệu 7.2 Qui trình phát triển ứng dụng khai phá liệu 7.3 Các chuẩn dành cho khai phá liệu 7.4 Các công cụ hỗ trợ phát triển ứng dụng khai phá liệu 7.5 Tóm tắt Tài liệu tham khảo [1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006 [2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT Press, 2001 [3] David L Olson, Dursun Delen, “Advanced Data Mining Techniques”, Springer-Verlag, 2008 [4] Graham J Williams, Simeon J Simoff, “Data Mining: Theory, Methodology, Techniques, and Applications”, Springer-Verlag, 2006 [5] ZhaoHui Tang, Jamie MacLennan, “Data Mining with SQL Server 2005”, Wiley Publishing, 2005 [6] Oracle, “Data Mining Concepts”, B28129-01, 2008 [7] Oracle, “Data Mining Application Developer’s Guide”, B28131-01, 2008 7.1 Tổng quan vấn đề phát triển ứng dụng khai phá liệu Vấn đề liệu Lượng chất lượng liệu Kiểu liệu Vấn đề tri thức từ trình khai phá Vấn đề kỹ thuật khai phá Biểu diễn tích hợp vào ứng dụng Lựa chọn giải thuật khai phá Vấn đề hiệu (effective) hiệu suất (efficient) 7.2 Qui trình phát triển ứng dụng khai phá liệu Qui trình phát triển ứng dụng Qui trình phát triển ứng dụng khai phá liệu Tương đồng khác biệt 7.3 Các chuẩn dành cho khai phá liệu The Predictive Model Markup Language (PMML – www.dmg.org) Standard application programming interfaces (APIs) The Cross-Industry Standard Process for Data Mining (CRISP-DM – www.crisp-dm.org) Nguồn: R L Grossman, M F Hornick, G Meyer, Data Mining Standards Initiatives, Communications of the ACM 45 (8) 2002 5961 7.3 Các chuẩn dành cho khai phá liệu The Predictive Model Markup Language (PMML – www.dmg.org) Chuẩn dựa XML Mơ tả mơ hình thống kê khai phá liệu, tác vụ làm biến đổi liệu Các thành phần PMML Data dictionary Mining schema Transformation dictionary Model statistics Models 7.3 Các chuẩn dành cho khai phá liệu 7.3 Các chuẩn dành cho khai phá liệu 7.3 Các chuẩn dành cho khai phá liệu 10 7.3 Các chuẩn dành cho khai phá liệu Standard application programming interfaces (APIs) SQL/MM Part 6: Data Mining The Java Specification Request-73 (JSR-73) Jcp.org/jsr/detail/073.jsp Microsoft APIs Microsoft.AnalysisServices.AdomdClient 11 7.4 Các công cụ hỗ trợ phát triển ứng dụng khai phá liệu Các công cụ mã nguồn mở (open-source tools) Các công cụ thương mại 12 7.4 Các công cụ hỗ trợ phát triển ứng dụng khai phá liệu Các công cụ mã nguồn mở (open-source) R (www.r-project.org) Tanagra (eric.univ-lyon2.fr/~ricco/tanagra/) Weka (www.cs.waikato.ac.nz/ml/weka) YALE (rapid-i.com) KNIME (www.knime.org) Orange (www.ailab.si/orange) … Nguồn: B Zupan, J Demsar, “Open-Source Tools for Data Mining”, Clinics in Laboratory Medicine 28(2008) 37-54 13 7.4 Các công cụ hỗ trợ phát triển ứng dụng khai phá liệu 14 7.4 Các công cụ hỗ trợ phát triển ứng dụng khai phá liệu 15 7.4 Các công cụ hỗ trợ phát triển ứng dụng khai phá liệu 16 7.4 Các công cụ hỗ trợ phát triển ứng dụng khai phá liệu 17 7.4 Các công cụ hỗ trợ phát triển ứng dụng khai phá liệu 18 7.4 Các công cụ hỗ trợ phát triển ứng dụng khai phá liệu 19 7.4 Các công cụ hỗ trợ phát triển ứng dụng khai phá liệu Các công cụ thương mại Hỗ trợ từ Intelligent Miner (IBM) Hỗ trợ từ Microsoft data mining tools (MS SQL Server 2000/2005/2008) Hỗ trợ từ Oracle Data Mining Hỗ trợ từ Enterprise Miner (SAS Institute) … 20