1. Trang chủ
  2. » Công Nghệ Thông Tin

DM chapter 0 course introduction

21 94 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 21
Dung lượng 407,83 KB

Nội dung

Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại Học Bách Khoa Tp Hồ Chí Minh Khai phá liệu (Data mining) Cao Học Ngành Khoa Học Máy Tính Giáo trình điện tử Biên soạn bởi: TS Võ Thị Ngọc Châu (chauvtn@cse.hcmut.edu.vn) Học kỳ – 2011-2012 1 Data Mining Information/ Knowledge Khai phá liệu??? 2 Tài liệu tham khảo ‡ ‡ ‡ ‡ ‡ ‡ ‡ ‡ ‡ [1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006 [2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT Press, 2001 [3] David L Olson, Dursun Delen, “Advanced Data Mining Techniques”, Springer-Verlag, 2008 [4] Graham J Williams, Simeon J Simoff, “Data Mining: Theory, Methodology, Techniques, and Applications”, Springer-Verlag, 2006 [5] Hillol Kargupta, Jiawei Han, Philip S Yu, Rajeev Motwani, and Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC, 2009 [6] Daniel T Larose, “Data mining methods and models”, John Wiley & Sons, Inc, 2006 [7] Ian H.Witten, Eibe Frank, “Data mining : practical machine learning tools and techniques”, Second Edition, Elsevier Inc, 2005 [8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire, “Successes and new directions in data mining”, IGI Global, 2008 [9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge Discovery Handbook”, Second Edition, Springer Science + Business Media, LLC 2005, 2010 3 Nội dung ‡ Chương 1: Tổng quan khai phá liệu ‡ Chương 2: Các vấn đề tiền xử lý liệu ‡ ‡ Chương 3: Hồi qui liệu Chương 4: Phân loại liệu ‡ Chương 5: Gom cụm liệu ‡ Chương 6: Luật kết hợp ‡ Chương 7: Khai phá liệu công nghệ sở liệu Chương 8: Ứng dụng khai phá liệu ‡ ‡ ‡ Chương 9: Các đề tài nghiên cứu khai phá liệu Chương 10: Ôn tập 4 Nội dung – Tài liệu tham khảo ‡ Chương 1: Tổng quan khai phá liệu [1, 2, 7, 9] ‡ Chương 2: Các vấn đề tiền xử lý liệu [1, 9] ‡ Chương 3: Hồi qui liệu [1-7] ‡ Chương 4: Phân loại liệu [1-7, 9] ‡ Chương 5: Gom cụm liệu [1-7, 9] ‡ Chương 6: Luật kết hợp [1-7, 9] ‡ Chương 7: Khai phá liệu công nghệ sở liệu [1, 2] ‡ Chương 8: Ứng dụng khai phá liệu [3, 5, 9] ‡ Chương 9: Các đề tài nghiên cứu khai phá liệu [5, 8, 9] ‡ Chương 10: Ôn tập [1-9] 5 Nội dung - Lịch học ‡ Chương 1: Tổng quan khai phá liệu (T.1) ‡ Chương 2: Các vấn đề tiền xử lý liệu (T.2-3) ‡ ‡ Chương 3: Hồi qui liệu (T.4-5) Chương 4: Phân loại liệu (T.6-7) ‡ Chương 5: Gom cụm liệu (T.8-9) ‡ Chương 6: Luật kết hợp (T.10-11) ‡ Chương 7: Khai phá liệu công nghệ sở liệu (T.12) Chương 8: Ứng dụng khai phá liệu (T.13) ‡ ‡ ‡ Chương 9: Các đề tài nghiên cứu khai phá liệu (T.14) Chương 10: Ôn tập (T.15) 6 KPDL – Lĩnh vực liên ngành ‡ Phân tích - thiết kế giải thuật (algorithm design and analysis) ‡ Quản lý liệu (data management) ‡ Truy hồi thông tin (information retrieval) ‡ Máy học (machine learning) ‡ Thống ‡ Trực ‡ kê (statistics) quan hóa (visualization) 7 Hiểu biết - Kỹ đạt ‡ ‡ ‡ ‡ ‡ ‡ ‡ Hiểu bước trình khám phá tri thức Mô tả khái niệm, công nghệ, ứng dụng khai phá liệu Giải thích tác vụ khai phá liệu phổ biến hồi qui, phân loại, gom cụm, khai phá luật kết hợp Nhận dạng vấn đề liệu giai đoạn tiền xử lý cho tác vụ khai phá liệu Hiểu cách sử dụng khai phá liệu để có định tốt Sử dụng giải thuật công cụ khai phá liệu để phát triển ứng dụng khai phá liệu Được chuẩn bị kiến thức để nghiên cứu lĩnh vực khai phá liệu 8 Đánh giá kết học tập ‡ Tiểu luận: 30% ‡ Kiểm tra: 20% ‡ Thi cuối kỳ: 50% Ỉ Đạt: 30%*Tiểu luận + 20%*Kiểm tra + 50%*Thi cuối kỳ >= 5.0 9 Hình thức đánh giá kết học tập ‡ ‡ ‡ Tiểu luận: 30% „ Nội dung báo cáo: 15% „ Nội dung trình bày: +5% „ Nội dung sản phẩm: 15% Kiểm tra: 20% „ kiểm tra vào tuần 6, 13 „ 10%/bài, 10 câu trắc nghiệm/bài/20 phút, 1đ/câu Thi cuối kỳ: „ 50% 45 câu trắc nghiệm/90 phút, 0.25 điểm/câu 10 10 Tiểu luận ‡ đề tài/sinh viên ‡ Sinh viên chọn đề tài bắt đầu thực tiểu luận từ tuần thứ ‡ Sinh viên nộp làm tiểu luận vào tuần thứ 15 „ ‡ Nộp trễ: -2 điểm Bài nộp cho tiểu luận gồm: „ Báo cáo: doc, docx, pdf „ Trình bày (+): ppt, pptx, pps „ Sản phẩm (để kiểm tra kết đạt tiểu luận) 11 11 Hướng đề tài Tiểu luận ‡ Data mining research „ ‡ Applied data mining „ ‡ Tìm hiểu thi cơng cơng trình tiên tiến (reviewed advanced work) lĩnh vực khai phá liệu (danh sách slides 16-17) Phát triển đề án thực tế có áp dụng khai phá liệu Data mining technology „ Tìm hiểu thử nghiệm cơng cụ khai phá liệu 12 12 Yêu cầu sinh viên ‡ Sinh viên nên có mặt lớp 75% ‡ Sinh viên phải có mặt lớp vào tuần 6, 13 ‡ Sinh viên nên đọc trước tài liệu tham khảo cho chương ‡ Sinh viên nên làm tập chương tài liệu [1, 6] ‡ Sinh viên nên tham khảo thêm tài liệu học tập khác, đặc biệt từ nguồn Internet ‡ Sinh viên nên thực hành công cụ liên quan 13 13 Thực hành ‡ Oracle 10g/11g DBMS Oracle 10g/11g Data Mining „ ‡ MS SQL Server 2005/2008 DBMS Business Intelligence Development Studio „ ‡ www.microsoft.com WEKA (the University of Waikato, New Zealand) „ ‡ www.oracle.com www.cs.waikato.ac.nz/ml/weka Other open source data mining/statistical systems 14 14 A Brief History of Data Mining Society ‡ 1989 IJCAI Workshop on Knowledge Discovery in Databases (Piatetsky-Shapiro) „ ‡ 1991-1994 Workshops on Knowledge Discovery in Databases „ ‡ Knowledge Discovery in Databases (G Piatetsky-Shapiro and W Frawley, 1991) Advances in Knowledge Discovery and Data Mining (U Fayyad, G Piatetsky-Shapiro, P Smyth, and R Uthurusamy, 1996) 1995-1998 International Conferences on Knowledge Discovery in Databases and Data Mining (KDD’95-98) „ Journal of Data Mining and Knowledge Discovery (1997) ‡ 1998 ACM SIGKDD, SIGKDD’1999-2001 conferences, and SIGKDD Explorations ‡ More conferences on data mining „ PAKDD, PKDD, SIAM-Data Mining, (IEEE) ICDM, etc 15 15 Where to Find References? ‡ Data mining and KDD (SIGKDD member CDROM): „ „ ‡ Database field (SIGMOD member CD ROM): „ „ ‡ „ Conference proceedings: Machine learning, AAAI, IJCAI, etc Journals: Machine Learning, Artificial Intelligence, etc Statistics: „ „ ‡ Conference proceedings: ACM-SIGMOD, ACM-PODS, VLDB, ICDE, EDBT, DASFAA Journals: ACM-TODS, J ACM, IEEE-TKDE, JIIS, etc AI and Machine Learning: „ ‡ Conference proceedings: KDD, and others, such as PKDD, PAKDD, etc Journal: Data Mining and Knowledge Discovery Conference proceedings: Joint Stat Meeting, etc Journals: Annals of statistics, etc Visualization: „ „ Conference proceedings: CHI, etc Journals: IEEE Trans visualization and computer graphics, etc 16 16 Where to Find References? ‡ Publishers „ ACM „ IEEE „ Springer „ Elsevier of Interest 17 17 18 18 19 19 20 20 Hỏi & Đáp … 21 21 ... sản phẩm: 15% Kiểm tra: 20% „ kiểm tra vào tuần 6, 13 „ 10% /bài, 10 câu trắc nghiệm/bài/ 20 phút, 1đ/câu Thi cuối kỳ: „ 50% 45 câu trắc nghiệm/ 90 phút, 0. 25 điểm/câu 10 10 Tiểu luận ‡ đề tài/sinh... học tập ‡ Tiểu luận: 30% ‡ Kiểm tra: 20% ‡ Thi cuối kỳ: 50% Ỉ Đạt: 30% *Tiểu luận + 20% *Kiểm tra + 50% *Thi cuối kỳ >= 5 .0 9 Hình thức đánh giá kết học tập ‡ ‡ ‡ Tiểu luận: 30% „ Nội dung báo cáo:... Publishers, 200 6 [2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT Press, 200 1 [3] David L Olson, Dursun Delen, “Advanced Data Mining Techniques”, Springer-Verlag, 200 8 [4]

Ngày đăng: 20/06/2018, 09:24

w