Tổng quan về môn khai phá dữ liệu data mining, giới thiệu và tiền xử lí dữ liệu... khai phá dữ liệu là viêc khai thác mô hình hay kiến thực thú vị không tầm thường , tiềm ẩn, không từng được biết và có khả năng hữu ích từ số lượng rất lớn của dữ liệu
KHAI PHÁ DỮ LIỆU (DATA MINING) Đặng Xuân Thọ Trường Đại học Sư phạm Hà Nội Support Full name: Đặng Xuân Thọ Mobile: 091.2629.383 Email: thodx@hnue.edu.vn Website: http://fit.hnue.edu.vn/~thodx/ Khai phá liệu - ĐHSPHN Nội dung Chương Giới thiệu khai phá liệu Chương Dữ liệu tiền xử lý liệu Chương Phân lớp liệu Chương Khai phá luật kết hợp Chương Phân cụm Khai phá liệu - ĐHSPHN Tổng quan khai phá liệu Khai phá liệu - ĐHSPHN Tình Người sử dụng thẻ ID = 584 thật chủ nhân thẻ tên trộm? Tình Yes Marital Status Single No Married No Single Yes Tid Refund Taxable Evade Income 125K No 100K No 70K No Married 120K No No Divorced 95K Yes No Married 60K No Yes Divorced 220K No No Single 85K Yes No Married 75K No 10 No Single 90K Yes … … … … … Ơng A (Tid = 95) có khả trốn thuế??? Tình Ngày mai giá cổ phiếu tăng??? Tình Khóa MãSV MơnHọc1 MơnHọc2 … TốtNghiệp 2012 612311 9.0 8.5 … Có 2012 612312 6.5 8.0 … Có 2012 612313 4.0 2.5 … Không 2012 612314 5.5 3.5 … Không 2012 612315 5.0 5.5 … Có … … … … … … 2013 632311 7.0 6.0 … Có (80%) 2014 632312 9.5 7.5 … Có (90%) 2015 642311 5.5 4.5 … Khơng (45%) 2015 642314 2.0 3.0 … Không (97%) … … … … … … Xác định khả tốt nghiệp sinh viên tại? Tình Khai phá liệu - ĐHSPHN Tình 10 Khai phá liệu - ĐHSPHN Chức khai phá liệu? 25 Phân tích ngoại lai (outlier) Outlier: Một đối tượng liệu mà không tuân thủ hành vi chung liệu Nhiễu hay ngoại lệ? - Rác thải người kho báu người khác Phương pháp: theo kết phân cụm phân tích hồi quy, Hữu ích việc phát gian lận, phân tích kiện hoi Khai phá liệu - ĐHSPHN 26 Những công nghệ sử dụng? Khai phá liệu - ĐHSPHN Khai phá liệu 27 Khai phá liệu lĩnh vực liên ngành, nơi hội tụ nhiều học thuyết công nghệ Machine Learning Applications Algorithm Pattern Recognition Data Mining Database Technology Statistics Visualization High-Performance Computing Tại cần liên ngành? 28 Lượng lớn liệu Dữ liệu đa chiều Micro-array có hàng chục ngàn chiều Dữ liệu có độ phức tạp cao Các thuật toán phải mở rộng để xử lý liệu lớn Dữ liệu luồng liệu cảm biến Dữ liệu chuỗi thời gian, liệu tạm thời, chuỗi liệu Cấu trúc liệu, đồ thị, mạng xã hội thông tin Không gian, đa phương tiện, văn liệu Web Các chương trình phần mềm, mơ khoa học Các ứng dụng tinh vi Khai phá liệu - ĐHSPHN Khai phá liệu lý thuyết thống kê 29 Statistics Thống kê mô tả Thống kê quy nạp Mô tả liệu Dự báo suy luận Hai tập liệu mẫu có phân bố? Khai phá liệu - ĐHSPHN Khai phá liệu học máy 30 Machine Learning Unsupervised “Natural clustering” Supervised Reinforcement Khai phá liệu - ĐHSPHN Khai phá liệu trực quan hóa 31 Phân cụm phần tử Isodata (K-means) Clustering Mean Feature Image Label Image Khai phá liệu - ĐHSPHN 32 Quy trình khai phá liệu Khai phá liệu - ĐHSPHN Quy trình khai phá liệu 33 Quy trình khai phá liệu chuỗi lặp (iterative) (và tương tác (interactive)) gồm bước (giai đoạn) bắt đầu với liệu thô (raw data) kết thúc với tri thức (knowledge of interest) đáp ứng quan tâm người sử dụng Cross Industry Standard Process for Data Mining (CRISP-DM at www.crisp-dm.org) SEMMA (Sample, Explore, Modify, Model, Assess) at the SAS Institute Khai phá liệu - ĐHSPHN Quy trình CRISP-DM 34 Kiến trúc hệ thống khai phá liệu 35 PE: làm việc với độ đo (và ngưỡng giá trị) hỗ trợ tìm kiếm đánh giá mẫu quan tâm người sử dụng DME: chứa khối chức thực tác vụ khai phá liệu DB, DW, WWW: nguồn liệu/thông tin khai phá, input kỹ thuật tích hợp làm liệu UI: hỗ trợ tương tác người sử dụng hệ thống khai phá liệu KB: phân cấp khái niệm, niềm tin người sử dụng, ràng buộc hay ngưỡng giá trị… DB, DW: chịu trách nhiệm chuẩn bị liệu thích hợp cho yêu cầu khai phá liệu Một số hệ thống khai phá liệu 36 Intelligent Miner (IBM) Microsoft data mining tools (Microsoft SQL Server 2000/2005/2008) Oracle Data Mining (Oracle 9i/10g/11g) Enterprise Miner (SAS Institute) Weka (the University of Waikato, New Zealand, www.cs.waikato.ac.nz/ml/weka) R (The Comprehensive R Archive Network) … Khai phá liệu - ĐHSPHN Ứng dụng khai phá liệu 37 Phân tích trang web: từ phân loại trang web, clustering để PageRank Phân tích hợp tác & hệ thống tư vấn Phân tích liệu giỏ hàng để nhắm mục tiêu tiếp thị Phân tích liệu Y-Sinh học: phân lớp, phân cụm (phân tích liệu microarray), phân tích trình tự sinh học, phân tích mạng sinh học Khai phá liệu công nghệ phần mềm Từ hệ thống khai thác liệu chun dụng / cơng cụ (ví dụ, SAS, MS SQL-Server Analysis Manager, Oracle Data Mining Tools) để khai thác liệu tiềm ẩn Khai phá liệu - ĐHSPHN Tóm tắt 38 Khai phá liệu: khai phá điểm thú vị tri thức từ số lượng lớn liệu Một tiến hóa tự nhiên khoa học công nghệ thông tin, nhu cầu lớn, với ứng dụng rộng Một trình KDD bao gồm làm liệu, tích hợp liệu, lựa chọn liệu, chuyển đổi, khai phá liệu, đánh giá mơ hình, trình bày tri thức Khai phá thực loạt liệu Chức khai phá liệu: mô tả đặc điểm, phân biệt đối xử, liên kết, phân loại, phân nhóm, xu hướng phân tích outlier, vv Khai phá liệu - ĐHSPHN THANK YOU! ... MãSV MơnHọc1 MơnHọc2 … TốtNghiệp 2 012 612 311 9.0 8.5 … Có 2 012 612 312 6.5 8.0 … Có 2 012 612 313 4.0 2.5 … Không 2 012 612 314 5.5 3.5 … Khơng 2 012 612 315 5.0 5.5 … Có … … … … … … 2 013 632 311 7.0 6.0... liệu Chương Dữ liệu tiền xử lý liệu Chương Phân lớp liệu Chương Khai phá luật kết hợp Chương Phân cụm Khai phá liệu - ĐHSPHN Tổng quan khai phá liệu Khai phá liệu - ĐHSPHN Tình Người sử dụng... chuyên gia Khai phá liệu - ĐHSPHN Dữ liệu, thông tin, tri thức 13 Khai phá liệu - ĐHSPHN Prof Ho Tu Bao Quá trình khai phá tri thức 14 Khai phá liệu - ĐHSPHN Quá trình khai phá tri thức 15 Đây