Bài giảng Khai phá dữ liệu: Chương 1 Tổng quan về khai phá dữ liệu trình bày về những kiến thức các khái niệm cơ bản về khai phá dữ liệu, các giai đoạn khai phá tri thức, ứng dụng của khai phá dữ liệu và các kỹ thuật khai phá.
Khai phá liệu (Datamining) Phan Mạnh Thường LOGO 12/07/2014 Thơng tin mơn học Thời lượng • Số tiết lý thuyết : 45 • Số tiết thực hành : 30 Điều kiện • Nắm vững kiến thức sở liệu • SQL Server ngơn ngữ T-SQL • Lập trình Visual.NET Mục tiêu Cung cấp kiến thức • Các phương pháp khai phá liệu • Nhà kho liệu 7/12/2014 www.lhu.edu.vn Thông tin môn học Tài liệu tham khảo Đỗ Phúc, Giáo trình Khai thác liệu, ĐHQG TPHCM, 2005 Hồ Tú Bảo, Introduction to knowledge discovery and data mining, IOIT, 2001 Morgan Kaufman, Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, 2002 Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques, University of Illinois, Morgan Kaufmann Publishers, 2002 John Wang, Data mining: opportunities and challenges, Idea Group, 2003 ZhaoHui Tang & Jamie MacLennan, Data Mining with SQL Server 2005, Wiley Publishing, 2005 7/12/2014 www.lhu.edu.vn Nội dung môn học Chương 1: Tổng quan khai phá liệu 7/12/2014 Chương 2: Luật kết hợp Chương 3: Phân lớp liệu Chương 4: Chuỗi phổ biến Chương 5: Gom cụm liệu Chương 6: Nhà kho liệu www.lhu.edu.vn Thông tin môn học Đánh giá Gồm cột điểm: • Điểm chuyên cần (10%): điểm danh buổi học (Lưu ý: nghỉ 30% số tiết bị cấm thi) • Điểm kiểm tra (30%): tập, seminar • Điểm thi (60%): làm thi máy 7/12/2014 www.lhu.edu.vn Chương Tổng quan Nội dung Các khái niệm Các giai đoạn khai phá tri thức Ứng dụng khai phá liệu Các kỹ thuật khai phá Chương Tổng quan Các khái niệm Dữ liệu (Data): xem chuỗi bit, số, ký tự…mà tập hợp hàng ngày công việc Thông tin (Information): tập hợp mảnh liệu chắt lọc dùng mô tả, giải thích đặc tính đối tượng Tri thức (Knowledge): tập hợp thơng tin có liên hệ với nhau, xem tri thức kết tinh từ liệu Tri thức thể tư người vấn đề 7/12/2014 www.lhu.edu.vn Chương Tổng quan Các khái niệm Khám phá tri thức từ sở liệu: (Knowledge Discovery in Databases – KDD) “KDD is the automatic extraction of non-obvious, hidden knowledge from large volumes of data.” Fayyad, Platetsky-Shapiro, Smyth (1996) “Khám phá tri thức từ sở liệu quy trình bao gồm nhiều công đoạn như: xác định vấn đề, tập hợp chọn lọc liệu, khai thác liệu, đánh giá kết quả, giải thích liệu, áp dụng tri thức vào thực tế http://www.kdnuggets.com/ 7/12/2014 www.lhu.edu.vn Chương Tổng quan Tại phải khai phá liệu ? Nhà bác học tiếng Karan Sing nói “Chúng ta ngập chìm biển thông tin lại khát tri thức” Dữ liệu thu thập hàng ngày lớn Các CSDL khổng lồ Dữ liệu từ Internet Theo báo cáo IBM, có 80% liệu khai thác, 20% lại ẩn Database tri thức quý giá 7/12/2014 www.lhu.edu.vn Chương Tổng quan Khai phá liệu gì? Khai phá liệu (Datamining) bước quy trình khám phá tri thức, nhằm: Rút trích thơng tin hữu ích, chưa biết, tiềm ẩn khối liệu lớn Phân tích liệu bán tự động Giải thích liệu tập liệu lớn 7/12/2014 www.lhu.edu.vn Chương Tổng quan Lợi ích khai phá liệu Giá trị EDP MIS DSS Số lượng 7/12/2014 EDP: Electronic Data Processing MIS: Management Information Systems DSS: Decision Support Systems www.lhu.edu.vn Chương Tổng quan Quy trình khai phá liệu Nghiên cứu lĩnh vực Tạo tập liệu đầu vào Tiền xử lý/ làm sạch, mã hóa Rút gọn / chiều Chọn tác vụ Khai thác liệu 7/12/2014 www.lhu.edu.vn Chương Tổng quan Quy trình khai phá liệu Chọn thuật giải KTDL KTDL: Tìm kiếm tri thức Đánh giá mẫu tìm Biểu diễn tri thức Sử dụng tri thức vừa khám phá 7/12/2014 www.lhu.edu.vn Chương Tổng quan Quy trình khai phá liệu Increasing potential to support business decisions Making Decisions End User Data Presentation Visualization Techniques Business Analyst Data Mining Information Discovery Data Analyst Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA DBA Data Sources Paper, Files, Information Providers, Database Systems, OLTP 7/12/2014 www.lhu.edu.vn Chương Tổng quan Từ liệu đến định Quyết định • Promote product A in region Z Tri thức • Mail ads to families of profile P • Cross-sell service B to clients C • A quantity Y of product A is used in region Z • Customers of class Y use x% of C during period D Thơng tin • X lives in Z Dữ liệu • Customer data • S is Y years old • X and S moved • W has money in Z • Store data • Demographical Data • Geographical data 7/12/2014 www.lhu.edu.vn Chương Tổng quan Các ứng dụng Sản xuất Kinh doanh - Phân tích liệu bán hàng tiếp thị - Phân tích đầu tư - Chứng khoán - Xác định gian lận Khoa học 7/12/2014 - Không gian - Sinh học - Địa lý - etc - Điều khiển lập lịch - Quản trị mạng lưới - Phân tích kết thử nghiệm Y học - Bệnh lý - Sinh học www.lhu.edu.vn Chương Tổng quan Các kỹ thuật sử dụng Tìm đặc trưng lớp đối tượng sử dụng để phân lớp liệu Gom cụm Phân lớp ? Dữ đoán liệu tương lai dựa liệu khứ Dự đoán Mẫu 7/12/2014 Xác định cụm tiềm ẩn tập đối tượng chưa xếp lớp Tìm mẫu phổ biến từ liệu mối quan hệ đối tượng liệu Luật kết hợp Khám phá mẫu tín hiệu phổ biến từ liệu kiện Xác định trật tự liệu, cấu trúc lưu trữ phù hợp với tác vụ khai phá Nhà kho- OLAP www.lhu.edu.vn Chương Tổng quan Kết luận KPDL: tiến trình khám phá bán tự động thơng tin, mẫu có ích từ CSDL lớn Các bước KDD Tiền xử lý KTDL( data mining tasks) Hậu xử lý Các quan niệm, khía cạnh … 7/12/2014 CSDL (quan hệ, hướng đối tượng, không gian, WWW, …) Tri thức (đặc trưng, gom cụm, kết hợp, …) Kỹ thuật (máy học, thống kê, trực quan hóa, …) Ứng dụng (bán lẻ, điện thoại, khai thác Web …) www.lhu.edu.vn ... 2005 7 /12 /2 014 www.lhu.edu.vn Nội dung môn học Chương 1: Tổng quan khai phá liệu 7 /12 /2 014 Chương 2: Luật kết hợp Chương 3: Phân lớp liệu Chương 4: Chuỗi phổ biến Chương 5: Gom cụm liệu Chương. .. doanh - Phân tích liệu bán hàng tiếp thị - Phân tích đầu tư - Chứng khoán - Xác định gian lận Khoa học 7 /12 /2 014 - Không gian - Sinh học - Địa lý - etc - Điều khiển lập lịch - Quản trị mạng lưới -. .. CSDL khổng lồ Dữ liệu từ Internet Theo báo cáo IBM, có 80% liệu khai thác, 20% lại ẩn Database tri thức quý giá 7 /12 /2 014 www.lhu.edu.vn Chương Tổng quan Khai phá liệu gì? Khai phá liệu (Datamining)