Bài giảng Khai phá dữ liệu (Data mining) - Chương 1: Tổng quan về khai phá dữ liệu

60 29 0
Bài giảng Khai phá dữ liệu (Data mining) - Chương 1: Tổng quan về khai phá dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài giảng chương 1 trình bày các nội dung chính: Quá trình khám phá tri thức, các khái niệm, ý nghĩa và vai trò của khai phá dữ liệu, ứng dụng của khai phá dữ liệu. Mời các bạn cùng tham khảo để nắm bắt các nội dung chi tiết.

Chương 1: Tổng quan khai phá liệu Nội dung  Tình  Quá trình khám phá tri thức  Các khái niệm  Ý nghĩa vai trò khai phá liệu  Ứng dụng khai phá liệu  Tóm tắt Tình Người sử dụng thẻ ID = 1234 thật chủ nhân thẻ tên trộm? Tình Tid Refund Marital Status Taxable Evade Income Yes Single 125K No No Married 100K No No Single 70K No Yes Married 120K No No Divorced 95K Yes No Married No Yes Divorced 220K No No Single 85K Yes No Married 75K No 10 No Single 90K Yes 60K Ơng A (Tid = 100) có khả trốn thuế??? 10 Tình Ngày mai cổ phiếu STB tăng??? Tình Khóa MãSV MônHọc1 MônHọc2 … TốtNghiệp 2004 9.0 8.5 … Có 2004 6.5 8.0 … Có 2004 4.0 2.5 … Không 2004 5.5 3.5 … Không 2004 14 5.0 5.5 … Có … … … … … … 2005 90 7.0 6.0 … Có (80%) 2006 24 9.5 7.5 … Có (90%) 2007 82 5.5 4.5 … Không (45%) 2008 47 2.0 3.0 … Không (97%) … … … … … … Làm xác định khả tốt nghiệp sinh viên tại? Tình … We are data rich, but information poor “Necessity is the mother of invention” - Plato Quá trình khám phá tri thức Pattern Evaluation/ Presentation Data Mining Patterns Task-relevant Data Data Warehouse Selection/Transformation Data Cleaning Data Integration Data Sources 8 Quá trình khám phá tri thức  “ Knowledge discovery in databases (KDD) is the nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data.” - Frawley, W J et al (1991) Knowledge discovery in databases: an overview  “Knowledge discovery from databases is the process of using the database along with any required selection, preprocessing, sub-sampling, and transformations of it; to apply data mining methods (algorithms) to enumerate patterns from it; and to evaluate the products of data mining to identify the subset of the enumerated patterns deemed knowledge.” - Fayyad, U.M et al (1996) Advances in Knowledge Discovery and Data Mining MIT Press Quá trình khám phá tri thức  Quá trình khám phá tri thức chuỗi lặp gồm bước: - Data cleaning (làm liệu) - Data integration (tích hợp liệu) - Data selection (chọn lựa liệu) - Data transformation (biến đổi liệu) - Data mining (khai phá liệu) - Pattern evaluation (đánh giá mẫu) - Knowledge presentation (biểu diễn tri thức) 10 Quy trình CRISP-DM  Quy trình CRISP-DM quy trình lặp, có khả quay lui (backtracking) gồm giai đoạn: - Tìm hiểu nghiệp vụ (Business understanding) - Tìm hiểu liệu (Data understanding) - Chuẩn bị liệu (Data preparation) - Mơ hình hoá (Modeling) - Đánh giá (Evaluation) - Triển khai (Deployment) 46 Các hệ thống khai phá liệu  Hệ thống khai phá liệu phát triển dựa khái niệm rộng khai phá liệu - Khai phá liệu trình khám phá tri thức quan tâm từ lượng lớn liệu sở liệu, kho liệu, hay kho thơng tin khác  Các thành phần có - Database, data warehouse, World Wide Web, information repositories - Database hay data warehouse server - Knowledge base - Data mining engine - Pattern evaluation module - User interface 47 Kiến trúc hệ thống khai phá liệu 48 Các hệ thống khai phá liệu  Database, data warehouse, World Wide Web, information repositories - Thành phần nguồn liệu/thông tin khai phá - Trong tình cụ thể, thành phần nguồn nhập (input) kỹ thuật tích hợp làm liệu  Database hay data warehouse server - Thành phần chịu trách nhiệm chuẩn bị liệu thích hợp cho yêu cầu khai phá liệu 49 Các hệ thống khai phá liệu  Knowledge base - Thành phần chứa tri thức miền, dùng để hướng dẫn trình tìm kiếm, đánh giá mẫu kết tìm thấy - Tri thức miền phân cấp khái niệm, niềm tin người sử dụng, ràng buộc hay ngưỡng giá trị, siêu liệu, …  Data mining engine - Thành phần chứa khối chức thực tác vụ khai phá liệu 50 Các hệ thống khai phá liệu  Pattern evaluation module - Thành phần làm việc với độ đo (và ngưỡng giá trị) hỗ trợ tìm kiếm đánh giá mẫu cho mẫu tìm thấy mẫu quan tâm người sử dụng - Thành phần tích hợp vào thành phần Data mining engine 51 Các hệ thống khai phá liệu  User interface - Thành phần hỗ trợ tương tác người sử dụng hệ thống khai phá liệu  Người sử dụng định câu truy vấn hay tác vụ khai phá liệu  Người sử dụng cung cấp thơng tin hỗ trợ việc tìm kiếm, thực khai phá liệu sâu thông qua kết khai phá trung gian  Người sử dụng xem lược đồ sở liệu/kho liệu, cấu trúc liệu; đánh giá mẫu khai phá được; trực quan hóa mẫu dạng khác 52 Các hệ thống khai phá liệu  Các đặc điểm dùng để khảo sát hệ thống khai phá liệu - Kiểu liệu - Các vấn đề hệ thống - Nguồn liệu - Các tác vụ phương pháp luận khai phá liệu - Vấn đề gắn kết với hệ thống kho liệu/cơ sở liệu - Khả co giãn liệu - Các công cụ trực quan hóa - Ngơn ngữ truy vấn khai phá liệu giao diện đồ họa cho người dùng 53 Các hệ thống khai phá liệu  Một số hệ thống khai phá liệu: - Intelligent Miner (IBM) - Microsoft data mining tools (Microsoft SQL Server 2000/2005/2008) - Oracle Data Mining (Oracle 9i/10g/11g) - Enterprise Miner (SAS Institute) - Weka (the University of Waikato, New Zealand, www.cs.waikato.ac.nz/ml/weka) - … 54 Các hệ thống khai phá liệu  Phân biệt hệ thống khai phá liệu với - Các hệ thống phân tích liệu thống kê (statistical data analysis systems) - Các hệ thống học máy (machine learning systems) - Các hệ thống truy hồi thông tin (information retrieval systems) - Các hệ sở liệu diễn dịch (deductive database systems) - Các hệ sở liệu (database systems) - … 55 Ý nghĩa vai trị khai phá liệu Sự tiến hóa công nghệ Data Collection and Database Creation (1960s and earlier) hệ sở liệu Database Management Systems (1970s-early 1980s) Advanced Database Systems (mid-1980s-present) Web-based Database Systems (1990s-present) Advanced Data Analysis: Data Warehousing and Data Mining (late 1980s-present) New Generation of Integrated Data and Information Systems (present-future) 56 Ý nghĩa vai trò khai phá liệu  Công nghệ đại lĩnh vực quản lý thông tin - Hiện diện khắp nơi (ubiquitous) có tính ẩn (invisible) nhiều khía cạnh đời sống ngày  Làm việc, mua sắm, tìm kiếm thơng tin, nghỉ ngơi, … - Được áp dụng nhiều ứng dụng thuộc nhiều lĩnh vực khác - Hỗ trợ nhà khoa học, giáo dục học, kinh tế học, doanh nghiệp, khách hàng, … 57 Ứng dụng khai phá liệu  Trong kinh doanh (business)  Trong tài (finance) tiếp thị bán hàng (sales marketing)  Trong thương mại (commerce) ngân hàng (bank)  Trong bảo hiểm (insurance)  Trong khoa học (science) y sinh học (biomedicine)  Trong điều khiển (telecommunication) (control) viễn thơng  … 58 Tóm tắt  Khai phá liệu trình khám phá mẫu quan tâm từ lượng lớn liệu - Mẫu kết khai phá mẫu thể tri thức chúng dễ hiểu, hợp lệ với mức độ chắn, hữu dụng, người dùng - Lượng lớn liệu từ sở liệu truyền thống/hiện đại, kho liệu, hay từ nguồn thông tin khác (spatial, time series, text, multimedia, web, …) - Các tác vụ khai phá liệu bao gồm khai phá mô tả lớp/khái niệm (đặc trưng hóa phân biệt hóa liệu), khai phá luật kết hợp/tương quan, phân lớp, dự đoán, gom cụm, phân tích xu hướng, phân tích độ lệch phần tử biên, phân tích độ tương tự, …  Năm thành tố để đặc tả tác vụ khai phá liệu: liệu cụ thể khai phá, loại tri thức đạt được, tri thức nền, độ đo, kỹ thuật biểu diễn/trực quan hóa tri thức  Bốn thành phần giải thuật khai phá liệu: cấu trúc mẫu hay mơ hình, hàm tỉ số, phương pháp tìm kiếm tối ưu hóa, chiến lược quản lý liệu 59 Tóm tắt  Khai phá liệu xem phần trình khám phá tri thức  Quá trình khám phá tri thức chuỗi lặp gồm bước: làm liệu, tích hợp liệu, chọn lựa liệu, biến đổi liệu, khai phá liệu, đánh giá mẫu, biểu diễn tri thức  Nhiều lĩnh vực khác có liên quan với khai phá liệu: cơng nghệ sở liệu, lý thuyết thống kê, học máy, khoa học thơng tin, trực quan hóa, …  Các vấn đề liên quan: phương pháp luận khai phá liệu, vấn đề tương tác người dùng, khả co giãn liệu hiệu suất, vấn đề xử lý lượng lớn kiểu liệu khác nhau, vấn đề khai thác ứng dụng khai phá liệu ảnh hưởng xã hội chúng 60 ... 46 Các hệ thống khai phá liệu  Hệ thống khai phá liệu phát triển dựa khái niệm rộng khai phá liệu - Khai phá liệu trình khám phá tri thức quan tâm từ lượng lớn liệu sở liệu, kho liệu, hay kho... disciplines” 19 Khai phá liệu  Khai phá liệu cơng nghệ sở liệu - Khả đóng góp cơng nghệ sở liệu  Cơng nghệ sở liệu cho việc quản lý liệu khai phá  Dữ liệu lớn, vượt khả nhớ (main memory)  Dữ liệu thu... khái niệm  Khai phá liệu (data mining)  Các tác vụ khai tasks/functions) phá liệu (data mining  Các quy trình khai phá liệu (data mining processes)  Các hệ thống khai phá liệu (data mining

Ngày đăng: 09/05/2021, 19:46

Tài liệu cùng người dùng

Tài liệu liên quan