Chương 1: Khai phá dữ liệu và trí tuệ kinh doanh Khai phá dữ liệu là một bước của quá trình khai thác tri thức (Knowledge Discovery Process), bao gồm: Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề (Problem understanding and data understanding). Chuẩn bị dữ liệu (Data preparation), bao gồm các quá trình làm sạch dữ liệu (data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu (data selection), biến đổi dữ liệu (data transformation). Khai thác dữ liệu (Data mining): xác định nhiệm vụ khai thác dữ liệu và lựa chọn kỹ thuật khai thác dữ liệu. Kết quả cho ta một nguồn tri thức thô. Đánh giá (Evaluation): dựa trên một số tiêu chí tiến hành kiểm tra và lọc nguồn tri thức thu được. Triển khai (Deployment). Quá trình khai thác tri thức không chỉ là một quá trình tuần tự từ bước đầu tiên đến bước cuối cùng mà là một quá trình lặp và có quay trở lại các bước đã qua.
Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại Học Bách Khoa Tp Hồ Chí Minh Chương 1: Tổng quan khai phá liệu Cao Học Ngành Hệ Thống Thông Tin Quản Lý Giáo trình điện tử Biên soạn bởi: TS Võ Thị Ngọc Châu (chauvtn@cse.hcmut.edu.vn) Học kỳ – 2016-2017 Tài liệu tham khảo [1] Jiawei Han, Micheline Kamber, Jian Pei, “Data Mining: Concepts and Techniques”, Third Edition, Morgan Kaufmann Publishers, 2012 [2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT Press, 2001 [3] David L Olson, Dursun Delen, “Advanced Data Mining Techniques”, Springer-Verlag, 2008 [4] Graham J Williams, Simeon J Simoff, “Data Mining: Theory, Methodology, Techniques, and Applications”, Springer-Verlag, 2006 [5] Hillol Kargupta, Jiawei Han, Philip S Yu, Rajeev Motwani, and Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC, 2009 [6] Daniel T Larose, “Data mining methods and models”, John Wiley & Sons, Inc, 2006 [7] Ian H.Witten, Frank Eibe, Mark A Hall, “Data mining : practical machine learning tools and techniques”, Third Edition, Elsevier Inc, 2011 [8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire, “Successes and new directions in data mining”, IGI Global, 2008 [9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge Discovery Handbook”, Second Edition, Springer Science + Business Media, LLC 2005, 2010 Nội dung Chương 1: Tổng quan khai phá liệu Chương 2: Dữ liệu khai phá Chương 3: Các vấn đề tiền xử lý liệu Chương 4: Các kỹ thuật khai phá liệu Hồi qui liệu Phân loại liệu Gom cụm liệu Luật kết hợp Chương 5: Hệ trí tuệ kinh doanh Chương 6: Khai phá liệu trí tuệ kinh doanh với công nghệ sở liệu Chương 7: Các đề tài nghiên cứu khai phá liệu trí tuệ kinh doanh Ôn tập Ghi Nội dung chương nội dung chương môn Khai phá liệu ngành Khoa Học Máy Tính Chương 1: Tổng quan khai phá liệu 1.0 Tình 1.1 Quá trình khám phá tri thức 1.2 Các khái niệm 1.3 Ý nghĩa vai trò khai phá liệu 1.4 Ứng dụng khai phá liệu 1.5 Những vấn đề khai phá liệu 1.6 Tóm tắt 1.0 Tình Người sử dụng thẻ ID = 1234 thật chủ nhân thẻ tên trộm? 1.0 Tình Tid Refund Marital Status Taxable Evade Income Yes Single 125K No No Married 100K No No Single 70K No Yes Married 120K No No Divorced 95K Yes No Married No Yes Divorced 220K No No Single 85K Yes No Married 75K No 10 No Single 90K Yes 60K Ông A (Tid = 100) có khả trốn thuế??? 10 1.0 Tình Ngày mai cổ phiếu STB tăng??? 1.0 Tình Khóa MãSV MônHọc1 MônHọc2 … TốtNghiệp 2004 9.0 8.5 … Có 2004 6.5 8.0 … Có 2004 4.0 2.5 … Không 2004 5.5 3.5 … Không 2004 14 5.0 5.5 … Có … … … … … … 2005 90 7.0 6.0 … Có (80%) 2006 24 9.5 7.5 … Có (90%) 2007 82 5.5 4.5 … Không (45%) 2008 47 2.0 3.0 … Không (97%) … … … … … … Làm xác định khả tốt nghiệp sinh viên tại? 1.0 Tình … We are data rich, but information poor 10 1.2.4 Các hệ thống khai phá liệu Database, data warehouse, World Wide Web, information repositories Thành phần nguồn liệu/thông tin khai phá Trong tình cụ thể, thành phần nguồn nhập (input) kỹ thuật tích hợp làm liệu Database hay data warehouse server Thành phần chịu trách nhiệm chuẩn bị liệu thích hợp cho yêu cầu khai phá liệu 53 1.2.4 Các hệ thống khai phá liệu Knowledge base Thành phần chứa tri thức miền, dùng để hướng dẫn trình tìm kiếm, đánh giá mẫu kết tìm thấy Tri thức miền phân cấp khái niệm, niềm tin người sử dụng, ràng buộc hay ngưỡng giá trị, siêu liệu, … Data mining engine Thành phần chứa khối chức thực tác vụ khai phá liệu 54 1.2.4 Các hệ thống khai phá liệu Pattern evaluation module Thành phần làm việc với độ đo (và ngưỡng giá trị) hỗ trợ tìm kiếm đánh giá mẫu cho mẫu tìm thấy mẫu quan tâm người sử dụng Thành phần tích hợp vào thành phần Data mining engine 55 1.2.4 Các hệ thống khai phá liệu User interface Thành phần hỗ trợ tương tác người sử dụng hệ thống khai phá liệu Người sử dụng định câu truy vấn hay tác vụ khai phá liệu Người sử dụng cung cấp thông tin hỗ trợ việc tìm kiếm, thực khai phá liệu sâu thông qua kết khai phá trung gian Người sử dụng xem lược đồ sở liệu/kho liệu, cấu trúc liệu; đánh giá mẫu khai phá được; trực quan hóa mẫu dạng khác 56 1.2.4 Các hệ thống khai phá liệu Các đặc điểm dùng để khảo sát hệ thống khai phá liệu Kiểu liệu Các vấn đề hệ thống Nguồn liệu Các tác vụ phương pháp luận khai phá liệu Vấn đề gắn kết với hệ thống kho liệu/cơ sở liệu Khả co giãn liệu Các công cụ trực quan hóa Ngôn ngữ truy vấn khai phá liệu giao diện đồ họa cho người dùng 57 1.2.4 Các hệ thống khai phá liệu Một số hệ thống khai phá liệu: Intelligent Miner (IBM) Microsoft data mining tools (Microsoft SQL Server 2000/2005/2008) Oracle Data Mining (Oracle 9i/10g/11g) Enterprise Miner (SAS Institute) Weka (the University of Waikato, New Zealand, www.cs.waikato.ac.nz/ml/weka) … 58 1.2.4 Các hệ thống khai phá liệu Phân biệt hệ thống khai phá liệu với Các hệ thống phân tích liệu thống kê (statistical data analysis systems) Các hệ thống học máy (machine learning systems) Các hệ thống truy hồi thông tin (information retrieval systems) Các hệ sở liệu diễn dịch (deductive database systems) Các hệ sở liệu (database systems) … 59 1.3 Ý nghĩa vai trò khai phá liệu Sự tiến hóa công nghệ Data Collection and Database Creation (1960s and earlier) hệ sở liệu Database Management Systems (1970s-early 1980s) Advanced Database Systems (mid-1980s-present) Web-based Database Systems (1990s-present) Advanced Data Analysis: Data Warehousing and Data Mining (late 1980s-present) New Generation of Integrated Data and Information Systems (present-future) 60 1.3 Ý nghĩa vai trò khai phá liệu Công nghệ đại lĩnh vực quản lý thông tin Hiện diện khắp nơi (ubiquitous) có tính ẩn (invisible) nhiều khía cạnh đời sống ngày Làm việc, mua sắm, tìm kiếm thông tin, nghỉ ngơi, … Được áp dụng nhiều ứng dụng thuộc nhiều lĩnh vực khác Hỗ trợ nhà khoa học, giáo dục học, kinh tế học, doanh nghiệp, khách hàng, … 61 1.4 Ứng dụng khai phá liệu Trong kinh doanh (business) Trong tài (finance) tiếp thị bán hàng (sales marketing) Trong thương mại (commerce) ngân hàng (bank) Trong bảo hiểm (insurance) Trong khoa học (science) y sinh học (biomedicine) Trong điều khiển (control) viễn thông (telecommunication) … 62 1.5 Những vấn đề khai phá liệu Phương pháp luận (mining methodology) Tương tác người dùng (user interaction) Hiệu suất tính khả co giãn qui mô liệu (efficiency and scalability) Sự phong phú liệu (diversity of database types) Sự ảnh hưởng xã hội khai phá liệu (data mining and society) 63 1.6 Tóm tắt Khai phá liệu trình khám phá mẫu quan tâm từ lượng lớn liệu Mẫu kết khai phá mẫu thể tri thức chúng dễ hiểu, hợp lệ với mức độ chắn, hữu dụng, người dùng Lượng lớn liệu từ sở liệu truyền thống/hiện đại, kho liệu, hay từ nguồn thông tin khác (spatial, time series, text, multimedia, web, …) Các tác vụ khai phá liệu bao gồm khai phá mô tả lớp/khái niệm (đặc trưng hóa phân biệt hóa liệu), khai phá luật kết hợp/tương quan, phân lớp, dự đoán, gom cụm, phân tích xu hướng, phân tích độ lệch phần tử biên, phân tích độ tương tự, … Năm thành tố để đặc tả tác vụ khai phá liệu: liệu cụ thể khai phá, loại tri thức đạt được, tri thức nền, độ đo, kỹ thuật biểu diễn/trực quan hóa tri thức Bốn thành phần giải thuật khai phá liệu: cấu trúc mẫu hay mô hình, hàm tỉ số, phương pháp tìm kiếm tối ưu hóa, chiến lược quản lý liệu 64 1.6 Tóm tắt Khai phá liệu xem phần trình khám phá tri thức Quá trình khám phá tri thức chuỗi lặp gồm bước: làm liệu, tích hợp liệu, chọn lựa liệu, biến đổi liệu, khai phá liệu, đánh giá mẫu, biểu diễn tri thức Nhiều lĩnh vực khác có liên quan với khai phá liệu: công nghệ sở liệu, lý thuyết thống kê, học máy, khoa học thông tin, trực quan hóa, … Các vấn đề liên quan: phương pháp luận khai phá liệu, vấn đề tương tác người dùng, khả co giãn liệu hiệu suất, vấn đề xử lý lượng lớn kiểu liệu khác nhau, vấn đề khai thác ứng dụng khai phá liệu ảnh hưởng xã hội chúng 65 1.6 Tóm tắt "Like all discovery processes, successful data mining has an element of serendipity." David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT Press, 2001, p 24 66 Hỏi & Đáp … 67 ... 85K Yes No Married 75K No 10 No Single 90K Yes 11 No Married 60K No 12 Yes Divorced 220K No 13 No Single 85K Yes 14 No Married 75K No 15 No Single 90K Yes 60K 10 Milk 31 ... Máy Tính Chương 1: Tổng quan khai phá liệu 1. 0 Tình 1. 1 Quá trình khám phá tri thức 1. 2 Các khái niệm 1. 3 Ý nghĩa vai trò khai phá liệu 1. 4 Ứng dụng khai phá liệu 1. 5 Những vấn đề... DBA 16 1. 2 Các khái niệm 1. 2 .1 Khai phá liệu (data mining) 1. 2.2 Các tác vụ khai phá liệu (data mining tasks/functions) 1. 2.3 Các quy trình khai phá liệu (data mining processes) 1. 2.4