1. Trang chủ
  2. » Thể loại khác

TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU. Cao Học Ngành Khoa Học Máy Tính. Giáo trình điện tử .TS Võ Thị Ngọc Châu

63 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 63
Dung lượng 1,07 MB

Nội dung

Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại Học Bách Khoa Tp Hồ Chí Minh Chương 1: Tổng quan khai phá liệu Cao Học Ngành Khoa Học Máy Tính Giáo trình điện tử Biên soạn bởi: TS Võ Thị Ngọc Châu (chauvtn@cse.hcmut.edu.vn) Học kỳ – 2011-2012 1 Tài liệu tham khảo ‡ ‡ ‡ ‡ ‡ ‡ ‡ ‡ ‡ [1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006 [2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT Press, 2001 [3] David L Olson, Dursun Delen, “Advanced Data Mining Techniques”, Springer-Verlag, 2008 [4] Graham J Williams, Simeon J Simoff, “Data Mining: Theory, Methodology, Techniques, and Applications”, Springer-Verlag, 2006 [5] Hillol Kargupta, Jiawei Han, Philip S Yu, Rajeev Motwani, and Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC, 2009 [6] Daniel T Larose, “Data mining methods and models”, John Wiley & Sons, Inc, 2006 [7] Ian H.Witten, Eibe Frank, “Data mining : practical machine learning tools and techniques”, Second Edition, Elsevier Inc, 2005 [8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire, “Successes and new directions in data mining”, IGI Global, 2008 [9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge Discovery Handbook”, Second Edition, Springer Science + Business Media, LLC 2005, 2010 2 Nội dung ‡ Chương 1: Tổng quan khai phá liệu ‡ Chương 2: Các vấn đề tiền xử lý liệu ‡ ‡ Chương 3: Hồi qui liệu Chương 4: Phân loại liệu ‡ Chương 5: Gom cụm liệu ‡ Chương 6: Luật kết hợp ‡ Chương 7: Khai phá liệu công nghệ sở liệu Chương 8: Ứng dụng khai phá liệu ‡ ‡ ‡ Chương 9: Các đề tài nghiên cứu khai phá liệu Chương 10: Ôn tập 3 Chương 1: Tổng quan khai phá liệu ‡ 1.0 Tình ‡ 1.1 Quá trình khám phá tri thức ‡ 1.2 Các khái niệm ‡ 1.3 Ý nghĩa vai trò khai phá ‡ 1.4 Ứng dụng khai phá liệu ‡ 1.5 Tóm tắt liệu 4 1.0 Tình Người sử dụng thẻ ID = 1234 thật chủ nhân thẻ tên trộm? 5 1.0 Tình Tid Refund Marital Status Taxable Evade Income Yes Single 125K No No Married 100K No No Single 70K No Yes Married 120K No No Divorced 95K Yes No Married No Yes Divorced 220K No No Single 85K Yes No Married 75K No 10 No Single 90K Yes 60K Ông A (Tid = 100) có khả trốn thuế??? 10 6 1.0 Tình Ngày mai cổ phiếu STB tăng??? 7 1.0 Tình Khóa MãSV MơnHọc1 MơnHọc2 … TốtNghiệp 2004 9.0 8.5 … Có 2004 6.5 8.0 … Có 2004 4.0 2.5 … Khơng 2004 5.5 3.5 … Không 2004 14 5.0 5.5 … Có … … … … … … 2005 90 7.0 6.0 … Có (80%) 2006 24 9.5 7.5 … Có (90%) 2007 82 5.5 4.5 … Khơng (45%) 2008 47 2.0 3.0 … Không (97%) … … … … … … Làm xác định khả tốt nghiệp sinh viên tại? 8 1.0 Tình … We are data rich, but information poor “Necessity is the mother of invention” - Plato 9 1.1 Quá trình khám phá tri thức Pattern Evaluation/ Presentation Data Mining Patterns Task-relevant Data Data Warehouse Data Cleaning Selection/Transformation Data Integration Data Sources 10 10 1.2.4 Các hệ thống khai phá liệu ‡ Hệ thống khai phá liệu phát triển dựa khái niệm rộng khai phá liệu „ ‡ Khai phá liệu trình khám phá tri thức quan tâm từ lượng lớn liệu sở liệu, kho liệu, hay kho thông tin khác Các thành phần có „ Database, data warehouse, World Wide Web, information repositories „ Database hay data warehouse server „ Knowledge base „ Data mining engine „ Pattern evaluation module „ User interface 49 49 1.2.4 Kiến trúc hệ thống khai phá liệu 50 50 1.2.4 Các hệ thống khai phá liệu ‡ ‡ Database, data warehouse, World Wide Web, information repositories „ Thành phần nguồn liệu/thơng tin khai phá „ Trong tình cụ thể, thành phần nguồn nhập (input) kỹ thuật tích hợp làm liệu Database hay data warehouse server „ Thành phần chịu trách nhiệm chuẩn bị liệu thích hợp cho yêu cầu khai phá liệu 51 51 1.2.4 Các hệ thống khai phá liệu ‡ ‡ Knowledge base „ Thành phần chứa tri thức miền, dùng để hướng dẫn trình tìm kiếm, đánh giá mẫu kết tìm thấy „ Tri thức miền phân cấp khái niệm, niềm tin người sử dụng, ràng buộc hay ngưỡng giá trị, siêu liệu, … Data mining engine „ Thành phần chứa khối chức thực tác vụ khai phá liệu 52 52 1.2.4 Các hệ thống khai phá liệu ‡ Pattern evaluation module „ Thành phần làm việc với độ đo (và ngưỡng giá trị) hỗ trợ tìm kiếm đánh giá mẫu cho mẫu tìm thấy mẫu quan tâm người sử dụng „ Thành phần tích hợp vào thành phần Data mining engine 53 53 1.2.4 Các hệ thống khai phá liệu ‡ User interface „ Thành phần hỗ trợ tương tác người sử dụng hệ thống khai phá liệu ‡ ‡ ‡ Người sử dụng định câu truy vấn hay tác vụ khai phá liệu Người sử dụng cung cấp thơng tin hỗ trợ việc tìm kiếm, thực khai phá liệu sâu thông qua kết khai phá trung gian Người sử dụng xem lược đồ sở liệu/kho liệu, cấu trúc liệu; đánh giá mẫu khai phá được; trực quan hóa mẫu dạng khác 54 54 1.2.4 Các hệ thống khai phá liệu ‡ Các đặc điểm dùng để khảo sát hệ thống khai phá liệu „ „ „ „ „ „ „ „ Kiểu liệu Các vấn đề hệ thống Nguồn liệu Các tác vụ phương pháp luận khai phá liệu Vấn đề gắn kết với hệ thống kho liệu/cơ sở liệu Khả co giãn liệu Các cơng cụ trực quan hóa Ngôn ngữ truy vấn khai phá liệu giao diện đồ họa cho người dùng 55 55 1.2.4 Các hệ thống khai phá liệu ‡ Một số hệ thống khai phá liệu: „ Intelligent Miner (IBM) „ Microsoft data mining tools (Microsoft SQL Server 2000/2005/2008) „ Oracle Data Mining (Oracle 9i/10g/11g) „ Enterprise Miner (SAS Institute) „ Weka (the University of Waikato, New Zealand, www.cs.waikato.ac.nz/ml/weka) „ … 56 56 1.2.4 Các hệ thống khai phá liệu ‡ Phân biệt hệ thống khai phá liệu với „ Các hệ thống phân tích liệu thống kê (statistical data analysis systems) „ Các hệ thống học máy (machine learning systems) „ Các hệ thống truy hồi thông tin (information retrieval systems) „ Các hệ sở liệu diễn dịch (deductive database systems) „ Các hệ sở liệu (database systems) „ … 57 57 1.3 Ý nghĩa vai trò khai phá liệu Sự tiến hóa cơng nghệ Data Collection and Database Creation (1960s and earlier) hệ sở liệu Database Management Systems (1970s-early 1980s) Advanced Database Systems (mid-1980s-present) Web-based Database Systems (1990s-present) Advanced Data Analysis: Data Warehousing and Data Mining (late 1980s-present) New Generation of Integrated Data and Information Systems (present-future) 58 58 1.3 Ý nghĩa vai trò khai phá liệu ‡ Công nghệ đại lĩnh vực quản lý thông tin „ Hiện diện khắp nơi (ubiquitous) có tính ẩn (invisible) nhiều khía cạnh đời sống ngày ‡ Làm việc, mua sắm, tìm kiếm thơng tin, nghỉ ngơi, … „ Được áp dụng nhiều ứng dụng thuộc nhiều lĩnh vực khác „ Hỗ trợ nhà khoa học, giáo dục học, kinh tế học, doanh nghiệp, khách hàng, … 59 59 1.4 Ứng dụng khai phá liệu ‡ Trong kinh doanh (business) ‡ Trong tài (finance) tiếp thị bán hàng (sales marketing) ‡ Trong thương mại (commerce) ngân hàng (bank) ‡ Trong bảo hiểm (insurance) ‡ Trong khoa học (science) y sinh học (biomedicine) ‡ Trong điều khiển (control) viễn thông (telecommunication) ‡ … 60 60 1.5 Tóm tắt ‡ Khai phá liệu trình khám phá mẫu quan tâm từ lượng lớn liệu „ Mẫu kết khai phá mẫu thể tri thức chúng dễ hiểu, hợp lệ với mức độ chắn, hữu dụng, người dùng „ Lượng lớn liệu từ sở liệu truyền thống/hiện đại, kho liệu, hay từ nguồn thông tin khác (spatial, time series, text, multimedia, web, …) „ Các tác vụ khai phá liệu bao gồm khai phá mô tả lớp/khái niệm (đặc trưng hóa phân biệt hóa liệu), khai phá luật kết hợp/tương quan, phân lớp, dự đoán, gom cụm, phân tích xu hướng, phân tích độ lệch phần tử biên, phân tích độ tương tự, … ‡ Năm thành tố để đặc tả tác vụ khai phá liệu: liệu cụ thể khai phá, loại tri thức đạt được, tri thức nền, độ đo, kỹ thuật biểu diễn/trực quan hóa tri thức ‡ Bốn thành phần giải thuật khai phá liệu: cấu trúc mẫu hay mơ hình, hàm tỉ số, phương pháp tìm kiếm tối ưu hóa, chiến lược quản lý liệu 61 61 1.5 Tóm tắt ‡ Khai phá liệu xem phần trình khám phá tri thức ‡ Quá trình khám phá tri thức chuỗi lặp gồm bước: làm liệu, tích hợp liệu, chọn lựa liệu, biến đổi liệu, khai phá liệu, đánh giá mẫu, biểu diễn tri thức ‡ Nhiều lĩnh vực khác có liên quan với khai phá liệu: công nghệ sở liệu, lý thuyết thống kê, học máy, khoa học thơng tin, trực quan hóa, … ‡ Các vấn đề liên quan: phương pháp luận khai phá liệu, vấn đề tương tác người dùng, khả co giãn liệu hiệu suất, vấn đề xử lý lượng lớn kiểu liệu khác nhau, vấn đề khai thác ứng dụng khai phá liệu ảnh hưởng xã hội chúng 62 62 Hỏi & Đáp … 63 63

Ngày đăng: 23/05/2021, 00:20

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w