14 9tham khao khai phá dữ liệu

65 115 0
14 9tham khao  khai phá dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ủa tệp http://www.cse.hcmut.edu.vn/~dtanh/download/Data%20Mining%20-%20Chapter %201.ppt G o o g l e tự động tạo phiên html tài liệu crawl web Chương 1: Tổng quan khai phá liệu Khai phá liệu (Data mining) Học kỳ – 2009-2010 Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại Học Bách Khoa Tp Hồ Chí Minh Nội dung • 1.0 Tình • • • • • 1.1 Q trình khám phá tri thức 1.2 Các khái niệm 1.3 Ý nghĩa vai trò khai phá liệu 1.4 Ứng dụng khai phá liệu 1.5 Tóm tắt Tài liệu tham khảo • [1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006 • • • • [2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT Press, 2001 [3] David L Olson, Dursun Delen, “Advanced Data Mining Techniques”, Springer-Verlag, 2008 [4] Graham J Williams, Simeon J Simoff, “Data Mining: Theory, Methodology, Techniques, and Applications”, Springer-Verlag, 2006 [5] ZhaoHui Tang, Jamie MacLennan, “Data Mining with SQL Server 2005”, Wiley Publishing, 2005 • • [6] Oracle, “Data Mining Concepts”, B28129-01, 2008 [7] Oracle, “Data Mining Application Developer’s Guide”, B28131-01, 2008 1.0 Tình Người sử dụng thẻ ID = 1234 thật chủ nhân thẻ tên trộm? 1.0 Tình Ơng A (Tid = 100) có khả trốn thuế??? 1.0 Tình Ngày mai cổ phiếu STB tăng??? 1.0 Tình Khơng (97%) … 3.0 2.0 47 2008 … … … … … … Khơng (45%) … 4.5 5.5 82 2007 Có (90%) … 7.5 9.5 24 2006 Có (80%) … 6.0 7.0 90 2005 Không … 3.5 5.5 2004 … 14 MãSV … … … … … Có … 5.5 5.0 2004 Khơng … 2.5 4.0 2004 Có … 8.0 6.5 2004 Có … 8.5 9.0 2004 TốtNghiệp … MơnHọc2 MơnHọc1 Khóa Làm xác định khả tốt nghiệp sinh viên tại? 1.0 Tình … We are data rich, but information poor “Necessity is the mother of invention” - Plato 1.1 Quá trình khám phá tri thức Data Cleaning Data Integration Data Sources Data Warehouse Knowledge Task-relevant Data Selection/Transformation Data Mining Pattern Evaluation/ Presentation Patterns 10 1.1 Quá trình khám phá tri thức 1.2.4 Các hệ thống khai phá liệu • Pattern evaluation module o o Thành phần làm việc với độ đo (và ngưỡng giá trị) hỗ trợ tìm kiếm đánh giá mẫu cho mẫu tìm thấy mẫu quan tâm người sử dụng Thành phần tích hợp vào thành phần Data mining engine 53 1.2.4 Các hệ thống khai phá liệu • User interface o Thành phần hỗ trợ tương tác người sử dụng hệ thống khai phá liệu    Người sử dụng định câu truy vấn hay tác vụ khai phá liệu Người sử dụng cung cấp thơng tin hỗ trợ việc tìm kiếm, thực khai phá liệu sâu thông qua kết khai phá trung gian Người sử dụng xem lược đồ sở liệu/kho liệu, cấu trúc liệu; đánh giá mẫu khai phá được; trực quan hóa mẫu dạng khác 54 1.2.4 Các hệ thống khai phá liệu • Các đặc điểm dùng để khảo sát hệ thống khai phá liệu o Kiểu liệu o Các vấn đề hệ thống o Nguồn liệu o o Các tác vụ phương pháp luận khai phá liệu Vấn đề gắn kết với hệ thống kho liệu/cơ sở liệu o Khả co giãn liệu o Các công cụ trực quan hóa o Ngơn ngữ truy vấn khai phá liệu giao diện đồ họa cho người dùng 55 1.2.4 Các hệ thống khai phá liệu • Một số hệ thống khai phá liệu: o o o o o o Intelligent Miner (IBM) Microsoft data mining tools (Microsoft SQL Server 2000/2005/2008) Oracle Data Mining (Oracle 9i/10g/11g) Enterprise Miner (SAS Institute) Weka (the University of Waikato, New Zealand, www.cs.waikato.ac.nz/ml/weka) … 56 1.2.4 Các hệ thống khai phá liệu • Phân biệt hệ thống khai phá liệu với o o o o o o Các hệ thống phân tích liệu thống kê (statistical data analysis systems) Các hệ thống học máy (machine learning systems) Các hệ thống truy hồi thông tin (information retrieval systems) Các hệ sở liệu diễn dịch (deductive database systems) Các hệ sở liệu (database systems) … 57 1.3 Ý nghĩa vai trò khai phá liệu Data Collection and Database Creation (1960s and earlier) Database Management Systems (1970s-early 1980s) Advanced Database Systems (mid-1980s-present) Advanced Data Analysis: Data Warehousing and Data Mining (late 1980s-present) Web-based Database Systems (1990s-present) New Generation of Integrated Data and Information Systems (present-future) Sự tiến hóa cơng nghệ hệ sở liệu 58 1.3 Ý nghĩa vai trò khai phá liệu • Cơng nghệ đại lĩnh vực quản lý thông tin o Hiện diện khắp nơi (ubiquitous) có tính ẩn (invisible) nhiều khía cạnh đời sống ngày  o o Làm việc, mua sắm, tìm kiếm thơng tin, nghỉ ngơi, … Được áp dụng nhiều ứng dụng thuộc nhiều lĩnh vực khác Hỗ trợ nhà khoa học, giáo dục học, kinh tế học, doanh nghiệp, khách hàng, … 59 1.4 Ứng dụng khai phá liệu • • • • • • Trong kinh doanh (business) Trong tài (finance) tiếp thị bán hàng (sales marketing) Trong thương mại (commerce) ngân hàng (bank) Trong bảo hiểm (insurance) Trong khoa học (science) y sinh học (biomedicine) Trong điều khiển (control) viễn thông (telecommunication) 1.5 Tóm tắt • Khai phá liệu q trình khám phá mẫu quan tâm từ lượng lớn liệu o o o Mẫu kết khai phá mẫu thể tri thức chúng dễ hiểu, hợp lệ với mức độ chắn, hữu dụng, người dùng Lượng lớn liệu từ sở liệu truyền thống/hiện đại, kho liệu, hay từ nguồn thông tin khác (spatial, time series, text, multimedia, web, …) Các tác vụ khai phá liệu bao gồm khai phá mơ tả lớp/khái niệm (đặc trưng hóa phân biệt hóa liệu), khai phá luật kết hợp/tương quan, phân lớp, dự đốn, gom cụm, phân tích xu hướng, phân tích độ lệch phần tử biên, phân tích độ tương tự, …  Năm thành tố để đặc tả tác vụ khai phá liệu: liệu cụ thể khai phá, loại tri thức đạt được, tri thức nền, độ đo, kỹ thuật biểu diễn/trực quan hóa tri thức  Bốn thành phần giải thuật khai phá liệu: cấu trúc mẫu hay mô hình, hàm tỉ số, phương pháp tìm kiếm tối ưu hóa, chiến lược quản lý liệu 61 1.5 Tóm tắt • • • • Khai phá liệu xem phần trình khám phá tri thức Quá trình khám phá tri thức chuỗi lặp gồm bước: làm liệu, tích hợp liệu, chọn lựa liệu, biến đổi liệu, khai phá liệu, đánh giá mẫu, biểu diễn tri thức Nhiều lĩnh vực khác có liên quan với khai phá liệu: công nghệ sở liệu, lý thuyết thống kê, học máy, khoa học thơng tin, trực quan hóa, … Các vấn đề liên quan: phương pháp luận khai phá liệu, vấn đề tương tác người dùng, khả co giãn liệu hiệu suất, vấn đề xử lý lượng lớn kiểu liệu khác nhau, vấn đề khai thác ứng dụng khai phá liệu ảnh hưởng xã hội chúng  CHƯƠNG I TỔNG QUAN Nội dung chương gồm: • Các khái niệm khai phá liệu • Các cơng đoạn khám phá tri thức từ sở liệu • Ứng dụng kỹ thuật khai phá liệu Các Khái Niệm Cơ Bản 1.1 Khai phá liệu (Data Mining) Công nghệ thông tin, Internet, Intranet, kho liệu, với công nghệ lưu trữ tiên tiến tạo điều kiện cho doanh nghiệp, tổ chức thu thập sở hữu khối lượng thông tin khổng lồ Để khai thác hiệu nguồn thơng tin từ CSDL lớn để hỗ trợ cho tiến trình định, bên cạnh phương pháp khai thác thông tin truyền thống, nhà nghiên cứu phát triển phương pháp, kỹ thuật phần mềm để hỗ trợ tiến trình khám phá, phân tích tổng hợp thơng tin Theo đánh giá IBM, phương pháp khai thác thông tin truyền thống thu khoảng 80% thông tin từ CSDL, phần lại bao gồm thơng tin mang tính khái qt, thơng tin có quy luật tiềm ẩn bên liệu Lượng thông tin nhỏ thông tin cốt lõi cần thiết cho tiến trình định Khai phá liệu (KPDL) tiến trình khám phá tri thức tiềm ẩn CSDL Cụ thể hơn, tiến trình trích lọc, sản sinh tri thức mẫu tiềm ẩn, chưa biết hữu ích từ CSDL lớn KPDL tiến trình khái quát kiện rời rạc liệu thành tri thức mang tính khái quát, tính quy luật hỗ trợ tích cực cho tiến trình định Nguồn liệu phục vụ cho KPDL CSDL lớn hay kho liệu có khơng có cấu trúc Nói khơng có nghĩa KPDL thực CSDL nhỏ KPDL thực phát huy tác dụng CSDL lớn, nơi mà khả diễn dịch trực giác người kỹ thuật truyền thống thực thực hiệu khơng cao Có thể chia KPDL thành dạng chính:   Bài giảng Khai phá liệu - KPDL theo hướng kiểm tra: người dùng đề xuất giả thiết, hệ thống kiểm tra tính đắn giả thiết (bao gồm: truy vấn, báo cáo, phân tích đa chiều, phân tích thống kê …) - KPDL theo hướng khám phá: tìm kiếm tri thức tiềm ẩn CSDL cách tiến hành xem xét tất giả thiết Do khơng gian tìm kiếm lớn, nên nhiều heuristic đề xuất nhằm nâng cao hiệu suất thuật giải tìm kiếm Tri thức rút dùng để: - Giải thích liệu: Cung cấp hiểu biết sâu sắc hữu ích hành vi đối tượng, giúp cho doanh nghiệp hiểu rõ khách hàng họ - Dự báo: dự đoán giá trị đối tượng • Khuynh hướng mua hàng khách hàng • Xác định rủi ro tín dụng khách hàng • Định hướng tập trung nguồn lực doanh nghiệp Ngày nay, công cụ thu thập liệu tự động công nghệ lưu trữ liệu ngày hoàn thiện giúp người tạo lập quản lý lượng liệu khổng lồ CSDL, kho liệu (data warehouse) nhu cầu nắm bắt liệu, trích rút thơng tin trở thành cấp thiết có ý nghĩa Mặt khác, với nhu cầu ngày cao hơn, người khơng lòng với liệu đơn giản thu từ kỹ thuật trước Từ nhu cầu kiện rời rạc lĩnh vực ứng dụng, phát sinh nhu cầu nắm bắt tri thức mối quan hệ chúng, xa phát quy luật lĩnh vực KPDL đời nhằm đáp ứng nhu cầu cấp thiết 1.2 Lịch sử phát triển KPDL - Thập niên 1960: xuất CSDL theo mơ hình mạng mơ hình phân cấp - Thập niên 1970: thiết lập tảng lý thuyết cho CSDL quan hệ, hệ quản trị CSDL quan hệ - Thập niên 1980: hoàn thiện lý thuyết CSDL quan hệ hệ quản trị CSDL quan hệ, xuất hệ quản trị CSDL cao cấp (hướng đối tượng, suy diễn, …) hệ quản trị CSDL hướng ứng dụng lĩnh vực không gian, khoa học, công nghiệp, nông nghiệp, địa lý, … - Thập niên từ 1990 đến 2000: phát triển KPDL kho liệu, CSDL đa phương tiện CSDL web    Bài giảng Khai phá liệu KPDL cơng đoạn tiến trình khám phá tri thức từ CSDL (Knowledge Discovery in Database - KDD) KPDL mang tính trực giác, cho phép thu hiểu biết rõ ràng sâu sắc hơn, vượt xa kho liệu KPDL giúp phát xu phát triển từ thông tin khứ, cho phép đề xuất dự báo mang tính thống kê, gom cụm phân loại liệu Vị trí KPDL thể qua sơ đồ: Hình Vị trí KPDL 1.3 Tại dùng khai phá liệu KPDL cần thiết với người dùng lý sau: - Ngày có nhiều liệu lưu trữ CSDL, kho liệu hình thành “mỏ vàng liệu” chứa đầy thông tin chiến lược mà hệ quản trị CSDL thông thường phát quản trị chúng - CSDL phát triển nhanh kích thước lẫn số lượng Không xét thông tin mang tính kiện lưu trữ CSDL, thơng tin suy Tăng khả hỗ trợ định kinh doanh Ra định Trình bày liệu Các công cụ trực quan Data Mining Khảo sát liệu Phân tích, thống kê, truy vấn báo cáo Data Warehouse / Data Marts OLAP , MDA Nguồn liệu Giấy tờ, tập tin, trình cung cấp thơng tin, hệ thống CSDL Người dùng Nhà phân tích kinh doanh Nhà phân tích liệu Bài giảng Khai phá liệu diễn từ lý thú Tuy nhiên, với quan hệ có số lượng khổng lồ ghi có nhiều trường liệu, việc duyệt hàng triệu ghi hay hàng trăm trường tin để tìm mẫu quy luật thách thức trở ngại thật nhà phân tích liệu - Khơng phải người dùng nhà thống kê hay nhà phân tích liệu chuyên nghiệp - Sử dụng cho trường hợp tìm kiếm chưa xác lập rõ chưa mơ tả điều kiện tìm kiếm Nếu người dùng biết họ tìm kiếm dùng SQL, người dùng có ý tưởng khơng rõ ràng, cảm nhận họ nên dùng KPDL KPDL cơng cụ hiệu lĩnh vực: - Sử dụng liệu để xây dựng mơ hình dự báo: • Khả dự báo tiềm ẩn liệu • Gợi ý chiều nhóm liệu có khả chứa tri thức hữu ích - Tạo tóm tắt báo cáo rõ ràng: • Tự động tìm phân đoạn liệu • Tìm phân đoạn mà nhà phân tích chưa biết có hiểu biết chưa rõ ràng - Cung cấp chế hỗ trợ định: • Dự báo • Mơ hình hóa Các Cơng Đoạn Khám Phá Tri Thức Từ Cơ Sở Dữ Liệu Tiến trình khám phá tri thức từ CSDL bao gồm công đoạn: - Chuẩn bị liệu • Chọn lọc liệu • Làm liệu • Làm giàu liệu • Mã hóa liệu - Khai thác liệu - Tường trình, báo cáo kết Tại cơng đoạn, tiến trình quay lui qua hay nhiều giai đoạn Ví dụ, giai đoạn khám phá hay mã hóa liệu, tiến trình quay trở giai đoạn xóa bỏ liệu, hay quay trở giai đoạn làm giàu liệuliệu để sử dụng chúng cho việc làm giàu tập liệu có sẵn Khái Quát Các Kỹ Thuật Khai Phá Dữ Liệu 4.1.Khai thác tập phổ biến luật kết hợp Là tiến trình khám phá tập giá trị thuộc tính xuất phổ biến đối tượng liệu Từ tập phổ biến tạo luật kết hợp giá trị thuộc tính nhằm phản ánh khả xuất đồng thời giá trị thuộc tính tập đối tượng Một luật kết hợp X → Y phản ánh xuất tập X dẫn đến xuất đồng thời tập Y Ví dụ, CSDL bán hàng, có luật kết hợp tiêu biểu sau: “Có 67% khách hàng mua bia 333, rượu Nàng Hương mua bánh tơm Cầu Tre” Luật kết hợp giúp nhà hoạch định hiểu rõ xu bán hàng, tâm lý khách hàng, từ đưa chiến lược bố trí mặt hàng, kinh doanh, tiếp thị, tồn kho, … 4.2 Khai thác mẫu Là tiến trình khám phá mẫu phổ biến phản ánh mối quan hệ biến cố CSDL hướng thời gian Một luật mô tả có dạng tiêu biểu X → Y phản ánh xuất biến cố X dẫn đến việc xuất biến cố Y Một luật thể mẫu tiêu biểu: “Có 80% khách hàng mua Áo thun Việt Tiến, mua bóng Động Lực sau ngày mua quần Việt Tiến” Nhờ mẫu tuần tự, khám phá xu phát triển hành vi đối tượng 4.3 Phân lớp liệu Là tiến trình khám phá luật phân loại hay đặc trưng cho tập liệu xếp lớp Tập liệu học bao gồm tập đối tượng xác định lớp dùng để tạo mơ hình phân lớp dựa đặc trưng đối tượng tập liệu học Các luật phân lớp sử dụng để xây dựng phân lớp liệu Phân lớp liệu có vai trò quan trọng tiến trình dự báo khuynh hướng, quy luật phát • • • • • • • • • •

Ngày đăng: 20/06/2018, 09:29

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan