Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 36 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
36
Dung lượng
2,87 MB
Nội dung
TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN BÀI GIẢNG MÔN HỌC KHAI PHÁ DỮ LIỆU BÀI MỞ ĐẦU TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU Giảng viên: ThS Nguyễn Vương Thịnh Bộ môn: Hệ thống thơng tin Hải Phịng, 2011 Thơng tin giảng viên Họ tên Nguyễn Vương Thịnh Đơn vị công tác Bộ môn Hệ thống thông tin – Khoa Công nghệ thông tin Học vị Chuyên ngành Hệ thống thông tin Cơ sở đào tạo Trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội Năm tốt nghiệp 2012 Điện thoại 0983283791 Email Thạc sỹ thinhnv@vimaru.edu.vn Tài liệu tham khảo Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques, Elsevier Inc, 2006 Robert Nisbet, John Elder, Gary Miner, Handbook of Statistical Analysis and Data Mining Applications, Elsevier Inc, 2009 Elmasri, Navathe, Somayajulu, Gupta, Fundamentals of Database Systems (the 4th Edition), Pearson Education Inc, 2004 Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Giáo trình Khai phá liệu Web, NXB Giáo dục, 2009 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 0.1 NHU CẦU KHAI PHÁ DỮ LIỆU 0.2 KHAI PHÁ DỮ LIỆU LÀ GÌ? 0.3 KHÁI NIỆM VỀ DỮ LIỆU, MẪU VÀ TRI THỨC 0.4 CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU CƠ BẢN 0.5 CÁC GIAI ĐOẠN TRONG KHAI PHÁ DỮ LIỆU 0.6 KIẾN TRÚC ĐIỂN HÌNH CỦA MỘT HỆ THỐNG KPDL 0.7 CÁC NGUỒN DỮ LIỆU PHỤC VỤ CHO KHAI PHÁ 0.8 ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU 0.1 NHU CẦU KHAI PHÁ DỮ LIỆU SỰ BÙNG NỔ THÔNG TIN! Nhiều liệu sinh thêm: Web, văn bản, ảnh … Giao dịch thương mại, gọi, DL khoa học: thiên văn, sinh học … Thêm nhiều liệu nắm giữ: Công nghệ lưu giữ nhanh rẻ Hệ quản trị CSDL quản lý sở liệu với kích thước lớn Vấn đề bùng nổ liệu Các tiện ích thu thập liệu tự động cơng nghệ sở liệu lớn mạnh dẫn tới lượng lớn liệu tích lũy và/hoặc cần phân tích sở liệu, kho liệu nguồn chứa liệu khác Chúng ta bị ngập lụt liệu mà khát tri thức! Giải pháp: Kho liệu Khai phá liệu (mining) Tạo lập kho liệu q trình phân tích liệu trực tuyến OLAP Khai phá tri thức hấp dẫn (luật, quy luật, mẫu, ràng buộc) từ liệu CSDL lớn 0.2 KHAI PHÁ DỮ LIỆU LÀ GÌ? Theo J.Han M.Kamber (2006) [1]: Quan niệm 1: Khai phá liệu (Data Mining) q trình trích chọn tri thức từ tập hợp lớn liệu Khai phá liệu = Phát tri thức từ liệu (KDD: Knowledge Discovery From Data) Quan niệm 2: Khai phá liệu (Data Mining) bước quan trọng trình phát hiên tri thức từ liệu (KDD) Áp dụng phương pháp “thông minh” để trích chọn mẫu liệu (data pattern) 10 0.5 CÁC GIAI ĐOẠN TRONG KHAI PHÁ DỮ LIỆU 22 Làm liệu (Data Cleaning): Loại bỏ nhiễu (noisy) liệu khơng qn Tích hợp liệu (Data Integration): Kết hợp liệu từ nguồn liệu khác Lựa chọn liệu (Data Selection): Dữ liệu phù hợp cho thao tác phân tích lấy từ sở liệu Chuyển dạng liệu (Data Transformation): Dữ liệu chuyển dạng hợp thành dạng phù hợp cho trình khai phá cách thực thao tác tóm tắt (summary) gộp nhóm liệu (aggregation) Trích chọn mẫu (Data Patterns Extracting): Áp dụng phương pháp “thơng minh” để trích chọn mẫu thực đáng quan tâm từ liệu Đơi thân bước gọi khai phá liệu (Data Mining) (hiểu theo nghĩa hẹp) 23 Đánh giá mẫu (Pattern Evaluation): Dựa độ đo đặc trưng, xác định mẫu đáng quan tâm biểu diễn tri thức Biểu diễn tri thức (Knowledge Presentation): Các kỹ thuật biểu diễn tri thức trực quan hóa (visualization) sử dụng để biểu diễn tri thức khai phá đến với người dùng Chú ý: Các giai đoạn từ đến gọi giai đoạn tiền xử lý liệu (data preprocessing) nhằm chuẩn bị liệu cho q trình khai phá (trích chọn mẫu) 24 0.6 KIẾN TRÚC ĐIỂN HÌNH CỦA MỘT HỆ THỐNG KHAI PHÁ DỮ LIỆU 25 Cơ sở liệu (Database), kho liệu (Data Warehouse), World Wide Web nguồn chứa thơng tin khác: Đây một nhóm sở liệu/kho liệu nguồn chứa thông tin (information repositories) Các kỹ thuật làm liệu tích hợp liệu thực liệu Máy chủ sở liệu kho liệu (Database or Data Warehouse Server): Chịu trách nhiệm lấy liệu phù hợp dựa yêu cầu khai phá người dùng Cơ sở tri thức (Knowledge Base): Đây tri thức miền (domain knowledge) sử dụng để dẫn hướng trình tìm kiếm đánh giá độ hấp dẫn mẫu tìm thấy Tri thức bao gồm phân cấp khái niệm (concept hierarchies) (được sử dụng để tổ chức thuộc tính giá trị thuộc tính thành mức trừu tượng khác nhau) 26 Engine khai phá liệu (Data Mining Engine): Đây thành phần chủ yếu hệ thống KPDL Bao gồm module thực tác vụ phân tích đặc trưng (characterization) quan hệ kết hợp (association/correlation analysis), phân lớp (classification), dự đoán (prediction), phân tích cụm (cluster analysis),… Module đánh giá mẫu (Pattern Evaluation Module): Sử dụng độ đo hấp dẫn có tương tác với engine khai phá liệu nhằm tập trung vào việc tìm mẫu đáng quan tâm Có thể sử dụng ngưỡng độ hấp dẫn để lọc bớt mẫu tìm Có thể tích hợp với module khai phá tùy thuộc vào phương pháp khai phá sử dụng cách thức cài đặt Khuyến khích: Thao tác đánh giá mẫu cần tích hợp chặt chẽ tốt với tiến trình khai phá nhằm nâng cao hiệu khai phá (giới hạn việc tìm kiếm với mẫu đáng quan tâm) 27 Giao diện người sử dụng (User Interface): Module làm nhiệm vụ giao tiếp người dùng hệ thống KPDL: Cho phép người dùng tương tác với hệ thống cách truy vấn tác vụ khai phá mong muốn Cung cấp thông tin giúp cho thao tác tìm kiếm tập trung Thực khai phá thăm dò (Exploratory Data Mining) dựa kết khai phá trung gian Cho phép người dùng duyệt sở liệu, lược đồ kho liệu cấu trúc liệu, đánh giá mẫu khai phá biểu diễn trực quan mẫu dạng thức khác 28 0.7 CÁC NGUỒN DỮ LIỆU PHỤC VỤ CHO KHAI PHÁ CƠ SỞ DỮ LIỆU QUAN HỆ (RELATIONAL DATABASE) 29 KHO DỮ LIỆU (DATA WAREHOUSE) Là nơi tập trung liệu từ nhiều nguồn khác (multiple sources) lưu trữ lược đồ thống (unified shema) tập trung nơi Được xây dựng thông qua tiến trình làm liệu (data cleaning), tích hợp liệu (data integration), chuyển dạng liệu (data transformation), tải liệu (data loading) làm tươi liệu định kỳ (periodic data refreshing) 30 31 Để thuận tiện cho việc định, liệu kho liệu thường tổ chức xoay quanh chủ đề đáng quan tâm khách hàng (customer), hàng hóa (item), nhà cung cấp (supplier),… Dữ liệu lưu trữ nhằm cung cấp thông tin dựa nhìn tồn cảnh liệu tác nghiệp doanh nghiệp khoảng từ -10 năm thường tóm tắt (summarized) để thuận tiện cho xử lý Kho liệu thường mơ hình hóa dạng cấu trúc sở liệu đa chiều (multidimensional database structure), chiều tương ứng với thuộc tính tập thuộc tích lược đồ ô (cell) lưu trữ giá trị số đại lượng gộp nhóm Cấu trúc vật lý thực kho liệu dạng sở liệu quan hệ data cube đa chiều Một data cube cung cấp nhìn đa chiều liệu cho phép thực thao tác tiền tính tốn (precomputation) truy cập nhanh tới liệu tóm tắt 32 CƠ SỞ DỮ LIỆU GIAO DỊCH (TRANSACTION DATABASE) Cơ sở liệu giao dịch tập hợp giao dịch Mỗi giao dịch bao gồm số hiệu giao dịch (trans_ID) danh sách mục (item) cấu thành giao dịch Trans_ID T1 Milk, Bread, Coke T2 Beer, Bread T3 Beer, Milk, Diaper, Coke T4 Beer, Milk, Diaper, Bread T5 33 Item List Milk, Diaper, Coke CÁC DẠNG DỮ LIỆU NÂNG CAO Dữ liệu văn bản: bao gồm dạng có cấu trúc, bán cấu trúc khơng có cấu trúc Dữ liệu Multimedia: hình ảnh, âm thanh, video,… Dữ liệu World Wide Web: liệu nội dung web, liệu cấu trúc web, liệu sử dụng web 34 0.6 ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU Phân tích liệu hỗ trợ định Phân tích quản lý thị trường Tiếp thị định hướng, quản lý quan hệ khách hàng (CRM), phân tích thói quen mua hàng, bán hàng chéo, phân đoạn thị trường Phân tích quản lý rủi ro Dự báo, trì khách hàng, cải thiện bảo lãnh, kiểm sốt chất lượng, phân tích cạnh tranh Phát gian lận phát mẫu bất thường (ngoại lai) Ứng dụng khác Khai phá Text (nhóm mới, email, tài liệu) khai phá Web Khai phá liệu dịng Phân tích DNA liệu sinh học 35 Q&A 36 ... Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Giáo trình Khai phá liệu Web, NXB Giáo dục, 2009 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 0.1 NHU CẦU KHAI PHÁ DỮ LIỆU 0.2 KHAI PHÁ DỮ LIỆU LÀ... VỀ DỮ LIỆU, MẪU VÀ TRI THỨC 0.4 CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU CƠ BẢN 0.5 CÁC GIAI ĐOẠN TRONG KHAI PHÁ DỮ LIỆU 0.6 KIẾN TRÚC ĐIỂN HÌNH CỦA MỘT HỆ THỐNG KPDL 0.7 CÁC NGUỒN DỮ LIỆU PHỤC VỤ CHO KHAI. .. đồ kho liệu cấu trúc liệu, đánh giá mẫu khai phá biểu diễn trực quan mẫu dạng thức khác 28 0.7 CÁC NGUỒN DỮ LIỆU PHỤC VỤ CHO KHAI PHÁ CƠ SỞ DỮ LIỆU QUAN HỆ (RELATIONAL DATABASE) 29 KHO DỮ LIỆU