Trang 1 TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI--- LUẬN VĂN THẠC SỸ KHOA HỌCKHAI PHÁ DỮ LIỆU TRONG CÁC CƠ SỞ DỮ LIỆU QUAN HỆ LỚN VÀ CÁC KHO DỮ LIỆU Trang 2 PGS.TS.. CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆ
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SỸ KHOA HỌC KHAI PHÁ DỮ LIỆU TRONG CÁC CƠ SỞ DỮ LIỆU QUAN HỆ LỚN VÀ CÁC KHO DỮ LIỆU NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ SỐ: NGUYỄN VĂN TỈNH Người hướng dẫn khoa học: PGS.TS NGUYỄN THANH THỦY HÀ NỘI - 2006 Tai ngay!!! Ban co the xoa dong chu nay!!! 17057205110841000000 LỜI CẢM ƠN Em xin chân thành gửi lời cảm ơn sâu sắc tới Thầy giáo hướng dẫn, PGS.TS Nguyễn Thanh Thuỷ, người có hướng dẫn tận tình, q báu giúp em hoàn thành luận văn Em xin cảm ơn Thầy Cô thuộc trường Đại học Bách Khoa Hà Nội truyền đạt kiến thức quý báu khoá học Cuối xin cảm ơn gia đình quan nơi cơng tác tạo điều kiện thuận lợi để tơi hồn thành khố học Hà nội, tháng năm 2006 Nguyễn Văn Tỉnh MỤC LỤC LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC THUẬT NGỮ DANH MỤC BẢNG DANH MỤC HÌNH MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Phát tri thức từ sở liệu khai phá liệu 1.2 Lý phát triển khai phá liệu 11 1.3 Những dạng lưu trữ liệu khai phá 12 1.3.1 Các sở liệu quan hệ 12 1.3.2 Các kho liệu 13 1.3.3 Các sở liệu giao dịch 13 1.3.4 Các hệ thống sở liệu tiên tiến ứng dụng sở liệu tiên tiến 13 1.4 Những nhiệm vụ khai phá liệu mẫu liệu khai phá 14 1.4.1 Mô tả đặc trưng lớp liệu so sánh lớp liệu 14 1.4.2 Phân tích luật kết hợp 14 1.4.3 Phân lớp dự đoán 16 1.4.4 Phân tích ghép cụm 16 1.4.5 Phân tích thành phần 17 1.4.6 Phân tích tiến hố 17 1.5 Những mẫu liệu quan tâm khai phá liệu 17 1.6 Phân loại hệ thống khai phá liệu 18 1.7 Các giải pháp khai phá liệu 20 CHƯƠNG KHO DỮ LIỆU VÀ NGÔN NGỮ TRUY VẤN KHAI PHÁ DỮ LIỆU 24 2.1 Kho liệu công nghệ OLAP khai phá liệu 24 2.1.1 Khái niệm kho liệu 24 2.1.1.1 Sự khác hệ thống sở liệu tác nghiệp kho liệu 25 2.1.1.2 Lý cần có kho liệu riêng biệt 26 2.1.2 Mơ hình liệu đa chiều 27 2.1.2.1 Các khối liệu 27 2.1.2.2 Các phân cấp khái niệm (concept hierachy) 27 2.1.2.2 Các thao tác OLAP mô hình liệu đa chiều 28 2.1.3 Kiến trúc kho liệu 29 2.1.3.1 Các bước để thiết kế xây dựng kho liệu 29 2.1.3.2 Kiến trúc kho liệu tầng 29 2.1.3.3 Các loại máy chủ OLAP 30 2.1.4 Cài đặt kho liệu 31 2.1.4.1 Tính tốn hiệu khối liệu 31 2.1.4.2 Sắp xếp liệu OLAP 35 2.1.4.3 Xử lý có hiệu truy vấn OLAP 36 2.1.4.4 Lưu trữ siêu liệu 37 2.1.5 Từ kho liệu đến khai phá liệu 38 2.1.5.1 Việc sử dụng kho liệu 38 2.1.5.2 Tích hợp xử lý phân tích trực tuyến với khai phá liệu 38 2.2 Những thành phần xác định nhiệm vụ truy vấn khai phá liệu ngôn ngữ truy vấn khai phá liệu 41 2.2.1 Những thành phần xác định nhiệm vụ khai phá liệu 41 2.2.1.1 Dữ liệu phù hợp nhiệm vụ 41 2.2.1.2 Loại tri thức khai phá 42 2.2.1.3 Cơ sở tri thức: Các phân cấp khái niệm 42 2.2.1.4 Các đánh giá quan tâm 45 2.2.1.5 Biểu diễn trực quan hoá mẫu phát 47 2.2.2 Một ngôn ngữ truy vấn khai phá liệu 47 2.2.2.1 Cú pháp đặc tả liệu phù hợp nhiệm vụ 48 2.2.2.2 Cú pháp đặc tả loại tri thức khai phá 48 2.2.2.3 Cú pháp đặc tả phân cấp khái niệm 49 2.2.2.4 Cú pháp đặc tả đánh giá mẫu quan tâm 50 2.2.2.5 Cú pháp đặc tả biểu diễn trực quan hố mẫu 50 2.2.2.6 Một ví dụ truy vấn DMQL 51 CHƯƠNG CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU TỪ CÁC CƠ SỞ DỮ LIỆU QUAN HỆ LỚN VÀ CÁC KHO DỮ LIỆU 53 3.1 Khai phá luật kết hợp sở liệu lớn 53 3.1.1 Khai phá luật kết hợp 53 3.1.1.1 Các khái niệm sở 53 3.1.1.2 Phân loại luật kết hợp 54 3.1.2 Khai phá luật kết hợp nhị phân chiều từ sở liệu giao dịch 55 3.1.2.1 Giải thuật Apriori: Tìm kiếm tập mục thường xuyên sử dụng sản sinh ứng cử 55 3.1.2.2 Sản sinh luật kết hợp từ tập mục thường xuyên 58 3.1.2.3 Khai phá tập mục thường xuyên không sản sinh tập ứng cử 60 3.1.3 Khai phá luật kết hợp đa mức từ sở liệu giao dịch 64 3.1.3.1 Các luật kết hợp đa mức 64 3.1.3.2 Các phương pháp để khai phá luật kết hợp đa mức 64 3.1.4 Khai phá luật kết hợp đa chiều từ sở liệu quan hệ kho liệu 67 3.1.4.1 Các luật kết hợp đa chiều 67 3.1.4.2 Khai phá luật kết hợp đa chiều sử dụng phân biệt hoá tĩnh thuộc tính định lượng 68 3.1.4.3 Khai phá luật kết hợp định lượng 68 3.1.4.4 Khai phá luật kết hợp dựa theo khoảng cách 71 3.1.5 Khai phá luật kết hợp phân tích tương quan 73 3.2 Phân lớp dự đoán 75 3.2.1 Tiến trình phân lớp dự đoán 75 3.2.2 Phân lớp quy nạp định 77 3.2.2.1 Quy nạp định 77 3.2.2.2 Cắt tỉa 82 3.2.2.3 Trích rút luật từ định 84 3.2.2.4 Những cải thiện từ quy nạp định 84 3.2.2.5 Độ ổn định quy nạp dịnh 86 3.2.2.6 Tích hợp công nghệ kho liệu quy nạp định 88 3.2.3 Dự đoán 89 3.2.3.1 Hồi quy tuyến tính đa mức 90 3.2.3.2 Hồi quy phi tuyến 91 3.3 Phân tích ghép cụm 91 3.3.1 Khái niệm phân tích ghép cụm 91 3.3.2 Các loại liệu phân tích ghép cụm 92 3.3.2.1 Các biến interval-scaled 93 3.3.2.2 Các biến nhị phân 94 3.3.2.3 Các biến nominal, ordinal ratio-scaled 96 3.3.2.4 Các biến kết hợp 98 3.3.3 Các phương pháp ghép cụm 99 3.3.3.1 Các phương pháp ghép cụm cổ điển 99 3.3.3.2 Các phương pháp ghép cụm sở liệu lớn 102 CHƯƠNG DBMINER- MỘT HỆ THỐNG KHAI PHÁ DỮ LIỆU TRONG CÁC CƠ SỞ DỮ LIỆU QUAN HỆ LỚN VÀ CÁC KHO DỮ LIỆU 103 4.1 Kiến trúc hệ thống 103 4.2 Thông tin vào/ 105 4.3 Các chức khai phá liệu hỗ trợ DBMiner 106 4.3.1 OLAP Browser 106 4.3.2 Khai phá luật kết hợp 106 4.3.3 Phân lớp 109 4.3.4 Dự đoán 111 4.3.5 Ghép cụm 112 4.4 Những ứng dụng 114 4.5 Yêu cầu phần cứng, phần mềm 114 KẾT LUẬN 115 TÀI LIỆU THAM KHẢO 116 DANH MỤC CÁC THUẬT NGỮ Thuật ngữ tiếng anh Association Boolean association rule Classification Clustering Clustering analysis Confidence Correlation Data cleaning Data cube Data integration Data mining Data mining query language Data preprocessing Data reduction Data selection Data transformation Data warehouse Frequent Itemset Frequent Frequent pattern tree Information gain Itemset Knowledge base Knowledge presentation Multiple-level association rule Multiple dimensional association rule On-line transaction processing (OLTP) On-line analysis processing (OLAP) Thuật ngữ tiếng việt Kết hợp Luật kết hợp logic Phân lớp Ghép cụm Phân tích ghép cụm Độ tin cậy Tương quan Làm liệu Khối liệu Tích hợp liệu Khai phá liệu Ngôn ngữ truy vấn khai phá liệu Tiền xử lý liệu Rút gọn liệu Chọn lọc liệu Chuyển đổi liệu Kho liệu Tập mục thường xuyên Thường xuyên Cây mẫu thường xuyên Thu thập thông tin Tập mục Cơ sở ti thức Biểu diễn tri thức Luật kết hợp đa mức Luật kết hợp đa chiều Xử lý giao dịch trực tuyến Xử lý phân tích trực tuyến Prediction Quantitative association rule Rule Single dimensional association rule Support Transaction Similarity Dự đoán ẫ Luật kết hợp định lượng Luật Luật kết hợp đơn chiều Độ hỗ trợ Giao dịch Độ tương tự DANH MỤC BẢNG Bảng 2.1 Sự khác hệ thống OLTP hệ thống OLAP 26 Bảng 3.1 Cơ sở liệu giao dịch AllElectronics 58 Bảng 3.2 Khai phá FP-tree cách tạo lập sở mẫu điều kiện 62 Bảng 3.3 Các mẫu liệu lớp buys_computer 86 Bảng 3.4 Bảng ngẫu nhiên với biến nhị phân 94 Bảng 3.5 Bảng quan hệ chứa thuộc tính nhị phân 95 DANH MỤC HÌNH Hình 1.1 Kiến trúc hệ thống khai phá liệu điển hình 10 Hình 1.2 Khai phá liệu giao thoa chuyên ngành 18 Hình 2.1 Phân cấp khái niệm vị trí .26 Hình 2.3 Kiến trúc kho liệu 29 Hình 2.3 Lưới khối tạo thành khối liệu chiều .32 Hình 2.4 Kiến trúc OLAM OLAP tích hợp 40 Hình 3.1 Minh hoạ giải thuật Apriori 59 Hình 3.2 Cây FP_tree biểu diễn mục thường xuyên 61 Hình 3.3 Khai phá đa mức với ngưỡng đồng .65 Hình 3.4 Khai phá đa mức với ngưỡng suy giảm 66 Hình 3.5 Khai phá đa mức với ngưỡng suy giảm sử dụng lọc chéo 66 Hình 3.6 lưới chiều luật kết hợp định lượng chiều 70 Hình 3.7 Các phương pháp chia khoảng 71 Hình 3.8 Tiến trình phân lớp liệu 75 Hình 3.9 Cây định biểu diễn khái niệm buys_computer 77 Hình 3.10 Tập liệu huấn luyện từ sở liệu khách hàng 81 Hình 3.11 Các nhánh phát triển thuộc tính age 82 Hình 3.12 Cấu trúc danh sách thuộc tính,danh sách lớp sử dụng SLIQ 87 Hình 3.13 Cấu trúc danh sách thuộc tính sử dụng SPRINT 87 Hình 4.1 Kiến trúc tổng quát hệ thống DBMiner .104 Hình 4.2 Module DBMiner_Máy OLAM 105 Hình 4.3 Dữ liệu tổng hợp hiển thị qua khối liệu .106 Hình 4.4 Màn hình chọn chiều khai phá luật kết hợp liên chiều 107 Hình 4.5 Màn hình đặc tả độ hỗ trợ độ tin cậy tối thiểu 107 Hình 4.6 Tập mục thường xuyên khai phá .108 Hình 4.7 Các luật kết hợp khai phá biểu diễn dạng đồ thị bóng 108 Hình 4.8 Các luật kết hợp khai phá biểu diễn dạng khối phẳng 109 Hình 4.9 Màn hình đặc tả ngưỡng phân lớp 110 Hình 4.10 Cây định phân lớp DBMiner 110 Hình 4.11 Các luật phân lớp thu từ định 111 Hình 4.12 Kết dự đoán liệu dự đoán liệu số 111 Hình 4.13 Kết dự đoán liệu dự đoán liệu chủng loại .112 Hình 4.14 Màn hình thiết lập điều kiện ghép cụm giải thuật k-trung bình 113 Hình 4.15.Kết ghép cụm biểu diễn DBMiner 113 MỞ ĐẦU Hiện bị tràn ngập liệu, từ liệu khoa học, liệu y học, liệu nhân học, liệu tài đến liệu tiếp thị thị trường Chúng ta thời gian để xem xét tất liệu Vì phải tìm cách phân tích tự động liệu, phân loại tự động nó, tổng hợp tự động, phát tự động mơ tả xu hướng đánh dấu tự động bất thường liệu Đây lĩnh vực tích cực hấp dẫn hiệp hội người nghiên cứu sở liệu Những người nghiên cứu lĩnh vực thống kê, trực quan hố, trí tuệ nhân tạo học máy quan tâm đến lĩnh vực Độ rộng lĩnh vực tạo khó khăn để hiểu thấu phát triển lạ thường vài năm gần Trong luận văn muốn đề cập đến cách tổ chức liệu kỹ thuật khai phá liệu Luận văn bắt đầu cách tổng quan khai phá liệu Sau bao qt đến mơ hình tổ chức liệu ngơn ngữ truy vấn liệu, khái niệm kỹ thuật phân khai phá liệu khai phá luật kết hợp, phân lớp dự đoán, ghép cụm liệu Phần luận văn giới thiệu hệ thống DBMiner, hệ thống khai phá liệu trực tuyến phát triển để khai phá tri thức đa mức sở liệu quan hệ lớn kho liệu