1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai phá dữ liệu trong các cơ sở dữ liệu quan hệ lớn và các kho dữ liệu

118 14 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 118
Dung lượng 2,16 MB

Nội dung

Khai phá dữ liệu trong các cơ sở dữ liệu quan hệ lớn và các kho dữ liệu Khai phá dữ liệu trong các cơ sở dữ liệu quan hệ lớn và các kho dữ liệu Khai phá dữ liệu trong các cơ sở dữ liệu quan hệ lớn và các kho dữ liệu luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SỸ KHOA HỌC KHAI PHÁ DỮ LIỆU TRONG CÁC CƠ SỞ DỮ LIỆU QUAN HỆ LỚN VÀ CÁC KHO DỮ LIỆU NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ SỐ: NGUYỄN VĂN TỈNH Người hướng dẫn khoa học: PGS.TS NGUYỄN THANH THỦY HÀ NỘI - 2006 LỜI CẢM ƠN Em xin chân thành gửi lời cảm ơn sâu sắc tới Thầy giáo hướng dẫn, PGS.TS Nguyễn Thanh Thuỷ, người có hướng dẫn tận tình, q báu giúp em hoàn thành luận văn Em xin cảm ơn Thầy Cô thuộc trường Đại học Bách Khoa Hà Nội truyền đạt kiến thức quý báu khoá học Cuối xin cảm ơn gia đình quan nơi cơng tác tạo điều kiện thuận lợi để tơi hồn thành khố học Hà nội, tháng năm 2006 Nguyễn Văn Tỉnh MỤC LỤC LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC THUẬT NGỮ DANH MỤC BẢNG DANH MỤC HÌNH MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Phát tri thức từ sở liệu khai phá liệu 1.2 Lý phát triển khai phá liệu 11 1.3 Những dạng lưu trữ liệu khai phá 12 1.3.1 Các sở liệu quan hệ 12 1.3.2 Các kho liệu 13 1.3.3 Các sở liệu giao dịch 13 1.3.4 Các hệ thống sở liệu tiên tiến ứng dụng sở liệu tiên tiến 13 1.4 Những nhiệm vụ khai phá liệu mẫu liệu khai phá 14 1.4.1 Mô tả đặc trưng lớp liệu so sánh lớp liệu 14 1.4.2 Phân tích luật kết hợp 14 1.4.3 Phân lớp dự đoán 16 1.4.4 Phân tích ghép cụm 16 1.4.5 Phân tích thành phần 17 1.4.6 Phân tích tiến hố 17 1.5 Những mẫu liệu quan tâm khai phá liệu 17 1.6 Phân loại hệ thống khai phá liệu 18 1.7 Các giải pháp khai phá liệu 20 CHƯƠNG KHO DỮ LIỆU VÀ NGÔN NGỮ TRUY VẤN KHAI PHÁ DỮ LIỆU 24 2.1 Kho liệu công nghệ OLAP khai phá liệu 24 2.1.1 Khái niệm kho liệu 24 2.1.1.1 Sự khác hệ thống sở liệu tác nghiệp kho liệu 25 2.1.1.2 Lý cần có kho liệu riêng biệt 26 2.1.2 Mơ hình liệu đa chiều 27 2.1.2.1 Các khối liệu 27 2.1.2.2 Các phân cấp khái niệm (concept hierachy) 27 2.1.2.2 Các thao tác OLAP mơ hình liệu đa chiều 28 2.1.3 Kiến trúc kho liệu 29 2.1.3.1 Các bước để thiết kế xây dựng kho liệu 29 2.1.3.2 Kiến trúc kho liệu tầng 29 2.1.3.3 Các loại máy chủ OLAP 30 2.1.4 Cài đặt kho liệu 31 2.1.4.1 Tính toán hiệu khối liệu 31 2.1.4.2 Sắp xếp liệu OLAP 35 2.1.4.3 Xử lý có hiệu truy vấn OLAP 36 2.1.4.4 Lưu trữ siêu liệu 37 2.1.5 Từ kho liệu đến khai phá liệu 38 2.1.5.1 Việc sử dụng kho liệu 38 2.1.5.2 Tích hợp xử lý phân tích trực tuyến với khai phá liệu 38 2.2 Những thành phần xác định nhiệm vụ truy vấn khai phá liệu ngôn ngữ truy vấn khai phá liệu 41 2.2.1 Những thành phần xác định nhiệm vụ khai phá liệu 41 2.2.1.1 Dữ liệu phù hợp nhiệm vụ 41 2.2.1.2 Loại tri thức khai phá 42 2.2.1.3 Cơ sở tri thức: Các phân cấp khái niệm 42 2.2.1.4 Các đánh giá quan tâm 45 2.2.1.5 Biểu diễn trực quan hoá mẫu phát 47 2.2.2 Một ngôn ngữ truy vấn khai phá liệu 47 2.2.2.1 Cú pháp đặc tả liệu phù hợp nhiệm vụ 48 2.2.2.2 Cú pháp đặc tả loại tri thức khai phá 48 2.2.2.3 Cú pháp đặc tả phân cấp khái niệm 49 2.2.2.4 Cú pháp đặc tả đánh giá mẫu quan tâm 50 2.2.2.5 Cú pháp đặc tả biểu diễn trực quan hố mẫu 50 2.2.2.6 Một ví dụ truy vấn DMQL 51 CHƯƠNG CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU TỪ CÁC CƠ SỞ DỮ LIỆU QUAN HỆ LỚN VÀ CÁC KHO DỮ LIỆU 53 3.1 Khai phá luật kết hợp sở liệu lớn 53 3.1.1 Khai phá luật kết hợp 53 3.1.1.1 Các khái niệm sở 53 3.1.1.2 Phân loại luật kết hợp 54 3.1.2 Khai phá luật kết hợp nhị phân chiều từ sở liệu giao dịch 55 3.1.2.1 Giải thuật Apriori: Tìm kiếm tập mục thường xuyên sử dụng sản sinh ứng cử 55 3.1.2.2 Sản sinh luật kết hợp từ tập mục thường xuyên 58 3.1.2.3 Khai phá tập mục thường xuyên không sản sinh tập ứng cử 60 3.1.3 Khai phá luật kết hợp đa mức từ sở liệu giao dịch 64 3.1.3.1 Các luật kết hợp đa mức 64 3.1.3.2 Các phương pháp để khai phá luật kết hợp đa mức 64 3.1.4 Khai phá luật kết hợp đa chiều từ sở liệu quan hệ kho liệu 67 3.1.4.1 Các luật kết hợp đa chiều 67 3.1.4.2 Khai phá luật kết hợp đa chiều sử dụng phân biệt hoá tĩnh thuộc tính định lượng 68 3.1.4.3 Khai phá luật kết hợp định lượng 68 3.1.4.4 Khai phá luật kết hợp dựa theo khoảng cách 71 3.1.5 Khai phá luật kết hợp phân tích tương quan 73 3.2 Phân lớp dự đoán 75 3.2.1 Tiến trình phân lớp dự đoán 75 3.2.2 Phân lớp quy nạp định 77 3.2.2.1 Quy nạp định 77 3.2.2.2 Cắt tỉa 82 3.2.2.3 Trích rút luật từ định 84 3.2.2.4 Những cải thiện từ quy nạp định 84 3.2.2.5 Độ ổn định quy nạp dịnh 86 3.2.2.6 Tích hợp cơng nghệ kho liệu quy nạp định 88 3.2.3 Dự đoán 89 3.2.3.1 Hồi quy tuyến tính đa mức 90 3.2.3.2 Hồi quy phi tuyến 91 3.3 Phân tích ghép cụm 91 3.3.1 Khái niệm phân tích ghép cụm 91 3.3.2 Các loại liệu phân tích ghép cụm 92 3.3.2.1 Các biến interval-scaled 93 3.3.2.2 Các biến nhị phân 94 3.3.2.3 Các biến nominal, ordinal ratio-scaled 96 3.3.2.4 Các biến kết hợp 98 3.3.3 Các phương pháp ghép cụm 99 3.3.3.1 Các phương pháp ghép cụm cổ điển 99 3.3.3.2 Các phương pháp ghép cụm sở liệu lớn 102 CHƯƠNG DBMINER- MỘT HỆ THỐNG KHAI PHÁ DỮ LIỆU TRONG CÁC CƠ SỞ DỮ LIỆU QUAN HỆ LỚN VÀ CÁC KHO DỮ LIỆU 103 4.1 Kiến trúc hệ thống 103 4.2 Thông tin vào/ 105 4.3 Các chức khai phá liệu hỗ trợ DBMiner 106 4.3.1 OLAP Browser 106 4.3.2 Khai phá luật kết hợp 106 4.3.3 Phân lớp 109 4.3.4 Dự đoán 111 4.3.5 Ghép cụm 112 4.4 Những ứng dụng 114 4.5 Yêu cầu phần cứng, phần mềm 114 KẾT LUẬN 115 TÀI LIỆU THAM KHẢO 116 DANH MỤC CÁC THUẬT NGỮ Thuật ngữ tiếng anh Association Boolean association rule Classification Clustering Clustering analysis Confidence Correlation Data cleaning Data cube Data integration Data mining Data mining query language Data preprocessing Data reduction Data selection Data transformation Data warehouse Frequent Itemset Frequent Frequent pattern tree Information gain Itemset Knowledge base Knowledge presentation Multiple-level association rule Multiple dimensional association rule On-line transaction processing (OLTP) On-line analysis processing (OLAP) Pattern Evaluation Prediction Quantitative association rule Rule Single dimensional association rule Support Transaction Similarity Thuật ngữ tiếng việt Kết hợp Luật kết hợp logic Phân lớp Ghép cụm Phân tích ghép cụm Độ tin cậy Tương quan Làm liệu Khối liệu Tích hợp liệu Khai phá liệu Ngơn ngữ truy vấn khai phá liệu Tiền xử lý liệu Rút gọn liệu Chọn lọc liệu Chuyển đổi liệu Kho liệu Tập mục thường xuyên Thường xuyên Cây mẫu thường xuyên Thu thập thông tin Tập mục Cơ sở ti thức Biểu diễn tri thức Luật kết hợp đa mức Luật kết hợp đa chiều Xử lý giao dịch trực tuyến Xử lý phân tích trực tuyến Đánh giá mẫu Dự đốn Luật kết hợp định lượng Luật Luật kết hợp đơn chiều Độ hỗ trợ Giao dịch Độ tương tự DANH MỤC BẢNG Bảng 2.1 Sự khác hệ thống OLTP hệ thống OLAP 26 Bảng 3.1 Cơ sở liệu giao dịch AllElectronics 58 Bảng 3.2 Khai phá FP-tree cách tạo lập sở mẫu điều kiện 62 Bảng 3.3 Các mẫu liệu lớp buys_computer 86 Bảng 3.4 Bảng ngẫu nhiên với biến nhị phân 94 Bảng 3.5 Bảng quan hệ chứa thuộc tính nhị phân 95 DANH MỤC HÌNH Hình 1.1 Kiến trúc hệ thống khai phá liệu điển hình 10 Hình 1.2 Khai phá liệu giao thoa chuyên ngành 18 Hình 2.1 Phân cấp khái niệm vị trí .26 Hình 2.3 Kiến trúc kho liệu 29 Hình 2.3 Lưới khối tạo thành khối liệu chiều .32 Hình 2.4 Kiến trúc OLAM OLAP tích hợp 40 Hình 3.1 Minh hoạ giải thuật Apriori 59 Hình 3.2 Cây FP_tree biểu diễn mục thường xuyên 61 Hình 3.3 Khai phá đa mức với ngưỡng đồng .65 Hình 3.4 Khai phá đa mức với ngưỡng suy giảm 66 Hình 3.5 Khai phá đa mức với ngưỡng suy giảm sử dụng lọc chéo 66 Hình 3.6 lưới chiều luật kết hợp định lượng chiều 70 Hình 3.7 Các phương pháp chia khoảng 71 Hình 3.8 Tiến trình phân lớp liệu 75 Hình 3.9 Cây định biểu diễn khái niệm buys_computer 77 Hình 3.10 Tập liệu huấn luyện từ sở liệu khách hàng 81 Hình 3.11 Các nhánh phát triển thuộc tính age 82 Hình 3.12 Cấu trúc danh sách thuộc tính,danh sách lớp sử dụng SLIQ 87 Hình 3.13 Cấu trúc danh sách thuộc tính sử dụng SPRINT 87 Hình 4.1 Kiến trúc tổng quát hệ thống DBMiner .104 Hình 4.2 Module DBMiner_Máy OLAM 105 Hình 4.3 Dữ liệu tổng hợp hiển thị qua khối liệu .106 Hình 4.4 Màn hình chọn chiều khai phá luật kết hợp liên chiều 107 Hình 4.5 Màn hình đặc tả độ hỗ trợ độ tin cậy tối thiểu 107 Hình 4.6 Tập mục thường xuyên khai phá .108 Hình 4.7 Các luật kết hợp khai phá biểu diễn dạng đồ thị bóng 108 Hình 4.8 Các luật kết hợp khai phá biểu diễn dạng khối phẳng 109 Hình 4.9 Màn hình đặc tả ngưỡng phân lớp 110 Hình 4.10 Cây định phân lớp DBMiner 110 Hình 4.11 Các luật phân lớp thu từ định 111 Hình 4.12 Kết dự đoán liệu dự đoán liệu số 111 Hình 4.13 Kết dự đốn liệu dự đoán liệu chủng loại .112 Hình 4.14 Màn hình thiết lập điều kiện ghép cụm giải thuật k-trung bình .113 Hình 4.15.Kết ghép cụm biểu diễn DBMiner 113 MỞ ĐẦU Hiện bị tràn ngập liệu, từ liệu khoa học, liệu y học, liệu nhân học, liệu tài đến liệu tiếp thị thị trường Chúng ta khơng có thời gian để xem xét tất liệu Vì phải tìm cách phân tích tự động liệu, phân loại tự động nó, tổng hợp tự động, phát tự động mô tả xu hướng đánh dấu tự động bất thường liệu Đây lĩnh vực tích cực hấp dẫn hiệp hội người nghiên cứu sở liệu Những người nghiên cứu lĩnh vực thống kê, trực quan hố, trí tuệ nhân tạo học máy quan tâm đến lĩnh vực Độ rộng lĩnh vực tạo khó khăn để hiểu thấu phát triển lạ thường vài năm gần Trong luận văn muốn đề cập đến cách tổ chức liệu kỹ thuật khai phá liệu Luận văn bắt đầu cách tổng quan khai phá liệu Sau bao qt đến mơ hình tổ chức liệu ngơn ngữ truy vấn liệu, khái niệm kỹ thuật phân khai phá liệu khai phá luật kết hợp, phân lớp dự đoán, ghép cụm liệu Phần luận văn giới thiệu hệ thống DBMiner, hệ thống khai phá liệu trực tuyến phát triển để khai phá tri thức đa mức sở liệu quan hệ lớn kho liệu 102 squared_error medoid hành thay đối tượng nonmedoid Tổng chi phí trao đổi tổng chi phí chịu tất đối tượng nonmedoid Nếu tổng chi phí âm oj thay orandom square_error B cần phải giảm Nếu tổng chi phí dương medoid hành oj chấp nhận Giải thuật mô tả sau: Giải thuật: k-medoids; // Phân cụm dựa đối tượng trung tâm Đầu vào: Số cụm k sở liệu chứa n đối tượng; Đầu ra: Một tập k cụm tối thiểu hố tổng độ khơng tương tự tất đối tượng tới medoid gần nhất; Phương pháp: (1) Chọn k đối tượng medoids; (2) Repeat (3) Gán đối tượng lại vào cụm với medoid gần nhất; (4) Lựa chọn ngẫu nhiên đối tượng nonmedoid, orandom; (5) Tính tổng chi phí, S, chi phí trao đổi oj orandom; (6) if S< then đổi oj orandom để tạo thành tập k medoid mới; (7) Until tập k medoids không đổi; 3.3.3.2 Các phương pháp ghép cụm sở liệu lớn Để ghép cụm đối tượng tập liệu lớn giải thuật dựa vào lấy mẫu gọi CLARA sử dụng.Ý tưởng CLARA sau: Thay lấy tồn tập liệu vào xem xét, phần nhỏ liệu hành chọn đại diện liệu Các medoids sau chọn từ mẫu liệu Nếu mẫu lựa chọn theo cách ngẫu nhiên trung thực, gần biểu diễn tập liệu ban đầu Các đối tượng đại diện (medoids) chọn gần tương tự với đại diện chọn từ toàn tập liệu CLARA mô tả nhiều mẫu tập liệu, áp dụng ghép cụm dựa theo medoid mô tả trả kết ghép cụm tốt 103 CHƯƠNG DBMINER- MỘT HỆ THỐNG KHAI PHÁ DỮ LIỆU TRONG CÁC CƠ SỞ DỮ LIỆU QUAN HỆ LỚN VÀ CÁC KHO DỮ LIỆU DBMiner hệ thống khai phá liệu xuất phát từ Phịng thí nghiệm nghiên cứu hệ thống sở liệu thông minh Đại học Simon Fraser, British Columbia, Canada Sau phát triển cơng ty DBMiner Technology, British Columbia, Canada Đó hệ thống phân tích xử lý trực tuyến phát triển để khai phá tri thức đa mức sở liệu quan hệ lớn kho liệu Đặc trưng bật DBMiner tích hợp xử lý phân tích trực tuyến với chức khai phá liệu bao gồm đặc trực hố, phân biệt hố, phân tích kết hợp, phân lớp, cụm chùm Việc tích hợp dẫn đến phương pháp khai phá liệu gọi khai phá liệu trực tuyến (OLAM) hệ thống cung cấp khung nhìn đa chiều liệu tạo lập môi trường khai phá tương tác: Người sử dụng lựa chọn chức khai phá liệu xử lý phân tích trực tuyến cách linh động Hệ thống làm dễ dàng việc khai phá liệu tương tác dựa theo truy vấn sở liệu đa chiều cách cài đặt kỹ thuật khai phá liệu tiên tiến phân tích thống kê đa chiều dựa OLAP, giải thuật khai phá mẫu thường xuyên, trực quan hoá liệu 4.1 Kiến trúc hệ thống Kiến trúc DBMiner tuân thủ kiến trúc OLAM hình 2.4 Nó lấy liệu từ sở liệu quan hệ kho liệu, tích hợp chuyển đổi chúng thành sở liệu đa chiều thực xử lý phân tích trực tuyến khai phá phân tích trực tuyến dựa yêu cầu xử lý người sử dụng Module kiến trúc máy OLAM thực khai phá phân tích trực tuyến sở liệu đa chiều theo cách tương tự 104 xử lý phân tích trực tuyến máy OLAP Máy OLAM DBMiner thực nhiệm vụ khai phá liệu bao gồm mô tả khái niệm, khai phá kết hợp, phân lớp, dự đốn, ghép cụm phân tích liệu chuỗi thời gian Quan trọng hơn, hệ thống tích hợp máy OLAM OLAP, hai máy chấp nhận truy vấn trực tuyến người sử dụng thông qua giao diện người dùng đồ hoạ làm việc với sở liệu đa chiều thông qua MDDB_API Trong kiến trúc máy OLAM OLAP tích hợp với máy OLAM thực khai phá kết OLAP máy OLAP thực OLAP kết khai phá Một thư mục siêu liệu lưu trữ lược đồ liệu, lược đồ kho liệu thông tin phân cấp khái niệm Siêu liệu sử dụng để trợ giúp truy nhập sở liệu đa chiều thực thao tác OLAP liên quan đến chiều liệu Cơ sở liệu đa chiều xây dựng cách truy cập sở liệu, lọc kho liệu và/hoặc tích hợp nhiều nguồn liệu thông quan API sở liệu (hiện hỗ trợ MicroSoft SQL Server 7.0 OLAP Manager) Hình 4.1 Kiến trúc tổng quát hệ thống DBMiner 105 Hình 4.2 Module DBMiner_Máy OLAM 4.2 Thông tin vào/ DBMiner lấy liệu từ khối liệu SQL Server OLAP mà thân xây dựng từ hay nhiều bảng quan hệ, hệ thống kho liệu, nguồn liệu khác Tri thức biểu diễn nhiều dạng tuỳ thuộc chức khai phá liệu sở thích người dùng Đặc trưng hoá sản sinh bảng liệu chéo, luật tổng quát, sơ đồ vạch…Phân lớp sản sinh liệu dạng bảng định, định Ghép cụm sản sinh đồ Hệ thống cung cấp tiện ích để xem xét phân cấp khái niệm nội dung khối liệu Các phân cấp khái niệm biểu diễn dạng tương tự cấu trúc thư mục/ thư mục Nội dung khối liệu biểu diễn dạng khối liệu chiều Một đặc điểm quan trọng hệ thống việc thao tác linh hoạt tri thức đầu thông qua việc “khoan sâu”, “cắt vạch” hay chuyển đổi 106 4.3 Các chức khai phá liệu hỗ trợ DBMiner 4.3.1 OLAP Browser Chức biểu diễn nội dung khối liệu nhiều mức trừu tượng từ góc độ khác thao tác OLAP Đầu biểu diễn thông qua số dạng biểu diễn trực quan Các thao tác OLAP thực liệu tổng qt hố Hình 4.3 Dữ liệu tổng hợp hiển thị qua khối liệu 4.3.2 Khai phá luật kết hợp Chức khai phá tập luật kết hợp từ sở liệu đa chiều sử dụng kỹ thuật khai phá luật kết hợp đơn chiều, đa chiều mô tả phần 3.1 107 - Khai phá luật kết hợp liên chiều DBMiner biểu diễn DMQL: MINE INTER-DIMENSIONAL ASSOCIATION WITH RESPECT TO Customers, Education Level, Gender, Marital Status, Product FROM CUBE Foodmart_Sales SET MINIMUM SUPPORT 10% SET MINIMUM CONFIDENCE 50% Các bước thực hiện: - chọn chiều: Hình 4.4 Màn hình chọn chiều khai phá luật kết hợp liên chiều - Đặc tả ngưỡng độ tin cậy độ hỗ trợ tối thiểu: Hình 4.5 Màn hình đặc tả độ hỗ trợ độ tin cậy tối thiểu 108 - biểu diễn tập mục thường xuyên khai phá: Hình 4.6 Tập mục thường xuyên khai phá Khi tập mục thường xuyên khai phá thực người sử dụng chọn dạng hiển thị kết quả, có nhiều cách hiển thị, ví dụ hình Hình 4.7 Các luật kết hợp khai phá biểu diễn dạng đồ thị bóng 109 Hình 4.8 Các luật kết hợp khai phá biểu diễn dạng khối phẳng 4.3.3 Phân lớp Chức phân tích tập liệu huấn luyện, xây dựng mơ hình dựa đặc trưng liệu hiệu chỉnh mơ hình dựa liệu kiểm tra Mơ hình xây dựng biểu diễn dạng định luật phân lớp Và sử dụng quy nạp định để thực Ví dụ: Nhiệm vụ khai phá phân lớp sau: MINE Classification Rules ANALYZE Gender ON DIMENSIONS Customer, Education Level, Product, Promotion Media FROM CUBE FoodMart_Sales SET Classification Threshold = 90.00% Noise Threshold = 2.00% Train Set Threshold = 80.00% 110 Hình 4.9 Màn hình đặc tả ngưỡng phân lớp Hình 4.10 Cây định phân lớp DBMiner 111 Hình 4.11 Các luật phân lớp thu từ định 4.3.4 Dự đoán Chức dự đoán giá trị hay phân bố giá trị liệu thiếu hay chưa biết tập đối tượng lựa chọn kỹ thuật hồi quy trình bày phần 2.6.5 Hình 4.12 Kết dự đốn liệu dự đoán liệu số 112 Hình 4.13 Kết dự đốn liệu dự đoán liệu chủng loại Ghép cụm 4.3.5 Chức ghép cụm tập đối tượng liệu lựa chọn thành ghép cụm để đảm bảo đối tượng cụm có độ tương tự cao đối tượng khác cụm có độ tương tự thấp Trong DBMiner kỹ thuật ghép cụm sử dụng chủ yếu kỹ thuật k-trung bình Ví dụ: Nhiệm vụ ghép cụm đặc tả DMQL: MINE Clustering ON DIMENSIONS Customer WITH WEIGHT 1.000 Store WITH WEIGHT 1.000 FROM CUBE FoodMart_Sales SET Number of clusters = 4, Maximum clustering passes = Unlimited 113 Hình 4.14 Màn hình thiết lập điều kiện ghép cụm giải thuật k-trung bình Hình 4.15.Kết ghép cụm biểu diễn DBMiner 114 Ngồi DBMiner cịn hỗ trợ số chức khác phân tích liệu chuỗi thời gian, khai phá kết hợp dựa siêu mẫu, số chức khác phát triển 4.4 Những ứng dụng Hệ thống DBMiner sử dụng hệ thống khai phá phân tích trực tuyến đa cho OLAP khai phá liệu sở liệu quan hệ kho liệu 4.5 Yêu cầu phần cứng, phần mềm Để cài đặt DBMiner, cần phải có u cầu tơi thiểu sau đây: - Máy Pentium 550 Mhz - RAM 64 MB - WindowsNT - Microsoft SQL Server 7.0 OLAP Manager 115 KẾT LUẬN Thơng qua luận văn này, em trình bầy số vấn đề bản, phương pháp khai phá liệu sở liệu quan hệ lớn kho liệu phân tích luật kết hợp, phân lớp dự đốn, phân tích ghép cụm số kỹ thuật tăng hiệu khai phá luật kết hợp với số kỹ thuật tương ứng với chức khai phá Tuy nhiên độ rộng lĩnh vực lớn nên việc để hiểu thấu trình bày cách đầy đủ khái niệm kỹ thuật khai phá liệu vấn đề khó khăn Phần cuối luận văn đề cập đến phần tìm hiểu hệ thống DBMiner, hệ thống khai phá liệu tương tác cho sở liệu lớn kho liệu Do hạn chế mặt thời gian kiến thức nên luận văn khơng thể tránh khỏi thiếu sót Rất mong thầy bạn bè đồng nghiệp đóng góp ý kiến để cải thiện tương lai Hướng phát triển: Tiếp tục nghiên cứu số vấn đề sở liệu đa chiều, thuật toán khai phá liệu tiên tiến, cài đặt thực tế chương trình để khai phá liệu để ứng dụng Việt Nam sở liệu nhà trường, bệnh viện, 116 TÀI LIỆU THAM KHẢO Tiếng Anh: [1] Agrawal R., Imielinski T., Swami A (1993), Mining association rules bettween sets of items in large databases, SIGMOD, Washington D.C, pp 207-216 [2] Agrawal R., Srikant R.(1995), Fast algorithms for mining Association Rule, IBM Almaden Research Center [3] Agrawal R., Srikant R.(1995), Mining generalized association rule, IBM Almaden Research Center, San Jose [4] Alex Berson, Stephen J.Smith, Data Warehousing, Data Mining& OLAP, Tata McGraw-Hill Edition 2004 [5] C.Hidber, Online association rule mining, In Proc Of ACM SIGMOD Intl Conf On Management od Data, June 1999 [6] Jiawei Han, Jian Pei, and Yiwen Yin, Mining frequent patterns without candidate generation, In Proc Of ACM SIGMOD Intl Conf On Management of Data, May 2000 [7] Jiawei Han and Micheline Kamber, Data mining: Concepts and techniques, Academic Press 2001 [8] Margaret H Dunham, Le Gruenwald, Zahid Hossain, Survey on frequent pattern mining, 2003 [9] Data Mining Research Group, Intelligent Database Systems Research Laboratory School of Computing Science, Simon Fraser University, British Columbia, Canada, DBMiner: A System for Data Mining in Relational Databases and Data Warehouses Địa Web: http://www.dbminer.com/ http://db.cs.sfu.ca/DBMiner ... thiệu hệ thống DBMiner, hệ thống khai phá liệu trực tuyến phát triển để khai phá tri thức đa mức sở liệu quan hệ lớn kho liệu 9 CHƯƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Phát tri thức từ sở liệu khai. .. Những mẫu liệu quan tâm khai phá liệu 17 1.6 Phân loại hệ thống khai phá liệu 18 1.7 Các giải pháp khai phá liệu 20 CHƯƠNG KHO DỮ LIỆU VÀ NGÔN NGỮ TRUY VẤN KHAI PHÁ DỮ LIỆU ... trúc hệ thống khai phá liệu điển hình - Cơ sở liệu, kho liệu kho thông tin khác: Đây một tập hợp sở liệu, kho liệu, bảng tính loại lưu trữ thơng tin khác - Máy chủ sở liệu kho liệu: Máy chủ sở liệu

Ngày đăng: 12/02/2021, 09:32

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Agrawal R., Imielinski T., Swami A. (1993), Mining association rules bettween sets of items in large databases, SIGMOD, Washington D.C, pp. 207-216 Sách, tạp chí
Tiêu đề: Mining association rules bettween sets of items in large databases
Tác giả: Agrawal R., Imielinski T., Swami A
Năm: 1993
[2] Agrawal R., Srikant R.(1995), Fast algorithms for mining Association Rule, IBM Almaden Research Center Sách, tạp chí
Tiêu đề: Fast algorithms for mining Association Rule
Tác giả: Agrawal R., Srikant R
Năm: 1995
[3] Agrawal R., Srikant R.(1995), Mining generalized association rule, IBM Almaden Research Center, San Jose Sách, tạp chí
Tiêu đề: Mining generalized association rule
Tác giả: Agrawal R., Srikant R
Năm: 1995
[4] Alex Berson, Stephen J.Smith, Data Warehousing, Data Mining&amp; OLAP, Tata McGraw-Hill Edition 2004 Sách, tạp chí
Tiêu đề: Data Warehousing, Data Mining& "OLAP
[5] C.Hidber, Online association rule mining, In Proc. Of ACM SIGMOD Intl. Conf. On Management od Data, June 1999 Sách, tạp chí
Tiêu đề: Online association rule mining
[6] Jiawei Han, Jian Pei, and Yiwen Yin, Mining frequent patterns without candidate generation, In Proc. Of ACM SIGMOD Intl. Conf. On Management of Data, May 2000 Sách, tạp chí
Tiêu đề: Mining frequent patterns without candidate generation
[7] Jiawei Han and Micheline Kamber, Data mining: Concepts and techniques, Academic Press 2001 Sách, tạp chí
Tiêu đề: Concepts and techniques
[8] Margaret H. Dunham, Le Gruenwald, Zahid Hossain, Survey on frequent pattern mining, 2003 Sách, tạp chí
Tiêu đề: Survey on frequent pattern mining

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w