Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
482,88 KB
Nội dung
ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN - - NGUYỄN KHẢI HOÀI ANH KHAI PHÁ DỮ LIỆU TRÊN CƠ SỞ PHƯƠNG PHÁP LUẬT KẾT HỢP VÀ ỨNG DỤNG CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ : 604801 Công trình hoàn thành tại: TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: PGS.TS Nguyễn Trọng Bình THÁI NGUYÊN 2010 Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Công trình hoàn thành tại: Khoa công nghệ thông tin – Đại học Thái Nguyên Người hướng dẫn khoa học: PGS.TS.Vũ Đức Thi Phản biện 1: Phản biện 2: Luận văn bảo vệ trước Hội đồng chấm luận văn họp tại: Khoa Công nghệ thông tin – Đại học Thái Nguyên, vào hồi ngày tháng năm 2010 Có thể tìm hiểu luận văn trung tâm học liệu Đại học Thái Nguyên thư viện Trường CĐCN – Thái Nguyên Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CAM ĐOAN Tôi xin cam đoan toàn nội dung Luận văn hoàn toàn theo nội dung đề cương nội dung mà cán hướng dẫn giao cho Nội dung luận văn, phần trích lục tài liệu hoàn toàn xác Nếu có sai sót hoàn toàn chịu trách nhiệm Tác giả luận văn Nguyễn Khải Hoài Anh Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỤC LỤC Trang Trang phụ bìa Lời cam đoan Mục lục………………………………………………………………………………………i Danh sách ký hiệu, từ viết tắt…………………………………………………… iv Danh mục bảng…………………………………………………………………………v Danh mục hình…………………………………………………………………………vi MỞ ĐẦU………………………………………………………………………………… CHƢƠNG I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU……………………………… 1.1 Khai phá liệu………………………………………………………………………3 1.1.1 Khái niệm khám phá tri thức khai phá liệu…………………………3 1.1.2 Kiến trúc hệ thống khai phá liệu ……………………………… 1.1.3 Các loại liệu khai phá……………………………………………….6 1.1.4 Chức khai phá liệu………………………………………………… 1.2 Một số phƣơng pháp khai phá liệu thông dụng…………………………………7 1.2.1 Phương pháp luật kết hợp……………………………………………… .7 1.2.2 Phương pháp định…………………………………………… 1.2.3 Phương pháp k-Mean……………………………………………………… 1.3 Một số ứng dụng khai phá liệu………………………………………………9 1.3.1 Phân tích liệu gen sinh học y học…………………………………… 1.3.2 Phân tích liệu tài chính……………………………………………… 1.3.3 Dịch vụ bán lẻ……………………………………………………… 10 1.3.4 Công nghiệp viễn thông…………………………………………………….10 1.4 Các khuynh hƣớng thách thức khai phá liệu……………………… 11 CHƢƠNG 2: KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU LỚN…… 13 2.1 Khai phá luật kết hợp………………………………………………………… .13 2.1.1 Một số khái niệm …………………………………………………13 2.1.2 Cách khai phá luật kết hợp………………………………………………….14 2.1.3 Các tính chất frequent itemset………………………………………….14 Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2.1.4 Các tiêu chuẩn để phân loại luật kết hợp……………………………………15 2.1.4.1 Kiểu giá trị quản lý luật…………………………… 15 2.1.4.2 Chiều liệu đề cập luật……………………… .15 2.1.4.3 Mức trừu tượng đề cập luật………………………… 15 2.2 Khai phá luật kết hợp boolean chiều từ CSDL giao dịch………………… 16 2.2.1 Thuật toán Apriori: Tìm frequent itemset sử dụng việc sinh ứng viên……………………………………………………………………….16 2.2.2 Sinh luật kết hợp từ frequent temset [5, 8, 15]…………………… .19 2.2.3 Cải tiến hiệu thuật toán Apriori……………………………………… 19 2.2.3.1 Phương pháp dựa bảng băm…………………………… 20 2.2.3.2 Giảm số giao dịch……………………………………………………….20 2.2.3.3 Phân đoạn……………………………………………………………… 21 2.2.3.4 Lấy mẫu………………………………………………………………… 21 2.2.4 Khai phá frequent itemset cách không sinh ứng cử viên…… 21 2.3 Khai phá luật kết hợp đa thức từ CSDL giao dịch……………………………… 24 2.3.1 Luật kết hợp đa thức……………………………………………………… 24 2.3.2 Các phương pháp khai phá luật kết hợp đa mức……………………… 26 2.3.2.1 Đồng độ hỗ trợ tối thiểu cho tất mức………………… 26 2.3.2.2 Giảm dần độ hỗ trợ tối thiểu mức thấp hơn…………………….27 2.3.2.3 Độc lập theo mức………………………………………………….27 2.3.2.4 Lọc chéo mức itemset………………………………………… .27 2.4 Khai phá luật kết hợp đa chiều từ CSDL quan hệ kho liệu……………… 28 2.4.1 Luật kết hợp đa chiều……………………………………………………….28 2.4.2 Khai phá luật kết hợp đa chiều sử dụng việc rời rạc hoá tĩnh thuộc tính số lượng……………………………………………………………………….29 2.4.3 Khai phá luật kết hợp số lượng…………………………………………… 30 2.4.4 Khai phá luật kết hợp dựa vào khoảng cách……………………………… 31 CHƢƠNG 3: MỘT SỐ THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP…………… 34 3.1 Khám phá frequent itemset……………………………………………….34 3.1.1 Thuật toán AIS………………………………………………… .34 Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3.1.2 Thuật toán SETM……………………………………………… .35 3.1.3 Thuật toán Apriori………………………………………………… 39 3.1.3.1 Hàm Apriori_gen……………………………………….40 3.1.3.2 Hàm subset…………………………………………… 40 3.1.4 Thuật toán AprioriTID…………………………………….41 3.1.5 Thuật toán AprioriHybrid………………………………………… 43 3.2 Khám phá luật kết hợp…………………………………………………… 44 3.2.1 Thuật toán sinh luật đơn giản……………………………………….45 3.2.2 Thuật toán nhanh……………………………………………… 45 3.3 Thuật toán DHP (Direct Hashing with Efficent Pruning)……………… 46 3.3.1 Thuật toán DHP…………………………………………………… 46 3.3.2 Giảm kích thước sở liệu giao dịch………………… .51 3.3.3 Giảm số lần quét sở liệu (Scan – Reduction method)……… 53 3.4 Thuật toán PHP (Perfect Hash and Pruning)…………………………… 53 3.5 So sánh thuật toán khám phá frequent itemset………………… 55 3.5.1 Sinh liệu tổng hợp………………………………………… .55 3.5.2 So sánh thuật toán AIS, SETM, Apriori AprioriTID……… 56 CHƢƠNG 4: CÀI ĐẶT CHƢƠNG TRÌNH THỬ NGHIỆM…………… 63 “ MÔ PHỎNG THUẬT TOÁN APRIORI” 4.1 Phát biểu toán ………………………………………………………… 63 4.2 Phân tích toán ………………………………………………………… 63 4.3 Xây dựng liệu…………………………………………………………….64 4.4 Cài đặt chƣơng trình thử nghiệm………………………………………… 64 4.5 Giao diện chƣơng trình………………………………………….65 KẾT LUẬN VÀ ĐỀ NGHỊ………………………………………………… 67 TÀI LIỆU THAM KHẢO……………………………………………………….68 Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT Diễn giải Ký hiệu Ck Tập k-itemset ứng viên Ck Tập k-itemset ứng viên mà TID giao dịch sinh liên kết với tập mục ứng viên D Cơ sở liệu giao dịch Di Phần thứ i sở liệu D I Tập mục Lk Tập k-itemset phổ biến T Giao dịch (transaction) X ⇒Y Luật kết hợp (với X tiền đề, Y hệ quả) Conf Độ tin cậy (Confidence) k-itemset Tập mục gồm k mục Min_conf Ngưỡng tin cậy tối thiểu Min_sup Ngưỡng hỗ trợ tối thiểu Sup Độ hỗ trợ (support) Tid Định danh giao dịch Tid-List Danh sách định danh giao dịch ARCS Association Rule Clustering System SQL Structured Query Language FP -growth Frequent -Pattern Growth FP -Tree Frequent pattern tree min_sup_count minimum support count DHP Direct Hashing with Efficent Pruning PHP Perfect Hash and Pruning Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC BẢNG Trang Bảng 2.1: Tóm tắt trình khai phá FP – Tree 24 Bảng 2.2: Dữ liệu giao dịch cho nhánh AllElectronecs 25 Bảng 2.3: Phân chia dựa khoảng cách 32 Bảng 3.1: Các tham số chương trính sinh liệu tổng hợp 56 Bảng 3.2: Các tham số 56 Bảng 3.3: Thời gian thực theo giây (s) thuật toán SETM 57 Bảng 3.4: So sánh thời gain thực Apriori DHP (T15.I4.D100) 61 Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC HÌNH VẼ Trang Hình 1.1: Quy trình phát tri thức Hình 1.2: Kiến trúc hệ khai phá liệu điển hình Hình 1.3: Mẫu kết với phương pháp định Hình 1.4: Phân cụm đối tượng k-Mean ( + tâm cụm) Hình 1: CSDL để thực bước hình 2.2 17 Hình 2.2: Các bước thực thuật toán Apriori với _sup = 2/9 = 22% 18 Hình 2.3: Hai giai đoạn kỹ thuật phân đoạn 21 Hình 2.4: Cây FP – tree 23 Hình 2.5: Cây conditional FP – tree 24 Hình 2.6: Hệ thống phân cấp khái niệm cho item 25 Hình 2.7: min_sup sử dụng khai phá mức trừu tượng khác 26 Hình 2.8: Giảm dần độ hỗ trợ tối thiểu mức thấp 27 Hình 2.9: Độc lập theo mức 27 Hình 2.10: Lọc chéo mức itemset 28 Hình 2.11: Mạng cuboids tạo thành data cube 3D 29 Hình 2.12: Lưới hai chiều luật kết hợp số lượng hai chiều với điều kiện buys 31 Hình3.1a: 38 Hìn 3.1b: Các bước thực thuật toán SETM min_sup_count = 39 Hình 3.2: Các bước thực thuật toán AprioriTID 43 Hình 3.3: Thời gian xử lý bước quét thuật toán Apriori AprioriTID 44 Hình 3.4: Các bước thực thuật toán DHP 49 Hình 3.5: Tìm L2 D3 52 Hình 3.6a: Thời gian thực với tập liệu T5.I2.D100K T10.I2.D100K 57 Hình 3.6b: Thời gian thực với tập liệu T10.I4.D100K T20.I2.D100K 58 Hình 3.6c: Thời gian thực với tập liệu T20.I4.D100K T20.I6.D100K 58 Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Hình 3.7: Kích thước tập frequent tập ứng cử viên 59 Hình 3.8: Thời gian thực Apriori DHP 61 Hình 3.9: So sánh thời gian thực DHP Apriori 62 Hình 4.1: Giao diện chương trình 65 Hình 4.2: Lựa chọn CSDL 65 Hình 4.3: Kết khai phá luật kết hợp 66 Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read ... CHƢƠNG 2: KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU LỚN…… 13 2.1 Khai phá luật kết hợp ……………………………………………………… .13 2.1.1 Một số khái niệm …………………………………………………13 2.1.2 Cách khai phá luật kết hợp ……………………………………………….14... 1.1.3 Các loại liệu khai phá …………………………………………….6 1.1.4 Chức khai phá liệu ……………………………………………… 1.2 Một số phƣơng pháp khai phá liệu thông dụng ………………………………7 1.2.1 Phương pháp luật kết hợp ……………………………………………... 2.4.3 Khai phá luật kết hợp số lượng…………………………………………… 30 2.4.4 Khai phá luật kết hợp dựa vào khoảng cách……………………………… 31 CHƢƠNG 3: MỘT SỐ THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP…………… 34 3.1 Khám phá frequent