Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
356,65 KB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN HỒNG HẢI PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU DẠNG ĐÓNG VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH Thái Nguyên - 2011 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN HỒNG HẢI PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU DẠNG ĐÓNG VÀ ỨNG DỤNG Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH HƯỚNG DẪN KHOA HỌC PGS.TS NGÔ QUỐC TẠO Thái Nguyên - 2011 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn i LỜI CAM ĐOAN Tôi xin cam đoan Luận văn “ Phƣơng pháp khai phá liệu dạng đóng ứng dụng” công trình nghiên cứu riêng dƣới sƣ̣ hƣớng dẫn của PGS.TS Ngô Quốc Tạo Toàn bộ phần mềm chính lập trình kiểm thƣ̉ Tôi xin chị u trách nhiệm về lời cam đoan của mì nh Các số liệu thông tin sử dụng luận văn trung thực Tác giả Nguyễn Hồng Hải Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn i MỤC LỤC MỤC LỤC i DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT iv DANH MỤC CÁC BẢNG v DANH MỤC HÌNH VẼ vi MỞ ĐẦU Chƣơng 1: TÌM HIỂU PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU 1.2 Khai phá liệu 1.2 Ứng dụng việc khai phá liệu 1.3 Qui trình khai phá tri thức 1.3.1 Qui trình khai phá tri thức 1.3.2 Kiến trúc hệ thống khai phá liệu 1.4 Các nhiệm vụ chính khai phá tri thức 1.4.1 Dự đoán (predictive) 1.4.2 Mô tả (discriptive) 1.5 Ý tƣởng kĩ thuật khai phá tri thức 1.6 Các thách thức khai phá tri thức 1.7 Qui trình chuẩn bị liệu 1.7.1 Tại cần chuẩn bị liệu 1.7.2 Làm liệu 1.7.3 Chọn lọc liệu 1.7.4 Rút gọn liệu 1.7.5 Mã hóa liệu 11 1.8 Tập phổ biến 11 1.8.1 Giới thiệu tập phổ biến 11 1.8.2 Các khái niệm 12 1.8.2.1 Cho sở liệu giao dịch 12 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii 1.8.2.2 Độ phổ biến tập phổ biến 13 1.8.2.3 Tính chất tập phổ biến 14 1.8.2.4 Tập phổ biến tối đại 14 1.8.2.5 Tập phổ biến đóng 14 1.8.2.6 Luật kết hợp 15 1.8.2.7 Mô tả toán luật kết hợp 15 1.9 Phân lớp liệu 16 1.9.1 Định nghĩa thông qua ví dụ 16 1.9.2 Quy trình phân lớp 16 1.10 Phân cụm liệu 17 1.10.1 Phân cụm gì? 17 1.10.2 Phân biệt phân lớp phân cụm 17 1.10.3 Ứng dụng phân cụm 18 1.10.4 Ví dụ 19 Chƣơng 2: KHAI PHÁ TẬP PHỔ BIẾN ĐÓNG TRONG KHÔNG GIAN CHIỀU VÀ KHAI PHÁ KHỐI ĐÓNG TRONG KHÔNG GIAN CHIỀU 20 2.1 Tổng quan khai phá tập phổ biến đóng FCP không gian chiều20 2.2 Mở đầu khai phá tập phổ biến đóng FCP không gian chiều 20 2.3 Tiến hành khai phá tập phổ biến đóng FCP 22 2.3.1 Sơ lƣợc trình khai phá tập phổ biến đóng 22 2.3.2 Thuật toán C-Miner 23 2.3.2.1 Thuật toán phân cụm (thuật toán increamental k-mean) 23 2.3.2.2 Quá trình chia không gian khai phá 25 2.3.2.3 Khai phá không gian để tìm tập phổ biến đóng FCPs 29 2.4 Tổng quan khai phá khối phổ biến đóng FCC không gian chiều 32 2.5 Mở đầu khai phá khối phổ biến đóng FCC không gian chiều 33 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii 2.6 Khai phá lát cắt đại diện 36 2.6.1 Tạo dàn đại diện 38 2.6.2 Tạo tập phổ biến đóng FCP 39 2.6.3 3D FCC generation by post-pruning (Chiến lƣợc lƣợc bỏ khối đƣợc sinh không thỏa mãn) 39 2.6.4 Tính đắn 41 Chƣơng 3: CÀI ĐẶT THUẬT TOÁN VÀ ỨNG DỤNG 43 3.1 Cài đặt thuật toán không gian chiều 43 3.2 Cài đặt ứng dụng không gian chiều 46 3.2.1 Cơ sở liệu 47 3.2.2 Các bƣớc thực 47 3.3 Cài đặt thuật toán không gian chiều 50 3.4 Cài đặt ứng dụng không gian chiều 55 3.4.1 Cơ sở liệu 55 3.4.2 Các bƣớc thực 55 KẾT LUẬN 59 TÀI LIỆU THAM KHẢO 61 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iv DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT Các từ viết tắt Nghĩa tiếng anh Nghĩa tiếng việt EnumerateSubset Liệt kê tập Slice Mặt cắt Dàn tƣơng đƣơng với tập Slices mặt cắt kết hợp với CP Closed pattern Tập đóng Không gian đặc (trong CS Compact subspace toán xét: không gian mà tất ô có giá trị “1” FCC Frequent closed cube Khổi phổ biến đóng FCP Frequent closed pattern Tập phổ biến đóng Là ngƣỡng giá trị Pattern length mà pattern phải Minlen thỏa mãn Là ngƣỡng giá trị support mà pattern phải thỏa Minsup mãn RS Representative slices Dàn đại diện RSM Representative slice Mining Khai phá lát cắt đại diện Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn v DANH MỤC CÁC BẢNG Bảng 2.1 Bảng sở liệu 21 Bảng 2.2 Ma trận rút gọn O‟ 26 Bảng 2.3 Lát cắt 27 Bảng 2.4 Kết không gian rút gọn không gian 27 (minsup=3, minlen=2) 27 Bảng 2.5 FCP (minsup=3, minle=2) 32 Bảng 2.6 Ma trận O không gian chiều 34 Bảng 2.7 Khai thác FCC (minH=minR=minC=2) 38 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn vi DANH MỤC HÌNH VẼ Hình 1.1 Các bƣớc khai phá tri thức Hình 1.2 Kiến trúc hệ thống khai phá liệu Hình 1.3 Minh họa phân cụm liệu 18 Hình 1.4 Phân cụm điểm không gian 19 Hình 1.5 Phân cụm nhà dựa vào khoảng cách địa lý 19 Hình 2.1 Khung khai phá 22 Hình 2.2 Cây phân chia sử dụng lát cắt 28 Hình 2.3 Sai sót dƣ thừa 29 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỞ ĐẦU Ngày nay, cuộc cách mạng kỹ thuật số cho phép số hóa thông tin dễ dàng chi phí lƣu trữ thấp.Với phát triển phần mềm, phần cứng trang bị nhanh hệ thống máy tính kinh doanh Số lƣợng liệu khổng lồ đƣợc tập trung lƣu trữ sở liệu thiết bị điện tử nhƣ: đĩa cứng, băng từ, đĩa quang, CD-ROM,… Tốc độ tăng liệu lớn Từ dẫn đến kết pha trộn kỹ thuật thống kê vào công cụ quản trị liệu phân tích đầy đủ liệu rộng lớn đƣợc Dữ liệu sau phục vụ cho một mục đích đƣợc lƣu lại kho liệu theo ngày tháng khối lƣợng liệu đƣợc lƣu trữ ngày lớn Trong khối lƣợng liệu to lớn có nhiều thông tin có ích mang tính tổng quát, thông tin có tính quy luật tiềm ẩn mà chƣa biết Từ khối lƣợng liệu lớn cần có công cụ tự động rút thông tin kiến thức có ích Một hƣớng tiếp cận có khả giúp công ty khai thác thông tin có nhiều ý nghĩa từ tập liệu lớn khai phá liệu (Data Mining) Với bùng nổ phát triển công nghệ thông tin mang lại nhiều hiệu khoa học nhƣ hoạt động thực tế, khai phá liệu một lĩnh vực mang lại hiệu thiết thực cho ngƣời Khai phá liệu giúp ngƣời sử dụng thu đƣợc tri thức hữu ích từ cớ sở liệu kho liệu khổng lồ khác Luận văn đề cập đến khái niệm vấn đề Khai phá tri thức Khai phá liệu, luận văn đề cập đến phƣơng pháp khai phá liệu dạng đóng đƣợc áp dụng nhiều lĩnh vực thực tiễn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read ... 1: TÌM HIỂU PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU 1.2 Khai phá liệu 1.2 Ứng dụng việc khai phá liệu 1.3 Qui trình khai phá tri thức 1.3.1 Qui trình khai phá tri thức ...ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN HỒNG HẢI PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU DẠNG ĐÓNG VÀ ỨNG DỤNG Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 LUẬN... PHỔ BIẾN ĐÓNG TRONG KHÔNG GIAN CHIỀU VÀ KHAI PHÁ KHỐI ĐÓNG TRONG KHÔNG GIAN CHIỀU 20 2.1 Tổng quan khai phá tập phổ biến đóng FCP không gian chiều20 2.2 Mở đầu khai phá tập phổ biến đóng FCP