ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Bùi Quang Huy MỘT SỐ VẤN ĐỀ LIÊN QUAN ĐẾN KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH LUẬN VĂN THẠC SĨ Hà Nội – 2006 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Bùi Quang Huy MỘT SỐ VẤN ĐỀ LIÊN QUAN ĐẾN KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH Ngành: Công nghệ thông tin Mã số: 1.01.10 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Vũ Đức Thi Hà Nội - 2006 2 Mục lục Mục lục 2 Mở đầu 4 Chương 1 Tổng quan về công nghệ khai phá tri thức và kho dữ liệu 5 1.1 Công nghệ khai phá tri thức và khai phá dữ liệu 5 1.1.1 Khai phá tri thức và khai phá dữ liệu. 5 1.1.2 Quá trình khai phá tri thức 6 1.1.3 Nhiệm vụ khai phá dữ liệu 7 1.2 Kho dữ liệu 13 1.2.1 Kho dữ liệu và một số đặc điểm 13 1.2.2 Sự khác nhau giữa kho dữ liệu và cơ sở dữ liệu tác nghiệp 15 1.2.3 Kiến trúc chung của kho dữ liệu 19 Chương 2 Tiền xử lý dữ liệu, một công đoạn quan trọng trong quá trình KDD 25 2.1 Giới thiệu 25 2.2 Làm sạch dữ liệu 26 2.2.1 Giá trị bị mất 26 2.2.2 Dữ liệu bị nhiễu 27 2.2.3 Dữ liệu không nhất quán 29 2.3 Tích hợp và chuyển đổi dữ liệu 29 2.3.1 Tích hợp dữ liệu 29 2.3.2 Chuyển đổi dữ liệu 31 2.4 Thu gọn dữ liệu 32 2.4.1 Kết hợp khối dữ liệu. 32 2.4.2 Thu gọn các chiều 34 2.4.3 Nén dữ liệu 36 2.4.4 Giảm bớt số lượng 36 2.5 Rời rạc hóa và tổng quát hóa bậc khái niệm. 37 2.5.1 Tổng quát hóa và rời rạc hóa bậc khái niệm cho dữ liệu kiểu số 37 2.5.2 Tổng quát hóa mức khái niệm cho dữ liệu kiểu xác định 40 Chương 3 Một số phương pháp xây dựng cây quyết định trong khai phá dữ liệu. 43 3.1 Phân lớp và dự báo 43 3.1.1 Phân lớp và dự báo. 43 3.1.2 Chuẩn bị dữ liệu cho phân lớp và dự báo 46 3.1.3 So sánh các phương pháp phân lớp 47 3.2 Phân lớp bằng quy nạp cây quyết định 47 3.2.1 Quy nạp cây quyết định 48 3.2.2 Thu gọn cây 53 3.2.3 Rút ra quy tắc phân lớp từ cây quyết định 54 3.2.4 Cải tiến quy nạp cây quyết định cơ bản. 55 3.2.5 Quy nạp cây quyết định và khả cỡ. 56 3.2.6 Tích hợp quy nạp cây quyết định với công nghệ kho dữ liệu. 59 3.3 Xây dựng cây quyết định bằng phụ thuộc hàm 60 3.3.1 Định nghĩa vấn đề 62 3.3.2 Hàm và xấp xỉ phụ thuộc. 62 3.3.3 Phương pháp phân lớp 63 3.3.4 Ưu điểm của việc sử dụng lớp phụ thuộc hàm (CFDs). 64 3.3.5 Đánh giá 65 3 Chương 4 Khai phá dữ liệu trong CSDL ORACLE 10G. 66 4.1 Giới thiệu công cụ khai phá dữ liệu Oracle 66 4.2 Quá trình khai phá dữ liệu của Oracle 68 4.3 Một số thuật toán của ODM 69 4.3.1 Các thuật toán học có giám sát 69 4.3.2 Các thuật toán học không giám sát 73 Chương 5 Bài toán khai phá dữ liệu khách vi phạm quy chế xuất nhập cảnh 78 5.1 Lựa chọn phương pháp phân lớp. 78 5.2 Mô tả dữ liệu nghiệp vụ. 79 5.2.1 Chuẩn bị dữ liệu cho ứng dụng 79 5.2.2 Lựa chọn dữ liệu cho ứng dụng 80 5.3 Các tham số xây dựng mô hình cho thuật toán cây quyết định 82 5.4 Xây dựng mô hình 83 5.4.1 Xây dựng và kiểm thử mô hình 83 5.4.2 Nhận xét 88 Kết luận 89 1. Kết quả đạt được của luận văn 89 2. Phương hướng nghiên cứu tiếp theo 89 Tài liệu tham khảo 91 . 1 Tổng quan về công nghệ khai phá tri thức và kho dữ liệu 5 1.1 Công nghệ khai phá tri thức và khai phá dữ liệu 5 1.1.1 Khai phá tri thức và khai phá dữ liệu. 5 1.1.2 Quá trình khai phá tri. ĐẠI HỌC CÔNG NGHỆ Bùi Quang Huy MỘT SỐ VẤN ĐỀ LIÊN QUAN ĐẾN KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH Ngành: Công nghệ thông tin Mã số: 1.01.10 LUẬN VĂN THẠC. GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Bùi Quang Huy MỘT SỐ VẤN ĐỀ LIÊN QUAN ĐẾN KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH LUẬN VĂN THẠC SĨ