ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Bùi Quang Huy MỘT SỐ VẤN ĐỀ LIÊN QUAN ĐẾN KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH LUẬN VĂN THẠC SĨ Hà Nội – 2006... 4 Chương 1 Tổng qu
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Bùi Quang Huy
MỘT SỐ VẤN ĐỀ LIÊN QUAN ĐẾN
KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH
LUẬN VĂN THẠC SĨ
Hà Nội – 2006
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Bùi Quang Huy
MỘT SỐ VẤN ĐỀ LIÊN QUAN ĐẾN
KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH
Ngành: Công nghệ thông tin
Mã số: 1.01.10
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC :
PGS TS Vũ Đức Thi
Hà Nội - 2006
Trang 32
Mục lục
Mục lục 2
Mở đầu 4
Chương 1 Tổng quan về công nghệ khai phá tri thức và kho dữ liệu 5
1.1 Công nghệ khai phá tri thức và khai phá dữ liệu 5
1.1.1 Khai phá tri thức và khai phá dữ liệu 5
1.1.2 Quá trình khai phá tri thức 6
1.1.3 Nhiệm vụ khai phá dữ liệu 7
1.2 Kho dữ liệu 13
1.2.1 Kho dữ liệu và một số đặc điểm 13
1.2.2 Sự khác nhau giữa kho dữ liệu và cơ sở dữ liệu tác nghiệp 15
1.2.3 Kiến trúc chung của kho dữ liệu 19
Chương 2 Tiền xử lý dữ liệu, một công đoạn quan trọng trong quá trình KDD 25
2.1 Giới thiệu 25
2.2 Làm sạch dữ liệu 26
2.2.1 Giá trị bị mất 26
2.2.2 Dữ liệu bị nhiễu 27
2.2.3 Dữ liệu không nhất quán 29
2.3 Tích hợp và chuyển đổi dữ liệu 29
2.3.1 Tích hợp dữ liệu 29
2.3.2 Chuyển đổi dữ liệu 31
2.4 Thu gọn dữ liệu 32
2.4.1 Kết hợp khối dữ liệu 32
2.4.2 Thu gọn các chiều 34
2.4.3 Nén dữ liệu 36
2.4.4 Giảm bớt số lượng 36
2.5 Rời rạc hóa và tổng quát hóa bậc khái niệm 37
2.5.1 Tổng quát hóa và rời rạc hóa bậc khái niệm cho dữ liệu kiểu số 37
2.5.2 Tổng quát hóa mức khái niệm cho dữ liệu kiểu xác định 40
Chương 3 Một số phương pháp xây dựng cây quyết định trong khai phá dữ liệu 43
3.1 Phân lớp và dự báo 43
3.1.1 Phân lớp và dự báo 43
3.1.2 Chuẩn bị dữ liệu cho phân lớp và dự báo 46
3.1.3 So sánh các phương pháp phân lớp 47
3.2 Phân lớp bằng quy nạp cây quyết định 47
3.2.1 Quy nạp cây quyết định 48
3.2.2 Thu gọn cây 53
3.2.3 Rút ra quy tắc phân lớp từ cây quyết định 54
3.2.4 Cải tiến quy nạp cây quyết định cơ bản 55
3.2.5 Quy nạp cây quyết định và khả cỡ 56
3.2.6 Tích hợp quy nạp cây quyết định với công nghệ kho dữ liệu 59
3.3 Xây dựng cây quyết định bằng phụ thuộc hàm 60
3.3.1 Định nghĩa vấn đề 62
3.3.2 Hàm và xấp xỉ phụ thuộc 62
3.3.3 Phương pháp phân lớp 63
3.3.4 Ưu điểm của việc sử dụng lớp phụ thuộc hàm (CFDs) 64
3.3.5 Đánh giá 65
Trang 43
Chương 4 Khai phá dữ liệu trong CSDL ORACLE 10G 66
4.1 Giới thiệu công cụ khai phá dữ liệu Oracle 66
4.2 Quá trình khai phá dữ liệu của Oracle 68
4.3 Một số thuật toán của ODM 69
4.3.1 Các thuật toán học có giám sát 69
4.3.2 Các thuật toán học không giám sát 73
Chương 5 Bài toán khai phá dữ liệu khách vi phạm quy chế xuất nhập cảnh 78
5.1 Lựa chọn phương pháp phân lớp 78
5.2 Mô tả dữ liệu nghiệp vụ 79
5.2.1 Chuẩn bị dữ liệu cho ứng dụng 79
5.2.2 Lựa chọn dữ liệu cho ứng dụng 80
5.3 Các tham số xây dựng mô hình cho thuật toán cây quyết định 82
5.4 Xây dựng mô hình 83
5.4.1 Xây dựng và kiểm thử mô hình 83
5.4.2 Nhận xét 88
Kết luận 89
1 Kết quả đạt được của luận văn 89
2 Phương hướng nghiên cứu tiếp theo 89
Tài liệu tham khảo 91