1. Trang chủ
  2. » Luận Văn - Báo Cáo

Một số vấn đề liên quan đến khai phá dữ liệu bằng cây quyết định tt

4 351 2

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 4
Dung lượng 349,71 KB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Bùi Quang Huy MỘT SỐ VẤN ĐỀ LIÊN QUAN ĐẾN KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH LUẬN VĂN THẠC SĨ Hà Nội – 2006... 4 Chương 1 Tổng qu

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Bùi Quang Huy

MỘT SỐ VẤN ĐỀ LIÊN QUAN ĐẾN

KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH

LUẬN VĂN THẠC SĨ

Hà Nội – 2006

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Bùi Quang Huy

MỘT SỐ VẤN ĐỀ LIÊN QUAN ĐẾN

KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH

Ngành: Công nghệ thông tin

Mã số: 1.01.10

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC :

PGS TS Vũ Đức Thi

Hà Nội - 2006

Trang 3

2

Mục lục

Mục lục 2

Mở đầu 4

Chương 1 Tổng quan về công nghệ khai phá tri thức và kho dữ liệu 5

1.1 Công nghệ khai phá tri thức và khai phá dữ liệu 5

1.1.1 Khai phá tri thức và khai phá dữ liệu 5

1.1.2 Quá trình khai phá tri thức 6

1.1.3 Nhiệm vụ khai phá dữ liệu 7

1.2 Kho dữ liệu 13

1.2.1 Kho dữ liệu và một số đặc điểm 13

1.2.2 Sự khác nhau giữa kho dữ liệu và cơ sở dữ liệu tác nghiệp 15

1.2.3 Kiến trúc chung của kho dữ liệu 19

Chương 2 Tiền xử lý dữ liệu, một công đoạn quan trọng trong quá trình KDD 25

2.1 Giới thiệu 25

2.2 Làm sạch dữ liệu 26

2.2.1 Giá trị bị mất 26

2.2.2 Dữ liệu bị nhiễu 27

2.2.3 Dữ liệu không nhất quán 29

2.3 Tích hợp và chuyển đổi dữ liệu 29

2.3.1 Tích hợp dữ liệu 29

2.3.2 Chuyển đổi dữ liệu 31

2.4 Thu gọn dữ liệu 32

2.4.1 Kết hợp khối dữ liệu 32

2.4.2 Thu gọn các chiều 34

2.4.3 Nén dữ liệu 36

2.4.4 Giảm bớt số lượng 36

2.5 Rời rạc hóa và tổng quát hóa bậc khái niệm 37

2.5.1 Tổng quát hóa và rời rạc hóa bậc khái niệm cho dữ liệu kiểu số 37

2.5.2 Tổng quát hóa mức khái niệm cho dữ liệu kiểu xác định 40

Chương 3 Một số phương pháp xây dựng cây quyết định trong khai phá dữ liệu 43

3.1 Phân lớp và dự báo 43

3.1.1 Phân lớp và dự báo 43

3.1.2 Chuẩn bị dữ liệu cho phân lớp và dự báo 46

3.1.3 So sánh các phương pháp phân lớp 47

3.2 Phân lớp bằng quy nạp cây quyết định 47

3.2.1 Quy nạp cây quyết định 48

3.2.2 Thu gọn cây 53

3.2.3 Rút ra quy tắc phân lớp từ cây quyết định 54

3.2.4 Cải tiến quy nạp cây quyết định cơ bản 55

3.2.5 Quy nạp cây quyết định và khả cỡ 56

3.2.6 Tích hợp quy nạp cây quyết định với công nghệ kho dữ liệu 59

3.3 Xây dựng cây quyết định bằng phụ thuộc hàm 60

3.3.1 Định nghĩa vấn đề 62

3.3.2 Hàm và xấp xỉ phụ thuộc 62

3.3.3 Phương pháp phân lớp 63

3.3.4 Ưu điểm của việc sử dụng lớp phụ thuộc hàm (CFDs) 64

3.3.5 Đánh giá 65

Trang 4

3

Chương 4 Khai phá dữ liệu trong CSDL ORACLE 10G 66

4.1 Giới thiệu công cụ khai phá dữ liệu Oracle 66

4.2 Quá trình khai phá dữ liệu của Oracle 68

4.3 Một số thuật toán của ODM 69

4.3.1 Các thuật toán học có giám sát 69

4.3.2 Các thuật toán học không giám sát 73

Chương 5 Bài toán khai phá dữ liệu khách vi phạm quy chế xuất nhập cảnh 78

5.1 Lựa chọn phương pháp phân lớp 78

5.2 Mô tả dữ liệu nghiệp vụ 79

5.2.1 Chuẩn bị dữ liệu cho ứng dụng 79

5.2.2 Lựa chọn dữ liệu cho ứng dụng 80

5.3 Các tham số xây dựng mô hình cho thuật toán cây quyết định 82

5.4 Xây dựng mô hình 83

5.4.1 Xây dựng và kiểm thử mô hình 83

5.4.2 Nhận xét 88

Kết luận 89

1 Kết quả đạt được của luận văn 89

2 Phương hướng nghiên cứu tiếp theo 89

Tài liệu tham khảo 91

Ngày đăng: 28/07/2015, 20:02

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w