1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phương pháp khai phá dữ liệu bằng cây quyết định

106 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 106
Dung lượng 3,4 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - Đổng Chế Quốc PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH Chuyên ngành: CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS TRẦN ĐÌNH KHANG Hà Nội – 2014 LỜI CẢM ƠN Tác giả xin chân thành tri ân PGS.TS Trần Đình Khang - Đại học Bách Khoa Hà Hội, vị thầy đáng kính, dày cơng hướng dẫn giúp đỡ tác giả hoàn thành luận văn Xin chân thành cảm ơn Quý Thầy Cô, nhân viên thuộc Viện Công nghệ thông tin Truyền Thông, Viện Sau đại học - Trường Đại học Bách Khoa Hà Nội, Quý Thầy cô Trường Đại học Nha Trang, … quan tâm giúp đỡ tận tâm thiết thực q trình nghiên cứu hồn thành luận văn Xin chân thành cảm ơn quý Thầy Cô đọc góp ý chân thành để tác giả hồn thiện luận văn Xin chân thành cảm ơn đồng nghiệp Sở GD&ĐT Ninh Thuận Trung tâm GDTX tỉnh Ninh Thuận, cảm ơn bạn học viên lớp Cao học Công nghệ thơng tin khóa 2012A học Nha Trang, người thân yêu tạo điều kiện mặt thời gian, công việc, động viên, giúp đỡ suốt trình học tập hồn thành luận văn Cuối xin cảm ơn người thân gia đình bạn bè tạo điều kiện thuận lợi nhất, chỗ dựa mặt tinh thần vững để tác giả hồn thành nhiệm vụ Hà Nội, ngày 22 tháng 09 năm 2014 Đổng Chế Quốc ii LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu tơi Các số liệu, kết nêu luận văn trung thực chưa công bố công trình khác Hà Nội, ngày 22 tháng 09 năm 2014 Đổng Chế Quốc iii MỤC LỤC TRANG PHỤ BÌA I LỜI CẢM ƠN II LỜI CAM ĐOAN III MỤC LỤC IV DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT VIII DANH MỤC CÁC BẢNG IX DANH MỤC CÁC HÌNH, ĐỒ THỊ X DANH MỤC THUẬT NGỮ XIII MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ BÀI TOÁN XÂY DỰNG HỆ TRỢ GIÚP QUYẾT ĐỊNH TƢ VẤN TUYỂN SINH 1.2 Các vấn đề đặt toán 1.3 Mơ tả tốn 1.4 Thực trạng công tác tuyển sinh đại học, cao đẳng .7 1.4.1 Quy trình tổ chức tuyển sinh đại học, cao đẳng 1.4.2 Những khó khăn công tác tuyển sinh .9 1.5 Vấn đề đặt cho hệ trợ giúp định tuyển sinh 10 1.6 Định hướng giải toán 10 1.7 Cơ sở lý thuyết cơng cụ giải tốn 11 1.7.1 Cơ sở lý thuyết 11 1.7.2 Công cụ giải toán .11 CHƢƠNG 2: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU .12 2.1 Khái niệm 12 2.2 Quy trình phát tri thức 12 2.2.1 Hình thành định nghĩa tốn 13 2.2.2 Thu thập tiền xử lý liệu 13 2.2.3 Khai phá liệu, rút tri thức 13 2.2.4 Phân tích kiểm định kết .13 iv 2.2.5 Sử dụng tri thức phát 13 2.3 Kiến trúc hệ thống khai phá liệu .14 2.4 Quá trình khai phá liệu 15 2.5 Các mơ hình khai phá liệu 16 2.5.1 Khai phá liệu suy diễn 17 2.5.1.1 Phân lớp 17 2.5.1.2 Hồi quy 17 2.5.1.3 Cây định .17 2.5.1.4 Mạng nơron 18 2.5.2 Khai phá liệu mô tả 18 2.5.2.1 Gom cụm 18 2.5.2.2 Luật kết hợp 19 2.5.2.3 Giải thuật di truyền .20 2.5.2.4 Khai phá chuỗi .20 2.6 Lợi khai phá liệu so với phương pháp khác .20 2.7 Các dạng liệu khai phá .21 2.8 Những khó khăn khai phá liệu 21 CHƢƠNG 3: PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH 22 3.1 Hệ trợ giúp định .22 3.1.1 Khái niệm hệ trợ giúp định 22 3.1.2 Kiến trúc chung hệ trợ giúp định [3] .22 3.1.3 Các thành phần hệ trợ giúp định 23 3.1.4 Lợi hệ trợ giúp định [3] 23 3.2 Cây định 24 3.2.1 Định nghĩa định .24 3.2.2 Đánh giá định .26 3.2.2.1 Điểm mạnh định 26 3.2.2.2 Điểm yếu định .27 v 3.2.3 Vấn đề xây dựng định .28 3.2.4 Rút luật từ định 29 3.3 Thuật toán xây dựng định 31 3.3.1 Tư tưởng chung 31 3.3.2 Thuật toán quy nạp định 32 3.4 Xây dựng định thuật toán C4.5 33 3.4.1 Giới thiệu 33 3.4.2 Ý tưởng thuận toán C4.5 34 3.4.3 Độ lựa chọn thuộc tính phân chia tốt 34 3.4.3.1 Entropy độ đo tính tập liệu .34 3.4.3.2 Độ lợi thông tin - Information Gain (viết tắt Gain)[8] .35 3.4.3.3 Tỷ suất lợi ích Gain Ratio .36 3.4.4 Thuật toán xây dựng định C4.5 .39 3.4.5 Một số vấn đề với thuộc tính .40 3.5 Đánh giá kết luận thuật toán xây dựng định 41 CHƢƠNG 4: ỨNG DỤNG KHAI PHÁ DỮ LIỆU XÂY DỰNG HỆ TRỢ GIÚP QUYẾT ĐỊNH TƢ VẤN TUYỂN SINH 44 4.1 Phân tích tốn .44 4.1.1 Xác định mục tiêu toán .44 4.1.2 Phân tích liệu đầu vào 45 4.2 Phân tích hệ thống 47 4.2.1 Phân tích hệ thống chức 47 4.2.1.1 Biểu đồ phân cấp chức 47 4.2.1.2 Biểu đồ luồng liệu mức khung cảnh .50 4.2.1.3 Biểu đồ luồng liệu mức đỉnh 51 4.2.2 Phân tích hệ thống liệu 54 4.2.2.1 Các thực thể hệ thống 54 4.2.2.2 Mối quan hệ thực thể .59 4.3 Thiết kế hệ thống .59 vi 4.3.1 Thiết kế sở liệu 59 3.3.1.1 Thiết kế bảng 60 4.3.1.2 Sơ đồ thực thể liên kết toàn hệ thống 61 4.3.1.3 Xây dựng lựa chọn mơ hình 61 4.3.2 Thiết kế giao diện 83 4.3.2.1 Giao diện đăng nhập hệ thống .84 4.3.2.2 Giao diện hình hệ trợ giúp định 84 4.3.2.3 Giao diện dự báo chọn khối thi .84 4.3.2.4 Giao diện dự báo theo ngành 85 4.3.2.5 Giao diện dự báo theo trường .85 4.4 Cài đặt thử nghiệm chương trình 86 4.4.1 Môi trường cài đặt 86 4.4.2 Thử nghiệm chương trình 86 4.4.3 Đánh giá kết chương trình 88 4.4.3.1 Đánh giá thuật toán học định C4.5 88 4.4.3.2 Đánh giá chương trình 89 CHƢƠNG 5: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN .90 5.1 Kết luận 90 5.2 Hướng phát triển 90 TÀI LIỆU THAM KHẢO 92 vii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Trong suốt luận văn này, tác giả dùng thống nhất: Viết tắt: ĐH-CĐ : Đại học – Cao đẳng GD&ĐT : Giáo Dục Đào Tạo HĐTS : Hội đồng tuyển sinh TGQĐ : Trở giúp định KPDL : Khai phá liệu MHKPDL: Mơ hình khai phá dự liệu CSDL : Cơ sở liệu MDL : Mục liệu viii DANH MỤC CÁC BẢNG Bảng 3.1 Bảng training data để học định 30 Bảng 4.1 Thực thể Hocsinh 55 Bảng 4.2 Thực thể khối thi .55 Bảng 4.3 Thực thể Ngành 56 Bảng 4.4 Thực thể Trường .56 Bảng 4.5 Thực thể khu vực trường dự thi 56 Bảng 4.6 Thực thể nhóm ngành 56 Bảng 4.7 Thực thể sở trường 56 Bảng 4.8 Thực thể Trường phổ thông 57 Bảng 4.9 Thực thể Trường .57 Bảng 4.10 Thực thể Trường .57 Bảng 4.11 Thực thể Khu vực 57 Bảng 4.12 Thực thể Khu vực 57 Bảng 4.13 Thực thể Khu vực 58 Bảng 4.14 Thực thể điểm học tập cấp 58 ix DANH MỤC CÁC HÌNH, ĐỒ THỊ Hình 2.1 Quy trình phát tri thức 12 Hình 2.2 Kiến trúc hệ thống khai phá liệu 14 Hình 2.3 Quá trình khai phá tri thức CSDL 15 Hình 2.4 Cây định 18 Hình 3.1 Kiến trúc chung hệ TGQĐ 23 Hình 3.2 Các thành phần Hệ hỗ trợ định .23 Hình 3.3 Cấu trúc định 24 Hình 3.4 Cây định phân lớp mức lương 25 Hình 3.5 Cây định sinh từ bảng training data 3.1 .30 Hình 3.6 Mơ tả độ đo tính tập liệu .35 Hình 4.1 Biểu đồ phân cấp chức hệ thống 49 Hình 4.2 Biểu đồ luồng liệu mức khung cảnh 51 Hình 4.3 Biểu đồ luồng liệu mức đỉnh 51 Hình 4.4 Biểu đồ phân rã chức đưa trợ giúp định khối thi .52 Hình 4.5 Biểu đồ phân rã chức đưa trợ giúp định chọn ngành 53 Hình 4.6 Biểu đồ phân rã chức đưa trợ giúp định chọn trường 54 Hình 4.7 Biểu đồ mối quan hệ thực thể .59 Hình 4.8 Sơ đồ thực thể liên kết hệ thống 61 Hình 4.9 Mơ tả liệu định chọn khối thi .62 Hình 4.10 mơ tả bước phân chia liệu 63 Hình 4.11 Đặt tên cho Training data va Test data 63 Hình 4.12 Chọn nguồn Training data 64 Hình 4.13 Chọn thuộc tính đưa vào dự đốn 64 Hình 4.14 Đặt tên cho Training data structure 65 Hình 4.15 Chọn tên thuật tốn 65 Hình 4.15 Chọn thuộc tính khóa thuộc tính phân lớp 65 Hình 4.16 Đặt tên cho mơ hình 66 x Hình 4.46 Kết dự báo xác suất để chọn ngành Với kết trên, học sinh có mahocsinh 4500100761 có xác suất chọn ngành tương ứng với hình 4.46 0.68666 (>0,5) nên xếp vào lớp ngành phù hợp học sinh có mahocsinh 4503007124 có xác suất chọn ngành tương ứng với hình 4.46 0.3279773(

Ngày đăng: 17/02/2022, 19:32

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN