Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
417,26 KB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THÔNG NGUYỄN VĂN SỰ KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH VÀ ỨNG DỤNG TRONG HỆ HỖ TRỢ QUYẾT ĐỊNH LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên - 2012 1Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1i MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT iii DANH MỤC BẢNG BIỂU iv DANH MỤC HÌNH ẢNH v LỜI NÓI ĐẦU Chương KHAI PHÁ DỮ LIỆU 1.1 Khám phá tri thức khai phá liệu 1.2 Tại phải khai phá liệu 1.3 Quá trình khám phá tri thức 1.4 Trình tự thực trình khai phá liệu 1.5 Chức Khai phá liệu 10 1.6 Các kỹ thuật khai phá liệu 11 1.7 Các dạng liệu khai phá 13 1.8 Ứng dụng Khai phá liệu 13 1.9 Tổng kết 14 Chương KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH 15 2.1 Cây định 15 2.1.1 Cây định gì? 15 2.1.2 Một số vấn đề khai phá liệu định 16 2.1.3 Ưu nhược điểm định khai phá liệu 18 2.1.4 Xây dựng định 20 2.2 Một số thuật toán khai phá liệu định 22 2.2.1 Thuật toán CLS 22 2.2.2 Thuật toán ID3 26 2Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2ii 2.2.3 Thuật toán C4.5 37 2.2.4 Thuật toán SLIQ 41 2.3 Kỹ thuật cắt tỉa định 50 2.4 Tổng kết 61 Chương CÂY QUYẾT ĐỊNH VÀ ỨNG DỤNG TRONG HỆ HỖ TRỢ QUYẾT ĐỊNH 64 3.1 Tổng quan công tác thi đua khen thưởng ngành giáo dục 65 3.1.1 Các tiêu chuẩn danh hiệu thi đua ngành giáo dục 66 3.1.2 Quy trình đề nghị xét duyệt định khen thưởng 67 3.2 Phần mềm hỗ trợ định khen thưởng 70 3.2.1 Cấu trúc kho liệu 70 3.2.2 Kết cài đặt phần mềm 72 3.2 Đánh giá kết đạt chương trình 75 3.3 Kết luận hướng phát triển 77 TÀI LIỆU THAM KHẢO 79 3Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI NÓI ĐẦU Song song với phát triển không ngừng ngành Công nghệ thông tin nói chung lĩnh vực ngành công nghệ phần mềm nói riêng, hệ thống kho liệu phục vụ công tác hỗ trợ định việc phân loại thông tin nhu cầu lưu trữ thông tin ngày cần thiết Bên cạnh việc tin học hóa công tác quản lý nhiều lĩnh vực, hoạt động khác tạo cho nhân loại thư viện liệu khổng lồ, sẵn sàng phục vụ quan tâm Đối với nguồn tài nguyên thông tin vô giá trị, việc tận dụng kho liệu để làm sở cho việc hỗ trợ định công tác quản lý mang lại hiệu đáng kể Nhưng vấn đề cần phải phân loại nguồn tài nguyên để sử dụng có hiệu lĩnh vực cụ thể Để tìm thông tin cần tìm nguồn tài nguyên khổng lồ làm sở hỗ trợ định hoạt động thách thức lớn Chính mà phương pháp quản trị khai thác sở liệu truyền thống ngày không đáp ứng nhu cầu thực tế, từ trạng thách thức làm phát triển khuynh hướng kỹ thuật nhằm giải toán này, Kỹ thuật phát tri thức khai phá liệu (Knowledge Discovery and Data Mining) Kỹ thuật phát tri thức khai phá liệu nghiên cứu, ứng dụng rộng rãi nhiều lĩnh vực khác nước giới, Việt Nam kỹ thuật nghiên cứu dần đưa vào ứng dụng Bước quan trọng trình khai phá liệu (Data Mining), giúp người sử dụng thu tri thức hữu ích từ sở liệu (CSDL) nguồn liệu khổng lồ khác để từ làm sở định xử lý liệu thu Rất nhiều tổ chức giới ứng dụng kĩ thuật khai phá liệu vào công tác quản lý thu lợi ích to lớn Để làm điều đó, phát triển mô hình toán học giải thuật hiệu chìa 4Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn khoá quan trọng Vì vậy, luận văn tác giả đề cập tới số kỹ thuật Khai phá liệu định ứng dụng hệ hỗ trợ định Luận văn gồm chương với nội dung sau: Chương 1: Trình bày tổng quan khai phá liệu, khái niệm bản, bước thực hiện, chức năng, kỹ thuật khai phá liệu, ứng dụng khai phá liệu lĩnh vực Chương 2: Trình bày khái niệm định, kiểu định kỹ thuật khai phá liệu định, kỹ thuật cắt tỉa định Chương 3: Trình bày toán định khen thưởng ngành giáo dục, quy trình xét duyệt định khen thưởng, xác định yêu cầu toán, lựa chọn thuật toán để cài đặt xây dựng công cụ hỗ trợ định khen thưởng công tác quản lý thi đua khen thưởng Bộ Giáo dục Đào tạo 5Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Chương KHAI PHÁ DỮ LIỆU 1.1 Khám phá tri thức khai phá liệu Khám phá tri thức (Knowledge Discovery) sở liệu, kho liệu quy trình gồm nhiều công đoạn để nhận biết mẫu mô hình liệu với tính năng: hợp thức, mới, khả ích, hiểu [18] Khai phá liệu việc sử dụng liệu lịch sử để khám phá qui tắc cải thiện định tương lai Khai phá liệu trình phân tích thiết kế thăm dò lượng cực lớn liệu nhằm phát mẫu thích hợp (hoặc) mối quan hệ mang tính hệ thống biến sau hợp thức hoá kết tìm cách áp dụng mẫu phát cho tập liệu Mục đích khai phá liệu là: o Rút trích thông tin hữu ích, chưa biết, mẫu mô hình tiềm ẩn khối liệu lớn dạng quy luật, ràng buột, quy tắc sở liệu o Phân tích liệu bán tự động o Giải thích liệu tập liệu lớn Khai phá liệu bước quy trình khám phá tri thức để hỗ trợ định, dự báo khái quát liệu 1.2 Tại phải khai phá liệu Ước tính năm lượng thông tin giới lại tăng lên khoảng lần Chính vậy, liệu mà người thu thập lưu trữ kho liệu vô lớn, chí lớn đến mức vượt khả kiểm soát,… Cũng lý nhà khoa học đề cập đến việc tổ chức lại liệu cho hiệu 6Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn quả, đáp ứng yêu cầu chất lượng ngày cao nhằm hỗ trợ nhà quản lý định tổ chức quản lý tài chính, thương mại, khoa học, Với lượng liệu tăng nhanh hàng năm, rõ ràng phương pháp thủ công truyền thống áp dụng để phân tích liệu không hiệu quả, tốn dễ dẫn đến sai lệch Do đó, để sử dụng hiệu sở liệu lớn thiết cần phải có kỹ thuật mới, kỹ thuật khai phá liệu nhà khoa học đề cập tới Khai phá liệu lĩnh vực khoa học nhằm tự động hóa khai thác thông tin, tri thức hữu ích, tiềm ẩn CSDL cho tổ chức, doanh nghiệp, Các kết nghiên cứu với ứng dụng thành công khai phá liệu, khám phá tri thức cho thấy khai phá liệu lĩnh vực khoa học tiềm năng, mang lại nhiều lợi ích, đồng thời có ưu hẳn so với công cụ phân tích liệu truyền thống Hiện nay, khai phá liệu ứng dụng rộng rãi lĩnh vực như: Phân tích liệu hỗ trợ định, điều trị y học, tinsinh học, thương mại, tài chính, bảo hiểm, text mining, web mining, 1.3 Quá trình khám phá tri thức Quá trình khám phá tri thức tiến hành qua bước sau: Hình 1.1 Quá trình khám phá tri thức [18] 7Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn - Bước 1: Hình thành định nghĩa toán Đây bước tìm hiểu lĩnh vực ứng dụng hình thành toán, bước định cho việc rút tri thức hữu ích, đồng thời lựa chọn phương pháp khai phá liệu thích hợp với mục đích ứng dụng chất liệu - Bước 2: Thu thập tiền xử lý liệu Trong bước liệu thu thập dạng thô (nguồn liệu thu thập từ kho liệu hay nguồn thông tin khác từ internet) Trong giai đoạn liệu tiền xử lý để biến đổi cải thiện chất lượng liệu cho phù hợp với phương pháp khai phá liệu chọn lựa bước Bước thường chiếm nhiều thời gian trình khám phá tri thức Các giải thuật tiền xử lý liệu bao gồm: Xử lý liệu bị mất/thiếu: dạng liệu bị thiếu thay giá trị thích hợp Khử trùng lặp: đối tượng liệu trùng lặp bị loại bỏ Giảm nhiễu: nhiễu đối tượng tách rời khỏi phân bố chung bị loại khỏi liệu Chuẩn hoá: miền giá trị liệu chuẩn hoá Rời rạc hoá: dạng liệu số biến đổi giá trị rời rạc Rút trích xây dựng đặc trưng từ thuộc tính có Giảm chiều: thuộc tính chứa thông tin loại bỏ bớt - Bước 3: Khai phá liệu rút tri thức Đây bước quan trọng tiến trình khám phá tri thức Kết bước trích mẫu (hoặc) mô hình ẩn liệu Một mô hình biểu diễn cấu trúc tổng thể thành phần hệ thống hay 8Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn hệ thống sở liệu, hay miêu tả cách liệu nảy sinh Còn mẫu cấu trúc cục có liên quan đến vài biến vài trường hợp sở liệu - Bước 4: Phân tích kiểm định kết Bước thứ tư hiểu tri thức tìm được, đặc biệt làm sáng tỏ mô tả dự đoán Trong bước này, kết tìm biến đổi sang dạng phù hợp với lĩnh vực ứng dụng dễ hiểu cho người dùng - Bước 5: Sử dụng tri thức phát Trong bước này, tri thức khám phá củng cố, kết hợp lại thành hệ thống, đồng thời giải xung đột tiềm tri thức Các mô hình rút đưa vào hệ thống thông tin thực tế dạng module hỗ trợ việc đưa định Các giai đoạn trình khám phá tri thức có mối quan hệ chặt chẽ với bối cảnh chung hệ thống Các kỹ thuật sử dụng giai đoạn trước ảnh hưởng đến hiệu giải thuật sử dụng giai đoạn Các bước trình khám phá tri thức lặp lặp lại số lần, kết thu được lấy trung bình tất lần thực 1.4 Trình tự thực trình khai phá liệu Khai phá liệu hoạt động trọng tâm trình khám phá tri thức Thuật ngữ khai phá liệu số nhà khoa học gọi phát tri thức sở liệu (Knowledge discovery in database) (theo Fayyad Smyth Piatestky-Shapiro 1989) Quá trình gồm có bước [1]: 9Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Hình 1.2 Quá trình khai phá liệu Quá trình khai phá liệu bắt đầu với kho liệu thô kết thúc với tri thức chiết xuất Nội dung trình sau: - Gom liệu (gatherin) Tập hợp liệu bước khai phá liệu Bước lấy liệu từ sở liệu, kho liệu, chí liệu từ nguồn cung ứng web - Trích lọc liệu (selection) Ở giai đoạn liệu lựa chọn phân chia theo số tiêu chuẩn - Làm tiền xử lý liệu (cleansing preprocessing) Giai đoạn thứ ba giai đoạn thường bị bỏ quên, thực tế bước quan trọng trình khai phá liệu Một số lỗi thường mắc phải gom liệu liệu không đầy đủ không thống nhất, thiếu chặt chẽ, vô nghĩa (ví dụ như: người có chiều cao = mét điều vô lý), giai đoạn thứ ba nhằm xử lý liệu (dữ liệu vô nghĩa, 10Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read ... Chức Khai phá liệu 10 1.6 Các kỹ thuật khai phá liệu 11 1.7 Các dạng liệu khai phá 13 1.8 Ứng dụng Khai phá liệu 13 1.9 Tổng kết 14 Chương KHAI PHÁ DỮ LIỆU... LIỆU BẰNG CÂY QUYẾT ĐỊNH 15 2.1 Cây định 15 2.1.1 Cây định gì? 15 2.1.2 Một số vấn đề khai phá liệu định 16 2.1.3 Ưu nhược điểm định khai phá liệu 18 2.1.4 Xây dựng định. .. quan khai phá liệu, khái niệm bản, bước thực hiện, chức năng, kỹ thuật khai phá liệu, ứng dụng khai phá liệu lĩnh vực Chương 2: Trình bày khái niệm định, kiểu định kỹ thuật khai phá liệu định,