1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng cây quyết định trong khai phá dữ liệu

57 866 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 57
Dung lượng 1,14 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THANH HUYỀN ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG KHAI PHÁ DỮ LIỆU LUẬN VĂN THẠC SỸ HÀ NỘI – 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THANH HUYỀN ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG KHAI PHÁ DỮ LIỆU Ngành: Chuyên ngành: Mã số: Công nghệ thông tin Hệ thống thông tin 60.48.05 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐOÀN VĂN BAN HÀ NỘI – 2011 iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT v DANH MỤC CÁC BẢNG vi DANH MỤC CÁC HÌNH vii MỞ ĐẦU Chương - TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ LÝ THUYẾT TẬP THÔ 1.1 Giới thiệu khai phá liệu 1.1.1 Khám phá tri thức 1.1.2 Khai phá liệu 1.2 Ứng dụng khai phá liệu 1.3 Một số phương pháp khai phá liệu thông dụng 1.3.1 Phân lớp (Classification) 1.3.2 Phân cụm (Clustering) 1.3.3 Luật kết hợp (Association Rules) 1.4 Lý thuyết tập thô 1.4.1 Hệ thông tin 10 1.4.2 Bảng định 10 1.4.3 Quan hệ không phân biệt 12 1.4.4 Xấp xỉ tập hợp 12 1.5 Kết luận chương 14 Chương 2- CÂY QUYẾT ĐỊNH VÀ CÁC THUẬT TOÁN XÂY DỰNG CÂY QUYẾT ĐỊNH 15 2.1 Tổng quan định 15 2.1.1 Định nghĩa 15 2.1.2 Thiết kế định 16 2.1.3 Phương pháp tổng quát xây dựng định 18 2.1.3 Ứng dụng định khai phá liệu 19 2.2 Thuật toán xây dựng định dựa vào Entropy 20 2.2.1 Tiêu chí chọn thuộc tính phân lớp 20 2.2.2 Thuật toán ID3 21 2.2.3 Ví dụ thuật tốn ID3 23 2.3 Thuật toán xây dựng định dựa vào độ phụ thuộc thuộc tính 28 iv 2.3.1 Độ phụ thuộc thuộc tính theo lý thuyết tập thô 28 2.3.2 Độ phụ thuộc xác  theo lý thuyết tập thơ 28 2.3.3 Tiêu chí chọn thuộc tính để phân lớp 28 2.3.4 Thuật toán xây dựng định ADTDA 29 2.3.5 Ví dụ 30 2.4 Thuật toán xây dựng định dựa vào Entropy độ phụ thuộc thuộc tính 33 2.4.1 Tiêu chí chọn thuộc tính để phân lớp 33 2.4.2 Thuật toán FID3 (Fixed Iterative Dichotomiser [5] ) 34 2.4.3 Ví dụ 35 2.5 Kết luận chương 39 Chương - ỨNG DỤNG KIỂM CHỨNG VÀ ĐÁNH GIÁ 40 3.1 Giới thiệu toán 40 3.2 Giới thiệu sở liệu 40 3.3 Cài đặt ứng dụng 41 3.4 Kết đánh giá thuật toán 42 3.4.1 Mô hình định tương ứng với tập liệu Bank_data 42 3.4.2 Các luật định tương ứng với tập liệu Bank_data 44 3.4.3 Đánh giá thuật toán 44 3.4.4 Ứng dụng định khai phá liệu 45 3.5 Kết luận chương 46 KẾT LUẬN 47 TÀI LIỆU THAM KHẢO 49 v DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT CÁC KÝ HIỆU: S = (U, A) Va IND(B) [ui]p U/B DT=(U,CD) B(X ) Hệ thông tin Tập giá trị thuộc tính a Quan hệ tương đương tập thuộc tính B Lớp tương đương chứa đối tượng ui Phân hoạch U sinh quan hệ IND(B) Bảng định B-Xấp xỉ X B(X ) B-xấp xỉ X POSC (d ) Miền C-khẳng định d |DT| |U| [U]d Tổng số đối tượng DT Lực lượng tập U Phân hoạch U sinh quan hệ IND(d) CÁC CHỮ VIẾT TẮT: ADTDA Algorithm for Buiding Decision Tree Based on Dependency of Attributes FID3 Fixed Iterative Dichotomiser ID3 Iterative Dichotomiser IG Information Gain vi DANH MỤC CÁC BẢNG Bảng Hệ thông tin đơn giản 10 Bảng Một bảng định với C={Age, LEMS} D={Walk} 11 Bảng Dữ liệu huấn luyện 23 Bảng Bảng thuộc tính tập liệu Bank_data 41 Bảng Độ xác thuật tốn 45 vii DANH MỤC CÁC HÌNH Hình Q trình phân lớp liệu – Bước xây dựng mơ hình Hình Quá trình phân lớp liệu – Ước lượng độ xác mơ hình Hình Quá trình phân lớp liệu –Phân lớp liệu Hình Xấp xỉ tập đối tượng Bảng thuộc tính điều kiện Age LEMS 14 Hình Mơ tả chung định 15 Hình Ví dụ Cây định 16 Hình Mơ hình phân lớp mẫu 19 Hình Cây sau chọn thuộc tính Humidity (ID3) 25 Hình Cây sau chọn thuộc tính Outlook (ID3) 26 Hình 10 Cây kết (ID3) 27 Hình 11 Cây sau chọn thuộc tính Humidity (ADTDA) 31 Hình 12 Cây sau chọn thuộc tính Outlook (ADTDA) 32 Hình 13 Cây kết (ADTDA) 33 Hình 14 Cây định sau chọn thuộc tính Humidity (FID3) 36 Hình 15 Cây định sau chọn thuộc tính Windy (FID3) 38 Hình 16 Cây kết (FID3) 39 Hình 17 Dạng định ID3 42 Hình 18 Dạng định ADTDA 42 Hình 19 Dạng định FID3 43 Hình 20 Một số luật định ID3 44 Hình 21 Một số luật định ADTDA 44 Hình 22 Một số luật định FID3 44 Hình 23 Giao diện ứng dụng 46 MỞ ĐẦU  Lý chọn đề tài Trong năm gần Công nghệ thông tin phát triển mạnh mẽ có tiến vượt bậc Cùng với phát triển Công nghệ thông tin bùng nổ thông tin Các thông tin tổ chức theo phương thức sử dụng giấy giao dịch dần số hóa, nhiều tính vượt trội mà phương thức mang lại như: lưu trữ lâu dài, cập nhật, sửa đổi, tìm kiếm cách nhanh chóng Đó lý khiến cho số lượng thơng tin số hóa ngày tăng dần theo cấp số nhân Hiện nay, không lĩnh vực lại không cần đến hỗ trợ công nghệ thông tin thành cơng lĩnh vực phụ thuộc nhiều vào việc nắm bắt thông tin cách nhạy bén, nhanh chóng hữu ích Với nhu cầu sử dụng thao tác thủ cơng truyền thống độ xác khơng cao nhiều thời gian Do việc khai phá tri thức từ liệu tập tài liệu lớn chứa đựng thông tin phục vụ nhu cầu nắm bắt thơng tin có vai trị to lớn Việc khai phá tri thức có từ lâu bùng nổ xảy năm gần Các công cụ thu thập liệu tự động công nghệ sở liệu phát triển dẫn đến vấn đề lượng liệu khổng lồ lưu trữ sở liệu kho thông tin tổ chức, cá nhân Do việc khai phá tri thức từ liệu vấn đề nhận nhiều quan tâm nhà nghiên cứu Một vấn đề quan trọng phổ biến kỹ thuật khai phá liệu phân lớp, ứng dụng rộng rãi thương mại, y tế, công nghiệp Trong năm trước đây, phương pháp phân lớp đề xuất, khơng có phương pháp tiếp cận phân loại cao xác hẳn phương pháp khác Tuy nhiên với phương pháp có lợi bất lợi riêng sử dụng Một công cụ khai phá tri thức hiệu sử dụng định để tìm luật phân lớp Phân lớp sử dụng lý thuyết tập thô, đề xuất Zdzislaw Pawlak vào năm 1982, nghiên cứu rộng rãi năm gần Lý thuyết tập thô cung cấp cho nhiều nhà nghiên cứu phân tích liệu với nhiều kỹ thuật khai phá liệu khái niệm đặc trưng cách sử dụng số kiện Nhiều nhà nghiên cứu sử dụng lý thuyết tập thô ứng dụng phân biệt thuộc tính, giảm số chiều, khám phá tri thức, phân tích liệu thời gian, Đây cơng cụ tốn học áp dụng khai phá liệu dùng để lựa chọn thuộc tính để phân nhánh việc xây dựng cấu trúc định có nhiều cách tiếp cận khác để chọn thuộc tính phân nhánh tối ưu, làm cho có chiều cao nhỏ Chính vậy, luận văn tơi tìm hiểu phương pháp xây dựng định dựa vào tập thô Việc ứng dụng định để khai phá liệu tiếp tục tìm hiểu, nghiên cứu Với mong muốn tìm hiểu nghiên cứu lĩnh vực này, chọn đề tài “Ứng dụng định khai phá liệu” làm luận văn tốt nghiệp  Mục tiêu nghiên cứu Mục đích luận văn nghiên cứu vấn đề lý thuyết tập thô, định thuật tốn xây dựng định hệ thơng tin đầy đủ dựa tập thô; cài đặt đánh giá thuật toán xây dựng định nghiên cứu; bước đầu áp dụng mơ hình định xây dựng vào khai phá liệu (hỗ trợ định vay vốn)  Bố cục luận văn Luận văn gồm chương chính: Chương 1: Tổng quan khai phá tri thức lý thuyết tập thơ Trong chương trình bày tổng quan khai phá liệu lý thuyết tập thơ Chương 2: Cây định thuật tóan xây dựng định Trong chương giới thiệu tổng quan đinh, phương pháp tổng quát xây dựng định ba thuật toán xây dựng định: ID3, ADTDA, FID3 Chương 3: Thực nghiệm đánh giá Phát biểu toán, cài đặt ứng dụng đánh giá Chương - TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ LÝ THUYẾT TẬP THÔ 1.1 Giới thiệu khai phá liệu 1.1.1 Khám phá tri thức Trong thời đại bùng nổ công nghệ thông tin, công nghệ lưu trữ liệu ngày phát triển nhanh chóng tạo điều kiện cho đơn vị thu thập liệu nhiều tốt Đặc biệt lĩnh vực kinh doanh, doanh nghiệp nhận thức tầm quan trọng cuả việc nắm bắt xử lí thơng tin Nó hỗ trợ chủ doanh nghiệp việc đưa chiến lược kinh doanh kịp thời mang lại lợi nhuận to lớn cho doanh nghiệp Tất lí khiến cho quan, đơn vị doanh nghiệp tạo lượng liệu khổng lồ cỡ Gigabyte chí Terabyte cho riêng Các kho liệu ngày lớn tiềm ẩn nhiều thơng tin có ích Sự bùng nổ dẫn tới yêu cầu cấp thiết phải có kĩ thuật cơng cụ để biến kho liệu khổng lồ thành thông tin đọng có ích Khám phá tri thức từ liệu (Knowledge Discovery from Data - KDD) đời kết tất yếu đáp ứng nhu cầu Q trình khám phá tri thức từ liệu thơng thường gồm bước sau [2]-[7]: Bước 1: Xác định vấn đề lựa chọn nguồn liệu (Problem Understanding anh Data Understanding) Trong giai đoạn chuyên gia lĩnh vực cần phải thảo luận với chuyên gia tin học, để xác định mong muốn khám phá gì, thống giải pháp cho trình khám phá liệu (muốn có luật hay muốn phân lớp, phâm cụm liệu…) Đây giai đoạn quan trọng xác định sai vấn đề tồn q trình phá sản, trở nên vơ ích Bước 2: Chuẩn bị liệu (Data preparation) Bao gồm trình sau: - Thu thập liệu (data gathering) ... QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ LÝ THUYẾT TẬP THÔ 1.1 Giới thiệu khai phá liệu 1.1.1 Khám phá tri thức 1.1.2 Khai phá liệu 1.2 Ứng dụng khai phá liệu ... liệu Khai phá liệu bước trình khám phá tri thức từ sở liệu Khai phá liệu bao gồm giai đoạn sau [7]: Giai đoạn 1: Gom liệu (Gathering) Đây bước tập hợp liệu khai thác sở liệu, kho liệu chí liệu. .. 3.4.1 Mơ hình định tương ứng với tập liệu Bank_data 42 3.4.2 Các luật định tương ứng với tập liệu Bank_data 44 3.4.3 Đánh giá thuật toán 44 3.4.4 Ứng dụng định khai phá liệu 45

Ngày đăng: 25/03/2015, 10:23

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Hồ Thuần, Hoàng Thị Lan Giao (2005), “Một thuật toán tìm tập rút gọn sử dụng ma trận phân biệt được”, Chuyên san các công trình nghiên cứu triển khai Viễn thông và CNTT, (15), tr. 83-87 Sách, tạp chí
Tiêu đề: Một thuật toán tìm tập rút gọn sử dụng ma trận phân biệt được”, "Chuyên san các công trình nghiên cứu triển khai Viễn thông và CNTT
Tác giả: Hồ Thuần, Hoàng Thị Lan Giao
Năm: 2005
[2] Nguyễn Thanh Bình (2007), “Ứng dụng cây quyết định trong bài toán phân lớp”, Luận văn thạc sỹ khoa học. Trường đại học Khoa học - Đại học Huế Sách, tạp chí
Tiêu đề: Ứng dụng cây quyết định trong bài toán phân lớp”, "Luận văn thạc sỹ khoa học
Tác giả: Nguyễn Thanh Bình
Năm: 2007
[3] Nguyễn Thanh Tùng (2009), “Một tiêu chuẩn mới chọn nút xây dựng cây quyết định”, Tạp chí Khoa học và Công nghệ, 47(2), tr. 15–25.Tiếng Anh Sách, tạp chí
Tiêu đề: Một tiêu chuẩn mới chọn nút xây dựng cây quyết định”, "Tạp chí Khoa học và Công nghệ
Tác giả: Nguyễn Thanh Tùng
Năm: 2009
[5] Baoshi Ding, Yongqing Zheng, Shaoyu Zang (2009), "A New Decision Tree Algorithm Based on Rough Set Theory", Asia-Pacific Conference on Information Processing, (2), pp. 326-329 Sách, tạp chí
Tiêu đề: A New Decision Tree Algorithm Based on Rough Set Theory
Tác giả: Baoshi Ding, Yongqing Zheng, Shaoyu Zang
Năm: 2009
[6] Cuiru Wang, Fangfang OU (2008), "An Algorithm for Decision Tree Construction Based on Rough Set Theory", International Conference on Computer Science and Information Technology, pp. 295-298 Sách, tạp chí
Tiêu đề: An Algorithm for Decision Tree Construction Based on Rough Set Theory
Tác giả: Cuiru Wang, Fangfang OU
Năm: 2008
[7] Ho Tu Hao, Knowledge Discovery and Dataming Techniques and Practice, http:// www.netnam.vn/unescocourse/knowledge Sách, tạp chí
Tiêu đề: Knowledge Discovery and Dataming Techniques and Practice
[8] Jan Komorowski, Lech Polkowski, Andrzej Skowron, “Rough Sets: A Tutorial”. http://www/folli.loria.fr/cds/1999/library/pdf/skowron.pdf[9]John Ross Quilan (1990), “Decision trees and decision making”, IEEEtransactions on Man and Cybernetics, (20), pp. 339-346 Sách, tạp chí
Tiêu đề: Rough Sets: A Tutorial”. http://www/folli.loria.fr/cds/1999/library/pdf/skowron.pdf [9] John Ross Quilan (1990), “Decision trees and decision making”, "IEEE "transactions on Man and Cybernetics
Tác giả: Jan Komorowski, Lech Polkowski, Andrzej Skowron, “Rough Sets: A Tutorial”. http://www/folli.loria.fr/cds/1999/library/pdf/skowron.pdf[9]John Ross Quilan
Năm: 1990
[11] Ramadevi Yellasiri, C.R.Rao, Vivekchan Reddy (2007), “Decision Tree Induction Using Rough Set Theory – Comparative Study”, Journal of Theoretical and Applied Information Technology, pp. 110-114 Sách, tạp chí
Tiêu đề: Decision Tree Induction Using Rough Set Theory – Comparative Study”, "Journal of Theoretical and Applied Information Technology
Tác giả: Ramadevi Yellasiri, C.R.Rao, Vivekchan Reddy
Năm: 2007
[12] Sang Wook Han, Jae Yearn Kim (2007), "Rough Set-based Decision Tree using the Core Attributes Concept", Second International Conference on Innovative Computing Information and Control, pp. 298 - 301 Sách, tạp chí
Tiêu đề: Rough Set-based Decision Tree using the Core Attributes Concept
Tác giả: Sang Wook Han, Jae Yearn Kim
Năm: 2007
[13] Weijun Wen (2009), “A New Method for Constructing Decision Tree Based on Rough Set Theory”, Proceedings of the International Symposium on Intelligent Information Systems and Applications Qingdao China, pp. 416-419 Sách, tạp chí
Tiêu đề: A New Method for Constructing Decision Tree Based on Rough Set Theory”, "Proceedings of the International Symposium on Intelligent Information Systems and Applications Qingdao China
Tác giả: Weijun Wen
Năm: 2009
[14] Z. Pawlak (1998) - Rough Set Theory and Its Application to Data Analysis, Cybernetics and Systems: An International Journal 29, pp.661-688 Sách, tạp chí
Tiêu đề: Cybernetics and Systems: An International Journal 29
[10] Longjun Huang, Minghe Huang, Bin Guo, Zhimming Zhang (2007), "A New Method for Constructing Decision Tree Based on Rough Set Khác

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w