Ứng dụng cây quyết định trong khai phá dữ liệu

57 63 0
Ứng dụng cây quyết định trong khai phá dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THANH HUYỀN ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG KHAI PHÁ DỮ LIỆU LUẬN VĂN THẠC SỸ HÀ NỘI – 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THANH HUYỀN ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG KHAI PHÁ DỮ LIỆU Ngành: Chuyên ngành: Mã số: Công nghệ thông tin Hệ thống thông tin 60.48.05 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐOÀN VĂN BAN HÀ NỘI – 2011 iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT v DANH MỤC CÁC BẢNG vi DANH MỤC CÁC HÌNH vii MỞ ĐẦU Chương - TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ LÝ THUYẾT TẬP THÔ 1.1 Giới thiệu khai phá liệu 1.1.1 Khám phá tri thức 1.1.2 Khai phá liệu 1.2 Ứng dụng khai phá liệu 1.3 Một số phương pháp khai phá liệu thông dụng 1.3.1 Phân lớp (Classification) 1.3.2 Phân cụm (Clustering) 1.3.3 Luật kết hợp (Association Rules) 1.4 Lý thuyết tập thô 1.4.1 Hệ thông tin 10 1.4.2 Bảng định 10 1.4.3 Quan hệ không phân biệt 12 1.4.4 Xấp xỉ tập hợp 12 1.5 Kết luận chương 14 Chương 2- CÂY QUYẾT ĐỊNH VÀ CÁC THUẬT TOÁN XÂY DỰNG CÂY QUYẾT ĐỊNH 15 2.1 Tổng quan định 15 2.1.1 Định nghĩa 15 2.1.2 Thiết kế định 16 2.1.3 Phương pháp tổng quát xây dựng định 18 2.1.3 Ứng dụng định khai phá liệu 19 2.2 Thuật toán xây dựng định dựa vào Entropy 20 2.2.1 Tiêu chí chọn thuộc tính phân lớp 20 2.2.2 Thuật toán ID3 21 2.2.3 Ví dụ thuật tốn ID3 23 2.3 Thuật toán xây dựng định dựa vào độ phụ thuộc thuộc tính 28 iv 2.3.1 Độ phụ thuộc thuộc tính theo lý thuyết tập thô 28 2.3.2 Độ phụ thuộc xác  theo lý thuyết tập thơ 28 2.3.3 Tiêu chí chọn thuộc tính để phân lớp 28 2.3.4 Thuật toán xây dựng định ADTDA 29 2.3.5 Ví dụ 30 2.4 Thuật toán xây dựng định dựa vào Entropy độ phụ thuộc thuộc tính 33 2.4.1 Tiêu chí chọn thuộc tính để phân lớp 33 2.4.2 Thuật toán FID3 (Fixed Iterative Dichotomiser [5] ) 34 2.4.3 Ví dụ 35 2.5 Kết luận chương 39 Chương - ỨNG DỤNG KIỂM CHỨNG VÀ ĐÁNH GIÁ 40 3.1 Giới thiệu toán 40 3.2 Giới thiệu sở liệu 40 3.3 Cài đặt ứng dụng 41 3.4 Kết đánh giá thuật toán 42 3.4.1 Mô hình định tương ứng với tập liệu Bank_data 42 3.4.2 Các luật định tương ứng với tập liệu Bank_data 44 3.4.3 Đánh giá thuật toán 44 3.4.4 Ứng dụng định khai phá liệu 45 3.5 Kết luận chương 46 KẾT LUẬN 47 TÀI LIỆU THAM KHẢO 49 v DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT CÁC KÝ HIỆU: S = (U, A) Va IND(B) [ui]p U/B DT=(U,CD) B(X ) Hệ thông tin Tập giá trị thuộc tính a Quan hệ tương đương tập thuộc tính B Lớp tương đương chứa đối tượng ui Phân hoạch U sinh quan hệ IND(B) Bảng định B-Xấp xỉ X B(X ) B-xấp xỉ X POSC (d ) Miền C-khẳng định d |DT| |U| [U]d Tổng số đối tượng DT Lực lượng tập U Phân hoạch U sinh quan hệ IND(d) CÁC CHỮ VIẾT TẮT: ADTDA Algorithm for Buiding Decision Tree Based on Dependency of Attributes FID3 Fixed Iterative Dichotomiser ID3 Iterative Dichotomiser IG Information Gain vi DANH MỤC CÁC BẢNG Bảng Hệ thông tin đơn giản 10 Bảng Một bảng định với C={Age, LEMS} D={Walk} 11 Bảng Dữ liệu huấn luyện 23 Bảng Bảng thuộc tính tập liệu Bank_data 41 Bảng Độ xác thuật tốn 45 vii DANH MỤC CÁC HÌNH Hình Q trình phân lớp liệu – Bước xây dựng mơ hình Hình Quá trình phân lớp liệu – Ước lượng độ xác mơ hình Hình Quá trình phân lớp liệu –Phân lớp liệu Hình Xấp xỉ tập đối tượng Bảng thuộc tính điều kiện Age LEMS 14 Hình Mơ tả chung định 15 Hình Ví dụ Cây định 16 Hình Mơ hình phân lớp mẫu 19 Hình Cây sau chọn thuộc tính Humidity (ID3) 25 Hình Cây sau chọn thuộc tính Outlook (ID3) 26 Hình 10 Cây kết (ID3) 27 Hình 11 Cây sau chọn thuộc tính Humidity (ADTDA) 31 Hình 12 Cây sau chọn thuộc tính Outlook (ADTDA) 32 Hình 13 Cây kết (ADTDA) 33 Hình 14 Cây định sau chọn thuộc tính Humidity (FID3) 36 Hình 15 Cây định sau chọn thuộc tính Windy (FID3) 38 Hình 16 Cây kết (FID3) 39 Hình 17 Dạng định ID3 42 Hình 18 Dạng định ADTDA 42 Hình 19 Dạng định FID3 43 Hình 20 Một số luật định ID3 44 Hình 21 Một số luật định ADTDA 44 Hình 22 Một số luật định FID3 44 Hình 23 Giao diện ứng dụng 46 MỞ ĐẦU  Lý chọn đề tài Trong năm gần Công nghệ thông tin phát triển mạnh mẽ có tiến vượt bậc Cùng với phát triển Công nghệ thông tin bùng nổ thông tin Các thông tin tổ chức theo phương thức sử dụng giấy giao dịch dần số hóa, nhiều tính vượt trội mà phương thức mang lại như: lưu trữ lâu dài, cập nhật, sửa đổi, tìm kiếm cách nhanh chóng Đó lý khiến cho số lượng thơng tin số hóa ngày tăng dần theo cấp số nhân Hiện nay, không lĩnh vực lại không cần đến hỗ trợ công nghệ thông tin thành cơng lĩnh vực phụ thuộc nhiều vào việc nắm bắt thông tin cách nhạy bén, nhanh chóng hữu ích Với nhu cầu sử dụng thao tác thủ cơng truyền thống độ xác khơng cao nhiều thời gian Do việc khai phá tri thức từ liệu tập tài liệu lớn chứa đựng thông tin phục vụ nhu cầu nắm bắt thơng tin có vai trị to lớn Việc khai phá tri thức có từ lâu bùng nổ xảy năm gần Các công cụ thu thập liệu tự động công nghệ sở liệu phát triển dẫn đến vấn đề lượng liệu khổng lồ lưu trữ sở liệu kho thông tin tổ chức, cá nhân Do việc khai phá tri thức từ liệu vấn đề nhận nhiều quan tâm nhà nghiên cứu Một vấn đề quan trọng phổ biến kỹ thuật khai phá liệu phân lớp, ứng dụng rộng rãi thương mại, y tế, công nghiệp Trong năm trước đây, phương pháp phân lớp đề xuất, khơng có phương pháp tiếp cận phân loại cao xác hẳn phương pháp khác Tuy nhiên với phương pháp có lợi bất lợi riêng sử dụng Một công cụ khai phá tri thức hiệu sử dụng định để tìm luật phân lớp Phân lớp sử dụng lý thuyết tập thô, đề xuất Zdzislaw Pawlak vào năm 1982, nghiên cứu rộng rãi năm gần Lý thuyết tập thô cung cấp cho nhiều nhà nghiên cứu phân tích liệu với nhiều kỹ thuật khai phá liệu khái niệm đặc trưng cách sử dụng số kiện Nhiều nhà nghiên cứu sử dụng lý thuyết tập thô ứng dụng phân biệt thuộc tính, giảm số chiều, khám phá tri thức, phân tích liệu thời gian, Đây cơng cụ tốn học áp dụng khai phá liệu dùng để lựa chọn thuộc tính để phân nhánh việc xây dựng cấu trúc định có nhiều cách tiếp cận khác để chọn thuộc tính phân nhánh tối ưu, làm cho có chiều cao nhỏ Chính vậy, luận văn tơi tìm hiểu phương pháp xây dựng định dựa vào tập thô Việc ứng dụng định để khai phá liệu tiếp tục tìm hiểu, nghiên cứu Với mong muốn tìm hiểu nghiên cứu lĩnh vực này, chọn đề tài “Ứng dụng định khai phá liệu” làm luận văn tốt nghiệp  Mục tiêu nghiên cứu Mục đích luận văn nghiên cứu vấn đề lý thuyết tập thô, định thuật tốn xây dựng định hệ thơng tin đầy đủ dựa tập thô; cài đặt đánh giá thuật toán xây dựng định nghiên cứu; bước đầu áp dụng mơ hình định xây dựng vào khai phá liệu (hỗ trợ định vay vốn)  Bố cục luận văn Luận văn gồm chương chính: Chương 1: Tổng quan khai phá tri thức lý thuyết tập thơ Trong chương trình bày tổng quan khai phá liệu lý thuyết tập thơ Chương 2: Cây định thuật tóan xây dựng định Trong chương giới thiệu tổng quan đinh, phương pháp tổng quát xây dựng định ba thuật toán xây dựng định: ID3, ADTDA, FID3 Chương 3: Thực nghiệm đánh giá Phát biểu toán, cài đặt ứng dụng đánh giá Chương - TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ LÝ THUYẾT TẬP THÔ 1.1 Giới thiệu khai phá liệu 1.1.1 Khám phá tri thức Trong thời đại bùng nổ công nghệ thông tin, công nghệ lưu trữ liệu ngày phát triển nhanh chóng tạo điều kiện cho đơn vị thu thập liệu nhiều tốt Đặc biệt lĩnh vực kinh doanh, doanh nghiệp nhận thức tầm quan trọng cuả việc nắm bắt xử lí thơng tin Nó hỗ trợ chủ doanh nghiệp việc đưa chiến lược kinh doanh kịp thời mang lại lợi nhuận to lớn cho doanh nghiệp Tất lí khiến cho quan, đơn vị doanh nghiệp tạo lượng liệu khổng lồ cỡ Gigabyte chí Terabyte cho riêng Các kho liệu ngày lớn tiềm ẩn nhiều thơng tin có ích Sự bùng nổ dẫn tới yêu cầu cấp thiết phải có kĩ thuật cơng cụ để biến kho liệu khổng lồ thành thông tin đọng có ích Khám phá tri thức từ liệu (Knowledge Discovery from Data - KDD) đời kết tất yếu đáp ứng nhu cầu Q trình khám phá tri thức từ liệu thơng thường gồm bước sau [2]-[7]: Bước 1: Xác định vấn đề lựa chọn nguồn liệu (Problem Understanding anh Data Understanding) Trong giai đoạn chuyên gia lĩnh vực cần phải thảo luận với chuyên gia tin học, để xác định mong muốn khám phá gì, thống giải pháp cho trình khám phá liệu (muốn có luật hay muốn phân lớp, phâm cụm liệu…) Đây giai đoạn quan trọng xác định sai vấn đề tồn q trình phá sản, trở nên vơ ích Bước 2: Chuẩn bị liệu (Data preparation) Bao gồm trình sau: - Thu thập liệu (data gathering) 36 Nên thuộc tính C’ = {Temp, Humidity} Ta tính IGfix(U,Temp) IGfix(U, Humidity) : Trong thuật toán ID3 ta có: IG(U, Temp)= 0.148 IG(U, Humidity)= 0.323 Do đó: IGfix(U,Temp) =  (Temp, d ) * IG(U , Temp) | Temp | IGfix(U,Humidity) =  ( Humidity , d ) * =  0.148 *  0.064 12 IG(U , Humidity ) | Temp | 0.323 *  0.134 12 Ta thấy IGfix(U,Humidity) có giá trị lớn nên ta chọn thuộc tính “Humidity” làm thuộc tính phân chia Tương tự thuật tốn ID3, ta có sau: TRUE U={1, 2, …., 12} high FID3(U1, C-{humidity}, {d}) U1={1, 2, 3, 6, 7, 12} low TRUE {5, } Normal FID3(U2, C-{humidity}, {d}) U2={4, 8, 10, 11} Hình 14 Cây định sau chọn thuộc tính Humidity (FID3)  Bước gọi thuật toán đệ quy: FID3(U1, C-{Humidity}, {d})  Theo thuật tốn ADTDA ta có: [U1]d = {{1}, {2, 3, 6, 7, 12}  [U1]Outlook= {{1}, {2, 3}, {6, 7, 12}} Do đó,  (Outlook , d )  | posOutlook (d ) | | {1,2,3,6,7,12} |   1 | U1 | | U1 |  [U1]windy = {{1}, {2, 3, 6, 7, 12} 37  ( windy , d )  | pos windy (d ) | | U1 |  | {1,2,3,6,7,12} |  1 | U1 |  [U1]Temp={{1}, {2, 6}, {3, 7, 12}}  (Temp, d )  | posTemp (d ) | | U1 |  | {1,2,3,6,7,12} |  1 | U1 |  Theo thuật toán ID3 ta có: IG(U1, Windy) = 0.65 IG(U1, Outlook) = 0.65 IG(U1, Temp) = 0.65 Vậy:  IGfix(U1, Windy)=  (Windy , d ) * IG(U ,Windy ) 0.65  1*  0.57 | Windy |  IGfix(U1, Outlook)=  (Outlook , d ) *  IGfix(U1, Temp)=  (Temp, d ) * IG(U , Outlook ) 0.65  1*  0.465 | Outlook | IG(U , Temp) 0.65  1*  0.465 | Temp | Ta thấy IGfix(U1, Windy) có giá trị lớn nên thuộc tính “Windy” chọn làm thuộc tính phân chia Do đó, thuộc tính “Windy” làm nhãn cho nút bên trái nối với nhánh “high” Thuộc tính có hai giá trị “true” “false” nên ta tiếp tục tạo thành hai nhánh “true” “false”:  Với nhánh “true” gồm mẫu {1} có giá trị định “Y” nên ta tạo nút “Y”  Với nhánh “false” gồm năm mẫu {2, 3, 6, 7, 12} có giá trị định “N” nên tạo nút “N” Sau thực xong thuật toán đệ quy: FID3(U1, C-{Humidity}, {d}), ta có sau: 38 Humidity {1, 2,…, 12} high low windy {1, 2, 3, 6, 7, 12} TRUE {5, } true Normal FID3(U2, C-{humidity}, {d}) {4, 8, 10 , 11} false TRUE {1 } FALSE {2, 3, 6, 7, 12 } Hình 15 Cây định sau chọn thuộc tính Windy (FID3)  Bước gọi thuật toán đệ quy: FID3(U2, C-{Humidity}, {d})  Theo thuật tốn ADTDA ta có: [U2]d= {{10}, {4, 8, 11}}  [U2]Outlook = {{4}, {8, 10, 11}} Do đó,  (Outlook , d )  | posOutlook (d ) | | {4} |   |U2 | |U2 |  [U2]windy = {{4, 8, 10}, {11}  ( windy , d )  | pos windy (d ) | |U2 |  | {11} |  |U2 |  [U2]Temp={{4, 8, 11}, {10}}  (Temp, d )  | posTemp (d ) | |U2 |  | {4,8,10,11} |  1 |U2 |  Theo thuật tốn ID3 ta có:  IG(U2, Outlook) =0.123  IG(U2, Windy) = 0.123  IG(U2, Temp) = 0.811 Vậy:  IGfix(U2, Windy)=  (Windy , d ) * IG(U ,Windy ) 0.123  *  0.124 | Windy |  IGfix(U2, Outlook)=  (Outlook , d ) * IG(U , Outlook ) 0.1235  *  0.101 | Outlook | 39  IGfix(U2, Temp)=  (Temp, d ) * IG(U , Temp) 0.811  1*  0.519 | Temp | Ta thấy số IGfix(U2,Temp) lớn nhất, nên chọn để phân chia Tương tự thuật tốn ID3 ta có cuối sau: Humidity {1, 2,…, 12} high low windy {1, 2, 3, 6, 7, 12} Normal TRUE {5, } true false TRUE {1 } FALSE {2, 3, 6, 7, 12 } temp {4, 8, 10 , 11} hot FALSE {4, 8, 11} mild TRUE {10 } Hình 16 Cây kết (FID3) 2.5 Kết luận chương Trong chương trình bày phương pháp tổng quát xây dựng định; ba thuật toán xây dựng định ID3, ADTDA, FID3; ví dụ cụ thể để minh họa bước thuật toán; 40 Chương - ỨNG DỤNG KIỂM CHỨNG VÀ ĐÁNH GIÁ 3.1 Giới thiệu toán Chúng ta sống giới thừa thơng tin thiếu tri thức – nhận định nhiều người thời đại bùng nổ thông tin Sử dụng phương pháp khai phá tri thức từ liệu để dự đoán rủi ro tín dụng phương pháp nhằm nâng cao chất lượng tín dụng Ngân hàng Rủi ro tín dụng hiểu nguy người vay trả gốc và/hoặc lãi thời hạn quy định Hiện nay, để phòng ngừa rủi ro tín dụng, chuyên gia Ngân hàng thực phương pháp thu thập, phân tích đánh giá thông tin khách hàng, tài sản bảo đảm khoản vay… Phương pháp truyền thống có nhiều hạn chế phụ thuộc vào trình độ, tâm lý yếu tố chủ quan khác cán thẩm định hồ sơ vay nợ khách hàng Chính mà cơng cụ trợ giúp thẩm định ước đốn chất lượng tín dụng cách khách quan dựa sở khoa học có ý nghĩa cần thiết Việc đề xuất cho vay hay không dựa vào luật định (phân lớp) xây dựng thông qua định nghiên cứu Nhờ luật định hỗ trợ cán tín dụng có định cho khách hàng vay hay không Trong phạm vi luận văn tập trung nghiên cứu cơng tác tín dụng tiêu dùng khách hàng với tập liệu Bank_data Dựa vào tập Bank_data xây dựng mơ hình định, từ định rút luật định Dựa vào luật định ta phân lớp tập liệu (dữ liệu khách hàng xin vay tiêu dùng, chưa phân lớp) tập liệu sau phân lớp hỗ trợ cho cán tín dụng định cho khách hàng vay hay không 3.2 Giới thiệu sở liệu Trong q trình thử nghiệm, tơi sử dụng tập liệu Bank_data trích từ sở liệu sưu tầm giáo sư Bamshad Mobasher Khoa “School of Computing, College of Computing and Digital Media” đại học “DePaul University” Mỹ (http://maya.cs.depaul.edu/classes/ect584/WEKA/data/ bank-data.csv) Tập liệu gồm 600 đối tượng, sau tiền sử lí với phần 41 mềm Weka lưu dạng file excel ta có tập liệu gồm 600 đối tượng, 10 thuộc tính điều kiện thuộc tính định “result” định khách hàng vay khơng vay Các thuộc tính giá trị thuộc tính tập liệu Bank_data mơ tả bảng sau: Thứ Tên tự thuộc tính Giá trị Giải thích Tre, Trung nien, Gia Trẻ, trung niên, già Gioi_tinh Nam, Nu Nam, Nữ Khu_vuc NT, TTran, Ngoai o, TP Nông thôn, Thị trấn, ngoại ô, thành phố Thu_nhap Thap, TB, Cao Thấp, trung bình, cao Ket_hon C, K Có, khơng Con 0_Con, 1_con, 2_con, 3_con Không con, con, hai con, ba Xe C, K Có, khơng TKTK (tài khoản tiết kiệm) C, K Có, khơng TK_Htai (tài khoản tại) C, K Có, khơng 10 The_chap C, K Có, khơng 11 RESULT (Cho vay) True, false Có (True), không (False) Tuoi Bảng Bảng thuộc tính tập liệu Bank_data 3.3 Cài đặt ứng dụng Ứng dụng viết môi trường Visual Studio 2008, viết ngơn ngữ lập trình Visal Basic Ứng dụng tập trung vào xây dựng đánh giá độ xác thuật tốn trình bày chương Từ định hay luật định rút từ định hỗ trợ cho cán tín dụng ngân hàng định cho khách hàng vay hay không 42 3.4 Kết đánh giá thuật tốn 3.4.1 Mơ hình định tương ứng với tập liệu Bank_data  Cây định ứng với thuật tốn ID3 Hình 17 Dạng định ID3  Cây định ứng với thuật tốn ADTDA Hình 18 Dạng định ADTDA 43  Cây định ứng với thuật tốn FID3 Trong q trình thực nghiệm tác giả thấy thuật toán FID3 áp dụng sở liệu lớn độ phục thuộc thuộc tính điều kiền vào thuộc tính định (ở bước xây dựng định) Do đó, lượng thơng tin thu thêm ổn định IG fix thuộc tính điều kiện Trong trường hợp thuật tốn chọn thuộc tính (thuộc tính đầu tiên) làm thuộc tính phân chia, định khơng tối ưu Vì vậy, tác giả mạnh dạn cải tiến dựa theo thuật tốn ADTDA, tất các độ phụ thuộc thuộc tính điều kiện vào thuộc tính định 0, lượng thơng tin thu ổn định IG fix tính dựa vào độ phụ thuộc xác , tức là: IG fix (U , c)    (d , c) * IG(U , c) |c| Và định thuật toán FID3 sở liệu Bank_data sau: Hình 19 Dạng định FID3 44 3.4.2 Các luật định tương ứng với tập liệu Bank_data  Các luật định ứng với định ID3 Hình 20 Một số luật định ID3  Các luật định ứng với định ADTDA Hình 21 Một số luật định ADTDA  Các luật định ứng với định FID3 Hình 22 Một số luật định FID3 3.4.3 Đánh giá thuật toán Đánh giá độ xác thuật tốn với số nếp gấp (fold) 10 liệu tennis (Bảng 3) liệu Bank_data, ta kết sau: 45 Dữ liệu Số mẫu Số thuộc ID3 ADTDA FID3 tính Bank_data 600 11 77.33% 78.57% 80.71% Tennis 12 80% 80% 80% 78.67% 79.29% 80.36% Trung bình Bảng Độ xác thuật tốn 3.4.4 Ứng dụng định khai phá liệu Ứng dụng hỗ trợ ngân hàng định cho khách hàng vay hay không Với tin khách hàng xin vay (đã biết giá trị thuộc tính điều kiện chưa phân lớp) dựa vào mơ hình định xây dựng ta dự đoán lớp liệu (cho vay hay khơng cho vay) Từ hỗ trợ cho cán ngân hàng trình định cho vay hay không Trong ứng dụng, xây dựng mơ hình định có đánh giá độ xác luật định dựa liệu đưa vào để training Do đó, việc phân lớp mẫu liệu đưa độ tin cậy việc phân lớp Ví dụ đánh giá độ xác luật dựa liệu training 90% Quá trình phân lớp mẫu liệu dựa vào luật 9, độ tin cậy lớp 90% Độ tin cậy luật định phụ thuộc lớn vào liệu training, liệu training đủ lớn độ tin cậy luật cao Tuy nhiên, ứng dụng việc xây dựng định dựa liệu training gồm 600 liệu, độ tin cậy luật mang tính chất minh họa (tính xác khơng cao) 46 Hình 23 Giao diện ứng dụng 3.5 Kết luận chương Trong chương phát biểu toán để kiểm chứng thuật toán xây dựng định chương liệu mẫu Bank_data Đồng thời cài đặt, đánh giá độ xác thuật tốn đánh giá độ xác luật Dựa vào mơ hình định (các luật định) xây dựng, phân lớp mẫu liệu 47 KẾT LUẬN Khai phá liệu lĩnh vực đã, luôn thu hút nhà nghiên cứu lĩnh vực cho phép phát tri thức sở liệu khổng lồ phương thức thông minh Nghiên cứu lĩnh vực đòi hỏi người nghiên cứu phải biết tổng hợp kết nghiên cứu nhiều lĩnh vực khoa học máy tính việc ứng dụng nhiệm vụ khai phá liệu Qua hai năm học tập, tìm tịi, nghiên cứu, đặc biệt khoảng thời gian làm luận văn, tác giả hoàn thiện luận văn với mục tiêu đặt ban đầu Cụ thể luận văn đạt kết sau: - Trình bày kiến thức khai phá liệu; hệ thống hóa kiến thức lý thuyết tập thô áp dụng để xây dựng định - Giới thiệu phương pháp tổng quát xây dựng định, trình bày ba thuật tốn xây dựng định ID3, ADTDA, FID3 số ví dụ minh họa cho phương pháp xây dựng định trình bày - Cài đặt Visual Basic ba thuật toán xây dựng định ID3, ADTDA, FID3 sở liệu mẫu Bank_data Đánh giá độ xác thuật tốn đánh giá độ xác luật mơ hình định Qua q trình học tập, nghiên cứu tác giả khơng tích lũy thêm kiến thức mà nâng cao khả lập trình, phát triển ứng dụng Tác giả nhận thấy luận văn giải tốt nội dung, u cầu nghiên cứu đặt ra, có ví dụ minh họa cụ thể Song thời gian có hạn nên luận văn tồn số thiếu sót, số vấn đề mà tác giả cịn phải tiếp tục nghiên cứu, tìm hiểu Hướng phát triển đề tài là: Về lý thuyết: - Cần tiếp tục nghiên cứu thuật toán khai phá liệu định dựa vào tâp thơ như: thuật tốn ADTCCC (dựa vào CORE đại 48 lượng đóng góp phân lớp thuộc tính), thuật tốn ADTNDA (dựa vào độ phụ thuộc thuộc tính), … - Nghiên cứu phương pháp xây dựng định hệ thống thong tin không đầy đủ, liệu liên tục khơng chắn Về chương trình demo: - Cần bổ sung thêm liệu cho tập training để mơ hình định có độ tin cậy cao hoạt động hiệu - Cần tiếp tục phát triển hoàn thiện theo hướng trở thành phần mềm khai phá liệu tín dụng tiêu dùng nhằm hỗ trợ cho cán tín dụng đưa định cho khách hàng vay hay khơng - Tìm hiểu nhu cầu thực tế để từ cải tiến chương trình, cài đặt lại tốn theo thuật toán nghiên cứu để làm việc tốt với sở liệu lớn có sản phẩm thị trường 49 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hồ Thuần, Hoàng Thị Lan Giao (2005), “Một thuật tốn tìm tập rút gọn sử dụng ma trận phân biệt được”, Chun san cơng trình nghiên cứu triển khai Viễn thông CNTT, (15), tr 83-87 [2] Nguyễn Thanh Bình (2007), “Ứng dụng định toán phân lớp”, Luận văn thạc sỹ khoa học Trường đại học Khoa học - Đại học Huế [3] Nguyễn Thanh Tùng (2009), “Một tiêu chuẩn chọn nút xây dựng định”, Tạp chí Khoa học Công nghệ, 47(2), tr 15–25 Tiếng Anh [4] Andrzej Skowron, Ning Zhong (2000), “Rough Sets in KDD”, Tutorial Notes [5] Baoshi Ding, Yongqing Zheng, Shaoyu Zang (2009), "A New Decision Tree Algorithm Based on Rough Set Theory", Asia-Pacific Conference on Information Processing, (2), pp 326-329 [6] Cuiru Wang, Fangfang OU (2008), "An Algorithm for Decision Tree Construction Based on Rough Set Theory", International Conference on Computer Science and Information Technology, pp 295-298 [7] Ho Tu Hao, Knowledge Discovery and Dataming Techniques and Practice, http:// www.netnam.vn/unescocourse/knowledge [8] Jan Komorowski, Lech Polkowski, Andrzej Skowron, “Rough Sets: A Tutorial” http://www/folli.loria.fr/cds/1999/library/pdf/skowron.pdf [9] John Ross Quilan (1990), “Decision trees and decision making”, IEEE transactions on Man and Cybernetics, (20), pp 339-346 [10] Longjun Huang, Minghe Huang, Bin Guo, Zhimming Zhang (2007), "A New Method for Constructing Decision Tree Based on Rough Set 50 Theory", IEEE International Conference on Granular Computing, pp 241- 244 [11] Ramadevi Yellasiri, C.R.Rao, Vivekchan Reddy (2007), “Decision Tree Induction Using Rough Set Theory – Comparative Study”, Journal of Theoretical and Applied Information Technology, pp 110-114 [12] Sang Wook Han, Jae Yearn Kim (2007), "Rough Set-based Decision Tree using the Core Attributes Concept", Second International Conference on Innovative Computing Information and Control, pp 298 - 301 [13] Weijun Wen (2009), “A New Method for Constructing Decision Tree Based on Rough Set Theory”, Proceedings of the International Symposium on Intelligent Information Systems and Applications Qingdao China, pp 416-419 [14] Z Pawlak (1998) - Rough Set Theory and Its Application to Data Analysis, Cybernetics and Systems: An International Journal 29, pp 661-688 ... QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ LÝ THUYẾT TẬP THÔ 1.1 Giới thiệu khai phá liệu 1.1.1 Khám phá tri thức 1.1.2 Khai phá liệu 1.2 Ứng dụng khai phá liệu ... luyện 2.1.3 Ứng dụng định khai phá liệu Sau xây dựng thành công định ta sử dụng kết từ mơ hình định Đây bước sử dụng mơ hình để phân lớp liệu rút tri thức phương pháp khai phá liệu phương pháp phân... liệu Khai phá liệu bước trình khám phá tri thức từ sở liệu Khai phá liệu bao gồm giai đoạn sau [7]: Giai đoạn 1: Gom liệu (Gathering) Đây bước tập hợp liệu khai thác sở liệu, kho liệu chí liệu

Ngày đăng: 16/03/2021, 12:30

Từ khóa liên quan

Mục lục

  • MỤC LỤC

  • DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

  • DANH MỤC CÁC BẢNG

  • DANH MỤC CÁC HÌNH

  • MỞ ĐẦU

  • 1.1. Giới thiệu về khai phá dữ liệu

  • 1.1.1 Khám phá tri thức

  • 1.1.2. Khai phá dữ liệu

  • 1.2. Ứng dụng của khai phá dữ liệu

  • 1.3. Một số phương pháp khai phá dữ liệu thông dụng

  • 1.3.1. Phân lớp (Classification)

  • 1.3.2. Phân cụm (Clustering)

  • 1.3.3. Luật kết hợp (Association Rules)

  • 1.4. Lý thuyết tập thô

  • 1.4.1. Hệ thông tin

  • 1.4.2. Bảng quyết định

  • 1.4.3. Quan hệ không phân biệt được

  • 1.4.4. Xấp xỉ tập hợp

  • 1.5. Kết luận chương 1

  • 2.1. Tổng quan về cây quyết định

Tài liệu cùng người dùng

Tài liệu liên quan