Khai phá dữ liệu dựa trên bảng quyết định nhờ lý thuyết tập thô

53 9 0
Khai phá dữ liệu dựa trên bảng quyết định nhờ lý thuyết tập thô

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ HOÀNG THỊ KIM OANH KHAI PHÁ DỮ LIỆU DỰA TRÊN BẢNG QUYẾT ĐỊNH NHỜ LÝ THUYẾT TẬP THÔ LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ HỒNG THỊ KIM OANH KHAI PHÁ DỮ LIỆU DỰA TRÊN BẢNG QUYẾT ĐỊNH NHỜ LÝ THUYẾT TẬP THÔ Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: GS.TS VŨ ĐỨC THI Hà Nội - 2014 LỜI CẢM ƠN Trước tiên, xin gửi lời cảm ơn chân thành tới GS.TS Vũ Đức Thi, Viện Công nghệ thông tin – Đại học Quốc gia Hà Nội tận tình hướng dẫn, định hướng, đóng góp ý kiến quý báu cho tơi q trình thực luận văn Tôi xin chân thành cảm ơn Thầy, Cô giáo Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội tận tình giảng dạy truyền thụ cho kiến thức quý báu suốt q trình học tập trường Đồng thời, tơi xin cảm ơn gia đình, bạn bè, người ln khuyến khích giúp đỡ tơi hồn cảnh khó khăn Tơi xin cảm ơn quan đồng nghiệp tạo điều kiện cho suốt trình học tập làm luận văn Hà Nội, ngày tháng năm 2014 Học viên Hồng Thị Kim Oanh LỜI CAM ĐOAN Tơi xin cam đoan kiến thức trình bày luận văn tơi tìm hiểu, nghiên cứu trình bày lại theo cách hiểu tơi Trong q trình làm luận văn tơi có tham khảo tài liệu có liên quan ghi rõ nguồn tài liệu tham khảo Phần lớn kiến thức tơi trình bày luận văn chưa trình bày hồn chỉnh tài liệu Hà Nội, ngày tháng năm 2014 Học viên Hoàng Thị Kim Oanh MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC THUẬT NGỮ DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU Chƣơng KHAI PHÁ DỮ LIỆU THEO TIẾP CẬN TẬP THÔ 12 1.1 Hệ thông tin 12 1.2 Bảng định 13 1.3 Quan hệ không phân biệt 14 1.4 Các tập xấp xỉ 16 1.5 Tập rút gọn tập lõi 18 1.6 Ma trận phân biệt hàm phân biệt 20 Chƣơng PHƢƠNG PHÁP RÚT GỌN THUỘC TÍNH VÀ SINH LUẬT TRÊN BẢNG QUYẾT ĐỊNH 21 2.1 Phương pháp rút gọn thuộc tính bảng định 21 2.2 Phương pháp rút gọn thuộc tính dựa entropy Shannon 25 2.2.1 Entropy Shannon bảng định 25 2.2.2 Tập lõi bảng định dựa Entropy Shannon 26 2.2.3 Tập rút gọn bảng định dựa Entropy Shannon 27 2.2.4 Độ quan trọng thuộc tính dựa entropy Shannon 27 2.2.5 Thuật tốn tìm tập rút gọn bảng định sử dụng Entropy Shannon 28 2.3 Sinh luật định tập rút gọn bảng định 34 2.3.1 Luật định 34 2.3.2 Các độ đo đánh giá hiệu tập luật định tập rút gọn 35 2.3.3 Thuật toán sinh luật định dựa tập rút gọn bảng định 38 Chƣơng THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 40 3.1 Bài toán 40 3.2 Một số kết thử nghiệm 40 3.2.1 Kết thử nghiệm thuật tốn rút gọn thuộc tính sử dụng entropy Shannon 40 3.2.2 Kết thử nghiệm thuật toán sinh luật định dựa tập rút gọn 42 3.3 Ứng dụng thuật toán rút gọn thuộc tính vào thực tế 44 3.4 Một số giao diện chương trình 45 3.4.1 Thực thuật toán rút gọn thuộc tính CEBARKCC 45 3.4.2 Thực thuật toán sinh luật định 45 KẾT LUẬN 48 TÀI LIỆU THAM KHẢO 49 DANH MỤC CÁC THUẬT NGỮ Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh Tập thô Rough Set Hệ thông tin Information System Hệ thông tin đầy đủ Complete Information System Bảng định Decision Table Bảng định đầy đủ Complete Decision Table Quan hệ không phân biệt Indiscernibility Relation Xấp xỉ Lower Approximation Xấp xỉ Upper Approximation Rút gọn thuộc tính Attribute Reduction Tập rút gọn Reduct Tập lõi Core Ma trận phân biệt Indiscernibility Matrix Hàm phân biệt Indiscernibility Function Luật định Decision Rule DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Ký hiệu, từ viết tắt Diễn giải IS  U , A,V , f  Hệ thông tin, hệ thông tin đầy đủ DS  U , C  D,V , f  Bảng định, bảng định đầy đủ U Số đối tượng C Số thuộc tính điều kiện bảng định A Số thuộc tính hệ thông tin u a Giá trị đối tượng u thuộc tính a IND  B  Quan hệ B  không phân biệt  u B Lớp tương đương chứa u quan hệ IND  B  U/B Phân hoạch U sinh tập thuộc tính B  B (u ) Hàm định suy rộng đối tượng u B POS B  D  B  miền dương D PRED  C  Họ tất tập rút gọn Pawlak HRED  C  Họ tất tập rút gọn Entropy Shannon PCORE  C  Tập lõi dựa miền dương HCORE  C  Tập lõi dựa entropy Shannon có điều kiện H  P Entropy Shannon tập thuộc tính P H (Q | P) Entropy Shannon có điều kiện Q biết P DANH MỤC CÁC BẢNG Bảng 1.1 Ví dụ hệ thơng tin 13 Bảng 1.2 Ví dụ bảng định 14 Bảng 1.3 Bảng thông tin bệnh cúm 17 Bảng 2.1 Bảng định minh họa Ví dụ 2.1 26 Bảng 2.2 Bảng định minh họa Ví dụ 2.2 29 Bảng 2.3 Bảng định bệnh cúm 36 Bảng 3.1 Kết thực Thuật toán CEBARKCC 41 Bảng 3.2 Kết thực Thuật toán CEBARKCC 42 Bảng 3.3 Tập rút gọn tốt số liệu Soybean - small.data 43 Bảng 3.4 Các luật phân lớp bảng định rút gọn 43 DANH MỤC CÁC HÌNH VẼ Hình 1.1 Mơ tả tập xấp xỉ miền 16 Hình 3.1 Giao diện thực thuật tốn rút gọn thuộc tính 45 Hình 3.2 Giao diện tìm tập rút gọn với số liệu Soybean – small.data 46 Hình 3.3 Tập rút gọn thu với số liệu Soybean – small.data 46 37 1 Z 62 :   Z 62   1, s  Z 62   ,   Z 62     DS    s  Zij    Zij   6*  m Độ chắn  bảng định DS là: n i 1 j 1 Độ quán  bảng định DS là: m   DS    i 1 Xi  1  U  Xi Ni X j 1 i   Y j   Zij     Zij    *6     1 Độ hỗ trợ  bảng định DS là:   DS    s  Zij   6*    6 i 1 j 1 m n Bảng định DS cho có tập rút gọn R1  a3 , a4  , R2  a2 , a4  Xét tập rút gọn R1  a3 , a4   R, ta có U / R  u1 , u4  , u2  , u3 , u6  , u5  Không tính tổng qt, ta có bảng định tương ứng với tập rút gọn R DS '  U , R  D  Từ tập rút gọn ta có luật định là: Z11 ' : (a3, Có)  (a4, Bình thường) → (D, Khơng) Z 41 ' : (a3, Không)  (a4, Cao) → (D, Khơng) Z 22 ' : (a3, Có)  (a4, Cao) → (D, Có) Z32 ' : (a3, Có)  (a4, Rất cao) → (D, Có) Các độ đo luật định đơn là: Z11 ' :   Z11 '  1, s  Z11 '  ,   Z11 '   , 3 1 Z 41 ' :   Z 41 '  1, s  Z 41 '  ,   Z 41 '  1 Z 22 ' :   Z 22 '  1, s  Z 22 '  ,   Z 22 '  1 Z32 ' :   Z32 '  1, s  Z32 '  ,   Z32 '  3 Độ chắn  bảng định DS’ là:   DS '   s  Zij    Zij   6*  m n i 1 j 1 38 Độ quán  bảng định DS’ là: m   DS '   i 1 Xi  1  U  Xi Ni X j 1 i   Y j   Zij     Zij       3   Độ hỗ trợ  bảng định DS’ là: 1 1   DS '   s  Zij   2*    2*    3   18 i 1 j 1 m n Nhận xét:   DS '     DS  , g   DS '   g   DS  ,   DS '     DS  - Trên tập rút gọn R số luật định giảm bớt từ luật xuống luật, luật từ thuộc tính vế trái xuống cịn thuộc tính - Tập rút gọn R làm tăng độ hỗ trợ tập luật Như vậy, kết luận rẳng tập rút gọn Entropy Shannon bảo toàn độ chắn, bảo toàn độ quán tăng độ hỗ trợ tập luật định 2.3.3 Thuật toán sinh luật định dựa tập rút gọn bảng định Cho bảng định DS  U , C  D  , giả sử U / C  {X1, X , , X m} U / D  {Y1, Y2 , , Yn } Với X i U / C , Y j U / D X i  Yj   Thuật toán RuleExtract hiển thị luật định dạng Zij : des  X i   des Yj  với độ chắn   Zij   X i  Yj / X i đỗ hỗ trợ s  Zij   X i  Yj / U tương ứng Thuật toán sau thực sinh luật định hiển thị độ đo luật dựa vào định nghĩa luật định lý thuyết tập thơ 39 Thuật tốn RuleExtract Input: Bảng định DS = (U, CD, V, f) Output: Hiển thị danh sách luật với độ chắn  độ hỗ trợ s Tính phân hoạch U / C ; For each X i U / C Begin Tính X i / D ; For each Yj  X i / D Begin Sinh luật Zij : des  X i   des  Yj  Tính   Zij   Yj / X i ; Tính s  Zij   Yj / U ; 10 Hiển thị luật Z ij , độ chắn   Zij  , độ hỗ trợ s  Zij  ; 11 End; 12 End; 13 Return 40 Chƣơng THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 3.1 Bài toán Cho trước bảng định với kích thước trung bình kích thước lớn, nhiệm vụ phần thử nghiệm đánh giá đặt là: 1) Cài đặt thử nghiệm, đánh giá thuật tốn rút gọn thuộc tính sử dụng entropy Shannon 2) Cài đặt thử nghiệm thuật toán sinh luật định RuleExtract tập rút gọn tìm thuật toán sử dụng entropy Shannon Nhiệm vụ bao gồm bước sau: Bước 1: Cài đặt thuật tốn rút gọn thuộc tính sử dụng entropy Shannon (Thuật tốn CEBARKCC) ngơn ngữ C# mơi trường hệ điều hành Windows Home Premium Bước 2: Chạy thử nghiệm thuật toán CEBARKCC số liệu lấy từ kho liệu UCI Bước 3: Cài đặt thực thuật toán sinh luật RuleExtract tập rút gọn tìm Thuật tốn CEBARKCC ngơn ngữ C# môi trường hệ điều hành Windows Home Premium 3.2 Một số kết thử nghiệm 3.2.1 Kết thử nghiệm thuật tốn rút gọn thuộc tính sử dụng entropy Shannon Sau cài đặt, tiến hành chạy thử nghiệm thuật toán CEBARKCC với số liệu vừa nhỏ lấy từ kho liệu UCI ([32]) Mơi trường thử nghiệm máy tính Laptop với cấu hình Intel core2 duo 2.1 GHz CPU, 3GB nhớ RAM, sử dụng hệ điều hành Windows Home Premium Với số liệu, giả sử U số đối tượng, C số thuộc tính điều kiện, R số thuộc tính tập rút gọn thu được; t thời gian thực thuật toán (đơn vị giây s) Các thuộc tính điều kiện đánh số thứ tự từ đến C Bảng 3.1 mơ tả kết thực thuật tốn 41 Bảng 3.1 Kết thực Thuật toán CEBARKCC STT Bộ số liệu U C R t Tập rút gọn Lung-cancer.data 32 56 0.78 {3, 4, 9, 43} Zoo.data 101 17 0.505 {1} Liver-disorders (bupa.data) 345 0.677 {1, 2, 5} Soybean – Large.data 307 35 3.115 {1, 2, 8, 11} Flag.data 194 29 0.682 {1} Credit Approval 690 15 29.703 {1, 2, 3, 4, 5, 6, 8} Anneal.data 798 38 49.336 {3, 5, 8, 12, 33, 34, 35} Abalone.data 4177 256.12 {2, 5, 6} Kết thử nghiệm số liệu vừa nhỏ cho thấy: Trên số liệu chọn, số liệu có kích thước nhỏ thời gian thực nhanh, ngược lại, số liệu có kích thước lớn thời gian thực chậm Tiếp theo, tác giả tiến hành thử nghiệm Thuật toán CEBARKCC số liệu kích thước lớn số liệu chọn để thử nghiệm có miền giá trị thuộc tính giá trị nguyên dương, giá trị rời rạc (đã qua bước tiền xử lý liệu) lấy từ kho liệu UCI ([32]) Kết thử nghiệm mô tả bảng 3.2 sau: 42 Bảng 3.2 Kết thực Thuật toán CEBARKCC U C R STT Bộ số liệu Census-Income.data 299285 40 21 11415 Adult.data 48842 14 1270 Dorothea.data 1950 100000 92 2867 Poker-handtesting.data 1000000 11 8977 CovType.data 581012 54 17 14289 t Với số liệu có kích thước lớn, rõ ràng thời gian thực Thuật toán CEBARKCC chậm, Thuật tốn CEBARKCC chưa thật hiệu với số liệu có kích thước lớn 3.2.2 Kết thử nghiệm thuật toán sinh luật định dựa tập rút gọn Để tiến hành thử nghiệm, Thuật tốn RuleExtract cài đặt ngơn ngữ C# Mơi trường thử nghiệm máy tính Laptop với cấu hình Intel core2 duo 2.1 GHz CPU, 3GB nhớ RAM, sử dụng hệ điều hành Windows Home Premium Bộ số liệu thử nghiệm Soybean - small.data lấy từ kho liệu UCI ([32]) Soybean - small.data số liệu rời rạc hóa với miền giá trị thuộc tính số nguyên dương 1) Thử nghiệm Thuật tốn CEBARKCC tìm tập rút gọn tốt Với số liệu thử nghiệm, giả sử U số đối tượng, C số thuộc tính điều kiện,   DS  độ chắn bảng định với tập thuộc tính ban đầu,   DS '  độ chắn bảng định với tập thuộc tính rút gọn, thuộc tính điều kiện đặt tên theo thứ tự từ c1, c2,…,cn Kết thử nghiệm mô tả Bảng 3.3 43 Bảng 3.3 Tập rút gọn tốt số liệu Soybean - small.data STT Bộ số liệu U C Tập thuộc tính ban đầu   DS  Soybean small.data 47 35 {c1,…,c35} Tập thuộc   DS '  tính rút gọn {c4, c22} 2) Thử nghiệm Thuật toán RuleExtract sinh luật định (luật phân lớp) sử dụng mơ hình tập thơ truyền thống với số liệu Soybean - small.data Trên bảng định ban đầu với 35 thuộc tính điều kiện {c1,…,c35}, kết thử nghiệm thu 47 luật phân lớp, độ dài luật 35(được tính tổng số thuộc tính điều kiện tham gia vào vế trái luật) Trên bảng định rút gọn với thuộc tính điều kiện {c4, c22}, kết thử nghiệm mô tả Bảng 3.4, đó: tổng số luật phân lớp 7, độ dài luật 2,  độ chắn s độ hỗ trợ luật Bảng 3.4 Các luật phân lớp bảng định rút gọn Các luật bảng định rút gọn  s c4(1) and c22(1) ==> D1 0.12766 c4(1) and c22(0) ==> D1 0.08511 c4(2) and c22(3) ==> D2 0.12766 c4(1) and c22(3) ==> D2 0.08511 c4(0) and c22(1) ==> D3 0.21277 c4(1) and c22(2) ==> D4 0.21277 c4(0) and c22(2) ==> D4 0.14894 STT Chú thích: Trên bảng Bảng 3.4, c4(1) nghĩa thuộc tính c4 nhận giá trị (c4 = 1) D1, D2, D3, D4 giá trị thuộc tính định (tổng số lớp định) 44 Kết thử nghiệm cho thấy, tập rút gọn tốt thu Thuật toán CEBARKCC, số lượng luật từ 47 giảm xuống 7, độ dài luật từ 35 giảm xuống Độ chắn tập luật không thay đổi (bằng 1) Kết khẳng định ý nghĩa việc rút gọn thuộc tính bước tiền xử lý liệu 3.3 Ứng dụng thuật tốn rút gọn thuộc tính vào thực tế Trong thực tế, việc sử dụng phương pháp rút gọn thuộc tính bảng định có ý nghĩa quan trọng Nó loại bỏ thuộc tính dư thừa (những thuộc tính khơng có ý nghĩa việc sinh luật định) Trong phần này, xin giới thiệu vài toán ứng dụng phương pháp rút gọn thuộc tính bảng định đầy đủ, đồng thời sinh luật định Trước hết xin nêu số toán ứng dụng sử dụng thuật toán rút gọn trình bày liệu chuẩn thuộc liệu UCI Thông thường bảng định số thuộc tính bảng cịn thuộc tính dư thừa, việc loại bỏ thuộc tính dư thừa khỏi bảng định cần thiết, giúp việc sinh luật định trở nên hiệu tiết kiệm thời gian Trong liệu Lung-Cancer liệu UCI số thuộc tính ban đầu chưa thực thuật toán rút gọn 56 Sau thực thuật tốn rút gọn trình bày số thuộc tính định lại Như vậy, thay việc để dự đốn bệnh nhân có khả mắc ung thư phổi cao, Bác sĩ phải xét tất 56 thuộc tính mà có tới 52 thuộc tính dư thừa, cần dựa vào thuộc tính bảng định, Bác sĩ có kết luận Một ví dụ khác, áp dụng thuật tốn tìm tập rút gọn với liệu viêm gan Hepatitis.data kho liệu UCI để sinh luật định phục vụ cho bác sĩ chuyên ngành chuẩn đoán bệnh viêm gan cho bệnh nhân Ban đầu, liệu Hepatitis.data gồm 19 thuộc tính điều kiện, tương ứng với 19 triệu chứng thu thập từ bệnh nhân có biểu viêm gan, bao gồm: Tuổi, Giới tính, STEROID, Dùng thuốc kháng Virus, Mệt mỏi, Khó ở, Chán ăn, Gan sƣng to, Sơ gan, Viêm lách, Huyết thanh, Tĩnh mạch, Sắc tố da, 45 ALK PHOSPHATE, SGOT, ALBUMIN, PROTIME, Tiền sử mắc bệnh hay chƣa Sau thực thuật tốn rút gọn thuộc tính thu tập rút gọn gồm 03 thuộc tính là: Giới tính, Sắc tố da, ALK PHOSPHATE Điều có nghĩa 16 thuộc tính cịn lại dư thừa Thay sinh luật từ tập 19 thuộc tính ban đầu, chúng tơi thực việc sinh luật tập rút gọn gồm 03 thuộc tính để chuẩn đốn bệnh viêm gan… 3.4 Một số giao diện chƣơng trình 3.4.1 Thực thuật tốn rút gọn thuộc tính CEBARKCC Kết thực thuật tốn CEBARKCC tìm tập rút gọn tốt sử dụng entropy Shannon với liệu hepatitis.data sau: Hình 3.1 Giao diện thực thuật tốn rút gọn thuộc tính 3.4.2 Thực thuật tốn sinh luật định Kết thực thuật toán sinh luật định RuleExtract dựa tập rút gọn thu từ thuật tốn rút gọn thuộc tính với liệu Soybean small.data sau: 46 Bước 1: Tìm tập rút gọn bảng định với số hình 3.2 Hình 3.2 Giao diện tìm tập rút gọn với số liệu Soybean – small.data Bước 2: Click chuột vào nút “Xem tập rút gọn” thu kết hình 3.3 Hình 3.3 Tập rút gọn thu với số liệu Soybean – small.data Bước 3: Click chuột vào nút “Sinh luật định”, thu tập luật định (luật phân lớp) 47 Hình 3.4 Tập luật định thu số liệu Soybean - small 48 KẾT LUẬN 1) Những kết luận văn Luận văn tập trung vào hướng nghiên cứu lý thuyết với nội dung nghiên cứu bao gồm hai phần: phần nghiên cứu tổng hợp kết cơng bố phần chương trình mơ thuật tốn Luận văn đạt hai kết sau: (1) Trên sở tổng kết kết công bố hướng nghiên cứu rút gọn thuộc tính bảng định, bao gồm nhóm phương pháp rút gọn thuộc tính, luận văn nghiên cứu phương pháp rút gọn thuộc tính sử dụng entropy Shannon (2) Cài đặt thử nghiệm phương pháp rút gọn thuộc tính sử dụng entropy Shannon phương pháp sinh luật định số liệu thử nghiệm từ kho liệu UCI Phương pháp sử dụng entropy Shannon không hiệu phương pháp sử dụng khoảng cách entropy Liang ([13]), nhiên ý nghĩa phần tài liệu học tập cho người tiếp cận với khai phá liệu sử dụng lý thuyết tập thô, đặc biệt phương pháp rút gọn thuộc tính bảng định sử dụng entropy Shannon 2) Hƣớng phát triển Tác giả luận văn tiếp tục nghiên cứu phương pháp rút gọn thuộc tính bảng định khơng đầy đủ sử dụng độ đo khoảng cách 49 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Hoàng Thị Lan Giao (2007), “Khía cạnh đại số lơgic phát luật theo tiếp cận tập thô”, Luận án Tiến sĩ Tốn học, Viện Cơng Nghệ Thơng Tin [2] Nguyễn Đức Thuần (2010), “Phủ tập thô độ đo đánh giá hiệu tập luật định”, Luận án Tiến sĩ Tốn học, Viện Cơng Nghệ Thơng Tin [3] Nguyễn Long Giang (2012), “Nghiên cứu số phương pháp khai phá liệu theo tiếp cận lý thuyết tập thô”, Luận án Tiến sĩ Tốn học, Viện Cơng Nghệ Thơng Tin [4] Nguyễn Long Giang, Vũ Đức Thi (2011), “Một phương pháp rút gọn thuộc tính bảng định dựa Entropy cải tiến”, Tạp chí Tin học Điều khiển học, T.27, S.2, tr 166-175 Tài liệu tiếng Anh [5] Andrzej Skowron and Rauszer C (1992), “The Discernibility Matrices and Functions in Information Systems”, Interlligent Decision Support, Handbook of Applications and Advances of the Rough Sets Theory, Kluwer, Dordrecht, pp 331-362 [6] Ge H., Li L.S and Yang C.J (2009), “Improvement to Quick Attribution Reduction Algorithm”, Journal of Computers, Vol.30, No.2, pp 308-312 [7] Hu X.H and Cercone N (1995), “Learning in relational databases: a rough set approach”, International Journal of computational intelligence, pp 323-338 [8] Hu X.H., Lin T.Y and Han J.C (2004), “A new rough sets model based on database systems”, Fundamenta Informaticae, 59(1), pp 135-152 [9] Kryszkiewicz M (1998), “Rough set approach to incomplete information systems”, Information Science, Vol 112, pp 39-49 [10] Li J.H and Shi K.Q (2006), “A algorithm for attribute reduction based on knowledge granularity”, Computer Applications, Vol 26, No 6, pp 76-77 [11] Li X.H and Shi K.Q (2006), “A knowledge granulation-based algorithm for 50 attribute reduction under incomplete information systems”, Computer Science, Vol 33, pp 169-171 [12] Liu Y., Xiong R and Chu J (2009), “Quick Attribute Reduction Algorithm with Hash”, Chinese Journal of Computers, Vol.32, No.8, pp 1493-1499 [13] Liang J.Y., Shi Z.Z., Li D.Y and Wierman M.J (2006), “The information entropy, rough entropy and knowledge granulation in incomplete information system”, International Journal of General Systems 35 (6), pp 641-654 [14] Lv Y.J and Li J.H (2007), “A Quick Algorithmfor Reduction of Attribute in Information Systems”, The First International Symposium on Data, Privacy, and E-Commerce (ISDPE 2007), pp 98-100 [15] Miao D.Q and Hu G.R (1999), “A heuristic algorithm for knowledge reduction”, Computer Research and Development, Vol 36, No 6, pp 681-684 [16] Nguyen S Hoa, Nguyen H Son (1996), "Some Efficient Alogrithms for Rough Set Methods", Proceedings of the sixth International Conference on Information Processing Management of Uncertainty in Knowledge Based Systems, pp 1451 - 1456 [17] Pawlak Z (1991), Rough sets: Theoretical Aspects of Reasoning About Data, Kluwer Aca-demic Publishers [18] Pawlak Z (1998), “Rough set theory and its applications in data analysis”, Cybernetics and systems 29, pp 661-688 [19] Qian Y.H., Liang J.Y., Li D.Y., Zhang H.Y and Dang C.Y (2008), “Measures of Evaluating The Decision Performace of a Decision Table in Rough Set Theory”, Information Sciences, Vol.178, pp.181-202 [20] Wang C.R and OU F.F (2008), “An Attribute Reduction Algorithm in Rough Set Theory Based on Information Entropy”, 2008 International Symposium on Computational Intelligence and Design, IEEE ISCID, pp 3-6 [21] Wang G.Y (2001), “Algebra view and information view of rough sets theory”, In: Dasarathy BV,editor Data mining and knowledge discovery: Theory, tools, and technology III, Proceedings of SPIE, pp 200-207 [22] Wang G.Y (2003), “Rough reduction in algebra view and information view”, 51 International Journal of Intelligent System 18, pp 679-688 [23] Wang G.Y., Yu H and Yang D.C (2002), “Decision table reduction based on conditional information entropy”, Journal of Computers, Vol 25 No 7, pp 759-766 [24] Wang G.Y., Yu H., Yang D.C and Wu Z.F (2001), “Knowledge Reduction Based on Rough Set and Information Entropy”, Proc Of the World Multi-conference on Systemics, Cybernetics and Informatics, Orlando, Florida, pp 555-560 [25] Wierman M.J (1999), “Measuring uncertainty in rough set theory”, International Journal of General Systems, pp 283-197 [26] Xu J.C and Sun L (2009), “Research of Knowledge Reduction Based on New Conditional Entropy”, Rough Sets and Knowledge Technology, Lecture Notes in Computer Science, Volume 5589/2009, pp 144-151 [27] Xu Z.Y., Yang B.R and Song W (2006), “Complete attribute reduction algorithm based on Simplified discernibility matrix”, Computer Engineering and Applications, Vol 42, No 26, pp 167-169 [28] Xu Z.Y., Liu Z.P., Yang B.R and Song W (2006), “A quick attribute   reduction algorithm with complexity of Max O  C U  , O C U / C  ”, Journal of Computers, Vol.29, No.3, pp 391-399 [29] Ye D.Y and Chen Z.J (2002), “A new discernibility matrix and computation of a core”, Acta Electronica Sinica, Vol 30, No 7, pp 1086-1088 [30] Zadeh L.A (1997), “Towards a theory of fuzzy information granulation and its centrality in human reasoning and fuzzy logic”, Fuzzy Sets and System, 90, pp 111-127 [31] Zhao M., Luo K and Qin Z (2008), “Algorithm for attribute reduction based on granular computing”, Computer Engineering and Applications, Vol 44, No 30, pp 157-159 [32] The UCI machine learning repository,

Ngày đăng: 23/09/2020, 20:57

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan