Nghiên cứu các tập rút gọn và luật trong bảng quyết định theo tiếp cận lý thuyết tập thô

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ HỒNG HẠNH NGHIÊN CỨU CÁC TẬP RÚT GỌN VÀ LUẬT TRONG BẢNG QUYẾT ĐỊNH THEO TIẾP CẬN LÝ THUYẾT TẬP THÔ LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Hà Nội - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ HỒNG HẠNH NGHIÊN CỨU CÁC TẬP RÚT GỌN VÀ LUẬT TRONG BẢNG QUYẾT ĐỊNH THEO TIẾP CẬN LÝ THUYẾT TẬP THÔ Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60.48.05 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Người hướng dẫn: TS Nguyễn Long Giang Hà Nội - 2015 MỤC LỤC MỤC LỤC Danh mục thuật ngữ Danh sách bảng MỞ ĐẦU Chương TỔNG QUAN VỀ LÝ THUYẾT TẬP THÔ 1.1 Hệ thông tin 1.2 Mơ hình tập thô 1.3 Bảng định 11 1.4 Tập rút gọn tập lõi 12 1.5 Ma trận phân biệt hàm phân biệt 14 Chương RÚT GỌN THUỘC TÍNH VÀ TRÍCH LỌC LUẬT TRONG BẢNG QUYẾT ĐỊNH THEO TIẾP CẬN TẬP THÔ 15 2.1 Rút gọn thuộc tính trích lọc luật bảng định 15 2.1.1 Tổng kết, phân nhóm phương pháp rút gọn thuộc tính .15 2.1.2 Luật định độ đo đánh giá hiệu 20 2.1.3 Lựa chọn, so sánh, đánh giá phương pháp rút gọn thuộc tính 23 2.2 Xây dựng phương pháp rút gọn thuộc tính bảng định sử dụng khoảng cách 25 2.2.1 Độ đo khoảng cách 26 2.2.2 Xây dựng khoảng cách hai tri thức tính chất 27 2.2.3 Phương pháp rút gọn thuộc tính sử dụng khoảng cách 31 2.2.4 Phân nhóm phương pháp rút gọn thuộc tính sử dụng khoảng cách 36 Chương THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 38 3.1 Bài toán 38 3.2 Phân tích, lựa chọn cơng cụ 38 3.2.1 Thuật tốn tìm tập rút gọn sử dụng entropy Liang 39 3.2.2 Lựa chọn công cụ cài đặt 40 3.3 Một số kết thử nghiệm 40 3.3.1 Kết thử nghiệm thuật tốn tìm tập rút gọn sử dụng khoảng cách .40 3.3.2 Kết thử nghiệm trích lọc luật theo tiếp cận tập thơ 42 KẾT LUẬN .46 Tài liệu tham khảo 47 Phụ lục 49 Danh mục thuật ngữ Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh Tập thô Rough Set Hệ thông tin Information System Bảng định Decision Table Quan hệ không phân biệt Indiscernibility Relation Xấp xỉ Lower Approximation Xấp xỉ Upper Approximation Rút gọn thuộc tính Attribute Reduction Tập rút gọn Reduct Tập lõi Core Luật định Decision Rule Khoảng cách Distance Danh sách bảng Bảng 1.1 Bảng thông tin bệnh cúm 10 Bảng 1.2 Bảng định bệnh cúm 13 Bảng 2.1 Các phương pháp rút gọn thuộc tính tài liệu [1] 16 Bảng 2.2 Bảng định xe 20 Bảng 2.1 Bảng định minh họa thuật tốn tìm tập rút gọn 34 Bảng 3.1 Kết thực Thuật toán ELBAR Thuật toán DBAR 40 Bảng 3.2 Tập rút gọn Thuật toán ELBAR Thuật toán DBAR 41 Bảng 3.3 Kết thực Thuật toán ELBAK Thuật toán DBAK 42 số liệu lớn 42 Bảng 3.7 Tập rút gọn tốt số liệu Soybean-small 44 Bảng 3.8 Các luật phân lớp bảng định rút gọn sử dụng tập thô 44 MỞ ĐẦU Lý thuyết tập thô - Zdzislaw Pawlak [7] đề xuất vào năm đầu thập niên tám mươi kỷ hai mươi - xem cơng cụ hữu hiệu để giải tốn phân lớp, phát luật…chứa liệu không đầy đủ, không chắn Từ xuất hiện, lý thuyết tập thô sử dụng hiệu bước trình khai phá liệu khám phá tri thức, bao gồm tiền xử lý số liệu, khai phá liệu đánh giá kết thu Rút gọn thuộc tính trích lọc luật định (luật phân lớp) hai ứng dụng lý thuyết tập thô khai phá liệu Rút gọn thuộc tính thuộc giai đoạn tiền xử lý liệu cịn trích lọc luật thuộc giai đoạn khai phá liệu Mục tiêu rút gọn thuộc tính loại bỏ thuộc tính dư thừa nhằm tìm tập nhỏ tập thuộc tính điều kiện (tập rút gọn) mà bảo tồn thơng tin phân lớp bảng định Dựa tập rút gọn thu được, việc sinh luật phân lớp đạt hiệu cao Trong hai thập kỷ trở lại đây, chủ đề nghiên cứu rút gọn thuộc tính bảng định theo tiếp cận lý thuyết tập thô thu hút đông đảo cộng đồng nghiên cứu tập thô tham gia [1] Có nhiều phương pháp rút gọn thuộc tính khác đề xuất sử dụng độ đo khác Các phương pháp điển hình tổng kết tài liệu [1] là: phương pháp dựa miền dương, phương pháp dựa ma trận phân biệt, phương pháp sử dụng độ đo entropy lý thuyết thông tin, phương pháp sử dụng độ đo tính tốn hạt, phương pháp sử dụng độ đo khoảng cách… Với mong muốn tổng hợp kết nghiên cứu phương pháp rút gọn thuộc tính bảng định theo tiếp cận tập thơ, sở xây dựng phương pháp sử dụng độ đo (độ đo khoảng cách), luận văn đặt hai mục tiêu sau đây: 1) Tổng hợp phương pháp rút gọn thuộc tính trích lọc luật bảng định theo tiếp cận lý thuyết tập thô tài liệu [1, 2], bao gồm: - Phân nhóm phương pháp rút gọn thuộc tính mối liên hệ phương pháp dựa vào định nghĩa tập rút gọn - Trích lọc luật bảng định, bao gồm: luật định độ đo đánh giá hiệu năng, thay đổi độ đo đánh giá hiệu tập rút gọn đánh giá phương pháp dựa tiêu chuẩn chất lượng phân lớp (độ hỗ trợ) tập luật 2) Xây dựng thử nghiệm phương pháp rút gọn thuộc tính sử dụng độ đo khoảng cách, bao gồm: đề xuất độ đo khoảng cách xây dựng cơng thức tính khoảng cách hai tập thuộc tính; định nghĩa tập rút gọn độ quan trọng thuộc tính dựa khoảng cách; xây dựng thuật tốn heuristic tìm tập rút gọn tốt sử dụng khoảng cách; phân nhóm đánh giá phương pháp sử dụng khoảng cách với phương pháp có thử nghiệm phương pháp số liệu mẫu từ kho liệu UCI [12] Đối tượng nghiên cứu luận văn bảng định với kích thước trung bình kích thước lớn Phạm vi nghiên cứu luận văn tập trung vào tốn rút gọn thuộc tính bước tiền xử lý số liệu trích lọc luật bước khai phá liệu trình khai phá liệu khám phá tri thức Phương pháp nghiên cứu luận văn nghiên cứu lý thuyết nghiên cứu thực nghiệm Về nghiên cứu lý thuyết: mệnh đề chứng minh chặt chẽ dựa vào kiến thức kết nghiên cứu công bố Về nghiên cứu thực nghiệm: luận văn thực cài đặt thuật toán, chạy thử nghiệm thuật toán với số liệu lấy từ kho liệu UCI [12], so sánh đánh giá kết thực nghiệm so với kết nghiên cứu lý thuyết, từ kết luận tính đắn kết nghiên cứu Bố cục luận văn gồm phần mở đầu ba chương nội dung, phần kết luận danh mục tài liệu tham khảo Chương trình bày khái niệm lý thuyết tập thô Pawlak [8] sử dụng chương chương Chương trình bày hai nội dung chính, thứ tổng kết cơng bố phương pháp rút gọn thuộc tính trích lọc luật, bao gồm phân nhóm phương pháp rút gọn thuộc tính, luật định độ đo đánh giá hiệu năng, thay đổi độ đo đánh giá hiệu tập rút gọn phương pháp, đánh giá phương pháp dựa vào chất lượng phân lớp (độ hỗ trợ) tập luật Thứ hai xây dựng phương pháp rút gọn thuộc tính sử dụng khoảng cách, bao gồm xây dựng độ đo khoảng cách, định nghĩa tập rút gọn độ quan trọng thuộc tính dựa khoảng cách, xây dựng thuật tốn heuristic tìm tập rút gọn tốt sử dụng khoảng cách; phân nhóm đánh giá phương pháp sử dụng khoảng cách với phương pháp có Chương trình bày kết thử nghiệm đánh giá phương pháp sử dụng khoảng cách số liệu mẫu từ kho liệu UCI [12] nhằm sáng tỏ kết nghiên cứu lý thuyết Cuối cùng, phần kết luận nêu đóng góp luận văn, hướng phát triển Chương TỔNG QUAN VỀ LÝ THUYẾT TẬP THÔ Chương trình bày khái niệm lý thuyết tập thô Pawlak [8] đề xuất Các khái niệm kiến thức tảng để sử dụng cho chương sau luận văn 1.1 Hệ thông tin Hệ thông tin công cụ biểu diễn tri thức dạng bảng liệu gồm p cột ứng với p thuộc tính n hàng ứng với n đối tượng Một cách hình thức, hệ thông tin định nghĩa sau Định nghĩa 1.1 Hệ thông tin IS  U , A U tập hữu hạn, khác rỗng đối tượng; A tập hữu hạn, khác rỗng thuộc tính Với u U , a  A , ta ký hiệu giá trị thuộc tính a đối tượng u a  u  thay f  u, a  Nếu B  b1 , b2 , , bk   A tập thuộc tính ta ký hiệu giá trị bi  u  B  u  Như vậy, u v hai đối tượng, ta viết B  u   B  v  bi  u   bi  v  với i  1, , k Xét hệ thông tin IS  U , A Mỗi tập thuộc tính P  A xác định quan hệ hai U, ký hiệu IND  P  , xác định   IND  P    u, v  U U a  P, a u   a  v  IND  P  quan hệ P-không phân biệt Dễ thấy IND P  quan hệ tương đương U Nếu  u, v   IND P  hai đối tượng u v khơng phân biệt thuộc tính P Quan hệ tương đương IND  P  xác định phân hoạch U, ký hiệu U / IND  P  hay U / P Ký hiệu lớp tương đương phân hoạch   U / P chứa đối tượng u u P , u P  v U  u, v   IND  P  38 Chương THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 3.1 Bài toán Cho trước bảng định với kích thước trung bình kích thước lớn, nhiệm vụ phần thử nghiệm đánh giá đặt là: Đánh giá tính hiệu thuật tốn rút gọn thuộc tính sử dụng khoảng cách (Thuật tốn DBAR) với thuật tốn Nhóm (gồm phương pháp sử dụng entropy Liang, phương pháp sử dụng độ khác biệt tri thức, phương pháp sử dụng ma trận phân biệt) Luận văn chọn thuật toán rút gọn thuộc tính sử dụng entropy Liang (của phương pháp rút gọn thuộc tính sử dụng entropy Liang), gọi tắt thuật toán ELBAR (Entropy Liang Based Attribute Reduction) để so sánh với thuật tốn DBAR phương pháp hiệu phương pháp khác Nhóm [1] Để thực nhiệm vụ đặt ra, luận văn thực công việc sau: - Cài đặt thuật tốn DBAR thuật tốn rút gọn thuộc tính sử dụng entropy Liang (thuật toán ELBAR) - Thử nghiệm hai thuật toán số liệu lấy từ kho liệu UCI [12], so sánh thời gian thực kết thực hai thuật toán số liệu thử nghiệm chọn - Cài đặt thực thuật tốn trích lọc luật RuleExtract tập rút gọn tìm Thuật tốn DBAR 3.2 Phân tích, lựa chọn cơng cụ Để thực công việc nêu trên, trước hết luận văn trình bày thuật tốn rút gọn thuộc tính sử dụng entropy Liang [5], gọi tắt thuật toán ELBAR (Entropy Liang Based Attribute Reduction) 39 3.2.1 Thuật tốn tìm tập rút gọn sử dụng entropy Liang Trong [5], J.Y Liang cộng đưa khái niệm tập rút gọn dựa entropy mới, gọi entropy Liang Cho bảng định DS  U , C  D  Giả sử U / C  {C1, C2 , , Cm}, U / D  {D1 , D2 , , Dn } Entropy Liang có điều kiện D biết C định nghĩa: n m E ( D C )   i 1 j 1 Di  C j Dic  C j U U n m   i 1 j 1 Di  C j C j   Di  C j  U U Nếu tập thuộc tính R  A thỏa mãn: 1) E  D R   E  D C  2) r  R, E ( D  R  r)  E ( D C ) R gọi tập rút gọn DS dựa entropy Liang Thuật tốn tìm tập rút gọn sử dụng entropy Liang, gọi tắt thuật tốn NEBAR, mơ tả sau: Thuật tốn ELBAR Tìm tập rút gọn bảng định sử dụng entropy Liang [5] (Entropy Liang Based Attribute Reduction) Đầu vào: Bảng định DS  U , C  D,V , f  Đầu ra: Một tập rút gọn R R   ; Tính E  D R  , E  D C  ; // Thêm dần vào R thuộc tính có độ quan trọng lớn While E  D R   E  D C  Begin For each b  C  R tính SIGR  b   E  D R   E  D R  b ; Chọn bm  C  R cho SIGR  mm   Max SIGR  b  ; R  R  bm  ; bC  R 40 End; // Loại bỏ thuộc tính dư thừa R có 10 For each b  R If E  D R  b  E  D C  then R  R  b ; 11 Return R ; 3.2.2 Lựa chọn công cụ cài đặt Luận văn sử dụng cơng cụ ngơn ngữ lập trình C# môi trường hệ điều hành Windows XP Professional để thực cài đặt thuật toán rút gọn thuộc tính DBAR, ELBAR thuật tốn trích lọc luật định RuleExtract 3.3 Một số kết thử nghiệm 3.3.1 Kết thử nghiệm thuật tốn tìm tập rút gọn sử dụng khoảng cách Sau cài đặt thuật toán rút gọn thuộc tính sử dụng khoảng cách (DBAR) thuật tốn rút gọn thuộc tính sử dụng entropy Liang (ELBAR), tác giả tiến hành thử nghiệm hai thuật toán số liệu vừa nhỏ lấy từ kho liệu UCI [12] Môi trường thử nghiệm máy tính LAPTOP với cấu hình Intel Core i3 2.13 GHz CPU, 2GB nhớ RAM, sử dụng hệ điều hành Windows 8.1 Với số liệu, giả sử U số đối tượng, C số thuộc tính điều kiện, R số thuộc tính tập rút gọn, t thời gian thực thuật toán (đơn vị giây s) Các thuộc tính điều kiện đánh số thứ tự từ đến C Bảng 3.1 Bảng 3.2 mô tả kết thực hai thuật toán Bảng 3.1 Kết thực Thuật toán ELBAR Thuật toán DBAR STT Bộ số liệu Hepatitis.data U 155 Thuật toán Thuật toán ELBAR DBAR C 19 R t R t 1.296 0.89 41 Lung-cancer.data 32 56 0.187 0.171 Automobile.data 205 25 5 1.687 Anneal.data 798 38 179 86.921 Congressional 435 16 15 25.562 15 16.734 690 15 29.703 15.687 Voting Records Credit Approval Bảng 3.2 Tập rút gọn Thuật toán ELBAR Thuật toán DBAR STT Bộ số liệu Tập rút gọn Tập rút gọn Thuật toán ELBAR Thuật toán DBAR Hepatitis.data {1, 2, 4, 17} {1, 2, 4, 17} Lung-cancer.data {3, 4, 9, 43} {3, 4, 9, 43} Automobile.data {1, 13, 14, 20, 21} {1, 13, 14, 20, 21} Anneal.data {1, 3, 4, 5, 8, 9, 33, 34, {1, 3, 4, 5, 8, 9, 33, 34, 35} 35} Congressional {1, 2, 3, 4, 5, 7, 8, 9, 10, {1, 2, 3, 4, 5, 7, 8, 9, 10, Voting Records 11, 12, 13, 14, 15, 16} 11, 12, 13, 14, 15, 16} Credit Approval {1, 2, 3, 4, 5, 6, 8} {1, 2, 3, 4, 5, 6, 8} Kết thử nghiệm cho thấy  Trên số liệu chọn, tập rút gọn thu Thuật toán DBAR Thuật toán ELBAR Kết phù hợp với kết nghiên cứu lý thuyết trình bày phần  Thời gian thực Thuật toán DBAR nhanh Thuật toán ELBAR, Thuật tốn DBAR hiệu Thuật toán ELBAR Tiếp theo, tác giả tiến hành thử nghiệm Thuật toán DBAR Thuật toán ELBAR số liệu kích thước lớn Kết thử nghiệm mô tả bảng sau: 42 Bảng 3.3 Kết thực Thuật toán ELBAK Thuật toán DBAK số liệu lớn ST T STT U Bộ số liệu Thuật toán Thuật toán ELBAR DBAR C R t R t Census-Income.data 299285 40 21 11415 21 5206 Adult.data 48842 14 1270 675 Dorothea.data 1950 1000 92 2867 92 1247 00 Poker-hand- 1000000 11 8977 4376 581012 54 17 14289 17 7256 testing.data CovType.data Với số liệu có kích thước lớn, rõ ràng thời gian thực Thuật toán DBAR nhỏ nhiều Thuật toán ELBAR, số liệu kích thước lớn, Thuật tốn DBAR hiệu 3.3.2 Kết thử nghiệm trích lọc luật theo tiếp cận tập thơ Cho bảng định DS  U , C  D  , giả sử U / C  {X1 , X , , X m} U / D  {Y1, Y2 , , Yn } Với X i U / C , Y j U / C X i  Yj   Thuật toán RuleExtract hiển thị luật định dạng Zij : des  X i   des Y j  với độ chắn   Zij   X i  Y j / X i đỗ hỗ trợ s  Zij   X i  Yj / U tương ứng Thuật toán RuleExtract Input: Bảng định DS = (U, CD, V, f) Output: Hiển thị danh sách luật với độ chắn  độ hỗ trợ s Tính phân hoạch U / C ; 43 For each X i U / C Begin Tính X i / D ; For each Yj  X i / D Begin Sinh luật Zij : des  X i   des Y j  Tính   Zij   Y j / X i ; Tính s  Zij   Y j / U ; 10 Hiển thị luật Z ij , độ chắn   Zij  , độ hỗ trợ s  Zij  ; 11 End; 12 End; 13 Return Thuật toán RuleExtract sinh luật định (luật phân lớp) sử dụng tập thô cài đặt ngôn ngữ C# Mơi trường thử nghiệm máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB nhớ RAM, sử dụng hệ điều hành Windows XP Professional Bộ số liệu thử nghiệm Soybean-small.data lấy từ kho liệu UCI [12] Soybean-small.data số liệu rời rạc hóa với miền giá trị thuộc tính số nguyên dương 1) Thử nghiệm Thuật toán DBAR tìm tập rút gọn tốt Với số liệu thử nghiệm, giả sử U số đối tượng, C số thuộc tính điều kiện,   DS  độ chắn bảng định với tập thuộc tính ban đâu,   DS '  độ chắn bảng định với tập thuộc tính rút gọn, thuộc tính điều kiện đặt tên theo thứ tự từ c1, c2,…,cn Kết thử nghiệm mô tả Bảng 3.7 44 Bảng 3.4 Tập rút gọn tốt số liệu Soybean-small STT Bộ số liệu U C Tập thuộc   DS  tính ban đầu Soybean- 47 35 {c1,…,c35} Tập thuộc   DS '  tính rút gọn {c4, c22} small.data 2) Thử nghiệm Thuật toán RuleExtract sinh luật định (luật phân lớp) sử dụng tập thô với số liệu Soybean-small.data Trên bảng định ban đầu với 35 thuộc tính điều kiện {c1,…,c35}, kết thử nghiệm thu 47 luật phân lớp, độ dài luật 35 (được tính tổng số thuộc tính điều kiện tham gia vào vế trái luật) Trên bảng định rút gọn với thuộc tính điều kiện {c4, c22}, kết thử nghiệm mơ tả Bảng 3.8, đó: tổng số luật phân lớp 7, độ dài luật 2,  độ chắn s độ hỗ trợ luật Bảng 3.5 Các luật phân lớp bảng định rút gọn sử dụng tập thô STT Các luật bảng định rút gọn  s c4(1) and c22(1) ==> D1 0.12766 c4(1) and c22(0) ==> D1 0.08511 c4(2) and c22(3) ==> D2 0.12766 c4(1) and c22(3) ==> D2 0.08511 c4(0) and c22(1) ==> D3 0.21277 c4(1) and c22(2) ==> D4 0.21277 c4(0) and c22(2) ==> D4 0.14894 45 Chú thích: Trên bảng Bảng 3.8, c4(1) nghĩa thuộc tính c4 nhận giá trị (c4 = 1) D1, D2, D3, D4 giá trị thuộc tính định (tổng số lớp định) Kết thử nghiệm cho thấy, tập rút gọn tốt thu Thuật toán DBAR, số lượng luật từ 47 giảm xuống 7, độ dài luật từ 35 giảm xuống Độ chắn tập luật không thay đổi (bằng 1) Kết khẳng định ý nghĩa việc rút gọn thuộc tính bước tiền xử lý liệu 46 KẾT LUẬN 1) Những kết luận văn Luận văn tập trung vào hướng nghiên cứu lý thuyết Nội dung nghiên cứu luận văn bao gồm hai phần: phần nghiên cứu tổng hợp kết công bố phần xây dựng phương pháp dựa độ đo Luận văn có hai kết chính: (1) Tổng kết kết công bố hướng nghiên cứu rút gọn thuộc tính trích lọc luật bảng định theo tiếp cận tập thô, bao gồm: - Phân nhóm phương pháp rút gọn thuộc tính dựa vào tập rút gọn - Luật định độ đo đánh giá hiệu tập luật định - Sự thay đổi độ đo đánh giá hiệu tập rút gọn, từ đánh giá nhóm phương pháp dựa tiêu chuẩn chất lượng phân lớp tập rút gọn (độ hỗ trợ tập luật) (2) Theo hướng tiếp cận khoảng cách, luận văn đề xuất độ đo khoảng cách xây dựng phương pháp rút gọn thuộc tính sử dụng khoảng cách thử nghiệm phương pháp số liệu mẫu từ kho liệu thử nghiệm UCI [13] Phương pháp sử dụng khoảng cách thuộc nhóm 3, tập rút gọn tương đương với phương pháp thuộc nhóm 2) Hướng phát triển Tiếp tục nghiên cứu phương pháp gia tăng rút gọn thuộc tính bảng định trường hợp bổ sung loại bỏ tập đối tượng, tập thuộc tính 47 Tài liệu tham khảo Tài liệu tiếng Việt [1] Nguyễn Long Giang, “Khai phá liệu theo tiếp cận lý thuyết tập thô”, Luận án Tiến sĩ Tốn học, Viện Cơng Nghệ Thơng Tin, 2012 [2] Nguyễn Long Giang, Phạm Hoàng Tuyên, Nghiên cứu thay đổi giá trị độ đo đánh giá hiệu tập luật định tập rút gọn, Kỷ yếu Hội thảo Quốc gia lần thứ XV “Một số vấn đề chọn lọc Công nghệ thông tin truyền thông”, Hà Nội 11/2012, 2013, Tr 295-301 Tài liệu tiếng Anh [3] Andrzej Skowron and Rauszer C (1992), “The Discernibility Matrices and Functions in Information Systems”, Interlligent Decision Support, Handbook of Applications and Advances of the Rough Sets Theory, Kluwer, Dordrecht, pp 331-362 [4] Deza M M and Deza E., “Encyclopedia of Distances”, Springer, 2009 [5] Liang J.Y, Chin K.S., Dang C.Y and Richard C.M.YAM, “New method for measuring uncertainty and fuzziness in rough set theory”, International Journal of General Systems 31, 2002, pp 331-342 [6] Long Giang Nguyen, “Metric Based Attribute Reduction in Decision Tables”, The 2012 International Workshop on Rough Sets Applications (RSA’2012), FedCSIS Proceedings, IEEE, 2012, pp 333338 [7] Pawlak Z (1982), “Rough sets”, International Journal of Computer and Information Sciences, 11(5): 341-356 [8] Pawlak Z., Rough sets: Theoretical Aspects of Reasoning About Data, 48 Kluwer Aca-demic Publishers, 1991 [9] Qian Y.H., Liang J.Y., Li D.Y., Zhang H.Y and Dang C.Y (2008), “Measures for Evaluating The Decision Performace of a Decision Table in Rough Set Theory”, Information Sciences, Vol.178, pp.181-202 [10] Wang F., Liang J Y, Qian Y H., “Attribute reduction: A dimension incremental strategy”, Knowledge-Based Systems, Volume 39, 2013, pp 95–108 [11] Z Y Xu, Z P Liu, B R Yang, W Song., “A quick attribute reduction algorithm with complexity of max(O(|C||U|), O(|C|2|U/C|))”, Journal of Computer, Vol 29, no 3, pp 391-398, 2006 [12] The UCI machine learning repository, 49 Phụ lục Một số giao diện chương trình thử nghiệm Hình Giao diện chương trình Hình Chọn liệu từ kho liệu UCI 50 Hình Tính phân hoạch với liệu IRIS.DATA từ kho liệu UCI Hình Tính phân hoạch U/D liệu IRIS.DATA từ kho liệu UCI 51 Hình Tính phân hoạch U/C liệu IRIS.DATA từ kho liệu UCI Hình Thực nghiệm tính khoảng cách liệu thuật tốn Entropy Liang 52 Kết chạy với liệu IRIS.DATA từ kho liệu UCI: - Tập rút gọn: {C1,C2,C3} - Tập dư thừa: {C4} - Số thuộc tính sau rút gọn: - Thời gian tính tốn: giây 328 mili giây Hình Thực nghiệm tính khoảng cách liệu thuật toán DBAR Kết chạy với liệu IRIS.DATA từ kho liệu UCI: - Tập rút gọn: {C1,C2,C3} - Tập dư thừa: {C4} - Số thuộc tính sau rút gọn: - Thời gian tính tốn: giây 62 mili giây

Định dạng
Số trang	54
Dung lượng	1,21 MB