Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 55 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
55
Dung lượng
2,2 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ HỒNG HẠNH NGHIÊN CỨU CÁC TẬP RÚT GỌN VÀ LUẬT TRONG BẢNG QUYẾT ĐỊNH THEO TIẾP CẬN LÝ THUYẾT TẬP THÔ LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Hà Nội - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ HỒNG HẠNH NGHIÊN CỨU CÁC TẬP RÚT GỌN VÀ LUẬT TRONG BẢNG QUYẾT ĐỊNH THEO TIẾP CẬN LÝ THUYẾT TẬP THÔ Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60.48.05 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Người hướng dẫn: TS Nguyễn Long Giang Hà Nội - 2015 MỤC LỤC MỤC LỤC Danh mục thuật ngữ .3 Danh sách bảng MỞ ĐẦU Chương TỔNG QUAN VỀ LÝ THUYẾT TẬP THÔ 1.1.Hệ thông tin 1.2.Mơ hình tập thô 1.3.Bảng định 11 1.4.Tập rút gọn tập lõi 12 1.5.Ma trận phân biệt hàm phân biệt 14 Chương RÚT GỌN THUỘC TÍNH VÀ TRÍCH LỌC LUẬT TRONG BẢNG QUYẾT ĐỊNH THEO TIẾP CẬN TẬP THÔ 16 2.1.Rút gọn thuộc tính trích lọc luật bảng định 16 2.1.1.Tổng kết, phân nhóm phương pháp rút gọn thuộc tính 16 2.1.2.Luật định độ đo đánh giá hiệu .21 2.1.3.Lựa chọn, so sánh, đánh giá phương pháp rút gọn thuộc tính 24 2.2.Xây dựng phương pháp rút gọn thuộc tính bảng định sử dụng khoảng cách 26 2.2.1.Độ đo khoảng cách 27 2.2.2.Xây dựng khoảng cách hai tri thức tính chất 28 2.2.3.Phương pháp rút gọn thuộc tính sử dụng khoảng cách .32 2.2.4.Phân nhóm phương pháp rút gọn thuộc tính sử dụng khoảng cách 38 Chương THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 39 3.1.Bài toán 39 3.2.Phân tích, lựa chọn cơng cụ 39 3.2.1.Thuật tốn tìm tập rút gọn sử dụng entropy Liang 40 3.2.2.Lựa chọn công cụ cài đặt 41 3.3.Một số kết thử nghiệm 41 3.3.1.Kết thử nghiệm thuật tốn tìm tập rút gọn sử dụng khoảng cách 41 3.3.2.Kết thử nghiệm trích lọc luật theo tiếp cận tập thô .43 KẾT LUẬN 46 Tài liệu tham khảo .47 Phụ lục 49 Danh mục thuật ngữ Thuật ngữ tiếng Việt Tập thô Hệ thông tin Bảng định Quan hệ không phân biệt Xấp xỉ Xấp xỉ Rút gọn thuộc tính Tập rút gọn Tập lõi Luật định Khoảng cách Thuật ngữ tiếng Anh Rough Set Information System Decision Table Indiscernibility Relation Lower Approximation Upper Approximation Attribute Reduction Reduct Core Decision Rule Distance Danh sách bảng Bảng 1.1 Bảng thông tin bệnh cúm 10 Bảng 1.2 Bảng định bệnh cúm 13 Bảng 2.1 Các phương pháp rút gọn thuộc tính tài liệu [1, 2] .17 Bảng 2.2 Bảng định xe 21 Bảng 2.3 Bảng định minh họa thuật tốn tìm tập rút gọn 36 Bảng 3.1 Kết thực Thuật toán ELBAR Thuật toán DBAR .41 Bảng 3.2 Tập rút gọn Thuật toán ELBAR Thuật toán DBAR 42 Bảng 3.3 Kết thực Thuật toán ELBAK Thuật toán DBAK .42 số liệu lớn 42 Bảng 3.4 Tập rút gọn tốt số liệu Soybean-small 44 Bảng 3.5 Các luật phân lớp bảng định rút gọn sử dụng tập thô .45 Hình Giao diện chương trình 49 Hình Chọn liệu từ kho liệu UCI 50 Hình Tính phân hoạch với liệu IRIS.DATA từ kho liệu UCI 50 Hình Tính phân hoạch U/D liệu IRIS.DATA từ kho liệu UCI .51 Hình Tính phân hoạch U/C liệu IRIS.DATA từ kho liệu UCI .51 Hình Thực nghiệm tính khoảng cách liệu thuật toán Entropy Liang 51 MỞ ĐẦU Lý thuyết tập thô - Zdzislaw Pawlak [7] đề xuất vào năm đầu thập niên tám mươi kỷ hai mươi - xem công cụ hữu hiệu để giải toán phân lớp, phát luật…chứa liệu không đầy đủ, không chắn Từ xuất hiện, lý thuyết tập thô sử dụng hiệu bước trình khai phá liệu khám phá tri thức, bao gồm tiền xử lý số liệu, khai phá liệu đánh giá kết thu Rút gọn thuộc tính trích lọc luật định (luật phân lớp) hai ứng dụng lý thuyết tập thơ khai phá liệu Rút gọn thuộc tính thuộc giai đoạn tiền xử lý liệu trích lọc luật thuộc giai đoạn khai phá liệu Mục tiêu rút gọn thuộc tính loại bỏ thuộc tính dư thừa nhằm tìm tập nhỏ tập thuộc tính điều kiện (tập rút gọn) mà bảo tồn thông tin phân lớp bảng định Dựa tập rút gọn thu được, việc sinh luật phân lớp đạt hiệu cao Trong hai thập kỷ trở lại đây, chủ đề nghiên cứu rút gọn thuộc tính bảng định theo tiếp cận lý thuyết tập thô thu hút đông đảo cộng đồng nghiên cứu tập thơ tham gia [1] Có nhiều phương pháp rút gọn thuộc tính khác đề xuất sử dụng độ đo khác Các phương pháp điển hình tổng kết tài liệu [1] là: phương pháp dựa miền dương, phương pháp dựa ma trận phân biệt, phương pháp sử dụng độ đo entropy lý thuyết thông tin, phương pháp sử dụng độ đo tính tốn hạt, phương pháp sử dụng độ đo khoảng cách… Với mong muốn tổng hợp kết nghiên cứu phương pháp rút gọn thuộc tính bảng định theo tiếp cận tập thô, sở xây dựng phương pháp sử dụng độ đo (độ đo khoảng cách), luận văn đặt hai mục tiêu sau đây: 1) Tổng hợp phương pháp rút gọn thuộc tính trích lọc luật bảng định theo tiếp cận lý thuyết tập thô tài liệu [1, 2], bao gồm: - Phân nhóm phương pháp rút gọn thuộc tính mối liên hệ phương pháp dựa vào định nghĩa tập rút gọn - Trích lọc luật bảng định, bao gồm: luật định độ đo đánh giá hiệu năng, thay đổi độ đo đánh giá hiệu tập rút gọn đánh giá phương pháp dựa tiêu chuẩn chất lượng phân lớp (độ hỗ trợ) tập luật 2) Xây dựng thử nghiệm phương pháp rút gọn thuộc tính sử dụng độ đo khoảng cách, bao gồm: đề xuất độ đo khoảng cách xây dựng công thức tính khoảng cách hai tập thuộc tính; định nghĩa tập rút gọn độ quan trọng thuộc tính dựa khoảng cách; xây dựng thuật tốn heuristic tìm tập rút gọn tốt sử dụng khoảng cách; phân nhóm đánh giá phương pháp sử dụng khoảng cách với phương pháp có thử nghiệm phương pháp số liệu mẫu từ kho liệu UCI [12] Đối tượng nghiên cứu luận văn bảng định với kích thước trung bình kích thước lớn Phạm vi nghiên cứu luận văn tập trung vào toán rút gọn thuộc tính bước tiền xử lý số liệu trích lọc luật bước khai phá liệu trình khai phá liệu khám phá tri thức Phương pháp nghiên cứu luận văn nghiên cứu lý thuyết nghiên cứu thực nghiệm Về nghiên cứu lý thuyết: mệnh đề chứng minh chặt chẽ dựa vào kiến thức kết nghiên cứu công bố Về nghiên cứu thực nghiệm: luận văn thực cài đặt thuật toán, chạy thử nghiệm thuật toán với số liệu lấy từ kho liệu UCI [12], so sánh đánh giá kết thực nghiệm so với kết nghiên cứu lý thuyết, từ kết luận tính đắn kết nghiên cứu Bố cục luận văn gồm phần mở đầu ba chương nội dung, phần kết luận danh mục tài liệu tham khảo Chương trình bày khái niệm lý thuyết tập thô Pawlak [8] sử dụng chương chương Chương trình bày hai nội dung chính, thứ tổng kết công bố phương pháp rút gọn thuộc tính trích lọc luật, bao gồm phân nhóm phương pháp rút gọn thuộc tính, luật định độ đo đánh giá hiệu năng, thay đổi độ đo đánh giá hiệu tập rút gọn phương pháp, đánh giá phương pháp dựa vào chất lượng phân lớp (độ hỗ trợ) tập luật Thứ hai xây dựng phương pháp rút gọn thuộc tính sử dụng khoảng cách, bao gồm xây dựng độ đo khoảng cách, định nghĩa tập rút gọn độ quan trọng thuộc tính dựa khoảng cách, xây dựng thuật tốn heuristic tìm tập rút gọn tốt sử dụng khoảng cách; phân nhóm đánh giá phương pháp sử dụng khoảng cách với phương pháp có Chương trình bày kết thử nghiệm đánh giá phương pháp sử dụng khoảng cách số liệu mẫu từ kho liệu UCI [12] nhằm sáng tỏ kết nghiên cứu lý thuyết Cuối cùng, phần kết luận nêu đóng góp luận văn, hướng phát triển Chương TỔNG QUAN VỀ LÝ THUYẾT TẬP THƠ Chương trình bày khái niệm lý thuyết tập thô Pawlak [8] đề xuất Các khái niệm kiến thức tảng để sử dụng cho chương sau luận văn 1.1 Hệ thông tin Hệ thông tin công cụ biểu diễn tri thức dạng bảng liệu gồm p cột ứng với p thuộc tính n hàng ứng với n đối tượng Một cách hình thức, hệ thơng tin định nghĩa sau Định nghĩa 1.1 Hệ thông tin IS = ( U , A ) U tập hữu hạn, khác rỗng đối tượng; A tập hữu hạn, khác rỗng thuộc tính Với u ∈ U , a ∈ A , ta ký hiệu giá trị thuộc tính a đối tượng u a ( u ) thay f ( u , a ) Nếu B = { b1 , b2 , , bk } ⊆ A tập thuộc tính ta ký hiệu giá trị bi ( u ) B ( u ) Như vậy, u v hai đối tượng, ta viết B ( u ) = B ( v ) bi ( u ) = bi ( v ) với i = 1, , k Xét hệ thông tin IS = ( U , A ) Mỗi tập thuộc tính P ⊆ A xác định quan hệ hai U, ký hiệu IND ( P ) , xác định { } IND ( P ) = ( u , v ) ∈ U × U ∀a ∈ P, a ( u ) = a ( v ) IND ( P ) quan hệ P-không phân biệt Dễ thấy IND ( P ) quan hệ tương đương U Nếu ( u , v ) ∈ IND ( P ) hai đối tượng u v khơng phân biệt thuộc tính P Quan hệ tương đương IND ( P ) xác định phân hoạch U, ký hiệu U / IND ( P ) hay U / P Ký hiệu lớp tương đương phân hoạch U / P chứa đối tượng u [ u ] P , [ u ] P = { v ∈ U ( u, v ) ∈ IND ( P ) } 39 Chương THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 3.1 Bài tốn Cho trước bảng định với kích thước trung bình kích thước lớn, nhiệm vụ phần thử nghiệm đánh giá đặt là: Đánh giá tính hiệu thuật tốn rút gọn thuộc tính sử dụng khoảng cách (Thuật tốn DBAR) với thuật tốn Nhóm (gồm phương pháp sử dụng entropy Liang, phương pháp sử dụng độ khác biệt tri thức, phương pháp sử dụng ma trận phân biệt) Luận văn chọn thuật tốn rút gọn thuộc tính sử dụng entropy Liang (của phương pháp rút gọn thuộc tính sử dụng entropy Liang), gọi tắt thuật toán ELBAR (Entropy Liang Based Attribute Reduction) để so sánh với thuật tốn DBAR phương pháp hiệu phương pháp khác Nhóm [1] Để thực nhiệm vụ đặt ra, luận văn thực công việc sau: - Cài đặt thuật toán DBAR thuật tốn rút gọn thuộc tính sử dụng entropy Liang (thuật toán ELBAR) - Thử nghiệm hai thuật toán số liệu lấy từ kho liệu UCI [12], so sánh thời gian thực kết thực hai thuật toán số liệu thử nghiệm chọn - Cài đặt thực thuật tốn trích lọc luật RuleExtract tập rút gọn tìm Thuật tốn DBAR 3.2 Phân tích, lựa chọn công cụ Để thực công việc nêu trên, trước hết luận văn trình bày thuật tốn rút gọn thuộc tính sử dụng entropy Liang [5], gọi tắt thuật toán ELBAR (Entropy Liang Based Attribute Reduction) 40 3.2.1 Thuật tốn tìm tập rút gọn sử dụng entropy Liang Trong [5], J.Y Liang cộng đưa khái niệm tập rút gọn dựa entropy mới, gọi entropy Liang Cho bảng định DS = ( U , C ∪ D ) Giả sử U / C = {C1 , C2 , , Cm }, U / D = {D1 , D2 , , Dn } Entropy Liang có điều kiện D biết C định nghĩa: n m E ( D C ) = ∑∑ i =1 j =1 Di ∩ C j Dic ∩ C j U U n m = ∑∑ i =1 j =1 Di ∩ C j C j − ( Di ∩ C j ) U U Nếu tập thuộc tính R ⊆ A thỏa mãn: 1) E ( D R ) = E ( D C ) 2) ∀r ∈ R, E ( D ( R − { r} ) ) ≠ E ( D C ) R gọi tập rút gọn DS dựa entropy Liang Thuật tốn tìm tập rút gọn sử dụng entropy Liang, gọi tắt thuật tốn NEBAR, mơ tả sau: Thuật tốn ELBAR Tìm tập rút gọn bảng định sử dụng entropy Liang [5] (Entropy Liang Based Attribute Reduction) Đầu vào: Bảng định DS = ( U , C ∪ D,V , f ) Đầu ra: Một tập rút gọn R R = ∅ ; Tính E ( D R ) , E ( D C ) ; // Thêm dần vào R thuộc tính có độ quan trọng lớn While E ( D R ) ≠ E ( D C ) Begin For each b ∈ C − R tính SIGR ( b ) = E ( D R ) − E ( D R ∪ { b} ) ; { SIGR ( b ) } ; Chọn bm ∈ C − R cho SIGR ( mm ) = bMax ∈C − R R = R ∪ { bm } ; 41 End; // Loại bỏ thuộc tính dư thừa R có For each b ∈ R 10.If E ( D R − { b} ) = E ( D C ) then R = R − { b} ; 11 Return R ; 3.2.2 Lựa chọn công cụ cài đặt Luận văn sử dụng cơng cụ ngơn ngữ lập trình C# môi trường hệ điều hành Windows XP Professional để thực cài đặt thuật tốn rút gọn thuộc tính DBAR, ELBAR thuật tốn trích lọc luật định RuleExtract 3.3 Một số kết thử nghiệm 3.3.1 Kết thử nghiệm thuật tốn tìm tập rút gọn sử dụng khoảng cách Sau cài đặt thuật toán rút gọn thuộc tính sử dụng khoảng cách (DBAR) thuật tốn rút gọn thuộc tính sử dụng entropy Liang (ELBAR), tác giả tiến hành thử nghiệm hai thuật toán số liệu vừa nhỏ lấy từ kho liệu UCI [12] Môi trường thử nghiệm máy tính LAPTOP với cấu hình Intel Core i3 2.13 GHz CPU, 2GB nhớ RAM, sử dụng hệ điều hành Windows 8.1 Với số liệu, giả sử U số đối tượng, C số thuộc tính điều kiện, R số thuộc tính tập rút gọn, t thời gian thực thuật toán (đơn vị giây s) Các thuộc tính điều kiện đánh số thứ tự từ đến C Bảng 3.1 Bảng 3.2 mô tả kết thực hai thuật toán Bảng 3.1 Kết thực Thuật toán ELBAR Thuật toán DBAR STT Bộ số liệu Hepatitis.data Lung-cancer.data Automobile.data U 155 32 205 C 19 56 25 Thuật toán Thuật toán ELBAR t R DBAR t R 4 4 1.296 0.187 0.89 0.171 1.687 42 Anneal.data Congressional 798 435 38 16 15 179 25.562 15 86.921 16.734 Voting Records Credit Approval 690 15 29.703 15.687 Bảng 3.2 Tập rút gọn Thuật toán ELBAR Thuật toán DBAR STT Bộ số liệu Tập rút gọn Tập rút gọn Hepatitis.data Lung-cancer.data Automobile.data Anneal.data Thuật toán ELBAR {1, 2, 4, 17} {3, 4, 9, 43} {1, 13, 14, 20, 21} {1, 3, 4, 5, 8, 9, 33, 34, Thuật toán DBAR {1, 2, 4, 17} {3, 4, 9, 43} {1, 13, 14, 20, 21} {1, 3, 4, 5, 8, 9, 33, 34, Congressional 35} {1, 2, 3, 4, 5, 7, 8, 9, 10, 35} {1, 2, 3, 4, 5, 7, 8, 9, 10, Voting Records Credit Approval 11, 12, 13, 14, 15, 16} {1, 2, 3, 4, 5, 6, 8} 11, 12, 13, 14, 15, 16} {1, 2, 3, 4, 5, 6, 8} Kết thử nghiệm cho thấy − Trên số liệu chọn, tập rút gọn thu Thuật toán DBAR Thuật toán ELBAR Kết phù hợp với kết nghiên cứu lý thuyết trình bày phần − Thời gian thực Thuật toán DBAR nhanh Thuật toán ELBAR, Thuật tốn DBAR hiệu Thuật tốn ELBAR Tiếp theo, tác giả tiến hành thử nghiệm Thuật toán DBAR Thuật toán ELBAR số liệu kích thước lớn Kết thử nghiệm mơ tả bảng sau: Bảng 3.3 Kết thực Thuật toán ELBAK Thuật toán DBAK số liệu lớn ST T Bộ số liệu U C Thuật toán Thuật toán ELBAR DBAR 43 ST T t R Census-Income.data Adult.data Dorothea.data R t 299285 48842 1950 40 21 14 1000 92 11415 1270 2867 21 92 5206 675 1247 8977 4376 17 14289 17 7256 Poker-hand- 1000000 00 11 testing.data CovType.data 581012 54 Với số liệu có kích thước lớn, rõ ràng thời gian thực Thuật toán DBAR nhỏ nhiều Thuật toán ELBAR, số liệu kích thước lớn, Thuật tốn DBAR hiệu 3.3.2 Kết thử nghiệm trích lọc luật theo tiếp cận tập thơ Cho bảng định DS = ( U , C ∪ D ) , giả sử U / C = { X , X , , X m } U / D = {Y1 , Y2 , , Yn } Với X i ∈ U / C , Y j ∈ U / C X i ∩ Y j ≠ ∅ Thuật toán RuleExtract hiển thị luật định dạng Z ij : des ( X i ) → des ( Y j ) với độ chắn µ ( Z ij ) = X i ∩ Y j / X i đỗ hỗ trợ s ( Z ij ) = X i ∩ Y j / U tương ứng Thuật toán RuleExtract Input: Bảng định DS = (U, C∪D, V, f) Output: Hiển thị danh sách luật với độ chắn µ độ hỗ trợ s Tính phân hoạch U / C ; For each X i ∈ U / C Begin Tính X i / D ; For each Y j ∈ X i / D Begin 44 Sinh luật Z ij : des ( X i ) → des ( Y j ) Tính µ ( Z ij ) = Y j / X i ; Tính s ( Z ij ) = Y j / U ; 10 Hiển thị luật Z ij , độ chắn µ ( Z ij ) , độ hỗ trợ s ( Zij ) ; 11 End; 12 End; 13 Return Thuật toán RuleExtract sinh luật định (luật phân lớp) sử dụng tập thô cài đặt ngôn ngữ C# Mơi trường thử nghiệm máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB nhớ RAM, sử dụng hệ điều hành Windows XP Professional Bộ số liệu thử nghiệm Soybean-small.data lấy từ kho liệu UCI [12] Soybean-small.data số liệu rời rạc hóa với miền giá trị thuộc tính số nguyên dương 1) Thử nghiệm Thuật toán DBAR tìm tập rút gọn tốt Với số liệu thử nghiệm, giả sử U số đối tượng, C số thuộc tính điều kiện, α ( DS ) độ ' chắn bảng định với tập thuộc tính ban đâu, α ( DS ) độ chắn bảng định với tập thuộc tính rút gọn, thuộc tính điều kiện đặt tên theo thứ tự từ c1, c2,…,cn Kết thử nghiệm mô tả Bảng 3.7 Bảng 3.4 Tập rút gọn tốt số liệu Soybean-small STT Bộ số liệu U C Tập thuộc α ( DS ) tính ban đầu Soybeansmall.data 47 35 {c1,…,c35} Tập thuộc α ( DS ' ) tính rút gọn {c4, c22} 45 2) Thử nghiệm Thuật toán RuleExtract sinh luật định (luật phân lớp) sử dụng tập thô với số liệu Soybean-small.data Trên bảng định ban đầu với 35 thuộc tính điều kiện {c1,…,c35}, kết thử nghiệm thu 47 luật phân lớp, độ dài luật 35 (được tính tổng số thuộc tính điều kiện tham gia vào vế trái luật) Trên bảng định rút gọn với thuộc tính điều kiện {c4, c22}, kết thử nghiệm mơ tả Bảng 3.8, đó: tổng số luật phân lớp 7, độ dài luật 2, µ độ chắn s độ hỗ trợ luật Bảng 3.5 Các luật phân lớp bảng định rút gọn sử dụng tập thô STT Các luật bảng định rút gọn µ s c4(1) and c22(1) ==> D1 0.12766 c4(1) and c22(0) ==> D1 0.08511 c4(2) and c22(3) ==> D2 0.12766 c4(1) and c22(3) ==> D2 0.08511 c4(0) and c22(1) ==> D3 0.21277 c4(1) and c22(2) ==> D4 0.21277 c4(0) and c22(2) ==> D4 0.14894 Chú thích: Trên bảng Bảng 3.8, c4(1) nghĩa thuộc tính c4 nhận giá trị (c4 = 1) D1, D2, D3, D4 giá trị thuộc tính định (tổng số lớp định) Kết thử nghiệm cho thấy, tập rút gọn tốt thu Thuật toán DBAR, số lượng luật từ 47 giảm xuống 7, độ dài luật từ 35 giảm xuống Độ chắn tập luật không thay đổi (bằng 1) Kết khẳng định ý nghĩa việc rút gọn thuộc tính bước tiền xử lý liệu 46 KẾT LUẬN 1) Những kết luận văn Luận văn tập trung vào hướng nghiên cứu lý thuyết Nội dung nghiên cứu luận văn bao gồm hai phần: phần nghiên cứu tổng hợp kết công bố phần xây dựng phương pháp dựa độ đo Luận văn có hai kết chính: (1) Tổng kết kết công bố hướng nghiên cứu rút gọn thuộc tính trích lọc luật bảng định theo tiếp cận tập thô, bao gồm: - Phân nhóm phương pháp rút gọn thuộc tính dựa vào tập rút gọn - Luật định độ đo đánh giá hiệu tập luật định - Sự thay đổi độ đo đánh giá hiệu tập rút gọn, từ đánh giá nhóm phương pháp dựa tiêu chuẩn chất lượng phân lớp tập rút gọn (độ hỗ trợ tập luật) (2) Theo hướng tiếp cận khoảng cách, luận văn đề xuất độ đo khoảng cách xây dựng phương pháp rút gọn thuộc tính sử dụng khoảng cách thử nghiệm phương pháp số liệu mẫu từ kho liệu thử nghiệm UCI [13] Phương pháp sử dụng khoảng cách thuộc nhóm 3, tập rút gọn tương đương với phương pháp thuộc nhóm 2) Hướng phát triển Tiếp tục nghiên cứu phương pháp gia tăng rút gọn thuộc tính bảng định trường hợp bổ sung loại bỏ tập đối tượng, tập thuộc tính 47 Tài liệu tham khảo Tài liệu tiếng Việt [1] Nguyễn Long Giang, “Khai phá liệu theo tiếp cận lý thuyết tập thô”, Luận án Tiến sĩ Tốn học, Viện Cơng Nghệ Thơng Tin, 2012 [2] Nguyễn Long Giang, Phạm Hoàng Tuyên, Nghiên cứu thay đổi giá trị độ đo đánh giá hiệu tập luật định tập rút gọn, Kỷ yếu Hội thảo Quốc gia lần thứ XV “Một số vấn đề chọn lọc Công nghệ thông tin truyền thông”, Hà Nội 11/2012, 2013, Tr 295-301 Tài liệu tiếng Anh [3] Andrzej Skowron and Rauszer C (1992), “The Discernibility Matrices and Functions in Information Systems”, Interlligent Decision Support, Handbook of Applications and Advances of the Rough Sets Theory, Kluwer, Dordrecht, pp 331-362 [4] [5] Deza M M and Deza E., “Encyclopedia of Distances”, Springer, 2009 Liang J.Y, Chin K.S., Dang C.Y and Richard C.M.YAM, “New method for measuring uncertainty and fuzziness in rough set theory”, [6] International Journal of General Systems 31, 2002, pp 331-342 Long Giang Nguyen, “Metric Based Attribute Reduction in Decision Tables”, The 2012 International Workshop on Rough Sets Applications [7] (RSA’2012), FedCSIS Proceedings, IEEE, 2012, pp 333-338 Pawlak Z (1982), “Rough sets”, International Journal of Computer [8] and Information Sciences, 11(5): 341-356 Pawlak Z., Rough sets: Theoretical Aspects of Reasoning About Data, Kluwer Aca-demic Publishers, 1991 [9] Qian Y.H., Liang J.Y., Li D.Y., Zhang H.Y and Dang C.Y (2008), “Measures for Evaluating The Decision Performace of a Decision Table in Rough Set Theory”, Information Sciences, Vol.178, pp.181-202 48 [10] Wang F., Liang J Y, Qian Y H., “Attribute reduction: A dimension incremental strategy”, Knowledge-Based Systems, Volume 39, 2013, [11] pp 95–108 Z Y Xu, Z P Liu, B R Yang, W Song., “A quick attribute reduction algorithm with complexity of max(O(|C||U|), O(|C|2|U/C|))”, Journal [12] of Computer, Vol 29, no 3, pp 391-398, 2006 The UCI machine learning repository, 49 Phụ lục Một số giao diện chương trình thử nghiệm Hình Giao diện chương trình 50 Hình Chọn liệu từ kho liệu UCI Hình Tính phân hoạch với liệu IRIS.DATA từ kho liệu UCI 51 Hình Tính phân hoạch U/D liệu IRIS.DATA từ kho liệu UCI Hình Tính phân hoạch U/C liệu IRIS.DATA từ kho liệu UCI Hình Thực nghiệm tính khoảng cách liệu thuật toán Entropy Liang 52 Kết chạy với liệu IRIS.DATA từ kho liệu UCI: - Tập rút gọn: {C1,C2,C3} - Tập dư thừa: {C4} - Số thuộc tính sau rút gọn: - Thời gian tính tốn: giây 328 mili giây Hình Thực nghiệm tính khoảng cách liệu thuật toán DBAR 53 Kết chạy với liệu IRIS.DATA từ kho liệu UCI: - Tập rút gọn: {C1,C2,C3} - Tập dư thừa: {C4} - Số thuộc tính sau rút gọn: - Thời gian tính tốn: giây 62 mili giây ... Chương RÚT GỌN THUỘC TÍNH VÀ TRÍCH LỌC LUẬT TRONG BẢNG QUYẾT ĐỊNH THEO TIẾP CẬN TẬP THÔ 16 2.1 .Rút gọn thuộc tính trích lọc luật bảng định 16 2.1.1.Tổng kết, phân nhóm phương pháp rút gọn. .. GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ HỒNG HẠNH NGHIÊN CỨU CÁC TẬP RÚT GỌN VÀ LUẬT TRONG BẢNG QUYẾT ĐỊNH THEO TIẾP CẬN LÝ THUYẾT TẬP THƠ Ngành: Cơng nghệ thơng tin Chun ngành: Hệ thống... tập rút gọn RS , RE , RK Mối liên hệ tập rút gọn nhóm sau: • Nếu R3 tập rút gọn thuộc nhóm tồn tập rút gọn R2 thuộc nhóm tập rút gọn R1 thuộc nhóm cho R1 ⊆ R2 ⊆ R3 20 Dựa vào phân nhóm tập rút