Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 57 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
57
Dung lượng
1,39 MB
Nội dung
1 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG LÊ TRƢỜNG GIANG PHƢƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH SỬ DỤNG ĐỘ ĐO KHOẢNG CÁCH LUẬN VĂN THẠC SĨ KỸ THUẬT Thái Nguyên - 2014 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ LỜI CẢM ƠN Lời cảm ơn trân trọng em muốn dành tới TS Nguyễn Long Giang, người thầy dìu dắt hướng dẫn tơi suốt q trình làm luận văn, bảo định hướng thầy giúp tự tin nghiên cứu vấn đề giải toán cách khoa học Em xin trân trọng cảm ơn Ban giám hiệu thầy cô Trường Đại học Công nghệ Thông tin Truyền thông, Đại học Thái nguyên tạo điều kiện cho chúng tơi học tập làm khóa luận cách thuận lợi Lời cảm ơn sâu sắc muốn gửi tới thầy giáo Viện Công nghệ Thông tin - Viện hàn lâm khoa học Công nghệ Việt Nam, người thầy dạy dỗ mở cho thấy chân trời tri thức mới, hướng dẫn cách khám phá làm chủ công nghệ Xin cảm ơn Trung tâm Quản lý Chất lượng – Trường Đại học Công nghiệp Hà Nội tạo điều kiện để học hồn thành tốt khố học Mặc dù cố gắng nhiều, chắn trình học tập luận văn khơng khỏi thiếu sót Em mong thông cảm bảo tận tình thầy bạn Thái Nguyên, tháng …… năm 2014 Lê Trƣờng Giang Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ MỤC LỤC MỤC LỤC Danh mục thuật ngữ Bảng ký hiệu, từ viết tắt Danh sách bảng .7 MỞ ĐẦU .8 Chương RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN LÝ THUYẾT TẬP THÔ 11 1.1 Các khái niệm lý thuyết tập thô 11 1.1.1 Hệ thông tin tập thô 11 1.1.2 Bảng định 14 1.2 Rút gọn thuộc tính bảng định theo tiếp cận lý thuyết tập thô 16 1.2.1 Tổng kết phương pháp rút gọn thuộc tính bảng định 16 1.2.2 Kết phân nhóm phương pháp rút gọn thuộc tính dựa vào tập rút gọn 20 1.2.3 Kết lựa chọn, so sánh, đánh giá phương pháp 21 Chương RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI SỬ DỤNG KHOẢNG CÁCH 24 2.1 Phương pháp rút gọn thuộc tính sử dụng khoảng cách 24 2.1.1 Khoảng cách hai tập hợp hữu hạn 24 2.1.2 Khoảng cách hai tri thức tính chất 25 2.1.3 Tập rút gọn bảng định dựa khoảng cách 28 2.1.4 Thuật tốn tìm tập rút gọn sử dụng khoảng cách 29 2.2 Thuật toán gia tăng tìm tập rút gọn sử dụng khoảng cách bổ sung đối tượng 33 2.2.1 Cơng thức gia tăng tính khoảng cách bổ sung đối tượng 33 2.2.2 Thuật toán gia tăng tìm tập rút gọn bổ sung đối tượng 35 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 2.3 Thuật tốn tìm tập rút gọn sử dụng khoảng cách loại bỏ đối tượng 38 2.3.1 Công thức tính khoảng cách loại bỏ đối tượng 38 2.3.2 Thuật tốn tìm tập rút gọn loại bỏ đối tượng 40 Chương THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ .41 3.1 Bài toán 41 3.2 Phân tích, lựa chọn cơng cụ .42 3.2.1 Thuật tốn rút gọn thuộc tính sử dụng entropy Liang 42 3.2.2 Mơ tả thuật tốn gia tăng tìm tập rút gọn bổ sung tập đối tượng 43 3.2.3 Lựa chọn công cụ cài đặt 44 3.3 Một số kết thử nghiệm 44 3.3.1 Kết thử nghiệm thuật tốn tìm tập rút gọn sử dụng khoảng cách 44 3.3.2 Kết thử nghiệm thuật toán gia tăng rút gọn thuộc tính sử dụng khoảng cách 47 KẾT LUẬN 51 Tài liệu tham khảo 52 Danh mục cơng trình tác giả 54 Phụ lục 55 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ Danh mục thuật ngữ Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh Tập thô Rough Set Hệ thông tin Information System Bảng định Decision Table Bảng định quán Consistent Decision Table Bảng định không quán Inconsistent Decision Table Quan hệ không phân biệt Indiscernibility Relation Xấp xỉ Lower Approximation Xấp xỉ Upper Approximation Rút gọn thuộc tính Attribute Reduction Tập rút gọn Reduct Tập lõi Core Ma trận phân biệt Indiscernibility Matrix Hàm phân biệt Indiscernibility Function Luật định Decision Rule Khoảng cách Distance Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ Bảng ký hiệu, từ viết tắt Ký hiệu, từ viết tắt Diễn giải IS Hệ thông tin U , A,V , f DS U,C D, V , f Bảng định U Số đối tượng C Số thuộc tính điều kiện bảng định A Số thuộc tính hệ thơng tin u a Giá trị đối tượng u thuộc tính a IND B Quan hệ B u Lớp tương đương chứa u quan hệ IND B B không phân biệt U/B Phân hoạch U sinh tập thuộc tính B BX B xấp xỉ X BX B xấp xỉ X BN B X B - miền biên X POS B D B miền dương D RED C Họ tất tập rút gọn bảng định CORE C Tập lõi bảng định K P Tri thức sinh tập thuộc tính P hệ thơng tin Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ Danh sách bảng Bảng 1.1 Bảng thông tin bệnh cúm 13 Bảng 1.2: Bảng định bệnh cúm 15 Bảng 1.3 Bảng định bệnh cúm 18 Bảng 1.4 Ký hiệu tập rút gọn bảng định 20 Bảng 2.1 Bảng định minh họa thuật tốn tìm tập rút gọn 31 Bảng 3.1 Kết thực Thuật toán NEBAR Thuật toán DBAR 45 Bảng 3.2 Tập rút gọn Thuật toán NEBAR Thuật toán DBAR 45 Bảng 3.3 Kết thực Thuật toán NEBAK Thuật toán DBAK 46 số liệu lớn 46 Bảng 3.4 04 số liệu thử nghiệm 47 Bảng 3.5 Kết thực thuật toán DBAR số liệu ban đầu 48 Bảng 3.6 Kết thực thuật toán DBAR thuật toán gia tăng OSIDBAR 49 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ MỞ ĐẦU Lựa chọn thuộc tính, cịn gọi trích chọn đặc trưng, toán quan trọng khai phá liệu học máy Lựa chọn thuộc tính sử dụng lý thuyết tập thô [9] gọi rút gọn thuộc tính Rút gọn thuộc tính bảng định tốn tìm tập nhỏ tập thuộc tính điều kiện mà bảo tồn thơng tin phân lớp bảng định, gọi tập rút gọn Trong hai thập kỷ trở lại đây, chủ đề nghiên cứu rút gọn thuộc tính theo tiếp cận lý thuyết tập thô thu hút đông đảo cộng đồng nghiên cứu tập thơ tham gia [1] Có nhiều phương pháp rút gọn thuộc tính khác đề xuất sử dụng độ đo khác miền dương, ma trận phân biệt, độ đo entropy lý thuyết thông tin, độ đo tính tốn hạt, độ đo khoảng cách Tuy nhiên, hầu hết nghiên cứu rút gọn thuộc tính thực bảng định với tập đối tượng tập thuộc tính cố định, khơng thay đổi Trong thực tế, bảng định bị cập nhật thay đổi với trường hợp: bổ sung loại bỏ tập đối tượng, bổ sung loại bỏ tập thuộc tính, cập nhật tập đối tượng tồn Mỗi thay đổi vậy, lại phải thực lại thuật tốn tìm tập rút gọn toàn tập đối tượng, chi phí thời gian thực thuật tốn tìm tập rút gọn lớn Trong năm gần đây, số cơng trình nghiên cứu xây dựng phương pháp gia tăng rút gọn thuộc tính bảng định thay đổi dựa độ đo khác [3, 4, 6, 10, 11, 12] Trong [3, 4, 12], tác giả xây dựng phương pháp gia tăng tìm tập rút gọn dựa miền dương ma trận phân biệt bổ sung tập đối tượng Trong [10], tác giả xây dựng cơng thức tính độ đo entropy (entropy Shannon, entropy Liang, entropy kết hợp) bổ sung, loại bỏ thuộc tính Tuy nhiên, cơng thức tính tốn entropy [10] cịn phức tạp Về hướng tiếp cận rút gọn thuộc Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ tính sử dụng độ đo khoảng cách định nghĩa qua khái niệm lý thuyết tập thô, [1, 7] tác giả sử dụng độ đo khoảng cách Jaccard để giải toán rút gọn thuộc tính bảng đinh Tuy nhiên, tác giả [1, 7] giải toán rút gọn thuộc tính trường hợp bảng định cố định, không thay đổi Mục tiêu luận văn xây dựng phương pháp rút gọn thuộc tính bảng định thay đổi dựa vào độ đo khoảng cách hai trường hợp: bổ sung đối tượng loại bỏ đối tượng có Đối tƣợng nghiên cứu luận văn bảng định với liệu thay đổi bổ sung loại bỏ đối tượng Phạm vi nghiên cứu: Với công cụ lý thuyết tập thô, đề tài tập trung nghiên cứu phương pháp gia tăng tìm tập rút gọn bảng định bổ sung loại bỏ tập đối tượng Phƣơng pháp nghiên cứu đề tài nghiên cứu lý thuyết nghiên cứu thực nghiệm Về nghiên cứu lý thuyết: Nghiên cứu kết cơng bố xây dựng cơng thức tính tốn gia tăng bổ sung loại bỏ đối tượng, sở đề xuất thuật tốn hiệu Về nghiên cứu thực nghiệm: Cài đặt thử nghiệm thuật tốn, thuật tốn gia tăng tìm tập rút gọn sử dụng khoảng cách số liệu mẫu lấy từ kho liệu UCI [14] nhằm đánh giá tính hiệu phương pháp gia tăng so với phương pháp truyền thống Bố cục luận văn gồm phần mở đầu, ba chương nội dung, phần kết luận mục tài liệu tham khảo Chương 1: Trình bày số khái niệm lý thuyết tập thô kết nghiên cứu phương pháp rút gọn thuộc tính bảng Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 10 định theo tiếp cận heuristic, kết nghiên cứu phân nhóm, so sánh đánh giá phương pháp Chương 2: Trình bày bước xây dựng phương pháp rút gọn thuộc tính sử dụng độ đo khoảng cách, bao gồm định nghĩa độ đo khoảng cách, định nghĩa tập rút gọn độ quan trọng thuộc tính dựa khoảng cách thuật tốn heuristic tìm tập rút gọn tốt sử dụng khoảng cách Trên sở đó, chương trình bày nội dung xây dựng thuật tốn tìm tập rút gọn bảng định thay đổi trường hợp bổ sung loại bỏ đối tượng theo hướng tiếp cận tính tốn gia tăng Chương 3: Trình bày kết thử nghiệm đánh giá thuật tốn tìm tập rút gọn theo hướng tiếp cận gia tăng trường hợp bổ sung loại bỏ đối tượng So sánh kết thực so với phương pháp truyền thống tính tốn lại tập rút gọn tồn tập đối tượng để thấy rõ tính hiệu phương pháp gia tăng Phần kết luận: Tóm tắt kết đạt luận văn hướng phát triển tác giả luận văn Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 43 R gọi tập rút gọn DS dựa entropy Liang Thuật tốn tìm tập rút gọn sử dụng entropy Liang, gọi tắt thuật toán NEBAR, mơ tả sau: Thuật tốn NEBAR Tìm tập rút gọn bảng định sử dụng entropy Liang [5] (New Entropy Based Attribute Reduction) Đầu vào: Đầu ra: R Bảng định DS U,C D, V , f Một tập rút gọn R ; Tính E D R , E D C ; // Thêm dần vào R thuộc tính có độ quan trọng lớn While E D R E D C Begin For each b C R tính SIGR b E DR Chọn bm C R cho SIGR mm R R E DR b ; Max SIGR b ; b C R bm ; End; // Loại bỏ thuộc tính dư thừa R có For each b R 10 If E D R b E D C then R R b ; 11 Return R ; 3.2.2 Mô tả thuật tốn gia tăng tìm tập rút gọn bổ sung tập đối tƣợng Thuật toán OSIDBAR (Object Set Incremental Distance Based Attribute Reduction) Thuật tốn gia tăng tìm tập rút gọn dựa khoảng cách bổ sung đối tượng Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 44 Đầu vào: Bảng định DS U,C D,V , f , tập rút gọn RU U tập đối tượng X Đầu ra: Tập rút gọn RU X U X For x X Begin // Gọi thuật tốn tìm tập rút gọn bổ sung đối tượng x Tính R IDBAR U , x ; U : U x End; Return R; 3.2.3 Lựa chọn công cụ cài đặt Chúng sử dụng công cụ ngôn ngữ lập trình C# mơi trường hệ điều hành Windows 8.1 để thực cài đặt Thuật toán DBAR Thuật toán OSIDBAR Bộ số liệu thử nghiệm lấy từ kho liệu UCI [14] 3.3 Một số kết thử nghiệm 3.3.1 Kết thử nghiệm thuật tốn tìm tập rút gọn sử dụng khoảng cách Sau cài đặt thuật tốn rút gọn thuộc tính sử dụng khoảng cách (DBAR) thuật tốn rút gọn thuộc tính sử dụng entropy Liang (NEBAR), tiến hành thử nghiệm hai thuật toán số liệu vừa nhỏ lấy từ kho liệu UCI [14] Môi trường thử nghiệm máy tính LAPTOP với cấu hình Intel Core i3 2.13 GHz CPU, 2GB nhớ RAM, sử dụng hệ điều hành Windows 8.1 Với số liệu, giả sử U số đối tượng, C số thuộc tính điều kiện, R số thuộc tính tập rút gọn, t thời gian thực thuật toán (đơn vị giây s) Các thuộc tính điều kiện đánh số thứ tự từ đến C Bảng 3.1 Bảng 3.2 mô tả kết thực hai thuật tốn Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 45 Bảng 3.1 Kết thực Thuật toán NEBAR Thuật toán DBAR STT U Bộ số liệu Thuật toán Thuật toán NEBAR DBAR C R t R t Hepatitis.data 155 19 1.296 0.89 Lung-cancer.data 32 56 0.187 0.171 Automobile.data 205 25 5 1.687 Anneal.data 798 38 179 86.921 Congressional 435 16 15 25.562 15 16.734 690 15 29.703 15.687 Voting Records Credit Approval Bảng 3.2 Tập rút gọn Thuật toán NEBAR Thuật toán DBAR STT Bộ số liệu Tập rút gọn Tập rút gọn Thuật toán NEBAR Thuật toán DBAR Hepatitis.data {1, 2, 4, 17} {1, 2, 4, 17} Lung- {3, 4, 9, 43} {3, 4, 9, 43} cancer.data Automobile.data {1, 13, 14, 20, 21} {1, 13, 14, 20, 21} Anneal.data {1, 3, 4, 5, 8, 9, 33, 34, {1, 3, 4, 5, 8, 9, 33, 34, 35} 35} Congressional {1, 2, 3, 4, 5, 7, 8, 9, {1, 2, 3, 4, 5, 7, 8, 9, Voting 10, 11, 12, 13, 14, 15, 10, 11, 12, 13, 14, 15, Records.data 16} 16} Credit Approval {1, 2, 3, 4, 5, 6, 8} {1, 2, 3, 4, 5, 6, 8} Kết thử nghiệm cho thấy Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 46 Trên số liệu chọn, tập rút gọn thu Thuật toán DBAR Thuật toán NEBAR Kết phù hợp với kết nghiên cứu lý thuyết trình bày phần Thời gian thực Thuật toán DBAR nhanh Thuật toán NEBAR, Thuật tốn DBAR hiệu Thuật tốn NEBAR Tiếp theo, tiến hành thử nghiệm Thuật toán DBAR Thuật toán NEBAR số liệu kích thước lớn Kết thử nghiệm mơ tả bảng sau: Bảng 3.3 Kết thực Thuật toán NEBAK Thuật toán DBAK số liệu lớn ST T STT U Bộ số liệu Census- Thuật toán Thuật toán NEBAR DBAR C R t t R 299285 40 21 11415 21 5206 Income.data Adult.data 48842 14 1270 675 Dorothea.data 1950 100 92 2867 92 1247 11 8977 4376 54 17 14289 17 7256 000 Poker-hand- 100000 testing.data CovType.data 581012 Với số liệu có kích thước lớn, rõ ràng thời gian thực Thuật toán DBAR nhỏ nhiều Thuật toán NEBAR, số liệu kích thước lớn, Thuật tốn DBAR hiệu Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 47 3.3.2 Kết thử nghiệm thuật toán gia tăng rút gọn thuộc tính sử dụng khoảng cách Sau cài đặt thuật tốn rút gọn thuộc tính dựa khoảng cách nguyên thủy (DBAR) thuật toán gia tăng bổ sung tập đối tượng (OSIDBAR), luận văn tiến hành thử nghiệm hai thuật toán 04 số liệu thử nghiệm lấy từ kho liệu UCI [14] Với số liệu thử nghiệm, luận văn lấy ngẫu nhiên 80% số đối tượng cho bảng định ban đầu Bảng 3.4 04 số liệu thử nghiệm Số đối STT Bộ số liệu tƣợng U Số đối tƣợng bảng định ban đầu (80%) Số thuộc tính C Hepatitis.data 155 124 19 Automobile.data 205 164 25 Anneal.data 798 638 38 Credit Approval 690 552 15 Môi trường thử nghiệm máy tính LAPTOP với cấu hình Pentium Core i3 2.13 GHz CPU, 2GB nhớ RAM, sử dụng hệ điều hành Windows 8.1 1) Thực thuật toán DBAR để tìm tập rút gọn bảng định ban đầu, luận văn thu kết Bảng 3.5 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 48 Bảng 3.5 Kết thực thuật toán DBAR số liệu ban đầu STT Bộ số liệu Số đối Số thuộc Số thuộc tƣợng tính tính U điều tập rút kiện C gọn Tập rút gọn Hepatitis.data 124 19 {1, 2, 4, 17} Automobile.data 164 25 {1, 13, 14, 21} Anneal.data 638 38 {1, 3, 4, 5, 8, 33, 34} Credit Approval 552 15 {1, 3, 4, 5, 8} 2) Thực bổ sung 20% số đối tượng lại cho số liệu Tiến hành thử nghiệm thuật toán DBAR toàn 100% tập đối tượng thử nghiệm thuật toán gia tăng OSIDBAR bổ sung thêm 20% số đối tượng cho số liệu Kết thực hai thuật tốn mơ tả Bảng 3.6 Bảng 3.7 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 49 Bảng 3.6 Kết thực thuật toán DBAR thuật toán gia tăng OSIDBAR Số đối tượng STT Bộ số liệu sau bổ sung Số Thuật toán Thuật toán OSIDBAR DBAR thuộc R t R t tính điều kiện 20% Hepatitis.data 155 19 0.62 0.89 Automobile.data 205 25 1.2 1.687 Anneal.data 798 38 26.252 86.921 Credit Approval 690 15 6.726 15.687 Bảng 3.7 Tập rút gọn Thuật toán DBAR Thuật toán OSIDBAR STT Bộ số liệu Tập rút gọn Tập rút gọn Thuật toán DBAR Thuật toán OSIDBAR Hepatitis.data {1, 2, 4, 17} {1, 2, 4, 17} Automobile.data {1, 13, 14, 20, 21} {1, 13, 14, 20, 21} Anneal.data {1, 3, 4, 5, 8, 9, 33, 34, {1, 3, 4, 5, 8, 9, 33, 34, 35} 35} {1, 2, 3, 4, 5, 6, 8} {1, 2, 3, 4, 5, 6, 8} Credit Approval Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 50 Kết thử nghiệm cho thấy: Trên số liệu chọn, sau bổ sung nốt 20% số đối tượng lại vào số liệu, tập rút gọn thu Thuật toán DBAR Thuật toán OSIDBAR Kết phù hợp với kết nghiên cứu lý thuyết trình bày phần Thời gian thực thuật toán gia tăng OSIDBAR nhanh thuật tốn truyền thống DBAR, thuật toán gia tăng OSIDBAR hiệu thuật toán DBAR Kết phù hợp với kết nghiên cứu lý thuyết trình bày phần Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 51 KẾT LUẬN 1) Những kết luận văn: Luận văn đạt kết sau đây: Tổng hợp kết hướng nghiên cứu rút gọn thuộc tính bảng định đầy đủ theo tiếp cận lý thuyết tập thô truyền thống Pawlak Đề xuất phương pháp rút gọn thuộc tính sử dụng khoảng cách sở cải tiến phương pháp rút gọn thuộc tính sử dụng metric (khoảng cách Jaccard) [1, 7], bao gồm bước định nghĩa độ đo khoảng cách, định nghĩa tập rút gọn dựa khoảng cách xây dựng thuật tốn heuristic tìm tập rút gọn tốt sử dụng khoảng cách, chứng minh phương pháp đề xuất thuộc Nhóm phương pháp Xây dựng cơng thức tính tốn khoảng cách bổ sung loại bỏ đối tượng, sở xây dựng thuật tốn tìm tập rút gọn bổ sung, loại bỏ đối tượng Thử nghiệm tính hiệu phương pháp sử dụng khoảng cách so với phương pháp khác nhóm tính hiệu phương pháp gia tăng so với phương pháp khơng tính tốn gia tăng 2) Hƣớng phát triển luận văn: Tiếp tục nghiên cứu thuật tốn tìm tập rút gọn bảng định trường hợp bổ sung loại bỏ tập thuộc tính Tìm hiểu nhu cầu thực tế, tham khảo ý kiến chuyên gia để xây dựng chương trình áp dụng kỹ thuật nghiên cứu, bổ xung số yếu tố khác để hồn thiện đánh giá chi tiết lại thuật tốn Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 52 Tài liệu tham khảo Tài liệu tiếng Việt [1] Nguyễn Long Giang, “Khai phá liệu theo tiếp cận lý thuyết tập thơ”, Luận án Tiến sĩ Tốn học, Viện Cơng Nghệ Thông Tin, 2012 Tài liệu tiếng Anh [2] Deza M M and Deza E., “Encyclopedia of Distances”, Springer, 2009 [3] Guan L H, “An incremental updating algorithm of attribute reduction set in decision tables”, FSKD'09 Proceedings of the 6th international conference on Fuzzy systems and knowledge discovery, Vol 2, 2009, pp 421-425 [4] Hu F., Wang G.Y., Huang H., Wu Y., “Incremental attribute reduction based on elementary sets”, Proceedings of the 10th International Conference on Rough Sets, Fuzzy Sets, Data Mining and Granular Computing, Regina, Canada, 2005, pp 185-193 [5] Liang J.Y, Chin K.S., Dang C.Y and Richard C.M.YAM, “New method for measuring uncertainty and fuzziness in rough set theory”, International Journal of General Systems 31, 2002, pp 331-342 [6] Liang J.Y, Wang F., Dang C.Y., Qian Y.H., “A group incremental approach to feature selection applying rough set technique”, IEEE Transactions on Knowledge and Data Engineering, 2014, 26(2):294 308 [7] Long Giang Nguyen, “Metric Based Attribute Reduction in Decision Tables”, The 2012 International Workshop on Rough Sets Applications (RSA’2012), FedCSIS Proceedings, IEEE, 2012, pp 333- Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 53 338 [8] Pawlak Z (1982), “Rough sets”, International Journal of Computer and Information Sciences, 11(5): 341-356 [9] Pawlak Z., Rough sets: Theoretical Aspects of Reasoning About Data, Kluwer Aca-demic Publishers, 1991 [10] Wang F., Liang J Y, Qian Y H., “Attribute reduction: A dimension incremental strategy”, Knowledge-Based Systems, Volume 39, 2013, pp 95–108 [11] Feng Wang, Jiye Liang, Chuangyin Dang., “Attribute reduction for dynamic data sets”, Applied Soft Computing, 2013, 13(1):676-689 [12] Zhang C S, Jing Ruan J.,Tan Y H., “An Improved Incremental Updating Algorithm for Core Based on Positive Region”, Journal of Computational Information Systems 7: 9, 2011, pp 3127-3133 [13] Z Y Xu, Z P Liu, B R Yang, W Song., “A quick attribute reduction algorithm with complexity of max(O(|C||U|), O(|C|2|U/C|))”, Journal of Computer, Vol 29, no 3, pp 391-398, 2006 [14] The UCI machine learning repository, Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 54 Danh mục cơng trình tác giả Lê Trƣờng Giang, Nguyễn Long Giang (2014), “Rút gọn thuộc tính bảng định thay đổi”, Tạp chí Khoa học Cơng nghệ, T16 S.21, tr 8-14 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 55 Phụ lục Một số giao diện chƣơng trình thử nghiệm - Giao diện chương trình Chọn file liệu UCI để nạp liệu - Bước tiến hành nạp liệu để thực thuật toán từ liệu chuẩn UCI hình sau: - Chức nạp liệu từ UCI sau Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 56 - Sau nạp liệu từ UCI phần mềm hiển thị menu để người dùng thực thao tác Tách tệp liệu, gộp tệp liệu chạy thuật toán - Kết thử nghiệm với thuật toán rút gọn thuộc tính sử dụng entropy Liang (NEBAR) tập tin soybean-small.data số thuộc tính sau rút gọn thời gian thực 171 mili giây Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 57 - Kết thử nghiệm với thuật tốn rút gọn thuộc tính sử dụng khoảng cách (DBAR) tập tin soybean-small.data số thuộc tính sau rút gọn thời gian thực 37 mili giây Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ ... đánh giá phương pháp 21 Chương RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI SỬ DỤNG KHOẢNG CÁCH 24 2.1 Phương pháp rút gọn thuộc tính sử dụng khoảng cách 24 2.1.1 Khoảng cách. .. dựng phương pháp rút gọn thuộc tính sử dụng độ đo khoảng cách, bao gồm định nghĩa độ đo khoảng cách, định nghĩa tập rút gọn độ quan trọng thuộc tính dựa khoảng cách thuật tốn heuristic tìm tập rút. .. bố phương pháp rút gọn thuộc tính bảng định nêu trên, chương luận văn đề xuất phương pháp rút gọn thuộc tính bảng định sử dụng khoảng cách Khoảng cách luận văn sử dụng cải tiến khoảng cách Jaccard