Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 60 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
60
Dung lượng
2,85 MB
Nội dung
1 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG LÊ TRƯỜNG GIANG PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH SỬ DỤNG ĐỘ ĐO KHOẢNG CÁCH LUẬN VĂN THẠC SĨ KỸ THUẬT Thái Nguyên - 2014 Số hóa Trung tâm Học liệu tnu.edu.vn/ LỜI CẢM ƠN Lời cảm ơn trân trọng em muốn dành tới TS Nguyễn Long Giang, người thầy dìu dắt hướng dẫn tơi suốt q trình làm luận văn, bảo định hướng thầy giúp tự tin nghiên cứu vấn đề giải toán cách khoa học Em xin trân trọng cảm ơn Ban giám hiệu thầy cô Trường Đại học Công nghệ Thông tin Truyền thông, Đại học Thái nguyên tạo điều kiện cho chúng tơi học tập làm khóa luận cách thuận lợi Lời cảm ơn sâu sắc muốn gửi tới thầy giáo Viện Công nghệ Thông tin - Viện hàn lâm khoa học Công nghệ Việt Nam, người thầy dạy dỗ mở cho thấy chân trời tri thức mới, hướng dẫn cách khám phá làm chủ công nghệ Xin cảm ơn Trung tâm Quản lý Chất lượng – Trường Đại học Công nghiệp Hà Nội tạo điều kiện để học hồn thành tốt khố học Mặc dù cố gắng nhiều, chắn trình học tập luận văn khơng khỏi thiếu sót Em mong thông cảm bảo tận tình thầy bạn Thái Ngun, tháng …… năm 2014 Lê Trường Giang Số hóa Trung tâm Học liệu tnu.edu.vn/ MỤC LỤC MỤC LỤC Danh mục thuật ngữ Bảng ký hiệu, từ viết tắt Danh sách bảng .7 MỞ ĐẦU .8 Chương RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN LÝ THUYẾT TẬP THƠ 11 1.1 Các khái niệm lý thuyết tập thô 11 1.1.1 Hệ thông tin tập thô 11 1.1.2 Bảng định 14 1.2 Rút gọn thuộc tính bảng định theo tiếp cận lý thuyết tập thô 16 1.2.1 Tổng kết phương pháp rút gọn thuộc tính bảng định 16 1.2.2 Kết phân nhóm phương pháp rút gọn thuộc tính dựa vào tập rút gọn 20 1.2.3 Kết lựa chọn, so sánh, đánh giá phương pháp 21 Chương RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI SỬ DỤNG KHOẢNG CÁCH 24 2.1 Phương pháp rút gọn thuộc tính sử dụng khoảng cách 24 2.1.1 Khoảng cách hai tập hợp hữu hạn 24 2.1.2 Khoảng cách hai tri thức tính chất 25 Số hóa Trung tâm Học liệu http://www.lrctnu.edu.vn/ 2.1.3 Tập rút gọn bảng định dựa khoảng cách 28 2.1.4 Thuật tốn tìm tập rút gọn sử dụng khoảng cách 29 2.2 Thuật tốn gia tăng tìm tập rút gọn sử dụng khoảng cách bổ sung đối tượng 33 2.2.1 Công thức gia tăng tính khoảng cách bổ sung đối tượng 33 2.2.2 Thuật tốn gia tăng tìm tập rút gọn bổ sung đối tượng 35 Số hóa Trung tâm Học liệu tnu.edu.vn/ 2.3 Thuật tốn tìm tập rút gọn sử dụng khoảng cách loại bỏ đối tượng 38 2.3.1 Cơng thức tính khoảng cách loại bỏ đối tượng 38 2.3.2 Thuật tốn tìm tập rút gọn loại bỏ đối tượng 40 Chương THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ .41 3.1 Bài toán 41 3.2 Phân tích, lựa chọn công cụ .42 3.2.1 Thuật tốn rút gọn thuộc tính sử dụng entropy Liang 42 3.2.2 Mô tả thuật tốn gia tăng tìm tập rút gọn bổ sung tập đối tượng 43 3.2.3 Lựa chọn công cụ cài đặt 44 3.3 Một số kết thử nghiệm 44 3.3.1 Kết thử nghiệm thuật tốn tìm tập rút gọn sử dụng khoảng cách 44 3.3.2 Kết thử nghiệm thuật toán gia tăng rút gọn thuộc tính sử dụng khoảng cách 47 KẾT LUẬN .51 Tài liệu tham khảo 52 Danh mục cơng trình tác giả 54 Phụ lục 55 Số hóa Trung tâm Học liệu tnu.edu.vn/ Danh mục thuật ngữ Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh Tập thô Rough Set Hệ thông tin Information System Bảng định Decision Table Bảng định quán Consistent Decision Table Bảng định không quán Inconsistent Decision Table Quan hệ không phân biệt Indiscernibility Relation Xấp xỉ Lower Approximation Xấp xỉ Upper Approximation Rút gọn thuộc tính Attribute Reduction Tập rút gọn Reduct Tập lõi Core Ma trận phân biệt Indiscernibility Matrix Hàm phân biệt Indiscernibility Function Luật định Decision Rule Khoảng cách Distance Số hóa Trung tâm Học liệu tnu.edu.vn/ Bảng ký hiệu, từ viết tắt Ký hiệu, từ viết tắt IS DS U, ,f A,V U , C D,V , f Diễn giải Hệ thông tin Bảng định U Số đối tượng C Số thuộc tính điều kiện bảng định A Số thuộc tính hệ thơng tin u a Giá trị đối tượng u thuộc tính a IND B Quan hệ B u Lớp tương đương chứa u quan hệ IND B B không phân biệt U/B Phân hoạch U sinh tập thuộc tính B BX B xấp xỉ X BX B xấp xỉ X BN B X B - miền biên X POS B D B RED C Họ tất tập rút gọn bảng định CORE C Tập lõi bảng định K P Tri thức sinh tập thuộc tính P hệ thơng tin miền dương D Số hóa Trung tâm Học liệu tnu.edu.vn/ Danh sách bảng Bảng 1.1 Bảng thông tin bệnh cúm 13 Bảng 1.2: Bảng định bệnh cúm 15 Bảng 1.3 Bảng định bệnh cúm 18 Bảng 1.4 Ký hiệu tập rút gọn bảng định 20 Bảng 2.1 Bảng định minh họa thuật tốn tìm tập rút gọn 31 Bảng 3.1 Kết thực Thuật toán NEBAR Thuật toán DBAR 45 Bảng 3.2 Tập rút gọn Thuật toán NEBAR Thuật toán DBAR 45 Bảng 3.3 Kết thực Thuật toán NEBAK Thuật toán DBAK 46 số liệu lớn 46 Bảng 3.4 04 số liệu thử nghiệm 47 Bảng 3.5 Kết thực thuật toán DBAR số liệu ban đầu 48 Bảng 3.6 Kết thực thuật toán DBAR thuật toán gia tăng OSIDBAR 49 Số hóa Trung tâm Học liệu tnu.edu.vn/ MỞ ĐẦU Lựa chọn thuộc tính, gọi trích chọn đặc trưng, toán quan trọng khai phá liệu học máy Lựa chọn thuộc tính sử dụng lý thuyết tập thô [9] gọi rút gọn thuộc tính Rút gọn thuộc tính bảng định tốn tìm tập nhỏ tập thuộc tính điều kiện mà bảo tồn thơng tin phân lớp bảng định, gọi tập rút gọn Trong hai thập kỷ trở lại đây, chủ đề nghiên cứu rút gọn thuộc tính theo tiếp cận lý thuyết tập thô thu hút đông đảo cộng đồng nghiên cứu tập thô tham gia [1] Có nhiều phương pháp rút gọn thuộc tính khác đề xuất sử dụng độ đo khác miền dương, ma trận phân biệt, độ đo entropy lý thuyết thông tin, độ đo tính tốn hạt, độ đo khoảng cách Tuy nhiên, hầu hết nghiên cứu rút gọn thuộc tính thực bảng định với tập đối tượng tập thuộc tính cố định, không thay đổi Trong thực tế, bảng định bị cập nhật thay đổi với trường hợp: bổ sung loại bỏ tập đối tượng, bổ sung loại bỏ tập thuộc tính, cập nhật tập đối tượng tồn Mỗi thay đổi vậy, lại phải thực lại thuật tốn tìm tập rút gọn tồn tập đối tượng, chi phí thời gian thực thuật tốn tìm tập rút gọn lớn Trong năm gần đây, số cơng trình nghiên cứu xây dựng phương pháp gia tăng rút gọn thuộc tính bảng định thay đổi dựa độ đo khác [3, 4, 6, 10, 11, 12] Trong [3, 4, 12], tác giả xây dựng phương pháp gia tăng tìm tập rút gọn dựa miền dương ma trận phân biệt bổ sung tập đối tượng Trong [10], tác giả xây dựng cơng thức tính độ đo entropy (entropy Shannon, entropy Liang, entropy kết hợp) bổ sung, loại bỏ thuộc tính Tuy nhiên, cơng thức tính tốn entropy [10] phức tạp Về hướng tiếp cận rút gọn thuộc Số hóa Trung tâm Học liệu tnu.edu.vn/ 10 tính sử dụng độ đo khoảng cách định nghĩa qua khái niệm lý thuyết tập thô, [1, 7] tác giả sử dụng độ đo khoảng cách Jaccard để giải tốn rút gọn thuộc tính bảng đinh Tuy nhiên, tác giả [1, 7] giải tốn rút gọn thuộc tính trường hợp bảng định cố định, không thay đổi Mục tiêu luận văn xây dựng phương pháp rút gọn thuộc tính bảng định thay đổi dựa vào độ đo khoảng cách hai trường hợp: bổ sung đối tượng loại bỏ đối tượng có Đối tượng nghiên cứu luận văn bảng định với liệu thay đổi bổ sung loại bỏ đối tượng Phạm vi nghiên cứu: Với công cụ lý thuyết tập thô, đề tài tập trung nghiên cứu phương pháp gia tăng tìm tập rút gọn bảng định bổ sung loại bỏ tập đối tượng Phương pháp nghiên cứu đề tài nghiên cứu lý thuyết nghiên cứu thực nghiệm Về nghiên cứu lý thuyết: Nghiên cứu kết công bố xây dựng công thức tính tốn gia tăng bổ sung loại bỏ đối tượng, sở đề xuất thuật toán hiệu Về nghiên cứu thực nghiệm: Cài đặt thử nghiệm thuật toán, thuật toán gia tăng tìm tập rút gọn sử dụng khoảng cách số liệu mẫu lấy từ kho liệu UCI [14] nhằm đánh giá tính hiệu phương pháp gia tăng so với phương pháp truyền thống Bố cục luận văn gồm phần mở đầu, ba chương nội dung, phần kết luận mục tài liệu tham khảo Chương 1: Trình bày số khái niệm lý thuyết tập thô kết nghiên cứu phương pháp rút gọn thuộc tính bảng Số hóa Trung tâm Học liệu tnu.edu.vn/ R gọi tập rút gọn DS dựa entropy Liang Thuật tốn tìm tập rút gọn sử dụng entropy Liang, gọi tắt thuật tốn NEBAR, mơ tả sau: Thuật tốn NEBAR Tìm tập rút gọn bảng định sử dụng entropy Liang [5] (New Entropy Based Attribute Reduction) Đầu vào: Đầu ra: R Bảng định DS U,C D,V , f Một tập rút gọn R ; Tính E D R , E D C ; // Thêm dần vào R thuộc tính có độ quan trọng lớn While E D R Begin E D C For each b C R tính SIGR b E DR Chọn bm C R cho SIGR mm R R Max SI b C R E DR b ; GR b ; bm ; End; // Loại bỏ thuộc tính dư thừa R có For each b R 10 If E D R b E D C then R R b ; 11 Return R ; 3.2.2 Mơ tả thuật tốn gia tăng tìm tập rút gọn bổ sung tập đối tượng Thuật toán OSIDBAR (Object Set Incremental Distance Based Attribute Reduction) Thuật toán gia tăng tìm tập rút gọn dựa khoảng cách bổ sung đối tượng Đầu vào: Bảng định DS U,C D,V , f , tập rút gọn RU U tập đối tượng X Đầu ra: Tập rút gọn RU X U X For x X Begin // Gọi thuật tốn tìm tập rút gọn bổ sung đối tượng x Tính R IDBAR U , x ; U : U x End; Return R; 3.2.3 Lựa chọn công cụ cài đặt Chúng sử dụng cơng cụ ngơn ngữ lập trình C# mơi trường hệ điều hành Windows 8.1 để thực cài đặt Thuật toán DBAR Thuật toán OSIDBAR Bộ số liệu thử nghiệm lấy từ kho liệu UCI [14] 3.3 Một số kết thử nghiệm 3.3.1 Kết thử nghiệm thuật tốn tìm tập rút gọn sử dụng khoảng cách Sau cài đặt thuật toán rút gọn thuộc tính sử dụng khoảng cách (DBAR) thuật tốn rút gọn thuộc tính sử dụng entropy Liang (NEBAR), chúng tơi tiến hành thử nghiệm hai thuật tốn số liệu vừa nhỏ lấy từ kho liệu UCI [14] Môi trường thử nghiệm máy tính LAPTOP với cấu hình Intel Core i3 2.13 GHz CPU, 2GB nhớ RAM, sử dụng hệ điều hành Windows 8.1 Với số liệu, giả sử U số đối tượng, C số thuộc tính điều kiện, R số thuộc tính tập rút gọn, t thời gian thực thuật toán (đơn vị giây s) Các thuộc tính điều kiện đánh số thứ tự từ đến C Bảng 3.1 Bảng 3.2 mô tả kết thực hai thuật toán Bảng 3.1 Kết thực Thuật toán NEBAR Thuật toán DBAR STT Bộ số liệu U Thuật toán Thuật toán NEBAR DBAR C R t R t Hepatitis.data 155 19 1.296 0.89 Lung-cancer.data 32 56 0.187 0.171 Automobile.data 205 25 5 1.687 Anneal.data 798 38 179 86.921 Congressional 435 16 15 25.562 15 16.734 690 15 29.703 15.687 Voting Records Credit Approval Bảng 3.2 Tập rút gọn Thuật toán NEBAR Thuật toán DBAR STT Bộ số liệu Tập rút gọn Tập rút gọn Thuật toán NEBAR Thuật toán DBAR Hepatitis.data {1, 2, 4, 17} {1, 2, 4, 17} Lung- {3, 4, 9, 43} {3, 4, 9, 43} cancer.data Automobile.data {1, 13, 14, 20, 21} {1, 13, 14, 20, 21} Anneal.data {1, 3, 4, 5, 8, 9, 33, 34, {1, 3, 4, 5, 8, 9, 33, 34, 35} 35} Congressional {1, 2, 3, 4, 5, 7, 8, 9, {1, 2, 3, 4, 5, 7, 8, 9, Voting 10, 11, 12, 13, 14, 15, 10, 11, 12, 13, 14, 15, Records.data 16} 16} Credit Approval {1, 2, 3, 4, 5, 6, 8} {1, 2, 3, 4, 5, 6, 8} Kết thử nghiệm cho thấy Trên số liệu chọn, tập rút gọn thu Thuật toán DBAR Thuật toán NEBAR Kết phù hợp với kết nghiên cứu lý thuyết trình bày phần Thời gian thực Thuật toán DBAR nhanh Thuật toán NEBAR, Thuật tốn DBAR hiệu Thuật tốn NEBAR Tiếp theo, chúng tơi tiến hành thử nghiệm Thuật tốn DBAR Thuật toán NEBAR số liệu kích thước lớn Kết thử nghiệm mơ tả bảng sau: Bảng 3.3 Kết thực Thuật toán NEBAK Thuật toán DBAK số liệu lớn ST T U Bộ số liệu Thuật toán Thuật toán NEBAR DBAR C R Census- t R t 299285 40 21 11415 21 5206 Income.data Adult.data 48842 14 1270 675 Dorothea.data 1950 100 92 2867 92 1247 11 8977 4376 54 17 14289 17 7256 000 Poker-hand- 100000 testing.data CovType.data 581012 Với số liệu có kích thước lớn, rõ ràng thời gian thực Thuật toán DBAR nhỏ nhiều Thuật tốn NEBAR, số liệu kích thước lớn, Thuật tốn DBAR hiệu 3.3.2 Kết thử nghiệm thuật toán gia tăng rút gọn thuộc tính sử dụng khoảng cách Sau cài đặt thuật tốn rút gọn thuộc tính dựa khoảng cách nguyên thủy (DBAR) thuật toán gia tăng bổ sung tập đối tượng (OSIDBAR), luận văn tiến hành thử nghiệm hai thuật toán 04 số liệu thử nghiệm lấy từ kho liệu UCI [14] Với số liệu thử nghiệm, luận văn lấy ngẫu nhiên 80% số đối tượng cho bảng định ban đầu Bảng 3.4 04 số liệu thử nghiệm Số đối STT Bộ số liệu tượng U Số đối tượng bảng định ban đầu (80%) Số thuộc tính C Hepatitis.data 155 124 19 Automobile.data 205 164 25 Anneal.data 798 638 38 Credit Approval 690 552 15 Môi trường thử nghiệm máy tính LAPTOP với cấu hình Pentium Core i3 2.13 GHz CPU, 2GB nhớ RAM, sử dụng hệ điều hành Windows 8.1 1) Thực thuật toán DBAR để tìm tập rút gọn bảng định ban đầu, luận văn thu kết Bảng 3.5 Bảng 3.5 Kết thực thuật toán DBAR số liệu ban đầu STT Bộ số liệu Số đối Số thuộc Số thuộc tượng tính tính U điều tập rút kiện C gọn Tập rút gọn Hepatitis.data 124 19 {1, 2, 4, 17} Automobile.data 164 25 {1, 13, 14, 21} Anneal.data 638 38 {1, 3, 4, 5, 8, 33, 34} Credit Approval 552 15 {1, 3, 4, 5, 8} 2) Thực bổ sung 20% số đối tượng lại cho số liệu Tiến hành thử nghiệm thuật tốn DBAR tồn 100% tập đối tượng thử nghiệm thuật toán gia tăng OSIDBAR bổ sung thêm 20% số đối tượng cho số liệu Kết thực hai thuật tốn mơ tả Bảng 3.6 Bảng 3.7 Bảng 3.6 Kết thực thuật toán DBAR thuật toán gia tăng OSIDBAR Số đối tượng STT Bộ số liệu sau bổ sung 20% Số thuộc Thuật toán Thuật toán OSIDBAR DBAR R t R t tính điều kiện Hepatitis.data 155 19 0.62 0.89 Automobile.data 205 25 1.2 1.687 Anneal.data 798 38 26.252 86.921 Credit Approval 690 15 6.726 15.687 Bảng 3.7 Tập rút gọn Thuật toán DBAR Thuật toán OSIDBAR STT Bộ số liệu Tập rút gọn Tập rút gọn Thuật toán DBAR Thuật toán OSIDBAR Hepatitis.data {1, 2, 4, 17} {1, 2, 4, 17} Automobile.data {1, 13, 14, 20, 21} {1, 13, 14, 20, 21} Anneal.data {1, 3, 4, 5, 8, 9, 33, 34, {1, 3, 4, 5, 8, 9, 33, 34, 35} 35} {1, 2, 3, 4, 5, 6, 8} {1, 2, 3, 4, 5, 6, 8} Credit Approval Kết thử nghiệm cho thấy: Trên số liệu chọn, sau bổ sung nốt 20% số đối tượng lại vào số liệu, tập rút gọn thu Thuật toán DBAR Thuật toán OSIDBAR Kết phù hợp với kết nghiên cứu lý thuyết trình bày phần Thời gian thực thuật toán gia tăng OSIDBAR nhanh thuật toán truyền thống DBAR, thuật tốn gia tăng OSIDBAR hiệu thuật toán DBAR Kết phù hợp với kết nghiên cứu lý thuyết trình bày phần KẾT LUẬN 1) Những kết luận văn: Luận văn đạt kết sau đây: Tổng hợp kết hướng nghiên cứu rút gọn thuộc tính bảng định đầy đủ theo tiếp cận lý thuyết tập thô truyền thống Pawlak Đề xuất phương pháp rút gọn thuộc tính sử dụng khoảng cách sở cải tiến phương pháp rút gọn thuộc tính sử dụng metric (khoảng cách Jaccard) [1, 7], bao gồm bước định nghĩa độ đo khoảng cách, định nghĩa tập rút gọn dựa khoảng cách xây dựng thuật toán heuristic tìm tập rút gọn tốt sử dụng khoảng cách, chứng minh phương pháp đề xuất thuộc Nhóm phương pháp Xây dựng cơng thức tính tốn khoảng cách bổ sung loại bỏ đối tượng, sở xây dựng thuật tốn tìm tập rút gọn bổ sung, loại bỏ đối tượng Thử nghiệm tính hiệu phương pháp sử dụng khoảng cách so với phương pháp khác nhóm tính hiệu phương pháp gia tăng so với phương pháp khơng tính tốn gia tăng 2) Hướng phát triển luận văn: Tiếp tục nghiên cứu thuật tốn tìm tập rút gọn bảng định trường hợp bổ sung loại bỏ tập thuộc tính Tìm hiểu nhu cầu thực tế, tham khảo ý kiến chuyên gia để xây dựng chương trình áp dụng kỹ thuật nghiên cứu, bổ xung số yếu tố khác để hoàn thiện đánh giá chi tiết lại thuật toán Tài liệu tham khảo Tài liệu tiếng Việt [1] Nguyễn Long Giang, “Khai phá liệu theo tiếp cận lý thuyết tập thô”, Luận án Tiến sĩ Tốn học, Viện Cơng Nghệ Thơng Tin, 2012 Tài liệu tiếng Anh [2] Deza M M and Deza E., “Encyclopedia of Distances”, Springer, 2009 [3] Guan L H, “An incremental updating algorithm of attribute reduction set in decision tables”, FSKD'09 Proceedings of the 6th international conference on Fuzzy systems and knowledge discovery, Vol 2, 2009, pp 421-425 [4] Hu F., Wang G.Y., Huang H., Wu Y., “Incremental attribute reduction based on elementary sets”, Proceedings of the 10th International Conference on Rough Sets, Fuzzy Sets, Data Mining and Granular Computing, Regina, Canada, 2005, pp 185-193 [5] Liang J.Y, Chin K.S., Dang C.Y and Richard C.M.YAM, “New method for measuring uncertainty and fuzziness in rough set theory”, International Journal of General Systems 31, 2002, pp 331-342 [6] Liang J.Y, Wang F., Dang C.Y., Qian Y.H., “A group incremental approach to feature selection applying rough set technique”, IEEE Transactions on Knowledge and Data Engineering, 2014, 26(2):294 308 [7] Long Giang Nguyen, “Metric Based Attribute Reduction in Decision Tables”, The 2012 International Workshop on Rough Sets Applications (RSA’2012), FedCSIS Proceedings, IEEE, 2012, pp 333- 338 [8] Pawlak Z (1982), “Rough sets”, International Journal of Computer and Information Sciences, 11(5): 341-356 [9] Pawlak Z., Rough sets: Theoretical Aspects of Reasoning About Data, Kluwer Aca-demic Publishers, 1991 [10] Wang F., Liang J Y, Qian Y H., “Attribute reduction: A dimension incremental strategy”, Knowledge-Based Systems, Volume 39, 2013, pp 95–108 [11] Feng Wang, Jiye Liang, Chuangyin Dang., “Attribute reduction for dynamic data sets”, Applied Soft Computing, 2013, 13(1):676-689 [12] Zhang C S, Jing Ruan J.,Tan Y H., “An Improved Incremental Updating Algorithm for Core Based on Positive Region”, Journal of Computational Information Systems 7: 9, 2011, pp 3127-3133 [13] Z Y Xu, Z P Liu, B R Yang, W Song., “A quick attribute reduction algorithm with complexity of max(O(|C||U|), O(|C|2|U/C|))”, Journal of Computer, Vol 29, no 3, pp 391-398, 2006 [14] The UCI machine learning repository, Danh mục cơng trình tác giả Lê Trường Giang, Nguyễn Long Giang (2014), “Rút gọn thuộc tính bảng định thay đổi”, Tạp chí Khoa học Cơng nghệ, T16 S.21, tr 8-14 Phụ lục Một số giao diện chương trình thử nghiệm - Giao diện chương trình Chọn file liệu UCI để nạp liệu - Bước tiến hành nạp liệu để thực thuật toán từ liệu chuẩn UCI hình sau: - Chức nạp liệu từ UCI sau - Sau nạp liệu từ UCI phần mềm hiển thị menu để người dùng thực thao tác Tách tệp liệu, gộp tệp liệu chạy thuật toán - Kết thử nghiệm với thuật toán rút gọn thuộc tính sử dụng entropy Liang (NEBAR) tập tin soybean-small.data số thuộc tính sau rút gọn thời gian thực 171 mili giây - Kết thử nghiệm với thuật toán rút gọn thuộc tính sử dụng khoảng cách (DBAR) tập tin soybean-small.data số thuộc tính sau rút gọn thời gian thực 37 mili giây ... dựng phương pháp rút gọn sử dụng khoảng cách hai trường hợp Chương RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI SỬ DỤNG KHOẢNG CÁCH 2.1 Phương pháp rút gọn thuộc tính sử dụng khoảng cách. .. dựng phương pháp rút gọn thuộc tính sử dụng độ đo khoảng cách, bao gồm định nghĩa độ đo khoảng cách, định nghĩa tập rút gọn độ quan trọng thuộc tính dựa khoảng cách thuật tốn heuristic tìm tập rút. .. đánh giá phương pháp 21 Chương RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI SỬ DỤNG KHOẢNG CÁCH 24 2.1 Phương pháp rút gọn thuộc tính sử dụng khoảng cách 24 2.1.1 Khoảng cách