Nghiên cứu một số thuật toán gia tăng cho việc rút gọn các thuộc tính trong bảng quyết định không đầy đủ

60 16 0
Nghiên cứu một số thuật toán gia tăng cho việc rút gọn các thuộc tính trong bảng quyết định không đầy đủ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i ĐẠI HỌC THÁI NGUYÊN ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VŨ VĂN TIỆP NGHIÊN CỨU MỘT SỐ THUẬT TOÁN GIA TĂNG CHO VIỆC RÚT GỌN CÁC THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHƠNG ĐẦY ĐỦ LUẬN VĂN THẠC SĨ KHOA HỌC KHOA HỌC MÁY TÍNH HƢỚNG DẪN: GS.TS VŨ ĐỨC THI THÁI NGUYÊN 2015 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ ii LỜI CẢM ƠN Em xin chân thành cảm ơn biết ơn sâu sắc đến GS.TS Vũ Đức Thi, Viện Công nghệ thông tin – Đại học Quốc gia Hà Nội Người tận tình hướng dẫn giúp đỡ em hoàn thành luận văn Em xin chân thành cảm ơn Thầy Viện Công nghệ thông tin dạy bảo, giúp đỡ truyền đạt kiến thức cho em suốt khóa học q trình em làm luận văn Em xin chân thành cảm ơn Thầy, Cô trường Đại học Công nghệ thông tin truyền thơng Thái Ngun tận tình dạy bảo, động viên, giúp đỡ tạo điều kiện cho em suốt thời gian học tập nghiên cứu Cuối xin chân thành cảm ơn bạn bè, người thân gia đình ln người đồng hành, động viên, chhia sẻ khó khăn suốt thời gian hoàn thành luận văn Học viên Vũ Văn Tiệp Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ iii LỜI CAM ĐOAN Tôi xin cam đoan đề tài "Nghiên cứu số thuật toán gia tăng cho việc rút gọn thuộc tính bảng định khơng đầy đủ” cơng trình nghiên cứu tơi thực hướng dẫn giáo viên hướng dẫn khoa học Một số Định nghĩa, Định lý, Tính chất, Mệnh đề Thuật tốn tơi lấy từ nguồn tài liệu xác có trích dẫn tên tài liệu tên tác giả rõ ràng Tôi xin chịu trách nhiệm luận văn Học viên Vũ Văn Tiệp Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ iv MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN iii Danh mục thuật ngữ vi Danh sách bảng vii MỞ ĐẦU Chương TỔNG QUAN 1.1 Hệ thông tin đầy đủ mơ hình tập thơ truyền thống 1.1.1 Hệ thông tin đầy đủ 1.1.2 Bảng định đầy đủ .7 1.1.3 Tập rút gọn tập lõi 1.2 Hệ thông tin không đầy đủ mô hình tập thơ dung sai 1.2.1 Hệ thông tin không đầy đủ 1.2.2 Bảng định không đầy đủ 10 1.3 Rút gọn thuộc tính bảng định khơng đầy đủ 11 1.3.1 Tổng quan phương pháp rút gọn thuộc tính 11 1.3.2 Phân nhóm phương pháp rút gọn thuộc tính .14 1.4 Kết luận chương 17 Chương CÁCH TIẾP CẬN GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ KHI BỔ SUNG, LOẠI BỎ TẬP THUỘC TÍNH 18 2.1 Rút gọn thuộc tính sử dụng hàm phân biệt mở rộng 18 2.1.1 Ma trận phân biệt hàm phân biệt mở rộng 19 2.1.2 Rút gọn thuộc tính sử dụng hàm phân biệt mở rộng 21 2.2 Các thuật tốn tiếp cận gia tăng tìm tập rút gọn bổ sung, loại bỏ tập thuộc tính 25 2.2.1 Thuật tốn tìm tập rút gọn bổ sung tập thuộc tính .25 2.2.2 Thuật tốn tìm tập rút gọn loại bỏ tập thuộc tính 29 2.3 Kết luận chương Error! Bookmark not defined Chương THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 34 3.1 Bài toán 34 3.2 Phân tích, lựa chọn cơng cụ 34 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ v 3.2.1 Thuật tốn tìm tập rút gọn sử dụng hàm phân biệt mở rộng 3.2.2 Các thuật tốn tìm tập rút gọn bổ sung loại bỏ tập thuộc tính 37 3.3 Đánh giá kết thử nghiệm 39 3.3.1 Kết thử nghiệm thuật tốn tìm tập rút gọn sử dụng hàm phân biệt mở rộng 39 3.3.2 Kết thử nghiệm thuật tốn tìm tập rút gọn bổ sung tập thuộc tính .41 3.3.3 Kết thử nghiệm thuật tốn tìm tập rút gọn loại bỏ tập thuộc tính .45 KẾT LUẬN .49 Tài liệu tham khảo 50 Phụ lục 52 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ vi Danh mục thuật ngữ Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh Tập thô Rough Set Tập thô dung sai Tolerance Rough Set Hệ thông tin Information System Hệ thông tin đầy đủ Complete Information System Hệ thông tin không đầy đủ Incomplete Information System Bảng định Decision Table Bảng định đầy đủ Complete Decision Table Bảng định không đầy đủ Incomplete Decision Table Quan hệ không phân biệt Indiscernibility Relation Quan hệ dung sai Tolerance Relation Xấp xỉ Lower Approximation Xấp xỉ Upper Approximation Rút gọn thuộc tính Attribute Reduction Tập rút gọn Reduct Tập lõi Core Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ vii Danh sách bảng Bảng 1.1 Bảng thông tin bệnh cúm Bảng 1.2 Bảng định không đầ đủ xe 10 Bảng 1.3 Các phương pháp rút gọn thuộc tính cơng trình [3, 8] 13 Bảng 2.1 Bảng định không đầy đủ mô tả tivi 19 Bảng 2.1 Bảng định không đầy đủ mô tả tivi (tiếp theo) 24 Bảng 2.3 Bảng định không đầy đủ tivi bổ sung tập thuộc tính 26 Bảng 3.1 Kết thực Thuật toán 2.1 Thuật toán MBAR 39 Bảng 3.2 Tập rút gọn Thuật toán 2.1 Thuật toán MBAR 40 Bảng 3.3 Kết thực Thuật toán 2.1 số liệu ban đầu 42 Bảng 3.4 Kết thực Thuật toán 2.1 sau lấy ngẫu nhiên 60% số thuộc tính điều kiện 42 Bảng 3.5 Kết thực Thuật toán 2.2 tìm tập rút gọn bổ sung 40% số thuộc tính vào 43 Bảng 3.6 Kết thực Thuật toán 2.1 số liệu ban đầu 45 Bảng 3.7 Kết thực Thuật toán 2.1 sau loại ngẫu nhiên 40% số thuộc tính điều kiện 46 Bảng 3.8 Kết thực Thuật tốn 2.3 tìm tập rút gọn loại bỏ 40% số thuộc tính điều kiện 47 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ MỞ ĐẦU Lý thuyết tập thô - Zdzislaw Pawlak [10] đề xuất vào năm đầu thập niên tám mươi kỷ hai mươi - xem công cụ hữu hiệu để giải toán phân lớp, phát luật…chứa liệu không đầy đủ, không chắn Từ xuất hiện, lý thuyết tập thô sử dụng hiệu bước trình khai phá liệu khám phá tri thức, bao gồm tiền xử lý số liệu, khai phá liệu đánh giá kết thu Rút gọn thuộc tính trích lọc luật định (luật phân lớp) hai ứng dụng lý thuyết tập thơ khai phá liệu Rút gọn thuộc tính thuộc giai đoạn tiền xử lý liệu cịn trích lọc luật thuộc giai đoạn khai phá liệu Mục tiêu rút gọn thuộc tính loại bỏ thuộc tính dư thừa nhằm tím tập nhỏ tập thuộc tính điều kiện (tập rút gọn) mà bảo tồn thông tin phân lớp bảng định Dựa tập rút gọn thu được, việc sinh luật phân lớp đạt hiệu cao Trong toán thực tế, bảng định thường thiếu giá trị miền giá trị thuộc tính, gọi bảng định không đầy đủ Trên bảng định không đầy đủ, Kryszkiewicz [5] mở rộng quan hệ tương đương lý thuyết tập thô truyền thống thành quan hệ dung sai đề xuất mơ hình tập thơ dung sai nhằm trích lọc luật trực tiếp khơng qua bước xử lý giá trị thiếu Dựa mơ hình tập thơ dung sai, số cơng trình cơng bố năm gần đề xuất số độ đo khơng chắn nhằm giải tốn rút gọn thuộc tính trích lọc luật, đáng ý công bố liệt kê công trình [8] Luận văn đặt hai mục tiêu chính: 1) Tổng hợp công bố phương pháp rút gọn thuộc tính bảng định khơng đầy đủ theo tiếp cận mơ hình tập thơ dung sai, Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ sở nghiên cứu phương pháp gia tăng rút gọn thuộc tính sử dụng hàm phân biệt mở rộng trường hợp bổ sung, loại bỏ tập thuộc tính Bao gồm: - Nghiên cứu phương pháp rút gọn thuộc tính bảng định khơng đầy đủ sử dụng hàm phân biệt mở rộng, gồm bước: xây dựng hàm phân biệt mở rộng; định nghĩa tập rút gọn độ quan trọng thuộc tính dựa hàm phân biệt mở rộng; xây dựng thuật toán heuristic tìm tập rút gọn tốt sử dụng hàm phân biệt mở rộng; phân nhóm phương pháp sử dụng hàm phân biệt mở rộng - Nghiên cứu hướng tiếp cận gia tăng rút gọn thuộc tính bảng định không đầy đủ sử dụng hàm phân biệt mở rộng trường hợp bổ sung, loại bỏ tập thuộc tính 2) Cài đặt thuật tốn rút gọn thuộc tính bảng định khơng đầy đủ sử dụng hàm phân biệt mở rộng thuật toán gia tăng trường hợp bổ sung, loại bỏ tập thuộc tính Thử nghiệm đánh giá kết số liệu từ kho liệu UCI Đối tượng nghiên cứu luận văn bảng định không đầy đủ bổ sung, loại bỏ tập thuộc tính Phạm vi nghiên cứu luận văn tập trung vào tốn rút gọn thuộc tính bước tiền xử lý số liệu trình khai phá liệu Phương pháp nghiên cứu luận văn nghiên cứu lý thuyết nghiên cứu thực nghiệm Về nghiên cứu lý thuyết: tổng hợp nắm bắt kết nghiên cứu công bố Về nghiên cứu thực nghiệm: luận văn thực cài đặt thuật toán, chạy thử nghiệm thuật toán với số liệu lấy từ kho liệu UCI [13], so sánh đánh giá nghiên cứu thực nghiệm với nghiên cứu lý thuyết Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ Bố cục luận văn gồm phần mở đầu hai chương nội dung, phần kết luận danh mục tài liệu tham khảo Chương trình bày khái niệm lý thuyết tập thơ Pawlak [10] mơ hình tập thơ mở rộng dựa quan hệ dung sai, gọi tắt mơ hình tập thơ dung sai [5] Trình bày tổng quan kết nghiên cứu phương pháp rút gọn thuộc tính bảng định khơng đầy đủ theo tiếp cận mơ hình tập thơ dung sai Chương trình bày hai nội dung chính: - Thứ phương pháp rút gọn thuộc tính sử dụng hàm phân biệt mở rộng [14], bao gồm: xây dựng hàm phân biệt mở rộng; định nghĩa tập rút gọn độ quan trọng thuộc tính dựa hàm phân biệt mở rộng; xây dựng thuật tốn heuristic tìm tập rút gọn tốt sử dụng hàm phân biệt mở rộng; phân nhóm phương pháp sử dụng hàm phân biệt mở rộng - Thứ hai xây dựng thuật tốn theo hướng tiếp cận gia tăng tìm tập rút gọn bảng định không đầy đủ sử dụng hàm phân biệt mở rộng trường hợp bổ sung, loại bỏ tập thuộc tính [14] Chương trình bày kết thử nghiệm đánh giá thuật tốn: bao gồm thuật tốn tìm tập rút gọn sử dụng hàm phân biệt mở rộng thuật toán gia tăng tìm tập rút gọn sử dụng hàm phân biệt mở rộng trường hợp bổ sung loại bỏ tập thuộc tính Thử nghiệm thực số liệu mẫu từ kho liệu UCI [13] Cuối cùng, phần kết luận nêu đóng góp luận văn hướng phát triển Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ 39 Đánh giá kết thử nghiệm 3.3 3.3.1 Kết thử nghiệm thuật tốn tìm tập rút gọn sử dụng hàm phân biệt mở rộng Sau cài đặt, tiến hành chạy thử nghiệm Thuật toán 2.1 Thuật toán MBAR số liệu vừa nhỏ lấy từ kho liệu UCI [13] Môi trường thử nghiệm máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB nhớ RAM, sử dụng hệ điều hành Windows XP Professional Với số liệu, giả sử U số đối tượng, C số thuộc tính điều kiện, R số thuộc tính tập rút gọn, t thời gian thực thuật tốn (đơn vị giây s) Các thuộc tính điều kiện đánh số thứ tự từ đến C Bảng 3.1 Bảng 3.2 mô tả kết thực hai thuật toán Bảng 3.1 Kết thực Thuật toán 2.1 Thuật toán MBAR STT Bộ số liệu U Thuật toán Thuật toán MBAR 2.1 C R t R t Hepatitis.data 155 19 0.171 1.56 Lung-cancer.data 32 56 0.17 0.18 Automobile.data 205 25 1.72 1.81 Anneal.data 798 38 179 187 Congressional 435 16 15 16.5 13 18.73 Voting Records Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ 40 STT Bộ số liệu Credit Approval U 690 Thuật toán Thuật toán MBAR 2.1 C 15 R t R t 16.2 17.68 Bảng 3.2 Tập rút gọn Thuật toán 2.1 Thuật toán MBAR STT Bộ số liệu Tập rút gọn Tập rút gọn Thuật toán MBAR Thuật toán 2.1 Hepatitis.data {1, 2, 4, 17} {1, 2, 4, 17} Lung- {3, 4, 9, 43} {3, 4, 9, 43} {1, 13, 14, 20, 21} {1, 13, 14, 20, 21} cancer.data Automobile.data Anneal.data {1, 3, 4, 5, 8, 9, 33, 34, {1, 3, 4, 5, 8, 9, 34, 35} 35} Congressional {1, 2, 3, 4, 5, 7, 8, 9, {1, 2, 3, 4, 5, 8, 10, 11, Voting Records 10, 11, 12, 13, 14, 15, 12, 13, 14, 15, 16} 16} Credit Approval {1, 2, 3, 4, 5, 6, 8} Số hóa Trung tâm Học liệu - ĐHTN {1, 2, 3, 4, 5, 6, 8} http://www.lrc.tnu.edu.vn/ 41 Kết thử nghiệm cho thấy: Trên số liệu Hepatitis.data, Lung-cancer.data, Automobile.data, Credit Approval, tập rút gọn thu Thuật toán 2.1 Thuật toán MBAR Tuy nhiên, với số liệu Anneal.data, Congressional Voting Records, tập rút gọn thu Thuật toán 2.1 tối thiểu tập rút gọn thu Thuật toán MBAR Điều phù hợp với kết nghiên cứu lý thuyết tập rút gọn Thuật tốn 2.1 Nhóm 2, tối thiểu tập rút gọn thuật tốn MBAR Nhóm Thời gian thực Thuật tốn 2.1 nhiều Thuật tốn MBAR thuật toán 2.1 thực ma trận nên độ phức tạp cao thuật toán sử dụng khoảng cách 3.3.2 Kết thử nghiệm thuật tốn tìm tập rút gọn bổ sung tập thuộc tính Sau cài đặt Thuật tốn 2.2 (tìm tập rút gọn bổ sung tập thuộc tính), luận văn tiến hành thử nghiệm Thuật toán 2.2 04 số liệu thử nghiệm lấy từ kho liệu UCI [13] Môi trường thử nghiệm máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB nhớ RAM, sử dụng hệ điều hành Windows XP Professional Với số liệu, giả sử U số đối tượng, C số thuộc tính điều kiện, R số thuộc tính tập rút gọn, t thời gian thực thuật tốn (đơn vị giây s) Các thuộc tính điều kiện đánh số thứ tự từ đến C 1) Kết thực Thuật toán 2.1 tìm tập rút gọn bảng định ban đầu mơ tả Bảng 3.3 sau: Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ 42 Bảng 3.3 Kết thực Thuật toán 2.1 số liệu ban đầu STT Bộ số liệu Hepatitis.data U C 124 19 R Tập rút Thời gọn gian {1, 2, 4, 0.171 17} Automobile.data 164 25 {1, 13, 1.68 14, 21} Anneal.data 638 38 {1, 3, 4, 86.92 5, 8, 33, 34} Credit Approval 552 15 {1, 3, 4, 15.68 5, 8} 2) Kết thực Thuật tốn 2.1 tìm tập rút gọn bảng định sau lấy ngẫu nhiên 60% số thuộc tính điều kiện mơ tả Bảng 3.4 sau: Bảng 3.4 Kết thực Thuật toán 2.1 sau lấy ngẫu nhiên 60% số thuộc tính điều kiện Số thuộc tính STT Bộ số liệu U ban đầu C Số thuộc tính lại sau lấy ngẫu Tập rút Thời gọn gian {1, 2, 4} 0.34 nhiên 60% Hepatitis.data 124 Số hóa Trung tâm Học liệu - ĐHTN 19 11 http://www.lrc.tnu.edu.vn/ 43 Số thuộc Số tính cịn thuộc lại sau tính STT U Bộ số liệu lấy ban Tập rút Thời gọn gian ngẫu đầu nhiên C 60% Automobile.data 164 25 15 {1, 13} 0.82 Anneal.data 638 38 23 {1, 3, 4, 60.92 5} Credit Approval 552 15 {1, 8} 9.68 3) Kết thực Thuật tốn 2.2 tìm tập rút gọn bảng định sau bổ sung 40% số thuộc tính điều kiện mơ tả Bảng 3.5 sau: Bảng 3.5 Kết thực Thuật toán 2.2 tìm tập rút gọn bổ sung 40% số thuộc tính vào STT Bộ số liệu Hepatitis.data U 124 Automobile.data 164 Số Số thuộc thuộc tính tính bổ (60% sung số thêm thuộc (40% số tính thuộc ban tính loại đầu) ra) 11 15 Số hóa Trung tâm Học liệu - ĐHTN 10 Tập rút gọn (của 60% số thuộc tính ban đầu) Tập rút gọn thu đƣợc Thuật toán Thời gian thực Thuật toán 2.2 2.2 {1, 2, {1, 2, 4} 4, 17} {1, 13} {1, 13, 0.35 0.62 http://www.lrc.tnu.edu.vn/ 44 STT Bộ số liệu Số Số thuộc thuộc tính tính bổ (60% sung số thêm thuộc (40% số tính thuộc ban tính loại đầu) ra) U Tập rút gọn (của 60% số thuộc tính ban đầu) Tập Thời rút gọn gian thu thực đƣợc Thuật toán Thuật toán 2.2 2.2 14, 21} Anneal.data 638 23 15 {1, 3, 4, {1, 3, 5} 11.24 4, 5, 8, 33, 34} Credit Approval 552 {1, 8} {1, 3, 3.78 4, 5, 8} Kết thử nghiệm cho thấy: 1) Từ Bảng 3.3 Bảng 3.5 ta có: tập rút gọn thu Thuật toán 2.1 bảng định ban đầu tập rút gọn thu Thuật tốn 2.2 (khi bổ sung 40% tập thuộc tính bị loại vào) Từ khẳng định tính đắn kết nghiên cứu lý thuyết 2) Từ Bảng 3.4 Bảng 3.5 cho thấy, tổng thời gian thực Thuật tốn 2.1 tìm tập rút gọn bảng định sau loại 40% tập thuộc tính điều kiện cộng với thời gian thực Thuật tốn gia Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ 45 tăng 2.2 bổ sung 40% thuộc tính bị loại nhỏ thời gian thực Thuật tốn 2.1 tìm tập rút gọn bảng định ban đầu Điều khẳng định tính hiệu phương pháp gia tăng tìm tập rút gọn 3.3.3 Kết thử nghiệm thuật tốn tìm tập rút gọn loại bỏ tập thuộc tính Sau cài đặt Thuật tốn 2.3 (tìm tập rút gọn loại bỏ tập thuộc tính, luận văn tiến hành thử nghiệm Thuật toán 2.3 04 số liệu thử nghiệm lấy từ kho liệu UCI [13] Môi trường thử nghiệm máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB nhớ RAM, sử dụng hệ điều hành Windows XP Professional Với số liệu, giả sử U số đối tượng, C số thuộc tính điều kiện, R số thuộc tính tập rút gọn, t thời gian thực thuật tốn (đơn vị giây s) Các thuộc tính điều kiện đánh số thứ tự từ đến C 1) Kết thực Thuật toán 2.1 tìm tập rút gọn bảng định ban đầu mô tả Bảng 3.6 sau: Bảng 3.6 Kết thực Thuật toán 2.1 số liệu ban đầu STT Bộ số liệu Hepatitis.data U 124 C 19 R Tập rút Thời gọn gian {1, 2, 4, 0.89 17} Automobile.data 164 25 {1, 13, 1.68 14, 21} Anneal.data 638 Số hóa Trung tâm Học liệu - ĐHTN 38 {1, 3, 4, 86.92 http://www.lrc.tnu.edu.vn/ 46 STT Bộ số liệu U C R Tập rút Thời gọn gian 5, 8, 33, 34} Credit Approval 552 15 {1, 3, 4, 15.68 5, 8} 2) Kết thực Thuật toán 2.1 tìm tập rút gọn bảng định sau loại bỏ ngẫu nhiên 40% số thuộc tính điều kiện mô tả Bảng 3.7 sau: Bảng 3.7 Kết thực Thuật toán 2.1 sau loại ngẫu nhiên 40% số thuộc tính điều kiện Số Số thuộc thuộc tính cịn STT Bộ số liệu tính lại sau Tập rút Thời ban loại gọn gian đầu ngẫu C nhiên U 40% Hepatitis.data 124 19 11 {1, 17} 0.42 Automobile.data 164 25 15 {13, 14} 0.72 Anneal.data 638 38 23 {4,8,34} 58.82 Credit Approval 552 15 {1, 3, 4} 10.28 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ 47 3) Kết thực Thuật tốn 2.3 tìm tập rút gọn bảng định sau loại bỏ 40% số thuộc tính điều kiện mơ tả Bảng 3.8 sau: Bảng 3.8 Kết thực Thuật tốn 2.3 tìm tập rút gọn loại bỏ 40% số thuộc tính điều kiện Số thuộc C (Số STT Bộ số liệu U Thời tính loại bỏ Tập rút thuộc (40% gọn tính số Thuật ban thuộc tốn 2.3 đầu) tính gian thực Thuật tốn 2.3 ban đầu) Hepatitis.data 124 19 {1, 17} 0.38 Automobile.data 164 25 10 {13, 14} 0.65 Anneal.data 638 38 15 {4,8,34} 49.52 Credit Approval 552 15 {1, 3, 4} 8.58 Kết thử nghiệm cho thấy: 1) Từ Bảng 3.7 Bảng 3.8 ta có: tập rút gọn thu Thuật toán 2.1 bảng định sau loại bỏ 40% số thuộc tính tập rút gọn thu Thuật tốn 2.3 phương pháp gia tăng Từ khẳng định tính đắn kết nghiên cứu lý thuyết Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ 48 2) Từ Bảng 3.7 Bảng 3.8 cho thấy, thời gian thực Thuật toán 2.3 tìm tập rút gọn bảng định sau loại 40% tập thuộc tính điều kiện phương pháp gia tăng nhỏ thời gian thực tập rút gọn sử dụng Thuật tốn 2.1 tính trực tiếp tập rút gọn toàn bảng định sau loại đối tượng Điều khẳng định tính hiệu phương pháp gia tăng tìm tập rút gọn Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ 49 KẾT LUẬN 1) Những kết luận văn Kết đạt luận văn bao gồm hai phần: phần nghiên cứu tổng hợp kết công bố phần cài đặt, thử nghiệm đánh giá thuật toán Bao gồm: (1) Tổng kết kết công bố hướng nghiên cứu rút gọn thuộc tính hướng tiếp cận gia tăng rút gọn thuộc tính bảng định khơng đầy đủ, bao gồm: - Phân nhóm phương pháp rút gọn thuộc tính dựa vào mối liên hệ tập rút gọn - Tìm hiểu phương pháp rút gọn thuộc tính sử dụng hàm phân biệt mở rộng - Tìm hiểu 02 thuật tốn gia tăng tìm tập rút gọn bảng định không đầy đủ trường hợp bổ sung loại bỏ tập thuộc tính (2) Cài đặt thử nghiệm thuật toán số liệu UCI Trên sở đó, đanh giá tính hiệu phương pháp gia tăng, bao gồm: - Cài đặt thử nghiệm thuật tốn tìm tập rút gọn sử dụng hàm phân biệt mở rộng (Thuật toán 2.1) - Cài đặt thử nghiệm thuật tốn tìm tập rút gọn bổ sung tập thuộc tính (Thuật tốn 2.2) - Cài đặt thử nghiệm thuật tốn tìm tập rút gọn loại bỏ tập thuộc tính (Thuật tốn 2.3) 2) Hƣớng phát triển Tiếp tục nghiên cứu phương pháp gia tăng rút gọn thuộc tính bảng định khơng đầy đủ trường hợp bổ sung loại bỏ tập đối tượng Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ 50 Tài liệu tham khảo Tài liệu tiếng Việt [1] Nguyễn Long Giang (2012), “Nghiên cứu phương pháp khai phá liệu theo tiếp cận lý thuyết tập thơ”, Luận án Tiến sĩ Tốn học, Viện Cơng Nghệ Thông Tin [2] Nguyễn Thanh Tùng (2010), “Về metric họ phân hoạch tập hợp hữu hạn”, Tạp chí Tin học Điều khiển học, T.26, S.1, tr 7385 [3] Nguyễn Long Giang, Vũ Văn Định, Nghiên cứu thay đổi giá trị độ đo đánh giá hiệu tập luật định tập rút gọn bảng định không đầy đủ, Kỷ yếu Hội nghị khoa học Công nghệ Quốc gia lần thứ VI - Nghiên cứu ứng dụng CNTT - FAIR6, Huế, 2021/06/2013, Tr 394-402 Tài liệu tiếng Anh [4] Huang B., Li H X and Zhou X Z (2005), “Attribute Reduction Based on Information Quantity under Incomplete Information Systems”, Systems Application Theory & Practice, Vol 34, pp 55-60 [5] Kryszkiewicz M (1998), “Rough set approach to incomplete information systems”, Information Science, Vol 112, pp 39-49 [6] Long Giang Nguyen, “Metric Based Attribute Reduction in Decision Tables”, Federated Conference on Computer Science and Information System (FEDCSIS), Wroclaw, Poland, IEEE, 2012, pp 311-316 [7] Long Giang Nguyen, Hung Son Nguyen, “Metric Based Attribute Reduction in Incomplete Decision Tables”, Proceedings of 14th International Conference, Rough Sets, Fuzzy Sets, Data Mining, and Granular Computing, RSFDGrC 2013, Halifax, NS, Canada, Lecture Notes in Computer Science, SpingerLink, Vol 8170, 2013, pp 99-110 [8] Nguyen Long Giang, Vu Van Dinh (2013), “Relationships Among the Concepts of Reduct in Incomplete Decision Tables”, Frontiers in Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ 51 Artificial Intelligence and Applications, Volume 252: Advanced Methods and Technologies for Agent and Multi-Agent Systems, IOS Press, pp 417- 426 [9] Pawlak Z (1982), “Rough sets”, International Journal of Computer and Information Sciences, 11(5): 341-356 [10] Pawlak Z (1991), Rough sets: Theoretical Aspects of Reasoning About Data, Kluwer Aca-demic Publishers [11] Qian Y H , Dang C Y., Liang J Y., Zhang H Y., Ma J M., “On the evaluation of the decision performance of an incomplete decision table”, Data & Knowledge Engineering 65, 2008, pp 373–400 [12] Yao Y.Y., Zhao Y and Wang J (2006), “On reduct construction algorithms”, Proceedings of International Conference on Rough Sets and Knowledge Technology, pp 297-304 [13] The UCI machine learning repository, [14] Vu Van Dinh, Nguyen Long Giang, Duc Thi Vu, Generalized Discernibility Function based Attribute Reduction in Incomplete Decision Systems, Serdica Journal of Computing (2013), No 4, pp 375-388 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ 52 Phụ lục Một số giao diện chƣơng trình thử nghiệm 1) Giao diện chương trình - Nhấn “Chọn file” để chọn tệp liệu UCI Chọn file liệu UCI để nạp liệu - Nạp liệu để thực thuật toán từ liệu chuẩn UCI hình sau: Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ 53 - Sau nạp liệu từ UCI phần mềm hiển thị giao diện chương trình, bao gồm chức năng: 1) Loại bỏ tập thuộc tính, bổ sung tập thuộc tính để phục vụ Thuật tốn 2.2 Thuật toán 2.3 2) Chạy thuật toán sử dụng metric (Thuật toán KBAR) 3) Chạy thuật toán sử dụng hàm phân biệt mở rộng (Thuật toán 2.1) 4) Chạy thuật tốn gia tăng bổ sung tập thuộc tính (Thuật toán 2.2) 5) Chạy thuật toán gia tăng loại bỏ tập thuộc tính (Thuật tốn 2.3) Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ ... pháp rút gọn thuộc tính cơng trình [3, 8] 13 Bảng 2.1 Bảng định không đầy đủ mô tả tivi 19 Bảng 2.1 Bảng định không đầy đủ mô tả tivi (tiếp theo) 24 Bảng 2.3 Bảng định không đầy đủ. .. Nghiên cứu hướng tiếp cận gia tăng rút gọn thuộc tính bảng định không đầy đủ sử dụng hàm phân biệt mở rộng trường hợp bổ sung, loại bỏ tập thuộc tính 2) Cài đặt thuật tốn rút gọn thuộc tính bảng. .. GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHƠNG ĐẦY ĐỦ KHI BỔ SUNG, LOẠI BỎ TẬP THUỘC TÍNH Chương trình bày hai nội dung sau: 1) Phương pháp rút gọn thuộc tính bảng định không đầy đủ sử

Ngày đăng: 24/02/2021, 21:53

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan