Nghiên cứu một số thuật toán gia tăng cho việc rút gọn các thuộc tính trong bảng quyết định không đầy đủ

59 185 0
Nghiên cứu một số thuật toán gia tăng cho việc rút gọn các thuộc tính trong bảng quyết định không đầy đủ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i LỜI CẢM ƠN Em xin chân thành cảm ơn biết ơn sâu sắc đến GS.TS Vũ Đức Thi, Viện Công nghệ thông tin – Đại học Quốc gia Hà Nội Người tận tình hướng dẫn giúp đỡ em hoàn thành luận văn Em xin chân thành cảm ơn Thầy Viện Công nghệ thông tin dạy bảo, giúp đỡ truyền đạt kiến thức cho em suốt khóa học trình em làm luận văn Em xin chân thành cảm ơn Thầy, Cô trường Đại học Công nghệ thông tin truyền thông Thái Nguyên tận tình dạy bảo, động viên, giúp đỡ tạo điều kiện cho em suốt thời gian học tập nghiên cứu Cuối xin chân thành cảm ơn bạn bè, người thân gia đình người đồng hành, động viên, chhia sẻ khó khăn suốt thời gian hoàn thành luận văn Học viên Vũ Văn Tiệp ii LỜI CAM ĐOAN Tôi xin cam đoan đề tài "Nghiên cứu số thuật toán gia tăng cho việc rút gọn thuộc tính bảng định không đầy đủ” công trình nghiên cứu thực hướng dẫn giáo viên hướng dẫn khoa học Một số Định nghĩa, Định lý, Tính chất, Mệnh đề Thuật toán lấy từ nguồn tài liệu xác có trích dẫn tên tài liệu tên tác giả rõ ràng Tôi xin chịu trách nhiệm luận văn Học viên Vũ Văn Tiệp iii MỤC LỤC LỜI CẢM ƠN .i LỜI CAM ĐOAN ii Danh mục thuật ngữ v Danh sách bảng vi MỞ ĐẦU Chương TỔNG QUAN 1.1 Hệ thông tin đầy đủ mô hình tập thô truyền thống 1.1.1 Hệ thông tin đầy đủ 1.1.2 Bảng định đầy đủ 1.1.3 Tập rút gọn tập lõi 1.2 Hệ thông tin không đầy đủ mô hình tập thô dung sai 1.2.1 Hệ thông tin không đầy đủ 1.2.2 Bảng định không đầy đủ 10 1.3 Rút gọn thuộc tính bảng định không đầy đủ 11 1.3.1 Tổng quan phương pháp rút gọn thuộc tính 11 1.3.2 Phân nhóm phương pháp rút gọn thuộc tính 14 1.4 Kết luận chương 17 Chương CÁCH TIẾP CẬN GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ KHI BỔ SUNG, LOẠI BỎ TẬP THUỘC TÍNH 18 2.1 Rút gọn thuộc tính sử dụng hàm phân biệt mở rộng 18 2.1.1 Ma trận phân biệt hàm phân biệt mở rộng 19 2.1.2 Rút gọn thuộc tính sử dụng hàm phân biệt mở rộng 21 2.2 Các thuật toán tiếp cận gia tăng tìm tập rút gọn bổ sung, loại bỏ tập thuộc tính 25 2.2.1 Thuật toán tìm tập rút gọn bổ sung tập thuộc tính 25 2.2.2 Thuật toán tìm tập rút gọn loại bỏ tập thuộc tính 29 2.3 Kết luận chương Error! Bookmark not defined Chương THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 34 3.1 Bài toán 34 iv 3.2 Phân tích, lựa chọn công cụ 34 3.2.1 Thuật toán tìm tập rút gọn sử dụng hàm phân biệt mở rộng 34 3.2.2 Các thuật toán tìm tập rút gọn bổ sung loại bỏ tập thuộc tính 37 3.3 Đánh giá kết thử nghiệm 39 3.3.1 Kết thử nghiệm thuật toán tìm tập rút gọn sử dụng hàm phân biệt mở rộng 39 3.3.2 Kết thử nghiệm thuật toán tìm tập rút gọn bổ sung tập thuộc tính 41 3.3.3 Kết thử nghiệm thuật toán tìm tập rút gọn loại bỏ tập thuộc tính 45 KẾT LUẬN 49 Tài liệu tham khảo 50 Phụ lục 52 v Danh mục thuật ngữ Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh Tập thô Rough Set Tập thô dung sai Tolerance Rough Set Hệ thông tin Information System Hệ thông tin đầy đủ Complete Information System Hệ thông tin không đầy đủ Incomplete Information System Bảng định Decision Table Bảng định đầy đủ Complete Decision Table Bảng định không đầy đủ Incomplete Decision Table Quan hệ không phân biệt Indiscernibility Relation Quan hệ dung sai Tolerance Relation Xấp xỉ Lower Approximation Xấp xỉ Upper Approximation Rút gọn thuộc tính Attribute Reduction Tập rút gọn Reduct Tập lõi Core vi Danh sách bảng Bảng 1.1 Bảng thông tin bệnh cúm Bảng 1.2 Bảng định không đầ đủ xe 10 Bảng 1.3 Các phương pháp rút gọn thuộc tính công trình [3, 8] 13 Bảng 2.1 Bảng định không đầy đủ mô tả tivi 19 Bảng 2.1 Bảng định không đầy đủ mô tả tivi (tiếp theo) 24 Bảng 2.3 Bảng định không đầy đủ tivi bổ sung tập thuộc tính 26 Bảng 3.1 Kết thực Thuật toán 2.1 Thuật toán MBAR 39 Bảng 3.2 Tập rút gọn Thuật toán 2.1 Thuật toán MBAR 40 Bảng 3.3 Kết thực Thuật toán 2.1 số liệu ban đầu 42 Bảng 3.4 Kết thực Thuật toán 2.1 sau lấy ngẫu nhiên 60% số thuộc tính điều kiện 42 Bảng 3.5 Kết thực Thuật toán 2.2 tìm tập rút gọn bổ sung 40% số thuộc tính vào 43 Bảng 3.6 Kết thực Thuật toán 2.1 số liệu ban đầu 45 Bảng 3.7 Kết thực Thuật toán 2.1 sau loại ngẫu nhiên 40% số thuộc tính điều kiện 46 Bảng 3.8 Kết thực Thuật toán 2.3 tìm tập rút gọn loại bỏ 40% số thuộc tính điều kiện 47 MỞ ĐẦU Lý thuyết tập thô - Zdzislaw Pawlak [10] đề xuất vào năm đầu thập niên tám mươi kỷ hai mươi - xem công cụ hữu hiệu để giải toán phân lớp, phát luật…chứa liệu không đầy đủ, không chắn Từ xuất hiện, lý thuyết tập thô sử dụng hiệu bước trình khai phá liệu khám phá tri thức, bao gồm tiền xử lý số liệu, khai phá liệu đánh giá kết thu Rút gọn thuộc tính trích lọc luật định (luật phân lớp) hai ứng dụng lý thuyết tập thô khai phá liệu Rút gọn thuộc tính thuộc giai đoạn tiền xử lý liệu trích lọc luật thuộc giai đoạn khai phá liệu Mục tiêu rút gọn thuộc tính loại bỏ thuộc tính dư thừa nhằm tím tập nhỏ tập thuộc tính điều kiện (tập rút gọn) mà bảo toàn thông tin phân lớp bảng định Dựa tập rút gọn thu được, việc sinh luật phân lớp đạt hiệu cao Trong toán thực tế, bảng định thường thiếu giá trị miền giá trị thuộc tính, gọi bảng định không đầy đủ Trên bảng định không đầy đủ, Kryszkiewicz [5] mở rộng quan hệ tương đương lý thuyết tập thô truyền thống thành quan hệ dung sai đề xuất mô hình tập thô dung sai nhằm trích lọc luật trực tiếp không qua bước xử lý giá trị thiếu Dựa mô hình tập thô dung sai, số công trình công bố năm gần đề xuất số độ đo không chắn nhằm giải toán rút gọn thuộc tính trích lọc luật, đáng ý công bố liệt kê công trình [8] Luận văn đặt hai mục tiêu chính: 1) Tổng hợp công bố phương pháp rút gọn thuộc tính bảng định không đầy đủ theo tiếp cận mô hình tập thô dung sai, sở nghiên cứu phương pháp gia tăng rút gọn thuộc tính sử dụng hàm phân biệt mở rộng trường hợp bổ sung, loại bỏ tập thuộc tính Bao gồm: - Nghiên cứu phương pháp rút gọn thuộc tính bảng định không đầy đủ sử dụng hàm phân biệt mở rộng, gồm bước: xây dựng hàm phân biệt mở rộng; định nghĩa tập rút gọn độ quan trọng thuộc tính dựa hàm phân biệt mở rộng; xây dựng thuật toán heuristic tìm tập rút gọn tốt sử dụng hàm phân biệt mở rộng; phân nhóm phương pháp sử dụng hàm phân biệt mở rộng - Nghiên cứu hướng tiếp cận gia tăng rút gọn thuộc tính bảng định không đầy đủ sử dụng hàm phân biệt mở rộng trường hợp bổ sung, loại bỏ tập thuộc tính 2) Cài đặt thuật toán rút gọn thuộc tính bảng định không đầy đủ sử dụng hàm phân biệt mở rộng thuật toán gia tăng trường hợp bổ sung, loại bỏ tập thuộc tính Thử nghiệm đánh giá kết số liệu từ kho liệu UCI Đối tượng nghiên cứu luận văn bảng định không đầy đủ bổ sung, loại bỏ tập thuộc tính Phạm vi nghiên cứu luận văn tập trung vào toán rút gọn thuộc tính bước tiền xử lý số liệu trình khai phá liệu Phương pháp nghiên cứu luận văn nghiên cứu lý thuyết nghiên cứu thực nghiệm Về nghiên cứu lý thuyết: tổng hợp nắm bắt kết nghiên cứu công bố Về nghiên cứu thực nghiệm: luận văn thực cài đặt thuật toán, chạy thử nghiệm thuật toán với số liệu lấy từ kho liệu UCI [13], so sánh đánh giá nghiên cứu thực nghiệm với nghiên cứu lý thuyết Bố cục luận văn gồm phần mở đầu hai chương nội dung, phần kết luận danh mục tài liệu tham khảo Chương trình bày khái niệm lý thuyết tập thô Pawlak [10] mô hình tập thô mở rộng dựa quan hệ dung sai, gọi tắt mô hình tập thô dung sai [5] Trình bày tổng quan kết nghiên cứu phương pháp rút gọn thuộc tính bảng định không đầy đủ theo tiếp cận mô hình tập thô dung sai Chương trình bày hai nội dung chính: - Thứ phương pháp rút gọn thuộc tính sử dụng hàm phân biệt mở rộng [14], bao gồm: xây dựng hàm phân biệt mở rộng; định nghĩa tập rút gọn độ quan trọng thuộc tính dựa hàm phân biệt mở rộng; xây dựng thuật toán heuristic tìm tập rút gọn tốt sử dụng hàm phân biệt mở rộng; phân nhóm phương pháp sử dụng hàm phân biệt mở rộng - Thứ hai xây dựng thuật toán theo hướng tiếp cận gia tăng tìm tập rút gọn bảng định không đầy đủ sử dụng hàm phân biệt mở rộng trường hợp bổ sung, loại bỏ tập thuộc tính [14] Chương trình bày kết thử nghiệm đánh giá thuật toán: bao gồm thuật toán tìm tập rút gọn sử dụng hàm phân biệt mở rộng thuật toán gia tăng tìm tập rút gọn sử dụng hàm phân biệt mở rộng trường hợp bổ sung loại bỏ tập thuộc tính Thử nghiệm thực số liệu mẫu từ kho liệu UCI [13] Cuối cùng, phần kết luận nêu đóng góp luận văn hướng phát triển Chương TỔNG QUAN Chương trình bày khái niệm mô hình tập thô truyền thống hệ thông tin đầy đủ Pawlak [10] đề xuất mô hình tập thô dung sai hệ thông tin không đầy đủ Kryszkiewicz [5] đề xuất Chương trình bày tổng quan kết nghiên cứu phương pháp rút gọn thuộc tính bảng định không đầy đủ theo tiếp cận mô hình tập thô dung sai 1.1 Hệ thông tin đầy đủ mô hình tập thô truyền thống 1.1.1 Hệ thông tin đầy đủ Hệ thông tin đầy đủ, gọi tắt hệ thông tin, bảng liệu gồm p cột ứng với p thuộc tính n hàng ứng với n đối tượng Một cách hình thức, hệ thông tin định nghĩa sau Định nghĩa 1.1 Hệ thông tin tứ IS  U , A,V , f  U tập hữu hạn, khác rỗng đối tượng; A tập hữu hạn, khác rỗng thuộc tính; V  UVa với Va tập giá trị thuộc tính a  A ; f : U  A  Va hàm thông a A tin, a  A, u  U f  u, a   Va Với u U , a  A , ta ký hiệu giá trị thuộc tính a đối tượng u a  u  thay f  u, a  Nếu B  b1 , b2 , , bk   A tập thuộc tính ta ký hiệu giá trị bi  u  B  u  Như vậy, u v hai đối tượng, ta viết B  u   B  v  bi  u   bi  v  với i  1, , k Xét hệ thông tin IS  U , A,V , f  , tập thuộc tính P  A xác định quan hệ hai U, ký hiệu IND  P  , xác định   IND  P    u , v   U  U a  P, a  u   a  v  IND  P  quan hệ P-không phân biệt Dễ thấy IND  P  quan hệ tương đương U Nếu  u, v   IND  P  hai đối tượng u v không 39 3.3 Đánh giá kết thử nghiệm 3.3.1 Kết thử nghiệm thuật toán tìm tập rút gọn sử dụng hàm phân biệt mở rộng Sau cài đặt, tiến hành chạy thử nghiệm Thuật toán 2.1 Thuật toán MBAR số liệu vừa nhỏ lấy từ kho liệu UCI [13] Môi trường thử nghiệm máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB nhớ RAM, sử dụng hệ điều hành Windows XP Professional Với số liệu, giả sử U số đối tượng, C số thuộc tính điều kiện, R số thuộc tính tập rút gọn, t thời gian thực thuật toán (đơn vị giây s) Các thuộc tính điều kiện đánh số thứ tự từ đến C Bảng 3.1 Bảng 3.2 mô tả kết thực hai thuật toán Bảng 3.1 Kết thực Thuật toán 2.1 Thuật toán MBAR STT Bộ số liệu U Thuật toán Thuật toán MBAR 2.1 C R t R t Hepatitis.data 155 19 0.171 1.56 Lung-cancer.data 32 56 0.17 0.18 Automobile.data 205 25 1.72 1.81 Anneal.data 798 38 179 187 Congressional 435 16 15 16.5 13 18.73 Voting Records 40 STT Bộ số liệu Credit Approval U 690 Thuật toán Thuật toán MBAR 2.1 C 15 R t R t 16.2 17.68 Bảng 3.2 Tập rút gọn Thuật toán 2.1 Thuật toán MBAR STT Bộ số liệu Tập rút gọn Tập rút gọn Thuật toán MBAR Thuật toán 2.1 Hepatitis.data {1, 2, 4, 17} {1, 2, 4, 17} Lung- {3, 4, 9, 43} {3, 4, 9, 43} {1, 13, 14, 20, 21} {1, 13, 14, 20, 21} cancer.data Automobile.data Anneal.data {1, 3, 4, 5, 8, 9, 33, 34, {1, 3, 4, 5, 8, 9, 34, 35} 35} Congressional {1, 2, 3, 4, 5, 7, 8, 9, {1, 2, 3, 4, 5, 8, 10, 11, Voting Records 10, 11, 12, 13, 14, 15, 12, 13, 14, 15, 16} 16} Credit Approval {1, 2, 3, 4, 5, 6, 8} {1, 2, 3, 4, 5, 6, 8} 41 Kết thử nghiệm cho thấy:  Trên số liệu Hepatitis.data, Lung-cancer.data, Automobile.data, Credit Approval, tập rút gọn thu Thuật toán 2.1 Thuật toán MBAR Tuy nhiên, với số liệu Anneal.data, Congressional Voting Records, tập rút gọn thu Thuật toán 2.1 tối thiểu tập rút gọn thu Thuật toán MBAR Điều phù hợp với kết nghiên cứu lý thuyết tập rút gọn Thuật toán 2.1 Nhóm 2, tối thiểu tập rút gọn thuật toán MBAR Nhóm  Thời gian thực Thuật toán 2.1 nhiều Thuật toán MBAR thuật toán 2.1 thực ma trận nên độ phức tạp cao thuật toán sử dụng khoảng cách 3.3.2 Kết thử nghiệm thuật toán tìm tập rút gọn bổ sung tập thuộc tính Sau cài đặt Thuật toán 2.2 (tìm tập rút gọn bổ sung tập thuộc tính), luận văn tiến hành thử nghiệm Thuật toán 2.2 04 số liệu thử nghiệm lấy từ kho liệu UCI [13] Môi trường thử nghiệm máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB nhớ RAM, sử dụng hệ điều hành Windows XP Professional Với số liệu, giả sử U số đối tượng, C số thuộc tính điều kiện, R số thuộc tính tập rút gọn, t thời gian thực thuật toán (đơn vị giây s) Các thuộc tính điều kiện đánh số thứ tự từ đến C 1) Kết thực Thuật toán 2.1 tìm tập rút gọn bảng định ban đầu mô tả Bảng 3.3 sau: 42 Bảng 3.3 Kết thực Thuật toán 2.1 số liệu ban đầu STT Bộ số liệu Hepatitis.data U 124 C 19 R Tập rút Thời gọn gian {1, 2, 4, 0.171 17} Automobile.data 164 25 {1, 13, 1.68 14, 21} Anneal.data 638 38 {1, 3, 4, 86.92 5, 8, 33, 34} Credit Approval 552 15 {1, 3, 4, 15.68 5, 8} 2) Kết thực Thuật toán 2.1 tìm tập rút gọn bảng định sau lấy ngẫu nhiên 60% số thuộc tính điều kiện mô tả Bảng 3.4 sau: Bảng 3.4 Kết thực Thuật toán 2.1 sau lấy ngẫu nhiên 60% số thuộc tính điều kiện Số thuộc tính STT Bộ số liệu U ban đầu C Số thuộc tính lại sau lấy ngẫu Tập rút Thời gọn gian {1, 2, 4} 0.34 nhiên 60% Hepatitis.data 124 19 11 43 Số thuộc Số tính thuộc lại sau tính STT U Bộ số liệu lấy ban Tập rút Thời gọn gian ngẫu đầu nhiên C 60% Automobile.data 164 25 15 {1, 13} 0.82 Anneal.data 638 38 23 {1, 3, 4, 60.92 5} Credit Approval 552 15 {1, 8} 9.68 3) Kết thực Thuật toán 2.2 tìm tập rút gọn bảng định sau bổ sung 40% số thuộc tính điều kiện mô tả Bảng 3.5 sau: Bảng 3.5 Kết thực Thuật toán 2.2 tìm tập rút gọn bổ sung 40% số thuộc tính vào STT Bộ số liệu Hepatitis.data U 124 Automobile.data 164 Số Số thuộc thuộc tính tính bổ (60% sung số thêm thuộc (40% số tính thuộc ban tính loại đầu) ra) 11 15 10 Tập rút gọn (của 60% số thuộc tính ban đầu) Tập rút gọn thu Thuật toán Thời gian thực Thuật toán 2.2 2.2 {1, 2, {1, 2, 4} 4, 17} {1, 13} {1, 13, 0.35 0.62 44 STT Bộ số liệu Số Số thuộc thuộc tính tính bổ (60% sung số thêm thuộc (40% số tính thuộc ban tính loại đầu) ra) U Tập rút gọn (của 60% số thuộc tính ban đầu) Tập Thời rút gọn gian thu thực Thuật toán Thuật toán 2.2 2.2 14, 21} Anneal.data 638 23 15 {1, 3, 4, {1, 3, 5} 11.24 4, 5, 8, 33, 34} Credit Approval 552 {1, 8} {1, 3, 3.78 4, 5, 8} Kết thử nghiệm cho thấy: 1) Từ Bảng 3.3 Bảng 3.5 ta có: tập rút gọn thu Thuật toán 2.1 bảng định ban đầu tập rút gọn thu Thuật toán 2.2 (khi bổ sung 40% tập thuộc tính bị loại vào) Từ khẳng định tính đắn kết nghiên cứu lý thuyết 2) Từ Bảng 3.4 Bảng 3.5 cho thấy, tổng thời gian thực Thuật toán 2.1 tìm tập rút gọn bảng định sau loại 40% tập thuộc tính điều kiện cộng với thời gian thực Thuật toán gia 45 tăng 2.2 bổ sung 40% thuộc tính bị loại nhỏ thời gian thực Thuật toán 2.1 tìm tập rút gọn bảng định ban đầu Điều khẳng định tính hiệu phương pháp gia tăng tìm tập rút gọn 3.3.3 Kết thử nghiệm thuật toán tìm tập rút gọn loại bỏ tập thuộc tính Sau cài đặt Thuật toán 2.3 (tìm tập rút gọn loại bỏ tập thuộc tính, luận văn tiến hành thử nghiệm Thuật toán 2.3 04 số liệu thử nghiệm lấy từ kho liệu UCI [13] Môi trường thử nghiệm máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB nhớ RAM, sử dụng hệ điều hành Windows XP Professional Với số liệu, giả sử U số đối tượng, C số thuộc tính điều kiện, R số thuộc tính tập rút gọn, t thời gian thực thuật toán (đơn vị giây s) Các thuộc tính điều kiện đánh số thứ tự từ đến C 1) Kết thực Thuật toán 2.1 tìm tập rút gọn bảng định ban đầu mô tả Bảng 3.6 sau: Bảng 3.6 Kết thực Thuật toán 2.1 số liệu ban đầu STT Bộ số liệu Hepatitis.data U 124 C 19 R Tập rút Thời gọn gian {1, 2, 4, 0.89 17} Automobile.data 164 25 {1, 13, 1.68 14, 21} Anneal.data 638 38 {1, 3, 4, 86.92 46 STT Bộ số liệu U C R Tập rút Thời gọn gian 5, 8, 33, 34} Credit Approval 552 15 {1, 3, 4, 15.68 5, 8} 2) Kết thực Thuật toán 2.1 tìm tập rút gọn bảng định sau loại bỏ ngẫu nhiên 40% số thuộc tính điều kiện mô tả Bảng 3.7 sau: Bảng 3.7 Kết thực Thuật toán 2.1 sau loại ngẫu nhiên 40% số thuộc tính điều kiện Số Số thuộc thuộc tính STT Bộ số liệu tính lại sau Tập rút Thời ban loại gọn gian đầu ngẫu C nhiên U 40% Hepatitis.data 124 19 11 {1, 17} 0.42 Automobile.data 164 25 15 {13, 14} 0.72 Anneal.data 638 38 23 {4,8,34} 58.82 Credit Approval 552 15 {1, 3, 4} 10.28 47 3) Kết thực Thuật toán 2.3 tìm tập rút gọn bảng định sau loại bỏ 40% số thuộc tính điều kiện mô tả Bảng 3.8 sau: Bảng 3.8 Kết thực Thuật toán 2.3 tìm tập rút gọn loại bỏ 40% số thuộc tính điều kiện Số thuộc C (Số STT Bộ số liệu U Thời tính loại bỏ Tập rút thuộc (40% gọn tính số Thuật ban thuộc toán 2.3 đầu) tính gian thực Thuật toán 2.3 ban đầu) Hepatitis.data 124 19 {1, 17} 0.38 Automobile.data 164 25 10 {13, 14} 0.65 Anneal.data 638 38 15 {4,8,34} 49.52 Credit Approval 552 15 {1, 3, 4} 8.58 Kết thử nghiệm cho thấy: 1) Từ Bảng 3.7 Bảng 3.8 ta có: tập rút gọn thu Thuật toán 2.1 bảng định sau loại bỏ 40% số thuộc tính tập rút gọn thu Thuật toán 2.3 phương pháp gia tăng Từ khẳng định tính đắn kết nghiên cứu lý thuyết 48 2) Từ Bảng 3.7 Bảng 3.8 cho thấy, thời gian thực Thuật toán 2.3 tìm tập rút gọn bảng định sau loại 40% tập thuộc tính điều kiện phương pháp gia tăng nhỏ thời gian thực tập rút gọn sử dụng Thuật toán 2.1 tính trực tiếp tập rút gọn toàn bảng định sau loại đối tượng Điều khẳng định tính hiệu phương pháp gia tăng tìm tập rút gọn 49 KẾT LUẬN 1) Những kết luận văn Kết đạt luận văn bao gồm hai phần: phần nghiên cứu tổng hợp kết công bố phần cài đặt, thử nghiệm đánh giá thuật toán Bao gồm: (1) Tổng kết kết công bố hướng nghiên cứu rút gọn thuộc tính hướng tiếp cận gia tăng rút gọn thuộc tính bảng định không đầy đủ, bao gồm: - Phân nhóm phương pháp rút gọn thuộc tính dựa vào mối liên hệ tập rút gọn - Tìm hiểu phương pháp rút gọn thuộc tính sử dụng hàm phân biệt mở rộng - Tìm hiểu 02 thuật toán gia tăng tìm tập rút gọn bảng định không đầy đủ trường hợp bổ sung loại bỏ tập thuộc tính (2) Cài đặt thử nghiệm thuật toán số liệu UCI Trên sở đó, đanh giá tính hiệu phương pháp gia tăng, bao gồm: - Cài đặt thử nghiệm thuật toán tìm tập rút gọn sử dụng hàm phân biệt mở rộng (Thuật toán 2.1) - Cài đặt thử nghiệm thuật toán tìm tập rút gọn bổ sung tập thuộc tính (Thuật toán 2.2) - Cài đặt thử nghiệm thuật toán tìm tập rút gọn loại bỏ tập thuộc tính (Thuật toán 2.3) 2) Hướng phát triển Tiếp tục nghiên cứu phương pháp gia tăng rút gọn thuộc tính bảng định không đầy đủ trường hợp bổ sung loại bỏ tập đối tượng 50 Tài liệu tham khảo Tài liệu tiếng Việt [1] Nguyễn Long Giang (2012), “Nghiên cứu phương pháp khai phá liệu theo tiếp cận lý thuyết tập thô”, Luận án Tiến sĩ Toán học, Viện Công Nghệ Thông Tin [2] Nguyễn Thanh Tùng (2010), “Về metric họ phân hoạch tập hợp hữu hạn”, Tạp chí Tin học Điều khiển học, T.26, S.1, tr 7385 [3] Nguyễn Long Giang, Vũ Văn Định, Nghiên cứu thay đổi giá trị độ đo đánh giá hiệu tập luật định tập rút gọn bảng định không đầy đủ, Kỷ yếu Hội nghị khoa học Công nghệ Quốc gia lần thứ VI - Nghiên cứu ứng dụng CNTT - FAIR6, Huế, 2021/06/2013, Tr 394-402 Tài liệu tiếng Anh [4] Huang B., Li H X and Zhou X Z (2005), “Attribute Reduction Based on Information Quantity under Incomplete Information Systems”, Systems Application Theory & Practice, Vol 34, pp 55-60 [5] Kryszkiewicz M (1998), “Rough set approach to incomplete information systems”, Information Science, Vol 112, pp 39-49 [6] Long Giang Nguyen, “Metric Based Attribute Reduction in Decision Tables”, Federated Conference on Computer Science and Information System (FEDCSIS), Wroclaw, Poland, IEEE, 2012, pp 311-316 [7] Long Giang Nguyen, Hung Son Nguyen, “Metric Based Attribute Reduction in Incomplete Decision Tables”, Proceedings of 14th International Conference, Rough Sets, Fuzzy Sets, Data Mining, and Granular Computing, RSFDGrC 2013, Halifax, NS, Canada, Lecture Notes in Computer Science, SpingerLink, Vol 8170, 2013, pp 99-110 [8] Nguyen Long Giang, Vu Van Dinh (2013), “Relationships Among the Concepts of Reduct in Incomplete Decision Tables”, Frontiers in 51 Artificial Intelligence and Applications, Volume 252: Advanced Methods and Technologies for Agent and Multi-Agent Systems, IOS Press, pp 417- 426 [9] Pawlak Z (1982), “Rough sets”, International Journal of Computer and Information Sciences, 11(5): 341-356 [10] Pawlak Z (1991), Rough sets: Theoretical Aspects of Reasoning About Data, Kluwer Aca-demic Publishers [11] Qian Y H , Dang C Y., Liang J Y., Zhang H Y., Ma J M., “On the evaluation of the decision performance of an incomplete decision table”, Data & Knowledge Engineering 65, 2008, pp 373–400 [12] Yao Y.Y., Zhao Y and Wang J (2006), “On reduct construction algorithms”, Proceedings of International Conference on Rough Sets and Knowledge Technology, pp 297-304 [13] The UCI machine learning repository, [14] Vu Van Dinh, Nguyen Long Giang, Duc Thi Vu, Generalized Discernibility Function based Attribute Reduction in Incomplete Decision Systems, Serdica Journal of Computing (2013), No 4, pp 375-388 52 Phụ lục Một số giao diện chương trình thử nghiệm 1) Giao diện chương trình - Nhấn “Chọn file” để chọn tệp liệu UCI Chọn file liệu UCI để nạp liệu - Nạp liệu để thực thuật toán từ liệu chuẩn UCI hình sau: 53 - Sau nạp liệu từ UCI phần mềm hiển thị giao diện chương trình, bao gồm chức năng: 1) Loại bỏ tập thuộc tính, bổ sung tập thuộc tính để phục vụ Thuật toán 2.2 Thuật toán 2.3 2) Chạy thuật toán sử dụng metric (Thuật toán KBAR) 3) Chạy thuật toán sử dụng hàm phân biệt mở rộng (Thuật toán 2.1) 4) Chạy thuật toán gia tăng bổ sung tập thuộc tính (Thuật toán 2.2) 5) Chạy thuật toán gia tăng loại bỏ tập thuộc tính (Thuật toán 2.3) [...]... và thuộc tính dư thừa (redundant attribute) Thuộc tính lõi là thuộc tính không thể thiếu trong việc phân lớp chính xác tập dữ liệu Thuộc tính lõi xuất hiện trong tất cả các tập rút gọn của bảng quyết định Thuộc tính dư thừa là những thuộc tính mà việc loại bỏ chúng không ảnh hưởng đến việc phân lớp tập dữ liệu, thuộc tính dư thừa không xuất hiện trong bất kỳ tập rút gọn nào 8 của bảng quyết định Thuộc. .. tập thuộc tính 18 Chương 2 CÁCH TIẾP CẬN GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ KHI BỔ SUNG, LOẠI BỎ TẬP THUỘC TÍNH Chương này trình bày hai nội dung chính như sau: 1) Phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng hàm phân biệt mở rộng trong công trình [14], bao gồm: xây dựng hàm phân biệt mở rộng; định nghĩa tập rút gọn và độ quan trọng của thuộc tính. .. nhóm 2 và một tập rút gọn R1 thuộc nhóm 1 sao cho R1  R2  R3  Nếu R4 là một tập rút gọn thuộc nhóm 4 thì tồn tại một tập rút gọn R2 thuộc nhóm 2 và một tập rút gọn R1 thuộc nhóm 1 sao cho R1  R2  R4 Dựa vào phân nhóm các tập rút gọn, các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ cũng được phân thành bốn nhóm tương ứng 17 1.4 Kết luận chương 1 Chương 1 trình bày các khái... thô dung sai, cho đến nay đã có rất nhiều phương pháp rút gọn thuộc tính dựa trên các độ đo khác nhau đã được công bố [3, 7, 8, 14] Trong công trình [3, 8], các tác giả đã tổng kết khá đầy đủ các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ và các tập rút gọn tương ứng Bảng 1.3 Các phương pháp rút gọn thuộc tính trong công trình [3, 8] STT 1 2 Phương pháp Tập rút gọn Phương pháp... giữa các tập rút gọn của các nhóm Cụ thể: Các tập rút gọn trong bảng không nhất quán được chia thành bốn nhóm: Nhóm 1: Bao gồm tập rút gọn RP Nhóm 2: Bao gồm các tập rút gọn R , R , RM 16 Nhóm 3: Bao gồm các tập rút gọn RI , RTM , RD Nhóm 4: Bao gồm tập rút gọn R Mối liên hệ giữa các tập rút gọn trong các nhóm như sau:  Nếu R3 là một tập rút gọn thuộc nhóm 3 thì tồn tại một tập rút gọn R2 thuộc. .. với R là một tập rút gọn dựa trên hàm quyết định suy rộng Mối liên hệ giữa các tập rút gọn của bảng quyết định không đầy đủ không nhất quán được biểu diễn bằng sơ đồ sau:  RP  RI  RTM  RD R  R  RM  R Hình 1.1 Mối liên hệ giữa các tập rút gọn của bảng quyết định không đầy đủ Từ sơ đồ về mối liên hệ giữa các tập rút gọn, các tác giả trong [3, 8] đã thực hiện phân nhóm các tập rút gọn và chỉ... bản nhất về bảng quyết định đầy đủ, bảng quyết định không đầy đủ, mô hình tập thô truyền thống, mô hình tập thô dung sai Chương 2 tiếp theo, luận văn trình bày phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng hàm phân biệt mở rộng trong công trình [14] Sử dụng hàm phân biệt mở rộng, chương 2 cũng trình bày các thuật toán theo hướng tiếp cận gia tăng tìm tập rút gọn trong trường... tính trong bảng quyết định không đầy đủ 1.3.1 Tổng quan về các phương pháp rút gọn thuộc tính Rút gọn thuộc tính theo tiếp cận tập thô truyền thống của Pawlak [10] là chủ đề nghiên cứu sôi động trong nhiều năm qua [1] Tuy nhiên trong các bài toán thực tế, các hệ thông tin thường thiếu giá trị trên miền giá trị của thuộc tính, còn gọi là các hệ thông tin không đầy đủ Ví dụ, trong các kho dữ liệu thuộc lĩnh... tập rút gọn theo phương pháp gia tăng giảm thiểu đáng kể thời gian thực hiện Ví dụ 2.6 Từ Ví dụ 2.4 ta có a3 , a4  là một rút gọn “tốt nhất” của bảng quyết định không đầy đủ (Bảng 2.1) cho ở Ví dụ 2.1 Xét bảng quyết định không đầy đủ IDS  U, Ad cho ở Ví dụ 2.5 (Bảng 2.3) với A  a1 , a 2 , a3 , a 4 , a5 , a6  , áp dụng Thuật toán 2.2 tìm một tập rút gọn tốt nhất khi bổ sung tập thuộc tính. .. tập rút gọn là kết quả của phương pháp rút gọn thuộc tính Vì vậy, việc phân nhóm các phương pháp rút gọn thuộc tính cũng dựa vào tập rút gọn và được thực hiện theo nguyên tắc: các phương pháp có tập rút gọn như nhau được phân thành một nhóm Trong công trình [3, 8], các tác giả đã công bố về mối liên hệ giữa các tập rút gọn và kết quả phân nhóm các phương pháp rút gọn thuộc tính như sau: 1) Nếu bảng quyết

Ngày đăng: 19/05/2016, 16:33

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan