khoảng cách
Sau khi cài đặt thuật toán rút gọn thuộc tính dựa trên khoảng cách nguyên thủy (DBAR) và thuật toán gia tăng khi bổ sung tập đối tượng (OSIDBAR), luận văn tiến hành thử nghiệm hai thuật toán trên 04 bộ số liệu thử nghiệm lấy từ kho dữ liệu UCI [14]. Với mỗi bộ số liệu thử nghiệm, luận văn lấy ngẫu nhiên 80% số đối tượng cho bảng quyết định ban đầu.
Bảng 3.4. 04 bộ số liệu thử nghiệm STT Bộ số liệu Số đối tƣợng U Số đối tƣợng của bảng quyết định ban đầu (80%) Số thuộc tính C 1 Hepatitis.data 155 124 19 2 Automobile.data 205 164 25 3 Anneal.data 798 638 38 4 Credit Approval 690 552 15
Môi trường thử nghiệm là máy tính LAPTOP với cấu hình Pentium Core
i3 2.13 GHz CPU, 2GB bộ nhớ RAM, sử dụng hệ điều hành Windows 8.1. 1) Thực hiện thuật toán DBAR để tìm tập rút gọn trên bảng quyết định ban đầu, luận văn thu được kết quả ở Bảng 3.5
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Bảng 3.5. Kết quả thực hiện thuật toán DBAR trên bộ số liệu ban đầu
STT Bộ số liệu Số đối tƣợng U Số thuộc tính điều kiện C Số thuộc tính của tập rút gọn Tập rút gọn 1 Hepatitis.data 124 19 4 {1, 2, 4, 17} 2 Automobile.data 164 25 4 {1, 13, 14, 21} 3 Anneal.data 638 38 7 {1, 3, 4, 5, 8, 33, 34} 4 Credit Approval 552 15 5 {1, 3, 4, 5, 8}
2) Thực hiện bổ sung 20% số đối tượng còn lại cho mỗi bộ số liệu. Tiến hành thử nghiệm thuật toán DBAR trên toàn bộ 100% tập đối tượng và thử nghiệm thuật toán gia tăng OSIDBAR khi bổ sung thêm 20% số đối tượng cho mỗi bộ số liệu. Kết quả thực hiện hai thuật toán được mô tả ở Bảng 3.6 và Bảng 3.7
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Bảng 3.6. Kết quả thực hiện thuật toán DBAR và thuật toán gia tăng
OSIDBAR STT Bộ số liệu Số đối tượng sau khi bổ sung 20% Số thuộc tính điều kiện Thuật toán OSIDBAR Thuật toán DBAR R t R t 1 Hepatitis.data 155 19 4 0.62 4 0.89 2 Automobile.data 205 25 5 1.2 5 1.687 3 Anneal.data 798 38 9 26.252 9 86.921 4 Credit Approval 690 15 7 6.726 7 15.687
Bảng 3.7. Tập rút gọn của Thuật toán DBAR và Thuật toán OSIDBAR
STT Bộ số liệu Tập rút gọn của Thuật toán DBAR
Tập rút gọn của Thuật toán OSIDBAR 1 Hepatitis.data {1, 2, 4, 17} {1, 2, 4, 17} 2 Automobile.data {1, 13, 14, 20, 21} {1, 13, 14, 20, 21} 3 Anneal.data {1, 3, 4, 5, 8, 9, 33, 34, 35} {1, 3, 4, 5, 8, 9, 33, 34, 35} 4 Credit Approval {1, 2, 3, 4, 5, 6, 8} {1, 2, 3, 4, 5, 6, 8}
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Kết quả thử nghiệm cho thấy:
Trên 4 bộ số liệu được chọn, sau khi bổ sung nốt 20% số đối tượng còn lại vào các bộ số liệu, tập rút gọn thu được bởi Thuật toán DBAR và Thuật toán OSIDBAR là như nhau. Kết quả này phù hợp với kết quả nghiên cứu lý thuyết đã trình bày ở phần trên.
Thời gian thực hiện thuật toán gia tăng OSIDBAR nhanh hơn thuật toán truyền thống DBAR, do đó thuật toán gia tăng OSIDBAR hiệu quả hơn thuật toán DBAR. Kết quả này cũng phù hợp với kết quả nghiên cứu lý thuyết đã trình bày ở phần trên.
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
KẾT LUẬN 1) Những kết quả chính của luận văn:
Luận văn đã đạt được các kết quả chính sau đây:
Tổng hợp các kết quả về hướng nghiên cứu rút gọn thuộc tính trong bảng quyết định đầy đủ theo tiếp cận lý thuyết tập thô truyền thống của Pawlak.
Đề xuất phương pháp rút gọn thuộc tính sử dụng khoảng cách trên cơ sở cải tiến phương pháp rút gọn thuộc tính sử dụng metric (khoảng cách Jaccard) trong [1, 7], bao gồm các bước định nghĩa độ đo khoảng cách, định nghĩa tập rút gọn dựa trên khoảng cách và xây dựng thuật toán heuristic tìm một tập rút gọn tốt nhất sử dụng khoảng cách, chứng minh phương pháp đề xuất thuộc Nhóm phương pháp 3.
Xây dựng công thức tính toán khoảng cách khi bổ sung và loại bỏ một đối tượng, trên cơ sở đó xây dựng thuật toán tìm tập rút gọn khi bổ sung, loại bỏ đối tượng
Thử nghiệm tính hiệu quả của phương pháp sử dụng khoảng cách so với
các phương pháp khác cùng nhóm và tính hiệu quả của phương pháp gia tăng so với phương pháp không tính toán gia tăng.
2) Hƣớng phát triển của luận văn:
Tiếp tục nghiên cứu các thuật toán tìm tập rút gọn của bảng quyết định trong trường hợp bổ sung và loại bỏ tập thuộc tính.
Tìm hiểu nhu cầu thực tế, cũng như tham khảo các ý kiến của chuyên gia để xây dựng chương trình áp dụng kỹ thuật đã nghiên cứu, bổ xung một số yếu tố khác để hoàn thiện đánh giá chi tiết lại thuật toán.
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Tài liệu tham khảo Tài liệu tiếng Việt
[1] Nguyễn Long Giang, “Khai phá dữ liệu theo tiếp cận lý thuyết tập thô”,
Luận án Tiến sĩ Toán học, Viện Công Nghệ Thông Tin, 2012.
Tài liệu tiếng Anh
[2] Deza M. M. and Deza E., “Encyclopedia of Distances”, Springer, 2009. [3] Guan L. H, “An incremental updating algorithm of attribute reduction
set in decision tables”, FSKD'09 Proceedings of the 6th international conference on Fuzzy systems and knowledge discovery, Vol 2, 2009, pp. 421-425
[4] Hu F., Wang G.Y., Huang H., Wu Y., “Incremental attribute reduction based on elementary sets”, Proceedings of the 10th International Conference on Rough Sets, Fuzzy Sets, Data Mining and Granular Computing, Regina, Canada, 2005, pp. 185-193.
[5] Liang J.Y, Chin K.S., Dang C.Y. and Richard C.M.YAM, “New method for measuring uncertainty and fuzziness in rough set theory”,
International Journal of General Systems 31, 2002, pp. 331-342.
[6] Liang J.Y, Wang F., Dang C.Y., Qian Y.H., “A group incremental approach to feature selection applying rough set technique”, IEEE Transactions on Knowledge and Data Engineering, 2014, 26(2):294 - 308.
[7] Long Giang Nguyen, “Metric Based Attribute Reduction in Decision Tables”, The 2012 International Workshop on Rough Sets Applications (RSA’2012), FedCSIS Proceedings, IEEE, 2012, pp. 333-
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
338.
[8] Pawlak Z. (1982), “Rough sets”, International Journal of Computer and Information Sciences, 11(5): 341-356.
[9] Pawlak Z., Rough sets: Theoretical Aspects of Reasoning About Data, Kluwer Aca-demic Publishers, 1991.
[10] Wang F., Liang J. Y, Qian Y. H., “Attribute reduction: A dimension incremental strategy”, Knowledge-Based Systems, Volume 39, 2013, pp. 95–108
[11] Feng Wang, Jiye Liang, Chuangyin Dang., “Attribute reduction for dynamic data sets”, Applied Soft Computing, 2013, 13(1):676-689. [12] Zhang C. S, Jing Ruan J.,Tan Y. H., “An Improved Incremental
Updating Algorithm for Core Based on Positive Region”, Journal of Computational Information Systems 7: 9, 2011, pp. 3127-3133.
[13] Z. Y. Xu, Z. P. Liu, B. R. Yang, W. Song., “A quick attribute reduction algorithm with complexity of max(O(|C||U|), O(|C|2|U/C|))”, Journal of Computer, Vol. 29, no. 3, pp. 391-398, 2006.
[14] The UCI machine learning repository,
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Danh mục các công trình của tác giả
1 Lê Trƣờng Giang, Nguyễn Long Giang (2014), “Rút gọn thuộc tính trong bảng quyết định thay đổi”, Tạp chí Khoa học và Công nghệ, T16 S.21, tr. 8-14.
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Phụ lục
1. Một số giao diện của chƣơng trình thử nghiệm
- Giao diện chính của chương trình
- Bước tiếp theo là tiến hành nạp dữ liệu để thực hiện các thuật toán từ bộ dữ liệu chuẩn UCI như màn hình sau:
- Chức năng nạp dữ liệu từ UCI như sau
Chọn file dữ liệu UCI để nạp dữ liệu
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
- Sau khi nạp dữ liệu từ UCI phần mềm hiển thị menu để người dùng có thể thực hiện các thao tác như Tách tệp dữ liệu, gộp tệp dữ liệu và chạy các thuật toán
- Kết quả thử nghiệm với thuật toán rút gọn thuộc tính sử dụng entropy Liang (NEBAR) trên tập tin soybean-small.data số thuộc tính sau rút gọn là 2 và thời gian thực hiện là 171 mili giây.
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
- Kết quả thử nghiệm với thuật toán rút gọn thuộc tính sử dụng khoảng cách (DBAR) trên tập tin soybean-small.data số thuộc tính sau rút gọn là 2 và thời gian thực hiện là 37 mili giây.