trên các bộ số liệu lớn ST T STT Bộ số liệu U C Thuật toán ELBAR Thuật toán DBAR R t R t 1 Census-Income.data 299285 40 21 11415 21 5206 2 Adult.data 48842 14 9 1270 9 675 3 Dorothea.data 1950 1000 00 92 2867 92 1247 4 Poker-hand- testing.data 1000000 11 8 8977 8 4376 5 CovType.data 581012 54 17 14289 17 7256 Với các bộ số liệu có kích thước lớn, rõ ràng thời gian thực hiện Thuật toán DBAR nhỏ hơn nhiều Thuật toán ELBAR, do đó bộ số liệu kích thước càng lớn, Thuật toán DBAR càng hiệu quả.
3.3.2. Kết quả thử nghiệm về trích lọc luật theo tiếp cận tập thô
Cho bảng quyết định DS U C, D , giả sử U C/ {X X1, 2,...,Xm} và 1 2
/ { , ,..., }n
U D Y Y Y . Với XiU C/ , YjU C/ và Xi Yj . Thuật toán RuleExtract hiển thị các luật quyết định dạng Zij:des X i des Y j với độ chắc chắn
Zij XiYj / Xi
và đỗ hỗ trợ s Z ij XiYj /U tương ứng.
Thuật toán RuleExtract
Input: Bảng quyết định DS = (U, CD, V, f).
Output: Hiển thị danh sách các luật với độ chắc chắn và độ hỗ trợ s. 1. Tính phân hoạch U C/ ;
2. For each XiU C/
3. Begin
4. Tính Xi /D; 5. For each YjXi/D
6. Begin
7. Sinh luật Zij:des X i des Y j 8. Tính Zij Yj / Xi ; 9. Tính s Z ij Yj /U ; 10. Hiển thị luật Zij, độ chắc chắn Zij , độ hỗ trợ s Z ij ; 11. End; 12. End; 13. Return.
Thuật toán RuleExtract sinh luật quyết định (luật phân lớp) sử dụng tập thô được cài đặt bằng ngôn ngữ C#. Môi trường thử nghiệm là máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB bộ nhớ RAM, sử dụng hệ điều hành Windows XP Professional. Bộ số liệu thử nghiệm là Soybean-small.data lấy từ kho dữ liệu UCI [12]. Soybean-small.data là bộ số liệu đã rời rạc hóa với miền giá trị các thuộc tính là các số nguyên dương.
1) Thử nghiệm Thuật toán DBAR tìm một tập rút gọn tốt nhất. Với bộ số liệu thử nghiệm, giả sử U là số đối tượng, C là số thuộc tính điều kiện, DS là độ chắc chắn của bảng quyết định với tập thuộc tính ban đâu, '
DS
là độ chắc chắn của bảng quyết định với tập thuộc tính rút gọn, các thuộc tính điều kiện được đặt tên theo thứ tự từ c1, c2,…,cn. Kết quả thử nghiệm được mô tả trong Bảng 3.7
Bảng 3.4. Tập rút gọn tốt nhất của bộ số liệu Soybean-small STT Bộ số liệu U C Tập thuộc tính ban đầu DS Tập thuộc tính rút gọn ' DS 1 Soybean- small.data 47 35 {c1,…,c35} 1 {c4, c22} 1
2) Thử nghiệm Thuật toán RuleExtract sinh luật quyết định (luật phân lớp) sử dụng tập thô với bộ số liệu Soybean-small.data. Trên bảng quyết định ban đầu với 35 thuộc tính điều kiện {c1,…,c35}, kết quả thử nghiệm thu được 47 luật phân lớp, độ dài mỗi luật là 35 (được tính bằng tổng số thuộc tính điều kiện tham gia vào vế trái của luật). Trên bảng quyết định rút gọn với 2 thuộc tính điều kiện {c4, c22}, kết quả thử nghiệm được mô tả trong Bảng 3.8, trong đó: tổng số luật phân lớp là 7, độ dài mỗi luật là 2,
là độ chắc chắn và s là độ hỗ trợ của mỗi luật.
Bảng 3.5. Các luật phân lớp trên bảng quyết định rút gọn sử dụng tập thô
STT Các luật trên bảng quyết định rút
gọn s 1 c4(1) and c22(1) ==> D1 1 0.12766 2 c4(1) and c22(0) ==> D1 1 0.08511 3 c4(2) and c22(3) ==> D2 1 0.12766 4 c4(1) and c22(3) ==> D2 1 0.08511 5 c4(0) and c22(1) ==> D3 1 0.21277 6 c4(1) and c22(2) ==> D4 1 0.21277 7 c4(0) and c22(2) ==> D4 1 0.14894
Chú thích: Trên bảng Bảng 3.8, c4(1) nghĩa là thuộc tính c4 nhận giá trị 1 (c4 = 1). D1, D2, D3, D4 các là giá trị thuộc tính quyết định (tổng số 4 lớp quyết định).
Kết quả thử nghiệm cho thấy, trên tập rút gọn tốt nhất thu được bởi Thuật toán DBAR, số lượng các luật từ 47 giảm xuống còn 7, độ dài các luật từ 35 giảm xuống còn 2. Độ chắc chắn của tập luật không thay đổi (bằng 1). Kết quả này khẳng định ý nghĩa của việc rút gọn thuộc tính trong bước tiền xử lý dữ liệu.
KẾT LUẬN
1) Những kết quả chính của luận văn
Luận văn tập trung vào hướng nghiên cứu lý thuyết. Nội dung nghiên cứu của luận văn bao gồm hai phần: phần nghiên cứu tổng hợp các kết quả đã công bố và phần xây dựng phương pháp dựa trên độ đo mới. Luận văn có hai kết quả chính:
(1) Tổng kết các kết quả đã công bố về hướng nghiên cứu rút gọn thuộc tính và trích lọc luật trong bảng quyết định theo tiếp cận tập thô, bao gồm:
- Phân nhóm các phương pháp rút gọn thuộc tính dựa vào tập rút gọn - Luật quyết định và các độ đo đánh giá hiệu năng tập luật quyết định.
- Sự thay đổi các độ đo đánh giá hiệu năng trên các tập rút gọn, từ đó đánh giá các nhóm phương pháp dựa trên tiêu chuẩn chất lượng phân lớp của tập rút gọn (độ hỗ trợ tập luật).
(2) Theo hướng tiếp cận khoảng cách, luận văn đề xuất một độ đo khoảng cách và xây dựng phương pháp rút gọn thuộc tính sử dụng khoảng cách và thử nghiệm phương pháp trên các bộ số liệu mẫu từ kho dữ liệu thử nghiệm UCI [13]. Phương pháp sử dụng khoảng cách thuộc nhóm 3, do đó về tập rút gọn sẽ tương đương với các phương pháp thuộc nhóm 3.
2) Hướng phát triển tiếp theo
Tiếp tục nghiên cứu các phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định trong trường hợp bổ sung và loại bỏ tập đối tượng, tập thuộc tính.
Tài liệu tham khảo Tài liệu tiếng Việt
[1] Nguyễn Long Giang, “Khai phá dữ liệu theo tiếp cận lý thuyết tập thô”,
Luận án Tiến sĩ Toán học, Viện Công Nghệ Thông Tin, 2012.
[2] Nguyễn Long Giang, Phạm Hoàng Tuyên, Nghiên cứu sự thay đổi giá trị các độ đo đánh giá hiệu năng tập luật quyết định trên các tập rút gọn, Kỷ yếu Hội thảo Quốc gia lần thứ XV “Một số vấn đề chọn lọc của Công nghệ thông tin
và truyền thông”, Hà Nội 11/2012, 2013, Tr. 295-301.
Tài liệu tiếng Anh
[3] Andrzej Skowron and Rauszer C (1992), “The Discernibility Matrices and Functions in Information Systems”, Interlligent Decision Support,
Handbook of Applications and Advances of the Rough Sets Theory, Kluwer,
Dordrecht, pp. 331-362.
[4] Deza M. M. and Deza E., “Encyclopedia of Distances”, Springer, 2009. [5] Liang J.Y, Chin K.S., Dang C.Y. and Richard C.M.YAM, “New
method for measuring uncertainty and fuzziness in rough set theory”,
International Journal of General Systems 31, 2002, pp. 331-342.
[6] Long Giang Nguyen, “Metric Based Attribute Reduction in Decision Tables”, The 2012 International Workshop on Rough Sets Applications (RSA’2012), FedCSIS Proceedings, IEEE, 2012, pp. 333-
338.
[7] Pawlak Z. (1982), “Rough sets”, International Journal of Computer
and Information Sciences, 11(5): 341-356.
Kluwer Aca-demic Publishers, 1991.
[9] Qian Y.H., Liang J.Y., Li D.Y., Zhang H.Y. and Dang C.Y. (2008), “Measures for Evaluating The Decision Performace of a Decision Table in Rough Set Theory”, Information Sciences, Vol.178, pp.181-202.
[10] Wang F., Liang J. Y, Qian Y. H., “Attribute reduction: A dimension incremental strategy”, Knowledge-Based Systems, Volume 39, 2013,
pp. 95–108
[11] Z. Y. Xu, Z. P. Liu, B. R. Yang, W. Song., “A quick attribute reduction algorithm with complexity of max(O(|C||U|), O(|C|2|U/C|))”, Journal of Computer, Vol. 29, no. 3, pp. 391-398, 2006.
[12] The UCI machine learning repository,
Phụ lục
1. Một số giao diện của chương trình thử nghiệm
Hình 1. Giao diện chính chương trình
Hình 2. Chọn bộ dữ liệu từ kho dữ liệu UCI
Hình 3. Tính phân hoạch với bộ dữ liệu IRIS.DATA từ kho dữ liệu UCI
Hình 5. Tính phân hoạch U/C của bộ dữ liệu IRIS.DATA từ kho dữ liệu UCI
Hình 6. Thực nghiệm tính khoảng cách của bộ dữ liệu bằng thuật toán Entropy Liang
Kết quả khi chạy với bộ dữ liệu IRIS.DATA từ kho dữ liệu UCI: - Tập rút gọn: {C1,C2,C3}
- Tập dư thừa: {C4}
- Số thuộc tính sau rút gọn: 3
- Thời gian tính toán: 0 giây 328 mili giây
Hình 7. Thực nghiệm tính khoảng cách của bộ dữ liệu bằng thuật toán DBAR
Kết quả khi chạy với bộ dữ liệu IRIS.DATA từ kho dữ liệu UCI: - Tập rút gọn: {C1,C2,C3}
- Tập dư thừa: {C4}
- Số thuộc tính sau rút gọn: 3