Thử nghiệm thuật toán tìm tất cả các thuộc tính rút gọn của bảng quyết định

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu các tập rút gọn trong bảng quyết đinh (Trang 53)

quyết định nhất quán

Để tiến hành thử nghiệm, chúng tôi cài đặt thuật toán tìm tất cả các thuộc tính rút gọn của bảng quyết định nhất quán (Gọi tắt là thuật toán REATA) bằng ngôn ngữ C#. Chạy thử nghiệm thuật toán trên máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB bộ nhớ RAM, sử dụng hệ điều hành Windows XP Professional. Thử nghiệm đƣợc tiến hành trên 4 bộ số liệu nhất quán lấy từ kho dữ liệu UCI [21].

Với mỗi bộ số liệu, giả sử U là số đối tƣợng, C là số thuộc tính điều kiện,

t là thời gian thực hiện thuật toán (đơn vị là giây s). Các thuộc tính điều kiện đƣợc đánh số thứ tự từ 1,... C . Kết quả thử nghiệm Thuật toán REATA đƣợc mô tả ở Bảng 2.7.

Bảng 2.7. Kết quả thử nghiệm Thuật toán REATA

STT Tập dữ liệu U C t Tập thuộc tính rút gọn Tập thuộc tính dƣ thừa thực sự 1 Adult- stretch 20 4 0.93 {3,4} {1,2} 2 Soybean- small.data 47 35 2.74 {1,2,3,4,5,6,7,8,9, 10,12,20,21,22,23, 24,25,26,27,28,35} {11,13,14,15,16,17, 18,19,29,30,31,32, 33,34} 3 Sponge.data 76 45 2.1 {1,…,11,13,…,34, 36,…,45} {12,35} 4 Zoo.data 101 17 3.19 {1,2,4,5,7,8,9,10, 11,12,13,14,15,17} {3,6,16} 3.4. Một số bài toán ứng dụng

Trong thực tế, việc sử dụng các phƣơng pháp rút gọn thuộc tính trong các bảng quyết định có ý nghĩa rất quan trọng. Nó loại bỏ đƣợc các thuộc tính dƣ thừa (những thuộc tính không có ý nghĩa trong việc sinh ra các luật quyết định). Trong phần này, chúng tôi xin giới thiệu một vài bài toán ứng dụng các phƣơng pháp rút gọn thuộc tính trong bảng quyết định đầy đủ, đồng thời sinh các luật quyết định.

Chúng tôi xin nêu ra một số bài toán ứng dụng khi sử dụng các thuật toán rút gọn đã trình bày trên những bộ dữ liệu chuẩn thuộc bộ dữ liệu UCI..

Thông thƣờng trong một bảng quyết định thì số thuộc tính trong bảng có thể vẫn còn là thuộc tính dƣ thừa, việc loại bỏ các thuộc tính dƣ thừa đó ra khỏi bảng quyết định là rất cần thiết, nó giúp việc sinh luật quyết định trở lên hiệu quả và tiết kiệm thời gian.

Trong bộ dữ liệu Lung-Cancer của bộ dữ liệu UCI thì số thuộc tính ban đầu khi chƣa thực hiện thuật toán là 56. Sau khi thực hiện một trong số các thuật toán rút gọn đã trình bày thì số thuộc tính quyết định chỉ còn là 4. Nhƣ vậy, thay bằng việc để dự đoán bệnh nhân nào có khả năng mắc ung thƣ cao, Bác sĩ sẽ phải xét tất cả 56 thuộc tính mà trong đó có tới 52 thuộc tính dƣ thừa, trong khi chỉ cần dựa vào 4 thuộc tính trong bảng quyết định, Bác sĩ vẫn có thể có kết luận nhƣ trên.

Một ví dụ khác, khi áp dụng thuật toán tìm tập rút gọn với bộ dữ liệu viêm gan Hepatiris.data trong kho dữ liệu UCI để sinh luật quyết định phục vụ cho các bác sĩ chuyên ngành chuẩn đoán bệnh nhân mắc bệnh viêm gan. Ban đầu, bộ dữ liệu Hepatiris.data gồm 19 thuộc tính điều kiện, tƣơng ứng với 19 triệu chứng thu thập đƣợc từ bệnh nhân có biểu hiện viêm gan, bao gồm: Tuổi, Giới tính, STEROID, Dùng thuốc kháng Vius, Mệt mỏi, Khó ở, Chán ăn, Gan sƣng to, Sơ gan, Viêm lá lách, STEROID, Huyết thanh, Tĩnh mạch, Sắc tố da, ALK PHOSPHATE, SGOT, ALBUMIN, PROTIME, Tiền sử mắc bệnh hay chƣa. Sau khi thực hiện thuật toán rút gọn thuộc tính, chúng tôi thu đƣợc một tập rút gọn gồm 03 thuộc tính là: Giới tính, Sắc tố da, ALK PHOSPHATE. Điều đó có nghĩa là 16 thuộc tính còn lại là dƣ thừa. Thay vì sinh luật từ tập 19 thuộc tính ban đầu, chúng tôi chỉ thực hiện việc sinh luật tên tập rút gọn gồm 03 thuộc tính để chuẩn đoán bệnh viêm gan…

3.5. Một số giao diện chƣơng trình thử nghiệm 3.5.1. Giao diện chính của chƣơng trình 3.5.1. Giao diện chính của chƣơng trình

Giao diện chính của chƣơng trình nhƣ sau:

3.5.2. Nạp các tệp dữ liệu mẫu lấy từ kho dữ liệu UCI

Dowload các bộ dữ liệu mẫu dùng cho thử nghiệm từ kho dữ liệu UCI:

http://archive.ics.uci.edu/ml/datasets.html

Vào Menu: Tệp dữ liệu \ Nạp dữ liệu từ UCI để thực hiện nạp dữ liệu. Ví dụ: tệp dữ liệu tuyển sinh IRIS.DATA

3.5.3. Thực hiện thuật toán CEBARKCC

- Kết quả thực hiện thuật toán CEBARKCC tìm một tập rút gọn tốt nhất sử dụng entropy Shannon với bộ dữ liệu IRIS.DATA nhƣ sau:

3.5.4. Thực hiện thuật toán sử dụng khoảng cách

- Kết quả thực hiện thuật toán MBAR tìm một tập rút gọn tốt nhất sử dụng khoảng cách do chúng tôi tìm hiểu với bộ dữ liệu IRIS.DATA nhƣ sau:

3.5.5. Thực hiện thuật toán sinh luật quyết định từ tập rút gọn

Nhƣ đã mô tả ở trên, chúng tôi tiến hành thử nghiệm với bộ số liệu Soybean-small.data

1) Thực hiện thuật toán MBAK tìm một tập rút gọn tốt nhất:

2) Thực hiện thuật toán RuleExtract sinh luật quyết định từ tập rút gọn tìm đƣợc:

- Nhấn nút “Xem tập rút gọn”

3.5.6. Thực hiện thuật toán tìm tập rút gọn xấp xỉ

Nhƣ đã mô tả ở trên, chúng tôi tiến hành thử nghiệm với bộ số liệu Tic-tac- toe.data với các ngƣỡng độ chắc chắn khác nhau.

1) Giao diện chọn ngƣỡng:

2) Ví dụ: Chọn ngƣỡng là 0.7, kết quả thực hiện nhƣ sau:

3.5.7. Thực hiện thuật toán tìm tất cả thuộc tính rút gọn

- Kết quả thực hiện Thuật toán REATA tìm tất cả các thuộc tính rút gọn do chúng tôi tìm hiểu với bộ dữ liệu Soybean-small.data nhƣ sau:

KẾT LUẬN

Trong quá trình nghiên cứu và hoàn thành luận văn, luận văn đã đạt đƣợc những kết quả sau:

1. Kết quả đạt đƣợc

 Tìm hiểu các khái niệm về hệ thống thông tin, bảng quyết định, tập rút gọn…

 Tìm hiểu lý thuyết về cơ sở dữ liệu quan hệ, các khái niệm cơ bản và một số thuật toán liên quan.

 Tìm hiểu một số thuật toán tìm một tập rút gọn và thuật toán tìm tất cả các tập rút gọn trong bảng quyết định nhất quán.

 Cài đặt thử nghiệm thành công một số chƣơng trình thử nghiệm để từ đó so sánh các phƣơng pháp đã có với phƣơng pháp tìm hiểu dựa trên lý thuyết tìm hiểu và trên cùng một máy tính, cùng bộ dữ liệu thử nghiệm là bộ dữ liệu UCI. Từ đó, rút ra nhận xét về thời gian thực hiện, kết quả thực hiện các phƣơng pháp đã trình bày, đồng thời đƣa ra một số bài toán ứng dụng trong thực tế khi sử dụng các phƣơng pháp rút gọn để sinh luật.

2. Hƣớng nghiên cứu

Trong thực tế, việc tìm tập rút gọn trong bảng quyết định là rất cần thiết và có tính thực tế cao. Do đó, việc nghiên cứu tìm hiểu về các tập rút gọn và các thuật toán tìm tập rút gọn trong bảng quyết định sẽ là hƣớng nghiên cứu tiếp của luận văn.

TÀI LIỆU THAM KHẢO

Tài liệu tiếng Việt

[1] Hoàng Thị Lan Giao (2007), “Khía cạnh đại số và lôgic phát hiện luật theo tiếp

cận tập thô”, Luận án Tiến sĩ Toán học, Viện Công Nghệ Thông Tin.

[2] Nguyễn Thanh Tùng (2010), “Về một metric trên họ các phân hoạch của một tập

hợp hữu hạn”, Tạp chí Tin học và Điều khiển học, T.26, S.1, tr. 73-85.

Tài liệu tiếng Anh

[3] Chen D.G, Zhao S.Y., Zhang L., Yang Y.P. and Zhang X. (2011), “Sample

pair selection for attribute reduction with rough set”, IEEE Transaction on Knowledge and Data Engineering, 29 March 2011.

[4] Chin K.S., Liang J.Y. and Dang C.Y. (2003), “Rough Set Data Analysis

Algorithms for Incomplete Information Systems”, Proceedings of the 9th international conference on Rough sets, fuzzy sets, data mining, and granular computing, RSFDGrC'03, pp. 264-268.

[5] Demetrovics J. and Thi V.D. (1987), “Keys, antikeys and prime attributes”, Ann. Univ. Scien. Budapest Sect. Comput. 8, pp. 37-54.

[6] Demetrovics J. and Thi V.D. (1995), “Some remarks on generating Armstrong

and inferring functional dependencies relation”, Acta Cybernetica 12, pp. 167- 180.

[7] Deza M. M. and Deza E., “Encyclopedia of Distances”, Springer, 2009.

[8] Luo P., He Q. and Shi Z.Z. (2005), “Theoretical study on a new information

entropy and its use in attribute reduction”, ICCI, pp. 73-79.

[9] Lv Y.J. and Li J.H. (2007), “A Quick Algorithmfor Reduction of Attribute in

Information Systems”, The First International Symposium on Data, Privacy, and E-Commerce (ISDPE 2007), pp. 98-100.

[10] Miao D.Q. and Hu G.R. (1999), “A heuristic algorithm for knowledge

reduction”, Computer Research and Development, Vol. 36, No. 6, pp. 681- 684.

[11] Nguyen S. Hoa, Nguyen H. Son (1996), "Some Efficient Alogrithms for

Rough Set Methods", Proceedings of the sixth International Conference on Information Processing Management of Uncertainty in Knowledge Based Systems, pp. 1451 - 1456.

[12] Pawlak Z. (1991), Rough sets: Theoretical Aspects of Reasoning About Data, Kluwer Aca-demic Publishers.

[13] Pawlak Z. (1998), “Rough set theory and its applications to data analysis”, Cybernetics and systems 29, pp. 661-688.

[14] Qian Y.H., Liang J.Y., Dang C.Y., Wang F. and Xu W. (2007), “Knowledge

distance in information systems”, Journal of Systems Science and Systems Engineering, Vol. 16, pp. 434-449.

[15 ] Qian Y.H., Liang J.Y., Li D.Y., Zhang H.Y. and Dang C.Y. (2008), “Measures for Evaluating The Decision Performace of a Decision Table in Rough Set Theory”, Information Sciences, Vol.178, pp.181-202

[16] Sun L., Xu J.C and Cao X.Z (2009), “Decision Table Reduction Method Based

on New Conditional Entropy for Rough Set Theory”, International Workshop on Intelligent Systems and Applications, pp. 1-4.

[17] Wang B.Y. and Zhang S.M. (2007), “A Novel Attribute Reduction Algorithm

Based on Rough Set and Information Entropy Theory”, 2007 International Conference on Computational Intelligence and Security Workshops, IEEE CISW, pp.81-84.

[18] Wang C.R. and OU F.F. (2008), “An Attribute Reduction Algorithm in Rough

Set Theory Based on Information Entropy”, 2008 International Symposium on Computational Intelligence and Design, IEEE ISCID, pp. 3-6.

[19] Wang G.Y., Yu H. and Yang D.C. (2002), “Decision table reduction based on

conditional information entropy”, Journal of Computers, Vol. 25 No. 7, pp. 759-766.

[20] Yao Y.Y., Zhao Y. and Wang J. (2006), “On reduct construction algorithms”,

Proceedings of International Conference on Rough Sets and Knowledge Technology, pp. 297-304.

[21] The UCI machine learning repository,

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu các tập rút gọn trong bảng quyết đinh (Trang 53)

Tải bản đầy đủ (PDF)

(61 trang)