Để tiến hành thử nghiệm, tôi cài đặt Thuật toán RuleExtract bằng ngôn ngữ C#. Môi trường thử nghiệm là máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB bộ nhớ RAM, sử dụng hệ điều hành Windows XP Professional. Bộ số liệu thử nghiệm là Soybean-small.data lấy từ kho dữ liệu UCI [22]. Soybean- small.data là bộ số liệu đã rời rạc hóa với miền giá trị các thuộc tính là các số nguyên dương.
1) Thử nghiệm Thuật toán DBAR tìm một tập rút gọn tốt nhất. Với bộ số liệu thử nghiệm, giả sử U là số đối tượng, C là số thuộc tính điều kiện, DS là độ chắc chắn của bảng quyết định với tập thuộc tính ban đâu, '
DS là độ chắc chắn của bảng quyết định với tập thuộc tính rút gọn, các thuộc tính điều kiện được đặt tên theo thứ tự từ c1, c2,…,cn. Kết quả thử nghiệm được mô tả trong Bảng 3.4
Bảng 3.4. Tập rút gọn tốt nhất của bộ số liệu Soybean-small
STT Bộ số liệu U C Tập thuộc tính ban đầu DS Tập thuộc tính rút gọn ' DS 1 Soybean- small.data 47 35 {c1,…,c35} 1 {c4, c22} 1
2) Thử nghiệm Thuật toán RuleExtract sinh luật quyết định (luật phân lớp) sử dụng mô hình tập thô dung sai với bộ số liệu Soybean-small.data. Trên bảng quyết định ban đầu với 35 thuộc tính điều kiện {c1,…,c35}, kết quả thử nghiệm thu được 47 luật phân lớp, độ dài mỗi luật là 35 (được tính bằng tổng số thuộc tính điều kiện tham gia vào vế trái của luật). Trên bảng quyết định rút gọn với 2 thuộc tính điều kiện {c4, c22}, kết quả thử nghiệm được mô tả trong Bảng 3.5, trong đó: tổng số luật phân lớp là 7, độ dài mỗi luật là 2, là độ chắc chắn và s là độ hỗ trợ của mỗi luật.
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Bảng 3.5. Các luật phân lớp trên bảng quyết định rút gọn
STT Các luật trên bảng quyết định rút gọn s
1 c4(1) and c22(1) ==> D1 1 0.12766 2 c4(1) and c22(0) ==> D1 1 0.08511 3 c4(2) and c22(3) ==> D2 1 0.12766 4 c4(1) and c22(3) ==> D2 1 0.08511 5 c4(0) and c22(1) ==> D3 1 0.21277 6 c4(1) and c22(2) ==> D4 1 0.21277 7 c4(0) and c22(2) ==> D4 1 0.14894
Chú thích: Trên bảng Bảng 3.5, c4(1) nghĩa là thuộc tính c4 nhận giá trị 1 (c4 = 1). D1, D2, D3, D4 các là giá trị thuộc tính quyết định (tổng số 4 lớp quyết định).
Kết quả thử nghiệm cho thấy, trên tập rút gọn tốt nhất thu được bởi Thuật toán DBAR, số lượng các luật từ 47 giảm xuống còn 7, độ dài các luật từ 35 giảm xuống còn 2. Độ chắc chắn của tập luật không thay đổi (bằng 1). Kết quả này khẳng định ý nghĩa của việc rút gọn thuộc tính trong bước tiền xử lý dữ liệu
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
KẾT LUẬN
1) Những kết quả chính của luận văn
Luận văn tập trung vào hướng nghiên cứu lý thuyết. Nội dung nghiên cứu của luận văn bao gồm hai phần: phần nghiên cứu tổng hợp các kết quả đã công bố và phần đề xuất các phương án mới. Luận văn đạt được hai kết quả chính:
(1) Trên cơ sở tổng kết các kết quả đã công bố mới nhất về hướng nghiên cứu rút gọn thuộc tính trong bảng quyết định không đầy đủ, bao gồm các phương pháp rút gọn thuộc tính và phân nhóm các phương pháp, luận văn xây dựng phương pháp rút gọn thuộc tính sử dụng khoảng cách Hamming trên cơ sở kế thừa phương pháp rút gọn thuộc tính dựa trên metric entropy đã có.
(2) Cài đặt và thử nghiệm phương pháp rút gọn thuộc tính sử dụng khoảng cách Hamming và phương pháp trích lọc luật trên các bộ số liệu thử nghiệm từ kho dữ liệu UCI.
Phương pháp sử dụng khoảng cách Hamming không hiệu quả hơn phương pháp sử dụng khoảng cách entropy Liang [13], tuy nhiên ý nghĩa của phần này là làm phong phú thêm các phương pháp rút gọn thuộc tính sử dụng khoảng cách.
2) Hướng phát triển tiếp theo
Tiếp tục nghiên cứu các phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi sử dụng các độ đo khoảng cách.
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Tài liệu tham khảo
Tài liệu tiếng Việt
[1] Nguyễn Long Giang (2012), “Nghiên cứu các phương pháp khai phá dữ liệu theo tiếp cận lý thuyết tập thô”, Luận án Tiến sĩ Toán học, Viện Công Nghệ Thông Tin.
[2] Nguyễn Long Giang, Nguyễn Thanh Tùng (2009), “Nghiên cứu mối liên hệ giữa ba khái niệm tập rút gọn trong lý thuyết tập thô”, Kỷ yếu hội thảo Quốc gia “Một số vấn đề chọn lọc về CNTT và TT”, Đồng Nai, tr. 282- 293.
[3] Nguyễn Long Giang, Nguyễn Thanh Tùng (2012), “Một phương pháp mới rút gọn thuộc tính trong bảng quyết định sử dụng metric”, Kỷ yếu Hội thảo Quốc gia “Một số vấn đề chọn lọc về CNTT và TT”, Cần Thơ, 10/2011, Tr. 249-266.
[4] Nguyễn Long Giang, Phạm Hoàng Tuyên (2013), “Nghiên cứu sự thay đổi giá trị các độ đo đánh giá hiệu năng tập luật quyết định trên các tập rút gọn”, Kỷ yếuHội thảo Quốc gia “Một số vấn đề chọn lọc về CNTT và TT”, Hà Nội, 12/2012, Tr. 295-301.
[5] Nguyễn Thanh Tùng (2010), “Về một metric trên họ các phân hoạch của một tập hợp hữu hạn”, Tạp chí Tin học và Điều khiển học, T.26, S.1, tr. 73- 85.
Tài liệu tiếng Anh
[1] Chin K.S., Liang J.Y. and Dang C.Y. (2003), “Rough Set Data Analysis Algorithms for Incomplete Information Systems”, Proceedings of the 9th international conference on Rough sets, fuzzy sets, data mining, and granular computing, RSFDGrC'03, pp. 264-268.
[2]
[3]
Huang B., He X. and Zhou X.Z. (2004), “Rough Computational methods based on tolerance matrix”, Acta Automatica Sinica, Vol. 30, Vab. 2004. Li X.H. and Shi K.Q. (2006), “A knowledge granulation-based algorithm for attribute reduction under incomplete information systems”, Computer Science, Vol. 33, pp. 169-171.