Thuật toán trích lọc luật trong mô hình tập thô dung sai

Một phần của tài liệu Rút gọn thuộc tính và trích lọc luật trên bảng quyết định không đầy đủ dựa trên mô hình tập thô dung sai (Trang 41 - 52)

Cho bảng quyết định không đầy đủ IDS U A, d với U u1,...,un , giả sử

/ { A i i , 1.. }

U SIM A S u u U i nU / d { ,Y Y1 2,...,Ym} . Với

/ , / , 1.. , 1..

A i j

S u U SIM A Y U d i n j mS uA i Yj . Thuật toán

RuleExtract hiển thị các luật quyết định dạng RULE Z Z des S uij ij: A i des Yj với độ chắc chắn Zij SA ui Yj / SA ui và đỗ hỗ trợ s Zij SA ui Yj /U

tương ứng.

Thuật toán sau đây thực hiện trích lọc các luật quyết định và hiển thị độ đo của các luật dựa vào định nghĩa luật quyết định trong lý thuyết tập thô.

Thuật toán RuleExtract

Input: Bảng quyết định không đầy đủ IDS U A, d

Output: Hiển thị danh sách các luật với độ chắc chắn và độ hỗ trợ s. 1. Tính phủ U SIM A/ ;

2. For each SA ui U SIM A/ 3. Begin

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

4. Tính phân hoạch SA ui / d ; 5. For each Yj SA ui / d

6. Begin

7. Sinh luật Zij:des SA ui des Yj

8. Tính Zij SA ui Yj / SA ui ; 9. Tính s Zij SA ui Yj /U ; 10. Hiển thị luật Zij, độ chắc chắn Zij , độ hỗ trợ s Zij ; 11. End; 12.End; 13.Return.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Chương 3. THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 3.1. Bài toán

Cho trước các bảng quyết định không đầy đủ với kích thước trung bình và kích thước lớn, nhiệm vụ của phần thử nghiệm và đánh giá đặt ra là:

1) Cài đặt và thử nghiệm, đánh giá thuật toán rút gọn thuộc tính sử dụng khoảng cách Hamming

2) Cài đặt và thử nghiệm thuật toán sinh luật quyết định RULEEXTRACT trên tập rút gọn tìm được của thuật toán sử dụng khoảng cách Hamming.

Bao gồm các bước sau:

Bước 1. Cài đặt thuật toán rút gọn thuộc tính sử dụng khoảng cách Hamming (Thuật toán HDBAR), đánh giá thời gian thực hiện và kết quả thực hiện của thuật toán HDBAR với một thuật toán đã công bố trên cùng một bộ số liệu thử nghiệm để so sánh, bao gồm:

- Lựa chọn thuật toán tìm tập rút gọn của bảng quyết định không đầy đủ sử dụng độ đo lượng thông tin trong [7], gọi tắt là Thuật toán IQBAR (Information Quantity Based Attribute Reduction), để so sánh với thuật toán tìm tập rút gọn sử dụng khoảng cách Hamming (Thuật toán 2.1), tôi gọi tắt là Thuật toán HDBAR (Hamming Distance Based Attribute Reduction) vì độ phức tạp của Thuật toán Thuật toán IQBAR tương đương với độ phức tạp của các thuật toán sử dụng ma trận dung sai trong [8, 23]. Tuy nhiên, Thuật toán IQBAR không phải lưu trữ ma trận dung sai nên hiệu quả hơn về mặt lưu trữ

- Cài đặt thuật toán HDBAR và Thuật toán IQBAR

Bước 2: Chạy thử nghiệm 2 thuật toán HDBAR và IQBAR trên cùng một bộ số liệu từ kho dữ liệu UCI để tiến hành so sánh, đánh giá.

Bước 3: Cài đặt và thực hiện thuật toán trích lọc luật RULEEXTRACT trên tập rút gọn tìm được của Thuật toán HDBAR.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

3.2. Phân tích, lựa chọn công cụ

Trước hết, tôi trình bày thuật toán IQBAR [7].

3.2.1. Mô tả phương pháp sử dụng độ đo lượng thông tin

Trong [7], Huang B và các cộng sự đưa ra khái niệm về tập rút gọn dựa trên lượng thông tin (information quantity). Với B A, lượng thông tin của B đối với

{d} I B d I B d I B với 2 1 1 1 n B i i I B S u U và 1, 2,..., n

U u u u . Tập rút gọn dựa trên khoảng cách Hamming được định nghĩa như sau: Cho bảng quyết định không đầy đủ IDS U A, d . Nếu R A thỏa mãn:

' ' 1 ; 2 , . I R d I A d R R I R d I A d .

thì R được gọi là một tập rút gọn của IDS dựa trên lượng thông tin.

Trong công trình [7], Huang B và các tác giả cũng trình bày thuật toán tìm một tập rút gọn tốt nhất sử dụng khoảng cách Hamming, gọi là Thuật toán IQBAR.

Thuật toán IQBAR. Tìm tập rút gọn của bảng quyết định không đầy đủ sử dụng lượng thông tin [7]. (Information Quantity Based Algorithm for Reduction of Knowledge)

Input: Bảng quyết định không đầy đủ IDS U A, d .

Output: Một tập rút gọn R.

1. R ;

2. Tính I R d , I A d ;

// Thêm dần vào R các thuộc tính có độ quan trọng lớn nhất

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

4. Begin

5. For each b A R tính SIG bR I B d I B b d ;

6. Chọn bm A R sao cho R m R

b A R

SIG m Max SIG b ;

7. R R bm ;

8. End;

// Loại bỏ các thuộc tính dư thừa trong R nếu có

9. For each b R

10. If I R b d I A d then R R b ; 11. Return R;

3.2.2. Lựa chọn công cụ cài đặt

Tôi sử dụng công cụ là ngôn ngữ lập trình C# trên môi trường hệ điều hành Windows XP Professional để thực hiện cài đặt thuật toán HDBAR và IQBAR.

3.3. Một số kết quả thử nghiệm

3.3.1. Kết quả thử nghiệm về rút gọn thuộc tính sử dụng khoảng cách Hamming Hamming

Sau khi cài đặt, tôi tiến hành thử nghiệm Thuật toán HDBAR và Thuật toán IQBAR trên 6 bộ số liệu vừa và nhỏ lấy từ kho dữ liệu UCI [25]. Môi trường thử nghiệm là máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB bộ nhớ RAM, sử dụng hệ điều hành Windows XP Professional. Với mỗi bộ số liệu, giả sử U

là số đối tượng, C là số thuộc tính điều kiện, R là số thuộc tính của tập rút gọn, t

thời gian thực hiện thuật toán (đơn vị là giây s). Các thuộc tính điều kiện được đánh số thứ tự từ 1 đến C . Bảng 3.1 và Bảng 3.2 mô tả kết quả thực hiện của hai thuật toán.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Bảng 3.1. Kết quả thực hiện Thuật toán HDBAR và Thuật toán IQBAR

STT Bộ số liệu U C Thuật toán IQBAR Thuật toán HDBAR R t R t 1 Hepatitis.data 155 19 4 1.296 4 0.89 2 Lung-cancer.data 32 56 4 0.187 4 0.171 3 Automobile.data 205 25 5 3 5 1.687 4 Anneal.data 798 38 9 179 9 86.921 5 Congressional Voting Records 435 16 15 25.562 15 16.734 6 Credit Approval 690 15 7 29.703 7 15.687

Bảng 3.2. Tập rút gọn của Thuật toán HDBAR và Thuật toán IQBAR

STT Bộ số liệu Tập rút gọn của Thuật toán IQBAR

Tập rút gọn của Thuật toán HDBAR

1 Hepatitis.data {1, 2, 4, 17} {1, 2, 4, 17} 2 Lung-cancer.data {3, 4, 9, 43} {3, 4, 9, 43} 3 Automobile.data {1, 13, 14, 20, 21} {1, 13, 14, 20, 21} 4 Anneal.data {1, 3, 4, 5, 8, 9, 33, 34, 35} {1, 3, 4, 5, 8, 9, 33, 34, 35} 5 Congressional Voting Records {1, 2, 3, 4, 5, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16} {1, 2, 3, 4, 5, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16} 6 Credit Approval {1, 2, 3, 4, 5, 6, 8} {1, 2, 3, 4, 5, 6, 8}

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Kết quả thử nghiệm cho thấy

Trên 6 bộ số liệu được chọn, tập rút gọn thu được bởi Thuật toán HDBAR và Thuật toán IQBAR là như nhau. Kết quả này phù hợp với kết quả nghiên cứu lý thuyết đã trình bày ở phần trên.

Thời gian thực hiện Thuật toán HDBAR nhanh hơn Thuật toán IQBAR, do đó Thuật toán HDBAR hiệu quả hơn Thuật toán IQBAR.

Tiếp theo, tôi tiến hành thử nghiệm Thuật toán HDBAR trên 5 bộ số liệu kích thước lớn. Kết quả thử nghiệm được mô tả ở bảng sau:

Bảng 3.3. Kết quả thực hiện Thuật toán HDBAKThuật toán IQBAK

trên các bộ số liệu lớn STT STT Bộ số liệu U C Thuật toán IQBAR Thuật toán HDBAR R t R t 1 Census-Income.data 299285 40 21 11415 21 5206 2 Adult.data 48842 14 9 1270 9 675 3 Dorothea.data 1950 1000 00 92 2867 92 1247 4 Poker-hand- testing.data 1000000 11 8 8977 8 4376 5 CovType.data 581012 54 17 14289 17 7256 Với các bộ số liệu có kích thước lớn, rõ ràng thời gian thực hiện Thuật toán HDBAR nhỏ hơn nhiều Thuật toán IQBAR, do đó bộ số liệu kích thước càng lớn, Thuật toán HDBAR càng hiệu quả.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

3.3.2. Kết quả thử nghiệm về trích lọc luật trong mô hình tập thô dung sai

Để tiến hành thử nghiệm, tôi cài đặt Thuật toán RuleExtract bằng ngôn ngữ C#. Môi trường thử nghiệm là máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB bộ nhớ RAM, sử dụng hệ điều hành Windows XP Professional. Bộ số liệu thử nghiệm là Soybean-small.data lấy từ kho dữ liệu UCI [22]. Soybean- small.data bộ số liệu đã rời rạc hóa với miền giá trị các thuộc tính là các số nguyên dương.

1) Thử nghiệm Thuật toán DBAR tìm một tập rút gọn tốt nhất. Với bộ số liệu thử nghiệm, giả sử U là số đối tượng, C là số thuộc tính điều kiện, DS là độ chắc chắn của bảng quyết định với tập thuộc tính ban đâu, '

DS là độ chắc chắn của bảng quyết định với tập thuộc tính rút gọn, các thuộc tính điều kiện được đặt tên theo thứ tự từ c1, c2,…,cn. Kết quả thử nghiệm được mô tả trong Bảng 3.4

Bảng 3.4. Tập rút gọn tốt nhất của bộ số liệu Soybean-small

STT Bộ số liệu U C Tập thuộc tính ban đầu DS Tập thuộc tính rút gọn ' DS 1 Soybean- small.data 47 35 {c1,…,c35} 1 {c4, c22} 1

2) Thử nghiệm Thuật toán RuleExtract sinh luật quyết định (luật phân lớp) sử dụng mô hình tập thô dung sai với bộ số liệu Soybean-small.data. Trên bảng quyết định ban đầu với 35 thuộc tính điều kiện {c1,…,c35}, kết quả thử nghiệm thu được 47 luật phân lớp, độ dài mỗi luật là 35 (được tính bằng tổng số thuộc tính điều kiện tham gia vào vế trái của luật). Trên bảng quyết định rút gọn với 2 thuộc tính điều kiện {c4, c22}, kết quả thử nghiệm được mô tả trong Bảng 3.5, trong đó: tổng số luật phân lớp là 7, độ dài mỗi luật là 2, là độ chắc chắn và s là độ hỗ trợ của mỗi luật.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Bảng 3.5. Các luật phân lớp trên bảng quyết định rút gọn

STT Các luật trên bảng quyết định rút gọn s

1 c4(1) and c22(1) ==> D1 1 0.12766 2 c4(1) and c22(0) ==> D1 1 0.08511 3 c4(2) and c22(3) ==> D2 1 0.12766 4 c4(1) and c22(3) ==> D2 1 0.08511 5 c4(0) and c22(1) ==> D3 1 0.21277 6 c4(1) and c22(2) ==> D4 1 0.21277 7 c4(0) and c22(2) ==> D4 1 0.14894

Chú thích: Trên bảng Bảng 3.5, c4(1) nghĩa là thuộc tính c4 nhận giá trị 1 (c4 = 1). D1, D2, D3, D4 các là giá trị thuộc tính quyết định (tổng số 4 lớp quyết định).

Kết quả thử nghiệm cho thấy, trên tập rút gọn tốt nhất thu được bởi Thuật toán DBAR, số lượng các luật từ 47 giảm xuống còn 7, độ dài các luật từ 35 giảm xuống còn 2. Độ chắc chắn của tập luật không thay đổi (bằng 1). Kết quả này khẳng định ý nghĩa của việc rút gọn thuộc tính trong bước tiền xử lý dữ liệu

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

KẾT LUẬN

1) Những kết quả chính của luận văn

Luận văn tập trung vào hướng nghiên cứu lý thuyết. Nội dung nghiên cứu của luận văn bao gồm hai phần: phần nghiên cứu tổng hợp các kết quả đã công bố và phần đề xuất các phương án mới. Luận văn đạt được hai kết quả chính:

(1) Trên cơ sở tổng kết các kết quả đã công bố mới nhất về hướng nghiên cứu rút gọn thuộc tính trong bảng quyết định không đầy đủ, bao gồm các phương pháp rút gọn thuộc tính và phân nhóm các phương pháp, luận văn xây dựng phương pháp rút gọn thuộc tính sử dụng khoảng cách Hamming trên cơ sở kế thừa phương pháp rút gọn thuộc tính dựa trên metric entropy đã có.

(2) Cài đặt và thử nghiệm phương pháp rút gọn thuộc tính sử dụng khoảng cách Hamming và phương pháp trích lọc luật trên các bộ số liệu thử nghiệm từ kho dữ liệu UCI.

Phương pháp sử dụng khoảng cách Hamming không hiệu quả hơn phương pháp sử dụng khoảng cách entropy Liang [13], tuy nhiên ý nghĩa của phần này là làm phong phú thêm các phương pháp rút gọn thuộc tính sử dụng khoảng cách.

2) Hướng phát triển tiếp theo

Tiếp tục nghiên cứu các phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi sử dụng các độ đo khoảng cách.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Tài liệu tham khảo

Tài liệu tiếng Việt

[1] Nguyễn Long Giang (2012), “Nghiên cứu các phương pháp khai phá dữ liệu theo tiếp cận lý thuyết tập thô”, Luận án Tiến sĩ Toán học, Viện Công Nghệ Thông Tin.

[2] Nguyễn Long Giang, Nguyễn Thanh Tùng (2009), “Nghiên cứu mối liên hệ giữa ba khái niệm tập rút gọn trong lý thuyết tập thô”, Kỷ yếu hội thảo Quốc gia “Một số vấn đề chọn lọc về CNTT và TT”, Đồng Nai, tr. 282- 293.

[3] Nguyễn Long Giang, Nguyễn Thanh Tùng (2012), “Một phương pháp mới rút gọn thuộc tính trong bảng quyết định sử dụng metric”, Kỷ yếu Hội thảo Quốc gia “Một số vấn đề chọn lọc về CNTT và TT”, Cần Thơ, 10/2011, Tr. 249-266.

[4] Nguyễn Long Giang, Phạm Hoàng Tuyên (2013), “Nghiên cứu sự thay đổi giá trị các độ đo đánh giá hiệu năng tập luật quyết định trên các tập rút gọn”, Kỷ yếuHội thảo Quốc gia “Một số vấn đề chọn lọc về CNTT và TT”, Hà Nội, 12/2012, Tr. 295-301.

[5] Nguyễn Thanh Tùng (2010), “Về một metric trên họ các phân hoạch của một tập hợp hữu hạn”, Tạp chí Tin học và Điều khiển học, T.26, S.1, tr. 73- 85.

Tài liệu tiếng Anh

[1] Chin K.S., Liang J.Y. and Dang C.Y. (2003), “Rough Set Data Analysis Algorithms for Incomplete Information Systems”, Proceedings of the 9th international conference on Rough sets, fuzzy sets, data mining, and granular computing, RSFDGrC'03, pp. 264-268.

[2]

[3]

Huang B., He X. and Zhou X.Z. (2004), “Rough Computational methods based on tolerance matrix”, Acta Automatica Sinica, Vol. 30, Vab. 2004. Li X.H. and Shi K.Q. (2006), “A knowledge granulation-based algorithm for attribute reduction under incomplete information systems”, Computer Science, Vol. 33, pp. 169-171.

Một phần của tài liệu Rút gọn thuộc tính và trích lọc luật trên bảng quyết định không đầy đủ dựa trên mô hình tập thô dung sai (Trang 41 - 52)

Tải bản đầy đủ (PDF)

(52 trang)