0
Tải bản đầy đủ (.pdf) (52 trang)

Phân nhóm phương pháp rút gọn thuộc tính sử dụng khoảng cách Hamming

Một phần của tài liệu RÚT GỌN THUỘC TÍNH VÀ TRÍCH LỌC LUẬT TRÊN BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ DỰA TRÊN MÔ HÌNH TẬP THÔ DUNG SAI (Trang 38 -52 )

Hamming

Mệnh đề 2.2. Cho bảng quyết định không đầy đủ IDS U A, d và tập thuộc tính B A . Ta có d K B K B, d d K A K A, d khi và chỉ khi

I B d I A d .

Chứng minh

Xét bảng quyết định không đầy đủ IDS U A, d với U u u1, 2,...,un

B A. Từ d K B K B, d d K A K A, d , B B d ,A A d ta có: 1 1 1 U B i B d i 1 U A i A d i i i S u S u S u S u U U U U 2 2 1 1 1 1 1 1 U U i B i B d i i S u S u U U 2 1 2 1 1 1 1 1 U U i A i A d i i S u S u U U

Theo định nghĩa về lượng thông tin ở mục 2.2.1 ta có:

I B d I B I A d I A

I B d I A d .

Từ Mệnh đề 2.2 suy ra, tập rút gọn của bảng quyết định không đầy đủ dựa trên khoảng cách Hamming chính là tập rút gọn của bảng quyết định không đầy đủ dựa trên lượng thông tin. Theo phương pháp phân nhóm phương pháp rút gọn thuộc tính dựa vào tập rút gọn, dễ thấy rằng phương pháp rút gọn sử dụng khoảng cách thuộc Nhóm phương pháp 3, nghĩa là giờ đây nhóm 3 gồm 3 phương pháp.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

2.2. Trích lọc luật dựa trên mô hình tập thô dung sai 2.2.1. Luật quyết định trong mô hình tập thô dung sai

Cho bảng quyết định không đầy đủ IDS U A, d với U u1,...,un , giả sử 1

/ { A ,..., A n }

U SIM A S u S uU/ d { , ,...,Y Y1 2 Ym} . Với S uA i U SIM A/ ,

/

j

Y U dS uA i Yj , ký hiệu des SA uides Yj lần lượt là các mô tả của lớp dung sai SA ui và lớp tương đương Yj. Chú ý rằng nếu giá trị a ui thì bỏ giá trị này ra khỏi des SA ui vì quy ước giá trị * bằng tất cả các giá trị khác. Một luật quyết định đơn có dạng Zij:des SA ui des Yj [20].

Giống như luật quyết định trong bảng quyết định đầy đủ, độ chắc chắn, độ hỗ trợ và độ bao phủ của luật quyết định đơn Zij tương ứng là:

/ ij A i j A i Z S u Y S u / ij A i j s Z S u Y U / ij A i j j Z S u Y Y

Ví dụ 2.3. Xét bảng quyết định không đầy đủ IDS U A, d mô tả về các ô tô cho ở Bảng 2.3 với U u u u u u u1, 2, 3, 4, 5, 6 , A a a a1, 2, 3 với a1 (Đơn giá), a2(Km đã đi), a3(Kích thước), a4(Tốc độ tối đa).

Bảng 2.3. Bảng quyết định không đầy đủ về các xe hơi

Ô tô Đơn giá Km đã đi Kích thước Tốc độ tối đa d

u1 Cao Thấp Đầy đủ Thấp Tốt

u2 Thấp * Đầy đủ Thấp Tốt

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

u4 Cao * Đầy đủ Cao Tốt

u5 * * Đầy đủ Cao Tuyệt hảo

u6 Thấp Cao Đầy đủ * Tốt Ta có U SIM A/ ( ) {S uA( ),1 S uA( 2),S uA( ),3 S uA( 4),S uA( ),5 S uA( 6)} , với 1 1 ( ) { } A S u u , S uA( 2) { ,u u2 6}, S uA( )3 { }u3 , S uA( 4) { ,u u4 5} , S uA( )5 { ,u u u4 5, 6} , 6 2 5 6 ( ) { , , } A S u u u u . U/ d Y Y Y1, 2, 3 với Y1 { ,u u u u1 2, 4, 6}, Y2 { }u3 , Y3 { }u5 . Các luật quyết định là: 11: Z (a1, Cao) (a2, Thấp) (a3, Đầy đủ) (a4, Thấp) (d, Tốt) 21: Z (a1, Thấp) (a3, Đầy đủ) (a4, Thấp) (d, Tốt) 32: Z (a3, Gọn nhẹ) (a4, Thấp) (d, Xấu) 41:

Z (a1, Cao) (a3, Đầy đủ) (a4, Cao) (d, Tốt)

43:

Z (a1, Cao) (a3, Đầy đủ) (a4, Cao) (d, Tuyệt hảo)

51:

Z (a3, Đầy đủ) (a4, Cao) (d, Tốt)

53:

Z (a3, Đầy đủ) (a4, Cao) (d, Tuyệt hảo)

61:

Z (a1, Thấp) (a2, Cao) (a3, Đầy đủ) (d, Tốt)

63:

Z (a1, Thấp) (a2, Cao) (a3, Đầy đủ) (d, Tuyệt hảo)

Các độ đo của các luật quyết định đơn là: 11: 11 1, 11 1 / 6, 11 1 / 4 Z Z s Z Z , 21: 21 1, 21 1 / 3, 21 1 / 2 Z Z s Z Z , 32: 32 1, 32 1 / 6, 32 1 Z Z s Z Z ,

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 41: 41 1 / 2, 41 1 / 6, 41 1 / 4 Z Z s Z Z , 43: 43 1 / 2, 43 1 / 6, 43 1 Z Z s Z Z , 51: 51 2 / 3, 51 1 / 3, 51 1 / 2 Z Z s Z Z , 53: 53 1 / 3, 53 1 / 6, 53 1 Z Z s Z Z , 61: 61 2 / 3, 61 1 / 3, 61 1 / 2 Z Z s Z Z , 63: 63 1 / 3, 63 1 / 6, 63 1 Z Z s Z Z .

3.4.1. Thuật toán trích lọc luật trong mô hình tập thô dung sai

Cho bảng quyết định không đầy đủ IDS U A, d với U u1,...,un , giả sử

/ { A i i , 1.. }

U SIM A S u u U i nU / d { ,Y Y1 2,...,Ym} . Với

/ , / , 1.. , 1..

A i j

S u U SIM A Y U d i n j mS uA i Yj . Thuật toán

RuleExtract hiển thị các luật quyết định dạng RULE Z Z des S uij ij: A i des Yj với độ chắc chắn Zij SA ui Yj / SA ui và đỗ hỗ trợ s Zij SA ui Yj /U

tương ứng.

Thuật toán sau đây thực hiện trích lọc các luật quyết định và hiển thị độ đo của các luật dựa vào định nghĩa luật quyết định trong lý thuyết tập thô.

Thuật toán RuleExtract

Input: Bảng quyết định không đầy đủ IDS U A, d

Output: Hiển thị danh sách các luật với độ chắc chắn và độ hỗ trợ s. 1. Tính phủ U SIM A/ ;

2. For each SA ui U SIM A/ 3. Begin

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

4. Tính phân hoạch SA ui / d ; 5. For each Yj SA ui / d

6. Begin

7. Sinh luật Zij:des SA ui des Yj

8. Tính Zij SA ui Yj / SA ui ; 9. Tính s Zij SA ui Yj /U ; 10. Hiển thị luật Zij, độ chắc chắn Zij , độ hỗ trợ s Zij ; 11. End; 12.End; 13.Return.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Chương 3. THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 3.1. Bài toán

Cho trước các bảng quyết định không đầy đủ với kích thước trung bình và kích thước lớn, nhiệm vụ của phần thử nghiệm và đánh giá đặt ra là:

1) Cài đặt và thử nghiệm, đánh giá thuật toán rút gọn thuộc tính sử dụng khoảng cách Hamming

2) Cài đặt và thử nghiệm thuật toán sinh luật quyết định RULEEXTRACT trên tập rút gọn tìm được của thuật toán sử dụng khoảng cách Hamming.

Bao gồm các bước sau:

Bước 1. Cài đặt thuật toán rút gọn thuộc tính sử dụng khoảng cách Hamming (Thuật toán HDBAR), đánh giá thời gian thực hiện và kết quả thực hiện của thuật toán HDBAR với một thuật toán đã công bố trên cùng một bộ số liệu thử nghiệm để so sánh, bao gồm:

- Lựa chọn thuật toán tìm tập rút gọn của bảng quyết định không đầy đủ sử dụng độ đo lượng thông tin trong [7], gọi tắt là Thuật toán IQBAR (Information Quantity Based Attribute Reduction), để so sánh với thuật toán tìm tập rút gọn sử dụng khoảng cách Hamming (Thuật toán 2.1), tôi gọi tắt là Thuật toán HDBAR (Hamming Distance Based Attribute Reduction) vì độ phức tạp của Thuật toán Thuật toán IQBAR tương đương với độ phức tạp của các thuật toán sử dụng ma trận dung sai trong [8, 23]. Tuy nhiên, Thuật toán IQBAR không phải lưu trữ ma trận dung sai nên hiệu quả hơn về mặt lưu trữ

- Cài đặt thuật toán HDBAR và Thuật toán IQBAR

Bước 2: Chạy thử nghiệm 2 thuật toán HDBAR và IQBAR trên cùng một bộ số liệu từ kho dữ liệu UCI để tiến hành so sánh, đánh giá.

Bước 3: Cài đặt và thực hiện thuật toán trích lọc luật RULEEXTRACT trên tập rút gọn tìm được của Thuật toán HDBAR.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

3.2. Phân tích, lựa chọn công cụ

Trước hết, tôi trình bày thuật toán IQBAR [7].

3.2.1. Mô tả phương pháp sử dụng độ đo lượng thông tin

Trong [7], Huang B và các cộng sự đưa ra khái niệm về tập rút gọn dựa trên lượng thông tin (information quantity). Với B A, lượng thông tin của B đối với

{d} I B d I B d I B với 2 1 1 1 n B i i I B S u U1, 2,..., n

U u u u . Tập rút gọn dựa trên khoảng cách Hamming được định nghĩa như sau: Cho bảng quyết định không đầy đủ IDS U A, d . Nếu R A thỏa mãn:

' ' 1 ; 2 , . I R d I A d R R I R d I A d .

thì R được gọi là một tập rút gọn của IDS dựa trên lượng thông tin.

Trong công trình [7], Huang B và các tác giả cũng trình bày thuật toán tìm một tập rút gọn tốt nhất sử dụng khoảng cách Hamming, gọi là Thuật toán IQBAR.

Thuật toán IQBAR. Tìm tập rút gọn của bảng quyết định không đầy đủ sử dụng lượng thông tin [7]. (Information Quantity Based Algorithm for Reduction of Knowledge)

Input: Bảng quyết định không đầy đủ IDS U A, d .

Output: Một tập rút gọn R.

1. R ;

2. Tính I R d , I A d ;

// Thêm dần vào R các thuộc tính có độ quan trọng lớn nhất

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

4. Begin

5. For each b A R tính SIG bR I B d I B b d ;

6. Chọn bm A R sao cho R m R

b A R

SIG m Max SIG b ;

7. R R bm ;

8. End;

// Loại bỏ các thuộc tính dư thừa trong R nếu có

9. For each b R

10. If I R b d I A d then R R b ; 11. Return R;

3.2.2. Lựa chọn công cụ cài đặt

Tôi sử dụng công cụ là ngôn ngữ lập trình C# trên môi trường hệ điều hành Windows XP Professional để thực hiện cài đặt thuật toán HDBAR và IQBAR.

3.3. Một số kết quả thử nghiệm

3.3.1. Kết quả thử nghiệm về rút gọn thuộc tính sử dụng khoảng cách Hamming Hamming

Sau khi cài đặt, tôi tiến hành thử nghiệm Thuật toán HDBAR và Thuật toán IQBAR trên 6 bộ số liệu vừa và nhỏ lấy từ kho dữ liệu UCI [25]. Môi trường thử nghiệm là máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB bộ nhớ RAM, sử dụng hệ điều hành Windows XP Professional. Với mỗi bộ số liệu, giả sử U

là số đối tượng, C là số thuộc tính điều kiện, R là số thuộc tính của tập rút gọn, t

thời gian thực hiện thuật toán (đơn vị là giây s). Các thuộc tính điều kiện được đánh số thứ tự từ 1 đến C . Bảng 3.1 và Bảng 3.2 mô tả kết quả thực hiện của hai thuật toán.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Bảng 3.1. Kết quả thực hiện Thuật toán HDBAR và Thuật toán IQBAR

STT Bộ số liệu U C Thuật toán IQBAR Thuật toán HDBAR R t R t 1 Hepatitis.data 155 19 4 1.296 4 0.89 2 Lung-cancer.data 32 56 4 0.187 4 0.171 3 Automobile.data 205 25 5 3 5 1.687 4 Anneal.data 798 38 9 179 9 86.921 5 Congressional Voting Records 435 16 15 25.562 15 16.734 6 Credit Approval 690 15 7 29.703 7 15.687

Bảng 3.2. Tập rút gọn của Thuật toán HDBAR và Thuật toán IQBAR

STT Bộ số liệu Tập rút gọn của Thuật toán IQBAR

Tập rút gọn của Thuật toán HDBAR

1 Hepatitis.data {1, 2, 4, 17} {1, 2, 4, 17} 2 Lung-cancer.data {3, 4, 9, 43} {3, 4, 9, 43} 3 Automobile.data {1, 13, 14, 20, 21} {1, 13, 14, 20, 21} 4 Anneal.data {1, 3, 4, 5, 8, 9, 33, 34, 35} {1, 3, 4, 5, 8, 9, 33, 34, 35} 5 Congressional Voting Records {1, 2, 3, 4, 5, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16} {1, 2, 3, 4, 5, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16} 6 Credit Approval {1, 2, 3, 4, 5, 6, 8} {1, 2, 3, 4, 5, 6, 8}

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Kết quả thử nghiệm cho thấy

Trên 6 bộ số liệu được chọn, tập rút gọn thu được bởi Thuật toán HDBAR và Thuật toán IQBAR là như nhau. Kết quả này phù hợp với kết quả nghiên cứu lý thuyết đã trình bày ở phần trên.

Thời gian thực hiện Thuật toán HDBAR nhanh hơn Thuật toán IQBAR, do đó Thuật toán HDBAR hiệu quả hơn Thuật toán IQBAR.

Tiếp theo, tôi tiến hành thử nghiệm Thuật toán HDBAR trên 5 bộ số liệu kích thước lớn. Kết quả thử nghiệm được mô tả ở bảng sau:

Bảng 3.3. Kết quả thực hiện Thuật toán HDBAKThuật toán IQBAK

trên các bộ số liệu lớn STT STT Bộ số liệu U C Thuật toán IQBAR Thuật toán HDBAR R t R t 1 Census-Income.data 299285 40 21 11415 21 5206 2 Adult.data 48842 14 9 1270 9 675 3 Dorothea.data 1950 1000 00 92 2867 92 1247 4 Poker-hand- testing.data 1000000 11 8 8977 8 4376 5 CovType.data 581012 54 17 14289 17 7256 Với các bộ số liệu có kích thước lớn, rõ ràng thời gian thực hiện Thuật toán HDBAR nhỏ hơn nhiều Thuật toán IQBAR, do đó bộ số liệu kích thước càng lớn, Thuật toán HDBAR càng hiệu quả.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

3.3.2. Kết quả thử nghiệm về trích lọc luật trong mô hình tập thô dung sai

Để tiến hành thử nghiệm, tôi cài đặt Thuật toán RuleExtract bằng ngôn ngữ C#. Môi trường thử nghiệm là máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB bộ nhớ RAM, sử dụng hệ điều hành Windows XP Professional. Bộ số liệu thử nghiệm là Soybean-small.data lấy từ kho dữ liệu UCI [22]. Soybean- small.data bộ số liệu đã rời rạc hóa với miền giá trị các thuộc tính là các số nguyên dương.

1) Thử nghiệm Thuật toán DBAR tìm một tập rút gọn tốt nhất. Với bộ số liệu thử nghiệm, giả sử U là số đối tượng, C là số thuộc tính điều kiện, DS là độ chắc chắn của bảng quyết định với tập thuộc tính ban đâu, '

DS là độ chắc chắn của bảng quyết định với tập thuộc tính rút gọn, các thuộc tính điều kiện được đặt tên theo thứ tự từ c1, c2,…,cn. Kết quả thử nghiệm được mô tả trong Bảng 3.4

Bảng 3.4. Tập rút gọn tốt nhất của bộ số liệu Soybean-small

STT Bộ số liệu U C Tập thuộc tính ban đầu DS Tập thuộc tính rút gọn ' DS 1 Soybean- small.data 47 35 {c1,…,c35} 1 {c4, c22} 1

2) Thử nghiệm Thuật toán RuleExtract sinh luật quyết định (luật phân lớp) sử dụng mô hình tập thô dung sai với bộ số liệu Soybean-small.data. Trên bảng quyết định ban đầu với 35 thuộc tính điều kiện {c1,…,c35}, kết quả thử nghiệm thu được 47 luật phân lớp, độ dài mỗi luật là 35 (được tính bằng tổng số thuộc tính điều kiện tham gia vào vế trái của luật). Trên bảng quyết định rút gọn với 2 thuộc tính điều kiện {c4, c22}, kết quả thử nghiệm được mô tả trong Bảng 3.5, trong đó: tổng số luật phân lớp là 7, độ dài mỗi luật là 2, là độ chắc chắn và s là độ hỗ trợ của mỗi luật.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Bảng 3.5. Các luật phân lớp trên bảng quyết định rút gọn

STT Các luật trên bảng quyết định rút gọn s

1 c4(1) and c22(1) ==> D1 1 0.12766 2 c4(1) and c22(0) ==> D1 1 0.08511 3 c4(2) and c22(3) ==> D2 1 0.12766 4 c4(1) and c22(3) ==> D2 1 0.08511 5 c4(0) and c22(1) ==> D3 1 0.21277 6 c4(1) and c22(2) ==> D4 1 0.21277 7 c4(0) and c22(2) ==> D4 1 0.14894

Chú thích: Trên bảng Bảng 3.5, c4(1) nghĩa là thuộc tính c4 nhận giá trị 1 (c4 = 1). D1, D2, D3, D4 các là giá trị thuộc tính quyết định (tổng số 4 lớp quyết định).

Kết quả thử nghiệm cho thấy, trên tập rút gọn tốt nhất thu được bởi Thuật toán DBAR, số lượng các luật từ 47 giảm xuống còn 7, độ dài các luật từ 35 giảm xuống còn 2. Độ chắc chắn của tập luật không thay đổi (bằng 1). Kết quả này khẳng định ý nghĩa của việc rút gọn thuộc tính trong bước tiền xử lý dữ liệu

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

KẾT LUẬN

1) Những kết quả chính của luận văn

Luận văn tập trung vào hướng nghiên cứu lý thuyết. Nội dung nghiên cứu của luận văn bao gồm hai phần: phần nghiên cứu tổng hợp các kết quả đã công bố và phần đề xuất các phương án mới. Luận văn đạt được hai kết quả chính:

(1) Trên cơ sở tổng kết các kết quả đã công bố mới nhất về hướng nghiên cứu rút

Một phần của tài liệu RÚT GỌN THUỘC TÍNH VÀ TRÍCH LỌC LUẬT TRÊN BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ DỰA TRÊN MÔ HÌNH TẬP THÔ DUNG SAI (Trang 38 -52 )

×