Thuật toán khai phá luật kết hợp mờ có thuộc tính số đƣợc đánh trọng số (David L. Olson)

Một phần của tài liệu Khai phá luật kết hợp mờ và ứng dụng (Trang 44 - 47)

CHƯƠNG II KHAI PHÁ LUẬT KẾT HỢP MỜ

2.5. Thuật toán khai phá luật kết hợp mờ có thuộc tính số đƣợc đánh trọng số (David L. Olson)

2.5.1. Giới thiệu thuật toán

Khai phá luật kết hợp mờ cho các giá trị số đã đƣợc đề cập bởi một số nhà nghiên cứu [20, 21, 22] hầu hết đều dựa trên thuật toán Apriori quan trọng. Các thuật toán này đều phân khoảng thuộc tính sau đó chuyển vấn đề sang trạng thái nhị phân. Gyenesei [13] tham khảo vấn đề này để khai phá luật kết hợp với thuộc tính số đƣợc đánh trọng số dựa trên lý thuyết tập mờ. Nhƣng thuật toán này có nhƣợc điểm là hay bị “tràn” dữ liệu khi khai phá trên khối lƣợng lớn CSDL. Để mở rộng và khắc phục những hạn chế trong thuật toán của Gyenesei ta có thuật toán của David L.Olson.

2.5.2. Chi tiết thuật toán

Thuật toán này xác định vùng mờ và các hàm thuộc tương ứng để chuyển đổi

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn

dữ liệu số vào các giá trị mờ. Trọng số của những khoản mục cần phản ánh tầm quan trọng của người sử dụng. Các ngưỡng của độ hỗ trợ và độ tin cậy cũng cần thiết để tìm luật có ích.

Ký hiệu sử dụng trong thuật toán đƣợc quy định nhƣ sau:

n: tổng số các giao tác dữ liệu;

m: tổng số các thuộc tính;

Aj: hạng mục hoặc thuộc tính thứ j; 1 j m.

| Aj |: số lƣợng vùng mờ của Aj;

Rjk: là tập mờ thứ k của Aj; 1  k  | Aj |

jk: là trọng số của Rjk; 0  jk  1 D(i) : các giao dịch thứ i , 1  i n;

Vj(i) : là hạng mục hoặc giá trị số của Aj cho D(i) fjk(i) : là hàm thuộc của Vj(i) trong Rjk, 0  fjk(i)  1;

supp(Rjk): độ hỗ trợ của Rjk;

supp: giá trị hỗ trợ của mỗi khoản mục conf: là độ tin cậy của mỗi tập thuộc tính lớn minsup: độ hỗ trợ tối thiểu

minconf: độ tin cậy tối thiểu

Cr: Tập các khoản mục với r thuộc tính 1 r m Lr: tập phổ biến với r thuộc tính 1 r m

Thuật toán khai phá luật kết hợp mờ có thuộc tính số đƣợc đánh trọng số:

Input: n, m, jk, hàm thuộc fjk(i) cho mỗi khoản mục, minsup, minconf.

Output: Luật kết hợp mờ.

Bước 1: Chuyển các giá trị số Vj(i) của mỗi mốc giao dịch D(i) , i = 1…n cho mỗi thuộc tính Aj (j = 1…m), vào hàm thuộc mờ (hàm thành viên) fjk(i) (1 k | Aj |) trong tập mờ Rjk.

Bước 2: Tính

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn

 

 

1 ,

supp 1 , 1 j

n i

jk jk i

jk

f

R j m k A

n

   

 

Là độ hỗ trợ của tập mờ Rjk từ mẫu C1, trong tập phổ biến 1;

Bước 3: Nếu supp(Rjk)  minsup thì đưa Rjk vào L1 là tập phổ biến 1;

Bước 4: Nếu L1   thì làm bước tiếp theo, ngược lại thì thuật toán kết thúc.

Bước 5: Thuật toán nhập tập phổ biến vào Lr theo điều kiện r -1 thuộc tính, sau đó giữ trong Cr+1 các tập phổ biến với tất cả các tập con của r tồn tại trong Lr và nó không có 2 mục Rjp, Rjq (pq) cùng thuộc tính Aj, các tập phổ biến đó gọi là tập phổ biến có r hạng mục.

Bước 6: Tiến hành làm các bước nhỏ tiếp theo cho mỗi tập phổ biến mới lập S ( s1, s2, …, st, …, sr+1 ) với (r +1) thuộc tính trong Cr+1, 1  t r +1.

a. Tính giá trị mờ cho mỗi giao tác D(i)của S là   1  

1

i r i

s t st st

f   f



 , trong đó

 i st

f là giá trị thuộc của D(i) trong tập mờ St, st

 là trọng số của khoản mục St. Nếu toán tử nhỏ nhất thì s i mintr 11 s s i

t t

f    f .

b. Tính giá trị hỗ trợ supp(S) của S trong giao dịch nhƣ:

 

  1  

1 1 1

min supp

n i n r i

s t st st

i i

f f

S n n

 

  

   

c. Nếu supp(S)  minsup thì đƣa S vào Lr+1.

Bước 7: Nếu Lr+1 là rỗng thì làm tiếp bước tiếp theo. Ngược lại, gán r = r+1 và quay lại bước 5 tới bước 6.

Bước 8: Thu thập các tập phổ biến lớn với nhau.

Bước 9: Xây dựng các luật cho mỗi tập phổ biến S với các hạng mục s1, s2, …, sq, q

 2 sử dụng các bước nhỏ sau:

a. Mỗi luật kết hợp có dạng nhƣ sau:

s1 sx sy  …  sqsk (k = 1 tới q, x = k-1, y = k+1)

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn

b. Tính độ tin cậy cho mỗi luật theo công thức:

 

   

 

1 1 1

1 1

, min

conf ( )

min min min

k k

k k k k

m q i

i k

x y q k m x i q i

k k y

i

s s

s s s s

f

s s s s s

f f

 

 

 

     

Bước 10: Đầu ra là mối liên hệ và các luật có ích với:

conf (s1 sx sy  …  sqsk)  minconf

Nhận xét: Cách diễn đạt mờ của luật kết hợp phù hợp với cách thức mà con người suy nghĩ. Dựa trên các nghiên cứu trước đây, David L. Olson đã đề xuất phương pháp khai phá luật kết hợp mờ được đánh trọng số cho thuộc tính số, đó là phương pháp linh hoạt hơn, dễ hiểu hơn. Do đó tìm luật kết hợp có ích nhanh hơn và giảm bớt gánh nặng của việc chọn luật có ích. Các đề xuất của phương pháp trên đã ngăn chặn các thuộc tính đi xuống giảm bớt thời gian tính toán, đồng thời “cắt tỉa” sớm các luật không có ích. Do áp dụng các toán tử tối thiểu nên vấn đề “tràn” dữ liệu ở thuật toán của Gyenesei [13] có thể tránh đƣợc ở thuật toán này. Cơ sở của thuật toán là phân vùng mờ cho mỗi thuộc tính, có thể mô tả thuộc tính hạng mục trong các thuật ngữ linh hoạt hơn theo các tình huống, đặc biệt khi số lƣợng các vùng mờ lớn. Với đề xuất này có thể giải quyết giá trị nhị phân bằng cách sử dụng hàm thuộc cho tất cả trọng số bằng 1. Tương tự như thuật toán Apriori, minsup cũng được cung cấp hoặc do người sử dụng dự đoán hoặc đưa ra bởi các chuyên gia. Kết quả thực nghiệm đã chứng minh thuật toán này rất tốt.

Một phần của tài liệu Khai phá luật kết hợp mờ và ứng dụng (Trang 44 - 47)

Tải bản đầy đủ (PDF)

(77 trang)