Thuật toán khai phá luật kết hợp mờ

Thuật toán này đƣợc xây dựng dựa trên thuật toán Apriori, Apriori nhị phân và một số thay đổi trong cài đặt thực tế nhằm cải thiện thời gian tìm luật. Thuật toán khai thác luật kết hợp mờ chia làm ba pha chính nhƣ sau :

Pha 1 : Chuyển các thuộc tính của cơ sở dữ liệu dạng quan hệ sang các thuộc tính mờ, thông qua hàm thuộc của các tập mờ tƣơng ứng với từng thuộc tính.

Pha 2 : Tìm tất cả các tập thuộc tính mờ phổ biến dạng <X, A> có độ hỗ trợ lớn hơn độ hỗ trợ cực tiểu của ngƣời dùng nhập vào: fs(<X, A>) ≥ fminsup.

Pha 3 : Sinh các luật kết hợp mờ tin cậy từ các tập phổ biến đã tìm thấy ở pha thứ hai. Nếu <X, A> là một tập thuộc tính mờ phổ biến thì luật kết hợp mờ đƣợc sinh từ X có dạng:

X‟ is A‟ X\X‟ is A\A‟ Trong đó:

X‟ là tập con khác rỗng của X.

X \ X‟ là hiệu của hai tập hợp X và X‟.

fc là độ tin cậy của luật thoả mãn fc ≥ fminconf (do ngƣời dùng xác định). A‟ là tập con khác rỗng của A và là tập các tập mờ tƣơng ứng với các thuộc tính trong X‟.

Đầu vào của thuật toán (inputs): cơ sở dữ liệu D với tập các thuộc tính I và các bản ghi T, ngƣỡng hàm thuộc fw , độ hỗ trợ tối thiểu fminsup , độ tin cậy tối thiểu fminconf , và Toán tử T-norm (⊗).

Đầu ra của thuật toán (outputs) : Tập tất cả các luật kết hợp mờ tin cậy.

Ký hiệu Ý nghĩa

D Cơ sở dữ liệu (dạng quan hệ hoặc giao tác). I Tập các mục (thuộc tính) trong D.

T Tập các bản ghi (giao tác) trong D.

DF Cơ sở dữ liệu có các thuộc tính đƣợc mờ hóa, đƣợc tính toán từ cơ sở dữ liệu ban đầu thông qua hàm thuộc của các tập mờ tƣơng ứng với từng thuộc tính.

IF Tập các thuộc tính trong DF, mỗi thuộc tính đều đƣợc gắn với một tập mờ. Mỗi tập mờ f đều có một ngƣỡng wf .

TF Tập các bản ghi trong DF , các thuộc tính trong mỗi bản ghi đã đƣợc chuyển sang một giá trị thuộc khoảng [0, 1] nhờ hàm thuộc của các tập mờ tƣơng ứng với từng thuộc tính.

fminsup Độ hỗ trợ tối thiểu fminconf Độ tin cậy tối thiểu

Ck Tập các thuộc tính có kích thƣớc k.

Lk Tập các thuộc tính phổ biến có kích thƣớc k. L Tập tất cả các thuộc tính phổ biến.

FR Tập tất cả các luật mờ sinh ra từ Lk.

Các ký hiệu sử dụng trong thuật toán khai phá luật kết hợp mờ.

Thuật toán khai phá luật kết hợp mờ đƣợc mô tả cụ thể nhƣ sau: Begin

(DF, IF, TF) = Mờ_hóa_dữ_liệu(D, I, T);

L1 = Tạo_L1(DF, IF, TF, fminsup, wf); //tạo tập phổ biến 1 thuộc tính L = ; FR=; k = 2; While (Lk-1  ) { Ck = Tạo_L_k(Lk-1); Lk = Tính_Support_K(Ck, DF, fminsup, wf); FRk = Tìm_luật(L, Lk, fminconf); L = L U Lk; FR= FR U FRk; k = k +1; } End

- Chƣơng trình con Mờ_hóa_dữ_liệu (D, I, T): hàm này thực hiện nhiệm vụ chuyển đổi các thuộc tính từ cơ sở dữ liệu D ban đầu sang các thuộc tính mờ cho cơ sở dữ liệu DF , DF gồm các thuộc tính của D đƣợc gắn thêm các tập mờ và giá trị của các thuộc tính ở các bản ghi T trong D đƣợc ánh xạ thành một giá trị thuộc khoảng [0,1] thông qua các hàm thuộc của các tập mờ tƣơng ứng với các thuộc tính.

-Chƣơng trình con L1 = Tạo_L1(DF, IF, TF, fminsup, wf): hàm này sinh ra L1 là tập tất cả các tập phổ biến có một phần tử (lực lƣợng bằng 1). Các tập thuộc tính phổ biến này phải có độ hỗ trợ lớn hơn hoặc bằng fminsup.

Thuật giải tạo L1 : L1 = Tạo_L1(DF, IF, TF, fminsup, wf) L1 = ; For each i∈IF

If (fs({i},wf) ≥ fminsup) then L1 = L1 U {i};

EndIf

EndFor Return L1

-Chƣơng trình con Ck = Tạo_L_k(Lk-1): hàm này thực hiện việc sinh ra tập các tập thuộc tính mờ ứng cử viên có k phần tử từ tập thuộc tính mờ phổ biến Lk-1 có k-1 phần tử. Thuật giải tạo Ck = Tạo_L_k(Lk-1):

-Chƣơng trình con Lk = Tính_Support_K(Ck, DF, fminsup, wf): chƣơng trình con này duyệt qua csdl DF, với ngƣỡng wf và toán tử T-norm để tính độ hỗ trợ cho các tập thuộc tính trong Ck . Sau khi duyệt xong, Tính_Support_K sẽ chỉ chọn những tập phổ biến (có độ hỗ trợ lớn hơn hoặc bằng fminsup) để đƣa vào Lk.

-Chƣơng trình con FRk= Tìm_luật(L, Lk, fminconf): chƣơng trình này sinh ra luật kết hợp mờ tin cậy từ các tập phổ biến Lk.

Thuật giải tạo FRk= Tìm_luật(L, Lk, fminconf):

Thuật toán tìm luật kết hợp Apriori: