a) Trên thực tế, CSDL phát hiện luật kết họp là CSDL định lượng và để phát hiện luật kết hợp người ta thường chuyển CSDL định lượng sang CSDL nhị phân (rời rạc hố) rồi sau đĩ dùng các thuật tốn phát hiện luật kết hợp nhị phân để khai phá dữ liệu. Nguyên tắc rời rạc hố CSDL định lượng như sau:
Nếu A là thuộc tính định lượng rời rạc cĩ tập giá trị {vp v2, vk} và k đủ bé
thì biến đổi thuộc tính này thành k thuộc tính A_vh A_V2, ... A_Vk, Giá trị của bản
ghi tại trường A_Vị bàng True (Yes hoặc 1) nếu giá trị thuộc tính A ban đầu là Vj, ngược lại nĩ sẽ nhận giá trị False (No hoặc 0).
Ví dụ 1: Thu nhập
cao rời rạc hố
— > thâp
Bảng 12. Rời rạc hố dữ liệu trong trường hợp thuộc tính định lượng rời rạc
Nếu A là thuộc tính số liên tục cĩ giá trị {vi, V2, Vp} ịp lớn) thì ta ánh xạ
thành q thuộc tính nhị phân <A: start]..end 1>, <A: Start2..end2>, <A:
startq..enđq>. Giá trị của bản ghi tại trường <A: starti..endi> sẽ bàng True (Yes hoặc 1) nếu giá trị ban đầu của nĩ tại trường A thuộc khoảng [starti-.endi], ngược lại sẽ bằng False (No hoặc 0).
Ví dụ 2:
Thu nhập: cao Thu nhập: thâp
1 0 0 1 ----’— rT' Ạ • Tuơi 70 45 rời rạc hố
<Tuơi: \ .29> <Tuơi: 30..59> <Tuơi: 60..80>
0 0 1
0 1 0
r ~ r
Phát hiện luật kêt hợp mờ cĩ độ hơ trợ khơng giơng nhau Trang 61
2 2
17
1 0 0
1 0 0
Bảng 13. Rời rạc hố dữ liệu trong trường hợp thuộc tính định lượng liên tục
Luật kết hợp cĩ dạng: <Tuổi:30..59 > and <Học vị: tiến s ĩ> —> <Thu nhập: cao>
Qúa trình rời rạc hố CSDL định lượng như trên gặp phải một số vấn đề khĩ khăn như sau:
Sự cồng kềnh của CSDL thu được sau khi rời rạc hố do số thuộc tính trong CSDL tăng lên.
Vấn đề về điểm biên gãy, tính thiếu tự nhiên( ví dụ như 59 tuổi là trung niên, 60 tuổi là già) do những giá trị tương tự nhau cuả thuộc tính lại nằm ở hai khoảng chia khác nhau.
b)Vì vậy, để khắc phục vấn đề trên, người ta đề xuất ứng dụng lý thuyết tập mờ trong quá trình chuyển đổi CSDL định lượng thành CSDL mới tựa như cơ sở dữ liệu nhị phân (cĩ thể gọi là CSDL mờ), và từ đĩ vấn đề phát hiện luật kết hợp mờ được ra đời. Ưu điểm của việc mờ hố CSDL thể hiện ở 4 đặc điểm sau:
Giải quyết được vấn đề “điểm biên gãy”
Số tập mờ ứng với mỗi thuộc tính ít hơn số khoảng trong các phương pháp rời rạc hĩa ở trên
Luật tự nhiên hơn, gần gũi với người sử dụng hơn.
Đo được mức độ ảnh hưởng của từng trường, từng bản ghi nhờ giá trị hàm thuộc tương ứng với mỗi tập mờ.
20%
15%
10%
5%
I
_l__I__I__ I I _l__ I__1_J__ I__L_
10 20
Age 30 40
Phát hiện luật kết hợp mờ cĩ độ hỗ trợ khơng giống nhau Trang 62
Hình 7. Rời rạc hố mục dữ liệu Tuổi(Age) trong miền giá trị [10..40] thành 3 khoảng [10..20], [20..30], [30..40].
—i—I—I—I—I— I— áJ 111 II 11 11 LLLt_1 111 1_1_1_I_1_L_____
10 20 30 40
Age
Hình 8. Gắn thuộc tính Tuổi(Age) trong miền giá trị [10..40] với tập mờ
Tuổi trẻ, Tuổi thanh niên, Tuổi trung niên. Các giá trị thuộc tính trong miền [20..30] thuộc về tập mờ Tuổi thanh niên.
Như vậy, luật kết hợp thu được sau khi rời rạc hố dữ liệu:
<Tuổi:30..59 > and <Học vị: tiến sĩ> —> <Thu nhập: cao>, được thay bằng
luật kết hợp mờ:
<Tuổi = trung niên> and <học vị = tiến sĩ>~> <Thu nhập = cao>
II. Luật kết hợp mờ
II.l. Luật kết hợp m ờ
Ký hiệu I = { iị, i2, im} là tập các thuộc tính nhận giá trị định lượng hoặc
phân loại; tập X c I được gọi là tập thuộc tính; o = { tị, t2, tm} là tập định danh
của các tác vụ TID. Quan hệ nhị phân D c I X o được gọi là cơ sở dữ liệu. Giả sử
mỗi thuộc tính ik ( k= l, . . m) cĩ một số tập mờ tương ứng với nĩ. Ký hiệu Fịk =
{ x ) > z f k >•••> x ĩ } là tập các tập mờ tương ứng với thuộc tính ik và x i là tập mờ
thứ j trong F ịk .
r ~ r
Phát hiện luật kêt hợp mờ cĩ độ hơ trợ khơng giơng nhau Trang 63
a) CSDL D cĩ thuộc tính gắn với các tập m ờ , gọi là CSDL mờ
b) Được đề xuất trong [8], luật kết hợp mờ cĩ dạng:
r = X is A —>Y is B, hoặc r = X e A —> Y e B ,
Luật kết hợp mờ phát biểu rằng : Nếu X thuộc về tập mờ A, khi đĩ Y sẽ thuộc về tập mờ B.
với x = { Xx, x 2 x p }, Y = { y x, y 2 J—> y q } là các tập thuộc tính,
X n Y = 0 ; A = Z Xị ’ % x 2 , B = X y Ị i Z y 2 ' ' ' ’ Z y là một số tập mờ
liên kết với các thuộc tính trong tập X và Y tương ứng, chẳng hạn thuộc tính
X k trong X sẽ cĩ tập mờ Xxk trong A với điều kiện Xxk cũng phải thuộc F Xk .
- Cặp < X, A> với X là tập thuộc tính, A là tập gồm một số tập mờ nào đĩ tương ứng liên kết với các thuộc tính trong X được gọi là tập k mục dữ liệu (k- Itemset) nếu tập X chứa k thuộc tính.
11.2. M ột số thuật tốn ph át hiện luật kết hợp m ờ hiện cĩ
a) Quá trình phát hiện các luật kết hợp mờ từ một CSDL định lượng bất kỳ
cũng gồm 3 giai đoạn chủ yếu là:
- Giai đoạn 1: Chuyển CSDL định lượng thành CSDL mờ: trong giai đoạn này
các khái niệm mờ ứng với từng thuộc tính, các hàm thành viên của các khái niệm mờ, các độ hỗ trợ cực tiểu cho từng thuộc tính sẽ được xác định trước tiên bởi người sử dụng, và từ đĩ người sử dụng sẽ quyết định lựa chọn một ngữ cảnh phát
hiện luật kết hợp mờ trong số ngữ cảnh dữ liệu mờ đã được xác định trước đĩ[8].
- Giai đoạn 2: Tìm các tập phổ biến mờ cĩ dạng <z,c> ở đây z là tập một số
thuộc tính nào đĩ, c là tập một số tập mờ liên kết với các thuộc tính trong z sao s < z ,c > lớn hơn hoặc bằng độ hỗ trợ cực tiểu của tập mục dữ liệu z.
- Giai đoạn 5: Từ các tập phổ biến < z ,c > tìm được sinh ra các luật mờ dạng:
< x , A> -» < z -x , C-A>, ở đây X c z và A c c .
f 'V f
Phát hiện luật kêt hợp mờ cĩ độ hơ trợ khơng giơng nhau Trang 64
Các thuật tốn phát hiện luật kết hợp mờ hiện cĩ đều dựa trên việc cải tiến
thuật tốn Apriori cho luật kết hợp mờ. Thuật tốn FUZZY APRIORI phát hiện luật
kết hợp mờ được mơ phỏng như sau:
FUZZY APRIORI ( « i j , Xik >, < i2, Xi2 > , < im, X ìm >, minSupp)
1. (Dp, Ip, Op) = FuzzyMaterialization (D,I,0); 2. F) = Counting ( Dp, IF, Op ,minsup);
3. k =2; 4. While ( Fk.| * 0 ) { c k = Join(Fk.i ) ; c k - Prune (Ck); Fk = Checking (Ck, Dp, minsupp ); F = F u F k ; k = k + l ; } 10. GeneraterRule (F, m insupp);
Hàm (Dp, If, Op) =FuzzyMaterialization(D, I, 0): hàm này thực hiện nhiệm vụ chuyển đổi từ CSDL D ban đầu sang CSDL D f với các thuộc tính được gắn thêm các tập mờ và giá trị các thuộc tính ở các bản ghi trong o được ánh xạ thành các giá
trị thuộc khoảng [0, 1 ] thơng qua hàm thuộc của các tập mờ tương ứng với các thuộc
tính.
Hàm Fi = Counting(DF, If, O f, minsupp): hàm này sinh ra F i là tập tất cả
các tập phổ biến cĩ lực lượng bằng 1. Các tập thuộc tính phổ biến này phải cĩ độ hỗ
trợ lớn hơn hoặc bằng mỉnsupp.
Hàm Ck = Join(Fk-l): hàm này thực hiện việc sinh ra tập các tập thuộc tính
mờ ứng cử viên Fk từ tập các tập thuộc tính mờ phổ biến Fk-1.
f ~ r
Phát hiện luật kêt hợp mờ cĩ độ hơ trợ khơng giơng nhau Trang 65
Hàm Ck = Prune(Cjc): hàm này sử dụng tính chất Apriori “mọi tập con khác
rỗng của tập phổ biến cũng là tập phổ biến và mọi tập chứa tập khơng phổ biến đều
là tập khơng phổ biếrì’ (downward closure property) để cắt tỉa những tập nào trong
Ck cĩ tập con lực lượng k-\ khơng thuộc tập các tập thuộc tính phổ biến Fk-1.
Hàm Fk = Checking(Ck, D f,fminsup): hàm này duyệt qua CSDL D f để cập
nhật độ hỗ trợ cho các tập thuộc tính trong Clc- Sau khi duyệt xong, hàm Checking
sẽ chỉ chọn những tập phổ biến (cĩ độ hỗ trợ lớn hơn hoặc bằng fminsup) để đưa vào
trong Fk.
Hàm GeneraterRule (F, m insupp): sinh luật kết hợp từ tập các tập phổ biến Flc
b) Các thuật tốn phát hiện luật kết hợp được xây dựng theo thuật tốn Apriori
cĩ một số nhược điểm truyền thống như:
Tìm tất cả các tập phổ biến (Khơng gian tìm kiếm quá rộng ).
Các mục dữ liệu cĩ chung độ hỗ trợ cực tiểu (Khơng phản ánh được độ quan trọng của từng thuộc tính trong CSDL)
Khắc phục vấn đề trên, trong nội dung phần sau luận văn sẽ tập trung trình bày một đề xuất phát hiện luật kết hợp mờ dựa trên hai yếu tố :
Tìm tập phổ biến mờ cực đại (thu hẹp khơng gian tìm kiếm).
Các tập thuộc tính cĩ độ hỗ trợ cực tiểu khơng giống nhau (phù hợp hơn với CSDL thực tế).
Cụ thể là đề xuất xây dựng thuật tốn FUZZY CHARM-NEW: Tìm tập phổ biến mờ cực đại với các mục dữ liệu cĩ độ hỗ trợ cực tiểu khơng giống nhau, v ề bản chất, thuật tốn FUZZY CHARM-NEW được phát triển từ thuật tốn CHARM- NEW[2] trên cơ sở mở rộng tính chất đĩng của tập phổ biến rõ đối với tập phổ biến mờ . Vì vậy mấu chốt của đề xuất này nằm ở chỗ:
1. Phát triển các khái niệm như: Ngữ cảnh phát hiện dữ liệu mờ, Kết nối Galois, Tập mục dữ liệu mờ đĩng., từ các khái niệm tương tự trong CSDL nhị phân.
2. Kiểm tra tính chất Apriori đối với tập mục dữ liệu phổ biến mờ.
f r
Phát hiện luật kêt hợp mờ cĩ độ hơ trợ khơng giơng nhau Trang 66
3. Kiểm tra tính chất CHARM-NEW đối với tập mục dữ liệu mờ cĩ độ hồ trợ
cực tiểu khơng giống nhau.
Nếu các tính chất trên cũng đúng với tập mờ cĩ độ hỗ trợ cực tiểu khơng giống nhau, thì cĩ thể cải tiến thuật tốn CHARM-NEW thành thuật tốn FUZZY CHARM-NEW phát hiện luật kết hợp mờ bằng cách tìm các tập phổ biến đĩng cực đại.
Các khái niệm liên quan và đề xuất thuật tốn FUZZY CHARM-NEW được lần lượt trình bày trong các mục dưới đây.
III. Các kiến thức cần thiết xây dựng thuật tốn tìm tập phổ biến mờ cực đại cĩđộ hỗ trợ khơng giống nhau độ hỗ trợ khơng giống nhau
Trong phần dưới đây, các khái niệm và định nghĩa,...của luật kết hợp mờ ( tương tự như đối với luật kết hợp nhị phân), các tính chất sử dụng cho thuật tốn
FUZZYCHARM-NEW như kết nối Galois trong ngữ cảnh phát hiện dữ liệu mờ, định
nghĩa tập mờ đĩng, các tính chất đối với tập thuộc tính mờ..sẽ được trình bày . Một số khái niệm và tính chất được đề xuất lần đầu, số cịn lại được phát triển tiếp từ các khái niệm liên quan cùng loại đã được trình bày trong các phần trước, hoặc trong các tài liệu tham khảo[ 1 -3,5,6,10,15,16].
Gọi {minSupp i|, minSupp i2 , minSupp im} là tập các độ hỗ trợ tối thiểu
do người sử dụng tự xác định tương ứng với các thuộc tính trong I = { i), i2, . . im}
Định nghĩa 1. Độ hỗ trợ cực tiểu của tập thuộc tính X ký hiệu là minSuppX =
MaxỊminSupp ij} với mọi mục dữ liệu ij thuộc X;
Từ định nghĩa, ta thấy nếu X 2 Y thì minSuppX > minSuppY.
Khái niệm này là hồn tồn tương tự như trong [2].
Định nghĩa 2. - Độ hỗ trợ của tập mục dữ liệu < X, A> đối với cơ sở dữ liệu D ký
hiệu là s< X, A> được xác định như sau:
r rs* r
Phát hiện luật kêt hợp mờ cĩ độ hơ trợ khơng giơng nhau Trang 67
s < X , A >= í, g TIP
II o II
; trong đĩ 0 là tốn tử T-norm, t ị [ X j ] là giá trị của thuộc tính Xj trong bản ghi
thứ i của TID;
(hay khái niệm mờ) a J, Wj là ngưỡng cực tiểu của tập mờ a ị .
Độ hỗ trợ của luật kết hợp mờ X e A -» Y e B là s<z,c> với z = {X, Y}, c
= {A,B} và độ tin cậy của luật đĩ ký hiệu là Conf<Z, c > được xác định bởi
Conf<Z,C> = S<Z,C>/S<X,A> [8]
Định nghĩa 3. Tập mục dữ liệu < Y, B> được gọi là tập con của < X, A> khi và chỉ
khi Y c X và B c A
Định nghĩa 4. Độ hỗ trợ cực tiểu của tập mục dữ liệu <X,A> được xác định bằng độ
hỗ trợ cực tiểu của tập thuộc tính X.
Tập < X, A> được gọi là tập phổ biến nếu s< X, A> > minSuppX; Tập này được gọi là tập phổ biến cực đại nếu nĩ là tập phổ biến và khơng tồn tại bất kỳ tập < Y, B> nào là tập phổ biến và chứa nĩ như là một tập con thực sự.
Tỉnh chất 1. Tập phổ biến theo định nghĩa 4 cĩ tính chất Apriori, tức là nểu < x, A>
là tập phổ biến và <Y, B> là tập con của < X, A> thì < Y, B> cũng là tập phổ biến.
Chứng minh: Do Y c X và B e A nên
với:
; ở đây m a v / t * / ] ) là hàm thành viên của thuộc tính X j ứng với tập mờ
Phát hiện luật kết hợp mờ cĩ độ hỗ trợ khơng giống nhau Trang 68
Do đĩ S<Y,B>> S<X,A>;
Mặt khác ta lại cĩ S<X,A> > minSuppX > minSuppY do <X,A> là tập phổ biến v à Y c X . Vì vậy S<Y,B> ^ minSuppY hay <Y,B> là tập phổ biến
Định nghĩa 5. Luật kết hợp mờ X e A -> Y G B được xác định từ CSDL D được
gọi là luật tin cậy nếu <z, c > với z = {X, Y}, c = {A,B} là tập phổ biến và độ tin
cậy của luật này khơng nhỏ hơn độ tin cậy cực tiểu cho trước, tức là s<z,c> >
minSuppZ và Conf<Z,C> > minConf được cho bởi người sử dụng.
Ví dụ: Xét CSDL định lượng cho trong bảng sau
TID ... ... V...Tuơi Sơ lượng xe Thu nhập
ti 50 4 30000
h 40 3 15000
h 30 2 1 0 0 0 0
u 25 1 25000
15 60 0 0
Bảng 14. Cơ sở dữ liệu định lượng ban đâu
- Ta cĩ T= {tj,t2,t3,t4,t5} và 1= {Tuổi, s ổ lượng xe, Thu nhập), và ta cĩ thể thu
được giá trị của thuộc tính ik trong bản ghi thứ j bằng tj[ik]. Nếu thuộc tính Thu nhập
cĩ 3 tập mờ là cao, trung bình và thấp, ta sẽ cĩ:
FThunhap= {c<2 0, trung bình, thấp), tương tự ta cĩ: FTuổi= {trung niên, trẻ},
F s ố lư ợ n g x e { ỉíh té ll, lt}
Giả sử ta xét rằng 30000 là thu nhập cao và ta cĩ thể cĩ:
mthu nhặp-cao (30000) = 0.9; Tương tự, các tập mờ và các hàm thuộc sẽ được
cung cấp bởi các chuyên gia về lĩnh vực tương ứng.
TID Tuơi = trung niên Sơ lượng xe = nhiêu Thu nhập = cao
1 1 0 0.9
2 0 . 6 0.7 0.7
3 0.5 0 0.3
r »v f
Phát hiện luật kêt hợp mờ cĩ độ hơ trợ khơng giơng nhau Trang 69
4 0.3 0 . 2 0 . 8
5 1 0.5 0
Bảng 15. Cơ sở dữ liệu mờ
- Giả sử X={Tuổi, Thu nhập}, A={trung niên, cao}, ta cĩ:
Độ hỗ trợ của tập dữ liệu mờ < X, A> đối với cơ sở dữ liệu D ký hiệu là s< X,
A> được xác định theo Định nghĩa 2 như sau:
c v A _ 1X0.9 + 0.6x 0.7 + 0 .5 X 0.3 + 0 .3 X 0.8 + 1 X 0 _ n n A
5
Độ hỗ trợ của luật kết hợp mờ " Tuổi = trung niên —> Thu nhập = cao " đối
với cơ sở dữ liệu D được xác định theo Định nghĩa 2 như sau( tốn tử T- norm chọn
là tích đại số):
„ __ _ _ 1 X 0.9 + 0.6 X 0.7 + 0.5 X 0.3 +0.3 X 0.8 + 1 x(l
Conf<Z,C> = --- —— — ——— --- = 0.502