Luật kết hợp cú thuộc tớnh số và thuộc tớnh hạng m- 123docz.net

Khai thỏc luật kết hợp với thuộc tớnh số và thuộc tớnh hạng mục (quantitative and categorical association rule) là một trong những hướng tiếp cận quan trọng trong khai phỏ luật kết hợp.

Vớ dụ sau minh hoạ một cơ sở dữ liệu bao gồm thuộc tớnh số (quantitative), thuộc tớnh nhị phõn (binary) và thuộc tớnh hạng mục (categorical)

Tuổi Tỡnh trạng hụn nhõn (đó kết hụn:đỳng:1;sai:0) Số xe 40 1 2 42 1 2 48 1 2 49 0 2 45 1 2 55 0 3 Bảng 15 Bảng 13

Trong cơ sở dữ liệu trờn, là thuộc tớnh hạng mục, tỡnh trạng hụn nhõn là thuộc tớnh nhị phõn, tuổi, số xe là thuộc tớnh số. Với cơ sở dữ liệu ở trờn ta cú thể rỳt ra luật kết hợp sau: “Tuổi 40..49> and <đó kết hụn: đỳng> <số xe:2> với độ hỗ trợ là 50% . Để tỡm kiếm luật kết hợp ở dạng nờu trờn ta cú thể phõn khoảng miền giỏ trị của cỏc thuộc tớnh số và thuộc tớnh hạng mục để chuyển về thuộc tớnh nhị phõn, với mục đớch ỏp dụng cỏc thuật toỏn khai thỏc luật kết hợp nhi phõn.

3.2.1.6 Phƣơng phỏp rời rạc hoỏ dữ liệu.

Cỏc thuật toỏn khai thỏc luật kết hợp nhị phõn chỉ cú thể ỏp dụng trờn những cơ sở dữ liệu quan hệ chỉ cú thuộc tớnh nhị phõn hoặc cơ sở dữ liệu dạng giao dịch như trong bảng 10. Cỏc thuật toỏn khai thỏc luật kết hợp nhị phõn khụng thể ỏp dụng trực tiếp với cỏc cơ sở dữ liệu cú thuộc tớnh số và thuộc tớnh hạng mục như trong bảng 15. Để khắc phục được điều này ta tiến hành rời rạc hoỏ dữ liệu cho cỏc thuộc tớnh số để chuyển cỏc thuộc tớnh số về thuộc tớnh dạng nhị phõn.

Một số phương phỏp rời rạc hoỏ như sau:

Trường hợp 1: Nếu A là thuộc tớnh số rời rạc hoặc là thuộc tớnh hạng mục cú miền giỏ trị hữu hạn dạng {V1,V2,....Vk } với k đủ nhỏ (<100) thỡ ta biến đổi thuộc tớnh này thành k thuộc tớnh nhị phõn A_V1, A_V2,. . . . , A_Vk. Giỏ trị của bản ghi tại trường A_Vi = True (hoặc 1) nếu giỏ trị của bản ghi đú tại thuộc tớnh A ban đầu bằng vi . Ngược lại giỏ trị của A_Vi = False (hoặc 0)

Trường hợp 2:Nếu A là thuộc tớnh số liờn tục hoặc A là thuộc tớnh số rời rạc hay A là thuộc tớnh hạng mục cú miền giỏ trị hữu hạn dạng {V1,V2,....Vp } (p lớn) thỡ sẽ ỏnh xạ thành q thuộc tớnh nhị phõn <A:start1. . end1>, <A : start2. .end2>, . . . . , <A : startq. . endq>. Giỏ trị của bản ghi tại trường <A:starti. . endi> bằng True (hoặc 1) nếu giỏ trị của bản ghi đú tại thuộc tớnh A ban đầu nằm trong khoảng <starti. . endi> . Ngược lại giỏ trị của <A:starti. . endi> bằng False (hoặc 0).

Như vậy cỏc phương phỏp này phõn hoạch miền giỏ trị của cỏc thuộc tớnh thành cỏc khoảng và sau đú kết hợp cỏc khoảng rời nhau để cho lời giải của bài toỏn. Tuy nhiờn phương phỏp này cú một số nhược điểm đú là vấn đề mất mỏt thụng tin nếu như cú nhiều giỏ trị tập trung xung quanh cỏc biờn của cỏc khoảng. Việc chia cỏc giỏ trị gần nhau vào cỏc khoảng khỏc nhau sẽ dẫn tới việc mất thụng tin trong cỏc phõn tớch về sau. Khi đú cỏc phần tử nằm gần biờn cú thể thuộc nhiều hơn một khoảng, và sẽ giải quyết được phần nào vấn đề mất mỏt

thụng tin tại cỏc lõn cận biờn. Tuy nhiờn tiếp cận này vẫn cú phần bất hợp lý do việc phần tử gần biờn cũng sẽ cú vai trũ quan trọng trong việc mụ tả đặc trưng của khoảng giống như cỏc phần tử gần trung tõm. Để khắc phục những nhược điểm trờn, người ta đó đề xuất tiếp cận Mờ. Tập mờ cung cấp thay đổi uyển chuyển giữa cỏc vựng dữ liệu và vấn đề xuất phỏt từ biờn rừ ràng sẽ được loaị bỏ, ngoài ra dạng luật kết hợp mờ tự nhiờn hơn về mặt ngữ nghĩa và gần gũi hơn với người sử dụng [23].

3.2.2. Luật kết hợp mờ. 3.2.2.1. Mụ tả bài toỏn 3.2.2.1. Mụ tả bài toỏn

Tỡm kiếm luật kết hợp mờ là tỡm kiếm cỏc luật kết hợp sử dụng tập mờ để mụ tả dữ liệu đầu. Trong phần này sẽ đưa ra cỏc khỏi niệm cơ bản cho bài toỏn tỡm luật kết hợp mờ.

a. Thuộc tớnh và cơ sở dữ liệu

Cho I là tập cỏc thuộc tớnh I = {I1,...In }, trong đú dom(Iv) là miền giỏ trị của thuộc tớnh Iv. Lấy vớ dụ trong cơ sở dữ liệu quản lý về cỏc tớnh năng kỹ thuật của xe gắn mỏy, thụng số về lượng xăng tiờu thụ trung bỡnh trờn 100 km là một thuộc tớnh, với dom = [0..100]. Ta cú một cơ sở dữ liệu D trờn I là tập cỏc bản ghi d. Với mọi bản ghi d  D, ta cú d[Iv] xỏc định gớa trị iv  dom(Iv) của thuộc tớnh Iv của d.

 Từ.

Xột I = {I1,...In } là tập thuộc tớnh, giả sử mỗi thuộc tớnh Iv cú thể được mụ tả bằng một tập cỏc từ Lv =  1 2 

, ,... vr

v v v

L L L . Lấy vớ dụ “bệnh nhõn bị sốt trờn 39oC” cú thể được mụ tả bằng tập từ {thấp, trung bỡnh, cao}

Chỳ ý rằng ở đõy cỏc từ mụ tả cỏc thuộc tớnh khỏc nhau là khỏc nhau, mặc dự chỳng cú thể cú cựng nhón.

Xột k v

L là một từ mụ tả thuộc tớnh Iv của cơ sở dữ liệu, khi đú k v

L được biểu diễn bằng một hàm thuộc k

 : dom(Iv)  [0,1] biểu diễn mức độ đỳng đắn của việc sử dụng từ k

L để mụ tả giỏ trị iv  dom(Iv). Lấy vớ dụ hàm thuộc ứng với từ "cao" trong mụ tả thuộc tớnh “bệnh nhõn bị sốt trờn 390C” biểu diễn mức độ đỳng đắn của việc sử dụng từ 'cao" khi mụ tả nhiệt độ x của một bệnh nhõn nào đú, nghĩa là mức độ đỳng đắn của mệnh đề "nhiệt độ x là cao".

Kớ hiệu

i) Mv là tập tất cả cỏc hàm thuộc biểu diễn cỏc từ mụ tả thuộc tớnh Iv.

ii) LI là tập tất cả cỏc tập từ mụ tả cỏc thuộc tớnh của I,LI được gọi là mụ tả của I.

iii) MI là tập tất cả cỏc tập hàm thuộc biểu diễn cỏc từ trong mụ tả LI của I. MI được gọi là biểu diễn của I ứng với LI.

 Mệnh đề [2].

Cho trước một cơ sở dữ liệu D trờn tập thuộc tớnh I và cỏc tập từ cũng như cỏc hàm thuộc gắn với cỏc thuộc tớnh này. Từ cơ sở sữ liệu này, bài toỏn tỡm luật kết hợp mờ tỡm cỏch rỳt ra cỏc luật dạng "nếu X là A thỡ Y là B". Trong phần này sẽ xem xột biểu diễn hỡnh thức của cỏc mệnh đề dạng "X là A" hay "Y là B".

Định nghĩa 3.2.1[12]. Cho I là tập thuộc tớnh, X= { x I1 , x

I2,... x p

I }  I là tập cỏc thuộc tớnh. Cho A là tập cỏc từ mụ tả cỏc thuộc tớnh trong X, nghĩa là:

A = { }. A được gọi là mụ tả của X, khi đú một mệnh đề trong tập thuộc tớnh I và tập từ LI (hay gọi tắt là mệnh đề) “X là A”, cú ký hiệu hỡnh thức <X,A>

Chỳng ta chỉ quan tõm tới những luật kết hợp cú độ quan trọng và độ chắc chắn đủ lớn, sau đõy chỳng ta tỡm hiểu cỏc tiờu chuẩn đỏnh giỏ một luật kết hợp mờ.

Định nghĩa 3.2.2[19]. Cho cơ sở dữ liệu D trờn tập thuộc tớnh I, <X,A> là một mệnh đề trờn I và tập từ LI, MI là biểu diễn của I ứng với LI. Xột d  D là một bản ghi. Khi đú, độ ủng hộ của d cho <X,A> ứng với MI được cho bởi:

Vote(d,X,A,MI) := (3.2.1)

í nghĩa của biểu thức trờn biểu diễn giỏ trị đỳng đắn của mệnh đề “ là , là , là “

Trong [19] cũng đề nghị rằng cụng thức 3.2.1 bờn cạnh toỏn tử nhõn, cũng cú thể sử dụng toỏn tử min. Từ đú ta cú thể thấy, trong 2.3.1 chỳng ta cú thể sử dụng một t-chuẩn, hoặc t-chuẩn cú ngưỡng trong logớc mờ để xỏc định độ ủng hộ

Định nghĩa 3.2.3[19]. Khi đú độ hỗ trợ của <X,A> trong D ứng với MI:

supp(X,A,D,MI):= (3.2.2) 1 x I 2 x I n x I p p a x a x a x L L L , 2 ,... 2 1 1 1 1 a x L 2 2 a x L n n a x L ) M A, X, vote(d, D   d I        p  p  p i x a x x a x x a x d I  d I  d I  . .... 2 2 2 1 1

Trong trường hợp khụng gõy nhầm lẫn, cú thể bỏ qua D và MI. Bờn cạnh khỏi niệm độ hỗ trợ , chỳng ta cũng cú thể sử dụng khỏi niệm độ quan trọng.

Định nghĩa 3.2.4 [19]. Độ quan trọng của <X,A> trong D ứng với MI:

sign(X,A,D,MI):= (3.2.3)

Trong trường hợp khụng gõy nhầm lẫn, cú thể bỏ qua D và MI

Trong bài toỏn tỡm luật kết hợp mờ, chỳng ta chỉ quan tõm tới những mệnh đề cú độ hỗ trợ (độ quan trọng ) là đủ lớn, nghĩa là vượt một ngưỡng cho trước nào đú. Như vậy ở đõy chỉ quan tõm tới những mệnh đề <X,A> cú supp(X,A,D,MI)  abs hay sign(X,A,D,MI)  rel với abs và rel là cỏc ngưỡng cho trước nào đú. Nếu một mệnh đề cú độ hỗ trợ đủ lớn ta gọi mệnh đề đú là đỏng kể.

Định nghĩa 3.2.5 [2]. Tập cỏc mệnh đề đỏng kể trờn D ứng với ngưỡng 

và MI được cho bởi:

S(D,, MI):={<X,A>| supp(X,A) }

Bài toỏn 2.3.1[2]. (Tỡm mệnh đề) Cho trước một thuộc tớnh I, LI là tập từ mụ tả I, MI là tập hàm thuộc biểu diễn I ứng với LI, một cơ sở dữ liệu D trờn I, và ngưỡng hỗ trợ nhỏ nhất , tỡm S(D,, MI)

Trong thực tế chỳng ta khụng chỉ cần cỏc mệnh đề quan trọng mà cũn cần xỏc định cả độ hỗ trợ của chỳng để sử dụng khi tỡm luật kết hợp.

b. Luật kết hợp

Trong phần này mụ tả luật kết hợp và cỏc tiờu chớ để đỏnh giỏ một luật kết hợp là quan trọng.

Định nghĩa 3.2.6[2]. Cho trước một tập thuộc tớnh I, LI là tập cỏc từ mụ tả I, MI là tập cỏc hàm thuộc biểu diễn I ứng với LI, một cơ sở dữ liệu D trờn I, mục tiờu là tỡm cỏc luật dạng “nếu X là A thỡ Y là B” cú biểu diễn hỡnh thức <X,A>  <Y,B>, trong đú X,Y I là tập cỏc thuộc tớnh, XY ={}, A, B là cỏc tập từ mụ tả X,Y tương ứng.

Phần <X,A> được gọi là phần thõn (hay tiền tố) của luật, <Y,B> được gọi là phần đầu (hay hệ quả ) của luật. í nghĩa của luật này núi lờn việc nếu “X là A” được thoả món thỡ “Y là B” cũng được thoả món.

Định nghĩa 3.2.7[19]. Cho trước một tập thuộc tớnh I, LI là tập cỏc từ mụ tả I, MI là tập cỏc hàm thuộc biểu diễn I ứng với LI, một cơ sở dữ liệu D trờn I, X,Y I là tập cỏc thuộc tớnh, XY ={}, A, B là cỏc tập từ mụ tả X,Y tương ứng.

D M D A X p( , , , I) sup

i) Độ hỗ trợ của luật <X,A>  <Y,B> trờn D ứng với MI được cho bởi: supp(<X,A>  <Y,B> ,D,MI) = supp(XY, A B, D,MI) (3.2.4) ii) Độ chắc chắn của luật trờn D ứng với MI được cho bởi:

cert(<X,A>  <Y,B> ,D,MI) = (3.2.5)

Trong trường hợp khụng gõy nhầm lẫn, cú thể bỏ qua D và MI

Luật được gọi là tin cậy nếu độ chắc chắn của nú vượt một ngưỡng độ chắc chắn tối thiểu  cho trước nào đú. Một luật được gọi là quan tõm nếu nú là đỏng kể và tin cậy.

Định nghĩa 3.2.8[2]. Tập cỏc luật quan tõm được ký hiệu:

R(D, , , MI) = {<X,A>  <Y,B> | X,Y  I, XY ={},< XY, A

B>S(D,, MI), cert(<X,A>  <Y,B>)}

Bài toỏn 3.2.1[2]. (Tỡm luật) Cho trước một tập thuộc tớnh I, LI là tập cỏc từ mụ tả I, MI là tập cỏc hàm thuộc biểu diễn I ứng với LI, một cơ sở dữ liệu D trờn I, ,  tương ứng là cỏc ngưỡng độ hỗ trợ và độ chắc chắn tối thiểu, tỡm R(D, , , MI)

3.2.2.2. Khụng gian tỡm kiếm

Việc tỡm kiếm tất cả cỏc mệnh đề quan trọng cũng như cỏc luật tin chắc cú một số khú khăn nhất định. Khụng gian tỡm kiếm là hàm mũ đối với số thuộc tớnh cú trong giao dịch. Trong phần này, chỳng ta sẽ xem xột về kớch thước của khụng gian tỡm kiếm cũng như một số kết quả làm giảm kớch thước này.

a. Tỡm mệnh đề

Cho I là tập thuộc tớnh, giả sử kớch thước trung bỡnh của tập từ mụ tả một thuộc tớnh là k, ta cú kết quả sau về khụng gian tỡm kiếm cỏc mệnh đề.

Mệnh đề 3.2.1[2]. Khụng gian tỡm kiếm tất cả cỏc mệnh đề cú khoảng (k+1)|I| mệnh đề khỏc nhau.

Chứng minh:

Thật vậy, ta cú với 1  i  |I|, cú tất cả Ci|I| tập thuộc tớnh độ dài i cú thể cú. Với mỗi tập thuộc tớnh kớch thước i, cú khoảng ki

mệnh đề khỏc nhau cú thể cú. Như thế, tổng tất cả cỏc mệnh đề cú thể cú là: = (k+1)i |I| I i i Ik C  0 ) , , , ( sup ) , , , , ( sup I I M D A X p M D B Y A X p   

Như thế, tiếp cận ngõy thơ là khởi tạo và tớnh độ hỗ trợ của tất cả cỏc mệnh đề trong cơ sở dữ liệu là khụng thực tế về mặt thời gian. Thay vào đú, ở đõy chỳng ta sử dụng phương phỏp phỏt triển từ bài toỏn luật kết hợp Boolean [7] đú là tạo ra mệnh đề ứng viờn, sau đú xỏc định độ hỗ trợ của chỳng để tỡm tất cả cỏc tập mục phổ biến. Ta cú định nghĩa một cỏch hỡnh thức sau:

Định nghĩa 3.2.9[2] (mệnh đề ứng viờn)

Cho trước một cơ sở dữ liệu giao dịch D, ngưỡng độ hỗ trợ nhỏ nhất , một thuật toỏn xỏc định F(D, ), một mệnh đề <X,A> được gọi là ứng viờn nếu thuật toỏn này xỏc định liệu <X,A> cú phải là phổ biến hay khụng.

Núi chung một thuật toỏn tốt cần phải tạo ra đủ và càng ớt mệnh đề ứng viờn càng tốt. Tốt nhất là thuật toỏn chỉ tạo ra những mệnh đề quan trọng, tuy nhiờn, điều này là khụng thể xảy ra trong thực tế. Vấn đề là cần đỏnh giỏ một mệnh đề cú phải là ứng viờn hay khụng. Chỳng ta cú kết quả về tớnh đơn điệu của độ hỗ trợ của mệnh đề, đõy chớnh là một mở rộng độ hỗ trợ của tập mục đó được nhắc trong [25]. Trước hết ta cú định nghĩa.

Định nghĩa 3.2.10[2]

Cho I là tập cỏc thuộc tớnh, X = { }  I là tập thuộc tớnh, A ={ .... } là tập từ mụ tả X,

Y=  X (chỳ ý rằng q p). Khi đú: i) A|Y :=

ii) Mệnh đề <Y, A|Y> được gọi là mệnh đề con của mệnh đề <X,A> iii) Mệnh đề <X,A> được gọi là mệnh đề chứa mệnh đề <Y, A|Y>

Từ định nghĩa của độ ủng hộ và tớnh đơn điệu của t-chuẩn, cũng như t- chuẩn cú ngưỡng, ta cú kết quả sau về tớnh đơn điệu của độ ủng hộ.

Mệnh đề 3.2.1. (tớnh đơn điệu của độ ủng hộ).

Cho X, Y  I là hai tập thuộc tớnh, A là tập từ mụ tả X, d là một bản ghi của D, khi đú:

Y  X  vote(d,X,A)  vote(d,Y,A|Y) (3.2.6)

Dựa vào kết quả trờn, và định nghĩa của độ hỗ trợ ta cú kết quả sau:

Mệnh đề 3.2.3[2]. (tớnh đơn điệu của độ hỗ trợ)

Cho X, Y  I là hai tập thuộc tớnh, A là tập từ mụ tả X. Khi đú:

x p x I I1 ,... p x p a x L 1 1 x a x L } ,.... , { 2 2 1 1 q y q y y y y y a x a x a x L L L } ,.... , { 2 1 x y x y x y I I q I

Y  X  supp(X,A)  supp(Y,A|Y) (3.2.7)

Như thế nếu một mệnh đề là khụng quan trọng thỡ tất cả cỏc mệnh đề chứa nú là khụng quan trọng. Trờn cơ sở đú, ta cú thể kiểm tra một mệnh đề cú phải là ứng viờn khụng thụng qua việc kiểm tra cỏc mệnh đề con của nú cú phải là ứng viờn khụng.

b. Tỡm luật

Tương tự như bài toỏn tỡm mệnh đề, cho I là tập thuộc tớnh, và giả sử lực lượng của tập từ mụ tả mỗi thuộc tớnh là k, ta cú kết quả sau về kớch thước khụng gian tỡm kiếm của bài toỏn tỡm luật.

Mệnh đề 3.2.4[2]. Khụng gian tỡm kiếm tất cả cỏc luật kết hợp cú khoảng

Luật kết hợp cú thuộc tớnh số và thuộc tớnh hạng mục

Suy diễn một luật dựa trờn T-implication

nghĩa của luật kết hợp