Luật kết hợp

Một phần của tài liệu (LUẬN văn THẠC sĩ) phương pháp xây dựng cây quyết định dựa trên tập phụ thuộc hàm xấp xỉ (Trang 49 - 56)

2.2.1.1. CSDL giao tỏc

Cho tọ̃p I cú m mục dữ liệu, ký hiờ ̣u làI I I1, , ..., 2 Im. Mụ̃i tọ̃p con T

I được go ̣i là mụ ̣t giao tá c. Mụ̣t tõ ̣p các mu ̣c dữ liệu được go ̣i là tọ̃p mục. Mụ̣t tõ ̣p mu ̣c chứa k mục được gọi là k - tọ̃p mục. Tập I trờn chớnh là m-tập mục [3,14,15].

Mụ̣t cơ sở dữ liợ̀u giao tác D là mụ ̣t tõ ̣p các giao tác. Ví du ̣ :

Cho CSDL giao tác D trờn tập gồm 5 mục I = {A, H, L, E, F}. CSDL giao tỏc D = {{A, F, L, E};{F, H, E}; A, F, L, E};{A, F, H, E};{A, F, H, L, E};{F, H, L}}

Bảng 2.4. Ví du ̣ vờ̀ CSDL giao tác D

Đi ̣nh danh giao tác Giao tỏc

1 {A, F, L, E} 2 {F, H, E} 3 {A, F, L, E} 4 {A, F, H, E} 5 {A, F, H, L, E} 6 {F, H, L}

Mụ̣t giao tác T được go ̣i là hụ̃ trợ tập mục XI nờ́u nó chứa tṍt cả các mục của X, nghĩa là X⊆ T.

Đụ̣ hụ̃ trợ của tọ̃p mục X, ký hiờ ̣u supp(X) là tỷ sụ́ giữa số cỏc giao tác có chứa X với số cỏc giao tác của D. Tứ c là:

supp X  TD X| T

D

2.2.1.2. Tập mục phổ biến/ thường xuyờn

Tọ̃p mu ̣c X được go ̣i là tập mục phổ biờ́n (hay tọ̃p mục thường xuyờn), nờ́u supp (X) ≥ minsupp. Trong đó minsupp ∈ [0, 1] là giá tri ̣ cho trước bởi NSD thường được go ̣i là ngưỡng hụ̃ trợ tụ́i thiờ̉u.

Mợ̀nh đờ̀ [Bramer M. A. (2007)] (về một sụ́ tính chṍt cơ bản của Tõ ̣p

mục phụ̉ biờ́n)

Cho hai tọ̃p mục X, Y và XY. Khi đó

(1) (Đụ̣ hụ̃ trợ của tọ̃p mục con) supp (X) ≥ supp (Y). (2) Nờ́ u Y là tọ̃p phụ̉ biờ́n thì X cũng là tọ̃p phụ̉ biờ́n.

(3) Nờ́ u X là tọ̃p khụng phổ biến thì Y cũng là tọ̃p khụng phụ̉ biờ́n.

Bảng 2.5. Ví du ̣ vờ̀ các tõ ̣p phụ̉ biờ́n với đụ ̣ hụ̃ trợ tương ứng, minsupp = 50%

Cá c tập mu ̣c phụ̉ biờ́n Đụ ̣ hụ̃ trợ tương ứng

{F} 100% (6/6)

{E}, {F, E} 83% (5/6)

{A}{H}{D}{A, F}{A, E}{F, H}{F, L}{A, F, E} 67% (4/6) {A,L}{H,E}{L,E}{A,F,L}{A,L,E}{F,H,E}{F,L,E} 50% (3/6)

2.2.1.3. Định nghĩa luật kết hợp

Một luọ̃t kờ́t hợp (LKH) là một mệnh đề có da ̣ng XY, trong đúX Y,  I thỏa món điều kiện X   Y . Tập X gọi là tiền đề, tập Y gọi là kết luận của luật.

LKH cú hai đụ ̣ đo quan trọng là độ hụ̃ trợđộ tin cậy:

Độ hụ̃ trợ (Support) của luọ̃t XY, ký hiệu là s X Y, là tỷ lờ ̣ phõ̀n trăm cỏc giao tác trong D có chứa XY.

Tứ c là: s XY T D X| Y T suppX Y

D

  

Do đó theo quan điờ̉m xác suṍt, đụ ̣ hụ̃ trợ của luõ ̣t đă ̣c trưng cho tõ̀n suṍt xuṍt hiợ̀n của các mõ̃u trong luõ ̣t.

s X Y  P X Y

Độ tin cậy (Confidence) của luật XY, ký hiệu c X Y. Là tỷ lệ phõ̀n trăm giữa các giao tác trong D có chứa XY vớ i các giao tác trong D

có chứa X. Tứ c là

  supp    supp X Y c X Y X   

Như võ ̣y, có thờ̉ hiờ̉u đụ ̣ tin cõ ̣y c X Y là tỷ lờ ̣ phõ̀n trăm giao tác trong D có chứa X thì cũng có chứa Y. Theo quan điờ̉m xác suṍt c X Y chính là xác suất cú điờ̀u kiờ ̣n mà giao tác cho trước T hụ̃ trợ X thì T cũng hụ̃ trợ Y:

c XYP Y X /  P Y  X

P X

  

Như võ ̣y, độ tin cõ ̣y của LKH X Y thờ̉ hiợ̀n sự tương quan giữa X và

Y. Đụ̣ tin cõ ̣y đo sức ma ̣nh của luõ ̣t và người ta chỉ quan tõm đờ́n các LKH có đụ ̣ tin cõ ̣y cao.

2.2.1.4. Định nghĩa luật kết hợp mạnh

LKH X Y được gọi là LKH mạnh, nờ́u s X Y  minsup và

  minconf

c XY  . Trong đó, minsup và minconf là các giá tri ̣ cho trước, đươ ̣c xác đi ̣nh bởi người dựng, có miền giá tri ̣ thuụ ̣c đoa ̣n [0, 1].

í nghĩa của LKH được thể hiện ở những điểm sau đõy [14]. Giả sử cú LKH là những luật có da ̣ng:

+70% khách hàng mua đường thỡ mua thờm sữa, 30% giao tác cú mua cả đường lõ̃n sữa.

+75% bệnh nhõn cú hú t thuốc lỏ và sống ở ven vùng ụ nhiờ̃m thì bi ̣ ung thư phổi. Trong đú có 25% số bờ ̣nh nhõn vừa hút thuụ́c lá, vừa sụ́ng ven vựng ụ nhiờ̃m vừa bị ung thư phụ̉i.

Ở đõy: Vế trỏi của luật: “mua đường”, “hút thuụ́c lá và sụ́ng ven vùng ụ nhiễm”. Vế phải của luọ̃t: “mua sữa”, “ung thư phụ̉i”. Cũn những con sụ́ như 30%, 25%: đụ ̣ hụ̃ trợ của luật; 70%, 75%: đụ ̣ tin cõ ̣y của luõ ̣t.

Ta thṍy tri thức đem lại bởi LKH ở trờn có một sự khác biệt cơ bản so với thụng tin thu được từ cỏc cõu lợ̀nh truy vṍn dữ liệu thụng thường. Đó thường là những tri thức, những mụ́i liờn hờ ̣ chưa được biờ́t trước và mang tính chṍt dự báo, đang tiờ̀m õ̉n trong dữ liờ ̣u. Những tri thức này khụng đơn giản chỉ là kờ́t quả của các phép nhóm, tính tụ̉ng, sắp xờ́p mà là kờ́t quả của mụ̣t quá trình tính toán khai phá phức ta ̣p và tụ́n nhiờ̀u thời gian [14].

Tuy nhiờn LKH là da ̣ng luõ ̣t khá đơn giản nhưng la ̣i mang rṍt nhiờ̀u ý nghĩa. Thụng tin mà dạng luật này đem la ̣i là rṍt đáng kờ̉ và hụ̃ trợ khụng nhỏ trong quá trỡnh ra quyờ́t định.

LKH có mụ ̣t sụ́ tính chṍt cơ bản sau [Bramer M. A. (2007)]:

1. Nếu XY là LKH mạnh thỡ XZvới ZYcũng là LKH mạnh. 2. Nếu XZY   Z là cỏc LKH mạnh thỡ khụng nhất thiết X  Y Z cũng là LKH mạnh. 3.Nếu X  Y Z là LKH mạnh thỡ XZ và YZ chưa chắc LKH mạnh. 4. Nếu XY và YZ là LKH mạnh thỡ chưa chắc XZ LKH mạnh.

2.2.2.Biểu diễn PTH xấp xỉ qua LKH

Chỳng ta trỡnh bày lại mụ̣t sụ́ khái niờ ̣m của LKH theo quan điểm của PTH xấp xỉ [14].

Xét tập R gồm m thuụ ̣c tính R={A1, A2,…Am}, quan hợ̀ r (R), PTH xṍp xỉ: X Y trờn r, X,YR.

Giả sử Dom X   x , ..., x 1 k, Dom Y   y1, ..., ym, n = |r| (số cỏc bộ trong r)

nxi= {tr: t[X]= xi}, nyi= {tr: t[Y]= yi} và nxiyj={tr: t[X]= xi và t[Y]= yj}

Ta hiểu mụ̃i mục là mụ ̣t đụ́i tượng (bộ) gắn với mụ ̣t thuụ ̣c tính của R. Như võ ̣y, với mụ̃i thuụ ̣c tính AiR cho ta mụ̣t mu ̣c

i

A

i . Do đó, mu ̣c iAilà mụ ̣t đụ́i tươ ̣ng đụ ̣c lập với các thờ̉ hiờ ̣n của R và miờ̀n giá tri ̣ của Ai. Khi đó tõ ̣p mục IX được xác đi ̣nh như sau:   |  

i

X A i

I i A X

Và tập tṍt cả các mục IR được xỏc đi ̣nh là: IR= {iA1,...,iAm}

Tọ̃p các giao tác, ký hiợ̀u TD, được định nghĩa là: Với mụ̃i că ̣p các bụ ̣ : (t, s) ∈r ì r có mụ ̣t giao tác tsTD :       

i

A i i

i ts t A s A

Như võ ̣y, mỗi giao tác trong TD tương ứ ng mụ ̣t că ̣p cỏc bụ ̣ trong quan hợ̀ r. Sự có mă ̣t của mụ ̣t mục iAi trong mụ̣t giao tác ts có nghĩa là bụ ̣ t và bộ s

có cùng giá tri ̣ trong Ai. Trờn cơ sở này, người ta quan niờ ̣m mụ ̣t PTH xṍp xỉ như là một LKH như sau:

Định nghĩa [14]

Cho X, Y R sao cho X ∩ Y = . Khi đú một PTH xấp xỉ X → Y trờn quan hệ R là một LKH IXIYtrờn cơ sở giao tác TD.

Theo cách tiờ́p cõ ̣n này, một LKH 

i j

A A

i i . Trong đó TD có ý nghĩa tương tự như PTH AiAj trong quan hợ̀ R. Sử du ̣ng phương pháp chuyờ̉n đụ̉i này, chúng ta có thể tìm kiờ́m các PTH xṍp xỉ trong quan hờ ̣ R bằng cách tìm kiếm các LKH tương ứng trong TD.

Như chúng ta đã biờ́t, đụ̣ hụ̃ trợ của tõ ̣p mục IX supp IX  là tỷ lờ ̣ phõ̀n trăm các giao tác chứa tõ ̣p mục. Đụ̣ hụ̃ trợ của mụ̣t LKH IXIYs IXIY

là tỷ lờ ̣ phõ̀n trăm các giao tác chứa tõ ̣p mu ̣c IXIY. Đụ ̣ tin cõ ̣y là mụ̣t đụ̣ đo đụ̣ chính xác thụng thường (cụ̉ điờ̉n) đụ́i với các LKH:

     X  Y    XY X Y X X s I I s I c I I s I s I

Do đó đờ̉ kiểm tra cỏc PTH xṍp xỉ cú thỏa món, chỳng ta có thờ̉ sử du ̣ng độ tin cõ ̣y và đụ ̣ hỗ trợ của các LKH tương ứng theo cách như dưới đõy.

Đi ̣nh nghĩa [14]

Đụ̣ hụ̃ trợ và đụ̣ tin cọ̃y củ a mụ ̣t PTH xṍp xỉ XY là đụ ̣ hụ̃ trơ ̣ và đụ ̣ tin cọ̃y của LKH IXIY tương ứ ng. Tức là:

s(XY)  s I( XIY)

c X( Y)  c I( XIY)

Theo cỏch biểu diễn này thỡ độ hỗ trợ của tập thuộc tớnh X là:

Supp (X) = supp (IX).

Khi đó tính chất quan tro ̣ng của đặc trưng này là mệnh đề sau.

Mợ̀nh đờ̀ [14] PTH XYlà hàm c(IXIY) = 1. Ví du ̣ Bảng 2.6. Mụ ̣t quan hờ ̣ R Ma Xe Diachi Xe SLXe Ten SP 1 Ha Noi 4 Man 2 Ha Noi 2 Man

3 Ha Noi 4 Sau rieng

Khi chuyển qua tập cỏc giao tỏc ta cú:

 , , , 

U MaXe DiaChiXe SoluongXe TenSP

Ii i i i .

Trong tập giao tác TD, mỗi hàng mụ tả một giao tác và mỗi cột là một mục. Giỏ trị 1 (tương ứng 0) trong một ụ nghĩa là tập mục đú cú (tương ứng

Bảng 2.7.Tõ ̣p các giao tác TD của R

Ts iMaXe iDiaChiXe iSLXe iTenSP

(1,1) 1 1 1 1 (1,2) 0 1 0 1 (1,3) 0 1 0 1 (2,1) 0 1 0 1 (2,2) 1 1 1 1 (2,3) 0 1 1 1 (3,1) 0 1 0 1 (3,2) 0 1 1 1 (3,3) 1 1 1 1

Như vậy, ta cú xỏc định được độ hỗ trợ và độ tin cậy của LKH trong

TD và cỏc PTH xấp xỉ tương ứ ng trong R.

Bảng 2.8. Một số LKH trong TD tương ứng với PTH xấp xỉ trong R

LKH Độ tin

cậy

Độ hỗ

trợ PTH xấp xỉ

{TDiachiXe} ⇒ {TSLXe} 5/9 5/9 {DiachiXe} → {SLXe}

{TDiachiXe, TSLXe} ⇒ {TTenSP} 3/5 1/3 {DiachiXe, SLXe} → {TenSP}

Một phần của tài liệu (LUẬN văn THẠC sĩ) phương pháp xây dựng cây quyết định dựa trên tập phụ thuộc hàm xấp xỉ (Trang 49 - 56)

Tải bản đầy đủ (PDF)

(97 trang)