Cỏc cỏch tiếp cận khai phỏ luật kết hợp đa mức

Một phần của tài liệu (LUẬN văn THẠC sĩ) khai phá dữ liệu sử dụng luật kết hợp (Trang 73 - 77)

2.8.10 .Giải thuật di truyền

3.4. Khai phỏ luật kết hợp đa mức

3.4.2. Cỏc cỏch tiếp cận khai phỏ luật kết hợp đa mức

Cú một số cỏch tiếp cận vấn đề dựa trờn khung làm việc độ hỗ trợ và độ tin cậy. Nhỡn chung, ngƣời ta sử dụng chiến lƣợc Top-Down, ở đú tớnh tớch lũy cho cỏc tập mục trong mỗi mức khỏi niệm, bắt đầu từ mức khỏi niệm 1 và đi xuống mức thấp hơn, mức khỏi niệm riờng biệt hơn, cho đến khi khụng cũn tập mục phổ biến nào tỡm đƣợc. Điều đú cú nghĩa là: Trong một lần là tấ cả cỏc tập mục phổ biến ở mức khỏi niệm thứ nhất là tỡm đƣợc, sau đú cỏc tập mục phổ biến ở mức khỏi niệm thứ 2 là tỡm đƣợc, và cứ tiếp tục nhƣ vậy… Với mỗi mục, cú thể sử dụng bất kỳ thuật toỏn nào để phỏt hiện tập mục phổ biến chẳng hạn nhƣ Apriori. Cú một số cải tiến cho cỏch tiếp cận này nhƣ sau:

Sử dụng độ hỗ trợ cực tiểu giống nhau cho tất cả cỏc mức: Ngƣỡng hỗ trợ nhƣ nhau đƣợc sử dụng khi khai phỏ ở mỗi mức trừu tƣợng. Vớ dụ: Trong hỡnh sau, ngƣỡng hỗ trợ 5% đƣợc sử dụng. Cả hai loại ―mỏy tớnh‖ và ―mỏy tớnh Laptop‖ đều tỡm đƣợc là phổ biến trong khi ―Mỏy tớnh để bàn‖ thỡ khụng.

Mỏy tớnh [supp=10%] Mỏy tớnh laptop [supp=6%] Mỏy tớnh để bàn [supp=10%] Mức 1 Minusupp=5% Mức 2 Minusupp=5%

Khi sử dụng ngƣỡng độ hỗ trợ cực tiểu giống nhau, thủ tục tỡm kiếm là đơn giản. Phƣơng phỏp này đơn giản trong trƣờng hợp ngƣời dựng yờu cầu chỉ một ngƣỡng hỗ trợ xỏc định. Tuy nhiờn, với độ hỗ trợ giống nhau nảy sinh một số khú khăn. Nú khụng phự hợp với cỏc mục mà ở mức thấp hơn của sự trừu tƣợng nú sẽ cú tớnh phổ biến cao hơn. Nếu ngƣỡng độ hỗ trợ đặt quỏ cao cú thể sẽ mất một số luật cú ớch ở cỏc mức trừu tƣợng thấp. Nếu ngƣỡng độ hỗ trợ đặt quỏ thấp cú thể sẽ sinh ra nhiều luật khụng cần quan tõm ở cỏc mức trừu tƣợng cao. Điều đú dẫn tới cỏch tiếp cận khỏc đƣợc trỡnh bày ngay sau đõy.

Hạ thấp độ hỗ trợ cực tiểu ở mức độ thấp hơn: Mỗi mức trừu tƣợng cú một ngƣỡng hỗ trợ cực tiểu của chớnh nú. Mức trừu tƣợng thấp hơn cú ngƣỡng tƣơng ứng nhỏ hơn. Vớ dụ: trong hỡnh sau, ngƣỡng độ hỗ trợ mức trừu tƣợng 1 là 5% mức 2 là 3%. Trong cỏch này, ―Mỏy tớnh‖,‖Mỏy tớnh laptop‖,‖mỏy tớnh để bàn‖ đều là phổ biến.

Khi khai phỏ luật kết hợp nhiều mức với cỏch giảm độ hỗ trợ, cú một số cỏch tỡm kiếm cú thể lựa chọn:

Từ mức này tới mức khỏc một cỏch độc lập (level-by-level independent): Đõy là cỏch tỡm kiếm hoàn toàn theo chiều rộng, ở đú khụng cú tri thức cơ sở của cỏc tập

Mỏy tớnh [supp=10%] Mỏy tớnh laptop [supp=6%] Mỏy tớnh để bàn [supp=10%] Mức 1 Minusupp=5% Mức 2 Minusupp=3%

mục phổ biến đƣợc dựng để tỉa. Mỗi nỳt đều đƣợc xột mà khụng chỳ ý đến nỳt cha đó xột cú là phổ biến hay khụng.

Đi qua cỏc mức cú chọn lọcLọc qua cỏc mức (level cross filering): Một mục ở mức thứ i là đƣợc xột nếu và chỉ nếu nỳt cha của nú ở mức thứ (i-1) là phổ biến. Hay núi cỏch khỏc, ta nghiờn cứu luật kết hợp riờng biệt hơn từ luật tổng quỏt hơn. Nếu một nỳt lỏ là phổ biến thỡ cỏc nỳt con sẽ đƣợc xột, nếu khụng cỏc nỳt thấp hơn của nú bị tỉa, điều đú giảm khụng gian tỡm kiếm. Vớ dụ trong hỡnh sau thỡ cỏc nỳt thấp hơn của nỳt ―mỏy tớnh‖ là khụng đƣợc xột vỡ ―mỏy tớnh‖ là khụng phổ biến

Đi qua cỏc mức lọc bởi tập k-mục, tập k-mục ở mục thứ i là đƣợc xột nếu và chỉ nếu nú cú cha là tập k-mục ở mục thứ (i-1) phổ biến. Vớ dụ: hỡnh sau chỉ ra tập 2-mục {mỏy tớnh, mỏy in} là phổ biến, do đú cỏc nỳt sau là đƣợc xột:

{Mỏy tớnh laptop, mỏy in đen trắng} {mỏy tớnh laptop,mỏy in màu} {mỏy tớnh để bàn, mỏy tớnh đen trắng} {mỏy tớnh để bàn, mỏy in màu}

Mỏy tớnh [supp=10%] Mỏy tớnh laptop Khụng xột Mỏy tớnh để bàn Khụng xột Mức 1 Minusupp=5% Mức 2 Minusupp=5%

Với cỏch cỏc mức cựng độ hỗ trợ cực tiểu: Dễ đƣa đến xột một số lớn cỏc tập mục khụng phổ biến và tỡm ra cỏc luật ớt quan trọng.

Với cỏch đi qua cỏc mức cú độ lọc cho phộp: Cỏc hệ thống khai phỏ chỉ xột cỏc con của tập k-mục phổ biến.

Với cỏch dựng khỏi niệm phõn cấp: Nú cho phộp khỏm phỏ tri thức ở cỏc mức trừu tƣợng khỏc nhau, nhƣ là cỏc luật kết hợp đa mức. Vỡ vậy mà phƣơng phỏp này tỏ ra rất hữu ớch trong khai phỏ.

Tuy nhiờn khi cacs luật kết hợp đa mức đƣợc tỡm ra, một số luật sẽ rỳt gọn. Vớ dụ xem 2 luật sau:

(r1) Mỏy tớnh để bàn -> mỏy in đen trắng [supp=8%,conf=70%]

(r2) Mỏy tớnh để bàn IBM -> mỏy in đen trắng

[supp=2%,conf=72%]

Nếu cả 2 luật cựng đƣợc tỡm thấy thỡ luật r2 cú ớch gỡ? Nếu luật r2 cú tớnh tổng quỏt nhỏ hơn mà khụng đƣa ra đƣợc thụng tin gỡ mới thỡ nú nờn bị loại. Luật r1 cú thể thu đƣợc từ luật r2 bằng phộp thay thế ―mỏy tớnh để bàn‖ cho ―mỏy tớnh để bàn IBM‖ trong khỏi niệm phõn cấp.

Túm lại: Trong phần này chỳng ta đó xem xột cỏc luật kết hợp đa mức dựa trờn khỏi niệm phõn cấp. Cỏc luật kết hợp đa mức cú thể đƣợc khai phỏ

Mỏy tớnh và mỏy in [supp=10%] Mỏy tớnh laptop, mỏy in đen trắng [supp=1%] Mức 1 Minusupp=5% Mức 2 Minusupp=2%

Hỡnh 3.20 – Khai phỏ nhiều mức với giảm độ hỗ trợ, lọc bởi k-mục

Mỏy tớnh laptop,mỏy in màu [supp=2%] Mỏy tớnh để bàn, mỏy tớnh đen trắng [supp=1%] Mỏy tớnh để bàn, mỏy in màu [supp=3%]

bởi một số chiến lƣợc dựa trờn xỏc định ngƣỡng độ hỗ trợ cực tiểu nhƣ thế nào cho mỗi mức trừu tƣợng. Khi dựng chiến lƣợc hạ thấp ngƣỡng hỗ trợ cho mức thấp hơn, phƣơng phỏp tỉa bớt khụng gian tỡm kiếm bao gồm cỏch lọc khi qua cỏc mức. Luật kết hợp đa mức tỡm đƣợc cú thể cần thu gọn, giảm bớt.

Một phần của tài liệu (LUẬN văn THẠC sĩ) khai phá dữ liệu sử dụng luật kết hợp (Trang 73 - 77)

Tải bản đầy đủ (PDF)

(107 trang)