THUẬT TOÁN SINH LUẬT

Một phần của tài liệu đồ án công nghệ thông tin Khai phá cơ sở dữ liệu gia tăng Trình bày phương pháp khai phá cở sở dữ liệu thay đổi theo thời gian (cơ sở dữ liệu gia tăng). (Trang 31)

Pha sinh luật trong cỏc bài toỏn khai phỏ luật kết hợp thường chớnh tắc và khụng cú sự khỏc biệt nhiều. Tư tưởng trong pha này rất đơn giản, cú thể trỡnh bày như sau: Với mỗi Large Itemset l, tỡm tất cả cỏc Itemset con khỏc rỗng a của nú. Với mỗi tập con a tỡm được, kiểm tra điều kiện thoả món với luật a ⇒ (l-a), cụ thể là kiểm tra tỷ số Support(l)/ Support(a) xem cú lớn hơn Minconf hay khụng.

Quỏ trỡnh sinh luật khụng nhất thiết phải vột cạn toàn bộ cỏc tập con của Large Itemset. Áp dụng tớnh chất của Itemset dưới đõy cú thể giảm đỏng kể khụng gian tỡm kiếm cỏc tập con.

Tớnh chất 1: Nếu luật a ⇒ (l-a) khụng thoả thỡ mọi tập a’ ⇒ (l-a’) cũng khụng thoả với a’ là tập con của a.

Thật vậy, vỡ nếu a’ là tập con của a thỡ Support(a’) > Support(a) và do đú, Support(l) / Support(a’) < Support(l)/ Support(a) < Minconf.

Tớnh chất 2: Nếu luật (l-c) ⇒ c thoả mún thỡ mọi luật (l-c’) ⇒ c’ cũng thỏa món với c’ là một tập con khỏc rỗng của c.

ỨNG DễNG Lí THUYẾT LUẬT KẾT HỢP KHAI PHÁ DỮ LIỆU TÁC NGHIỆP

Thật vậy, ta cú Support(l-c’) < Support(l-c) nờn Support(l)/Support(l-c’) > Support(l)/ Support(l-c) > Minconf.

Sử dụng hai tớnh chất trờn, kết hợp với cấu trỳc lưu trữ thuận tiện cho việc tỡm kiếm (thường dựng bảng Hash) sẽ giỳp làm cải thiện hiệu năng của pha này. Dưới đõy là thuật toỏn Sinh luật nhanh

Thuật toỏn Sinhluatnhanh

Đầu vào : Tập cỏc Large Itemset.

Đầu ra : tập luật

Thuật toỏn

1. For all large k-itemset lk , k ≥ 2 do begin

2. H1 = {Tập cỏc tiền đề kớch thước bằng 1}; 3. ApGenRules(lk, H1); 4. End Procedure ApGenRules(lk, Hm) 1. If (k>m+1) then Begin 2. Hm+1 = apriori-gen(Hm);

3. For all hm+1∈ Hm+1 do Begin

4. conf = support(lk) / support(lk – hm+1);

5. If (conf ≥ minconf) then Begin

6. Tỡm được luật thỏa món

7. else

8. Loại hm+1 khỏi Hm+1;

9. End

10. ApGenRules(lk, Hm+1);

11. End

MỘT SỐ VẤN ĐỀ MỞ RỘNG

Một số vấn đề mở rộng trong khai phỏ luật kết hợp được trỡnh bày trong chương này. Đú là cỏc vấn đề về khai phỏ luật kết hợp trờn cơ sở dữ liệu phõn tỏn và cỏc mụ hỡnh bài toỏn khai phỏ mở rộng như khai phỏ luật kết hợp cú trọng số, khai phỏ luật kết hợp cú định lượng. Mục đớch của chương là đưa ra những vấn đề thực tế nhằm giỳp cho việc định hướng tầm nhỡn cho người nghiờn cứu khi tiếp tục nghiờn cứu sõu hơn về lĩnh vực khai phỏ luật kết hợp.

Một phần của tài liệu đồ án công nghệ thông tin Khai phá cơ sở dữ liệu gia tăng Trình bày phương pháp khai phá cở sở dữ liệu thay đổi theo thời gian (cơ sở dữ liệu gia tăng). (Trang 31)