Phát Triển Thuật Giải Tìm Luật Kết Hợp

Một phần của tài liệu giáo trình khai phá dữ liệu (Trang 29 - 33)

5.1. Các khái niệm cơ bản

* Định nghĩa 17: Luật kết hợp

Cho ngữ cảnh KPDL (O,I,R) và ngưỡng minsupp ∈ (0.1]. Với một S ∈ FS(O,I,R,minsupp), gọi X và Y là các tập con khác rỗng của S sao cho S = X ∪ Y và X ∩ Y = ∅.

Luật kết hợp X với Y có dạng X → Y phản ánh khả năng xuất hiện Y khi cho trước X. Độ phổ biến của luật kết hợp X → Y với S = X ∪ Y là SP(S). Độ tin cậy của luật kết hợp X → Y là tỉ số giữa SP(S) và SP(X). Độ tin cậy của luật kết hợp X → Y được ký hiệu là CF(X → Y) và được tính bằng:

CF(X → Y) = SP(S) / SP(X)

* Định nghĩa 18: Luật kết hợp hợp lệ

Cho ngữ cảnh KPDL (O,I,R) và ngưỡng minsupp ∈ (0,1], minconf ∈ (0,1]. Cho S là tập phổ biến theo ngưỡng minsupp và luật kết hợp r: X → Y được tạo từ S. Luật kết hợp X → Y được gọi là luật kết hợp hợp lệ theo ngưỡng minconf nếu và chỉ nếu CF(X → Y) ≥ minconf. Ngưỡng minconf phản ánh mức độ xuất hiện của Y khi cho trước X.

Ví dụ: Với ngữ cảnh KPDL trong bảng 3 và ngưỡng minsupp = 0.5, ngưỡng minconf

= 0.5 thì {i1, i2, i3} là một tập phổ biến thì luật r1: {i1, i2} → {i3} là một luật kết hợp hợp lệ theo ngưỡng minconf = 0.67.

5.2. Phát biểu bài toán tìm luật kết hợp

Cho ngữ cảnh KPDL (O,I,R) và hai ngưỡng phổ biến minsupp ∈ (0,1] và ngưỡng tin cậy minconf ∈ (0,1], tìm tất cả các luật kết hợp hợp lệ theo hai ngưỡng trên.

Thuật toán 10: Tìm luật kết hợp

- Vào: FS(O,I,R,minsupp)

- Ra: Tập các luật kết hợp r có SP(r) ≥ minsupp và CF(r) ≥ minconf Các bước thuật toán:

For all X ∈ FS(O,I,R,minsupp)) do For all Y ⊂ X và Y ≠ ∅ do

Tạo luật kết hợp r: X \ Y → Y If CF(r) ≥ minconf then

Xuất kết quả luật kết hợp r Endif

Endfor Endfor

* Bài tập:

Bài 1: Cho tập các hoá đơn O = {o1, o2, o3, o4, o5}, mỗi hóa đơn chứa các mặt

hàng như sau:

o1 = {i1, i3, i4} ; o2 = {i1, i3, i4} ; o3 = {i3, i5} ; o4 = {i4, i5} ; o5 = {i2, i3, i5}

Cho ngưỡng phổ biến tối thiểu minsupp=0,4 hãy: a. Tìm tập phổ biến.

b. Tìm các tập phổ biến tối đại theo ngưỡng minsupp=0,4

c. Tìm tất cả các luật kết hợp có độ phổ biến tối thiểu là 0,4 và độ tin cậy tối thiểu là 0,8.

Bài 2: Cho I = {i1,…….i8}, O = {o1,…..o6}

o1 = {i1, i7, i8} o2 = {i1, i2, i6, i7, i8} o3 = {i1, i2, i6, i7} o4 = {i1, i7, i8} o5 = {i3, i4, i5, i6, i8} o6 = {i1, i4, i5}

a. Tìm ngữ cảnh khai thác dữ liệu được tạo từ I, O. b. Tìm tất cả các tập phổ biến theo ngưỡng minsupp=0,3

c. Tìm tất cả các tập phổ biến tối đại theo ngưỡng minsupp=0,3

d. Tìm tất cả các luật kết hợp hợp lệ theo ngưỡng minsupp=0,3 và ngưỡng minconf=1 được tạo từ các tập phổ biến tối đại của câu 2c.

Bài 3: Cho bảng dữ liệu với minsupp = 0.5 và minconf = 0.8

TID ITEMS

100 K, A, D, B, C, I 200 D, A, C, E, B 300 C, A, B, E, D 400 B, A, D, I, K

a. Tìm tất cả các tập phổ biến, tập phổ biến tối đại và tập phổ biến đóng. b. Tìm tất cả các luật kết hợp thỏa mãn ngưỡng minconf đã cho.

Bài 4: Cho bảng dữ liệu:

TID ITEMS

100 M1, M2, M5

200 M2, M4 300 M2, M3 400 M1, M2, M4 500 M1, M3 600 M2, M3 700 M1, M3 800 M1, M2, M3, M5 900 M1, M2, M3

a. Tìm các tập phổ biến với minsupp = 0.22.

b. Liệt kê tất cả các tập phổ biến tối đại và tập phổ biến bị đóng. c. Tìm tất cả các luật kết hợp thỏa mãn

• Minconf = 0.5 • Minconf = 0.7

Bài 5: Cho bảng dữ liệu: với minsupp = 0.5 và minconf = 1.0

TID ITEMS 10 E, B, C, D 20 A, B, C, D 30 D, B, F 40 A, E, C a. Tìm các tập phổ biến.

b. Liệt kê tất cả các tập phổ biến tối đại.

c. Tìm tất cả các luật kết hợp thỏa mãn minconf và minsupp.

Bài 6: Cho bảng dữ liệu: với minsupp = 0.3 và minconf = 0.7

TID ITEMS 100 A, C, E, G 200 A, B, C, D, H 300 A, B, C, D 400 A, C, D, E 500 A, B, C, F 600 A, D, E, H 700 A, B, C, D, F 800 C, D, E, G 900 A, C, D, F a. Tìm các tập phổ biến.

b. Liệt kê tất cả các tập phổ biến tối đại.

c. Tìm tất cả các luật kết hợp thỏa mãn minconf và minsupp.

Bài 7: Cho bảng dữ liệu: với minsupp = 0.3 và minconf = 0.7

TID ITEMS 100 f, a, b, d, g, i, m, p 200 a, b, c, f, l, m, o 300 a, c, h, j, o 400 b, c, k, s, p 500 a, f, b, c, l, p, m, n a. Tìm các tập phổ biến.

b. Liệt kê tất cả các tập phổ biến tối đại.

c. Tìm tất cả các luật kết hợp thỏa mãn minconf và minsupp.

Bài 8: Cho bảng dữ liệu: với minsupp = 0.6 và minconf = 0.8

TID ITEMS 100 A, B, E 200 B, D 300 B, C 400 A, B, D 500 A, C 600 B, C 700 A, C 800 A, B, C, E 900 A, B, C a. Tìm các tập phổ biến.

b. Liệt kê tất cả các tập phổ biến tối đại.

c. Tìm tất cả các luật kết hợp thỏa mãn minconf và minsupp.

CHƯƠNG III. DÃY PHỔ BIẾN

Nội dung chương này gồm:

Tìm dãy phổ biến trong một chuỗi, luật Episode, thuật toán Winepi.

Tìm dãy phổ biến trong nhiều chuỗi, thuật toán AprioriAll.

Một phần của tài liệu giáo trình khai phá dữ liệu (Trang 29 - 33)