Xây dựng cây CUFP-Tree

Bảng 2.6: Cơ sở dữ liệu mờ TID Items 1 a:0.8, b:0.92, e:0.721,f:0.718 2 b:0.9, e: 0.719, f:0.723 3 c: 0.87, d:0.872 4 b:0.9, e:0.723, f: 0.51 5 c: 0.875, d:0.871, e:0.056 6 a: 0.012, c:0.876, d:0.82

CSDL trong Bảng 2.6 được sử dụng trong ví dụ gồm có 6 giao dịch, và 6 item được ký hiệu từ a đến f. Với độ hỗ trợ tối thiểu là 30%, các bước xây dựng cây CUFP- Treenhư sau:

Bƣớc 1.Dựa vào CSDL trong Bảng 2.6để tính độ hỗ trợ expCount(I) và tần suất xuất hiện f(I). Tần suất xuất hiện f(I) là số giao dịch chứa I có giá trị khác không.

Tính độ hỗ trợ của item A, item A xuất hiện trong hai giao dịch 1, và 6 có giá trị là 0.8 và 0.012. expCount(a) là 0.812 và tần suất xuất hiện của a là f(a) là 2.

Sau Bước 1 chúng ta thu được kết quả như trong bảng

Bảng 2.7: Kết quả sau khi thực hiện Bước 1

Item expCount Count

a 0.812 2 b 2.72 3 c 2.621 3 d 2.563 3 e 2.219 4 f 1.951 3

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Bƣớc 2.Trong ví dụ này độ hỗ trợ tối thiểu là 30% và có 6 giao dịch. Vì vậy các item nào có expCount ≥ 1.8 (0.3*6 =1.8) thì đưa vào . Dựa vào độ hỗ trợ expCount(I) được xác đinh trong Bước 1. Chúng ta xác định được tập phổ biến ={b: 2.72, c: 2.621, d: 2.563, e:2.219, f: 1.951}.

Bƣớc 3.Sắp xếp theo chiều giảm dần của tần suất xuất hiện của f(I) ta thu được (e, b, c, d, f).

Bƣớc 4.Các thông tin của được lưu trữ bảng Header_Table như Bảng 2.8.

Bảng 2.8: Header_Table

Item expCount Count

e 2.219 4

b 2.72 3

c 2.62 3

d 2.563 3

f 1.951 3

Bƣớc 5.Khởi tạo cây CUFP-TREE có gốc là Null.

Bƣớc 6.Các item không tồn tại trong sẽ được loại bỏ trong CSDL giao dịch mờ, sắp xếp các item trong các giao dịch theo thứ tự như trong Bước 3. Sau Bước 6 thu được kết quả như trong Bảng 2.9.

Bảng 2.9: CSDL mờ sau khi đã cập nhật

TID Item gốc Item sau khi cập nhật

1 a:0.8, b:0.92, e:0.721,f:0.718 e:0.721, b:0.92,f:0.718 2 b:0.9, e: 0.719, f:0.723 e: 0.719, b:0.9, f:0.723 3 c: 0.87, d:0.872 c: 0.87, d:0.872

4 b:0.9, e:0.723, f: 0.51 e:0.723, b:0.9, f: 0.51 5 c: 0.875, d:0.871, e:0.056 e:0.056, c: 0.875, d:0.871 6 a: 0.012, c:0.876, d:0.82 c:0.876, d:0.82

Bƣớc 7.Trong ví dụ này, chúng ta xử lý giao dịch đầu tiên trongBảng 2.6.Item e có giá trị là0.721. Một nútmớiđược tạo được gắn với item e và expCount. Nút mới này được gắn với gốc của cây.

Tiếp theo tạo nút của item b có giá trị là 0.92 và gắn với nút e. Trong ví dụ này chỉ có super-itemset của b là eb. expCount của eb được tính như sau

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Sau đó nút f có giá trị 0.718 được tạo và gắn với nút b.Super-itemsets bao gồm ef, bf và ebf.expCount của các tập này được tính như sau:

Các thông tin này được lưu trong mảng expAry. Đồng thời chúng ta tao các liên kết từ bảng Header_Table tới các nút.

Kết quả sau khi xử lý giao dịch đầu tiên như trong hình

Hình 2.2: Kết quả xử lý giao dịch đầu tiên

Tiếp theo, giao dịch thứ 2 có có chứa các item e, b, f giống như giao dịch đầu tiên. Các item trong giao dịch này có cùng đường (path) với giao dịch đầu tiên, và có expCount tích lũy lần lượt như sau: 0.721+0.719 = 1.44, 0.92+0.9 = 1.82, và0.718+0.723= 1.441. Độ hỗ trợ của các Super-itemsetcủa mỗi nút được tính tích lũy và đưa vào mảng expAry. Do vậy giá trị của tập phổ biến eb trong nút b là 0.66332+0.719*0.9=1.31042.Tương tự, giá trị của 2 tập phổ biến và ef và bf được tính

như và ,

và giá trị của tập phổ biến ebf được tính như sau:

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ Hình 2.3: Kết quả xử lý giao dịch đầu tiên

Sau khi toàn bộ 6 giao dịch được xử lý, chúng ta thu được cây CUFP-TREE như hình Hình 2.4.

Hình 2.4: Cây CUFP-TREE

Biến ngôn ngữ và giá trị của nó

Rời rạc hóa thuộc tính mờ