Thu ậ t toán AprioriTid

Một phần của tài liệu Luận văn: Nghiên cứu và áp dụng một số kỹ thuật khai phá dữ liệu với cơ sơ sở dữ liệu ngành Thuế Việt Nam. docx (Trang 49 - 51)

Thuật toán AprioriTid cho thấy trong hình 2.2, cũng dùng hàm apriori- gen ñể xác ñịnh các candidate itemsets trước khi lần duyệt bắt ñầu. ðặc ñiểm ñáng quan tâm của thuật toán này là CSDL D không ñược dùng cho việc ñếm ñộ hỗ trợ sau lần duyệt ñầu tiên. Tập Ck ñược dùng cho mục ñích này. Mỗi thành viên của tập

k

C là ở dạng <TID, {Xk}>, trong ñó mỗi Xk là một large k- itemset tiềm năng biểu diễn trong giao dịch với TID. Với k=1, C1 tương ứng với CSDL D, mặc dù về khái niệm mỗi item i ñược thay thế bởi itemset {i}. Với k>1,

k

C ñược sinh ra bằng thuật toán (bước 10). Thành viên của Ck

tương ứng với giao dịch t là <t.TID, { c ∈ Ck | c ñược chứa trong t}. Nếu một giao dịch không chứa bất kỳ candidate k-itemset nào, thì

k

C sẽ không có một entry cho giao dịch này. Như vậy số lượng các entries trong

k

C có thể là nhỏ hơn số lượng các giao dịch trong CSDL, ñặc biệt cho các giá trị lớn của k. Hơn nữa, với các k giá trị lớn, mỗi entry có thể là nhỏ hơn giao dịch tương ứng vì giao dịch có thể chứa rất ít candidates. Nhưng, với các giá trị k nhỏ, mỗi entry có thể lớn hơn giao dịch tương ứng vì một entry trong Ck bao gồm tất cả các candidate k-itemset có trong giao dịch.

Hình 2.2 Thuật toán AprioriTid

Ví dụ: Xem xét CSDL trong hình 3 và cho rằng ñộ hỗ trợ cực tiểu là 2 giao dịch. Gọi apriori-gen với L1 tại bước 4 cho các candidate itemsets C2. Trong các bước 6 ñến 10, chúng ta ñếm ñộ hỗ trợ của các candidates trong C2 bằng cách lặp qua các entries trong C1 và sinh ra C2. Entry ñầu tiên trong C1 là { {1} {3} {4} }, tương ứng với giao dịch 100. Ct tại bước 7 tương ứng với entry t này là { {1 3} }, vì {1 3} là một thành viên của C2 và cả hai ( {1 3} - {1}) và ( {1 3} - {3}) là các thành viên của t.set-of-itemsets.

Gọi hàm apriori-gen với L2, có ñược C3. Duyệt một lần qua C2 và C3 tạo ra C3 . Chú ý rằng không có entry nào trong C3 cho các giao dịch với TIDs 100 và 400, vì chúng không chứa bất kỳ tập itemsets trong C3. Candidate {2 3 5} trong C3 trở thành large và là thành viên duy nhất của L3. Khi sinh C4 dùng L3, kết quả rỗng và kết thúc.

Hình 2.3 Ví dụ

Một phần của tài liệu Luận văn: Nghiên cứu và áp dụng một số kỹ thuật khai phá dữ liệu với cơ sơ sở dữ liệu ngành Thuế Việt Nam. docx (Trang 49 - 51)