Thuật toán Apriori-TID

Một phần của tài liệu Khai phá Luật kết hợp trong cơ sở dữ liệu đa phương tiện (Trang 44 - 45)

Thuật toán Apriori-TID là phần mở rộng theo hướng tiếp cận cơ bản của thuật toán Apriori. Thay vì dựa vào cơ sở dữ liệu thô thuật toán Apriori- TID biểu diễn bên trong mỗi giao dịch bởi các ứng cử viên hiện hành.

Như ta đã thấy, thuật toán Apriori đòi hỏi phải quét toàn bộ cơ sở dữ liệu để tính độ hỗ trợ cho các tập hợp ứng cử viên ở mỗi bước. Đây là một sự lãng phí lớn. Dựa trên tư tưởng ước đoán và đánh giá độ hỗ trợ, Agrawal đề xuất cải tiến Apriori theo hướng chỉ phải quét cơ sở dữ liệu lần đầu tiên, sau đó tính độ hỗ trợ cho các tập hợp 1 phần tử. Từ bước thứ hai trở đi, Thuật toán Apriori-TID nhờ lưu trữ song song cả ID của giao dịch và các ứng cử viên, có thể đánh giá, ước lượng độ hỗ trợ mà khỏi phải quét lại toàn bộ cơ sở dữ liệu. [3]

Nội dung thuật toán Apriori-TID

Input: Tập các giao dịch D, minsup

Output: Tập Answer gồm các tập mục thường xuyên trên D

L1= {large 1 – itemset}; C1= database D;

for (k=2; Lk-1 ; k++) do begin

Ck;

For all entries t Ck-1do Begin

//Xác định các candidate itemset

//được chứa trong giao dịch với định danh t.TID

C1={cCk|(c-c[k])t.set_of_itemset(c-c[k-1])t.set_of_itemset}; For all candidates c Ct do

c.count++;

if (C1) then Ck Ck t.TID,Ct 

end

Luật kết hợp= {c Ck | c.count minsup}; end

Answer = k Lk

Sự khác nhau giữa Apriori và AprioriTID là: cơ sở dữ liệu không được sử dụng để đếm các support sau lần đầu tiên quét qua cơ sở dữ liệu. Vì sau lần quét đầu tiên các 1-itemset đã được sinh (các L1), các L1 này được dùng để lọc ra các giao dịch của cơ sở dữ liệu bất kỳ item nào là không phổ biến và những giao dịch trong C1chỉ

chứa những item không phổ biến. Kết quả đó được đưa vào C2 và sử dụng lần quét

đó. Vì vậy kích thước của C2là khá nhỏ hơn so với C1.

Sự giống nhau của hai thuật toán này là đều sử dụng bước cắt tỉa trong hàm Apriori_gen().

Một phần của tài liệu Khai phá Luật kết hợp trong cơ sở dữ liệu đa phương tiện (Trang 44 - 45)

Tải bản đầy đủ (PDF)

(60 trang)