Thu ậ t toán AprioriHybrid

Một phần của tài liệu Luận văn: Nghiên cứu và áp dụng một số kỹ thuật khai phá dữ liệu với cơ sơ sở dữ liệu ngành Thuế Việt Nam. docx (Trang 51 - 54)

Không cần thiết phải dùng cùng một thuật toán trong tất cả các lần duyệt qua dữ liệu. Hình 2.4 cho thấy thời gian thực hiện cho Apriori và AprioriTid cho các lần duyệt khác nhau qua tập dữ liệu T10.I4.D100K kích thước 4.4MB (T10.I4.D100K có T=10, I=4, D=100, T là kích thước trung bình của giao dịch, I là kích thước trung bình của các large itemsets, D là số lượng các giao dịch). Trong các lần duyệt ñầu, Apriori làm tốt hơn AprioriTid. Nhưng AprioriTid lại hơn Apriori trong các lần duyệt sau. Nguyên nhân: Apriori và AprioriTid dùng cùng một thủ tục sinh ra candidate và do ñó ñếm cùng các itemsets. Trong các lần duyệt sau, số lượng các candidate itemsets giảm. Nhưng, Apriori vẫn kiểm tra mọi giao dịch trong CSDL. Trong khi ñó, không duyệt toàn bộ CSDL, AprioriTid duyệt

k

ñược sốñếm ñộ hỗ trợ, và kích thước của Ck trở thành nhỏ hơn kích thước của CSDL. Khi tập

k

C có thể vừa vặn trong bộ nhớ, thì thậm chí còn không phải chịu chi phí của việc ghi nó lên ñĩa.

Hình 2.4: Thời gian thực hiện cho mỗi lần duyệt của Apriori và AprioriTid (T10.I14.D100K, ñộ hỗ trợ cực tiểu = 0.75%)

Dựa trên những quan sát này, người ta ñã thiết kế một thuật toán lai, gọi là AprioriHybrid: dùng Apriori trong trong các lần duyệt ñầu và chuyển tới AprioriTid khi nó cho rằng tập

k

C tại cuối lần duyệt sẽ vừa vặn trong bộ nhớ. Dùng kinh nghiệm sau ñây ñểñánh giá xem

k

C có vừa vặn trong bộ nhớ không trong lần duyệt tiếp theo. Tại cuối mỗi lần duyệt hiện thời, ta có số ñếm các candidates trong Ck. Từñây, ta ước lượng kích thước của

k

C sẽ là gì nếu nó ñược sinh ra. Kích thước này, tính bằng words, là

∑ support(c) + số các giao dịch Candidates c ∈ C

Nếu

k

C trong lần duyệt này là nhỏñủ vừa trong bộ nhớ, và có các large candidates trong lần duyệt hiện tại ít hơn lần duyệt trước, ta sẽ chuyển tới AprioriTid. ðiều kiện thứ hai ñược thêm vào ñể tránh chuyển khi

k

C trong lần duyệt hiện tại vừa với bộ nhớ nhưng

k

C trong lần duyệt sau lại không vừa. Chuyển từ Apriori tới AprioriTid không bao gồm chi phí. Giả sử rằng quyết ñịnh chuyển từ Apriori tới AprioriTid tại cuối của lần duyệt thứ k. Trong lần duyệt thứ (k+1), sau khi tìm ra các candidate itemsets ñược chứa trong giao dịch, ta cũng sẽ phải thêm IDs của chúng vào +1

k

C . Như vậy có một chi phí bổ sung phải chịu trong lần duyệt này chỉ liên quan tới việc chạy Apriori. Chỉ trong lần duyệt thứ (k+2) khi thực sự bắt ñầu chạy AprioriTid. Như vậy, nếu không có large (k+1)-itemsets, hoặc không có (k+2)-candidates, ta sẽ phải chịu chi phí của việc chuyển mà không thu ñược bất kỳ cái gì từ việc dùng AprioriTid.

So sánh hiệu năng của AprioriHybrid với Apriori và AprioriTid với cùng các tập dữ liệu: AprioriHybrid thực hiện tốt hơn Apriori trong phần lớn các trường hợp. Với trường hợp AprioriHybrid làm tốt hơn Apriori từ lần duyệt có sự chuyển nhưng việc chuyển lại xuất hiện ở lần duyệt cuối cùng; như vậy AprioriHybrid chịu chi phí của việc chuyển mà không thực sự có lợi ích. Nói chung, thuận lợi của AprioriHybrid hơn Apriori phụ thuộc vào kích thước của tập

k

C suy biến như thế nào trong các lần duyệt sau. Nếu

k C giữ nguyên large ñến gần cuối và sau ñó ñột ngột rớt xuống, thì sẽ không thu ñược nhiều từ việc dùng AprioriHybrid vì ta chỉ có thể dùng AprioriTid cho một chu kỳ thời gian ngắn sau khi chuyển (như với tập dữ liệu T20.I16.D100K). Ngược lại, nếu có một sự suy giảm dần trong kích thước của

k

C , AprioriTid có thể ñược dùng một lúc sau khi chuyển, và ý nghĩa cải tiến có thể thu ñược trong thời gian thực hiện.

(adsbygoogle = window.adsbygoogle || []).push({});

Một phần của tài liệu Luận văn: Nghiên cứu và áp dụng một số kỹ thuật khai phá dữ liệu với cơ sơ sở dữ liệu ngành Thuế Việt Nam. docx (Trang 51 - 54)