Thuật toán AprioriHybrid

Một phần của tài liệu khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị (Trang 48 - 49)

Kết quả chạy thực nghiệm của R. Agrawal cho thấy với k nhỏ, thuật toán Apriori chạy nhanh hơn thuật toán AprioriTID; ngƣợc lại với k lớn, thuật toán AprioriTID chạy nhanh hơn. Khi k nhỏ, số lƣợng phần tử của k không ít hơn số giao tác của CSDL nên việc tính độ ủng hộ dựa trên k không nhanh hơn so với dựa trên CSDL; ngoài ra, mỗi phần tử của k có tập X lớn nên mất thời gian để tính toán k, tập k cũng chiếm bộ nhớ lớn nên có thể vƣợt khả năng lƣu trữ ở bộ nhớ trong máy tính và phải sử dụng đến bộ nhớ ngoài nên mất thêm thời C3 ItemSet Support {2 3 5} 2 3 TID X (Set-of- itemsets) 200 300 {{2 3 5 }} {{2 3 5}} L3 ItemSet Support {2 3 5 } 2

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

gian đọc và ghi đĩa. Do đó, thuật toán AprioriTID chạy chậm khi k nhỏ. Khi k lớn, số lƣợng phần tử của k nhỏ hơn số giao tác của CSDL nên viêc tính độ ủng hộ dựa trên k nhanh hơn so với dựa trên CSDL; tập k nhỏ lại, không cần sử dụng đến bộ nhớ ngoài . Do đó, thuật toán AprioriTID chạy nhanh khi k lớn.

Thuật toán AprioriHyrid là thuật toán lai của 2 thuật toán Apriori và AprioriTID; nghĩa là ban đầu sử dụng thuật tóan Apriori, khi k nhỏ vừa đủ bộ nhớ và số phần tử của tập ứng viên Ck nhỏ hơn Ck-1 thì chuyển sang sử dụng thuật toán AprioriTID. Điều kiện thứ hai để tránh hiện tƣợng k đủ vộ nhớn nhƣng k+1 không đủ bộ nhớ. Kích thƣớc của k đƣợc ƣớc lƣợng bằng công thức candidatescCksuport(c)+ số giao tác

Một phần của tài liệu khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị (Trang 48 - 49)

Tải bản đầy đủ (PDF)

(62 trang)