Cải tiến hiệu quả thuật toán Apriori

Một phần của tài liệu Luận văn: Nghiên cứu và áp dụng một số kỹ thuật khai phá dữ liệu với cơ sơ sở dữ liệu ngành Thuế Việt Nam. docx (Trang 54)

Vì lượng của dữ liệu xử lý trong khai phá các frequent itemsets có xu hướng rất lớn, nên việc phát minh ra những thuật toán hiệu quả ñể khai phá dữ liệu như vậy là rất quan trọng. Thuật toán Apriori cơ bản duyệt CSDL một vài lần, phụ thuộc vào kích thước của frequent itemset lớn nhất. Một vài tinh chỉnh ñã ñược ñưa ra tập trung vào việc giảm số lượng lần duyệt CSDL, số lượng các candidate itemsets ñược tính toán trong mỗi lần duyệt, hoặc cả hai.

Partition-based Apriori (Apriori dựa trên Partition) là thuật toán ñòi hỏi chỉ 2 lần duyệt CSDL giao dịch. CSDL ñược chia thành các phần (partitions) rời nhau, mỗi phần ñủ nhỏ ñể vừa với bộ nhớ sẵn có. Trong lần duyệt ñầu tiên, thuật toán ñọc mỗi partition và tính toán các frequent itemsets ñịa phương trong mỗi partition. Trong lần duyệt thứ hai, thuật toán tính toán ñộ hỗ trợ của tất cả các frequent itemsets ñịa phương ñối với toàn bộ CSDL. Nếu itemset là frequent với toàn bộ CSDL, nó chắc chắn là frequent trong ít nhất một partition. ðó là kinh nghiệm dùng trong thuật toán. Do ñó, lần duyệt thứ 2 qua CSDL ñếm superset của tất cả các frequent itemsets tiềm năng.

Ly mu: Khi kích thước của CSDL rất lớn, việc lấy mẫu trở thành cách tiếp cận hấp dẫn với việc khai phá dữ liệu. Thuật toán dựa trên mẫu ñiển hình yêu cầu 2 lần duyệt CSDL. Thuật toán ñầu tiên lấy mẫu từ CSDL và sinh ra tập các candidate itemsets sẽ là frequent trong toàn bộ CSDL với khả năng chắc chắn cao. Trong lần duyệt chuỗi con trên CSDL, thuật toán tính toán chính xác ñộ hỗ trợ của các itemsets này và ñộ hỗ trợ của ranh giới negative. Nếu không có itemset nào trong negative border là frequent, thì thuật toán ñã khám phá tất cả các frequent itemsets. Mặt khác, một vài superset của một itemset trong negative border có thể là frequent, nhưng ñộ hỗ trợ của nó chưa ñược tính toán. Thuật toán sinh ra và tính toán tất cả các frequent itemsets tiềm năng trong các lần duyệt chuỗi con trên CSDL.

Cp nht dn (Incremental updating): Việc tìm ra các frequent itemsets trong các CSDL lớn là rất có giá trị, các kỹ thuật incremental

updating cần ñược phát triển ñể bảo trì các frequent itemsets ñã phát hiện ñược (và các luật kết hợp tương ứng) với mục ñích tránh khai phá lại toàn bộ CSDL. Các cập nhật trên CSDL có thể không chỉ làm sai một vài frequent itemsets ñang tồn tại mà con chuyển một vài itemsets mới thành frequent. Vấn ñề bảo trì các frequent itemsets ñã phát hiện từ trước trong các CSDL lớn và biến ñộng không ñơn giản. Ý tưởng là dùng lại thông tin của các frequent itemsets cũ và tích hợp thông tin về ñộ hỗ trợ của các frequent itemsets mới ñể giảm về căn bản lượng các candidates ñược kiểm tra lại.

Khai phá lut kết hp tng quát: Trong nhiều ứng dụng, các kết hợp của các items dữ liệu thường xuất hiện tại mc khái nim tương ñối cao. Ví dụ, một phân cấp của các thành phần thức ăn ñược biểu diễn trong hình 2.5, trong ñó M (sữa), B (bánh mì), là khái niệm phân cấp, có thể có một vài nội dung thành phần con. Các thành phần mức thấp nhất trong phân cấp là các loại sữa và bánh mì. Có thể khó tìm ra quy tắc với mức khái niệm nguyên thủy, như là sữa socola và bánh mì bằng lúa mì. Nhưng dễ dàng tìm ra quy tắc ở mức khái niệm cao, như: hơn 80% khách hàng mua sữa cũng mua bánh mì.

Hình 2.5: Một ví dụ của cây phân cấp khái niệm cho khai phá các frequent itemsets nhiều mức

Do ñó, khai phá ra các frequent itemsets tại mức trừu tượng tổng quát hoặc tại các mức ña khái niệm (multiple-concept levels) là rất quan trọng.

Vì số lượng dữ liệu ñược xử lý trong khai phá các luật kết hợp có xu hướng rất lớn, nên ñưa ra những thuật toán hiệu quả ñể xây dựng việc khai phá trên những dữ liệu như vậy là rất quan trọng. Trong phần này, trình bày một vài thuật toán cải tiến cho Apriori.

Một phần của tài liệu Luận văn: Nghiên cứu và áp dụng một số kỹ thuật khai phá dữ liệu với cơ sơ sở dữ liệu ngành Thuế Việt Nam. docx (Trang 54)