Khái quát các thuật toán khai phá

Một phần của tài liệu Khai phá tập mục thường xuyên đóng trên dòng dữ liệu (Trang 33 - 34)

- Mô hình trượt cửa sổ (Sliding Window):

2.4.2.Khái quát các thuật toán khai phá

Dựa trên kết quả khai phá, các thuật toán khai phá tập mục thƣờng xuyên trên các dòng dữ liệu giao tác có thể chia thành 2 kiểu: thuật toán khai phá chính xác và thuật toán khai phá xấp xỉ.

Các thuật toán khai phá chính xác cho kết quả là tất cả các tập mục thƣờng xuyên cùng với độ hỗ trợ của nó trên cửa sổ hiện thời. Thông thƣờng trọng tâm của các thuật toán khai phá chính xác là cập nhật hiệu quả các tập mục thƣờng xuyên khi các giao tác mới đến và (trong mô hình trƣợt cửa sổ) khi các giao tác cũ hết hạn.

Mặt khác, các thuật toán khai phá xấp xỉ tập trung hơn vào việc sử dụng bộ nhớ hữu hạn và truy cập dữ liệu một lần, kết quả khai phá là tập các tập mục thƣờng xuyên xấp xỉ cùng với đánh giá sai số.

Bảng 2.3 biểu diễn một số thuật toán đại diện đã đƣợc phát triển trong những năm qua phân theo mô hình xử lý dữ liệu và kiểu thuật toán là khai phá chính xác hay xấp xỉ.

Thuật toán duy trì các luật kết hợp đã đƣợc phát hiện lần đầu tiên đƣợc giới thiệu bởi Cheung [năm 1996]. Các tác giả đề xuất một kỹ thuật cập nhật gia tăng gọi là FUP (Fast Update) để cập nhật các luật kết hợp đã khám phá khi các giao tác mới đƣợc thêm vào CSDL. Thuật toán tổng quát hơn đƣợc gọi là FUP2, đƣợc đề xuất sau đó vào năm 1997 bởi cùng tác giả có thể cập nhật các luật kết hợp đã phát hiện khi các giao tác đƣợc thêm vào, xóa đi hoặc chỉnh sửa trong CSDL. Tuy nhiên trong môi trƣờng dòng dữ liệu giao tác, các giao tác mới xuất hiện nhanh và liên tục, do đó việc cập nhật các luật kết hợp phải thực hiện qúa thƣờng xuyên, dẫn đến chi phí tính toán tăng nhanh.

Để phù hợp với môi trƣờng dòng dữ liệu giao tác, nhiều nhà nghiên cứu đã phát triển các thuật toán khai phá xấp xỉ. Một số thuật toán điển hình nhƣ: DSM-FI (H.-F., Lee, S.-Y., Shan, M.-K, 2004); Sticky Sampling (Manku G., Motwani R, 2002); Lossy Counting (Manku G., Motwani R, 2002); estDec

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

(Chang J. H., Lee W. S, 2003),…

Một phƣơng pháp khác để nâng cao hiệu quả khai phá trên dòng dữ liệu giao tác là khai phá tập mục thƣờng xuyên đóng thay cho tập mục thƣờng xuyên, điển

Một phần của tài liệu Khai phá tập mục thường xuyên đóng trên dòng dữ liệu (Trang 33 - 34)