Tổng quan thuật toán

Một phần của tài liệu Khai phá tập mục thường xuyên đóng trên dòng dữ liệu (Trang 43 - 45)

- Mô hình trượt cửa sổ (Sliding Window):

Các xử lý khi có một giao tá ct xuất hiện dựa trên các bổ đề sau:

2.4.4.1. Tổng quan thuật toán

Khi một giao tác phát sinh hoặc rời khỏi cửa sổ trƣợt dòng dữ liệu hiện hành, thuật toán sẽ kiểm tra mỗi tập hiện thời trong giao tác và cập nhật các hỗ trợ của những tập đóng kèm theo. Các tập đóng hiện thời đƣợc duy trì và cập nhật theo thời gian thực trên cây DIU. Các tập phổ biến đóng có thể rời khỏi bất cứ lúc nào tại các ngƣỡng cụ thể của ngƣời dùng bằng cách duyệt qua cây DIU.

Sử dụng một cây DIU xếp theo thứ tự chữ cái để duy trì các tập đóng hiện thời. Mỗi điểm giao trên cây DIU thể hiện một tập đóng. Sẽ có k cấp trên cây DIU, mỗi cấp i lƣu tập đóng i, trong đó k là độ dài tối đa của các tập đóng hiện

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

thời. Mỗi điểm giao trên cây DIU lƣu một tập đóng, thông tin hỗ trợ hiện thời của nó, và các liên kết đến các điểm giao mẹ và con trực tiếp của chúng. Hình 1 minh họa cây DIU sau khi bốn giao tác đầu tiên xuất hiện. Hỗ trợ của mỗi điểm giao đƣợc đánh dấu ở góc phải bên trên điểm giao đó. Hình cũng thể hiện rằng hiện có 4 tập đóng, C, AB, CD và ABC trên cây DIU, đồng thời các hỗ trợ kèm theo của chúng là 3, 3, 1, và 2.

Hình 2.5. Cây cập nhật trực tiếp theo thứ tự chữ cái

Khác với các kỹ thuật kiểm tra tính đóng trƣớc đây luôn đòi hỏi phải duyệt toàn bộ dữ liệu nhiều lần, phƣơng pháp đề xuất của chúng tôi thực hiện kiểm tra tính đóng tức thời với chỉ một lần duyệt qua các dòng dữ liệu. Nó chỉ cập nhật các hỗ trợ của tập đóng kèm theo trong cây DIU sẵn sàng, giúp giảm bớt thời gian tính toán và cung cấp các kết quả cập nhật thời gian thực. Thuật toán là một thuật toán gia tăng, trong đó kiểm tra để tìm kiếm các tập đóng và cập nhật hỗ trợ kèm theo của chúng dựa trên các kết quả khai thác trƣớc đó. Điều này sẽ hiệu quả hơn so với các phƣơng pháp tiếp cận khai phá phải duyệt lại và tạo tất cả tập đóng khi một giao tác mới phát sinh.

So với các kỹ thuật khai phá dữ liệu khác, ta chỉ lƣu thông tin của các tập đóng hiện thời trên cây DIU, cho phép biểu diễn một cách cô đọng và đầy đủ tất cả các tập và thông tin hỗ trợ của chúng. Các tập phổ biến đóng hiện thời có thể xuất ra theo thời gian thực dựa trên ngƣỡng cụ thể của ngƣời dùng, bằng cách

các phần tử tid

dòng thời gian

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

duyệt cây DIU. Đồng thời, thuật toán xử lý bài toán biến động khái niệm trong các dòng dữ liệu bằng cách lƣu tất cả tập đóng hiện thời trên cây DIU, từ đó mọi tập và thông tin hỗ trợ của chúng có thể đƣợc cập nhật một cách gia tăng.

Một phần của tài liệu Khai phá tập mục thường xuyên đóng trên dòng dữ liệu (Trang 43 - 45)

Tải bản đầy đủ (PDF)

(64 trang)