7. Thoát khỏi vòng lặp;
4.2 Mô hình Damped
Có 3 mô hình xử lý luồng dữ liệu là Landmark, Damped và Sliding Windows.
Mô hình Landmark khai phá tất cả các phần tử phổ biến của một luồng dữ liệu trên toàn bộ khoảng thời gian từ một thời điểm cụ thể gọi là thời điểm đánh dấu tới thời điểm hiện tại. Nhiều nhà nghiên cứu đã làm trên mô hình này, tuy nhiên, mô hình này không thích hợp cho các ứng dụng mà mọi người chỉ quan tâm đến các thông tin gần đây của các luồng dữ liệu như là trong hệ thống giám sát cổ phần, trong đó kết quả và thông hiện tại và thời gian thực sẽ rất có ý nghĩa cho với người sử dụng.
Mô hình Damped còn gọi là mô hình Time – Fading, khai phá các phần tử phổ biến trong luồng dữ liệu mà mỗi giao dịch có một trọng số và trọng số này giảm theo thời gian. Các giao dịch cũ hơn đóng góp trọng số ít hơn tới tần số phần tử. Mô hình này thích hợp với các ứng dụng trong đó dữ liệu cũ có tác động vào kết quả khai phá, nhưng tác động này giảm theo thời gian.
Mô hình Sliding Windows (cửa sổ trượt) tìm và duy trì các phần tử phổ biến trong cửa sổ trượt. Chỉ phần nào của luồng dữ liệu mà ở trong cửa sổ trượt thì mới được lưu trữ và xử lý tại thời điểm khi luồng dữ liệu đi vào. Kích thước của cửa sổ trượt có thể xác định theo ứng dụng và tài
nguyên hệ thống. Kết quả khai phá của phương pháp cửa sổ trượt hầu như chỉ phụ thuộc vào các giao dịch được tạo ra gần thời điểm hiện tại trong phạm vi cửa sổ; tất cả giao dịch trong cửa sổ cần được duy trì để loại bỏ hiệu ứng trên kết quả khai phá hiện tại khi chúng không còn nằm trong phạm vi của cửa sổ trượt.
Cả ba mô hình này hiện nay đều được sử dụng trong các nghiên cứu về khai phá luồng dữ liệu. Việc chọn mô hình xử lý luồng dữ liệu nào phụ thuộc yêu cầu của ứng dụng. Một thuật toán dựa trên mô hình Landmark có thể chuyển qua sử dụng mô hình Damped bằng cách thêm vào một hàm phân rã trên luồng dữ liệu đã đến. Và nó cũng có thể chuyển qua mô hình Sliding Windows bằng cách giữ lại dấu vết và xử lý dữ liệu trong một cửa sổ trượt cụ thể.
Trong chương này trình bày thuật toán MIBFD để tìm ra các phần tử có tần số lớn hơn ngưỡng được xác định cụ thể bởi người sử dụng dựa trên mô hình Damped. Tần số của phần tử được xác định thông qua các bộ đếm của bộ lọc Bloom và các bộ đếm này chính là trọng số của các phần tử.
Phần tiếp theo chúng ta sẽ đi nghiên cứu việc áp dụng mô hình Damped bằng cách sử dụng hàm phân rã vào trong bộ đếm và tìm hiểu về cấu trúc dữ liệu ESBF là cấu trúc cải tiến và mở rộng của CBF.