Mô hình Damped - Thoát khỏi vòng lặp;- 123docz.net

7. Thoát khỏi vòng lặp;

4.2 Mô hình Damped

Có 3 mô hình xử lý luồng dữ liệu là Landmark, Damped và Sliding Windows.

Mô hình Landmark khai phá tất cả các phần tử phổ biến của một luồng dữ liệu trên toàn bộ khoảng thời gian từ một thời điểm cụ thể gọi là thời điểm đánh dấu tới thời điểm hiện tại. Nhiều nhà nghiên cứu đã làm trên mô hình này, tuy nhiên, mô hình này không thích hợp cho các ứng dụng mà mọi người chỉ quan tâm đến các thông tin gần đây của các luồng dữ liệu như là trong hệ thống giám sát cổ phần, trong đó kết quả và thông hiện tại và thời gian thực sẽ rất có ý nghĩa cho với người sử dụng.

Mô hình Damped còn gọi là mô hình Time – Fading, khai phá các phần tử phổ biến trong luồng dữ liệu mà mỗi giao dịch có một trọng số và trọng số này giảm theo thời gian. Các giao dịch cũ hơn đóng góp trọng số ít hơn tới tần số phần tử. Mô hình này thích hợp với các ứng dụng trong đó dữ liệu cũ có tác động vào kết quả khai phá, nhưng tác động này giảm theo thời gian.

Mô hình Sliding Windows (cửa sổ trượt) tìm và duy trì các phần tử phổ biến trong cửa sổ trượt. Chỉ phần nào của luồng dữ liệu mà ở trong cửa sổ trượt thì mới được lưu trữ và xử lý tại thời điểm khi luồng dữ liệu đi vào. Kích thước của cửa sổ trượt có thể xác định theo ứng dụng và tài

nguyên hệ thống. Kết quả khai phá của phương pháp cửa sổ trượt hầu như chỉ phụ thuộc vào các giao dịch được tạo ra gần thời điểm hiện tại trong phạm vi cửa sổ; tất cả giao dịch trong cửa sổ cần được duy trì để loại bỏ hiệu ứng trên kết quả khai phá hiện tại khi chúng không còn nằm trong phạm vi của cửa sổ trượt.

Cả ba mô hình này hiện nay đều được sử dụng trong các nghiên cứu về khai phá luồng dữ liệu. Việc chọn mô hình xử lý luồng dữ liệu nào phụ thuộc yêu cầu của ứng dụng. Một thuật toán dựa trên mô hình Landmark có thể chuyển qua sử dụng mô hình Damped bằng cách thêm vào một hàm phân rã trên luồng dữ liệu đã đến. Và nó cũng có thể chuyển qua mô hình Sliding Windows bằng cách giữ lại dấu vết và xử lý dữ liệu trong một cửa sổ trượt cụ thể.

Trong chương này trình bày thuật toán MIBFD để tìm ra các phần tử có tần số lớn hơn ngưỡng được xác định cụ thể bởi người sử dụng dựa trên mô hình Damped. Tần số của phần tử được xác định thông qua các bộ đếm của bộ lọc Bloom và các bộ đếm này chính là trọng số của các phần tử.

Phần tiếp theo chúng ta sẽ đi nghiên cứu việc áp dụng mô hình Damped bằng cách sử dụng hàm phân rã vào trong bộ đếm và tìm hiểu về cấu trúc dữ liệu ESBF là cấu trúc cải tiến và mở rộng của CBF.