- Mô hình trượt cửa sổ (Sliding Window):
Thuật toán 2 Phân Cấp CFI – Trừ Bớt
3.1 Mô tả dữ liệu
* Dữ liệu đầu vào:
Trong thực tế, hình thức bán hàng tại các siêu thị có hai dạng bán hàng với dữ liệu tình và bán hàng với dữ liệu động.
Bài toán thực nghiệm trong luận văn sử dụng thuật toán CloStream xét trƣờng hợp bài toán bán hàng với cơ sở dữ liệu động.
Với bài toán bán hàng trực tuyến, thực tế có nhiều mặt hàng dữ liệu tháng trƣớc bán 5000 giao tác, dữ liệu đó đƣợc đƣa vào khai phá. Tháng tiếp theo (chƣa hết tháng, dữ liệu bán đƣợc 7 ngày. Bài toán phải tìm tập mục thƣờng xuyên đóng của tháng trƣớc và 7 ngày của tháng sau.
Theo thời gian, khi có thêm giao tác mới vào bảng giao tác, phần mềm sẽ tiến hành khai phá tiếp tục với những dữ liệu thêm mới bổ sung vào lịch sử khai phá trƣớc đó để thu đƣợc tập kết quả mới mà không phải mất thời gian khai phá lại từ đầu.
Tuy nhiên, do số lƣợng giao tác cần phải nhiều (1000 giao tác trở lên), để thuận tiện trong lúc trình bày chƣơng trình trƣớc hội đồng, em đã bổ sung cơ chế nhập dữ liệu từ file sẵn bên ngoài, sau khi ngƣời dùng khai phá lấy kết quả có thể bổ sung thêm giao dịch vào bảng dữ liệu (mô phỏng việc thêm giao tác theo thời gian) và tiến hành khai phá tiếp.
Dữ liệu ban đầu cho thuật toán thuật toán Clostream khai phá tập mục thƣờng xuyên đóng từ bảng cơ sở dữ liệu giao tác là bảng dữ liệu giao tác lƣu trữ dạng file excel 2003 theo cấu trúc sau:
ID Laptop Chuột MT Túi sách Tivi Tủ lạnh Bàn ghế
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 2 1 1 1 0 0 1 3 0 1 0 1 1 1 4 1 0 1 1 0 0 5 0 1 0 0 0 0 6 0 0 1 0 0 0 7 1 1 1 1 1 1 8 0 0 1 0 0 0 9 1 1 1 0 0 1 10 0 0 1 1 0 0 11 1 0 0 0 0 0 12 0 0 0 1 1 0 13 1 1 0 0 0 0 Trong đó:
- Dòng đầu tiên chứa tên các item (mặt hàng) - Các dòng tiếp theo đại diện cho các giao tác - Cột đầu tiên của mỗi dòng là ID của các giao tác
- Một mặt hàng đƣợc bán trong giao tác i thì giá trị trong ô tại dòng i cột j có nhãn là mặt hàng đó đƣợc lƣu là 1; ngƣợc lại, nếu mặt hàng j không đƣợc bán trong giao tác i thì giá trị tại ô [i,j] = 0;
* Dữ liệu đầu ra:
Là tập tất cả tập mục thƣờng xuyên đóng tìm thấy từ trong bảng dữ liệu hiện thời.