Thuật toán 2.5
Tư tưởng thuật toán Coatom được đề xuất với ý tưởng là từ cơ sở dữ liệu giao tác cho trước, trước hết sẽ xác định họ các tập phổ biến theo một thuật toán nào đó, thuật toán tìm tập phổ biến càng tốt thì thời gian thực hiện thuật toán Coatom càng được cải thiện. Chẳng hạn, ta có thể sử dụng kỹ thuật khai thác song song [37] với thuật toán SABMA để khai thác các tập phổ biến P. Sau đó, từ họ các tập phổ biến
thu được, ta sẽ tiếp tục xác định họ các tập phổ biến tối đại. Để xác định tập phổ biến tối đại, ta có thể sử dụng lại thuật toán Gen đã xây dựng ở trên. Tuy nhiên, do chỉ cần xác định tập phổ biến tối đại nên ta có thể xây dựng thuật toán như sau,
AlgorithmCoatom
Input: - CSDL giao tác α = (T, I), minsup
Output: - MFI: Họ các tập phổ biến tối đại
Begin
// P là họ các tập phổ biến khai thác theo được theo thuật toán SABMA
1. P = SABMA(T, minsup); 2. MFI = P;
for each X in Pdo
for eachY in P \ Xdo
if (XY) then
DeleteXfromMFI; endif; endfor; endfor; 3. returnMFI; EndCoatom Thí dụ 2.11
Cho α =(T, I) với T = {1, 2, 3, 4, 5, 6}, I ={A, C, D, T, W} trong bảng 2.4 sau,
Giao tác Các mục dữ liệu tham gia giao tác
64
Giao tác Các mục dữ liệu tham gia giao tác
2 C, D, W 3 A, C, T, W 4 A, C, D, W 5 A, C, D, T, W 6 C, D, T
Bảng 2.4.Cơ sở dữ liệu giao tác minh họa
Với ngưỡng phổ biến minsup=3, ta thu được danh sách các tập phổ biến sau:
P = {A, C, D, T, W, AC, AT, AW, CD, CT, CW, DW, TW, ACT, ACW, ATW, CDW, CTW, ACTW}
Từ họ các tập phổ biến P tìm được như trên qua bước 1 của thuật toán trên, ta xây dựng đồ thị có hướng H với mỗi đỉnh của đồ thị là một phần tử thuộc P, cung
XY nếu X bao trực tiếp Y. Tập phổ biến tối đại tìm được theo thuật toán Coatom
được minh họa trong hình 2.4 sau,
Hình 2.4. Giàn các tập phổ biến
Từ đồ thị xây dựng được ở trên theo hình 2.4, theo thuật toán Coatom, ta xác định được họ các tập phổ biến tối đại là MFI = {CDW, ACTW}.
ACTW ACT ACW ATW CTW CDW CD DW CW AW AC AT CT TW D C W A T
65
Nhận xét: Nếu so sánh thuật toán tìm tập phổ biến tối đại với một số tác giả khác, chẳng hạn như thuật toán trình bày trong [34] sử dụng chiến lược tìm kiếm quay lui và sử dụng một số kỹ thuật tối ưu trong việc xén không gian tìm kiếm thì thuật toán Coatom do chia thành hai giai đoạn cụ thể nên đã sử dụng lại hiệu quả nhất các thuật toán xác định họ các tập phổ biến được cung cấp trong khoảng thời gian gần đây.