Thuật toán xác định họ các tập phổ biến tối đại

Một phần của tài liệu Nghiên cứu hệ sinh ánh xạ đóng và ứng dụng trong thể hiện ngữ nghĩa dữ liệu (Trang 65)

Thuật toán 2.5

Tư tưởng thuật toán Coatom được đề xuất với ý tưởng là từ cơ sở dữ liệu giao tác cho trước, trước hết sẽ xác định họ các tập phổ biến theo một thuật toán nào đó, thuật toán tìm tập phổ biến càng tốt thì thời gian thực hiện thuật toán Coatom càng được cải thiện. Chẳng hạn, ta có thể sử dụng kỹ thuật khai thác song song [37] với thuật toán SABMA để khai thác các tập phổ biến P. Sau đó, từ họ các tập phổ biến

thu được, ta sẽ tiếp tục xác định họ các tập phổ biến tối đại. Để xác định tập phổ biến tối đại, ta có thể sử dụng lại thuật toán Gen đã xây dựng ở trên. Tuy nhiên, do chỉ cần xác định tập phổ biến tối đại nên ta có thể xây dựng thuật toán như sau,

AlgorithmCoatom

Input: - CSDL giao tác α = (T, I), minsup

Output: - MFI: Họ các tập phổ biến tối đại

Begin

// P là họ các tập phổ biến khai thác theo được theo thuật toán SABMA

1. P = SABMA(T, minsup); 2. MFI = P;

for each X in Pdo

for eachY in P \ Xdo

if (XY) then

DeleteXfromMFI; endif; endfor; endfor; 3. returnMFI; EndCoatom Thí dụ 2.11

Cho α =(T, I) với T = {1, 2, 3, 4, 5, 6}, I ={A, C, D, T, W} trong bảng 2.4 sau,

Giao tác Các mục dữ liệu tham gia giao tác

64

Giao tác Các mục dữ liệu tham gia giao tác

2 C, D, W 3 A, C, T, W 4 A, C, D, W 5 A, C, D, T, W 6 C, D, T

Bảng 2.4.Cơ sở dữ liệu giao tác minh họa

Với ngưỡng phổ biến minsup=3, ta thu được danh sách các tập phổ biến sau:

P = {A, C, D, T, W, AC, AT, AW, CD, CT, CW, DW, TW, ACT, ACW, ATW, CDW, CTW, ACTW}

Từ họ các tập phổ biến P tìm được như trên qua bước 1 của thuật toán trên, ta xây dựng đồ thị có hướng H với mỗi đỉnh của đồ thị là một phần tử thuộc P, cung

XY nếu X bao trực tiếp Y. Tập phổ biến tối đại tìm được theo thuật toán Coatom

được minh họa trong hình 2.4 sau,

Hình 2.4. Giàn các tập phổ biến

Từ đồ thị xây dựng được ở trên theo hình 2.4, theo thuật toán Coatom, ta xác định được họ các tập phổ biến tối đạiMFI = {CDW, ACTW}.

ACTW ACT ACW ATW CTW CDW CD DW CW AW AC AT CT TW D C W A T

65

Nhận xét: Nếu so sánh thuật toán tìm tập phổ biến tối đại với một số tác giả khác, chẳng hạn như thuật toán trình bày trong [34] sử dụng chiến lược tìm kiếm quay lui và sử dụng một số kỹ thuật tối ưu trong việc xén không gian tìm kiếm thì thuật toán Coatom do chia thành hai giai đoạn cụ thể nên đã sử dụng lại hiệu quả nhất các thuật toán xác định họ các tập phổ biến được cung cấp trong khoảng thời gian gần đây.

Một phần của tài liệu Nghiên cứu hệ sinh ánh xạ đóng và ứng dụng trong thể hiện ngữ nghĩa dữ liệu (Trang 65)