Phát hiện các tập mục phổ biến

, x ik }→ {x ik

2.3.1 Phát hiện các tập mục phổ biến

Các thuật toán phát hiện tập mục phổ biến, phải thiết lập một số giai đoạn trên CSDL. Trong giai đạon đầu, ta thực hiện tính độ hỗ trợ support cho mỗi mục riêng lẻ và xác định xem mục nào là phổ biến, nghĩa là

có support ≥ minsup. Trong mỗi giai đoạn tiếp theo, ta bắt đầu với các tập mục

phổ biến đã tìm được trong giai đoạn trước, để sinh ra các tập mục có khả năng là tập phổ biến mới (còn gọi là tập mục ứng cử - candidate itemset) và tính độ hỗ trợ cho các tập mục ứng cử này bằng một phép duyệt CSDL. Cuối mỗi giai đoạn, người ta xác định xem trong các tập mục phổ biến cho giai đoạn tiếp theo. Tiến trình này sẽ tiếp tục, cho đến khi không tìm được một tập các tập mục phổ

biến mới hơn nữa.

L = , L1 = {large 1+itemset}, k = 2

tập mục ứng cử Ck, từ tập Lk+1

support cho các phần tử của tập Ck

Lk từ Ck bằng phép kiểm tra minsup

Lk ≠  L là tậpcần tìm

Bổ sung Lk vào L, k++

Hình 2.1. Sơ đồ tổng quan của thuật toán khai phá tập mục phổ biến

Ta giả sử các mục trong mỗi giao dịch đã được sắp xếp theo thứ tự từ điển (diễn tả một thứ tự quy ước nào đó cho các mục của CSDL). Các mục trong một tập mục cũng được lưu trữ theo thứ tự từ điển, nghĩa là, một k-itemset ci kí hiệu là ci[1], ci[2],…, ci[k] thì ci[1] < ci[2] <…< ci[k]. Nếu ci = X.Y và Y là một m-itemset thì Y cũng được gọi là một m -mở rộng (m-extention) của X. Tron g lưu trữ, mỗi tập mục có một trường support_count tương ứng, dùng để lưu độ hỗ trợ cho tập mục này.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên htt p ://www.lr c - tnu. ed u. v n

Các khái niệm cơ bản [18, 22]

Cách tiếp cận khai phá luật kết hợp