Không gian tìm kiếm của luật

Như đã giải thích trên đây, ta phải tìm tất cả các itemset thỏa ngưỡng minsupp. Với các ứng dụng thực tiễn, việc duyệt tất cả các tập con của I sẽ hoàn toàn thất bại vì không gian tìm kiếm quá lớn. Trên thực tế, sự tăng tuyến tính số lượng các item vẫn kéo theo sự tăng theo cấp lũy thừa các itemset cần xem xét. Với trường hợp đặc biệt I ={1,2,3,4}, ta có thể biểu diễn không gian tìm kiếm thành một lưới như trong hình 2.3.

Hình 2.3: Dàn cho tập I = {1,2,3,4}

Các tập phổ biến nằm trong phần trên của hình trong khi những tập không phổ biến lại nằm trong phần dưới. Mặc dù không chỉ ra một cách tường minh các giá trị hỗ trợ cho mỗi itemset nhưng ta giả sử rằng đường biên đậm trong hình phân chia các tập phổ biến và tập không phổ biến. Sự tồn tại của đường biên như vậy không phụ thuộc

vào bất kỳ cơ sở dữ liệu D và minsupp nào. Sự tồn tại của nó chỉ đơn thuần được đảm bảo bởi tính chặn dưới của itemset thỏa ngưỡng minsupp.

Nguyên lý cơ bản của các giải thuật thông thường là sử dụng đường biên này để thu hẹp không gian tìm kiếm một cách có hiệu quả. Khi đường biên được tìm thấy, chúng ta có thể giới hạn trong việc xác định các giá trị hỗ trợ của các itemset phía trên đường biên và bỏ qua các itemset phía dưới đường biên.

Cho ánh xạ: I  {1,…, |I|} là một phép ánh xạ từ các phần tử xI ánh xạ 1-1 vào các số tự nhiên. Bây giờ, các phần tử có thể được xem là có thứ tự hoàn toàn trên quan hệ “<” giữa các số tự nhiên. Hơn nữa, với X  I, cho X.item: {1,…,|X|}  I: na X.itemn là một ánh xạ, trong đó X.itemn là phần tử thứ n của các phần tử xX sắp xếp tăng dần trên quan hệ “<”. n-tiền tố của một itemset X với n|X| được định nghĩa bởi P={X.itemm |1 mn}.

Cho các lớp E(P), PI với E(P) = {XI | |X| = |P|+1 và P là một tiền tố của X} là các nút của một cây. Hai nút sẽ được nối với nhau bằng 1 cạnh nếu tất cả các itemset

của lớp E có thể được phát sinh bằng cách kết 2 itemset của lớp cha E’, ví dụ như trong hình.

Hình 2.4: Cây cho tập I = {1, 2, 3, 4}

Cùng với tính chặn dưới của itemset thỏa ngưỡng minsupp, điều này suy ra: Nếu lớp cha E’ của lớp E không có tối thiểu hai tập phổ biến thì E cũng phải không chứa bất kỳ một tập phổ biến nào. Nếu gặp một lớp E’ như vậy trong quá trình duyệt cây từ trên xuống thì ta đã tiến đến đường biên phân chia giữa tập phổ biến và không phổ biến. Ta không cần phải tìm tiếp phần sau đường biên này, tức là ta đã loại bỏ E và các lớp con của E trong không gian tìm kiếm. Thủ tục tiếp theo cho phép ta giới hạn một cách có hiệu quả số lượng các itemset cần phải duyệt. Ta chỉ cần xác định các support values của các itemset mà ta đã duyệt qua trong quá trình tìm kiếm đường biên giữa tập phổ biến và tập không phổ biến. Cuối cùng, chiến lược thực sự để tìm đường biên

là do lựa chọn của chúng ta. Các hướng tiếp cận phổ biến hiện nay sử dụng cả tìm kiếm ưu tiên bề rộng (BFS) lẫn tìm kiếm ưu tiên chiều sâu (DFS). Với BFS, giá trị hỗ trợ của tất cả (k-1)-itemset được xác định trước khi tính giá trị hỗ trợ của k-itemset. Ngược lại, DFS duyệt đệ quy theo cấu trúc cây mô tả ở trên.

Chương trình thử nghiệm minh họa