Mô hình hình thức

Đặt I = I1,I2,I3,...,Im là một tập các thuộc tính nhị phân được gọi là các phần tử. Đặt T là một cơ sở dữ liệu của các giao dịch. Với giao dịch t được miêu tả như một véc tơ nhị phân, t[k] = 1 nếu trong t có mua bán phần tử (mặt hàng) Ik, và t[k]=0 trong trường hợp khác. Mỗi một tuple trong cơ sở dữ liệu ứng với một giao dịch. Đặt X là tập của một số phần tử trong I. Chúng ta nói rằng một giao dịch t thoả mãn X nếu tất cả các phần tử Ik cũng trong X, t[k] = 1.

Một luật kết hợp có dạng X =>Ij ở đó X là tập các phần tử trong I, và Ij là một phần tử có trong I nhưng không có trong X. Luật X=>Ij đã thoả mãn trong tập các giao dịch T với hệ số tin cậy 0 ≤ c ≤ 1 nếu tối thiểu c% của các giao dịch trong T thoả mãn X thì luôn luôn thoả mãn Ij. Dùng ký hiệu X=>Ij | c để nói rằng luật X=>Ij có hệ số tin cậy (confidence) c

Với một tập các giao dịch T, chúng ta quan tâm tới việc tìm tất cả các luật thoả mãn hai điều kiện về cú pháp và mức hỗ trợ (support). Trong khi tìm các công thức này, vấn đề khai phá luật có thể được chia thành 2 bước:

1. Tìm tất cả các tập hợp của các phần tử có mức support trong mỗi giao dịch riêng lẻ lớn hơn một ngưỡng, được gọi là minsupport. Ta gọi đó là các Nguyễn Tiến Thành – Công nghệ phần mềm K44

Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức

tập phần tử lớn (large itemset), và tất cả các sự kết hợp khác không đạt mức ngưỡng đó là các tập phần tử nhỏ (small itemset).

Các điều kiện về cú pháp sẽ giới hạn các tập hợp thích hợp. Ví dụ, nếu ta chỉ quan tâm đến các luật có chứa phần tử Ix ở điều kiện thì các luật này chỉ có thể thu được từ các tập hợp chứa Ix.

2.Với mỗi một tập phần tử lớn Y = I1I2…Ik , k ≥ 2, sẽ sinh ra tất cả các luật dùng các phần tử từ tập I1,I2,…,Ik. Thành phần điều kiện (hay giả thiết) của các luật này sẽ là một tập con X của Y, như vậy X có k – 1 phần tử, và thành phần kết quả sẽ là tập phần tử Y – X. Để sinh một luật X=>Ij | c, trong đó X = I1I2…Ij-1Ij+1….Ik, ta lấy chỉ số support của Y chia cho chỉ số support của X. Nếu tỷ số này lớn hơn c thì luật là thoả mãn với độ tin cậy là c, nếu không thì nó không thoả mãn.

Chú ý rằng nếu tập phần tử Y là là lớn, thì các tất cả các tập con khác của Y cũng là các tập lớn, và ta phải tìm giá trị support của chúng, đó là kết quả thu được sau khi giải quyết xong bước thứ nhất. Tất cả các luật thu được từ tập Y phải thoả mãn điều kiện về mức support giới hạn và tập Y là tổng hợp của các phần tử trong điều kiện và kết quả của tất cả các luật.

Để đánh giá các luật, người ta còn dùng một chỉ số khác, đó là hệ số tác động (lift ratio). Hệ số này biểu thị mối quan hệ tương tác giữa thành phần điều kiện và kết quả của một luật liên kết. Ví dụ : trong một bộ dữ liệu giao dịch có 5% số khách hàng mua mặt hàng A, như vậy độ tin cậy với sự kiện khách hàng mua mặt hàng A là 5%. Xét luật B→ A, nếu độ tin cậy của luật này là 40% thì hệ số tác động của nó là 40/5 = 8, tức là khách hàng mua mặt hàng B có khả năng mua mặt hàng A gấp 8 lần khách hàng không mua mặt hàng B. Như vậy mặt hàng B đã có tác động lớn đến việc bán mặt hàng A. Trong quá trình xem xét kết quả, thường chú ý đến các luật có hệ số tác động cao vì mức độ ảnh hưởng của điều kiện đến kết quả là lớn.

Trọng tâm của vấn đề khai phá luật liên kết là bước thứ nhất, đó là bước tìm các tập phần tử lớn, vì vậy ta sẽ tập trung nghiên cứu quá trình này.

Kỹ thuật K-láng giềng gần nhất

Luật quyết định và luật liên kết