Các khái niệm

Một phần của tài liệu Luật kết hợp có trọng số và ứng dụng (Trang 43 - 45)

b. Thuật toán sinh luật nhanh

2.3.1Các khái niệm

Cho I={i1, i2,…iM} là tập tất cả các hạng mục, P là tập các số nguyên không âm.

Một cặp <x, w> được gọi là hạng mục có trọng số với x ∈I và w∈P là trọng số

liên kết với x.

Một giao dịch là một tập các hạng mục có trọng số.

Chú ý: Một hạng mục có thể xuất hiện trong nhiều giao dịch và có thể có các trọng số khác nhau trong các giao dịch khác nhau.

VD: T1={<bánh mỳ, 15>, <sữa, 10>} và T2={<bánh mỳ, 20>, <pate, 3>} Một bộ ba <x, l, u> chỉ ra trọng số được kết hợp với item x nằm trong khoảng [l, u] với l và u là số nguyên không âm và l ≤u. <x,w> là trường hợp đặc biệt của <x, l, u> với l=u=w.

Cho hai hạng mục có trọng số I1=<x1, l1, u1> và I2=<x2, l2, u2>, chúng ta gọi I1

là một sự khái quát hoá (generalization) của I2 (và I2 là sự cụ thể hoá của I1) nếu x1=x2 và l1 ≤ l2 ≤ u2 ≤ u1.

VD: <fashion, 10, 20> là sự cụ thể hoá của <fashion, 10,25>

Chú ý: Bất kỳ hạng mục x nào cũng có thể xem như một hạng mục có trọng số với trọng số được phép lấy giá trị bất kỳ trong miền P.

Chúng ta sử dụng thuật ngữ tập hạng mục có trọng số để biểu diễn một tập các hạng mục có trọng số. Cho item(X) biểu thị tập các hạng mục được

chứa trong tập hạng mục có trọng số X, nghĩa là item(X)={x\ x∈I, <x,l,u>∈X. Cho 2 tập X1 và X2, X1 là sự cụ thể hoá của X2 (hay X2 là sự khái quát hoá của X1) nếu item(X1)=item(X2) và mỗi hạng mục có trọng số trong X1 là một sự cụ thể hoá của một hạng mục có trọng số trong X2.

VD {<fashion, 10,20>, <book, 5,7>} là một sự cụ thể hoá của {<fashion 10, 20>, <book, 5, 10>}.

Cho một giao dịch T và một hạng mục có trọng số <x, l, u > chúng ta nói rằng T hỗ trợ hạng mục có trọng số này nếu tồn tại một hạng mục có trọng số <x, w>∈T để <x, w> là tập cụ thể hoá của <x, l, u>. Tương tự như vậy, T

hỗ trợ một tập hạng mục có trọng số X nếu T hỗ trợ mỗi hạng mục có trọng số riêng lẻ trong X.

Ví dụ: nếu X={<fashion 10, 20>, <book, 5, 10>} thì T2 hỗ trợ X trong khi T1 không.

Cho một tập hạng mục có trọng số X và một tập các giao dịch R, ta nói X có độ hỗ trợ s trong R nếu s% số giao dịch trong R hỗ trợ X. Chú ý rằng độ hỗ trợ của một tập hạng mục có trọng số luôn nhỏ hơn hoặc bằng độ hỗ trợ của bất kỳ tập khái quát nào của nó

Một luật kết hợp có trọng số (WAR) là một phép dẫn xuất X  Y với X, Y là 2 tập hạng mục có trọng số và item(X) ∩item(Y)=φ.

Một giao dịch được gọi là hỗ trợ một luật kết hợp có trọng số X  Y nếu giao dịch này hỗ trợ tập có trọng số X ∪ Y. Chúng ta định nghĩa độ hỗ trợ của WAR giống như độ hỗ trợ của X ∪ Y.

WAR X  Y có độ tin cậy c nếu c% giao dịch trong R hỗ trợ X cũng hỗ trợ Y. Nói cách khác, độ tin cậy của WAR là tỉ số độ hỗ trợ của X ∪ Y chia cho độ hỗ trợ của X.

Mật độ của một WAR được định nghĩa là tỉ số của độ hỗ trợ thực của WAR và độ hỗ trợ mong muốn của WAR. Độ hỗ trợ mong muốn của WAR là độ hỗ trợ nếu trọng số của mỗi item trong mỗi giao dịch được phân bố đều thực sự. Khái niệm mật độ được sử dụng như một cấu trúc để phát triển các kỹ thuật cắt tỉa hiệu quả để nhận dạng các hộp ứng viên cho khai phá luật kết hợp có trọng số. Việc đưa ra ngưỡng mật độ không chỉ để thực hiện giải thuật nhanh hơn mà còn để đảm bảo rằng có một độ hỗ trợ đủ cho một luật trong toàn bộ các vùng được chỉ rõ. Khó có thể nói một luật có hợp lệ hay không trong một vùng mà mật độ thấp (quá ít chứng cớ). Nếu một luật có độ hỗ trợ cao, nhưng tồn tại một số vùng có cường độ thấp, luật có thể được chia thành 2 hoặc nhiều luật hơn, mỗi luật chứa một miền có mật độ cao. Kết quả là, không bị mất luật có độ hỗ trợ cao nào bởi ngưỡng mật độ

Bài toán của chúng ta là tìm một tập các luật kết hợp có trọng số mà có độ hỗ trợ, độ tin cậy và mật độ lớn hơn hoặc bằng độ hỗ trợ tối thiểu (minsup), độ tin cậy tối thiểu (minconf), và mật độ tối thiểu (d) được người sử dụng chỉ định. Do có thể có một số lượng khổng lồ các WAR được tạo ra nên ta chỉ quan tâm tới những WAR lớn nhất. Một WAR X  Y thoả mãn là một WAR maximum nếu với bất kỳ tập khái quát hoá X’ của X và Y’ của Y với X’ ≠ X,

Y’ ≠ Y, cả X’  Y, XY’, và X’ Y’ đều không phải là luật thoả mãn .

Một phần của tài liệu Luật kết hợp có trọng số và ứng dụng (Trang 43 - 45)