Gọi T là tập dữ liệu huấn luyện với n thuộc tính A1, A2, …, An và c là danh sách nhãn phân loại. Một giá trị cụ thể của thuộc tính Ai được ký hiệu ai và giá trị cụ thể cho nhãn phân loại C được ký hiệu là cj.
Định nghĩa 1: Một phần tử được định nghĩa bởi một tập kết hợp các thuộc
tính và giá trị của nó. Ví dụ < (A1, a1), (A2, a2), (A3, a3)>
Định nghĩa 2: Một luật r cho phân loại đa nhãn được ký hiệu như sau:
Luật kết hợp: {Bơ} → {Bánh mì} {Bánh mì, Sữa} → {Bia} Thứ tự Mặt hàng 1 Bánh mì, Bơ, Sữa 2 Bia, Bánh mì 3 Bia, Bơ, Trứng, Sữa 4 Bia, Bánh mì, Trứng, Sữa 5 Bơ, Trứng, Sữa im i i im im i i i i a A a A a c c c A , )( , )...( , ) ... ( 1 1 2 2 1 2
Trong đó vế điều kiện của luật là một phần tử và vế kết quả là danh sách các nhãn phân loại được sắp thứ tự.
Định nghĩa 3: Độ xảy ra thực sự của một luật r trong T là số trường hợp
trong T thỏa điều kiện của luật r.
Định nghĩa 4: Độ phổ biến (SuppCount) của luật r là số trường hợp trong T
thỏa điều kiện của luật r và thuộc về một lớp ci. Khi một phần tử được gán nhiều nhãn sẽ có nhiều SuppCount khác nhau cho mỗi nhãn phân loại.
Định nghĩa 5: Một luật r thỏa ngưỡng phổ biến tối thiểu (MinSupp) nếu
MinSupp T
r
SuppCount( )/| | , trong đó |T| là số các thể hiện trong T.
Định nghĩa 6: Một luật r thỏa ngưỡng tin cậy tối thiểu (MinConf) nếu
MinConf r
ActOccr r
SuppCount( )/ ( )| .
Định nghĩa 7: Một phần tử bất kỳ trong T thoả MinSupp được gọi là một
phần tử phổ biến.