CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
2.1 PHÂN LỚP DỮ LIỆU
2.1.1 Một số định nghĩa trên CSDL giao tác
a. Định nghĩa 1: CSDL giao tác có trọng số
Cho I = {x1, x2, …, xn} là tập hợp các mục dữ liệu. Một bộ ti = ((xi1,wi1), (xi2, w i2), …, (xik, wik)) với {xi1, xi2, …, xik} ⊆ I và w ij ∈ N, j =1..k gọi là một giao tác
có trọng số trên I, wij là trọng số của mục dữ liệu xij trong ti. Một bảng gồm m giao tác có trọng số T = {t1, t2, …, tm} gọi là một CSDL giao tác có trọng số trên I.
b. Định nghĩa 2: CSDL giao tác có trọng số được sắp
Cho T = {t1, t2, …, tm} là một CSDL giao tác có trọng số trên I = {x1, x2, …, xn}. Ta định nghĩa: SuppW(xi) là tổng các trọng số của xi trong tất cả các giao tác
của T.
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆(𝑥𝑥𝑖𝑖) = � 𝑤𝑤𝑖𝑖𝑗𝑗
𝑚𝑚 𝑗𝑗=1 �𝑥𝑥𝑖𝑖𝑗𝑗,𝑤𝑤𝑖𝑖𝑗𝑗�∈𝑡𝑡𝑗𝑗; 𝑥𝑥𝑖𝑖=𝑥𝑥𝑖𝑖𝑗𝑗
Một giao tác ti = ((xi1,wi1), (xi2, w i2), …, (xik, wik)) có SuppW(xi1) ≥
SuppW(xi2) ≥ … ≥SuppW(xik) được gọi là một giao tác có trọng số được sắp trên I.
Một CSDL giao tác có trọng số trên I mà mọi giao tác đều được sắp được gọi là một CSDL giao tác có trọng số được sắp trên I.
c. Định nghĩa 3: Quan hệ nửa tương đương
1) ∀ a ∈ A: aRa
2) ∀ a, b, c ∈ A: nếu aRb và bRc thì aRc
d. Định nghĩa 4: Quan hệ ≈
Cho T = {t1, t2, …, tm} là CSDL giao tác có trọng số được sắp trên I. Trên T ta
định nghĩa một quan hệ ≈ như sau:
∀ti, tj ∈ T: ti = ((xi1,wi1), (xi2, wi2), …, (xis, wis)), tj = ((xj1, wj1), (xj2, wj2), …, (xjr, wjr )),
ti ≈ tj ⇔ s ≤ r và xi1 = xj1, xi2 = xj2, …, xis = xjs.
2.1.2 Phân lớp CSDL giao tác
a. Lớp tương đương
Ta thấy rằng quan hệ ≈ trong định nghĩa 4 là quan hệ nửa tương đương trên T. Ta định nghĩa lớp nửa tương đương trên T như sau:
[ti]≈ =�tj�ti≈ tj�
b. CSDL giao tác có trọng số được sắp rút gọn
Cho T = {t1, t2, …, tm} là CSDL giao tác có trọng số được sắp trên I. Khi đó,
ta gọi T = {[ti]≈|ti∈T} là CSDL giao tác có trọng số được sắp rút gọn trên I.
c. Định nghĩa 5: Phép toán ⊕T
Cho T = {t1, t2, …, tm} là CSDL giao tác có trọng số được sắp trên I. Trên T ta
định nghĩa một phép toán ⊕T như sau:
∀ti, tj ∈ T: ti = ((xi1,wi1), (xi2,wi2), …, (xis,wis)), tj = ((xj1,wj1), (xj2,wj2), …, (xjr,wjr )).