Một cách tiếp cận khác trong việc sử dụng mô hình động để xác định các cụm nào được hình thành. Bước đầu tiên của Chameleon là xây dựng một đồ thị mật độ thưa và sau đó ứng dụng một thuật toán phân hoạch đồ thị để PCDL với số lớn của các cụm con. Tiếp theo, Chameleon thực hiện tích tụ phân cụm phân cấp, như AGNES, bằng hòa nhập các cụm con nhỏ theo hai phép đo, mối quan hệ liên thông và mối quan hệ gần nhau của các nhóm con. Do đó, thuật toán không phụ thuộc vào người sử dụng các tham số như K-means và có thể thích nghi. Thuật toán này khảo sát mô hình động trong phân cụm phân cấp. Trong đó, hai cụm được hòa nhập nêu giữa hai cụm có liên quan mật thiết tới quan hệ kết và gần nhau của các đối tượng trong các cụm. Quá trình hòa nhập dễ dàng khám phá các cụm tự nhiên và đồng nhất, ứng dụng cho tất cả các kiểu dữ liệu miễn là hàm tương tự được xác định.
CHƯƠNG 3: CÁC LƯỢC ĐỒ PHÂN CỤM PHÂN CẤP BẤT BIẾN 3.1. Các thủ tục phân cụm bất biến và không bất biến
Chúng ta quan tâm một ví dụ rất đơn giản của một tập 7 điểm đối xứng được đặt ở một vòng tròn (Hình 3.1).
Thông tin khởi tạo đối với cụm được đưa ra như một ma trận khoảng cách giữa các đối tượng (xem Bảng 3.1).
a b c d e f g a 0 0.8678 1.5637 1.9499 1.9499 1.5637 0.8678 b 0.8678 0 0.8678 1.5637 1.9499 1.9499 1.5637 c 1.5637 0.8678 0 0.8678 1.5637 1.9499 1.9499 d 1.9499 1.5637 0.8678 0 0.8678 1.5637 1.9499 e 1.9499 1.9499 1.5637 0.8678 0 0.8678 1.5637 f 1.5637 1.9499 1.9499 1.5637 0.8678 0 0.8678 g 0.8678 1.5637 1.9499 1.9499 1.5637 0.8678 0
Hình 3.1: Sự không bất biến của thuật toán liên kết trung bình đối với đánh số khởi tạo các đối tượng: (a) 7 đối tượng phân bố đều trên hình tròn; (b-c) hai đánh số khác nhau của các đối tượng; (d)
sơ đồ phân cấp đạt được từ các đánh số và kết quả phân cụm của các đối tượng {{a,b},g,{c,d},{e,f}} và {{b,c},a},{d,e},{f,g}}
Đối với cách đánh số các đối tượng như trong Hình 3.1b thuật toán phân cụm liên kết trung bình tạo ra cây chỉ ra trong Hình 3.1d. Chúng ta có thể trích xuất từ cây này một sự phân chia, ví dụ, trên 2 cụm. Trên mức cao nhất của cây chúng ta sẽ có các cụm {1,2,7} và {3,4,5,6} chúng tương ứng với sự phân chia của tập đối tượng thành các tập con {a,b,g} và {c,d,e,f}. Đối với người khám phá dữ liệu, nếu không biết cấu trúc dữ liệu hình học, có thể rất hạnh phúc khi có được sự phân chia các đối tượng rõ ràng trên 2 cụm như vậy. Nhưng nếu chúng ta thay đổi đánh số các đối tượng như được chỉ ra trong Hình 3.1c thì do tính đối xứng của dữ liệu, ma trận đầu vào sẽ không thay đổi và thuật toán liên kết trung bình sẽ đưa ra cùng một cây như được chỉ ra trong Hình 3.1d nhưng bây giờ sự phân chia {1,2,7} và {3,4,5,6} sẽ tương ứng với sự phân chia của các đối tượng {b,c,a} và {d,e,f,g}. Liên tục quay một số các đối tượng chúng ta có thể đạt 5 sự phân chia đối tượng mới trên 2 cụm. Rõ ràng không có sự phân chia nào trong các phân chia này phản ánh cấu trúc dữ liệu đối xứng. Chỉ có 2 sự phân chia tầm thường A={{a},{b},{c},{d},{e},{f},{g}} và B={{a,b,c,d,e,f,g}} tương ứng với sự đối xứng dữ liệu. Những sự phân chia này được xây dựng bởi thuật toán phân cụm liên kết đơn chúng bất biến đối với đánh số các đối tượng. Hầu hết các thuật toán phân cụm đã biết cũng có thể chia tập đối tượng này thành 2,3,4,5, hoặc 6 cụm, sự phân chia này có thể là tối ưu, nếu một vài điều kiện tối ưu được dùng trong thuật toán phân cụm, nhưng không sự phân chia nào trong số phân chia này phản ánh cấu trúc tương tự của dữ liệu.
Ví dụ đơn giản này chỉ ra rằng người khám phá dữ liệu nên thận trọng nếu muốn dùng thuật toán phân cụm cho việc phân tích cấu trúc dữ liệu tương tự. Hầu hết các thủ tục phân cụm phổ biến là không bất biến đối với đánh số các đối tượng. Chúng có thể đưa ra sự phân chia dữ liệu “tốt” với các cụm nhưng sự phân chia này thậm chí nếu nó tối ưu, một vài tiêu chí tối ưu có thể không có tác dụng gì đối với việc phân tích cấu trúc dữ liệu tương tự. Các mục tiếp theo đề cập lược đồ tham số của các thủ tục phân cụm, các thủ tục này bất biến đối với đánh số các đối tượng và cho kết quả tốt với dữ liệu chạy thử và dữ liệu thực nghiệm.
3.2. Các định nghĩa cơ bản
Định nghĩa 3.2.1: Quan hệ xấp xỉ (proximity relation)
Ký hiệu X là một tập hữu hạn các đối tượng. R là tập các giá trị thực không âm.
Hàm S ∶ X x X ⟶ R được gọi là một quan hệ xấp xỉ nếu S thỏa mãn điều kiện đối
xứng S(x,y) = S(y,x).
Định nghĩa 3.2.2: Quan hệ không tương tự (dissimilary relation)
D được gọi là một quan hệ không tương tự nếu D là quan hệ xấp xỉ và D(x,x) = 0 mọi x thuộc X.
D(x,y) được xem là giá trị không tương tự hoặc khoảng cách giữa đối tượng x và đối tượng y.
Định nghĩa 3.2.3: Quan hệ tương tự (similary relation)
S được gọi là quan hệ tương tự nếu S là quan hệ xấp xỉ và S thỏa mãn điều kiện phản xạ (reflexivity): S(x,x) = I, trong đó I = maxy,z(S(y,z)) với mọi x,y,z∈ X.
*Tập tất cả các quan hệ tương tự trên X ký hiệu là S(X).
*Từ quan hệ tương tự S có thể có được quan hệ không tương tự D và ngược lại, ví dụ: D(x,y) = I - S(x,y).
Định nghĩa 3.2.4: Quan hệ tương đương định trị (valued equivalence relation)
Quan hệ tương tự S thỏa mãn quan hệ định trị phản xạ và đối xứng, và S thỏa mãn trên X điều kiện bắc cầu (transitivity): S(x,y) ≥ min{S(x,z),S(z,y)}, thì quan hệ S được gọi là quan hệ tương đương định trị.
Tính chất quan hệ tương đương định trị đã được nghiên cứu trong [28,30]. Tính chất bắc cầu là tương đương với bất đẳng thức siêu metric (ultrametric): D(x,y) ≤ max{D(x,z)},D(z,y)}
Nếu S là quan hệ tương đương định trị thì D(x,y) = I - S(x,y) là một ultrametric và ngược lại. Tính chất của ultrametric đã được nghiên cứu trong các tài liệu [1,19,20,22,29].
Định nghĩa 3.2.5: Quan hệ gốc và quan hệ định trị
Với mọi số thực a, quan hệ định trị S định nghĩa một quan hệ gốc S[a] và quan hệ định trị Sa như sau:
S[a] = {(x,y) ∈ X⎪S(x,y) ≥ a};
Sa(x,y) = 1, nếu S(x,y) ≥ a và Sa(x,y) = 0, nếu S(x,y) < a.
Quan hệ định trị Sa được xem như là một hàm đặc trưng của quan hệ gốc S[a]. Từ a < b kéo theo S[b] ⊆ S[a] và Sb ⊆ Sa. Từ tính đối xứng và phản xạ của S dẫn đến: với mọi a ∈ R, quan hệ gốc S[a] cũng đối xứng và phản xạ. Nếu S là bắc cầu thì tất cả S[a]
sẽ là các quan hệ bắc cầu. Kết quả là, quan hệ tương đương định trị định nghĩa một tập con bên trong của quan hệ tương đương gốc và vì vậy một phần bên trong của X trên các lớp tương đương.
Định nghĩa 3.2.6: Lớp tương tự
Tập con A của X được gọi là lớp tương tự của quan hệ tương tự S trên X nếu S(x,y) > S(x,z) với mọi x,y ∈A và z ∉A, z∈ X.
Lớp tương tự A có thể được xem như là một cụm tự nhiên trong tập X.
Giá trị s = minx,y∈A{S(x,y)} được gọi là độ mạnh của lớp tương tự A.
Mệnh đề 1. Tập các lớp tương tự của một quan hệ tương đương định trị S trùng hợp với tập các lớp tương đương của các quan hệ S[a], a∈R.
Định nghĩa 3.2.7: Quan hệ sắp thứ tự ⊆
Quan hệ sắp thứ tự ⊆ được định nghĩa trên S(X) như sau: S ⊆ T nếu S(x,y) ≤ T(x,y), ∀ , ∈ ,
S ⊂ T nếu và chỉ nếu S⊆T và S ≠ T.
Tập S(X) là một tập được sắp thứ tự bộ phận nếu thỏa mãn quan hệ sắp thứ tự ⊆.
Định nghĩa 3.2.8: Phép toán ∩ và ∪
Các phép toán ∩ và ∪ được định nghĩa trên S(X) như sau: (S∩T)(x,y) = min(S(x,y), T(x,y)),
(S∪T)(x,y) = max(S(x,y), T(x,y)).
Chú ý: Giao của các quan hệ tương đương định trị sẽ cho một quan hệ tương đương định trị nhưng với phép toán hợp thì tính chất tương tự nhìn chung không có.
Định nghĩa 3.2.9: Phép hợp thành (composition) S°T
Hợp thành S°T của các quan hệ định trị S và T trên X được định nghĩa như sau: (S°T)(x,y) = ∨z∈X(S(x,z)∧T(z,y)).
(Ở đây, ⋁ là max, ⋀ là min).
Bắc cầu của S có thể được viết dưới dạng S ⊇ S°S.
Định nghĩa 3.2.10: Bao đóng bắc cầu
Bao đóng bắc cầu S của S được định nghĩa như sau: S = ⋃∞ S , với Sk = Sk-1 °
S với k > 1, và S1 = S.
Từ tính phản xạ của S và từ ⎪X⎪= n kéo theo S ⊆ S2 ⊆ S3 ⊆ … ⊆ Sn-1 = Sn =… và vì vậy S = Sn-1. Bao đóng bắc cầu S của S được ký hiệu là TC(S).
Bao đóng bắc cầu của quan hệ tương tự S có các tính chất sau đây:
S là một quan hệ tương đương định trị, nói cách khác S là bắc cầu;
S là bắc cầu nếu và chỉ nếu S = S;
Nếu S ⊆ T thì S⊆T;
S ⊆ S và S là một quan hệ định trị bắc cầu nhỏ nhất chứa S, nói cách khác nếu S ⊆ T và T là bắc cầu thì S⊆ T.
3.3. Lược đồ tổng quát của các thủ tục phân cụm phân cấp bất biến
Một thủ tục phân cụm phân cấp có thể được xem như sự chuyển đổi của một quan hệ tương tự S sang một quan hệ tương đương định trị E, thủ tục phân cụm này
phân chia bên trong tập X thành các lớp tương đương. Các khái niệm quan hệ tương đương, phân chia và phân cụm là liên quan tự nhiên với nhau. Cách tiếp cận quan hệ tương đương định trị được dùng trong [29], ở đó, bao đóng bắc cầu của quan hệ tương tự được dùng như một sự chuyển đổi. Phương pháp được đề xuất trong [29] là tương đương với thuật toán phân cụm liên kết đơn [16], cũng đã được bàn đến trong Chương 2. Ta sẽ dùng ở đây một cách tiếp cận tổng quát hơn, bao đóng bắc cầu được áp dụng
đối với quan hệ tương tự đã được tinh chỉnh. Lược đồ tổng quát của các thủ tục phân cụm [4, 5], là như sau:
E = Q(S) = TC(F(S)) = F(S), (1)
Ở đây, F là thủ tục “tinh chỉnh” nào đó của quan hệ tương tự S đã cho và TC là một thủ tục bao đóng bắc cầu của các quan hệ tương tự định trị. Thủ tục bao đóng bắc cầu được nghiên cứu trong lý thuyết quan hệ mờ, trong lý thuyết đồ thị, trong phân tích cụm và được thấy rõ trong phương pháp phân cụm liên kết đơn [17] hoặc trong các thuật toán đặc biệt [26, 28]. Thủ tục bao đóng bắc cầu TC sở hữu cả hai loại bất biến đã được bàn luận ở trên. Khi thủ tục tinh chỉnh F cũng thỏa mãn cả hai loại bất biến, thì thủ tục phân cụm Q cũng sẽ thỏa mãn cả hai tính chất bất biến. Một thủ tục
phân cụm bao gồm hai thủ tục F và TC được gọi là một thủ tục phân cụm quan hệ.
Theo [4, 5], một thủ tục tinh chỉnh phù hợp F cần thỏa mãn ràng buộc:
F(S) ⊆ S, (2)
(⊆ là quan hệ sắp thứ tự ở Định nghĩa 3.2.7 ở trên).Ràng buộc này được sinh ra
từ những lý do dưới đây.
Rất cần thiết dùng thủ tục tinh chỉnh F để cho khoảng cách (khái niệm khoảng cách sẽ được định nghĩa sau) giữa quan hệ tương tự khởi tạo S và quan hệ tương đương cuối cùng E là nhỏ. Sự biến đổi nhỏ của quan hệ tương tự khởi tạo (được tạo ra bởi thuật toán phân cụm), dẫn tới những lý do để cho rằng, những cụm tương ứng với quan hệ tương đương định trị cuối cùng, phản ánh thực chất cấu trúc dữ liệu. Tất nhiên, một vài thuật toán phân cụm phù hợp sẽ trích xuất các cụm với dạng cụ thể, khoảng cách này có thể lớn. Tuy vậy, khoảng cách nhỏ giữa các quan hệ định trị cuối cùng và khởi tạo có thể được xem như thuộc tính mong muốn đối với bất kỳ thuật toán phân cụm nào. Thuộc tính mong muốn này viết dưới dạng công thức như sau:
Tìm E* ∈ E(X): d(S,E*) = minE∈E(X) d(S,E), (3) Với:
S là một quan hệ tương tự trên X,
E(X) là tập tất cả các quan hệ tương đương định trị trên X, S(X) là tập tất cả các quan hệ tương tự trên X,
Vấn đề (3) được nghiên cứu tổng quát hơn trong [4, 6] như là một vấn đề xấp xỉ trong một tập được sắp thứ tự bộ phận với thao tác bao đóng.
Định nghĩa 3.3.1: Hàm giá trị dương
Hàm v: S(X) → R được gọi là một hàm giá trị dương trên S(X) [14] nếu nó thỏa mãn trên S(X) các thuộc tính sau đây:
v(S∪T) + v(S∩T) = v(S) + v(T), Nếu S ⊂ T thì v(S) < v(T).
Ví dụ: hàm v(S) = ∑x∑y S(x,y) là hàm giá trị dương trên tập tất cả các quan hệ tương tự.
Định nghĩa 3.3.2: Hàm khoảng cách dương
Hàm d: S(X) × S(X)→R được gọi là một hàm khoảng cách dương trên S(X) nếu nó thỏa mãn trên S(X) các thuộc tính sau đây:
A1. d(S,S) = 0.
A2. d(S,T) = d(S∩T,S∪T).
A3a. Nếu P ⊆ S ⊂T thì d(P,S) < d(P,T), A3b. Nếu P ⊂ S ⊆T thì d(S,T) < d(P,T).
Dễ dàng thấy rằng d cũng thỏa mãn các thuộc tính sau: i. d(S,T) = d(T,S), và
ii. d(S,T) > 0 nếu và chỉ nếu S ≠ T.
Ví dụ: Chúng ta có thể dùng bất kỳ metric d được định nghĩa: d(S,T) = v(S∪T) - v(S∩T), d là hàm khoảng cách dương trên S(X).
Từ hàm v(S) = ∑x∑y S(x,y) là hàm giá trị dương, ta có metric được định nghĩa bởi d(S,T) = ∑x∑y|S(x,y) - T(x,y)| là một hàm khoảng cách dương trên S(X).
Định nghĩa 3.3.3: Hàm khoảng cách đẳng trương (isononic)
Một hàm d sẽ được gọi là một hàm khoảng cách isononic trên S(X) nếu nó thỏa
mãn thỏa mãn tính chất A1, A2 và tính chất
A3*. Nếu P ⊆S ⊆T thì max(d(P,S),d(S,T)) ≤ d(P,T).
Ví dụ: Hầu hết các metric đã biết là các hàm khoảng cách dương nhưng nhưng độ đo d(S,T)=maxx,y⎪S(x,y)-T(x,y)⎪chỉ là một isononic.
Định lý 2. Nếu d là một hàm khoảng cách dương trên S(X) thì lời giải cho (3) có biểu diễn
E* = TC(Sc), (4)
Ở đây Sc là phần tử nào đó của S(X) sao cho
Sc ⊆ S. (5)
Như vậy,
Thủ tục tinh chỉnh F trong lược đồ tổng quát (1) (E = Q(S) = TC(F(S))= F(S)) phải thỏa mãn ràng buộc (2) (F(S) ⊆ S)
bởi vì Định lý 2 (E* = TC(Sc) với Sc⊆S).
Một số thủ tục tinh chỉnh tham số F thỏa mãn ràng buộc (2) được đề xuất trong [4, 5, 8] cho kết quả phân cụm tốt trên nhiều dữ liệu thực và dữ liệu mẫu [5, 8, 9].
Từ F(S) ⊆ S kéo theo thủ tục tinh chỉnh nên giảm các giá trị tương tự S(x,y) nào đó. Để bất biến đối với đánh số đối tượng thì thủ tục tinh chỉnh phải được áp dụng đối với tất cả các cặp đối tượng (x,y) một cách đồng thời và độc lập với đánh số của các đối tượng. Để bất biến đối với phép biến đổi đều của các giá trị tương tự thì thủ tục tinh chỉnh phải lưu ý tới sắp xếp tuyến tính giữa các giá trị tương tự S(x,y). Tất nhiên, khi thuật toán phân cụm không đòi hỏi phải bất biến đối với phép biến đổi đều của các giá trị tương tự thì thủ tục tinh chỉnh có thể dùng các độ đo định lượng nào đó tùy thuộc vào các giá trị tương tự S(x,y).
Dưới đây là mô tả của thủ tục tinh chỉnh được tham số hóa [12] được đưa ra dưới dạng tổng quát hơn thủ tục tinh chỉnh được đề xuất đầu tiên tại [4].
Cho f1, f2, f3: R→R là các hàm đơn điệu. Một thủ tục tinh chỉnh phụ thuộc vào các tập và các hàm sau đây:
Tập
Vy(x) = {z∈X \{x,y}⎪ S(x,z) ≥ f1(S(x,y))}, Vx(y) = {z∈X \{x,y}⎪ S(y,z) ≥ f1(S(x,y))}.
Tập Vy(x) và tập Vx(y) là các tập các đối tượng “tương tự” của x và của y, giá trị f1(S(x,y)) là một tiêu chuẩn của sự tương tự này.
Tập
V(x,y) = {z∈X \{x,y}⎪ max{S(x,z),S(y,z)} ≥ f2(S(x,y))},
bao gồm các đối tượng trong X mà các đối tượng này “tương tự” ít nhất với một trong hai đối tượng x và y.
Khi f1 ≡ f2 chúng ta có V(x,y) = Vy(x) ∪ Vx(y).
Tập V(x,y) được xem như là tập các “hàng xóm” của x và y.
Các đối tượng trong V(x,y) sẽ được đưa ra xem xét khi quyết định tinh chỉnh giá trị S(x,y). Tập
W(x,y) = {z∈V(x,y)⎪min{S(x,z),S(y,z)} ≥ f3(S(x,y))},
gồm các đối tượng “hàng xóm” mà “khỏe” hoặc “phổ biến”, ví dụ, các đối tượng “tương tự” với cả hai đối tượng x và y. Các đối tượng trong W(x,y) sẽ “hỗ trợ” giá trị S(x,y).
Khi f1 ≡ f3, ta có W(x,y) = Vy(x) ∩ Vx(y).
Các hàm f1, f2, f3 được dùng trong thủ tục phân cụm sẽ được gọi là các hàm hàng xóm.
Quyết định tinh chỉnh giá trị S(x,y) sẽ phụ thuộc vào phần liên quan của các đối tượng “hỗ trợ” giá trị tương tự S(x,y). Có thể dùng những cách thức sau đây để tính phần liên quan cho các cặp đối tượng x và y, phần liên quan được ký hiệu là hi: