Một thủ tục phân cụm phân cấp có thể được xem như sự chuyển đổi của một quan hệ tương tự S sang một quan hệ tương đương định trị E, thủ tục phân cụm này
phân chia bên trong tập X thành các lớp tương đương. Các khái niệm quan hệ tương đương, phân chia và phân cụm là liên quan tự nhiên với nhau. Cách tiếp cận quan hệ tương đương định trị được dùng trong [29], ở đó, bao đóng bắc cầu của quan hệ tương tự được dùng như một sự chuyển đổi. Phương pháp được đề xuất trong [29] là tương đương với thuật toán phân cụm liên kết đơn [16], cũng đã được bàn đến trong Chương 2. Ta sẽ dùng ở đây một cách tiếp cận tổng quát hơn, bao đóng bắc cầu được áp dụng
đối với quan hệ tương tự đã được tinh chỉnh. Lược đồ tổng quát của các thủ tục phân cụm [4, 5], là như sau:
E = Q(S) = TC(F(S)) = F(S), (1)
Ở đây, F là thủ tục “tinh chỉnh” nào đó của quan hệ tương tự S đã cho và TC là một thủ tục bao đóng bắc cầu của các quan hệ tương tự định trị. Thủ tục bao đóng bắc cầu được nghiên cứu trong lý thuyết quan hệ mờ, trong lý thuyết đồ thị, trong phân tích cụm và được thấy rõ trong phương pháp phân cụm liên kết đơn [17] hoặc trong các thuật toán đặc biệt [26, 28]. Thủ tục bao đóng bắc cầu TC sở hữu cả hai loại bất biến đã được bàn luận ở trên. Khi thủ tục tinh chỉnh F cũng thỏa mãn cả hai loại bất biến, thì thủ tục phân cụm Q cũng sẽ thỏa mãn cả hai tính chất bất biến. Một thủ tục
phân cụm bao gồm hai thủ tục F và TC được gọi là một thủ tục phân cụm quan hệ.
Theo [4, 5], một thủ tục tinh chỉnh phù hợp F cần thỏa mãn ràng buộc:
F(S) ⊆ S, (2)
(⊆ là quan hệ sắp thứ tự ở Định nghĩa 3.2.7 ở trên).Ràng buộc này được sinh ra
từ những lý do dưới đây.
Rất cần thiết dùng thủ tục tinh chỉnh F để cho khoảng cách (khái niệm khoảng cách sẽ được định nghĩa sau) giữa quan hệ tương tự khởi tạo S và quan hệ tương đương cuối cùng E là nhỏ. Sự biến đổi nhỏ của quan hệ tương tự khởi tạo (được tạo ra bởi thuật toán phân cụm), dẫn tới những lý do để cho rằng, những cụm tương ứng với quan hệ tương đương định trị cuối cùng, phản ánh thực chất cấu trúc dữ liệu. Tất nhiên, một vài thuật toán phân cụm phù hợp sẽ trích xuất các cụm với dạng cụ thể, khoảng cách này có thể lớn. Tuy vậy, khoảng cách nhỏ giữa các quan hệ định trị cuối cùng và khởi tạo có thể được xem như thuộc tính mong muốn đối với bất kỳ thuật toán phân cụm nào. Thuộc tính mong muốn này viết dưới dạng công thức như sau:
Tìm E* ∈ E(X): d(S,E*) = minE∈E(X) d(S,E), (3) Với:
S là một quan hệ tương tự trên X,
E(X) là tập tất cả các quan hệ tương đương định trị trên X, S(X) là tập tất cả các quan hệ tương tự trên X,
Vấn đề (3) được nghiên cứu tổng quát hơn trong [4, 6] như là một vấn đề xấp xỉ trong một tập được sắp thứ tự bộ phận với thao tác bao đóng.
Định nghĩa 3.3.1: Hàm giá trị dương
Hàm v: S(X) → R được gọi là một hàm giá trị dương trên S(X) [14] nếu nó thỏa mãn trên S(X) các thuộc tính sau đây:
v(S∪T) + v(S∩T) = v(S) + v(T), Nếu S ⊂ T thì v(S) < v(T).
Ví dụ: hàm v(S) = ∑x∑y S(x,y) là hàm giá trị dương trên tập tất cả các quan hệ tương tự.
Định nghĩa 3.3.2: Hàm khoảng cách dương
Hàm d: S(X) × S(X)→R được gọi là một hàm khoảng cách dương trên S(X) nếu nó thỏa mãn trên S(X) các thuộc tính sau đây:
A1. d(S,S) = 0.
A2. d(S,T) = d(S∩T,S∪T).
A3a. Nếu P ⊆ S ⊂T thì d(P,S) < d(P,T), A3b. Nếu P ⊂ S ⊆T thì d(S,T) < d(P,T).
Dễ dàng thấy rằng d cũng thỏa mãn các thuộc tính sau: i. d(S,T) = d(T,S), và
ii. d(S,T) > 0 nếu và chỉ nếu S ≠ T.
Ví dụ: Chúng ta có thể dùng bất kỳ metric d được định nghĩa: d(S,T) = v(S∪T) - v(S∩T), d là hàm khoảng cách dương trên S(X).
Từ hàm v(S) = ∑x∑y S(x,y) là hàm giá trị dương, ta có metric được định nghĩa bởi d(S,T) = ∑x∑y|S(x,y) - T(x,y)| là một hàm khoảng cách dương trên S(X).
Định nghĩa 3.3.3: Hàm khoảng cách đẳng trương (isononic)
Một hàm d sẽ được gọi là một hàm khoảng cách isononic trên S(X) nếu nó thỏa
mãn thỏa mãn tính chất A1, A2 và tính chất
A3*. Nếu P ⊆S ⊆T thì max(d(P,S),d(S,T)) ≤ d(P,T).
Ví dụ: Hầu hết các metric đã biết là các hàm khoảng cách dương nhưng nhưng độ đo d(S,T)=maxx,y⎪S(x,y)-T(x,y)⎪chỉ là một isononic.
Định lý 2. Nếu d là một hàm khoảng cách dương trên S(X) thì lời giải cho (3) có biểu diễn
E* = TC(Sc), (4)
Ở đây Sc là phần tử nào đó của S(X) sao cho
Sc ⊆ S. (5)
Như vậy,
Thủ tục tinh chỉnh F trong lược đồ tổng quát (1) (E = Q(S) = TC(F(S))= F(S)) phải thỏa mãn ràng buộc (2) (F(S) ⊆ S)
bởi vì Định lý 2 (E* = TC(Sc) với Sc⊆S).
Một số thủ tục tinh chỉnh tham số F thỏa mãn ràng buộc (2) được đề xuất trong [4, 5, 8] cho kết quả phân cụm tốt trên nhiều dữ liệu thực và dữ liệu mẫu [5, 8, 9].
Từ F(S) ⊆ S kéo theo thủ tục tinh chỉnh nên giảm các giá trị tương tự S(x,y) nào đó. Để bất biến đối với đánh số đối tượng thì thủ tục tinh chỉnh phải được áp dụng đối với tất cả các cặp đối tượng (x,y) một cách đồng thời và độc lập với đánh số của các đối tượng. Để bất biến đối với phép biến đổi đều của các giá trị tương tự thì thủ tục tinh chỉnh phải lưu ý tới sắp xếp tuyến tính giữa các giá trị tương tự S(x,y). Tất nhiên, khi thuật toán phân cụm không đòi hỏi phải bất biến đối với phép biến đổi đều của các giá trị tương tự thì thủ tục tinh chỉnh có thể dùng các độ đo định lượng nào đó tùy thuộc vào các giá trị tương tự S(x,y).
Dưới đây là mô tả của thủ tục tinh chỉnh được tham số hóa [12] được đưa ra dưới dạng tổng quát hơn thủ tục tinh chỉnh được đề xuất đầu tiên tại [4].
Cho f1, f2, f3: R→R là các hàm đơn điệu. Một thủ tục tinh chỉnh phụ thuộc vào các tập và các hàm sau đây:
Tập
Vy(x) = {z∈X \{x,y}⎪ S(x,z) ≥ f1(S(x,y))}, Vx(y) = {z∈X \{x,y}⎪ S(y,z) ≥ f1(S(x,y))}.
Tập Vy(x) và tập Vx(y) là các tập các đối tượng “tương tự” của x và của y, giá trị f1(S(x,y)) là một tiêu chuẩn của sự tương tự này.
Tập
V(x,y) = {z∈X \{x,y}⎪ max{S(x,z),S(y,z)} ≥ f2(S(x,y))},
bao gồm các đối tượng trong X mà các đối tượng này “tương tự” ít nhất với một trong hai đối tượng x và y.
Khi f1 ≡ f2 chúng ta có V(x,y) = Vy(x) ∪ Vx(y).
Tập V(x,y) được xem như là tập các “hàng xóm” của x và y.
Các đối tượng trong V(x,y) sẽ được đưa ra xem xét khi quyết định tinh chỉnh giá trị S(x,y). Tập
W(x,y) = {z∈V(x,y)⎪min{S(x,z),S(y,z)} ≥ f3(S(x,y))},
gồm các đối tượng “hàng xóm” mà “khỏe” hoặc “phổ biến”, ví dụ, các đối tượng “tương tự” với cả hai đối tượng x và y. Các đối tượng trong W(x,y) sẽ “hỗ trợ” giá trị S(x,y).
Khi f1 ≡ f3, ta có W(x,y) = Vy(x) ∩ Vx(y).
Các hàm f1, f2, f3 được dùng trong thủ tục phân cụm sẽ được gọi là các hàm hàng xóm.
Quyết định tinh chỉnh giá trị S(x,y) sẽ phụ thuộc vào phần liên quan của các đối tượng “hỗ trợ” giá trị tương tự S(x,y). Có thể dùng những cách thức sau đây để tính phần liên quan cho các cặp đối tượng x và y, phần liên quan được ký hiệu là hi:
h1 = | ( , )| ( ( ) ,| ( )|), h2 = | ( , )| ( ( ) ,| ( )|), h3 = | ( , )| (| ( , )|), h4 = | \ | | | | | , v.v …
Ở đây, hi = 1 nếu mẫu số của hi bằng 0.
Thủ tục tinh chỉnh F(S) trong thủ tục phân cụm Q có thể được định nghĩa như sau:
( ( , )) = ( , ) ế ℎ ≥
( , ) ườ ℎợ ≠,
Với p ∈ [0,1], j là các tham số và Fj(x,y) là một giá trị đã được tinh chỉnh, như vậy Fj(x,y) ≤ S(x,y).
Chúng ta sẽ giả sử rằng Fj(x,y) phụ thuộc vào các giá trị S(x,z), S(y,z) đối với tất cả các đối tượng z thuộc các tập hàng xóm Vy(x), Vx(y) và V(x,y).
Chúng ta cũng yêu cầu rằng Fj(x,y) ≥ minz∈V{S(x,z),S(y,z)}, với V = Vy(x)∪Vx(y)∪V(x,y).
Định nghĩa cụ thể của Fj(x,y) sẽ được bàn luận sau.
Khi p = 0, từ hj≥0 kéo theo F(S(x,y)) = S(x,y), nghĩa là, với mọi x,y ∈X các giá trị S(x,y) sẽ không được hiệu chỉnh, và Q(S) = TC(F(S)) = TC(S), như vậy, thủ tục phân cụm sẽ trùng với phương thức liên kết đơn và phương thức được xem xét trong [17, 29].
Thay vì phần liên quan của các hàng xóm hỗ trợ hi, có thể xem xét số lượng các hàng xóm hỗ trợ được tính như sau:
g1 = |W(x,y)| hoặc g2 = |W(x,y)|+|X \V| - 2.
Trong trường hợp này, thủ tục tinh chỉnh có thể được định nghĩa như sau:
( ( , )) = ( , ) ế ≥
( , ) ườ ℎợ ≠,
Với tham số t ∈ {0,1,…, n-2}, n = |X |.
Để bất biến với đánh số các đối tượng, một thủ tục tinh chỉnh phải gồm các tham số giống nhau cho tất cả các cặp đối tượng hoặc những tham số này phải độc lập với đánh số các đối tượng.