Một tiếp cận thuyết đồ thị để tính bao đóng bắc cầu

Một phần của tài liệu luận văn: các lược đồ phân cụm phân cấp bất biến (Trang 37)

Từ định nghĩa 3.2.10, ta thấy để tính bao đóng bắc cầu TC ta tiến hành nhân ma trận S với n-1 lần. Ta giới thiệu ở đây, một phương pháp tính toán tính bao đóng dựa vào thuật toán Prim tạo cây khung lớn nhất, và tìm đường trọng số lớn nhất trên cây

khung lớn nhất. Phương pháp này tốt hơn nhiều so với thuật toán nhân ma trận cả về thời gian tính toán và yêu cầu bộ nhớ.

Lược đồ phân cụm phân cấp được tạo bởi một họ tham số của các quan hệ tương đương xRλy trên tập X, đạt được từ quan hệ mờ đối xứng tùy ý f1: X x X → [0,1] thỏa mãn f1(x,x) = 1 và f1(x,y) = f1(y,x). với mọi x,y ∈ X. Quan hệ tương đương được xây dựng theo cách sau.

Cho , ∈ , và = { , … , } ∈ (Tích Decarter n-1 lần của X với chính nó) ( , ) ≜ sup ∈ {min[ ( , ), ( , ), … , ( , )]}.

Bất kỳ lớp ( ) của các tập con hai phần tử E = {x,y} ⊂ X, x≠ , là một đồ thị vô hướng với các cạnh E và các đỉnh x,y,…

Cho đồ thị ( ) là cây khung lớn nhất liên quan tới các trọng số cạnh bao gồm bởi f1, cho N = số các đỉnh trong X.

Cho , = 1, … − 1 ký hiệu N-1 cạnh của ( ) được sắp xếp sao cho

0 ≤ ≤ ≤ 1, với 1 ≤ ≤ − 2.

Ký hiệu ( ) ký hiệu đồ thị đạt được bằng cách xóa các cạnh , 1 ≤ ≤

− 1, từ ( ); thì ( ) = ( ) ⊃ ( ) ⊃ ⋯ ⊃ ( ) = ∅ (đồ thị rỗng).

Mỗi một trong các đồ thị được lồng trong ( ) bao gồm một quan hệ tương đương trên X theo cách sau.

⟺ = , hoặc x và y là các điểm cuối trên một đường các cạnh liên tiếp trên ( ). (16)

Các lớp tương đương của là các tập đỉnh của các đồ thị con được kết nối lớn nhất của hoặc từ các đỉnh của ( ). Vì vậy, từ ( ) đạt được bằng cách xóa một cạnh từ ( ), nó kéo theo lọc từ , với 1 ≤ ≤ − 1, và

( ) = {các lớp tương đương } 1 ≤ ≤ (17) là một phân cấp

của các cụm trong X, bao gồm mọi phân cấp (7)

Cho , ∈ , cho S(x,y) ký hiệu là đường dẫn duy nhất kết nối x và y với các

cạnh liên tiếp E từ cây khung lớn nhất ( ). Cho = { , … , } tuần tự hữu hạn tùy ý các điểm trong X. Thì ∈ ( , ) ( ) = {min[ ( , ), … , ( , )]}.

Cây khung lớn nhất cung cấp các đường chứa đựng lớn nhất giữa mọi cặp điểm khác nhau trong X.

Điều này có nghĩa giá trị của quan hệ mờ N-bước f(x,y) được cho bởi trọng số cạnh nhỏ nhất trên đường S(x,y). Nó kéo theo rằng, các giá trị khác nhau của f(x,y) với x≠y là tương ứng một một với các trọng số cạnh khác nhau f1(E), ∈ ( ). Hơn thế,

chúng ta có thể thấy mọi quan hệ tương đương trong (5) trùng với một quan hệ tương đương , cho mọi bất kỳ trong 0 ≤ ≤ 1 ta có :

a) 0 ≤ ≤ ( ) hoặc

b) có một số tự nhiên duy nhất l thỏa mãn 2 ≤ ≤ − 1 và ( ) ≤ ≤ ( ) hoặc

c) ( ) ≤ ≤ 1

Trong trường hợp a) ta có x y ⇔ f(x,y) ≥ ⟺ ( , ) ≥ ( ) ⟺ . Tương tự , trong trường hợp b) ta có x y ⟺ ( , ) ≥ ( ) ⟺ ., cho số tự nhiên l nào đó thỏa mãn b). Cuối cùng trường hợp c), ta có ⟺ ( , ) >

( ) ⟺ ( , ) = 1 ⟺ . Nó kéo theo (7) là một phân cấp con của phân

cấp (17) được phân chia từ ( ). Chúng ta đưa ra tại sao thuật toán Prim và kết quả của Hu chứng minh một phương pháp đệ quy hiệu quả để tính ( ) và quan hệ mờ N- bước f.

Thuật toán của Prim cho tạo ra một cây khung lớn nhất trên X quan hệ với f1

tiến hành theo cách sau. Lựa chọn một điểm bắt đầu x1 tùy ý trong X. Tìm điểm x2

∈X-{x1} mà tương tự nhất với x1 theo nghĩa x2 cực đại f1(x1,x) với x ∈X-{x1}. Đặt E1

= (x1,x2). Tìm điểm x3 ∈ X – {x1,x2} mà tương tự nhất với tập {x1,x2} theo nghĩa x3

cực đại max{f1(x1,x), f1(x2,x)} với x∈X -{x1,x2}. Đặt Q(x3) = điểm trong {x1,x2} tương tự nhất với x3, giả sử điểm thỏa mãn f1(Q(x3),x3) = max{f1(x1,x3), f1(x2,x3)}. Đặt E2 = (Q(x3),x3).vv… Tiếp tục của quá trình này tạo ra N-1 cạnh Ei trên một cây khung lớn nhất ( )cho f1. Kết quả, chúng ta cũng đạt được đường S(x,y) chứa đựng lớn nhất với mỗi cặp điểm x,y ∈ X và một giá trị tương ứng với f(x,y), mà bằng với trọng số cạnh nhỏ nhất trong S(x,y). Cho ví dụ, tại trạng thái k trong thuật toán Prim, chúng ta có các số lượng sau: (adsbygoogle = window.adsbygoogle || []).push({});

a) Tập các điểm không rỗng Ak,

b) Tập các điểm tương ứng Bk = X – Ak, c) Cho mỗi x trong Bk, một số tương ứng

p(x,Ak) ≜ ∈ ( , ) với các độ đo tương tự của x tới tập , d) Cho mỗi x trong một điểm tương ứng ( ) trong

, ( ) = ( , )

e) Một điểm xk+1 trong Bk với

p(xk+1,Ak) = ∈ ( , ) = ∈ ∈ ( , )

f) Cạnh = ( ( ), ).

Số lượng a), c) và d) tại trạng thái k là đạt được từ đầu ra của trạng thái k-1 thông qua vòng lặp = ∪ { }

( ) = ( ), ế ( , ) ≥ ( , )

, ế ( , ) < ( , ), ∈ (18)

Khởi tạo, cho k =1, ta có

= { }, x1 là điểm tùy ý trong X.

= − { }.

p(x, ) = ( , ), ∈ .

= , ∈ .

∈ , ( , ) = ∈ ( , ) = ∈ ( , ).

= ( , ).

Chúng ta có thể thấy N – k điểm trong , và N – k so sánh từng cặp được yêu cầu để tính toán cả hai ( , ) và ( ) trong Bk thông qua (18), cho bởi

( , ), ( ), và xk từ trạng thái k-1. Thêm nữa N - k -1 so sánh từng cặp được yêu cầu để tìm xk+1 của ( , ) = ∈ ( , ). Cuối cùng, cho k = 1, p(x, ) và Q1(x) là dữ liệu vào, trạng thái này đòi hỏi chỉ N - 2 cặp so sánh (để tính x2). Vì vậy tống số các so sánh được yêu cầu để tạo ra tất cả N-1 cạnh Ei trong cây khung cực đại là:

= − 2 + ( − ) + ( − − 1)

= ( − 2)( − 1).

Lược đồ để tính f(x,y) đều hiệu quả. Với

1 ≤ ≤ − 1, = ( ( ), ) là cạnh cuối trong đường trọng số lớn nhất duy

nhất nằm trên cây khung lớn nhất và kết nối xi với xk. Mọi đường con của đường trọng số lớn nhất cũng đều là đường trọng số lớn nhất; áp dụng với đường con kết nối xi với Qk-1(xk) từ đó ta có

( , ) = min{ , ( ) , ( ( ), )} , 1 ≤ ≤ − 1. (19)

Từ ( ) là một trong số điểm , 1 ≤ ≤ − 1, nó kéo theo (19) và điều kiện khởi tạo f(x1,x2) = f1(x1,x2) đệ quy tạo các cột của phần tam giác trên của ma trận [f(xi,xj)] đối xứng NxN. Bằng chứng, trạng thái k của quá trình bao gồm chỉ k-1 so sánh từng cặp (19), vì vậy, tổng số các so sánh được yêu cầu để tạo ra f là:

= + ∑ ( − 1) = ( )( ) ~

3.5. Các thủ tục phân cụm với các hàm hàng xóm đồng nhất

Chúng ta xem xét các thủ tục phân cụm với các hàm đồng nhất f1–f3 (đồng nhất được hiểu là f1(S(x,y)) = f2(S(x,y)) = f3(S(x,y)) = S(x,y) ) trong lược đồ phân cụm đầu tiên [4, 5], với phần liên quan h3 và thủ tục tinh chỉnh F1(x,y) = minz∈Vmin{S(x,z),S(y,z)}. Nhìn chung, các thủ tục tinh chỉnh được xem như một kết

hợp nào đó của các giá trị S(x,z), S(y,z), (z∈V), và nhỏ hơn S(x,y). Với cách kết hợp hàm như vậy, có thể dùng hàm hiệu chỉnh Fj(x,y) bằng trung bình hoặc cực đại [8]. (adsbygoogle = window.adsbygoogle || []).push({});

Các thủ tục này cho kết quả tốt trên các dữ liệu thực nghiệm và dữ liệu kiểm tra khác nhau [5, 8, 10]. Các phiên bản khác nhau của thủ tục tinh chỉnh Fj được xem xét trong [12].

Định nghĩa 3.4.1: Hai đối tượng x và y là đồng nhất trong S nếu S(x,y) = I và S(x,z) = S(y,z) với tất cả đối tượng z thuộc X\{x,y}.

Tổng quát hơn, ta định nghĩa như sau

Định nghĩa 3.4.2: Hai đối tượng x và y là không thể phân biệt trên mức a R nếu S(x,y) ≥ a và với bất kỳ zX nếu S(y,z) ≥ a thì kéo theo S(x,z) ≥ a.

Thủ tục tinh chỉnh hình thức hóa ý tưởng sau đây. Hai đối tượng không thể phân biệt trên mức a nào đó sẽ đồng nhất trong quan hệ tương tự Sa. Cũng rõ ràng thấy rằng tất cả các đối tượng là không thể phân biệt trên mức nhỏ nhất có thể 0.

Định nghĩa 3.4.3: Hai đối tượng x và y sẽ được gọi không thể phân biệt trong S nếu chúng là không thể phân biệt trên mức a = S(x,y).

Mệnh đề 3. Một quan hệ tương tự S được định nghĩa trên X là quan hệ tương đương định trị nếu và chỉ nếu tất cả các đối tượng của X là không thể phân biệt trong S.

Từ các tính chất của thủ tục bao đóng bắc cầu kéo theo rằng TC biến đổi bất kỳ quan hệ tương tự S sang quan hệ tương đương định trị E sao cho S ⊆ E và E là quan hệ

tương đương định trị nhỏ nhất chứa S. Vì vậy, thủ tục bao đóng bắc cầu tạo nên sự tăng nhỏ nhất của giá trị S(x,y) khi biến đổi S sang quan hệ tương đương định trị E. Từ Mệnh đề 3 chúng ta có thể kết luận rằng thủ tục bao đóng bắc cầu biến đổi cặp có thể phân biệt sang không thể phân biệt. Do đó, chúng ta có thể cho rằng toàn bộ giá trị của sự biến đổi S sang E được tạo bởi TC phụ thuộc vào số cặp phần tử có thể phân biệt trong S và “mức độ không thể phân biệt” của các phần tử này, nếu chúng ta có thể đo nó. Chính vì thế, thủ tục tinh chỉnh F giảm các giá trị tương tự S(x,y) nên tạo ra tinh chỉnh nhỏ nhất của các giá trị này, điều này sẽ tăng số cặp đối tượng không thể phân biệt hoặc tăng “mức độ mức độ không thể phân biệt” của các cặp đối tượng. Trong trường hợp này sự biến đổi TC(F(S)) được tạo ra bởi bao đóng bắc cầu sẽ là nhỏ.

Đối với việc xây dựng thủ tục tinh chỉnh phù hợp, rất muốn để ra quyết định: cho những cặp đối tượng (x,y) giá trị tương tự S(x,y) gì nên tinh chỉnh và các giá trị này nên được giảm như thế nào. Vì những mục đích này, đánh giá việc không phân biệt có thể được dùng.

Định nghĩa 3.4.4: Hai đối tượng x và y là không phân biệt trong quan hệ với đối tượng z (indistinguishable with respect to object z): nếu S(x,z) ≥ S(x,y) kéo theo S(y,z) ≥ S(x,y).

Trong trường hợp này chúng ta sẽ nói rằng đối tượng z “hỗ trợ” giá trị tương tự S(x,y). Càng nhiều đối tượng trong X hỗ trợ giá trị tương tự S(x,y), mức độ không thể phân biệt của x và y sẽ càng tăng. Mục đích của chúng ta là để thay đổi giá trị của S(x,y), như vậy, thay đổi số các đối tượng hỗ trợ tương tự giữa x và y, và do đó, mức độ không thể phân biệt của các đối tượng này sẽ tăng. Chúng ta có thể nói rằng, nếu các đối tượng x và y là không thể phân biệt với một số ít các đối tượng, thì giá trị tương tự S(x,y) không được củng cố hay được hỗ trợ bởi các đối tượng trong X, kết quả là, giá trị tương tự S(x,y) có thể được tinh chỉnh (được giảm).

Ý tưởng của thủ tục tinh chỉnh được minh họa trong Hình 3.2 ở đây các nốt của đồ thị ký hiệu các đối tượng của tập X và cạnh giữa hai nốt ký hiệu hai đối tượng này “tương tự” với mức độ I. Để đơn giản chúng ta xem xét quan hệ khi tất cả trọng số của cạnh bằng 0 hoặc 1.

Hình 3.2: (a) Đồ thị quan hệ tương tự khởi tạo S; (b-d) Các đồ thị có thể có của quan hệ tương đương E đạt được bởi thủ tục phân cụm từ S.

Trong Hình 3.2 đồ thị biểu diễn các đối tượng x, z và v, w là quan hệ đồng nhất. Chúng ta có Vu(y) = {x,z}, Vy(u) = {v,w}, W(y,u) = ∅, tức là mức độ tương tự giữa các đối tượng y và u không được hỗ trợ bởi các đối tượng hàng xóm, chính vì vậy cạnh tương ứng có thể được xóa. Đồ thị của quan hệ tương đương định trị gần nhất với S có thể đạt được bằng cách xóa cạnh (y,u) và sau đó bằng bao đóng bắc cầu của đồ thị, thêm cạnh (u,t). Kết quả được biểu diễn bởi đồ thị Hình 3.2b bao gồm 2 lớp tương đương {x,y,z} và {u,v,w,t}. Do thủ tục tinh chỉnh phụ thuộc vào tham số p (hoặc t), với các tham số nào đó, thủ tục tinh chỉnh có thể xóa các cạnh (u,v) và (u,w) trong quan hệ tương tự khởi tạo (Hình 3.2c) hoặc thậm chí xóa toàn bộ các cạnh ngoại trừ các cạnh (x,z) và (y,w) (Hình 3.2d). Nếu không áp dụng tinh chỉnh thì toàn bộ các đối tượng sẽ được kết nối vào một cụm. Phân tích toàn bộ cấu trúc tương tự có thể có được tạo bởi thủ tục phân cụm với các giá trị tham số khác nhau sẽ cho ra các cụm không

tầm thường sau đây: {x,y,z}, {u,v,w,t}, {v,w,t}, {v,w}, {x,z}. Khi sử dụng các tham số khác nhau, tất cả các cụm này mô tả cấu trúc tương tự đang tồn tại trong dữ liệu.

Đối với các quan hệ định trị và các đồ thị thì tình hình phức tạp hơn bởi vì thủ tục tinh chỉnh thay vì xóa cạnh sẽ giảm trọng số của cạnh. Một vài phương pháp phân tích cấu trúc tương tự được tạo bởi lược đồ tham số được bàn luận trong mục tiếp theo. Một trong các tính chất mong muốn của thủ tục phân cụm là “giữ các quan hệ tương đương” và “giữ các lớp tương tự”. Nếu các cụm như vậy tồn tại trong quan hệ tương tự khởi tạo S thì những cụm này cũng nên tồn tại trong kết quả của thủ tục phân cụm. Có thể được chứng minh được rằng một thủ tục phân cụm Q với các hàm hàng

xóm đồng nhất f1-f3, “giữ các quan hệ tương đương” và “giữ các lớp tương tự”.

Mệnh đề 4. Cho các thủ tục phân cụm Q với các hàm đồng nhất f1-f3,Q(S) = S thỏa mãn khi và chỉ khi S là một hàm tương đương định trị.

Mệnh đề 5. Các thủ tục phân cụm từ lược đồ được đề xuất “giữ các lớp tương tự” nếu các hàm hàng xóm f1 và f2 được sử dụng trong những thủ tục phân cụm này là những hàm đồng nhất.

Ký hiệu LV(x,y) là danh sách các giá trị S(x,z), S(y,z), (z∈V), các giá trị này nhỏ hơn S(x,y), và được sắp xếp theo thứ tự giảm dần.

Ký hiệu số phần tử trong LV(x,y) là m = |LV(x,y)| và các phần tử của LV(x,y) là lk (k=1, m). Nếu m > 1 thì lk ≥ lk+1 với k=1, m-1.

Tổng quát hóa số thứ tự của thủ tục Fi(x,y) được đề xuất trong [11]. Khi m > 1,

các tinh chỉnh được định nghĩa bởi tham số j:

j=1: Fj(x,y) = lm, nghĩa là lm là giá trị nhỏ nhất của LV(x,y); j=2: Fj(x,y) = ll, nghĩa là ll giá trị lớn nhất của LV(x,y);

j=3: Fj(x,y) = (∑lk)/m, nghĩa là Fj(x,y) là trung bình của tất cả giá trị trong LV(x,y); j=4: Fj(x,y) = lk, ở đây tham số k∈{1,…,m}, F2 là một trường hợp đặc biệt của F4; j=5: Fj(x,y) = median(LV(x,y)).

Tất cả thủ tục tinh chỉnh sử dụng Fj(x,y) đối với j=1,…,5 là bất biến đối với đánh số đối tượng và khi sử dụng Fj(x,y) với j=1,2,4,5 là bất biến với sự biến đổi đều của các giá trị tương tự.

3.6. Lựa chọn các cụm có giá trị

Lược đồ phân cụm được xem xét với các giá trị cho trước của các tham số định nghĩa một vài thủ tục phân cụm phân cấp. Nhìn chung một hệ thống phân cấp được xây dựng bởi thủ tục phân cụm được xem như một cấu trúc dữ liệu tương tự được tìm kiếm. Nếu mục đích của phân tích là tìm kiếm một sự phân chia dữ liệu thì tiếp cận truyền thống hơn sẽ được chọn, tại một mức phân cấp nào đó, các cụm trên mức này định ra một phân cụm dữ liệu. Trong những cách tiếp cận chất phác, số cụm đã được

chỉ ra và mức của cây cấu trúc được chọn để sự phân chia tương ứng với số cụm mong muốn. Cách tiếp cận dựa trên mức để chọn các cụm có điểm yếu sau đây. Thông thường, các cụm tự nhiên tồn tại trong dữ liệu được tạo trên các mức khác nhau của cây phân cấp. Vì nguyên nhân này, trên các mức cao của cây phân cấp các cụm tự nhiên nhỏ có thể biến mất như là kết quả của sự hợp lại trong các khối kết lớn. Tương ứng, trên các mức nhỏ, các cụm tự nhiên lớn có thể bị phân tách thành các phân mảnh không tự nhiên nhỏ. (adsbygoogle = window.adsbygoogle || []).push({});

Các cách tiếp cận khác, trích xuất từ cây phân cấp các cụm “có giá trị”, ví dụ, các cụm tồn tại trên số lớn các mức hoặc các cụm được xây dựng trên mức tương tự cao (trên mức không tương tự nhỏ). Chúng ta dùng cách tiếp cận “cấu trúc” để lựa chọn các cụm có giá trị từ cây phân cấp được đề xuất trong [5]. Giả sử, tại mức nào đó của cây phân cấp hai cụm A và B được kết nối với nhau trong cụm C = A ∪ B. Thì sự

“quan trọng” m của của những cụm này được tính như sau: m(A) = m(B) = min(NA,NB),

Ở đây NA và NB là số đối tượng trong các cụm A và cụm B.

Chúng ta nói rằng cụm A là một cụm “có giá trị” nếu m(A) ≥ M, ở đây M là

một số cho trước lớn hơn 1. Mức M có thể được chọn phù hợp phụ thuộc vào số cụm có giá trị được trích xuất với các giá trị khác nhau M. Nguyên nhân quan tâm ước lượng sự quan trọng của các cụm là như sau. Giả sử NB < M. Có nghĩa là tập A được kết hợp với một lượng đối tượng “không có giá trị” (nonvaluable) và vì vậy A vẫn còn “trong quá trình xử lý hình thành cụm”. Chính vì nguyên nhân này cụm A, thậm chí có một lượng lớn đối tượng, vẫn nhận một giá trị “quan trọng” nhỏ. Nhưng nếu NA, NB ≥

Một phần của tài liệu luận văn: các lược đồ phân cụm phân cấp bất biến (Trang 37)