Tổng quan về ROCK

Sau khi ta lấy ra một mẫu cụm ngẫu nhiên từ cơ sở dữ liệu, áp dụng thuật toán phân cấp thuật toán xác định được độ liên kết giữa các đối tượng dữ liệu trong mẫu. Các đối tượng dữ liệu sẽ được gán vào các cụm theo đánh giá dựa trên hàm tiêu chuẩn.

Thuật toán dựa vào hàm tiêu chuẩn là độ đo goodness trong cụm. Đối với cặp cluster Ci ,Cj thì liên kết link[Ci ,Cj] giữa hai cụm này là:

, ( , )

q i r j q r p C p C

cross link    link p p

Khi đó độ đo goodness g(Ci ,Cj) để trộn 2 cluster Ci , Cj còn được gọi là độ đo sự phù hợp (goodness measure) và được cho bởi biểu thức:

1 2 ( ) 1 2 ( ) 1 2 ( ) ) ( ] , [ ) , (   f  j f i f j i j i j i n n n n C C link C C g       

Hai cụm thỏa mãn điều kiện làm cho hàm goodness đạt giá trị cực đại sẽ được ghép với nhau tạo thành một cụm mới.

Chi tiết thuật toán ROCK được trình bày chi tiết trong hình 3.23 dưới đây:

Input: tập dữ liệu S gồm có n đối tượng dữ liệu, tham số k Output: k cụm dữ liệu

Begin

Bước 1: Khởi tạo n cụm là n đối tượng dữ liệu đã cho Bước 2: Đối với từng cặp cụm dữ liệu, xác định:

1 2 ( ) 1 2 ( ) 1 2 ( ) ) ( ] , [ ) , (   f  j f i f j i j i j i n n n n C C link C C g       

Bước 3: Ghép hai cụm Ci, Cj nếu:  m n 

( i, j) g(C ,C )

m n

g C C Max

Bước 4: Lặp bước 2, 3 cho tới khi tìm được k cụm thích hợp

End.

Hình 3.23. Các bƣớc cơ bản của thuật toán ROCK

Độ phức tạp tính toán của ROCK là 2 2

( m a log )

O n nm m n n , trong đó: mm

là số tối đa các láng giềng của đối tượng dữ liệu và ma là số trung bình của các láng giềng đối với đối tượng dữ liệu.

3.6.3. Thuật toán STIRR

STIRR (Sieving Through Iterated Relational Reinforcement) là một trong

những phương pháp có ảnh hưởng nhất đối với phân cụm tập dữ liệu kiểu hạng mục [17]. Nó sử dụng cách tiếp cận lặp, ở đây các đối tượng dữ liệu được coi như tương tự nếu các điểm cùng xuất hiện trong CSDL có sự xếp chồng (overlap) lớn, bất chấp thực tế rằng các đối tượng có thể không bao giờ xuất hiện. Ví dụ, các kiểu ôtô Civic và Accord là tương tự khi các bộ dữ liệu {Honda, Civic, 1998} và {Honda, Accord, 1998} là xếp chồng lớn, ví dụ, các giá trị Honda và 1998.

Các đặc tính chính của cách tiếp cận: [17]

1. Không lượng tử hoá priori (no a-priori quantization). Điều này có nghĩa rằng phân cụm tập dữ liệu kiểu hạng mục thực hiện hoàn toàn qua các mẫu cùng xuất hiện, mà không có việc thử áp đặt một thứ tự tuyến tính nhân tạo hay cấu trúc số trên chúng.

2. Gibson và các cộng sự mong muốn định nghĩa một khái niệm tương tự qua các mục của CSDL mà thậm chí có thể áp dụng cho các mục chưa từng xuất hiện cùng nhau trong một bộ dữ liệu; độ tương tự của chúng dựa trên thực tế rằng tập các mục có sự xếp chồng lớn.

3. Xem xét từng bộ dữ liệu trong CSDL như là một tập của các giá trị, chúng ta coi toàn bộ tập các bộ dữ liệu như một hệ thống tập (set system) tóm tắt hoặc đồ thị bậc cao (hyper-graph). (Hình 3.24)

Hình 3.24. Trình bày dữ liệu trong thuật toán STIRR

STIRR sử dụng phân vùng phổ trên đồ thị phân cụm sử dụng các hệ thống động phi tuyến (non-linear dynamical systems), thay cho các vector riêng và cung cấp một phương pháp truyền trọng số (weight-propagation method) như sau:

–Đầu tiên tìm một mục quan tâm, ví dụ: Honda, với một trọng số nhỏ. Đây không phải là phép gán cần thiết nếu tất cả các trọng số có thể được khởi tạo là 1. –Trọng lượng này truyền tới các mục mà Honda xuất hiện thường xuyên.

–Các mục này, thu được một trọng số, lan truyền nó tiếp (có thể là quay trở lại các nhà sản xuất xe ôtô khác).

–Quá trình lặp lại cho đến khi nó hội tụ.

Đến đây ta xem xét một số chi tiết kĩ thuật chính của cách tiếp cận, sau đây là các mô tả của các khái niệm sẽ được sử dụng xuyên suốt kĩ thuật này:

Mô hình hoá (Representation): mỗi giá trị của từng thuộc tính được đại diện

bởi một nút trừu tượng, ví dụ, hình 3.24 đưa ra một cách biểu diễn tập dữ liệu. Cấu hình (Configuration): Gán một trọng số wv cho từng nút v; chúng ta sẽ coi toàn bộ cấu hình như w.

Hàm chuẩn hoá (Normalization function) N(w): định lại tỉ lệ trọng số của các

nút liên quan tới từng thuộc tính, để tổng bình phương của chúng là 1 và đảm bảo trực chuẩn.

Toán tử hợp (Combining Operator) : Toán tử tích, : (w1,…,wk) = w1w2...wk

Toán tử tổng: (w1,…,wk) = w1+ w2+...+ wk

Tổng quát hoá toán tử tổng được gọi là quy tắc kết hợp Sp, với p là một số tự

nhiên lẻ, (1/ )

1 1

( ,..., ) ( p,..., p) p

p k k

S w w  w w . Tổng là luật S1.

Một phiên bản giới hạn của các luật Sp, được coi là S . S(w1,...,wk) là bằng với wi, trong đó wi có giá trị tuyệt đối lớn nhất trong số các trọng số {w1,...,wk}.

Hệ thống động (Dynamical System): lặp lại của hàm f trên một số tập các giá trị. Các điểm cố định (Fixed points): các điểm mà f(u) = u, với tất cả các nút u. Hàm f (Function f): ánh xạ một cấu hình tới một cấu hình khác và được định

nghĩa như sau:

Một lựa chọn S1 cho  bao gồm một thuật ngữ tuyến tính cho mỗi bộ dữ liệu, trong khi  và Sp , với p > 1, bao gồm một thuật ngữ phi tuyến.

Cuối cùng, một trong những vấn đề quan trọng của cách tiếp cận là sự lựa chọn cấu hình ban đầu. Một cấu hình có thể lựa chọn theo hai cách:

1. Nếu chúng ta không muốn tập trung trên trọng số trong một phần đặc biệt của tập các bộ dữ liệu, thì chúng ta có thể chấp nhận một khởi tạo cố định (uniform

initialization), ví dụ, đặt tất cả các trọng số là 1 và sau đó tiến hành chuẩn hoá, hoặc

chúng ta có thể chấp nhận một khởi tạo ngẫu nhiên (random initialization), ở đó tất cả các trọng số nhận giá trị trong đoạn [0,1] với một bước chuẩn hoá tiếp theo.

2. Nếu chúng ta muốn tập trung trên một trọng số đặc biệt, chúng ta đưa trọng số này lên một giá trị cao hơn các trọng số khác.

3.6.4. Thuật toán CACTUS

Thuật toán CACTUS (Clustering Categorical Data Using Summaries) là một

cải tiến của thuật toán STIRR. Ý tưởng chính là tóm tắt thông tin được xây dựng từ tập dữ liệu, đủ để khám phá tốt các cụm. Theo cách này, thuật toán có thể tìm thấy các kiểu của các cụm mà STIRR không khám phá được. Tổng quan về thuật toán CACTUS được cho như sau: [17]

–Phân cụm (Clustering): sử dụng các tóm tắt, các cụm ứng viên được tính toán. –Tính hợp lệ (Validation): tập hợp các cụm ứng viên được xác nhận tính hợp lệ

sau bước phân cụm.

Trong CACTUS một tập các thuộc tính tuyệt đối {A1,…, An} được giả định với các miền {D1,…, Dn} được xem như là rất nhỏ. Sau đó, một giới hạn miền được định nghĩa bởi S = S1  S2 … Sn nếu với mỗi i: Si Di. Nếu ai Di và aj Di , ij,

hàm hỗ trợ (the support) (ai , aj) là:

( ,a ai j) t D: t A. i a andi t A. j aj

Ví dụ: số các bộ dữ liệu, ở đây ai và aj cùng xuất hiện. Hàm hỗ trợ của miền S,

(S) là số các bộ dữ liệu trong tập hợp dữ liệu thuộc S. Nếu tất cả các thuộc tính là

độc lập và các giá trị của chúng là tương đương: Hàm hỗ trợ kỳ vọng của S:   1 1 ... ( ) . ... n n S S E S D D D       Hàm hỗ trợ kỳ vọng của (ai , aj): 1 ( ,i j) . i j E a a D D D       

Các giá trị ai và aj là kết nối mạnh nếu:( ,a ai j).Ea ai, j Một cụm trong CACTUS được định nghĩa như dưới đây:

C = Ci ...  Cn là một cụm nếu và chỉ nếu:

1. với mọi i, j, Ci và Cjlà được kết nối mạnh (strongly connected). 2. Ci mà giá trị cực đại với mọi i.

3. support(C) là  lần được kỳ vọng.

Định nghĩa ở trên bao hàm rằng các cụm có thể là các miền, ví dụ như trong hình 3.25, ở đây miền {a1, a2}  {b1 , b2}  {c1 , c2} (vùng đánh dấu chấm), định nghĩa một cụm.

Hình 3.25. Một ví dụ sử dụng CACTUS

Từ đó, chúng ta có thể tìm hiểu sâu hơn các giai đoạn của CACTUS: Trong pha tóm tắt (summarization), có hai kiểu summaries:

–Tổng kết liên thuộc tính (inter-attribute summaries): đếm tất cả các cặp giá trị thuộc tính kết nối mạnh từ các thuộc tính khác nhau.

–Tổng kết nội bộ thuộc tính (intra-attribute summaries): tính toán các tương tự giữa các giá trị của thuộc tính giống nhau.

Trong pha phân cụm, CACTUS phân tích từng thuộc tính, để tính toán tất cả các phép chiếu cụm. Với mỗi thuộc tính Ai, phép chiếu của nó là một tập con các giá trị từ thuộc tính này, và được liên kết mạnh với giá trị của các thuộc tính Aj khác,

ij, được ký hiệu bởi j i

S . Ví dụ, nếu chúng ta xem xét thuộc tính A trong hình 3.25, thì chúng ca có thể tính SAB a a a a1, 2, 3, 4 và SCA a a1, 2 và phép chiếu của A là SABSCA. Sau đó, tổng hợp pha phân cụm, các cụm có thể chọn trong tập hợp các thuộc tính từ phép chiều cụm trên các thuộc tính riêng lẻ. Bằng trực giác, bước này mở rộng bước trước bởi việc tăng hạng bậc của cụm.

Cuối cùng, trong pha “thừa nhận”(validation), thuật toán đoán nhận giả các ứng cử viên bằng việc kiểm tra nếu sự hỗ trợ của mỗi ứng cử viên cụm lớn hơn một ngưỡng được yêu cầu.

CACTUS là một thuật toán có thể mở rộng khi nó yêu cầu chỉ một bước chuyển của tập dữ liệu. Một chuyển tiếp thứ hai là cần thiết cho pha validation, mà không có bất kỳ sự liên quan nào đến việc mở rộng.

Bảng 3.2. Bảng tổng kết các thuộc tính của các thuật toán PCDL hạng mục

Các phƣơng pháp phân cụm dữ liệu hạng mục

Thuật toán Tham số đầu vào Thích hợp với Xử lý phần tử ngoại lai Độ phức tạp tính toán

k-modes Số các cụm Tập dữ liệu lớn Có O(n)

ROCK Số các cụm Tập dữ liệu nhỏ chứa nhiễu Có O(n2 + nmmma + n2logn)

STIRR Cấu hình khởi tạo, hoạt động trộn, điều kiện dừng

Tập dữ liệu lớn chứa nhiễu Có O(n)

CACTUS Hàm hỗ trợ ngưỡng , xác nhận ngưỡng

Tập dữ liệu lớn với số chiều và kích thước miền thuộc tính nhỏ

Có O(n)

3.7. Phân cụm dữ liệu hỗn hợp

3.7.1. Cơ sở toán học

Giả sử X = {X1, X2, …, Xn} là tập n đối tượng trong đó mỗi đối tượng Xi = [xi1, xi2, …, xim] có m giá trị thuộc tính. Giả sử k là một số nguyên dương. Mục tiêu phân cụm dữ liệu X là tìm một phân hoạch để chia các đối tượng trong X thành k các cụm độc lập [25].

3.7.1.1. Hàm tiêu chuẩn

Hàm tiêu chuẩn được định nghĩa là:

1 1 ( , ) k n il i l l i E y d X Q    (1)

Trong đó, Q = [ql1, ql2, …, qlm] là vectơ đặc trưng (representative vector) hay đối tượng mẫu (prototype) cho cụm l, và yil là một phần tử của ma trận phân hoạch

Ynl . d là độ đo tương tự thường được tính bằng khoảng cách Euclidean.

Y có hai thuộc tính sau: 0  yil  1 và

1 1 k il l y  

 . Y được gọi là phân hoạch rõ nếu yil {0, 1}, ngược lại, là một phân hoạch mờ. Trong một phân hoạch rõ, yil = 1 biểu thị rằng đối tượng Xi được gán cho cụm l bởi ma trận Y. Chúng ta chỉ xem xét phân hoạch rõ.

Thành phần bên trong của công thức (1):

1 ( , ) n l il i l i E y d X Q   là giá trị tổng của phép gán X cho cụm l, ví dụ, tổng độ phân tán của các đối tượng trong cụm l từ nguyên mẫu Ql của nó. El đạt giá trị tối thiểu nếu:

1 1 n lj il ij i l q y x n    với j=1,…,m (2) trong đó 1 n l il i n y 

 là số các đối tượng trong cụm l.

Khi X có các thuộc tính hạng mục, chúng ta có thể sử dụng một độ đo tương

tự như sau: 2 1 1 ( , ) ( ) ( , ) c r m m r r c c i l ij lj l ij lj j j d X Q x q   x q       (3)

trong đó ( , )p q 0 nếu p = q và ( , ) 1p q  nếu p  q; xijr và qljr là các giá trị của các thuộc tính kiểu số; c

của đối tượng thứ i và đối tượng mẫu của cụm l. mr và mc là số các thuộc tính số và thuộc tính hạng mục. l là trọng số của các thuộc tính hạng mục của cụm l.

Chúng ta có thể viết lại El như sau:

2 1 1 1 1 ( ) ( , ) c r m m n n r r c c l il ij lj l il ij lj i j i j r c l l E y x q y x q E E                (4) trong đó, r l

E là tổng giá trị của tất cả các thuộc tính số của các đối tượng trong cụm l. c

E đạt giá trị tối thiểu nếu qljr thỏa mãn (2).

Giả sử Cj là tập chứa tất cả các giá trị duy nhất trong thuộc tính hạng mục j và

( j j )

p c C l là xác suất của giá trị cj xuất hiện trong cụm l. Elc trong công thức (4) có thể được viết lại như sau:

1 (1 ( )) c m c c l l l lj j j E  n p q C l      (5)

với nl là số các đối tượng trong cụm l. Giải pháp để tối thiểu hoá c l

E được cho bởi bổ đề dưới đây:

Bổ để: c l

E được gọi là đạt giá trị tối thiểu nếu và chỉ nếu: ( ljc j ) ( j j )

p q C l  p c C l với qljc cj cho tất cả các thuộc tính hạng mục. Cuối cùng, chúng ta có thể viết lại E như sau:

1 1 1 ( ) k k k r c r c r c l l l l l l l E E E E E E E          (6)

Công thức (6) là hàm tiêu chuẩn để phân cụm một tập dữ liệu với giá trị kiểu hạng mục và kiểu số. Khi cả Er và Ec đều không âm, việc cực tiểu E có thể đạt được bằng việc cực tiểu Er và Ec. Trong đó, Er có thể được cực tiểu bằng việc tính các phần tử kiểu số của k các nguyên mẫu cụm trong công thức (2), ngược lại, Ec

có thể được cực tiểu hoá bằng việc lựa chọn các phần tử kiểu hạng mục của k nguyên mẫu cụm theo bổ đề trên. Như vậy, công thức (2) và bổ đề trên định nghĩa một cách để chọn các đối tượng mẫu cụm nhằm tối thiểu hàm giá trị trong công thức (6).

3.7.1.2. Độ đo sự tương tự

Hàm đo độ tương tự được định nghĩa trong công thức (3) để tính hàm tiêu chuẩn trong công thức (6), là sự kết hợp giữa độ đo tương tự trên các thuộc tính số

với độ đo tương tự trên các thuộc tính hạng mục giữa các đối tượng và các nguyên mẫu cụm. Độ đo tương tự trên các thuộc tính số được xác định bằng khoảng cách Eclidean, trong khi đó, độ tương tự trên các thuộc tính hạng mục được xác định bằng số ghép đôi không tương xứng giữa các đối tượng và các prototypes. Trọng số

 được đưa vào nhằm ngăn ngừa ảnh hưởng của các kiểu thuộc tính.

Ảnh hưởng của trọng số l trong phân cụm có thể được mô tả trong hình 3.26 dưới đây. Giả sử các hình tam giác và các hình thoi mô tả một tập các đối tượng đại diện cho một thuộc tính hạng mục và hai thuộc tính số. Hình tam giác và hình thoi

Chi tiết thuật toán k-means

Các thuật toán phân cụm phân cấp