Trình bày dữ liệu trong thuật toán STIRR

STIRR sử dụng phân vùng phổ trên đồ thị phân cụm sử dụng các hệ thống động phi tuyến (non-linear dynamical systems), thay cho các vector riêng và cung cấp một phương pháp truyền trọng số (weight-propagation method) như sau:

–Đầu tiên tìm một mục quan tâm, ví dụ: Honda, với một trọng số nhỏ. Đây không phải là phép gán cần thiết nếu tất cả các trọng số có thể được khởi tạo là 1. –Trọng lượng này truyền tới các mục mà Honda xuất hiện thường xuyên.

–Các mục này, thu được một trọng số, lan truyền nó tiếp (có thể là quay trở lại các nhà sản xuất xe ôtô khác).

–Quá trình lặp lại cho đến khi nó hội tụ.

Đến đây ta xem xét một số chi tiết kĩ thuật chính của cách tiếp cận, sau đây là các mô tả của các khái niệm sẽ được sử dụng xuyên suốt kĩ thuật này:

Mô hình hoá (Representation): mỗi giá trị của từng thuộc tính được đại diện

bởi một nút trừu tượng, ví dụ, hình 3.24 đưa ra một cách biểu diễn tập dữ liệu. Cấu hình (Configuration): Gán một trọng số wv cho từng nút v; chúng ta sẽ coi toàn bộ cấu hình như w.

Hàm chuẩn hoá (Normalization function) N(w): định lại tỉ lệ trọng số của các

nút liên quan tới từng thuộc tính, để tổng bình phương của chúng là 1 và đảm bảo trực chuẩn.

Toán tử hợp (Combining Operator) : Toán tử tích, : (w1,…,wk) = w1w2...wk

Toán tử tổng: (w1,…,wk) = w1+ w2+...+ wk

Tổng quát hoá toán tử tổng được gọi là quy tắc kết hợp Sp, với p là một số tự

nhiên lẻ, (1/ )

1 1

( ,..., ) ( p,..., p) p

p k k

S w w  w w . Tổng là luật S1.

Một phiên bản giới hạn của các luật Sp, được coi là S . S(w1,...,wk) là bằng với wi, trong đó wi có giá trị tuyệt đối lớn nhất trong số các trọng số {w1,...,wk}.

Hệ thống động (Dynamical System): lặp lại của hàm f trên một số tập các giá trị. Các điểm cố định (Fixed points): các điểm mà f(u) = u, với tất cả các nút u. Hàm f (Function f): ánh xạ một cấu hình tới một cấu hình khác và được định

nghĩa như sau:

Một lựa chọn S1 cho  bao gồm một thuật ngữ tuyến tính cho mỗi bộ dữ liệu, trong khi  và Sp , với p > 1, bao gồm một thuật ngữ phi tuyến.

Cuối cùng, một trong những vấn đề quan trọng của cách tiếp cận là sự lựa chọn cấu hình ban đầu. Một cấu hình có thể lựa chọn theo hai cách:

1. Nếu chúng ta không muốn tập trung trên trọng số trong một phần đặc biệt của tập các bộ dữ liệu, thì chúng ta có thể chấp nhận một khởi tạo cố định (uniform

initialization), ví dụ, đặt tất cả các trọng số là 1 và sau đó tiến hành chuẩn hoá, hoặc

chúng ta có thể chấp nhận một khởi tạo ngẫu nhiên (random initialization), ở đó tất cả các trọng số nhận giá trị trong đoạn [0,1] với một bước chuẩn hoá tiếp theo.

2. Nếu chúng ta muốn tập trung trên một trọng số đặc biệt, chúng ta đưa trọng số này lên một giá trị cao hơn các trọng số khác.

3.6.4. Thuật toán CACTUS

Thuật toán CACTUS (Clustering Categorical Data Using Summaries) là một

cải tiến của thuật toán STIRR. Ý tưởng chính là tóm tắt thông tin được xây dựng từ tập dữ liệu, đủ để khám phá tốt các cụm. Theo cách này, thuật toán có thể tìm thấy các kiểu của các cụm mà STIRR không khám phá được. Tổng quan về thuật toán CACTUS được cho như sau: [17]

–Phân cụm (Clustering): sử dụng các tóm tắt, các cụm ứng viên được tính toán. –Tính hợp lệ (Validation): tập hợp các cụm ứng viên được xác nhận tính hợp lệ

sau bước phân cụm.

Trong CACTUS một tập các thuộc tính tuyệt đối {A1,…, An} được giả định với các miền {D1,…, Dn} được xem như là rất nhỏ. Sau đó, một giới hạn miền được định nghĩa bởi S = S1  S2 … Sn nếu với mỗi i: Si Di. Nếu ai Di và aj Di , ij,

hàm hỗ trợ (the support) (ai , aj) là:

( ,a ai j) t D: t A. i a andi t A. j aj

Ví dụ: số các bộ dữ liệu, ở đây ai và aj cùng xuất hiện. Hàm hỗ trợ của miền S,

(S) là số các bộ dữ liệu trong tập hợp dữ liệu thuộc S. Nếu tất cả các thuộc tính là

độc lập và các giá trị của chúng là tương đương: Hàm hỗ trợ kỳ vọng của S:   1 1 ... ( ) . ... n n S S E S D D D       Hàm hỗ trợ kỳ vọng của (ai , aj): 1 ( ,i j) . i j E a a D D D       

Các giá trị ai và aj là kết nối mạnh nếu:( ,a ai j).Ea ai, j Một cụm trong CACTUS được định nghĩa như dưới đây:

C = Ci ...  Cn là một cụm nếu và chỉ nếu:

1. với mọi i, j, Ci và Cjlà được kết nối mạnh (strongly connected). 2. Ci mà giá trị cực đại với mọi i.

3. support(C) là  lần được kỳ vọng.

Định nghĩa ở trên bao hàm rằng các cụm có thể là các miền, ví dụ như trong hình 3.25, ở đây miền {a1, a2}  {b1 , b2}  {c1 , c2} (vùng đánh dấu chấm), định nghĩa một cụm.

Trình bày dữ liệu trong thuật toán STIRR

Chi tiết thuật toán k-means

Các thuật toán phân cụm phân cấp