Tương tự(hoặc có liên hệ) đối với nhữngđối tượng khác trong cùng nhóm
Không tương tự(hoặc không có liên hệ) đối với nhữngđối tượng thuộc các nhóm khác
Phân tích cụm - cluster analysis (hoặc gom cụm-
clustering, data segmentation, …) tìm những dữliệu tương tựphụthuộc vào nhữngđặc tínhđược tìm thấy trong dữliệu và nhóm nhữngđối tượng tương tựvào các cụm.
Data Warehouse and Business Intelligence 101
4.1. Các yêu cầu tiêu biểu
Khảnăng co giãn vềtập dữliệu (scalability)
Khảnăng xửlý nhiều kiểu thuộc tính khác nhau (different types of attributes)
Khảnăng khám phá các cụm với hình dạng tùy ý (clusters with arbitrary shape)
Tối thiểu hóa yêu cầu vềtri thức miền trong việc xácđịnh các thông sốnhập (domain knowledge for input parameters)
Khảnăng xửlý dữliệu có nhiễu (noisy data)
Khảnăng gom cụm tăng dần vàđộc lập với thứtựcủa dữliệu nhập (incremental clustering and insensitivity to the order of input records)
Khảnăng xửlý dữliệuđa chiều (high dimensionality)
Khảnăng gom cụm dựa trên ràng buộc (constraint-based clustering) Khảdiễn và khảdụng (interpretability and usability)
Data Warehouse and Business Intelligence 102
4.2. Các cách tiếp cận tiêu biểu
Dựa trên lưới (grid-based):
Dựa trên a multiple-level granularity structure. Tiêu biểu STING, WaveCluster, CLIQUE
Dựa trên mô hình (model-based):
Một mô hình giảthuyếtđượcđưa ra cho mỗi cụm; sauđó hiệu chỉnh các thông số đểmô hình phù hợp với cụm dữ
liệu/đối tượng nhất.
Tiêu biểu: EM, SOM, COBWEB
Dựa trên mẫu phổbiến (Frequent pattern-based):
Dựa trên phân tích mẫu phổbiến Tiêu biểu: p-Cluster
….
Data Warehouse and Business Intelligence 103
4.2. Các cách tiếp cận tiêu biểu (tt)
Phân hoạch (partitioning):
Các phân hoạchđược tạo ra vàđánh giá theo một tiêu chí nàođó.
Tiêu biểu k-means, k-medoids, CLARANS
Phân cấp (hierarchical):
Phân rã tập dữliệu/đối tượng có thứtựphân cấp theo một tiêu chí nàođó.
Tiêu biểu Diana, Agnes, BIRCH, CAMELEON
Dựa trên mậtđộ(density-based):
Dựa trên connectivity and density functions. Tiêu biểu DBSACN, OPTICS, DenClue
4.3. Các phương phápđánh giá việc phân cụm dữ
liệu
Đánh giá ngoại (external validation)
Đánh giá kết quảgom cụm dựa vào cấu trúcđược chỉ định trước cho tập dữliệu
Độ đo: Rand statistic, Jaccard coefficient, Folkes and Mallows index, …
Data Warehouse and Business Intelligence 105
4.3. Các phương phápđánh giá việc phân cụm dữ
liệu (tt)
Đánh giá tươngđối (relative validation)
Đánh giá kết quảgom cụm bằng việc so sánh các kết quả
gom cụm khácứng với các bộtrịthông sốkhác nhau Tiêu chí cho việcđánh giá và chọn kết quảgom cụm tốiưu
- Độnén (compactness): cácđối tượng trong cụm nên gần nhau.
- Độphân tách (separation): các cụm nên xa nhau.
Data Warehouse and Business Intelligence 106