Cụm (Cluster): Một tập hợp các đối tượng dữ liệu

Một phần của tài liệu Bài giảng Kho dữ liệu - Chương 5: Khai phá dữ liệu trong kinh doanh (Trang 28 - 30)

Tương tự(hoặc có liên hệ) đối với nhữngđối tượng khác trong cùng nhóm

Không tương tự(hoặc không có liên hệ) đối với nhữngđối tượng thuộc các nhóm khác

Phân tích cụm - cluster analysis (hoặc gom cụm-

clustering, data segmentation, …) tìm những dữliệu tương tựphụthuộc vào nhữngđặc tínhđược tìm thấy trong dữliệu và nhóm nhữngđối tượng tương tựvào các cụm.

Data Warehouse and Business Intelligence 101

4.1. Các yêu cu tiêu biu

Khảnăng co giãn vềtập dữliệu (scalability)

Khảnăng xửlý nhiều kiểu thuộc tính khác nhau (different types of attributes)

Khảnăng khám phá các cụm với hình dạng tùy ý (clusters with arbitrary shape)

Tối thiểu hóa yêu cầu vềtri thức miền trong việc xácđịnh các thông sốnhập (domain knowledge for input parameters)

Khảnăng xửlý dữliệu có nhiễu (noisy data)

Khảnăng gom cụm tăng dần vàđộc lập với thứtựcủa dữliệu nhập (incremental clustering and insensitivity to the order of input records)

Khảnăng xửlý dữliệuđa chiều (high dimensionality)

Khảnăng gom cụm dựa trên ràng buộc (constraint-based clustering) Khảdiễn và khảdụng (interpretability and usability)

Data Warehouse and Business Intelligence 102

4.2. Các cách tiếp cn tiêu biu

Dựa trên lưới (grid-based):

Dựa trên a multiple-level granularity structure. Tiêu biểu STING, WaveCluster, CLIQUE

Dựa trên mô hình (model-based):

Một mô hình giảthuyếtđượcđưa ra cho mỗi cụm; sauđó hiệu chỉnh các thông số đểmô hình phù hợp với cụm dữ

liệu/đối tượng nhất.

Tiêu biểu: EM, SOM, COBWEB

Dựa trên mẫu phổbiến (Frequent pattern-based):

Dựa trên phân tích mẫu phổbiến Tiêu biểu: p-Cluster

….

Data Warehouse and Business Intelligence 103

4.2. Các cách tiếp cn tiêu biu (tt)

Phân hoạch (partitioning):

Các phân hoạchđược tạo ra vàđánh giá theo một tiêu chí nàođó.

Tiêu biểu k-means, k-medoids, CLARANS

Phân cấp (hierarchical):

Phân rã tập dữliệu/đối tượng có thứtựphân cấp theo một tiêu chí nàođó.

Tiêu biểu Diana, Agnes, BIRCH, CAMELEON

Dựa trên mậtđộ(density-based):

Dựa trên connectivity and density functions. Tiêu biểu DBSACN, OPTICS, DenClue

4.3. Các phương phápđánh giá vic phân cm d

liu

Đánh giá ngoại (external validation)

Đánh giá kết quảgom cụm dựa vào cấu trúcđược chỉ định trước cho tập dữliệu

Độ đo: Rand statistic, Jaccard coefficient, Folkes and Mallows index, …

Data Warehouse and Business Intelligence 105

4.3. Các phương phápđánh giá vic phân cm d

liu (tt)

Đánh giá tươngđối (relative validation)

Đánh giá kết quảgom cụm bằng việc so sánh các kết quả

gom cụm khácứng với các bộtrịthông sốkhác nhau Tiêu chí cho việcđánh giá và chọn kết quảgom cụm tốiưu

- Độnén (compactness): cácđối tượng trong cụm nên gần nhau.

- Độphân tách (separation): các cụm nên xa nhau.

Data Warehouse and Business Intelligence 106

Một phần của tài liệu Bài giảng Kho dữ liệu - Chương 5: Khai phá dữ liệu trong kinh doanh (Trang 28 - 30)

Tải bản đầy đủ (PDF)

(38 trang)