PHƢƠNG PHÁP PHÂN CỤM PHÂN HOẠCH

Một phần của tài liệu Một số thuật toán phân cụm dữ liệu (Trang 34)

Phƣơng phỏp phõn cụm phõn hoạch nhằm phõn một tập hợp dữ liệu cú

n phần tử cho trƣớc thành k nhúm dữ liệu sao cho: mỗi phần tử chỉ thuộc về một nhúm dữ liệu và mỗi nhúm dữ liệu cú ớt nhất một phần tử dữ liệu. Cỏc thuật toỏn phõn hoạch dữ liệu cú độ phức tạp rất lớn khi xỏc định nghiệm tối ƣu toàn cục cho vấn đề phõn cụm dữ liệu do nú phải tỡm kiếm tất cả cỏc cỏch phõn hoạch cú thể đƣợc. Số cỏc cụm đƣợc thiết lập sau khi phõn hoạch là cỏc đặc trƣng đƣợc lựa chọn trƣớc, phƣơng phỏp này tốt cho cỏc cụm hỡnh cầu trong khụng gian Euclid. Ngoài ra, phƣơng phỏp này cũn phụ thuộc vào

khoảng cỏch cơ bản giữa cỏc điểm để lựa chọn cỏc điểm dữ liệu nào cú quan hệ là gần nhau, xa nhau so với mỗi điểm khỏc. Phƣơng phỏp này khụng xử lý đƣợc cỏc điểm cú hỡnh thự kỳ quặc hay mật độ dày đặc. Do phải tỡm kiếm hết cỏc phõn hoạch cú thể đƣợc nờn cỏc thuật toỏn phõn hoạch dữ liệu cú độ phức tạp rất lớn khi xỏc định nghiệm toàn cục. Do vậy, trờn thực tế thƣờng đi tỡm giải phỏp tối ƣu cục bộ cho vấn đề này bằng cỏch sử dụng một hàm tiờu chuẩn để đỏnh giỏ chất lƣợng của cụm cũng nhƣ để hƣớng dẫn cho quỏ trỡnh tỡm kiếm phõn hoạch dữ liệu.

Với chiến lƣợc này, thụng thƣờng khởi tạo một phõn hoạch ban đầu cho tập dữ liệu theo phộp ngẫu nhiờn hoặc heuristic và liờn tục tinh chỉnh cho đến khi thu đƣợc một phõn hoạch mong muốn thoả món cỏc ràng buộc cho trƣớc. Cỏc thuật toỏn phõn cụm phõn hoạch cố gắng cải tiến tiờu chuẩn phõn cụm bằng cỏch tớnh cỏc giỏ trị độ đo tƣơng tự giữa cỏc đối tƣợng dữ liệu và sắp xếp cỏc giỏ trị này. Sau đú, thuật toỏn lựa chọn một giỏ trị trong dóy sắp xếp sao cho hàm tiờu chuẩn đạt giỏ trị tối thiểu. í tƣởng của thuật toỏn phõn hoạch tối ƣu cục bộ là sử dụng chiến lƣợc tham ăn (Greedy Method) để tỡm kiếm nghiệm. Một số thuật toỏn phõn cụm phõn hoạch điển hỡnh nhƣ K- means, PAM, CLARA, CLARANS,...

Một phần của tài liệu Một số thuật toán phân cụm dữ liệu (Trang 34)

Tải bản đầy đủ (PDF)

(103 trang)