Vớ dụ của thuật toỏn K-MEANS với k=2

Một phần của tài liệu (LUẬN văn THẠC sĩ) một số vấn đề về phân cụm dữ liệu luận văn ths công nghệ thông tin 1 01 10 (Trang 43 - 45)

Thuật toỏn k-means cú một số đặc điểm cần chỳ ý

- Luụn cú k cụm dữ liệu

- Cỏc cụm khụng phõn cấp (khụng cú thứ bậc) và khụng bị chồng chộo lờn nhau.

- Mọi thành viờn của một cụm là gần với chớnh cụm đú hơn bất cứ một cụm nào khỏc.

K-means biểu diễn cỏc cụm bởi cỏc trọng tõm của cỏc đối tượng trong cụm đú. Thuật toỏn k-means được chứng minh là hội tụ và cú độ phức tạp tớnh toỏn là O((3nkd)ιTflop). Trong đú, n là số đối tượng dữ liệu, k là số cụm dữ liệu, d là số chiều, ι là số vũng lặp, Tflop là thời gian để thực hiện một phộp tớnh cơ sở như nhõn, chia,…Trong khi thi hành, một vấn đề là làm sao gỡ cỏc nỳt thắt trong cỏc trường hợp mà ở đú cú nhiều trung tõm cú cựng khoảng cỏch với một đối tượng. Trong trường hợp này, cú thể gỏn cỏc đối tượng ngẫu nhiờn cho một trong cỏc cụm thớch hợp hoặc xỏo trộn cỏc đối tượng để vị trớ mới của nú khụng gõy ra cỏc nỳt thắt. Như vậy, do k-means phõn tớch phõn cụm đơn giản nờn cú thể ỏp dụng đối với tập dữ liệu lớn. Tuy nhiờn, nhược điểm của k-means chỉ là ỏp dụng với dữ liệu cú thuộc tớnh số và rất phự hợp với cỏc cụm cú dạng hỡnh cầu, k-means cũn rất nhạy cảm với nhiễu và cỏc phần tử ngoại lai trong dữ liệu.

Hơn nữa, chất lượng PCDL của thuật toỏn k-means phụ thuộc nhiều vào cỏc tham số đầu vào như: số cụm k và k trọng tõm ban đầu. Trong trường hợp, cỏc trọng tõm khởi tạo ban đầu mà quỏ lệch so với cỏc trọng tõm tự nhiờn của cụm thỡ kết quả phõn cụm của k-means rất thấp, nghĩa là cỏc cụm được khỏm phỏ rất lệch so với thực tế. Trờn thực tế, chưa cú một giải phỏp tối ưu nào để chọn cỏc tham số đầu vào, giải phỏp thường được sử dụng nhất là thử nghiệm với cỏc giỏ trị đầu vào k khỏc nhau rồi chọn ra giải phỏp tốt nhất.

Một số hỡnh dạng cụm dữ liệu được khỏm phỏ bởi k-means như hỡnh 3.7.

Hỡnh 3.7. Một số dạng cụm được khỏm phỏ bởi k-means 3.2.2. Thuật toỏn PAM

Một phần của tài liệu (LUẬN văn THẠC sĩ) một số vấn đề về phân cụm dữ liệu luận văn ths công nghệ thông tin 1 01 10 (Trang 43 - 45)

Tải bản đầy đủ (PDF)

(118 trang)