Cỏc chiến lược phõn cụm phõn cấp

Một phần của tài liệu (LUẬN văn THẠC sĩ) một số vấn đề về phân cụm dữ liệu luận văn ths công nghệ thông tin 1 01 10 (Trang 33 - 34)

Trong thực tế, cú rất nhiều trường hợp ỏp dụng cả hai phương phỏp phõn cụm phõn hoạch và phõn cụm phõn cấp, nghĩa là kết quả thu được của phương phỏp phõn cấp cú thể được cải tiến thụng qua bước phõn cụm phõn hoạch. Phõn cụm phõn hoạch và phõn cụm phõn cấp là hai phương phỏp phõn cụm dữ liệu cổ điển, hiện nay đó cú rất nhiều thuật toỏn cải tiến dựa trờn hai phương phỏp được ỏp dụng rộng rói trong lĩnh vực khai phỏ dữ liệu.

2.3.3. Phương phỏp phõn cụm dựa trờn mật độ

Kỹ thuật này nhúm cỏc đối tượng dữ liệu dựa trờn hàm mật độ xỏc định, mật độ là số đối tượng lõn cận của một đối tượng dữ liệu theo một ngưỡng nào đú. Trong cỏch tiếp cận này, khi một dữ liệu đó được xỏc định thỡ nú tiếp tục phỏt triển thờm cỏc đối tượng dữ liệu mới miễn là số cỏc đối tượng lõn cận này phải lớn hơn một ngưỡng đó được xỏc định trước. Phương phỏp phõn cụm dựa trờn mật độ của cỏc đối tượng để xỏc định cỏc cụm dữ liệu cú thể được phỏt hiện ra cỏc cụm dữ liệu với cỏc hỡnh thự bất kỳ. Kỹ thuật này cú

thể khắc phục được cỏc phần tử ngoại lai hoặc cỏc giỏ trị nhiễu tốt. Tuy nhiờn, việc xỏc định tham số mật độ của thuật toỏn là rất khú khăn, trong khi cỏc tham số này lại ảnh hưởng rất lớn đến kết quả phõn cụm [12].

2.3.4. Phương phỏp phõn cụm dựa trờn lưới

Kỹ thuật phõn cụm dựa trờn lưới thớch hợp với dữ liệu nhiều chiều, dựa trờn cấu trỳc dữ liệu lưới để phõn cụm, phương phỏp này chủ yếu tập trung ỏp dụng cho lớp dữ liệu khụng gian. Mục tiờu của phương phỏp này là lượng hoỏ dữ liệu thành cỏc ụ tạo thành lưới. Sau đú, cỏc thao tỏc phõn cụm dữ liệu chỉ cần làm việc với từng ụ trờn lưới chứ khụng phải cỏc đối tượng dữ liệu. Cỏch tiếp cận dựa trờn lưới này khụng di chuyển cỏc đối tượng trong cỏc ụ mà xõy dựng nhiều mức phõn cấp của nhúm cỏc đối tượng trong một ụ. Phương phỏp này gần giống phương phỏp phõn cụm phõn cấp nhưng chỳng khụng trộn cỏc ụ, đồng thời khắc phục được yờu cầu đối với dữ liệu nhiều chiều mà phương phỏp phõn cụm dựa trờn mật độ khụng giải quyết được. Ưu điểm của phương phỏp dựa trờn lưới là thời gian xử lý nhanh và độc lập với số lượng dữ liệu trong tập dữ liệu ban đầu, chỳng phụ thuộc vào số cỏc ụ trong mỗi chiều của khụng gian lưới.

Một phần của tài liệu (LUẬN văn THẠC sĩ) một số vấn đề về phân cụm dữ liệu luận văn ths công nghệ thông tin 1 01 10 (Trang 33 - 34)

Tải bản đầy đủ (PDF)

(118 trang)