Các phương pháp phân chia:

Một phần của tài liệu nghiên cứu kỹ thuật phân cụm trong khai phá dữ liệu (Trang 32 - 33)

Cho trước một cơ sở dữ liệu với n đối tượng hay các bộ dữ liệu, một phương pháp phân chia được xây dựng để chia dữ liệu thành k phần, mỗi phần đại diện cho một cụm, kn. Đó là phân loại dữ liệu vào trong k nhóm, chúng thoả các yêu cầu sau: (1) Mỗi nhóm phải chứa ít nhất một đối tượng, (2) Mỗi đối tượng phải thuộc về chính xác một nhóm. Lưu ý rằng yêu cầu thứ 2 được nới lỏng trong nhiều kỹ thuật phân chia mờ sẽ được thảo luận ngắn gọn trong chương này.

Cho trước k là số lượng các phần chia cần xây dựng, phương pháp phân chia tạo lập phép phân chia ban đầu. Sau đó nó dùng kỹ thuật lặp lại việc định vị, kỹ thuật này cố gắng cải thiện sự phân chia bằng cách gỡ bỏ các đối tượng từ nhóm này sang nhóm khác. Tiêu chuẩn chung của một phân chia tốt là các đối tượng trong cùng cụm là "gần" hay có quan hệ với nhau, ngược

lại, các đối tượng của các cụm khác nhau lại "tách xa" hay rất khác nhau. Có nhiều tiêu chuẩn khác nhau để đánh giá chất lượng các phép phân chia.

Trong phân cụm dựa trên phép phân chia, hầu hết các ứng dụng làm theo một trong hai phương pháp heuristic phổ biến: (1) Giải thuật k-means

với mỗi cụm được đại diện bởi giá trị trung bình của các đối tượng trong cụm; (2) Giải thuật k-medoids với mỗi cụm được đại diện bởi một trong số các đối tượng định vị gần tâm của cụm. Các phương pháp phân cụm heuristic này làm việc tốt khi tìm kiếm các cụm có hình cầu trong các cơ sở dữ liệu có kích thước từ nhỏ tới trung bình. Để tìm ra các cụm với các hình dạng phức tạp và phân cụm cho các tập dữ liệu rất lớn, các phương pháp dựa trên phân chia cần được mở rộng. Các phương pháp phân cụm dựa trên phân chia được nghiên cứu sâu hơn trong mục 3.4.

Một phần của tài liệu nghiên cứu kỹ thuật phân cụm trong khai phá dữ liệu (Trang 32 - 33)

Tải bản đầy đủ (DOC)

(38 trang)
w