GIỚI THIỆU

Một phần của tài liệu Một số vấn đề về phân cụm dữ liệu (Trang 38)

Cú khỏ nhiều thuật toỏn phõn cụm tốt đó được biết đến. Nhưng sự khỏc nhau giữa cỏc thuật toỏn này chớnh là việc phõn nhúm cựng một tập hợp dữ liệu bằng nhiều phương phỏp khỏc nhau thỡ cho kết quả hoặc là giống nhau hoặc là khỏc nhau. Việc lựa chọn một phương phỏp phự hợp cho từng trường hợp cụ thể phụ thuộc vào nhiều thành phần như: miền tri thức, cỏch thực hiện phương phỏp, khả năng của phần cứng và phần mềm cũng như là kớch cỡ của tập dữ liệu.

Do PCDL đang là một vấn đề thời sự trong lĩnh vực CNTT thế giới nờn cú rất nhiều nhà khoa học và tổ chức tập trung nghiờn cứu cỏc kỹ thuật phõn cụm. Dựa trờn những phương phỏp truyền thống đó được biết đến, nhiều phương phỏp mới ra đời phự hợp với mục đớch sử dụng và nõng cao hiệu quả phõn cụm. Do đú, người ta phõn ra hai nhúm kỹ thuật tiếp cận phõn cụm chớnh là cỏc phương phỏp phõn cm c đincỏc phương phỏp phõn cm hin đại [13][15].

Hỡnh 3.1. Tổng quan về cỏc phương phỏp phõn cụm

Cỏch phõn chia cỏc phương phỏp tiếp cận PCDL như trờn là phổ biến nhất. Ngoài ra, cũn một số cỏch phõn chia khỏc cũng hay được đề cập tới.

Một trong những cỏch phõn chia đú là dựa trờn sự ràng buckhụng ràng buc d liu của nhúm tỏc giả (Dr. Osmar R. Zaiane and Chi-hoon Lee)

thuộc (Database Laboratory, Department of Computing Science, University of Alberta) cũng được sử dụng rất phổ biến hiện nay, cụ thể như sau [7][15]:

Hỡnh 3.2. Cỏc thuật toỏn phõn cụm dữ liệu khụng ràng buộc

Hỡnh 3.3. Cỏc thuật toỏn phõn cụm dữ liệu cú ràng buộc

Nhỡn chung, cỏc thuật toỏn phõn cụm dữ liệu được chia theo cỏc kỹ thuật tiếp cận tương ứng. Hiện nay, cỏc thuật toỏn phõn cụm được phõn chia thành một số nhúm chớnh như sau:

o Cỏc thut toỏn phõn cm phõn hoch (Partitioning Methods): K- means, Pam, Clara, Clarans,…

o Cỏc thut toỏn phõn cm phõn cp (Herarchical Methods): Birch, Cure, Agnes, Diana, Rock, Chameleon,…

o Cỏc thut toỏn phõn cm da trờn mt độ (Density-based Methods):

Dbscan, Optics, Denclue,…

o Cỏc thut toỏn phõn cm da trờn lưới (Grid-based Methods): Sting, Clique, WaveCluster,…

o Cỏc thut toỏn phõn cm da trờn mụ hỡnh (Model-based Methods): Em, Cobweb,…

Một phần của tài liệu Một số vấn đề về phân cụm dữ liệu (Trang 38)