Phõn loại cỏc phương phỏp Clustering

Một phần của tài liệu Xử lý văn bản tiếng việt theo mô hình tập thô dung sai (Trang 25 - 28)

Hiện nay tồn tại rất nhiều phương phỏp clusering và thật khú để phõn loại một cỏch chớnh xỏc cỏc phương phỏp này thành cỏc lớp riờng biệt bởi vỡ cỏc lớp này cú thể phủ lờn nhau làm cho mỗi phương phỏp cú thể mang một vài đặc trưng của cỏc lớp khỏc nhau. Mặc dầu vậy, việc đưa ra một sự phõn loại tương đối về cỏc phương phỏp clustering là cần thiết. Thụng thường cỏc phương phỏp clustering

được phõn loại thành cỏc nhúm như sau:

Partitioning methods (cỏc phương phỏp phõn hoạch): Cho một cơ sở dữ liệu gồm nđối tượng, một phương phỏp partitioning sẽ tạo ra k phõn hoạch dữ liệu trong

đú mỗi phõn hoạch tương ứng với một cluster và kn. Phương phỏp này phõn lớp dữ liệu vào trong k nhúm và thỏa mĩn cỏc yờu cầu sau: (1) mỗi nhúm cú ớt nhất một phần tử, (2) mỗi đối tượng phải hồn tồn thuộc về một nhúm. Yờu cầu thứ 2 cú thể được nới lỏng trong một số phương phỏp phõn hoạch mờ (fuzzy partitioning).

Phương phỏp partitioning tạo ra một phõn hoạch ban đầu, sau đú sử dụng kỹ thuật lặp tỏi định vị (iterative relocation technique) để hồn thiện phõn hoạch ban

đầu bằng cỏch di chuyển cỏc đối tượng từ một nhúm sang nhúm khỏc. Một phõn hoạch tốt cần phải cú cỏc đối tượng trong cựng một cluster thỡ giống nhau hoặc rất gần nhau, trong khi cỏc đối tượng thuộc về cỏc cluster khỏc nhau thỡ rất khỏc biệt. Cú rất nhiều tiờu chuẩn đểđỏnh giỏ chất lượng của cỏc phõn hoạch tạo ra.

Đểđạt được tối ưu tổng thể cần phải liệt kờ đầy đủ tất cả cỏc phõn vựng; thay vỡ làm điều này, phần lớn cỏc ứng dụng lựa chọn một trong số cỏc phương phỏp

heuristic thụng dụng, chẳng hạn (1) giải thuật k-means trong đú mỗi cluster được biểu diễn bởi giỏ trị trung bỡnh của cỏc đối tượng trong cluster đú; (2) giải thuật k- medoids trong đú mỗi cluster được biểu diễn bởi một trong số cỏc đối tượng nằm gần tõm của cluster. Tất cả phương phỏp heuristic này làm việc hiệu quảđối với cỏc

cluster dạng hỡnh cầu trong cỏc cơ sở dữ liệu vừa và nhỏ. Để tỡm kiếm cỏc cluster với hỡnh dạng phức tạp hơn và với cỏc cơ sở dữ liệu lớn hơn cần phải mở rộng phương phỏp này.

Hierarchical methods(cỏc phương phỏp phõn cấp ): một phương phỏp kiểu

hierarchical tạo ra một phõn hoạch phõn cấp (hierarchical decomposition) tập đối tượng ban đầu. Một phương phỏp thế này cú thể phõn loại thành agglomerative

hoặc divisive tựy thuộc vào cỏch tạo ra phõn hoạch phõn cấp. Hướng tiếp cận

agglomerative cũn được gọi là bottom-up bắt đầu bằng việc xem mỗi đối tượng là một nhúm riờng biệt; nú liờn tục hợp nhất cỏc đối tượng hoặc cỏc nhúm gần với nhau thành một nhúm mới cho tới khi tất cả cỏc nhúm hợp nhất thành một nhúm duy nhất (là nhúm nằm ở mức cao nhất của phõn cấp) hoặc cho tới khi gặp một điều kiện dừng nào đú. Hướng tiếp cận divisive cũn được gọi là top-down bắt đầu bằng việc xem tất cả cỏc đối tượng thuộc về một cluster duy nhất, trong mỗi vũng lặp tuần tự mỗi cluster được phõn chia thành cỏc cluster bộ hơn cho tới khi mỗi đối tượng là một cluster hoặc cho tới khi bắt gặp một điều kiện dừng nào đú.

Phương phỏp hierarchical clustering tồi trong trường hợp một bước nào đú (hợp nhất hoặc phõn chia) đĩ được thực hiện thỡ khụng thể quay lại trạng thỏi trước

đú được nữa. Sự khụng mềm dẻo này giỳp ớch trong việc giảm chi phớ tớnh toỏn bởi khụng phải mất chi phớ cho cỏc tổ hợp lựa chọn khỏc nhau. Tuy nhiờn cỏc kỹ thuật này khụng cho phộp khắc phục cỏc quyết định sai. Cú 2 hướng tiếp cận để nõng cao chất lượng của hierarchical clustering: (1) thực hiện việc phõn tớch cẩn thận cỏc đối tượng “linkages” tại mỗi mức phõn hoạch, chẳng hạn phương phỏp Chameleon; (2) tớch hợp hierarchical agglomerative với cỏc hướng tiếp cận khỏc bằng cỏch trước hết sử dụng hierarchical agglomerative để gom nhúm cỏc đối tượng vào cỏc

microcluster sử dụng cỏc phương phỏp khỏc như lặp tỏi định (iterative relocation), chẳng hạn đú là phương phỏp BIRCH.

Density-based methods (cỏc phương phỏp dựa trờn mật độ): Phần lớn cỏc phương phỏp partitioning phõn hoạch cỏc đối tượng dựa trờn khoảng cỏch giữa cỏc

đối tượng. Những phương phỏp như vậy cú thể tỡm kiếm cỏc cluster dạng cầu nhưng gặp phải vấn đề khú khăn trong việc phỏt hiện cỏc cluster cú hỡnh dạng bất kỳ. Một số phương phỏp clustering được đề xuất dựa trờn khỏi niệm densitymật độ. í tưởng chung của cỏc phương phỏp này là tiếp tục phỏt triển một cluster chừng nào mật độ (số cỏc đối tượng hoặc cỏc điểm dữ liệu) trong cỏc vựng lõn cận chưa vượt quỏ ngưỡng; như vậy với một điểm dữ liệu bờn trong một cluster nào đú thỡ cỏc vựng lõn cận nú với một bỏn kớnh nhất định phải chứa ớt nhất số lượng cỏc điểm.

DBSCAN (cựng với cỏc mở rộng của nú) và OPTICS là cỏc phương phỏp thụng dụng dựa trờn mật độ để phỏt triển cỏc cluster tương ứng với cỏc phõn tớch kết nối dựa trờn mật độ. DENCLUE là một phương phỏp mà phõn nhúm cỏc đối tượng dựa trờn việc phõn tớch hàm mật độ phõn bố.

Grid-based methods(cỏc phương phương phỏp dựa trờn lưới): Phương phỏp này lượng tử húa khụng gian của cỏc đối tượng thành một số hữu hạn cỏc ụ (cell) mà hỡnh thành nờn một cấu trỳc lưới. Tất cả cỏc thao tỏc clustering ở phương phỏp này được thực hiện trong một cấu trỳc lưới (chẳng hạn đú là khụng gian đĩ được lượng tử húa). Ưu điểm chớnh của phương phỏp này là nhanh về mặt thời gian, nú thường độc lập với số lượng cỏc đối tượng dữ liệu và chỉ phụ thuộc vào số lượng cỏc ụ trong mỗi chiều của khụng gian lượng tử húa. STING là một vớ dụ điển hỡnh cho phương phỏp clustering dựa trờn lưới.

Model-based methods(cỏc phương phỏp dựa trờn mụ hỡnh): Xõy dựng một mụ hỡnh cho mỗi cluster và tỡm kiếm sự phự hợp lớn nhất của dữ liệu đối với mụ hỡnh đú. Một giải thuật dựa trờn mụ hỡnh cú thể xỏc định vị trớ của cỏc cluster bằng cỏch tạo ra một hàm mật độ phản ỏnh sự phõn bố khụng gian của cỏc điểm dữ liệu, nú cho phộp đưa ra một phương phỏp để tự động quyết định số lượng cluster dựa trờn cỏc thống kờ chuẩn. EM là một giải thuật thực hiện việc phõn tớch expectation-

maximization dựa trờn mụ hỡnh thống kờ. COBWEB là một giải thuật conceptual learning (học khỏi niệm) thực hiện phõn tớch xỏc suất và lấy cỏc khỏi niệm như là mụ hỡnh của cỏc cluster. SOM là một giải thuật dựa trờn mạng nơ-ron thực hiện

clustering dựa trờn việc ỏnh xạ khụng gian nhiều chiều vào trong khụng gian đặc trưng 2-D hoặc 3-D, nú cũng hữu ớch trong việc trực quan húa dữ liệu.

Việc lựa chọn phương phỏp clustering nào phụ thuộc vào bản chất của dữ

liệu hiện cú cũng như mục đớch đặc biệt của ứng dụng. Phần tiếp theo ta sẽ đi vào chi tiết một số phương phỏp (giải thuật) clustering thụng dụng.

Một phần của tài liệu Xử lý văn bản tiếng việt theo mô hình tập thô dung sai (Trang 25 - 28)

Tải bản đầy đủ (PDF)

(118 trang)