Phƣơng phỏp phõn cấp

3. Phƣơng phỏp trọng số mở rộng đối với xấp xỉ trờn

3.2.2. Phƣơng phỏp phõn cấp

Phõn cụm phõn cấp được chia thành hai phương phỏp là : top-down và bottom-up.

1 Phương phỏp bottom-up: Phương phỏp này được thiết kế theo chiến lược từ dưới lờn (bottom-up). Phương phỏp này bắt đầu với mỗi đối

tượng được khởi tạo tương ứng với cỏc cụm riờng biệt, sau đú ghộp những cụm này thành cỏc cụm lớn hơn cho tới khi tất cả đối tượng đều nằm trong một cụm duy nhất hoặc cho tối khi gặp điều kiện dừng.

2 Phương phỏp top-down: Phương phỏp này được thiết kế theo chiến lược trờn xuống (top-down), nú thực hiện ngược lại so với phương phỏp bottom-up, tức là chia nhỏ cụm lớn thành cỏc cụm nhỏ hơn cho tới khi mỗi đối tượng được chứa trong một cụm riờng lẻ hoặc gặp điều kiện dừng như: đạt đến số lượng cỏc cụm cho phộp, hoặc khoảng cỏch giữa hai cụm gần nhất đó lớn hơn khoảng cỏch ngưỡng.

 Thuật toỏn CURE

CURE là thuật toỏn sử dụng chiến lược bottom-up của phương phỏp phõn cụm phõn cấp. Khỏc với hai thuật toỏn phõn cụm phõn hoạch ở trờn thuật toỏn CURE sử dụng nhiều đối tượng để biểu diễn cho một cụm thay vỡ sử dụng cỏc trọng tõm hay đối tượng tõm. Cỏc đối tượng đại diện của một cụm ban đầu được chọn rải rỏc đều ở cỏc vị trớ khỏc nhau, sau đú chỳng được di chuyển bằng cỏch co lại theo một tỉ lệ nhất định nào đú. Khi hai cụm cú cặp đối tượng đại diện gần nhất sẽ được trộn lại thành một cụm.

 Thuật toỏn BIRCH

BIRCH là thuật toỏn phõn cụm phõn cấp sử dụng chiến lược Top-down. Tư tưởng của BIRCH là khụng lưu toàn bộ đối tượng dữ liệu của cỏc cụm trong bộ nhớ mà chỉ lưu cỏc tham số thống kờ. Đối với mỗi cụm dữ liệu, BIRCH chỉ lưu bộ ba (N, LS, SS), trong đú N là số đối tượng trong cụm, LS là tổng cỏc giỏ trị thuộc tớnh của cỏc đối tượng trong cụm, và SS là tổng bỡnh phương của cỏc giỏ trị thuộc tớnh của cỏc đối tượng trong cụm. Bộ ba này được gọi là đặc trưng cụm (Cluster Feature- CF). Khi đú cỏc cụm trong tập dữ liệu ban đầu sẽ được cho dưới dạng một cõy CF.

Cõy CF là một cõy cõn bằng nhằm lưu cỏc đặc trưng của cụm. Một cõy CF chứa cỏc nỳt cha và lỏ, nỳt cha chứa cỏc nỳt con, nỳt lỏ khụng cú con. Nỳt cha lưu giữ tổng cỏc đặc trưng cụm của cỏc nỳt con của nú. Cõy CF cú hai đặc trưng cơ bản :

-Yếu tố nhỏnh: nhằm xỏc định số lượng nỳt con tối đa trong một nỳt cha. - Ngưỡng: nhằm xỏc định khoảng cỏch tối đa giữa bất kỳ một cặp đối tượng trong nỳt lỏ của cõy CF, khoảng cỏch này chớnh là đường kớnh của cỏc cụm con được lưu lại ở nỳt lỏ.

CHƢƠNG IV: MỘT SỐ GIAO DIỆN KHI CHẠY CHƢƠNG TRèNH

4.1 Giao diện chƣơng trỡnh chớnh(menu)

4.2 Giao diện chƣơng trỡnh phõn cụm dữ liệu 4.2.1 Giao diện chƣơng trỡnh của sinh mó

4.2.2 Giao diện chƣơng trỡnh của tỡm kiếm cụm

TÀI LIỆU THAM KHẢO

1. Tolerance rough set approach to clustering web search result, Ngụ Chi Lăng -2003

2. Unsupervised Word Discriimation by Clustering Similar Contexts,Amruta Purandare -2004

3. Valued Tolerance and Decision Rlues, Jerzy Stefanowski 4. From n_gramn to collocation an evaluation of xtract

Giải thuật phõn cụm K-means