Phân cụm dữ liệu phân cấp

Một phần của tài liệu Phân cụm dữ liệu và ứng dụng trong công tác tái bảo hiểm (Trang 26)

Phân cụm phân cấp sắp xếp một tập dữ liệu đã cho thành một cấu trúc có dạng hình cây,cây phân cấp này đƣợc xây dựng theo kỹ thuật đệ quy. Cây phân cụm có thể đƣợc xây dựng theo hai phƣơng pháp tổng quát: phƣơng pháp trên xuống (top down) và phƣơng pháp dƣới lên (bottum up).

Phƣơng pháp “dƣới lên” (bottom up): phƣơng pháp này bắt đầu với mỗi đối tƣợng đƣợc khởi tạo tƣơng ứng với các cụm riêng biệt, sau đó tiến hành nhóm các đối tƣợng theo một độ đo tƣơng tự (nhƣ khoảng cách giữa hai trung tâm của hai nhóm), quá trình này đƣợc thực hiện cho đến khi tất cả các nhóm đƣợc hòa nhập vào một nhóm (mức cao nhất của cây phân cấp) hoặc cho đến khi các điều kiện kết thúc thỏa mãn. Nhƣ vậy, cách tiếp cận này sử dụng chiến lƣợc ăn tham trong quá trình phân cụm.

Phƣơng pháp “trên xuống” (top down): bắt đầu với trạng thái là tất cả các đối tƣợng đƣợc xếp trong cùng một cụm. Mỗi vòng lặp thành công, một cụm đƣợc tách thành các cụm nhỏ hơn theo giá trị của một phép đo độ tƣơng tự nào đó cho đến khi mỗi đối tƣợng là một cụm, hoặc cho đến khi điều kiện dừng thỏa mãn. Cách tiếp cận này sử dụng chiến lƣợc chia để trị trong quá trình phân cụm.

Thí dụ: Hình 4 dƣới đây là một thí dụ sử dụng hai chiến lƣợc phân cụm phân cấp khác nhau nhƣ đã trình bày ở trên.

Hình 4 : Các chiến lƣợc phân cụm phân cấp

Một số thuật toán phân cụm phân cấp điển hình nhƣ CURE, BIRCH, …sẽ đƣợc trình bày chi tiết ở trong chƣơng sau.

Thực tế áp dụng, có nhiều trƣờng hợp ngƣời ta kết hợp cả hai phƣơng pháp phân cụm phân hoạch và phƣơng phân cụm phân cấp, nghĩa là kết quả thu đƣợc của phƣơng pháp phân cấp có thể cải tiến thông quan bƣớc phân cụm phân hoạch. Phân cụm phân hoạch và phân cụm phân cấp là hai phƣơng pháp PCDL cổ điển, hiện nay đã có nhiều thuật toán cải tiến dựa trên hai phƣơng pháp này đã đƣợc áp dụng phổ biến trong KPDL.

Một phần của tài liệu Phân cụm dữ liệu và ứng dụng trong công tác tái bảo hiểm (Trang 26)