Giới thiệu về thuật toán phân cấp

Thuật toán phân cấp là một phương pháp gộp có thứ bậc, mà khi đó cụm có các cụm con. Ví dụ điển hình của sự phân chia này là sự phân chia loài. Khi đó, sự phân cấp dựa vào các dữ liệu gen. Thuật toán phân cấp bắt đầu với mỗi đối tượng riêng lẻ (gen hoặc mẫu nào đó) trong một cụm riêng lẻ. Sau đó, trong mỗi vòng lặp kế tiếp, nó gộp các cặp cụm gần nhau theo một tiêu chí tương tự nào đó, đến khi mọi dữ liệu nằm trong 1 cụm. Hình 2.8 và 2.9 thể hiện cách làm việc của thuật toán phân cấp.

Hình 2.8. Thuật toán phân cụm phân cấp

Giả sử, có 6 dữ liệu điểm mẫu được sử dụng để gộp trong thuật toán phân cụm phân cấp, các điểm này là a, b, c, d, e và f. Khi chưa gộp, khoảng cách giữa các điểm được thể hiện như hình trên. Nếu người sử dụng chạy thuật toán phân cấp phân cụm từ tập dữ liệu này, đầu tiên 6 cụm riêng lẻ được tạo ra , trong đó mỗi điểm được coi là 1 cụm. Ở bước 2, các cụm gần nhau sẽ được gộp lại, trong trường hợp này, b và c, d và e được gộp lại với nhau thành 2 cụm mới “bc” và “de”. Bước tiếp theo, f sẽ được gộp với “de” vì chúng rất gần nhau và cụm mới, mang tên “def” được hình thành. Sau đó, vì “bc” và “def” ở gần nhau, nên chúng lại được gộp thành “bcdef”. Cuối cùng, a được gộp lại cụm mới này thành cụm “abcdef”. Từ đó có thể thấy thuật toán phân cấp phân cụm được chạy đến khi toàn bộ dữ liệu được gộp lại thành 1 cụm.

Hình 2.9. Quá trình chạy thuật toán phân cụm phân cấp. Thuật toán phân cụm phân cấp có các thuộc tính sau:

1. Các cụm được tạo ra ở các bước đầu được lồng vào cụm ở các bước sau.

2. Trên sơ đồ hình cây, các cụm với các kích thước khác nhau có thể rất có giá trị đối với việc khai thác thông tin sau này.

Cấu trúc hình cây thể hiện một các trực quan về sự phân cấp cho đến cụm cuối cùng, khi mà mỗi bước gộp được biểu diễn bởi 2 nhánh cây. Nhìn chung, quy trình của thuật toán phân cụm phân cấp là:

1. Gán mỗi đối tượng vào một cụm riêng biệt.

2. Đánh giá khoảng cách giữa từng đôi cụm (ma trận khoảng cách sẽ được trình bày trong phần phương pháp luận)

3. Xây dựng ma trận khoảng cách dựa trên các giá trị khoảng cách. 4. Tìm kiếm các cặp cụm có khoảng cách ngắn nhất.

5. Xóa cặp cụm này ra khỏi ma trận và tiến hành gộp.

6. Đánh giá lại toàn bộ khoảng cách cho hệ thống cụm mới, sau đó cập nhật lại ma trận

Hình 2.10. Quy trình thuật toán phân cấp phân cụm

Ưu điểm của thuật toán này là nó có thể tạo ra trật tự của các đối tượng, điều này rất thuận tiện cho quá trình hiển thị dữ liệu. Các cụm nhỏ hơn được sinh ra có thể rất hữu ích cho việc khai thác thông tin sau này. Tuy nhiên, thuật toán này cũng có một vài nhược điểm. Đó là không có 1 quy định nào cho việc dịch chuyển các đối tượng mà các bước đầu có thể bị gộp nhầm. Và việc sử dụng các ma trận khoảng cách khác nhau để xác định khoảng cách giữa các cụm cũng có thể dẫn đến các kết quả khác nhau.

Phân tích cụm là gì?

Các kĩ thuật phân cụm