Chọn Số Phân Cụm Tốt Nhất và Giải Thích

Phân cụm theo phương pháp Hierarchical Clustering (Agnes Dendrogram):

Phía dưới là biểu diễn 2 cụm với việc sử dụng average làm phương pháp tính khoảng cách giữa các cụm (sau khi thấy việc điều chỉnh số cụm vẫn không thay đổi việc các cụm đầu có rất ít dữ liệu và cụm cuối có q nhiều dữ liệu thì dừng việc đánh giá chia cụm dữ liệu và dừng lại ở việc chia 2 cụm).

Chú thích về Average-linkage:

Là phương pháp tính khoảng cách giữa các cụm dữ liệu thơng qua việc tính khoảng cách trung bình giữa 1 phần tử trong một cụm và 1 phần tử ở cụm khác. Nhưng vì trong dataset này, việc thay đổi giữa Average, Complete và Single-linkage khơng có q nhiều sự thay đổi nên gần như khơng ảnh hưởng.

Hình 3. 8

26 | K h o a h ọ c d ữ l i ệ u

Đánh giá phương pháp:

Theo đánh giá của Silhouette plot (chọn Cluster để Silhouette plot vẽ biểu đồ đánh giá phương pháp Hierarchical) thì gần như tồn bộ Silhouette plot chỉ đánh giá được cụm C2 do các dữ liệu thuộc cụm C1 q ít. Vì vậy ta loại phương pháp Hierarchical Clustering và chuyển sang kiểm tra phương pháp Partitioning Clustering (K- means).

27 | K h o a h ọ c d ữ l i ệ u

Phân cụm theo phương pháp Partitioning Clustering (K-means):

Ta chọn tạo nhiều cluster (từ 2 đến 8 cluster) để đánh giá số cluster tốt nhất có thể tạo ra. Chọn tiền xử lý chuẩn hóa các cột dữ liệu thì ta có đánh giá chia 2 cluster là có điểm số tốt nhất do đó chọn tách dữ liệu thành 2 cluster.

Ta có 174 dữ liệu với đánh giá Silhouette index < 0.5 (trên tổng số 4746 dữ liệu: khoảng 3.67%). Như vậy là ta có khoảng 92.53% dữ liệu với đánh giá Silhouette index trên 0.5.

28 | K h o a h ọ c d ữ l i ệ u

Điều đó có nghĩa là ta có 92.53% dữ liệu sát với thực tế. Đánh giá này tốt hơn so với Hierarchical mà đã đề cập ở bên trên. Vì vậy chọn Partitioning Clustering (K-Means làm phương pháp phân cụm cho dataset House Renting.

Phía dưới là table thể hiện dataset sau khi phân cụm theo thuật tốn K- means(có Silhouette nhỏ nhất là 0.45623):

29 | K h o a h ọ c d ữ l i ệ u

Hình 3. 13 Dataset thể hiện đánh giá của Silhouette score cho từng dữ liệu sau phân cụm theo thuật toán K-means