Tableau sử dụng thuật toán k-mean để phân cụm. Đối với một số cụm k cho trước, thuật toán phân chia dữ liệu thành các cụm k. Mỗi cụm có một trung tâm (centroid) là giá trị trung bình của tất cả các điểm trong cụm đó. K-có nghĩa là định vị các trung tâm thông qua một quy trình lặp để giảm thiểu khoảng cách giữa các điểm riêng lẻ trong một cụm và trung tâm cụm. Trong Tableau, người dùng có thể chỉ định số cụm mong muốn hoặc yêu cầu Tableau kiểm tra các giá trị khác nhau của k và đề xuất số cụm tối ưu.
K-mean yêu cầu một đặc điểm kỹ thuật ban đầu của các trung tâm cụm. Bắt đầu với một cụm, phương thức chọn một biến có giá trị trung bình được sử dụng làm ngưỡng để chia dữ liệu thành hai. Các trọng tâm của hai phần này sau đó được sử dụng để khởi tạo phương tiện k để tối ưu hóa thành viên của hai cụm. Tiếp theo, một trong hai cụm được chọn để phân tách và một biến trong cụm đó được chọn có giá trị trung bình được sử dụng làm ngưỡng để chia cụm đó thành hai. K-mean sau đó được sử dụng để phân vùng dữ liệu thành ba cụm, được khởi tạo với các tâm của hai phần của cụm phân tách và tâm của cụm còn lại. Quá trình này được lặp lại cho đến khi đạt được số lượng cụm.
Tableau sử dụng thuật toán của Lloyd với khoảng cách Euclide bình phương để tính toán phân cụm k-mean cho mỗi k. Kết hợp với quy trình phân tách để xác định các tâm ban đầu cho mỗi k> 1, việc phân cụm kết quả là xác định, với kết quả chỉ phụ thuộc vào số lượng cụm.
Thuật toán bắt đầu bằng cách chọn các trung tâm cụm ban đầu, sau đó, nó phân vùng các nhãn hiệu bằng cách gán từng cái cho trung tâm gần nhất của nó. Sau đó, nó tinh chỉnh kết quả bằng cách tính toán các trung tâm mới cho mỗi phân vùng bằng cách lấy trung bình tất cả các điểm được gán cho cùng một cụm. Tiếp theo, nó xem xét việc gán nhãn hiệu cho các cụm và gán lại bất kỳ nhãn hiệu nào gần với một trung tâm khác hơn trước đây.
Các cụm được xác định lại và các dấu được gán lại lặp đi lặp lại cho đến khi không có thêm thay đổi nào xảy ra.
Tiêu chí được sử dụng để xác định số lượng cụm tối ưu
Tableau sử dụng tiêu chí Calinski-Harabasz để đánh giá chất lượng cụm. Tiêu chí Calinski-Harabasz được định nghĩa là:
Trong đó là phương sai tổng thể giữa các cụm, là tổng phương sai trong cụm, k số lượng cụm và N số lượng quan sát.
Giá trị của tỷ lệ này càng lớn, các cụm càng gắn kết (phương sai trong cụm thấp) và các cụm riêng biệt (tách biệt giữa các cụm) càng cao.
Nếu người dùng không chỉ định số lượng cụm, Tableau chọn số cụm tương ứng với mức tối đa cục bộ đầu tiên của chỉ số Calinski-Harabasz. Theo mặc định, k-mean sẽ được chạy tối đa 25 cụm nếu không đạt được mức tối đa cục bộ đầu tiên của chỉ số cho giá trị k nhỏ hơn. người dùng có thể đặt giá trị tối đa là 50 cụm.
Ví dụ: Phân loại các khách hàng mua hàng dựa trên tiêu chí avg(price) – Giá trung bình, Số lượng cụm là 3
người dùng có thể xem thông số về kết quả phân cụm như sau: