Để tính đến các cụm trải rộng trên các trục, các thông số sau đƣợc tính toán cho từng cụm sau khi quá trình K-mean kết thúc:
(1)
trong đó là khoảng cách Euclid tối đa giữa các điểm dữ liệu của cụm thứ và tâm của nó ( ) dọc theo trục thứ .
Ý tƣởng là xác định một số liệu ít nhất cho thấy khoảng cách của mẫu dữ liệu thử nghiệm đến đƣờng viền cụm hay nhƣ đã phân tích là đến các điểm biên và đƣờng quyết định ranh giới. Để có giá trị gần đúng chính xác hơn, khoảng cách này đƣợc tính dựa trên cả tọa độ điểm dữ liệu và sự trải rộng của cụm trên các trục khác nhau nhƣ sau:
(2)
Trong đó là khoảng cách gần đúng của mẫu thử nghiệm từ đƣờng viền của cụm thứ và là khoảng cách Euclid giữa mẫu thử nghiệm và tâm của cụm thứ ( ). Hơn nữa, tham số n cho biết số chiều trong không gian dữ liệu.
Nhƣ đã trình bày, một yếu tố khác có ảnh hƣởng đến việc lựa chọn cụm thích hợp là mật độ của nó. Ví dụ, giữa hai cụm mà tâm của chúng ở cùng (hoặc gần nhƣ bằng nhau) khoảng cách từ mẫu thử, cụm nào có mật độ cao hơn có thể sẽ có nhiều ứng cử viên tốt hơn trở thành láng giềng gần nhất của mẫu thử. Hình 2.9 cho thấy hai cụm với mật độ khác nhau. Nhƣ có thể thấy, ví dụ: đối với thuật toán 4-NN, có thể tìm thấy bốn láng giềng gần nhất ở
khoảng cách gần hơn bằng cách chọn dữ liệu của cụm 2 làm mẫu huấn luyện.
Hình 2.9. Ảnh hƣởng của mật độ cụm đến hiệu suất của thuật toán KNN.
Mật độ của một cụm đƣợc xác định nhƣ sau:
trong đó n cho biết số kích thƣớc của không gian dữ liệu. Dựa trên các yếu tố này, thuật toán 1 và 2 sau đây đƣợc trình bày để chọn một nhóm dữ liệu thích hợp hơn.