2.2 .Một số giải thuật tối ƣu hóa cụm
3.4. Phƣơng pháp đề xuất để phân cụm đa mục tiêu
3.4.2. Phân cụm các điểm dữ liệu
Cho một bộ dữ liệu gồm n điểm dữ liệu và số nhóm k cho trước, phân bố các điểm tới k nhóm khác nhau. Mỗi điểm j, J =1,2, …n, được phân bố tới một nhóm nhất định theo cách sau:
Tìm tâm nhóm gần nhất với j theo ý nghĩa đối xứng. Nghĩa là chúng tôi tìm ra tâm nhóm k có khoảng cách đối xứng ngắn nhất tới j:
k= Argmini=1…K.dps( j, )
Trong đó: biểu diễn tâm của nhóm thứ i và dps( j, ) là khoảng cách dựa trên đối xứng điểm [16] giữa điểm cụ thể j với tâm nhóm nếu tỷ số tương ứng dps( j, )/ de( j, ) nhỏ hơn thông số đã quy định trước ɵ, chúng tôi gán điểm j tới nhóm thứ k
(de( j, ) là khoảng cách Ơ-clit giữa giữa điểm j và tâm nhóm ). Nhưng nếu (dps( j, )/ de( j, ))> ɵ, thì việc phân bố dựa trên tiêu chí khoảng cách Euclidean nhỏ nhất như thường dùng trong [18] hoặc thuật toán công cụ K, tức là gán gán điểm j tới nhóm thứ k tại đó k = Argmini=1…Kde( j, ). Nguyên nhân thực hiện việc phân bố này như sau: trong các giai đoạn trung gian của thusật toán, khi các tâm chưa khai triển đúng, giá trị dps cực tiểu cho mỗi điểm được mong đợi là khá lớn, vì điểm đó có thể không đối xứng với tâm nào cả. Trong các trường hợp đó, khoảng cách Euclidean để phân bố nhóm phù hợp hơn.
Sau khi việc phân bố điểm dữ liệu hoàn thành, các tâm nhóm được cập nhập lại theo tư tưởng của thuật toán K-Mean.
Procedure: Clustering_PS() + Assignment of data point:
/* là khoảng cách Euclidean giữa điểm và tâm nhóm
Gán giá trị điểm vào nhóm thứ */
3. Otherwise, the data point is assigned to the cluster where
+ Updation of centres: Compute the new centroids of the K clusters as follows:
/* Cập nhập lại tâm nhóm.*/
Hình 3.3. Các bước chính của quá trình phân điểm dữ liệu đến k nhóm dữ liệu dựa vào khoảng cách đối xứng điểm