3. Thuật toỏn phõn cụm dữ liệu dựa vào cụm trung tõm 1 Thuật toỏn K – means
3.2 Thuật toỏn PAM
Thuật toỏn PAM là thuật toỏn mở rộng của thuật toỏn K-means nhằm cú khả năng xử lý hiệu quả đối với dữ liệu nhiễu hoặc phần tử ngoại lai, PAM sử dụng cỏc đối tượng medoid để biểu diễn cho cỏc cụm dữ liệu, một đối tượng medoid là đối tượng đặt tại vị trớ trung tõm nhất bờn trong mỗi cụm. Vỡ vậy, đối tượng medoid ớt bị ảnh hưởng của cỏc đối tượng ở rất xa trung tõm, trong khi đú cỏc trọng tõm của thuật toỏn K – means lại rất bị tỏc động bởi cỏc điểm xa trung tõm này. Ban đầu, PAM khởi tạo k đối tượng medoid và phõn phối cỏc đối tượng cũn lại vào cỏc cụm với đối tượng medoid đại diện tương ứng sao cho chỳng tương tự đối với medoid trong cụm nhất.
Giả sử Oj là đối tượng khụng phải medoid mà Om là một đối tượng medoid, khi đú ta núi Oj thuộc về cụm cú đối tượng medoid là Om làm đại diện nếu d(Oj, Om) = minOe(Oj, Oe); trong đú d(Oj, Om) là độ phi tương tự giữa Oj và Oe, minOe là giỏ trị nhỏ nhất của độ phi tương tự giữa Oj và tất cả cỏc đối tượng medoid của cỏc cụm dữ liệu. chất lượng của mỗi cụm được khỏm phỏ được đỏnh giỏ thụng qua độ phi tương tự trung bỡnh giữa một đối tượng và đối tượng medoid tương ứng với cụm của nú, nghĩa là chất lượng phõn cụm được đỏnh giỏ thụng qua chất lượng của tất cả cỏc đối tượng medoid. Độ
phi tương tự được xỏc định bằng độ đo khoảng cỏch, thuật toỏn PAM được ỏp dụng cho dữ liệu khụng gian. Để xỏc định cỏc medoid, PAM được ỏp dụng cho dữ liệu khụng gian. Để xỏc định cỏc medoid, PAM bắt đầu bằng cỏch lựa chon k đối tượng medoid bất kỳ. Sau mỗi bước thực hiện , PAM cố gắng hoỏn chuyển giữa đối tượng Medoid Om và một đối tượng Op, khụng phải là medoid, miễn là sự hoỏn chuyển này nhằm cải tiến chất lượng của phõn cụm, quỏ trỡnh này kết thỳc khi chất lượng phõn cụm khụng thay đổi. Chất lượng phõn cụm được đỏnh giỏ thụng qua hàm tiờu chuẩn, chất lượng phõn cụm tốt nhất khi hàm tiờu chuẩn đạt giỏ trị tối thiểu.
PAM tớnh giỏ trị Cjmp cho tất cả cỏc đối tượng Oj để làm căn cứ cho việc hoỏn chuyển giữa Om và Op.
Om : là đối tượng medoid hiện thời cần được thay thế : Op : là đối tượng medoid mới thay thế cho Om;
Oj : Là đối tượng dữ liệu ( Khụng phải medoid) cú thể được di chuyển sang cụm khỏc;
Oj,2 : Là đối tượng medoid hiện thời gần đối tượng Oj nhất Cỏc bước thực hiện thuật toỏn PAM
Input : Tập dữ liệu cú n phần tử, số cụm k.
Output : k cụm dữ liệu sao cho chất lượng phõn hoạch là tốt nhất.
BEGIN
1. Chọn k đối tượng medoid bất kỳ;
2. Tớnh TCmp cho tất cả cỏc cặp đối tượng Om, Op. Trong đú, Om là đối tượng medoid và Op là đối tượng khụng phải medoid;
3. Chọn cặp đối tượng Om và Op. Tớnh MinOm, MinOp, TCmp, nếu TCmp là õm thay thế Om bởi Op và quay lại bước 2. Nếu TCmp dương, chuyển sang bước 4;
4. Với mỗi đối tượng khụng phải medoid, xỏc định đối tượng medoid tương tự với nú nhất đồng thời gỏn nhón cụm cho chỳng.
END.