Thuật toán phân cụm (thuật toán increamental k-mean)

Một phần của tài liệu phương pháp khai phá dữ liệu dạng đóng và ứng dụng (Trang 32 - 34)

Nhƣ chúng ta biết, thuật toán k-mean bắt đầu bằng cách chọn k cụm và chọn ngẫu nhiên k điểm là trung tâm của cụm, hoặc chọn phân hoạch ngẫu nhiên k cụm và tính trọng tâm của từng cụm này. Việc chọn ngẫu nhiên k điểm làm trung tâm của cụm nhƣ đã nói ở trên có thể cho ra k kết quả khác nhau tùy vào cách chọn k điểm ban đầu. Thuật toán increamental k-mean về cơ bản vẫn dựa trên thuật toán k-mean nhƣng sẽ không chọn k điểm làm trọng tâm cho k cụm,

độ méo dạng lớn nhất và tính lại trọng tâm các cụm.

Thuật toán đƣợc trình bày nhƣ sau:

Gán k=1;

Phase 1:

Bƣớc 1: Nếu k=1 chọn bất kì một điểm làm trung tâm cụm.

Nếu k>1 thêm trung tâm của cụm mới vào cụm có độ méo dạng lớn nhất

Bƣớc 2: Gán từng điểm vào cụm có trung tâm gần điểm đang xét nhất và cập nhật lại trung tâm của cụm.

Bƣớc 3: Nếu trung tâm cụm không thay đổi, thực hiện tiếp phase-2. Nếu không, thực hiện phase 1 bƣớc 2.

Phase 2: (Tăng số cụm)

Nếu k<=giá trị ấn định số cụm (do ngƣời dùng nhập vào), thực hiện phase 1 bƣớc 1.

Nếu không, Dừng lại.

Các bƣớc của thuật toán gần giống nhƣ thuật toán k-means, tuy nhiên có điểm khác biệt đó là thuật toán cần phải tính độ biến dạng của các cụm. Dựa trên độ biến dạng để chia cụm.

Tính độ biến dạng:

I=S – N(d(d(w,x)) W: trung tâm của cụm N: số objects trong cụm.

D(w,x): khoảng cách giữa trung tâm w của cụm và trung tâm của không gian euclidean x.

Một cụm có độ biến dạng lớn có nghĩa là trung tâm cụm có trị trí không thích hợp. Việc xác định các cụm đồng nghĩa với việc xác định trung tâm của cụm. Thuật toán chủ yếu tìm trung tâm cụm chính xác và xác định lại các đối tƣợng trong cụm.

Phase 1 của thuật toán k-means chỉ khác thuật toán increament k-mean ở chỗ: không xác định trƣớc k điểm mà tăng k từ 1 lên.

Điểm khác biệt thứ 2 là chọn cụm có độ biến dạng lớn để phân thành 2 cụm.

Khi ta phân 1 cụm có độ biến dạng lớn thành 2 cụm thì độ biến dạng của 2 cụm sẽ giảm. Tính lại các đối tƣợng objects cho các cụm và cập nhật lại trung tâm cụm. Sau khi trung tâm các cụm không đổi, ta qua phase và tăng k lên 1 và quay lại phase 1. Tìm cụm có độ biến dạng lớn nhất trong các cụm và tiếp tục tách cụm thành 2 cụm mới.

Thuật toán ngừng khi k bằng số cụm cần tìm.

Một phần của tài liệu phương pháp khai phá dữ liệu dạng đóng và ứng dụng (Trang 32 - 34)