Thuật toán phân cụm K-mean

Một phần của tài liệu (LUẬN văn THẠC sĩ) mạng nơ ron kohonen và ứng dụng phân loại sản phẩm (Trang 31 - 33)

K-mean là một trong các thuật toán học không giám sát để thực hiện phân cụm dữ liệu. Thủ tục đơn giản và dễ dàng để phân loại dữ liệu được thiết lập thông qua số lượng nhất định các cụm (giả sử k cụm). Xác định trung tâm của mỗi cụm. Trung tâm của mỗi cụm phải được đặt ở những vị trí chính xác vì đặt ở những vị trí khác nhau sẽ đưa ra kết quả khác nhau. Vị trí đặt các trung tâm ở những vị trí càng xa nhau càng tốt. Bước tiếp theo là lấy mỗi điểm thuộc một tập hợp dữ liệu đưa ra và liên kết đến trung tâm gần nhất. Khi không có điểm chờ xử lý bước đầu tiên được hoàn thành và một nhóm đầu tiên được thực hiện. Tại thời điểm này chúng ta cần phải tính toán lại trọng tâm k mới như là trọng tâm của các cụm kết quả từ bước trước. Sau khi có những trọng tâm k một ràng buộc mới có thể được thực hiện giữa tập hợp điểm dữ liệu và trung tâm mới gần nhất. Tạo ra một vòng lặp kết quả của vòng lặp này có thể nhận thấy rằng các trung tâm k

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www. lrc.tnu.edu.vn

thay đổi vị trí của chúng cho đến khi các trung tâm không có bất kì di chuyển nào. Thuật toán này nhằm mục đích giảm thiểu hàm mục tiêu như là hàm bình phương sai số.

Các bước thực hiện thuật toán K-mean

Thuật toán K-Means thực hiện qua các bước chính sau:

1. Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster). Mỗi cụm được đại diện bằng các tâm của cụm.

2. Tính khoảng cách giữa các đối tượng (objects) đến K tâm (thường dùng khoảng cách Euclidean)

3. Nhóm các đối tượng vào nhóm gần nhất 4. Xác định lại tâm mới cho các nhóm

5. Thực hiện lại bước 2 cho đến khi không có sự thay đổi nhóm nào của các đối tượng.

Hình 2.1: Sơ đồ khối thuật toán K-mean

3 Ưu điểm của thuật toán K-mean:

-Thuật toán thực hiện cho ra kết quả nhanh chóng, dễ hiểu.

Bắt đầu Kết thúc Số cụm K Tính trọng tâm các cụm Tính khoảng cách đối tượng đến K tâm Nhóm các đối tượng vào nhóm gần nhất Không có đối tượng nào thay đổi

nhóm?

g

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www. lrc.tnu.edu.vn

-Độ phức tạp của thuật toán O(tknd) trong đó n là các đối tượng, k là các cụm, d kích thước của từng đối tượng t là số lần lặp thông thường k,d,t<<n.

-Cho kết quả tốt nhất với tập dữ liệu riêng biệt hoặc tách rời nhau.

Nhược điểm của thuật toán K-mean:

-Thuật toán yêu cầu biết trước số lượng trung tâm cụm.

-Nếu có nhiều hơn 2 bộ dữ liệu chồng chéo nhau thì thuật toán khó phân cụm.

-Dữ liệu đại diện cho mẫu của tọa độ đề các và tọa độ cực sẽ cho kết quả khác nhau.

-Lựa chọn ngẫu nhiên trung tâm các cụm có thể dẫn tới kết quả không tối ưu.

-Không thể xử lý nhiễu và dữ liệu ngoại lai.

-Thuật toán thất bại với tập dữ liệu phi tuyến tính.

Một phần của tài liệu (LUẬN văn THẠC sĩ) mạng nơ ron kohonen và ứng dụng phân loại sản phẩm (Trang 31 - 33)

Tải bản đầy đủ (PDF)

(74 trang)