Giới thiệu về thuật toán phân vùng K-means

Một phần của tài liệu Nghiên cứu giải pháp nâng cao tốc độ hiển thị dữ liệu trên bản đồ trực tuyến (Trang 37 - 39)

K-means là một trong những thuật toán đơn giản nhất được sử dụng để giải quyết các vấn đề phân cụm đã biết và là một trong những thuật toán phân vùng được sử dụng phổ biến. Thuật toán này do Mac - Queen đề xuất năm 1967, sau đó được JA Hartigan và MA Wong phát triển vào năm 1975. Mac - Queen cho rằng K-means là một thuật toán gán mỗi đối tượng vào một cụm có trọng tâm (centroid ‐ mean) gần nhất (Li, ZL, 1997). Thuật toán k-means cơ bản hoạt động dựa trên phương pháp giảm thiểu sai số bình phương và quy trình hoạt động của nó như sau:

- Chọn ngẫu nhiên k dữ liệu điểm từ toàn bộ tập dữ liệu và dùng các điểm này như tâm của k cụm, sau đó xác định tọa độ của tâm (hình 2.4)

Hình 2.4. Gán k tâm cụm một cách ngẫu nhiên (L.Kaufman & P.J. Rousseeuw, 1990)

- Tính toán khoảng cách Euclide của mỗi dữ liệu điểm với mỗi tâm cụm sau đó gán dữ liệu điểm vào cụm mà nó có khoảng cách gần tâm nhất (hình 2.5)

Hình 2.5. Gán mỗi điểm vào một cụm gần nhất (L.Kaufman & P.J. Rousseeuw, 1990)

- Tính toán lại tâm cụm của mỗi cụm mới hình thành để khoảng cách sai số bình phương của mỗi cụm là nhỏ nhất (hình 2.6)

Hình 2.6. Tâm của mỗi cụm dịch chuyển sau khi được tính toán lại (L.Kaufman & P.J. Rousseeuw, 1990)

Hình 2.7. Gán lại các điểm vào các cụm gần nhất và lặp lại quy trình này (L.Kaufman & P.J. Rousseeuw, 1990)

- Lặp lại các bước 2 và 3 đến khi tâm các cụm không thay đổi

- Thuật toán dừng lại khi những thay đổi về vị trí của các điểm bằng không hoặc nhỏ hơn giá trị cho sẵn nào đó, và mỗi đối tượng chỉ được gán cho 1 cụm.

Thuật toán k-means khá đơn giản và dễ sử dụng để phân loại một tập dữ liệu cho trước thông qua một số nhất định các cụm (giả sử là k cụm) được quy ước trước. Ý tưởng chính của thuật toán này là xác định k tâm của k cụm, độ chính xác của thuật toán này phụ thuộc cơ bản vào việc lựa chọn những điểm ban đầu. Để độ chính xác cao hơn, những điểm ban đầu cần có độ khác biệt nhất định.

Một phần của tài liệu Nghiên cứu giải pháp nâng cao tốc độ hiển thị dữ liệu trên bản đồ trực tuyến (Trang 37 - 39)