Hình minh họa trên cho thấy các nhóm điểm được giản lược hóa bằng cách loại bỏ một số điểm. Ví dụ, nhóm các điểm 7, 8, 12 và 16, điểm xa tâm cụm nhất là điểm 16. Vì thế chỉ duy nhất điểm 16 được giữ lại để thể hiện trên bản đồ kết quả. Lý do chọn các điểm xa tâm cụm nhất là để duy trì ranh giới của các cụm. Nguyên tắc này không chỉ giữ cho đường ranh giới các cụm không thay đổi, mà bất kỳ điểm nào xa tâm nhất nằm trên ranh giới này cũng không bị loại bỏ. Tuy nhiên, điều này có thể dẫn đến việc quá sát nhau của ranh giới các cụm. Sau khi tiến hành giản lược hóa, các điểm này sẽ xuất hiện trên bản đồ kết quả, nghĩa là trên bản đồ 1:10.000.000. Hình minh họa dưới đây thể hiện các cụm của tập dữ liệu điểm gốc (bên trái) và tập dữ liệu điểm sau khi khái quát hóa (bên phải).
Hình 1.7. Sự khác biệt giữa các dữ liệu điểm gốc và các dữ liệu điểm sau khi khái quát hóa lúc bản đồ được phóng to.
Hình minh họa trên cho thấy tập dữ liệu điểm gốc là rõ ràng hơn hoặc kém rõ ràng hơn ở tỷ lệ 1:3.500.000 nhưng chắc chắn nếu không được khái quát hóa, những
Tâm cluster Tâm cluster
điểm này sẽ rất sít nhau, thậm chí là chồng lấp lên nhau khi thể hiện ở bản đồ tỷ lệ 1:10.000.000. Nhưng sau khi áp dụng khái quát hóa bản đồ, các điểm trên bản đồ tỷ lệ nhỏ được biểu diễn rất rõ ràng. Hình minh họa sau cho thấy kết quả của việc khái quát hóa các cụm.
Hình 1.8. Việc thể hiện tập dữ liệu điểm gốc và tập dữ liệu điểm sau khi khái quát hóa về tỷ lệ 1:10.000.000
1.2. Phân cụm
1.2.1. Khái niệm
Khái niệm phân cụm đã xuất hiện từ khá lâu. Đây là một trong những kỹ thuật quan trọng trong khai phá dữ liệu và phân tích dữ liệu địa lý. Kỹ thuật này có khá nhiều ứng dụng, đặc biệt trong truy hồi thông tin và tổ chức các tài nguyên web. Quá trình này tập trung vào phân cụm trong khai phá dữ liệu. Khai phá dữ liệu bổ sung vào cụm các biến thể của các tập dữ liệu rất lớn với nhiều thuộc tính của nhiều kiểu dữ liệu khác nhau. Điều này đặt ra các yêu cầu tính toán tính toán liên quan đến các thuật toán phân cụm. Có rất nhiều thuật toán khác nhau phù hợp với thuật ngữ phân cụm. Trong suốt một thập niên qua, sự phát triển của các thuật toán này đã thu hút được không ít sự quan tâm từ các nhà nghiên cứu và các nhà khoa học. Đặc biệt là việc sử dụng các kỹ thuật phân cụm trong việc nhận dạng mẫu, xử lý ảnh và truy hồi thông tin.
Phân cụm thường bị nhầm lẫn với phân lớp nhưng có một vài điểm khác biệt giữa hai kỹ thuật này. Trong phân lớp, các đối tượng được gán cho một lớp đã được định nghĩa sẵn, trong khi với phân cụm, thì các lớp được hình thành sau này. Khái
Dữ liệu gốc tỷ lệ 1: 3.500.000
Dữ liệu gốc tỷ lệ 1: 10.000.000
niệm “lớp” trong phân cụm thường được sử dụng như từ đồng nghĩa với khái niệm cụm.
1.2.2. Phân tích cụm là gì?
Việc phân nhóm các đối tượng thành cụm dựa trên các thông tin của dữ liệu mô tả về các đối tượng đó hoặc mối quan hệ của chúng. Mục đích là nhóm các đối tượng của cơ sở dữ liệu thành các phụ lớp (là các cụm) theo ý nghĩa nhất định, dựa trên tiêu chí đảm bảo sự tương tự tối đa giữa các điểm trong cùng một cụm và sự khác biệt tối đa giữa các điểm thuộc các cụm khác nhau. Cụm trong cơ sở dữ liệu lớn có thể được sử dụng để tiến hành trực quan hóa, để giúp người sử dụng có thể phân tích, nhận diện các nhóm và phụ nhóm có các đặc tính tương đồng nhau.
Định nghĩa về cụm không được xác định quá rõ ràng và trong nhiều trường hợp, các cụm không được tách biệt rõ ràng. Tuy nhiên, hầu hết các phân tích cụm đều hướng đến sự phân loại các dữ liệu vào các nhóm không chồng lấp nhau.
Để hiểu rõ hơn về những vướng mắc gặp phải khi quyết định cấu thành cụm, hình 1.9 minh họa 20 điểm và 3 phương pháp khác nhau được sử dụng để phân chia các điểm này vào các cụm, với các cách phân cụm khác nhau, từ 1 đến 4. Nếu các cụm được cho phép lồng vào nhau thì phương pháp hợp lý nhất là chia thành 2 nhóm, trong đó mỗi nhóm có 3 nhóm con. Tuy nhiên, sự phân chia này có thể chỉ đơn giản là sản phẩm của thị giác con người. Cuối cùng, phương pháp phân chia thành bốn nhóm cũng có những ưu điểm và dựa trên những nguyên lý riêng. Vì thế, một lần nữa, cần phải nhấn mạnh rằng, không có định nghĩa nào chính xác tuyệt đối về cụm, cách tốt nhất để định nghĩa thuật ngữ này là dựa trên loại dữ liệu và kết quả cụ thể mà người sử dụng mong muốn.