Phân tích cụm là gì?

Một phần của tài liệu Nghiên cứu giải pháp nâng cao tốc độ hiển thị dữ liệu trên bản đồ trực tuyến (Trang 27 - 28)

Việc phân nhóm các đối tượng thành cụm dựa trên các thông tin của dữ liệu mô tả về các đối tượng đó hoặc mối quan hệ của chúng. Mục đích là nhóm các đối tượng của cơ sở dữ liệu thành các phụ lớp (là các cụm) theo ý nghĩa nhất định, dựa trên tiêu chí đảm bảo sự tương tự tối đa giữa các điểm trong cùng một cụm và sự khác biệt tối đa giữa các điểm thuộc các cụm khác nhau. Cụm trong cơ sở dữ liệu lớn có thể được sử dụng để tiến hành trực quan hóa, để giúp người sử dụng có thể phân tích, nhận diện các nhóm và phụ nhóm có các đặc tính tương đồng nhau.

Định nghĩa về cụm không được xác định quá rõ ràng và trong nhiều trường hợp, các cụm không được tách biệt rõ ràng. Tuy nhiên, hầu hết các phân tích cụm đều hướng đến sự phân loại các dữ liệu vào các nhóm không chồng lấp nhau.

Để hiểu rõ hơn về những vướng mắc gặp phải khi quyết định cấu thành cụm, hình 1.9 minh họa 20 điểm và 3 phương pháp khác nhau được sử dụng để phân chia các điểm này vào các cụm, với các cách phân cụm khác nhau, từ 1 đến 4. Nếu các cụm được cho phép lồng vào nhau thì phương pháp hợp lý nhất là chia thành 2 nhóm, trong đó mỗi nhóm có 3 nhóm con. Tuy nhiên, sự phân chia này có thể chỉ đơn giản là sản phẩm của thị giác con người. Cuối cùng, phương pháp phân chia thành bốn nhóm cũng có những ưu điểm và dựa trên những nguyên lý riêng. Vì thế, một lần nữa, cần phải nhấn mạnh rằng, không có định nghĩa nào chính xác tuyệt đối về cụm, cách tốt nhất để định nghĩa thuật ngữ này là dựa trên loại dữ liệu và kết quả cụ thể mà người sử dụng mong muốn.

Hình 1.9. Các cách khác nhau để phân cụm cùng một tập điểm (Pang Ninh Tan, M.Steinbach, V. Kumar, 2006)

1. Các điểm ban đầu

2. Hai cluster tạo thành

3. Sáu cluster

Phân tích cụm là quá trình phân loại các đối tượng từ dữ liệu mà qua đó, các đối tượng được gán nhãn theo nhãn của lớp (nhóm). Như vậy, phân cụm không được sử dụng để gán nhãn lớp trước, ngoại trừ trường hợp được sử dụng với mục đích kiểm chứng về độ chính xác của phân cụm. Do đó, phân tích cụm khác với việc nhận diện mẫu hoặc lĩnh vực thống kê như các phân tích phân loại và các phân tích để đưa ra quyết định.

Trong khi phân tích cụm có thể rất hữu ích trong các lĩnh vực đề cập ở trên, trong thực tế có rất nhiều lĩnh vực sử dụng trực tiếp hoặc sử dụng phương pháp này như phương tiện cơ bản của việc phân lớp. Ví dụ, việc quyết định xem sẽ sử dụng đặc trưng nào để biểu diễn các đối tượng là bước chủ yếu của những kỹ thuật như việc nhận diện mẫu. Phân tích cụm thường chọn các đặc trưng cho sẵn và quy trình bắt đầu từ đó. Vì thế, phân tích cụm là công cụ hữu ích trong nhiều lĩnh vực (như đã nêu trên).

Một phần của tài liệu Nghiên cứu giải pháp nâng cao tốc độ hiển thị dữ liệu trên bản đồ trực tuyến (Trang 27 - 28)

Tải bản đầy đủ (PDF)

(61 trang)