Phân cụm (Phân cụm)

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu giải pháp nâng cao tốc độ hiển thị dữ liệu trên bản đồ trực tuyến 04 (Trang 26 - 29)

1.2.1. Khái niệm

Khái niệm phân cụm đã xuất hiện từ khá lâu. Đây là một trong những kỹ thuật quan trọng trong khai phá dữ liệu và phân tích dữ liệu địa lý. Kỹ thuật này có khá nhiều ứng dụng, đặc biệt trong truy hồi thông tin và tổ chức các tài nguyên web. Quá trình này tập trung vào phân cụm trong khai phá dữ liệu. Khai phá dữ liệu bổ sung vào cụm các biến thể của các tập dữ liệu rất lớn với nhiều thuộc tính của nhiều kiểu dữ liệu khác nhau. Điều này đặt ra các yêu cầu tính toán tính toán liên quan đến các thuật toán phân cụm. Có rất nhiều thuật toán khác nhau phù hợp với thuật ngữ phân cụm. Trong suốt một thập niên qua, sự phát triển của các thuật toán này đã thu hút được không ít sự quan tâm từ các nhà nghiên cứu và các nhà khoa học. Đặc biệt là việc sử dụng các kỹ thuật phân cụm trong việc nhận dạng mẫu, xử lý ảnh và truy hồi thông tin.

Phân cụm thường bị nhầm lẫn với phân lớp nhưng có một vài điểm khác biệt giữa hai kỹ thuật này. Trong phân lớp, các đối tượng được gán cho một lớp đã được định nghĩa sẵn, trong khi với phân cụm, thì các lớp được hình thành sau này. Khái

Dữ liệu gốc tỷ lệ 1: 3.500.000

Dữ liệu gốc tỷ lệ 1: 10.000.000

niệm “lớp” trong phân cụm thường được sử dụng như từ đồng nghĩa với khái niệm cụm.

1.2.2. Phân tích cụm là gì?

Việc phân nhóm các đối tượng thành cụm dựa trên các thông tin của dữ liệu mô tả về các đối tượng đó hoặc mối quan hệ của chúng. Mục đích là nhóm các đối tượng của cơ sở dữ liệu thành các phụ lớp (là các cụm) theo ý nghĩa nhất định, dựa trên tiêu chí đảm bảo sự tương tự tối đa giữa các điểm trong cùng một cụm và sự khác biệt tối đa giữa các điểm thuộc các cụm khác nhau. Cụm trong cơ sở dữ liệu lớn có thể được sử dụng để tiến hành trực quan hóa, để giúp người sử dụng có thể phân tích, nhận diện các nhóm và phụ nhóm có các đặc tính tương đồng nhau.

Định nghĩa về cụm không được xác định quá rõ ràng và trong nhiều trường hợp, các cụm không được tách biệt rõ ràng. Tuy nhiên, hầu hết các phân tích cụm đều hướng đến sự phân loại các dữ liệu vào các nhóm không chồng lấp nhau.

Để hiểu rõ hơn về những vướng mắc gặp phải khi quyết định cấu thành cụm, hình 1.9 minh họa 20 điểm và 3 phương pháp khác nhau được sử dụng để phân chia các điểm này vào các cụm, với các cách phân cụm khác nhau, từ 1 đến 4. Nếu các cụm được cho phép lồng vào nhau thì phương pháp hợp lý nhất là chia thành 2 nhóm, trong đó mỗi nhóm có 3 nhóm con. Tuy nhiên, sự phân chia này có thể chỉ đơn giản là sản phẩm của thị giác con người. Cuối cùng, phương pháp phân chia thành bốn nhóm cũng có những ưu điểm và dựa trên những nguyên lý riêng. Vì thế, một lần nữa, cần phải nhấn mạnh rằng, không có định nghĩa nào chính xác tuyệt đối về cụm, cách tốt nhất để định nghĩa thuật ngữ này là dựa trên loại dữ liệu và kết quả cụ thể mà người sử dụng mong muốn.

Hình 1.9. Các cách khác nhau để phân cụm cùng một tập điểm (Pang Ninh Tan, M.Steinbach, V. Kumar, 2006) M.Steinbach, V. Kumar, 2006)

1. Các điểm ban đầu

2. Hai cluster tạo thành

3. Sáu cluster

Phân tích cụm là quá trình phân loại các đối tượng từ dữ liệu mà qua đó, các đối tượng được gán nhãn theo nhãn của lớp (nhóm). Như vậy, phân cụm không được sử dụng để gán nhãn lớp trước, ngoại trừ trường hợp được sử dụng với mục đích kiểm chứng về độ chính xác của phân cụm. Do đó, phân tích cụm khác với việc nhận diện mẫu hoặc lĩnh vực thống kê như các phân tích phân loại và các phân tích để đưa ra quyết định.

Trong khi phân tích cụm có thể rất hữu ích trong các lĩnh vực đề cập ở trên, trong thực tế có rất nhiều lĩnh vực sử dụng trực tiếp hoặc sử dụng phương pháp này như phương tiện cơ bản của việc phân lớp. Ví dụ, việc quyết định xem sẽ sử dụng đặc trưng nào để biểu diễn các đối tượng là bước chủ yếu của những kỹ thuật như việc nhận diện mẫu. Phân tích cụm thường chọn các đặc trưng cho sẵn và quy trình bắt đầu từ đó. Vì thế, phân tích cụm là công cụ hữu ích trong nhiều lĩnh vực (như đã nêu trên).

1.2.3. Các kĩ thuật phân cụm

Rất nhiều các thuật toán khác nhau được sử dụng để xây dựng các nhóm phân biệt từ cơ sở dữ liệu lớn. Trong phần này, học viên sẽ trình bày về hai thuật toán phân cụm cổ điển và một số thuật toán khác liên quan đến những vấn đề và tập dữ liệu cụ thể.

 Thuật toán phân cấp: Thuật toán phân cấp tạo ra một chuỗi lồng nhau của các nhóm con, phân rã tập dữ liệu/đối tượng có thứ tự phân cấp theo một tiêu chí nào đó. Mỗi mức phân rã là sự gộp (hay tách) hai cụm từ mức phân rã cao hơn hoặc thấp hơn. Các thuật toán điển hình là: K-medoids, CLARANS

 Thuật toán phân vùng: Thuật toán phân vùng phân chia các đối tượng dữ liệu thành các nhóm nhỏ hay cụm không chồng lấp nhau, tức là mỗi đối tượng dữ liệu nằm trong một cụm riêng. Các thuật toán điển hình là: K-means, Diana, BIRCH, AGNES, CAMELEON, ROCK.

 Phân cụm dựa trên mật độ (density-based): thuật toán này nhóm các đối tượng theo mật độ đặc trưng của chức năng nào đó thuộc đối tượng. Mật độ thường được định nghĩa là số lượng đối tượng trong một khu vực cụ thể của cơ sở dữ liệu. Thuật toán này được vận hành đến khi số lượng đối tượng trong một nhóm vượt quá một tham số nào đó. Vì thế thuật toán này khác với thuật toán phân vùng là thuật toán được vận hành đến khi đạt được một số lượng nhất định các cụm. Các thuật toán điển hình là: DBSCAN, OPTICS, Den Clue.

 Phân cụm dựa trên lưới (grid-based): các thuật toán này tập trung vào các loại dữ liệu không gian tức là dữ liệu được mô hình hóa theo cấu trúc hình học của các đối tượng trong không gian, mối quan hệ và thuộc tính của chúng. Mục tiêu của thuật toán này là lượng tử hóa dữ liệu thành một số ô vuông, sau đó làm việc với các đối tượng

dạng điểm nhưng lại tạo ra một vài mức phân cấp của nhóm các đối tượng. Vì thế, thuật toán này khá gần với thuật toán phân cấp nhưng việc gộp các ô lưới, sau đó là các cụm không phụ thuộc vào các phép đo khoảng cách mà nó do các tham số định nghĩa sẵn quyết định. Các thuật toán điển hình là: STING, WaveCụm, CLIQUE

 Phân cụm dựa trên mô hình (model-based): Các thuật toán này tìm ra các tham số mô hình xấp xỉ phù hợp nhất với tập dữ liệu. Nó có thể là thuật toán phân vùng hoặc phân cấp, tùy theo cấu trúc hay mô hình mà các giả thuyết được đưa ra về tập dữ liệu và cách mà thuật toán này tinh chỉnh mô hình để phân vùng. Các thuật toán này khá gần với phân cụm dựa trên mật độ (density-based), dựa trên nền tảng này, các cụm riêng biệt được phát triển để cải thiện các mô hình xác định. Tuy nhiên, đôi khi các thuật toán này bắt đầu với một số lượng cụ thể các cụm mà chúng không sử dụng các khái niệm giống với phân cụm dựa trên mật độ (density-based). Các thuật toán điển hình là: EM, SOM, COBWEB.

 Phân cụm dữ liệu tuyệt đối: các thuật toán này tập trung vào các dữ liệu có bề mặt Euclide hoặc các bề mặt khác mà các pháp đo khoảng cách không thể áp dụng được. Thuật toán điển hình là pCluster.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu giải pháp nâng cao tốc độ hiển thị dữ liệu trên bản đồ trực tuyến 04 (Trang 26 - 29)

Tải bản đầy đủ (PDF)

(61 trang)