Các kĩ thuật phân cụm

Một phần của tài liệu Nghiên cứu giải pháp nâng cao tốc độ hiển thị dữ liệu trên bản đồ trực tuyến (Trang 28 - 29)

Rất nhiều các thuật toán khác nhau được sử dụng để xây dựng các nhóm phân biệt từ cơ sở dữ liệu lớn. Trong phần này, học viên sẽ trình bày về hai thuật toán phân cụm cổ điển và một số thuật toán khác liên quan đến những vấn đề và tập dữ liệu cụ thể.

 Thuật toán phân cấp: Thuật toán phân cấp tạo ra một chuỗi lồng nhau của các nhóm con, phân rã tập dữ liệu/đối tượng có thứ tự phân cấp theo một tiêu chí nào đó. Mỗi mức phân rã là sự gộp (hay tách) hai cụm từ mức phân rã cao hơn hoặc thấp hơn. Các thuật toán điển hình là: K-medoids, CLARANS

 Thuật toán phân vùng: Thuật toán phân vùng phân chia các đối tượng dữ liệu thành các nhóm nhỏ hay cụm không chồng lấp nhau, tức là mỗi đối tượng dữ liệu nằm trong một cụm riêng. Các thuật toán điển hình là: K-means, Diana, BIRCH, AGNES, CAMELEON, ROCK.

 Phân cụm dựa trên mật độ (density-based): thuật toán này nhóm các đối tượng theo mật độ đặc trưng của chức năng nào đó thuộc đối tượng. Mật độ thường được định nghĩa là số lượng đối tượng trong một khu vực cụ thể của cơ sở dữ liệu. Thuật toán này được vận hành đến khi số lượng đối tượng trong một nhóm vượt quá một tham số nào đó. Vì thế thuật toán này khác với thuật toán phân vùng là thuật toán được vận hành đến khi đạt được một số lượng nhất định các cụm. Các thuật toán điển hình là: DBSCAN, OPTICS, Den Clue.

 Phân cụm dựa trên lưới (grid-based): các thuật toán này tập trung vào các loại dữ liệu không gian tức là dữ liệu được mô hình hóa theo cấu trúc hình học của các đối tượng trong không gian, mối quan hệ và thuộc tính của chúng. Mục tiêu của thuật toán này là lượng tử hóa dữ liệu thành một số ô vuông, sau đó làm việc với các đối tượng nằm trong các ô vuông này. Nói chung thuật toán này không di chuyển các dữ liệu

dạng điểm nhưng lại tạo ra một vài mức phân cấp của nhóm các đối tượng. Vì thế, thuật toán này khá gần với thuật toán phân cấp nhưng việc gộp các ô lưới, sau đó là các cụm không phụ thuộc vào các phép đo khoảng cách mà nó do các tham số định nghĩa sẵn quyết định. Các thuật toán điển hình là: STING, WaveCụm, CLIQUE

 Phân cụm dựa trên mô hình (model-based): Các thuật toán này tìm ra các tham số mô hình xấp xỉ phù hợp nhất với tập dữ liệu. Nó có thể là thuật toán phân vùng hoặc phân cấp, tùy theo cấu trúc hay mô hình mà các giả thuyết được đưa ra về tập dữ liệu và cách mà thuật toán này tinh chỉnh mô hình để phân vùng. Các thuật toán này khá gần với phân cụm dựa trên mật độ (density-based), dựa trên nền tảng này, các cụm riêng biệt được phát triển để cải thiện các mô hình xác định. Tuy nhiên, đôi khi các thuật toán này bắt đầu với một số lượng cụ thể các cụm mà chúng không sử dụng các khái niệm giống với phân cụm dựa trên mật độ (density-based). Các thuật toán điển hình là: EM, SOM, COBWEB.

 Phân cụm dữ liệu tuyệt đối: các thuật toán này tập trung vào các dữ liệu có bề mặt Euclide hoặc các bề mặt khác mà các pháp đo khoảng cách không thể áp dụng được. Thuật toán điển hình là pCluster.

Một phần của tài liệu Nghiên cứu giải pháp nâng cao tốc độ hiển thị dữ liệu trên bản đồ trực tuyến (Trang 28 - 29)

Tải bản đầy đủ (PDF)

(61 trang)