Hai thuật toán phân vùng và phân cấp có thể tích hợp với nhau. Có nghĩa là kết quả do thuật toán phân cấp tạo ra có thể được phát triển nhờ các bước phân vùng.
2.2.2. Các độ đo sử dụng trong phân cụm.
Giả sử trong một miền dữ liệu D, một phần tử dữ liệu p được biểu diễn bằng một véc tơ có số chiều là n (p1, p2,…,pn), trong đó mỗi chiều biểu diễn một thuộc tính mô tả phần tử dữ liệu p. Tùy thuộc vào kiểu giá trị biểu diễn mà độ tương tự giữa hai phần tử p1 và p2 có thể được tính toán bằng các cách khác nhau. Ở đây, học viên chỉ đề cập đến cách tính khoảng cách cho trường hợp giá trị biểu diễn pi các thuộc tính là liên tục (hay là các số thực).
Độ đo khoảng cách Manhattan:
Độ đo khoảng cách Euclide:
Độ đo khoảng cách Minkowski:
Các điểm ban đầu Phân cụm phân vùng
(2.1)
(2.2)
Từ công thức tính độ đo khoảng cách Minkowski, khi q = 1 là độ đo Manhattan, khi q = 2 là độ đo Euclide.
2.3. Gộp nhóm với thuật toán phân vùng K-means
2.3.1. Giới thiệu về thuật toán phân vùng K-means
K-means là một trong những thuật toán đơn giản nhất được sử dụng để giải quyết các vấn đề phân cụm đã biết và là một trong những thuật toán phân vùng được sử dụng phổ biến. Thuật toán này do Mac - Queen đề xuất năm 1967, sau đó được JA Hartigan và MA Wong phát triển vào năm 1975. Mac - Queen cho rằng K-means là một thuật toán gán mỗi đối tượng vào một cụm có trọng tâm (centroid ‐ mean) gần nhất (Li, ZL, 1997). Thuật toán k-means cơ bản hoạt động dựa trên phương pháp giảm thiểu sai số bình phương và quy trình hoạt động của nó như sau: