Thuật toán gom nhóm

Có hai loại thuật toán gom nhóm cơ bản đó là thuật toán phân hoạch và thuật toán thứ tự.

Thuật toán phân hoạch xây dựng một vùng cơ sở dữ liệu D của n đối tượng vào k nhóm, k là một tham số truyền vào của thuật toán. Thuật toán phân hoạch khởi tạo một phân hoạch D và sau đó dùng chiến lược điều khiển vòng lặp để tối ưu một chức năng của mục tiêu. Mỗi nhóm được đại diện bởi trọng tâm của nhóm (thuật toán k-means) hoặc vị trí của một số đối tượng trong nhóm ở gần trung tâm của nhóm nhất (thuật toán k-medoid). Ngược lại, các thuật toán phân hoạch sử dụng thủ tục hai bước. Trước hết, xác định k đại diện giá trị nhỏ nhất chức năng đối tượng. Bước tiếp theo đưa ra một phân hoạch tương ứng.

Thuật toán thứ tự tạo ra sự phân chia thứ tự trong D. Phân chia có thứ tự được đại diện bởi một cây tương đồng, quá trình phân chia D thành các tập con nhỏ hơn cho đến khi mỗi tập con chỉ gồm một đối tượng. Trong việc chia thứ tự, mỗi nút của cây đại diện một nhóm của D. Cây biểu diễn mức độ tương đồng hoặc có thể được tạo ra từ các lá cho đến gốc (tiếp cận tích hợp) hoặc cũng có thể từ gốc đến các lá (tiếp cận phân chia) bằng cách trộn hoặc phân chia các nhóm ở mỗi bước. Ngược lại với thuật toán phân hoạch, thuật toán thứ tự không cần giá trị đầu vào k. Tuy nhiên, sử dụng điều kiện kết thúc để điều khiển kết thúc các tiến trình trộn hoặc phân chia. Một ví dụ về điều kiện kết thúc ở quá trình tích hợp là khoảng cách giới hạn Dmin giữa các nhóm của Q.

Trong chừng mực nào đó, vấn đề chính với thuật toán nhóm thứ tự sẽ gặp khó khăn trong việc xác định các tham số tương ứng cho điều kiện kết thúc. Ví dụ, giá trị Dmin nhỏ để phân chia tất cả các nhóm “tự nhiên” và đồng thời Dmin cũng đủ lớn để không có nhóm nào bị phân chia thành hai phần.

Sắp hàng từng cặp (Pairwise Sequence Alignment-PSA)

Xác định thông số Eps and MinPts