Thuật tốn gom nhóm

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng (Trang 50 - 51)

CHƯƠNG 4 THUẬT TOÁN DBSCAN

4.2. Thuật tốn gom nhóm

Có hai loại thuật tốn gom nhóm cơ bản đó là thuật toán phân hoạch và thuật toán thứ tự.

Thuật toán phân hoạch xây dựng một vùng cơ sở dữ liệu D của n đối tượng vào k nhóm, k là một tham số truyền vào của thuật toán. Thuật toán phân hoạch khởi tạo một phân hoạch D và sau đó dùng chiến lược điều khiển vịng lặp để tối ưu một chức năng của mục tiêu. Mỗi nhóm được đại diện bởi trọng tâm của nhóm (thuật tốn k-means) hoặc vị trí của một số đối tượng trong nhóm ở gần trung tâm của nhóm nhất (thuật tốn k-medoid). Ngược lại, các thuật toán phân hoạch sử dụng thủ tục hai bước. Trước hết, xác định k đại diện giá trị nhỏ nhất chức năng đối tượng. Bước tiếp theo đưa ra một phân hoạch tương ứng.

Thuật toán thứ tự tạo ra sự phân chia thứ tự trong D. Phân chia có thứ tự được đại diện bởi một cây tương đồng, quá trình phân chia D thành các tập con nhỏ hơn cho đến khi mỗi tập con chỉ gồm một đối tượng. Trong việc chia thứ tự, mỗi nút của cây đại diện một nhóm của D. Cây biểu diễn mức độ tương đồng hoặc có thể được tạo ra từ các lá cho đến gốc (tiếp cận tích hợp) hoặc cũng có thể từ gốc đến các lá (tiếp cận phân chia) bằng cách trộn hoặc phân chia các nhóm ở mỗi bước. Ngược lại với thuật tốn phân hoạch, thuật tốn thứ tự khơng cần giá trị đầu vào k. Tuy nhiên, sử dụng điều kiện kết thúc để điều khiển kết thúc các tiến trình trộn hoặc phân chia. Một ví dụ về điều kiện kết thúc ở q trình tích hợp là khoảng cách giới hạn Dmin giữa các nhóm của Q.

Trong chừng mực nào đó, vấn đề chính với thuật tốn nhóm thứ tự sẽ gặp khó khăn trong việc xác định các tham số tương ứng cho điều kiện kết thúc. Ví dụ, giá trị Dmin nhỏ để phân chia tất cả các nhóm “tự nhiên” và đồng thời Dmin cũng đủ lớn để khơng có nhóm nào bị phân chia thành hai phần.

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng (Trang 50 - 51)

Tải bản đầy đủ (PDF)

(78 trang)