Sinh cụm

Một phần của tài liệu Đồ án tốt nghiệp một số kỹ THUẬT NÂNG CAO HIỆU NĂNG tìm KIẾM văn bản (Trang 63)

Hai tiệm cận tổng quát khi sinh cụm là:

• Tiệm cận thứ nhất: Trên cơ sở tính tương tự mọi cặp (pairwise) tài liệu, hãy nhóm các mục tương tự vào cụm chung. Trong tiệm cận trên cơ sở tính tương tự từng cặp, mỗi tài liệu được đại diện như “vector tài liệu” trong mô hình không gian vector. Sau đó mức độ tương đồng giữa cặp tài liệu được tính toán. Trong tiến trình cụm, mỗi tài liệu được khởi đầu trong một lớp (class) và sau đó hai tài liệu tương tự nhau nhất trên cơ sở tính tương tự của cặp được tổ hợp trong một cụm. Tính tương đồng giữa cụm mới hình thành và các tài liệu khác được tính toán, sau đó tài liệu tương đồng nhất (kể cả cụm) được tổ hợp vào cụm mới. Tiến trình tổ hợp tiếp tục cho mọi tài liệu được nhóm vào cụm cao hơn. Đó là tiến trình cụm phân cấp.

Các phương pháp cụm phân cấp trên cơ sở tính tương đồng giữa các tài liệu là khá đắt khi thực hiện. Nhưng phương pháp này sinh ra tập duy nhất các cụm cho mỗi tập tài liệu.

• Tiệm cận thứ hai: Sử dụng phương pháp Heuristic không đòi hỏi tính toán tính tương tự cặp tài liệu.

Phương pháp này sinh ra nhanh các cụm thô và tươn g đối rẻ hơn phương pháp trên. Tiến trình heuristic đơn giản nhất (tiến trình một bước) lấy các tài liệu sẽ cụm theo thứ tự tùy ý. Lấy tài liệu thứ nhất để đặt vào cụm. Mỗi tài liệu tiếp theo sẽ so sánh với các cụm trước đó, rồi đặt vào cụm tồn tại nếu đủ tính tương đồng với cụm đó. Nếu tài liệu không đủ tính tương đồng với các cụm có sẵn thì để vào cụm mới. Tiến trình này tiếp tục cho đến khi mọi tài liệu được cụm. Cấu trúc cụm được sinh ra theo cách này phụ thuộc vào thứ tự trong đó tài liệu được xử lý.

Một phần của tài liệu Đồ án tốt nghiệp một số kỹ THUẬT NÂNG CAO HIỆU NĂNG tìm KIẾM văn bản (Trang 63)

Tải bản đầy đủ (PDF)

(86 trang)