Cĩ rất nhiều các giải thuật khác nhau áp dụng cho bài tốn Phân nhĩm văn bản. Độ phức tạp của giải thuật tỷ lệ với độ lớn dữ liệu đầu vào mà nĩ cĩ thể giải quyết. Ở đây chỉ xin giới thiệu hai giải thuật đơn giản nhưng cho độ chính xác cao bởi vì ứng dụng cho bài tốn phân nhĩm đoạn văn trong một văn bản là bài tốn cĩ điều kiện dữ liệu đầu vào nhỏ.
Thuật tốn K-Means
Đây là một trong những thuật tốn kinh điển của Phân nhĩm văn bản. Thuật tốn này thực hiện phân hoạch tập các văn bản ban đầu thành các K nhĩm khơng giao nhau, cĩ nghĩa mỗi văn bản chỉ thuộc vào một nhĩm duy nhất.
Bước 1: Chọn K điểm trọng tâm của các nhĩm một cách ngẫu nhiên
Bước 2: Gắn tất cả các điểm dữ liệu tới trọng tâm gần nhất (cĩ độ tương tự cao nhất). Lúc này đã hình thành k nhĩm
Bước 3: Gắn lại trọng tâm cho mỗi nhĩm
Bước 4: Lặp lại bước 2 và bước 3 cho đến khi các trọng tâm khơng cịn thay đổi hoặc sau một số bước lặp nhất định
Hình 7: Thuật tốn K-Means
Trong thuật tốn K-means, để biểu diễn văn bản và tính độ tương tự giữa các văn bản với nhau, mơ hình véc tơ thưa được ưa chuộng sử dụng nhất (sẽ trình bày cụ thể mơ hình VSP trong chương sau).
Thuật tốn lập nhĩm theo cây phân cấp (Hierachical Clustering - HC)
Thuật tốn lập nhĩm theo cây phân cấp tạo ra các phân hoạch với các nhĩm lồng nhau, nhĩm ở mức dưới là một tập con của nhĩm ở mức trên. Cĩ hai giải thuật phân cấp phục vụ cho phân nhĩm văn bản:
Bước 1: Ban đầu mỗi văn bản được coi như một nhĩm
Bước 2: Tính độ tương tự giữa tất cả các nhĩm với nhau
Bước 3: Chọn ra 2 nhĩm cĩ độ tương tự cao nhất, kết hợp chúng lại thành một nhĩm mới đồng thời loại bỏ 2 nhĩm đĩ
Bước 4: Lặp lại bước 2 và bước 3 cho đến khi chỉ cịn 1 nhĩm duy nhất chứa tồn bộ các văn bản
Xây dựng hệ thống Tĩm tắt văn bản tiếng Việt sử dụng các kỹ thuật lượng giá, thống kê Thuật tốn cây phân cấp trên xuống cũng tương tự như thuật tốn cây phân cấp dưới lên, nhưng bước ban đầu quy tập tất cả các văn bản vào một nhĩm, sau đĩ mỗi bước chọn một nhĩm trong các nhĩm để phân chia thành hai nhĩm con theo một điều kiện nào đĩ. Quá trình kết thúc khi mỗi văn bản đã thuộc một nhĩm khác nhau.