Gom cụm văn bản là một quá trình học không giám sát, gom các tài liệu thành một hay nhiều cụm, sao cho mỗi cụm gồm những tài liệu có nội dung tương tự nhau và có chủ đề khác xa với các cụm khác. Gom cụm văn bản được xem là một trong những bài toán quan trọng của khai thác dữ liệu văn bản, bên cạnh những bài toán khác như phân loại, tóm tắt văn bản. Chúng được đặt ra do nhu cầu tổ chức, truy vấn thông tin nhanh chóng và chính xác trong thời đại bùng nổ thông tin hiện nay.
Các phương pháp gom cụm nói chung có thể phân chia thành các loại chính như sau [36]: phân hoạch, phân cấp, dựa trên mật độ, dựa trên lưới và dựa trên mô hình. Phương pháp phân hoạch k-means [58] và phương pháp phân cấp tích tụ HAC (Hierarchical Agglomerative Clustering) [43] là hai kỹ thuật gom cụm được áp dụng phổ biến cho bài toán gom cụm văn bản [87]. Khảo sát chi tiết về các phương pháp gom cụm văn bản có thể xem trong [20], [75], [87].
Ngoài cách phân loại trên, dựa trên trạng thái của tập văn bản mà có thể chia các phương pháp gom cụm thành hai dạng: gom cụm trên tập dữ liệu tĩnh và trên tập dữ liệu có biến động [71]. Gom cụm trên tập dữ liệu tĩnh (trong luận án này gọi tắt là gom cụm tĩnh) được hiểu theo nghĩa tất cả dữ liệu cần gom cụm phải có sẵn trước khi áp dụng thuật toán và không bị thay đổi trong quá trình gom cụm. Nếu tập dữ liệu được bổ sung thêm dữ liệu mới (hay gọi là tập dữ liệu có biến động), người ta phải gom cụm lại toàn bộ dữ liệu và cập nhật thông tin cụm. Trong khi đó, các thuật toán gom cụm trên tập dữ liệu có biến động (gọi tắt là gom cụm động) làm việc theo cách: gán các đối tượng vào cụm tương ứng khi chúng được đưa vào cơ sở dữ liệu. So với thuật toán gom cụm tĩnh, do không cần tái gom cụm mỗi khi dữ liệu thay đồi nên thuật toán gom cụm động hiệu quả hơn mà vẫn cho kết quả tương đương hoặc gần tương đương. Do đó, chúng thích hợp cho các cơ sở dữ liệu lớn và thường xuyên thay đổi. Nhìn chung có hai chiến lược chính giải quyết vấn đề gom cụm động [71]: xây dựng thuật toán gom cụm động mới, quản lý trực tiếp các thay đổi trong cơ sở dữ liệu hoặc phát triển phương pháp tóm tắt dữ liệu động, nhằm thu nhỏ cơ sở dữ liệu lại và sau đó áp dụng thuật toán gom cụm tĩnh đã có lên dữ liệu đã tóm tắt được.
Tất cả các thuật toán gom cụm đều dựa trên một độ đo tương tự nào đó. Độ đo tương tự phổ biến là độ đo cosine áp dụng trên mô hình không gian vectơ biểu diễn văn bản.
Chất lượng của kết quả gom cụm văn bản thường được đánh giá bằng sự khác biệt giữa các cụm “tự nhiên” và các cụm do thuật toán sinh ra. Các độ đo chất lượng được dùng rộng rãi là độ do F và Entropy (trình bày chi tiết ở Phụ lục A).
Các phần tiếp theo trình bày hai phương pháp gom cụm văn bản phổ biến là k- means và HAC. Đây cũng là các phương pháp gom cụm tĩnh. Trong chương 4, luận án sẽ phân tích một số phương pháp gom cụm văn bản động.