Qua các bài tiểu luận, chúng ta đã tìm hiểu được khái niệm chung về gom cụm dữ liệu trong khai phá dữ liệu, cụ thể là lĩnh vực gom nhóm dữ liệu văn bản. Chúng ta đã biết được về hiện trạng các hướng tiếp cận hiện nay cho vấn đề này, các thành quả về thuật toán, mô hình biểu diễn và các kỹ thuật thống kê xác xuất được sử dụng. Tuy đã có rất nhiều kết quả nghiên cứu, nhưng hiện nay chưa có một giải pháp nào thực sự thực hiện được quá trình gom nhóm văn bản một cách hoàn hảo. Mỗi hướng tiếp cận và giải pháp điều có ưu thế và hạn chế trong những trường hợp khác nhau. Và hoàn toàn chưa có một trường hợp nào có thể sinh ra các nhóm chính xác và tự nhiên hoàn chỉnh.
Trong thời đại thông tin số phát triển như vũ bão hiện nay. Lượng dữ liệu số cũng như văn bản đều tăng theo cấp số nhân sau từng giây. Điều đó cũng tỉ lệ thuận với lượng thông tin quí giá rất lớn đang ẩn giấu khối dữ liệu khổng lồ cần được thu nhận. Từ thực trạng này, ta thấy được các kỹ thuật trong ngành rút trích thông tin như gom nhóm dữ liệu cũng như gom nhóm văn bản là các ngành nghiên cứu rất hấp dẫn và hứa hẹn, bởi chúng vẫn còn nhiều vấn đề còn tồn tại đồng thời lại là những bước xử lý quan trọng nhất.
Trong bài viết này, chương trình demo đã hiện thực và minh họa được đầy đủ các bước cơ bản trong quá trình gom nhóm văn bản. Tuy nhiên vì thời gian nghiên cứu có hạn cho nên chương trình chỉ dừng ở mức trãi nghiệm. Kết quả đầu ra của chương trình có độ chính xác vẫn còn tương đối thấp và thiếu ổn định. Nhưng đây là những tiền đề quan trọng để có thể nghiên cứu sâu hơn trong lĩnh vực này.
TÀI LIỆU THAM KHẢO