III. Các giải pháp áp dụng cho Vietnamese Text Mining
a. Bài toán phân loại văn bản tiếng Việt
Cần xây dựng một hệ thống có thể phân loại được tài liệu tiếng Việt. Hay nói khác đi, khi đưa ra một tài liệu tiếng Việt, hệ thống cần chỉ ra rằng đó là loại văn bản thuộc chủ đề nào (văn hoá, kinh tế, chính trị, thể thao,...).
Ở trên chúng ta đã trình bày hai phương pháp phân loại khác nhau, đó là phương pháp sử dụng từ điển phân cấp chủ đề và phương pháp cây quyết định.
Đối với giải thuật sử dụng từ điển phân cấp chủ đề, có thể hiểu đây là một phương pháp chuẩn. Quá trình thực hiện khá dễ dàng và mọi kết quả đã được lường trước. Tuy nhiên, đây là một phương pháp thu được hiệu quả không cao. Lý do là phương pháp này không đề cập đến vấn đề ngữ nghĩa của văn bản.
Ở phương pháp thứ hai, chúng ta đã gắn bài toán vào một dạng trí tuệ nhân tạo. So với phương pháp trước thì phương pháp này cho kết quả tốt hơn do tính mềm dẻo, tính tự học của giải thuật. Tuy nhiên, kết quả đạt được vẫn còn rất khiêm tốn.
Do một số đặc trưng, như đã nêu ở trên, của văn bản tiếng Việt, việc phân tích văn bản sẽ rất phức tạp. Việc áp dụng hai phương pháp đã nêu ở trên chỉ thu được các kết quả tương đối hạn chế. Để giải giải quyết bài toán phân loại văn bản tiếng Việt một cách triệt để phương pháp phân tích cú pháp được ưu tiên lên hàng đầu.
Trong đề tài này của em chưa đề cập được đến phương pháp này. Nó thuộc vào các phương pháp xử lý ngôn ngữ tự nhiên. Do thời gian có hạn hướng tiếp cận ban đầu không đúng, nên em vẫn để ngỏ phương pháp này. Tuy nhiên, hướng mục tiêu của em trong kì làm luận văn tốt nghiệp tới sẽ tập trung giải chuyết bài toán này. Đó là: “Phân loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp.”