III. Các giải pháp áp dụng cho Vietnamese TextMining
2. Các giải pháp, đánh giá hiệu quả, đề ra giải pháp cho phân tích văn bản tiếng
- Các chữ đồng âm: Các chữ đồng âm như “Mĩ”/ “Mỹ”, “kĩ”/
“kỹ”... thường bị sử dụng lẫn nhau.
- Từ địa phương: Trong văn bản người ta vẫn thường sử dụng một
số từ địa phương thay cho các từ phổ thông. Ví dụ “cây kiểng” thay cho “cây cảnh”.
- Vị trí dấu: Theo quy định đánh dấu tiếng Việt, dấu được đặt trên
nguyên âm có ưu tiên cao nhất. Tuy nhiên khi viết văn bản, do mỗi người sử dụng các bộ gõ tiếng Việt khác nhau nên nhiều khi dấu được đặt không theo chuẩn. Ví dụ hai chữ: “hỏa” hay “hoả”.
- Cách viết hoa: Theo quy định, đầu câu và đầu tên riêng phải viết
hoa. Tuy nhiên vẫn tồn tại một số cách viết như sau: “Tổng công ty Dệt may Việt nam”.
- Phiên âm tiếng nước ngoài: Các cách viết sau vẫn được chấp
nhận mà không có quy chuẩn trong văn bản tiếng Việt: “Singapore”/ “Xinh-ga-po”...
- Từ gạch nối: Do cách viết dấu gạch nối tuỳ tiện nên không thể
phân biệt giữa nối tên riêng hay chú thích.
Những vấn đề vừa nêu trên thực sự gây ra nhiễu trong dữ liệu đầu vào, đòi hỏi phải có một hệ thống tiền xử lý tốt, đảm bảo cho việc phân tích cú pháp được thực hiện có hiệu quả.
2. Các giải pháp, đánh giá hiệu quả, đề ra giải pháp cho phân tích văn bản tiếng Việt Việt
Có rất nhiều bài toán phân loại văn bản. Tuy nhiên, ở đây em chỉ xin nhắc tới hai bài toán đại diện, và cũng là hai bài toán đang được quan tâm nhiều nhất. Đó là bài toán phân loại văn bản tiếng Việt và thu thập thông tin từ văn bản tiếng Việt.