3. Các giải pháp áp dụng cho Vietnamese Text Mining 1 Đặc trưng của văn bản tiếng Việt
3.2 Các giải pháp, đánh giá hiệu quả, đề ra giải pháp cho phân tích văn bản tiếng Việt
Hiện nay, chính tả tiếng Việt chưa thống nhất, tuy đã có những quy tắc chuẩn mực nhất định. Việc nghiên cứu các đặc điểm chính tả tiếng Việt có ý nghĩa đặc biệt quan trọng trong khâu tiền xử lý dữ liệu, tạo nguồn dữ liệu đầu vào cho những pha sau như phân tích cú pháp hay đánh trọng số cho các từ (terms), lập chỉ mục.
Một số vấn đề về chính tả tiếng Việt mà ta cần quan tâm như sau:
- Các chữ đồng âm: Các chữ đồng âm như “Mĩ”/ “Mỹ”, “kĩ”/ “kỹ”... thường bị sử dụng lẫn nhau.
- Từ địa phương: Trong văn bản người ta vẫn thường sử dụng một số từ địa phương thay cho các từ phổ thông. Ví dụ “cây kiểng” thay cho “cây cảnh”.
- Vị trí dấu: Theo quy định đánh dấu tiếng Việt, dấu được đặt trên nguyên âm có ưu tiên cao nhất. Tuy nhiên khi viết văn bản, do mỗi người sử dụng các bộ gõ tiếng Việt khác nhau nên nhiều khi dấu được đặt không theo chuẩn. Ví dụ hai chữ: “hỏa” hay “hoả”.
- Cách viết hoa: Theo quy định, đầu câu và đầu tên riêng phải viết hoa. Tuy nhiên vẫn tồn tại một số cách viết như sau: “Tổng công ty Dệt may Việt nam”.
- Phiên âm tiếng nước ngoài: Các cách viết sau vẫn được chấp nhận mà không có quy chuẩn trong văn bản tiếng Việt: “Singapore”/ “Xinh-ga-po”...
- Từ gạch nối: Do cách viết dấu gạch nối tuỳ tiện nên không thể phân biệt giữa nối tên riêng hay chú thích.
Những vấn đề vừa nêu trên thực sự gây ra nhiễu trong dữ liệu đầu vào, đòi hỏi phải có một hệ thống tiền xử lý tốt, đảm bảo cho việc phân tích cú pháp được thực hiện có hiệu quả.
3.2 Các giải pháp, đánh giá hiệu quả, đề ra giải pháp cho phân tích văn bản tiếng Việt tiếng Việt
Có rất nhiều bài toán phân loại văn bản. Tuy nhiên, ở đây em chỉ xin nhắc tới hai bài toán đại diện, và cũng là hai bài toán đang được quan tâm nhiều nhất. Đó là bài toán phân loại văn bản tiếng Việt và thu thập thông tin từ văn bản tiếng Việt.