Các đặc điểm chính tả và văn bản tiếng Viê- 123docz.net

III. Các giải pháp áp dụng cho Vietnamese Text Mining

e. Các đặc điểm chính tả và văn bản tiếng Việt

Hiện nay, chính tả tiếng Việt chưa thống nhất, tuy đã có những quy tắc chuẩn mực nhất định. Việc nghiên cứu các đặc điểm chính tả tiếng Việt có ý nghĩa đặc biệt quan trọng

trong khâu tiền xử lý dữ liệu, tạo nguồn dữ liệu đầu vào cho những pha sau như phân tích cú pháp hay đánh trọng số cho các từ (terms), lập chỉ mục.

Một số vấn đề về chính tả tiếng Việt mà ta cần quan tâm như sau:

- Các chữ đồng âm: Các chữ đồng âm như “Mĩ”/ “Mỹ”, “kĩ”/ “kỹ”... thường bị sử dụng lẫn nhau.

- Từ địa phương: Trong văn bản người ta vẫn thường sử dụng một số từ địa phương thay cho các từ phổ thông. Ví dụ “cây kiểng” thay cho “cây cảnh”. - Vị trí dấu: Theo quy định đánh dấu tiếng Việt, dấu được đặt trên nguyên âm

có ưu tiên cao nhất. Tuy nhiên khi viết văn bản, do mỗi người sử dụng các bộ gõ tiếng Việt khác nhau nên nhiều khi dấu được đặt không theo chuẩn. Ví dụ hai chữ: “hỏa” hay “hoả”.

- Cách viết hoa: Theo quy định, đầu câu và đầu tên riêng phải viết hoa. Tuy nhiên vẫn tồn tại một số cách viết như sau: “Tổng công ty Dệt may Việt nam”.

- Phiên âm tiếng nước ngoài: Các cách viết sau vẫn được chấp nhận mà không có quy chuẩn trong văn bản tiếng Việt: “Singapore”/ “Xinh-ga-po”... - Từ gạch nối: Do cách viết dấu gạch nối tuỳ tiện nên không thể phân biệt

giữa nối tên riêng hay chú thích.

Những vấn đề vừa nêu trên thực sự gây ra nhiễu trong dữ liệu đầu vào, đòi hỏi phải có một hệ thống tiền xử lý tốt, đảm bảo cho việc phân tích cú pháp được thực hiện có hiệu quả.

Các đặc điểm chính tả và văn bản tiếng Việt

Từ tiếng việt

Câu tiếng việt