Việc nghiờn cứu đặc điểm chớnh tả tiếng Việt cú ý nghĩa quan trọng trong tiền xử lý dữ liệu văn bản. một số đặc điểm chớnh tả của tiếng Việt cần quan tõm như:
- Cỏc tiếng đồng õm: kĩ/kỹ, lớ/lý, … thường bị sử dụng lẫn nhau, Vớ dụ: lý luận, lớ luận, …
- Cỏc từ địa phương: một số từ địa phương sử dụng thay cho cỏc từ phổ thụng, vớ dụ: đậu phộng/lạc, …
- Vị trớ dấu: theo quy định đỏnh dấu tiếng Việt, dấu được đặt trờn nguyờn õm cú ưu tiờn cao nhất. Tuy nhiờn khi viết văn bản, do mỗi người sử dụng một bộ gừ tiếng Việt khỏc nhau nờn nhiều khi gõy ra sự khụng chuẩn xỏc. Vớ dụ: toỏn, túan, …
- Cỏch viết hoa: theo quy định dấu cõu và dấu tờn riờng phải viết hoa. Tuy nhiờn vẫn tồn tại một số cỏch viết tựy tiện.
- Phiờn õm tiếng nước ngoài: Cỏc cỏch viết sau cẫn được chấp nhận và khụng cú trong quy chuẩn tiếng Việt: Singapore/ Xin-ga-po,..
- Từ gạch nối: do cỏc viết dấu gạch nối tựy tiện, khụng phõn biệt được giữa nối tờn riờng hay chỳ thớch, …
- Kớ tự ngắt cõu: Cỏc kớ tự đặc biệt ".", ";", "!", "?", (…), (-), … ngăn cỏch giữa cỏc cõu hoặc cỏc vế cõu, cỏc hỡnh vị trong cõu ghộp, …
- Trong tiếng Việt, ngoài những từ thuần Việt cũn cú cả những từ ngoại lai của những ngụn ngữ khỏc (gi đụng, soundcard, …)
- Ranh giới từ khụng được xỏc định mặc nhiờn bằng khoảng trắng, điều này khiến cho việc phõn tớch tỏch từ gặp khú khăn. Việc nhận diện ranh giới từ là rất quan trọng, làm tiền đề cho việc xử lý tiếp theo sau đú: như kiểm lỗi chớnh tả, gỏn nhón từ loại, thống kờ tần suất từ, …