– Đơn vị cấu tạo từ là tiếng, tức là những âm tiết được sử dụng trong thực tiễn ngôn ngữ Việt. Tiếng có thể có nghĩa đủ rõ, có thể mang nghĩa bị phai mờ và tiếng có thể tự mình không có nghĩa. Hơn nữa, 3 hiện tượng này có thể chuyển hóa lẫn nhau.
– Tính chất âm tiết (tiếng) là một trong những đặc điểm chi phối đặc tính loại hình của ngôn ngữ Việt. Xét ở mặt số lượng tiếng:
+ Từ nhiều tiếng, phần lớn là 2 tiếng, gọi là từ phức, như: nhà cửa, sạch sẽ, …
Nếu xét ở số lượng từ tố (yếu tố nhỏ nhất tham gia cấu tạo từ) tham gia cấu tạo từ thì có sự phân chia như sau:
+ Từ chỉ chứa một từ tố, gọi là đơn tố, như: nhà, đủng đỉnh, ra đi ô, … + Từ đơn tố gồm nhiều tiếng và có hiện tượng hòa âm tạo nghĩa, gọi là từ láy. Nếu không thì nó thuộc loại ngẫu kết.
+ Từ chứa nhiều từ tố, gọi là từ đa tố, như: nhà cửa, xe đạp, sạch sẽ, … + Từ đa tố nếu có hiện tượng hòa âm phối ngữ âm tạo nghĩa thì thuộc kiểu láy. Nếu không thì thuộc loại từ ghép.
– Việc tiền xử lý văn bản (tách từ, tách đoạn, tách câu…) sẽ thêm phức tạp với phần xử lý các hư từ, phụ từ, từ láy…
– Phương thức ngữ pháp chủ yếu là trật tự từ nên nếu áp dụng phương pháp tính xác suất xuất hiện của từ có thể không chính xác như mong đợi.
– Ranh giới từ không được xác định mặc nhiên bằng khoảng trắng. Điều này khiến cho việc phân tích hình thái (tách từ) tiếng Việt trở nên khó khăn. Việc nhận diện ranh giới từ là quan trọng làm tiền đề cho các xử lý tiếp theo sau đó như: kiểm tra lỗi chính tả, gán nhãn từ loại, thống kê tần suất từ…
– Vì giữa tiếng Anh và tiếng Việt có nhiều điểm khác biệt nên không thể áp dụng y nguyên các thuật toán tiếng Anh vào tiếng Việt.
Chính vì những nguyên nhân đó phần tiếp theo sẽ đề xuất các phương pháp xử lý nội dung tiếng Việt và tiếng Anh.