Các tác giả [6][12]rút ra một sốđặc điểm của từ tiếng Việt như sau: - là đơn vị có ranh giới trùng với hình vị và âm tiết
- không có sự biến đổi hình thái trong quá trình sử dụng - là đơn vị có sẵn, được tái hiện trong khi nói
- có tính định hình hoàn chỉnh
- Có thể chia từ tiếng việt thành hai loại: từđơn và từ phức
Chính từ những đặc điểm này mà tách từ là một khó khăn chính trong việc xử lý các văn bản tiếng Việt. Mặc dù được viết bằng các ký tự La tinh mở rộng, tiếng Việt
cũng có những đặc tính chung với các ngôn ngữ Đông Nam Á khác như khó xác định
ranh giới giữa các từ và có các điểm khác biệt về phonetic, văn phạm và ngữ nghĩa so với tiếng Anh. Do đó, rất khó có thể áp dụng các kỹ thuật và hướng tiếp cận đã được
nghiên cứu và thử nghiệm thành công trên tiếng Anh cho tiếng Việt nếu không xây
dựng thành công giải pháp cho việc tách từ trong văn bản tiếng Việt. Dưới đây là một sốđiểm khác biệt chính giữa tiếng Việt và tiếng Anh được trình bày trong [12].
Đặc điểm Tiếng việt Tiếng Anh
Đơn vị cơ bản Tiếng Từ
Tiền tố/Hậu tố Không có Có
Từ loại Not unanimous Được định nghĩa rõ
Ranh giới từ Tngổ hữ cợp có nghảnh của các tiĩa dựa vào ếng Khoảdng trấu câu ắng hoặc
22
Những đặc điểm này làm cho việc tách từ tiếng việt trở nên khó khăn hơn. Dưới
đây là kết quả khảo sát về tách từ trong văn bản tiếng hoa và thống kê về tách từ tiếng Việt được công bố hiện tại [12].
Hình 4: Thống kê về tách từ tiếng Hoa và tiếng Việt [12]
Các hướng tiếp cận dựa trên “từ”: được chia thành 3 nhóm: dựa vào thống kê,
dựa vào từđiển và nhóm lai, nhằm tách từ trọng vẹn trong câu. Các giải pháp dựa theo hướng tiếp cận vào thống kê cần phải dựa vào thông tin thống kê như term, từ hay tần số ký tự. hay xác suất cùng xuất hiện trong một tập dữ liệu cơ sở. Do đó, tính hiệu quả
của các giải pháp này chủ yếu dựa vào dữ liệu huấn luyện cụ thểđược sử dụng. Trong hướng tiếp cận dựa vào từđiển, các đoạn văn bản được đối sánh dựa vào từđiển. Việc xây dựng từ điển các từ và ngữ pháp tiếng việt hoàn chỉnh là không khả thi. Hướng tiếp cận lai áp dụng nhiều cách khác nhau để tận dụng ưu điểm của các giải pháp. Các hướng tiếp cận để phân loại văn bản tiếng việt dựa vào từ chỉ khả thi khi có một bộ từ
23
Hướng tiếp cận dựa trên ký tự: có thể chia làm hai nhóm uni-gram và n-gram.
Các phương pháp này tuy đơn giản nhưng đã đem lại kết quả khả thi.