Ví dụ điển hình là tiếngViệtthì việc xử lý tách từ tƣơng đối khó. Việc xử lý không chỉ khó khăn do có nhiều âm tiết mà còn gặp phải nhiều nhập nhằng trong ngôn ngữ. Một giải pháp rất tốt đƣợc đƣa ra để tránh tình trạng này là xử lý cú pháp, nhƣng cách xử lý này quá chậm và làm cho bài toán xử lý văn bản (thƣờng yêu cầu nhanh) chậm đi rất nhiều. Do đó ngƣời ta thƣờng sử dụng cách tách từ theo độ dài
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
nhất của từ khóa và chấp nhận có sai số. Do những sự nhập nhằng nhƣ vậy xảy ra không nhiều trong thực tế nên cần chấp nhận sai số để có một bộ tách từ nhanh.
Vấn đề tiếp theo cần quan tâm là các ký hiệu vô nghĩa trong văn bản. Các văn bản thông thƣờng có rất nhiều ký tự vô nghĩa, ví dụ các ký tự dấu câu, các chữ số, các ký tự đặc biệt dùng cho điều khiển. Các ký tự này không xuất hiện trong các từ khóa do đó ta cần có biện pháp xóa bỏ ký tự này để tránh nhiễu khi xử lý.
Ở đây cần quan tâm giải quyết bài toán tách từ trong ngôn ngữ tiếng Việt.Theo thống kê các từ khóa thông dụng nhất thì trong tiếng Việt của chúng ta thƣờng dùng khoảng 70,000 từ khóa và các từ khóa này đƣợc cấu thành từ khoảng 6,500 âm tiết.
Từ các kết quả nghiên cứu trên tác giả xin đƣa ra mô hình tách từ nhƣ trong hình 3.9.
Hình 3.9: Mô hình tách từ khoá từ văn bản thô
Các bƣớc trong xử lý tách từ khóa: