Đối với các ngônngữ đa âm tiết (multi-term)- 123docz.net

Ví dụ điển hình là tiếngViệtthì việc xử lý tách từ tƣơng đối khó. Việc xử lý không chỉ khó khăn do có nhiều âm tiết mà còn gặp phải nhiều nhập nhằng trong ngôn ngữ. Một giải pháp rất tốt đƣợc đƣa ra để tránh tình trạng này là xử lý cú pháp, nhƣng cách xử lý này quá chậm và làm cho bài toán xử lý văn bản (thƣờng yêu cầu nhanh) chậm đi rất nhiều. Do đó ngƣời ta thƣờng sử dụng cách tách từ theo độ dài

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

nhất của từ khóa và chấp nhận có sai số. Do những sự nhập nhằng nhƣ vậy xảy ra không nhiều trong thực tế nên cần chấp nhận sai số để có một bộ tách từ nhanh.

Vấn đề tiếp theo cần quan tâm là các ký hiệu vô nghĩa trong văn bản. Các văn bản thông thƣờng có rất nhiều ký tự vô nghĩa, ví dụ các ký tự dấu câu, các chữ số, các ký tự đặc biệt dùng cho điều khiển. Các ký tự này không xuất hiện trong các từ khóa do đó ta cần có biện pháp xóa bỏ ký tự này để tránh nhiễu khi xử lý.

Ở đây cần quan tâm giải quyết bài toán tách từ trong ngôn ngữ tiếng Việt.Theo thống kê các từ khóa thông dụng nhất thì trong tiếng Việt của chúng ta thƣờng dùng khoảng 70,000 từ khóa và các từ khóa này đƣợc cấu thành từ khoảng 6,500 âm tiết.

Từ các kết quả nghiên cứu trên tác giả xin đƣa ra mô hình tách từ nhƣ trong hình 3.9.

Hình 3.9: Mô hình tách từ khoá từ văn bản thô

Các bƣớc trong xử lý tách từ khóa:

Đối với các ngônngữ đa âm tiết (multi-term)

nghĩa thực tiễn và tình hình ứng dụng

Tổng quan về giải thuật di truyền