Nhập nhằng trong tách từ tiếng Việt

Một phần của tài liệu Nghiên cứu một số kỹ thuật xử lý ngôn ngữ tiếng Việt và ứng dụng (Trang 37 - 38)

Nếu chúng ta tiến hành tách từ thủ công, thì việc nhập nhằng rất khó xảy ra. Do ta đã hiểu được ngữ nghĩa của câu và tách từ dựa trên ngữ nghĩa của từ trong câu. Tuy nhiên việc tách từ bằng tay là điều không thể thực hiện được với tập dữ liệu khổng lồ. Mà máy tính thì không thể hiểu hết ngữ nghĩa của câu, nên việc nhập nhằng xảy ra là tất yếu. Trong tiếng Việt hiện nay xuất hiện nhiều hiện tượng nhập nhằng như: Nhập nhằng về phạm vi, ranh giới từ; nhập nhằng do tính đa nghĩa của từ, nhập nhằng ngữ nghĩa khi sử dụng từ đồng âm (đồng tự), nhập nhằng trong cách phân biệt từ loại; nhập nhằng khi sử dụng tiếng Việt không dấu, nhập nhằng trong phân tích cú pháp tiếng Việt. Nhập nhằng trong tách từ tiếng Việt có thể chia làm hai loại: Nhập nhằng chồng chéo và nhập nhằng kết hợp

2.1.2.1. Nhập nhằng chồng chéo

Chuỗi “a b c” bị nhập nhằng chồng chéo khi mà cả “a b” và “b c” đều xuất hiện trong từ điển.

Ví dụ: “Máy bay lượn ba vòng trên không trước khi đáp xuống”. Trong chuỗi “máy bay lượn” thì “máy bay” và “ bay lượn” đều có trong từ điển.

2.1.2.2. Nhập nhằng kết hợp

Chuỗi “a b c” bị nhập nhằng kết hợp khi mà cả “a”,”b”,”a b” đều xuất hiện trong từ điển.

Ví dụ: “Đàn gà mới nở hôm qua chết mất hai con”. Các từ ”đàn”, “gà”, “đàn gà” đều có nghĩa trong từ điển.

Ngoài vấn đề nhập nhằng, khi tách từ tiếng Việt còn gặp các khó khăn trong việc xác định các từ chưa biết trước (đối với máy tính) như danh từ riêng, từ vay mượn nước ngoài, từ chỉ số, các câu thành ngữ, từ láy...

Mức độ giải quyết tốt hai vấn đề trên sẽ quyết định hiệu suất của một phương pháp tách từ và quyết định nó có tốt hay không.

Một phần của tài liệu Nghiên cứu một số kỹ thuật xử lý ngôn ngữ tiếng Việt và ứng dụng (Trang 37 - 38)

Tải bản đầy đủ (PDF)

(67 trang)