c. Mô hình tập thô dung sai
2.3.2 Đặc trưng về từ pháp và hình thái
Khi tìm hiểu các đặc trưng tiếng Việt ta cần chú ý tiếng Việt là một ngôn ngữ đơn lập - đơn âm tiết (monosyllable). Xét về mặt từ pháp, trong tiếng Việt, hình vị là từ. Bởi vì từ là đơn vị nhỏ nhất để đặt câu, từ có nghĩa hoàn chỉnh và cấu tạo ổn định [7]. Từ được cấu thành bởi một đơn vị nhỏ hơn, chúng ta thường quen gọi là “tiếng” ( hay “chữ” - xét về mặt chữ viết, “âm tiết” - xét về mặt ngữ âm). Dựa trên “tiếng” - đơn vị rất dễ nhận biết thông qua các dấu cách - chúng ta phân biệt được đâu là từ ghép, đâu là từ đơn. Từ đơn là từ chỉ có một tiếng, từ ghép là từ có hai tiếng trở lên. Đây chính là vấn đề của các ngôn ngữ như tiếng Việt : rất khó khăn khi thực hiện việc phân tách thuật ngữ. Cách tốt nhất là dựa trên từ điển để đối sánh và rút ra kết luận (Bên ngành ngôn ngữ học có một số phương pháp để xác định xem đó là một từ hay nhiều từ như khảo sát về hiện tượng tách, lặp, iếc hóa hay đối chiếu…[7], tuy nhiên các phương pháp này không thể áp dụng được đối với máy tính !).
Xét về mặt hình thái, khác với phần lớn các ngôn ngữ hệ Latin, tiếng Việt thường không có hiện tượng biến cách hay dẫn xuất khi câu thay đổi về thời, thể, cách. Thay vào đó là việc sử dụng kết hợp với hư từ (từ công cụ) để phản ánh sự thay đổi này.
Hư từ là các từ cấu tạo bởi các tiếng được dùng độc lập, chỉ có ý nghĩa về mặt ngữ pháp. Ví dụ như : đã, sẽ, bị, chưa… Các hư từ này kết hợp với các thực từ - là các từ mang ý nghĩa thật sự về nghĩa - sẽ thực hiện nhiệm vụ phản ánh việc thay đổi về thời, thể, cách [7,8].
Ví dụ:
Em ăn cơm - Em đã ăn cơm - Em sẽ ăn cơm (hiện tại - quá khứ - tương lai). Ông ấy đánh - Ông ấy bị đánh (chủ động - bị động).
Lại xét về mặt từ pháp, trong các ngôn ngữ khác, việc thay đổi giống và số cũng được thực hiện thông qua việc biến cách, tuy nhiên trong tiếng Việt chúng ta sử dụng các danh từ chỉ số luợng để làm việc này.
Ví Dụ:
Một con vịt cái - các con vịt đực - loài vịt (Giống).
Một con vịt - Những con vịt - Mười con vịt - lũ vịt (Số).
Điều này ảnh hưởng trực tiếp đến quá trình tiền xử lý văn bản cũng như đoán nhận ngữ nghĩa. Việc chuẩn hóa hình thái từ của các hệ tiếng Latin là cả một vấn đề trong khi đó tiếng Việt chúng ta không cần quan tâm đến. Ngược lại, khi xét đến ngữ nghĩa chúng ta phải thông qua các hư từ hay danh từ số lượng đi kèm để hiểu được nghĩa đầy đủ của một từ hay cụm từ.