Tiếng Việt là ngôn ngữ của người Việt và là ngôn ngữ chính thống tại Việt Nam. Tiếng Việt là ngôn ngữ có nguồn gốc bản địa, xuất thân từ nền văn minh nông nghiệp tại nơi mà ngày nay là khu vực phía bắc lưu vực sông Hồng và sông Mã của Việt Nam. Do quá trình tiếp xúc lâu dài giữa tiếng Việt và tiếng Hán đã đưa vào tiếng Việt một khối lượng từ ngữ rất lớn của tiếng Hán. Tỉ lệ vay mượn tiếng Hán trong tiếng Việt rất lớn nhưng đại đa số những từ đó đều đã được Việt hóa cho phù hợp với nhận thức của người Việt.
Hệ thống chữ viết chính thức hiện nay của tiếng Việt là chữ Quốc Ngữ - được xây dựng dựa trên chữ cái Latin, thêm các chữ ghép và 9 dấu phụ trong đó có 4 dấu tạo ra các âm mới và năm dấu còn lại để thể hiện thanh điệu của từ.
Giống như nhiều ngôn ngữ khác ở Đông Nam Á, tiếng Việt thuộc loại hình ngôn ngữ đơn lập. Những ngôn ngữ thuộc loại hình này còn được gọi là các ngôn ngữ không có hình thái, ngôn ngữ không biến hình hoặc ngôn ngữ phân tiết. Các đặc điểm chính của từ tiếng Việt là:
Từ trong tiếng Việt được cấu tạo bằng một âm tiết hoặc là tổ hợp nhiều âm tiết được kết hợp theo các cách khác nhau. Phụ thuộc vào sự kết hợp của các âm tiết, chúng ta có thể phân loại từ tiếng Việt thành ba nhóm: từ đơn, từ ghép, từ láy. Với các từ được cấu tạo từ hai âm tiết trở lên, các âm tiết được phân cách nhau bởi dấu cách trống, ví dụ “Việt Nam”, “sinh viên”… Vì vậy, dấu cách trống không phải là dấu hiệu để nhận ra ranh giới giữa các từ. Theo các nhà ngôn ngữ học thì tiếng Việt có đến 80% là các từ gồm hai âm tiết (theo [2]).
Từ không biến đổi hình thái: hình thái của từ không chỉ ra quan hệ giữa các từ trong câu. Vì vậy, quan hệ ngữ pháp chỉ được diễn đạt bằng trật tự trước sau của từ và/hoặc bằng các hư từ.
Ví dụ: Anh ấy đã cho tôi một cuốn sách (1) Tôi cũng cho anh ấy hai cuốn sách (2)
Xét về mặt ngữ âm và sự thể hiện bằng chữ viết Anh ấy ở cả hai câu hoàn toàn không có sự thay đổi. Tuy nhiên, về vai trò ngữ pháp trong câu, Anh ấy trong câu (1) đóng vai trò là chủ ngữ, ở câu (2) lại giữ vai trò bổ ngữ.
Vấn đề xác định từ loại cho từ trong tiếng Việt phức tạp hơn các tiếng châu Âu do chúng ta không thể dựa vào các đặc tính đặc biệt về hình thái học của từ để xác định loại từ. Trong tiếng anh, các danh từ chỉ các khái niệm phi sự vật thường dễ dàng được nhận diện một cách độc lập thông qua việc thêm các thành tố phụ vào phía trước hoặc phía sau các động từ, tính từ tương ứng. Ví dụ các từ: develop (phát triển) là động từ, thêm thành tố ment vào phía sau thành danh từ development (sự phát triển); educate (giáo dục) là động từ, thêm thành tố ion vào phía sau thành danh từ education (sự giáo dục, nền giáo dục)… Tiếng Việt không có hiện tượng này nên việc xác định từ loại của các từ khó hơn vì chúng có cùng vỏ ngữ âm và ý nghĩa diễn tả như các từ loại khác. Ví dụ từ “thành công” khi xuất hiện trong các ngữ cảnh khác nhau sẽ có từ loại tương ứng khác nhau:
(1) Thành công của dự án đã tạo tiếng vang lớn
(2) Anh ấy rất thành công trong nghiên cứu khoa học (3) Buổi biểu diễn đã thành công
Trong câu (1) từ „thành công‟ là một danh từ, trong câu (2) từ „thành công‟ là một động từ và trong câu (3) từ „thành công‟ lại là một tính từ. Vì vậy, việc nhận dạng từ loại của từ tiếng Việt chủ yếu dựa vào ngữ cảnh xuất hiện, tức là dựa vào khả năng kết hợp giữa các từ với nhau.
Cấu trúc của cụm danh từ tiếng Việt hiện cũng là một vấn đề còn nhiều tranh luận giữa các nhà ngôn ngữ học. Cụm từ tiếng Việt và cụm danh từ tiếng Việt được nhiều nhà ngôn ngữ học trong và ngoài nước quan tâm nghiên cứu như Nguyễn Tài Cẩn, Nguyễn Kim Thản, Diệp Quang Ban, Tuong Hung Nguyen (theo [5]).
Theo quan điểm của Nguyễn Tài Cẩn [4], cụm danh từ gồm có một bộ phận trung tâm do danh từ đảm nhiệm và các thành tố phụ. Các thành tố này chia làm hai bộ phận: một số thành tố phụ đứng trước danh từ trung tâm tạo thành phần đầu của cụm danh từ, một số khác thì đứng sau danh từ trung tậm, tạo thành phần cuối của cụm danh từ. Cụm danh từ có dạng đầy đủ gồm có ba phần: phần đầu, phần trung tâm, phần cuối; dạng không đầy đủ chỉ có hai phần, thí dụ:
Cụm danh từ đầy đủ: Ba học sinh này
Cụm không đầy đủ gồm danh từ trung tâm và phần cuối: học sinh này
Nguyễn Tài Cẩn cũng đưa ra những những đặc điểm khác nhau cơ bản về mặt từ loại, về mặt số lượng, về mặt tổ chức, về mặt phân bố vị trí, về mặt ý nghĩa giữa thành tố phụ ở đầu và thành tố phụ ở cuối của cụm danh từ. Các yếu tố phụ đặt trước từ trung tâm gồm các loại từ: danh từ loại thể, danh từ đơn vị, đại từ, số từ, phó từ. Các thành tố phụ đặt sau các yếu tố chính có thể do những từ thuộc các loại từ khác nhau đảm nhiệm như danh từ, động từ, tính từ, đại từ, số từ.
Diệp Quang Ban trình bày rõ ràng hơn về cấu trúc cụm danh từ tiếng Việt và phát triển những vấn đề mà Nguyễn Tài Cẩn chưa bàn đến. Luận văn này dựa chủ yếu vào quan điểm của Diệp Quang Ban về cấu trúc cụm danh từ tiếng Việt, làm cơ sở để trích rút cụm danh từ Tiếng Việt xây dựng tập dữ liệu huấn luyện.
Theo Diệp Quang Ban, cấu tạo chung của cụm danh từ có ba phần là phần trung tâm, phần phụ trước (phần đầu) và phần phụ sau (phần cuối). Phần đầu của cụm danh từ có thể có mặt đồng thời nhiều thành tố. Các thành tố này có thể được phân bố vào những vị trí xác định và có tối đa ba vị trí ở phần đầu của cụm danh từ. Ba vị trí này có trật tự ổn định, không thể chuyển đổi cho nhau. Cấu trúc phần đầu của cụm danh từ như bảng 4. Trong đó, vị trí kề với danh từ trung tâm là vị trí của từ chỉ xuất (ký hiệu là vị trí -1), kế đó là vị trí của từ chỉ số lượng (ký hiệu là vị trí -2), cuối cùng là vị trí-3 (vị trí từ chỉ tổng lượng).
Bảng 4: Cấu trúc phần đầu của cụm danh từ tiếng Việt
Vị trí -3 Vị trí -2 Vị trí -1 Danh từ trung tâm
Tất cả những Cái cuốn sách
Vị trí từ chỉ xuất: chỉ do một từ đảm nhận là từ “cái”, có tác dụng nhấn mạnh danh từ trung tâm, ví dụ:
- Cái cậu học sinh này - Cái cuốn sách này
Vị trí từ chỉ số lượng: có thể chia thành các nhóm:
- Các từ chỉ số lượng chính xác: một, hai, trăm, nghìn,… - Các từ chỉ số lượng ước chừng: vài, dăm, mươi, vài ba,… - Các từ với ý nghĩa phân phối: mỗi, từng, mọi,…
Vị trí từ chỉ tổng lượng: gồm các từ chỉ ý nghĩa toàn bộ như: tất cả, toán bộ, hết thảy, tất thảy,…
Phần phụ sau của cụm danh từ có thể có mặt cùng một lúc nhiều thành tố. Những thành tố có thể xuất hiện ở phần phụ sau cụm danh từ thường được phân bố vào một trong hai vị trí: vị trí các từ nêu đặc trưng miêu tả (ký hiệu là vị trí 1), và vị trí các từ chỉ định (ký hiệu là vị trí 2) như sau:
Bảng 5: Cấu trúc phần đầu của cụm danh từ tiếng Việt
Phần phụ trước Danh từ trung tâm Vị trí 1 Vị trí 2
… cuốn sách mới ấy
tin học này
Vị trí từ nêu đặc trưng miêu tả: Đây là vị trí phức tạp nhất trong cấu trúc cụm danh từ, phức tạp cả về số lượng, từ loại và cả quan hệ cấu trúc. Số lượng thành tố phụ ở vị trí này là không hạn chế.
Nếu xét từ đơn thì tại vị trí này có thể gặp từ thuộc nhiều từ loại khác nhau như: danh từ, động từ, tính từ, số từ, đại từ. Ví dụ:
- Phòng thiếu nhi (danh từ) - Phòng cũ (tính từ)
- Phòng đọc (động từ) - Phòng mười lăm (số từ) - Phòng tôi (đại từ)
Ngoài ra, các thực từ trên còn có thể kết hợp với nhau hoặc với các từ khác thành những cụm từ như cụm danh từ, cụm động từ, cụm tính từ, … đảm nhiệm vai trò của thành tố phụ này. Chính khả năng phát triển các thực từ thành cụm từ đã làm cho vị trí này trở thành vị trí mở, và trên nguyên tắc là không có giới hạn, các cụm từ sẽ lồng vào nhau và rất phức tạp.
Một cụm danh từ tiếng Việt có thể chứa cụm danh từ khác bên trong nó, ví dụ: Tất cả sinh viên trường Đại học Công nghệ Từ chỉ tổng lượng Danh từ trung tâm Phần phụ sau
Trong ví dụ trên, “Tất cả sinh viên trường Đại học Công nghệ” là một cụm danh từ, trong đó “trường Đại học Công nghệ” cũng là một cụm danh từ đóng vai trò là phần phụ sau bổ nghĩa cho danh từ trung tâm “sinh viên”.
Một ví dụ khác, “sự hoạch định chính sách ấy” là một cụm danh từ. Trong đó, “hoạch định chính sách” là một cụm động từ bổ nghĩa cho danh từ trung tâm.
Sự hoạch định chính sách ấy
Danh từ trung tâm Các từ nêu đặc trưng miêu tả Từ chỉ định
Vị trí từ chỉ định:
Đây là vị trí cuối cùng về phía cuối của cụm danh từ. Vị trí này do các từ có ý nghĩa chỉ trỏ, xác định đảm nhận dùng để cho biết sự vật ở hướng nào trong tầm nhìn, xa hay gần, trong thời gian hay trong không gian: này, kia, nọ, ấy, đó, nào… Ví dụ:
- Cái nào xanh này
- Cuốn sách ngoại ngữ ấy
Trong tiếng Việt, việc xác định ranh giới của cụm từ nói chung và cụm danh từ nói riêng, trong một số trường hợp có tác dụng đáng kể đối với việc hiểu câu. Vì vậy, các từ chỉ định thường được dùng để đánh dấu ranh giới sau cùng của cụm danh từ hơn so với những ngôn ngữ khác. Ví dụ:
- Bản nhạc hay: có thể là cụm danh từ hoặc câu trong những tình huống xác
định.
- Bản nhạc này hay: chỉ có thể là câu vì cụm danh từ bản nhạc này đã chỉ rõ
về một vật cụ thể, đóng vai trò là chủ ngữ trong câu.
Nói chung, cấu trúc của phần cuối cụm danh từ phức tạp hơn nhiều so với phần đầu, đặc biệt là số lượng và các từ loại của các thành tố và quan hệ kết hợp giữa các thành tố. Do đó, việc xác định cấu trúc cụm danh từ một cách tường minh là rất khó và hầu như chưa có một nghiên cứu cụ thể nào thực hiện việc này.
Dựa vào cấu trúc cụm danh từ tiếng Việt theo quan điểm của Diệp Quang Ban, cùng với việc nghiên cứu phương pháp xây dựng tập dữ liệu tiếng Anh, phần sau sẽ trình bày về phương pháp xây dựng tập dữ liệu tự động cho bài toán phân tách cụm danh từ tiếng Việt.