Thông thường, cụm danh từ chứa đựng khái niệm (lớp đối tượng) hoặc thực thể (đối
tượng) trong thế giới tự nhiên.
Ví dụ xét câu hỏi: “những sinh viên của lớp khoa học máy tính là ai?” cụm
danh từ “những sinh viên” chứa đựng khái niệm “sinh viên”, cụm danh từ “lớp khoa
học máy tính” lại là một thực thể.
Khi một cụm danh từ được xác định, một kiểu chú giải Cumdanhtu với hai đặc trưng category và type được tạo ra giống như hình 4-8 dưới đây:
Hình 4-8: Cụm danh từ trong một số câu hỏi tiếng Việt
Cấu tạo cụm danh từ gồm có 3 thành phần: ngoài thành phần tố trung tâm là danh từ còn có thành tố phụ trước và thành tố phụ sau. Cụm danh từ có thể thiếu thành tố phụ trước hoặc thành tố phụ sau. Thông qua việc tham khảo [39][38] và phân tích trên nhiều câu hỏi, chúng tôi đưa ra cấu tạo một cách khá ổn định của một cụm danh từ trong câu hỏi tiếng Việt dựa trên bảng nhãn từ loại (phụ lục B) được thể hiện như trong bảng 4-1 dưới đây:
50
Bảng 4-1: Cấu tạo của cụm danh từ trong câu hỏi tiếng Việt
Thành tố phụ trước Trung tâm Thành tố phụ sau
-3 -2 -1 0 1 2
Từ chỉ tổng
lượng Số từ
Định từ “cái”
hoặc “chiếc” Danh từ Tính từ
Đại từ chỉ định
Tất cả các sinh viên giỏi ấy
Những cái bàn đen đó
Chiếc bàn này
Ở vị trí -3 là những từ mang ý nghĩa tổng lượng như: tất cả, cả, …
Số từ ở vị trí -2 thường là từ chỉ số lượng chính xác như: một, hai, … hoặc số từ chỉ số lượng không xác định như: vài, ba, dăm, … Hoặc phụ từ chỉ mang hàm ý tập
hợp như: những, các. Hoặc phụ từ mang hàm ý phân phối như : mọi, mỗi, từng,…
Hoặc là từ: mấy.
Ở vị trí -1 là định từ: cái, chiếc.
Ở vị trí 0 là danh từ, đó có thể là dạng danh từ đơn, hoặc dạng danh từ ghép. Dạng đơn thì có thể là: danh từ đơn thể, danh từ tổng thể, danh từ trừu tượng, danh từ riêng (phụ lục B). Dạng ghép thì có thể là danh từ loại thể được theo sau bởi một (hoặc nhiều) danh từ ở dạng từ đơn hoặc nhiều danh từ đơn liền nhau.
Ở vị trí 1 là tính từ.
Ở vị trí 2 là đại từ chỉ định như: này, kia, ấy, đó.
Vị trí số 0 là bắt buộc phải có, các vị trí khác có thể có hoặc không. Chúng ta cùng thống nhất là trong phần còn lại của khóa luận: nếu chỉ có mỗi vị trí 0 được khớp
trong khi các vị trí còn lại không được khớp, chúng ta vẫn coi đó là cụm danh từ. Đối
chiếu với nhãn từ loại, chúng ta sẽ bảng phân tích cấu trúc cụm danh từ được biểu diễn trong văn phạm JAPE như bảng 4-2 sau đây:
51
Bảng 4-2: Cấu trúc cụm danh từ đƣợc mô tả trong văn phạm JAPE
-3 Từ chỉ
tổng lượng ({TokenVn.category == “Pn”}) ? Đại từ số lượng
-2 Số từ ( {TokenVn.category == “Nu”} | {TokenVn.category == “Nn”} ) ? Danh từ chỉ đơn vị Danh từ số lượng -1 Định từ: ―cái‖, ―chiếc‖ ( {TokenVn.string == “cái”} | {TokenVn.string == “chiếc”} ) ? 0 Danh từ ({TokenVn.category == “Nt”}) ? ( {TokenVn.category == “Nc” } | {TokenVn.category == “Ng” } | {TokenVn.category == “Na” } | {TokenVn.category == “Np”} ) + Danh từ loại thể Danh từ đơn thể Danh từ tổng thể Danh từ trừu tượng Danh từ riêng 1 Tính từ ( {TokenVn.category == “Aa”} | {TokenVn.category == “An”} ) ? Tính từ hàm chất Tính từ hàm lượng 2 Đại từ chỉ định ( {TokenVn.string == "này"} | {TokenVn.string == "kia"} | {TokenVn.string == "ấy"} | {TokenVn.string == "đó"} ) ?
52
Một trường hợp xảy ra đối với câu hỏi mang ý nghĩa so sánh như:
“Sinh viên nào có điểm lớn hơn 7?”
Có hai cụm danh từ trong câu hỏi này là: “sinh viên” và “điểm lớn”. Cụm từ “điểm lớn” (“điểm” là danh từ đơn thể, “lớn” là tính từ) làm mất đi thông tin ngữ
nghĩa của câu hỏi, đây không còn là câu so sánh nữa.
Để giải quyết vấn đề này chúng ta sẽ tạo ra một chú giải cho các cụm từ mang ý nghĩa so sánh. Đối với các cụm từ mà tính từ được theo sau bởi từ “hơn” hoặc từ “nhất”, chúng ta sẽ sử dụng kiểu chú giải TokenVn trên cụm từ dạng này, với đặc trưng string là xâu biểu diễn cụm từ, category nhận giá trị la “Tusosanh”, type nhận một trong hai giá trị “Tương đối” hoặc “Tuyệt đối” phụ thuộc vào từ đi sau tính từ là từ “hơn” hay là từ “nhất”. Như vậy một từ đã đuợc tạo ra mang ý nghĩa so sánh thay cho cụm từ ban đầu.
Trong câu hỏi “Sinh viên nào có điểm lớn hơn 7?”, chúng ta sẽ có “lớn hơn”
được chú giải bởi kiểu TokenVn với đặc trưng category là ―Tusosanh”. Và câu hỏi
này có hai từ “sinh viên” và “điểm” được chú giải bởi kiểu Cumdanhtu như được chỉ ra ở hình 4-9 sau:
53
Song song với việc xác định cụm danh từ, chúng tôi tạo một kiểu chú giải là
Danhngu (trong hình 4-10) để khớp với thành phần trung tâm của cụm danh từ và tính
từ theo đằng sau (nếu có). Từ hoặc cụm từ được chú giải bởi kiểu Danhngu sẽ là một thực thể hoặc là một khái niệm.
54