Xác định cụm danh từ trong câu hỏi

Một phần của tài liệu phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt (Trang 60 - 65)

Thông thường, cụm danh từ chứa đựng khái niệm (lớp đối tượng) hoặc thực thể (đối

tượng) trong thế giới tự nhiên.

Ví dụ xét câu hỏi: “những sinh viên của lớp khoa học máy tính là ai?” cụm

danh từ “những sinh viên” chứa đựng khái niệm “sinh viên”, cụm danh từ “lớp khoa

học máy tính” lại là một thực thể.

Khi một cụm danh từ được xác định, một kiểu chú giải Cumdanhtu với hai đặc trưng category và type được tạo ra giống như hình 4-8 dưới đây:

Hình 4-8: Cụm danh từ trong một số câu hỏi tiếng Việt

Cấu tạo cụm danh từ gồm có 3 thành phần: ngoài thành phần tố trung tâm là danh từ còn có thành tố phụ trước và thành tố phụ sau. Cụm danh từ có thể thiếu thành tố phụ trước hoặc thành tố phụ sau. Thông qua việc tham khảo [39][38] và phân tích trên nhiều câu hỏi, chúng tôi đưa ra cấu tạo một cách khá ổn định của một cụm danh từ trong câu hỏi tiếng Việt dựa trên bảng nhãn từ loại (phụ lục B) được thể hiện như trong bảng 4-1 dưới đây:

50

Bảng 4-1: Cấu tạo của cụm danh từ trong câu hỏi tiếng Việt

Thành tố phụ trước Trung tâm Thành tố phụ sau

-3 -2 -1 0 1 2

Từ chỉ tổng

lượng Số từ

Định từ “cái”

hoặc “chiếc” Danh từ Tính từ

Đại từ chỉ định

Tất cả các sinh viên giỏi ấy

Những cái bàn đen đó

Chiếc bàn này

Ở vị trí -3 là những từ mang ý nghĩa tổng lượng như: tất cả, cả, …

Số từ ở vị trí -2 thường là từ chỉ số lượng chính xác như: một, hai, … hoặc số từ chỉ số lượng không xác định như: vài, ba, dăm, … Hoặc phụ từ chỉ mang hàm ý tập

hợp như: những, các. Hoặc phụ từ mang hàm ý phân phối như : mọi, mỗi, từng,…

Hoặc là từ: mấy.

Ở vị trí -1 là định từ: cái, chiếc.

Ở vị trí 0 là danh từ, đó có thể là dạng danh từ đơn, hoặc dạng danh từ ghép. Dạng đơn thì có thể là: danh từ đơn thể, danh từ tổng thể, danh từ trừu tượng, danh từ riêng (phụ lục B). Dạng ghép thì có thể là danh từ loại thể được theo sau bởi một (hoặc nhiều) danh từ ở dạng từ đơn hoặc nhiều danh từ đơn liền nhau.

Ở vị trí 1 là tính từ.

Ở vị trí 2 là đại từ chỉ định như: này, kia, ấy, đó.

Vị trí số 0 là bắt buộc phải có, các vị trí khác có thể có hoặc không. Chúng ta cùng thống nhất là trong phần còn lại của khóa luận: nếu chỉ có mỗi vị trí 0 được khớp

trong khi các vị trí còn lại không được khớp, chúng ta vẫn coi đó là cụm danh từ. Đối

chiếu với nhãn từ loại, chúng ta sẽ bảng phân tích cấu trúc cụm danh từ được biểu diễn trong văn phạm JAPE như bảng 4-2 sau đây:

51

Bảng 4-2: Cấu trúc cụm danh từ đƣợc mô tả trong văn phạm JAPE

-3 Từ chỉ

tổng lượng ({TokenVn.category == “Pn”}) ? Đại từ số lượng

-2 Số từ ( {TokenVn.category == “Nu”} | {TokenVn.category == “Nn”} ) ? Danh từ chỉ đơn vị Danh từ số lượng -1 Định từ: ―cái‖, ―chiếc‖ ( {TokenVn.string == “cái”} | {TokenVn.string == “chiếc”} ) ? 0 Danh từ ({TokenVn.category == “Nt”}) ? ( {TokenVn.category == “Nc” } | {TokenVn.category == “Ng” } | {TokenVn.category == “Na” } | {TokenVn.category == “Np”} ) + Danh từ loại thể Danh từ đơn thể Danh từ tổng thể Danh từ trừu tượng Danh từ riêng 1 Tính từ ( {TokenVn.category == “Aa”} | {TokenVn.category == “An”} ) ? Tính từ hàm chất Tính từ hàm lượng 2 Đại từ chỉ định ( {TokenVn.string == "này"} | {TokenVn.string == "kia"} | {TokenVn.string == "ấy"} | {TokenVn.string == "đó"} ) ?

52

Một trường hợp xảy ra đối với câu hỏi mang ý nghĩa so sánh như:

“Sinh viên nào có điểm lớn hơn 7?”

Có hai cụm danh từ trong câu hỏi này là: “sinh viên” và “điểm lớn”. Cụm từ “điểm lớn” (“điểm” là danh từ đơn thể, “lớn” là tính từ) làm mất đi thông tin ngữ

nghĩa của câu hỏi, đây không còn là câu so sánh nữa.

Để giải quyết vấn đề này chúng ta sẽ tạo ra một chú giải cho các cụm từ mang ý nghĩa so sánh. Đối với các cụm từ mà tính từ được theo sau bởi từ “hơn” hoặc từ “nhất”, chúng ta sẽ sử dụng kiểu chú giải TokenVn trên cụm từ dạng này, với đặc trưng string là xâu biểu diễn cụm từ, category nhận giá trị la “Tusosanh”, type nhận một trong hai giá trị “Tương đối” hoặc “Tuyệt đối” phụ thuộc vào từ đi sau tính từ là từ “hơn” hay là từ “nhất”. Như vậy một từ đã đuợc tạo ra mang ý nghĩa so sánh thay cho cụm từ ban đầu.

Trong câu hỏi “Sinh viên nào có điểm lớn hơn 7?”, chúng ta sẽ có “lớn hơn”

được chú giải bởi kiểu TokenVn với đặc trưng category là ―Tusosanh”. Và câu hỏi

này có hai từ “sinh viên” và “điểm” được chú giải bởi kiểu Cumdanhtu như được chỉ ra ở hình 4-9 sau:

53

Song song với việc xác định cụm danh từ, chúng tôi tạo một kiểu chú giải là

Danhngu (trong hình 4-10) để khớp với thành phần trung tâm của cụm danh từ và tính

từ theo đằng sau (nếu có). Từ hoặc cụm từ được chú giải bởi kiểu Danhngu sẽ là một thực thể hoặc là một khái niệm.

54

Một phần của tài liệu phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt (Trang 60 - 65)

Tải bản đầy đủ (PDF)

(104 trang)