3 Thực nghiệm
2.3 Tập nhãn mệnh đề tiếng Việt
1 NP Cụm danh từ 2 VP Cụm động từ 3 AP Cụm tính từ 4 RP Cụm phụ từ 5 PP Cụm giới từ 6 QP Cụm từ chỉ số lượng 7 MDP Cụm từ tình thái
8 WHNP Cụm danh từ nghi vấn (ai, cái gì, con gì,... ) 9 WHAP Cụm tính từ nghi vấn (lạnh thế nào, đẹp ra sao,... ) 10 WHRP Cụm từ nghi vấn dùng khi hỏi về thời gian, nơi chốn,... 11 WHPP Cụm giới từ nghi vấn (với ai, bằng cách nào,... )
Bảng 2.3: Tập nhãn mệnh đề tiếng Việt.STT Tên Chú thích STT Tên Chú thích
1 S Câu trần thuật (khẳng định hoặc phủ định)
2 SQ Câu hỏi
3 SBAR Mệnh đề phụ (bổ nghĩa cho danh từ, động từ, và tính từ)
Kho ngữ liệu rất quan trọng trong việc tạo nên tài nguyên cho phân tích cú pháp phụ thuộc cho tiếng Việt. Dựa vào kho ngữ liệu để xác định các quan hệ và tên quan hệ giữa các từ trong câu. Ngoài ra, kho ngữ liệu cũng được sử dụng trong chuyển tự động từ treebank sang định dạng dữ liệu của từng công cụ, phục vụ để giải quyết từng bài tốn khác nhau trong xử lí ngơn ngữ tự nhiên.
2.2 Tập nhãn quan hệ phụ thuộc đa ngôn ngữ
Nhãn quan hệ phụ thuộc thể hiện sự phụ thuộc giữa hai từ trong câu với nhau. Mỗi cặp từ loại khác nhau, ở những vị trí khác nhau thì sẽ có tên quan hệ phụ thuộc là khác nhau. Đây là cách làm tốt nhất và hiệu quả nhất để hiểu được mối quan hệ giữa hai từ. Nhãn quan hệ phụ thuộc được đồng nhất trong tồn bộ ngơn ngữ, và có một quy tắc chuyển đổi chung để làm điều đó. Có nhiều bộ nhãn quan hệ dùng cho một ngôn ngữ và độ chi tiết giữa các bộ nhãn là khác nhau.