tiếng Việt.
3.2. Nội dung và quy trình dựng kho ngữ liệu có chú giải cú pháp (treebank) (treebank)
Kho ngữ liệu (treebank) là ngân hàng các câu được chú giải cấu trúc ngữ pháp.
Quy trình xây dựng treebank thường tuân theo các bước sau:
• Tìm hiểu: Xác định tiếp cận xây dựng treebank phù hợp với ngôn ngữ
đang được xem xét. Tức là lựa chọn một lược đồ giải thích cấu trúc cú pháp phù hợp. Có hai loại lược đồ chú giải cấu trúc cú pháp là chú giải theo cấu trúc thành phần và chú giải theo cấu trúc phụ thuộc. Loại thứ nhất quan tâm đến cấu trúc ngữ đoạn trong câu trong khi loại thứ hai chủ yếu quan tâm đến sự phụ thuộc ngữ pháp giữa các từ trong câu. Tùy vào đặc điểm ngôn ngữ học khác nhau mà lược đồ chú giải của các ngôn ngữ khác nhau. Với tiếng Việt là ngôn ngữ đơn lập, cấu tạo từ cũng phức tạp (đơn và đa âm tiết) nên lựa chọn phù hợp là lược đồ chú giải theo cấu trúc thành phần. Các lược đồ chú giải cấu trúc theo thành phần thường có các đặc điểm:
o Về mức độ gán nhãn: tách từ, gán nhãn từ loại và gán nhãn cú
pháp
o Nhãn cú pháp gồm có cả nhãn chức năng
o Đảm bảo sự nhận diện các quan hệ ngữ pháp cơ bản: quan hệ chủ
vị, phụ thuộc, đẳng lập, bổ ngữ, phụ ngữ, đề ngữ, …
• Thiết kế tập nhãn và tài liệu hướng dẫn gán nhãn
• Thu thập văn bản thô: thường được lấy từ các loại sách, báo, tap chí. Chẳng hạn như treebank tiếng Anh chọn báo Wall Street Journal, treebank tiếng Trung chọn báo XinHua.
• Thực hiện gán nhãn
Với tiếng Việt, treebank được nghiên cứu xây dựng trong khuôn khổ đề tài VLSP và có tên là vietreebank. Mục tiêu của vietreebank là xây dựng được lược đồ giải thích cú pháp được 10.000 câu.
Tập nhãn của vietreebank được thiết kế gồm có:
• Tập nhãn từ loại. Về nguyên tắc, các thông tin về từ có thể được chứa
trong nhãn từ loại bao gồm: từ loại cơ sở (danh từ, động từ, v.v.), thông tin hình thái (số ít, số nhiều, thì, ngôi, v.v.), thông tin về phân loại con (ví dụ động từ đi với danh từ, động từ đi với mệnh đề, v.v.), thông tin ngữ nghĩa, hay một số thông tin cú pháp khác. Với đặc điểm của tiếng Việt, tập nhãn từ loại chỉ chứa thông tin về từ loại cơ sở mà không bao gồm các thông tin như hình thái, phân loại con, v.v.
Các nhãn từ loại: STT Tên Chú thích 1 N Danh từ 2 Nc Danh từ chỉ loại 3 V Động từ 4 A Tính từ 5 P Đại từ 6 D Định từ 7 M Số từ 8 R Phụ từ … … …
• Tập nhãn các thành phần cú pháp. Tập nhãn này chứa các nhãn mô tả các thành phần cú pháp cơbản là cụm từ và mệnh đề. Nhãn thành phần cú pháp là thông tin cơ bản nhất trên cây cú pháp, nó tạo thành xương sống của cây cú pháp. Các nhãn cụm từ: STT Tên Chú thích NP Cụm danh từ VP Cụm động từ AP Cụm tính từ RP Cụm phụ từ PP Cụm giới từ QP Cụm từ chỉ số lượng
WHNP Cụm danh từ nghi vấn (ai, cái gì, con gì,
v.v.)
… …
Các nhãn mệnh đề:
STT Tên Chú thích
S Câu trần thuật (khẳng định hoặc phủ định)
SQ Câu hỏi
SE Câu cảm thán
SC Câu mệnh lệnh
SBAR Mệnh đề phụ (bổ nghĩa cho danh từ, động
từ, và tính từ)
… …
• Tập nhãn chức năng ngữ pháp. Nhãn chức năng của một thành phần cú
pháp cho biết vai trò của nó trong thành phần cú pháp mức cao hơn. Nhãn chức năng cú pháp được gán cho các thành phần chính trong câu như chủ ngữ, vị ngữ, tân ngữ. Nhờ thông tin do nhãn chức năng cung cấp ta có thể xác định các loại quan hệ ngữ pháp cơ bản sau đây:
o Chủ-vị
o Đề-thuyết
o Phần chêm
o Phụ ngữ
o Sự kết hợp
Các nhãn chức năng cú pháp
STT Tên Chú thích
SBJ Nhãn chức năng chủ ngữ
OBJ Nhãn chức năng tân ngữ trực tiếp
IO Nhãn chức năng tân ngữ gián tiếp
TPC Nhãn chức năng chủ đề
PRD Nhãn chức năng vị ngữ không phải cụm
động từ
… …
Việc thực hiện gán nhãn được thực hiện qua ba bước: tách từ, gán nhãn từ loại và gán nhãn cú pháp. Quá trình gán nhãn thực hiện tài liệu hướng dẫn gán nhãn.
Một số ví dụ gán nhãn cú pháp: - Gán nhãn cho cụm danh từ: NP
Cấu trúc cơ bản của một cụm danh từ:
<phần phụ trước> <danh từ trung tâm> <phần phụ sau> Với cụm danh từ: “quả bóng màu xanh”, ta có:
(NP (Nu quả) (N bóng) (N màu xanh))
- Gán nhãn cho cụm động từ: VP
Giống như cụm danh từ, cấu tạo một cụm động từ về cơ bản như sau: <phần phụ trước> <động từ trung tâm> <phần phụ sau>
Với cụm động từ: “đang ăn cơm”, ta có: (VP (R đang)
(NP cơm))
- Gán nhãn cho câu trần thuật: S
Theo quan điểm coi cấu trúc chủ-vị là cấu trúc chủ đạo của câu tiếng Việt, một câu trần thuật gồm hai phần là chủ ngữ và vị ngữ:
<chủ ngữ> <vị ngữ>
Trong đó chủ ngữ thường là cụm danh từ, còn vị ngữ thường là cụm động
từ hoặc cụm tính từ. Với một số ngôn ngữ như tiếng Anh, vị ngữ luôn là cụm động từ.
Với câu: “Anh yêu em”, ta có: (S (NP-SBJ Anh)
(VP (V yêu)
(NP-OBJ em)) (. .))
Quy trình gán nhãn cú pháp cho tiếng Việt được hướng đẫn chi tiết trong tài liệu Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn khi xây dựng treebank tiếng Việt trong đề tài VLSP.
Bộ công cụ hỗ trợ xây dựng, tổ chức, biểu diễn kho ngữ liệu để sử dụng lâu dài là cần thiết.