Một số hƣớng dẫn gán nhãn cụm trong tiếng Việt

Một phần của tài liệu Kiểm tra lỗi tự động từ dữ liệu được gán nhãn trong tiếng Việt (Trang 29)

2.2.3.1. Phần tử trung tâm

Phần tử trung tâm của một cụm từ (ngữ đoạn) có các thuộc tính sau [4]: -Nó là yếu tố mang tất cả các thuộc tính ngữ pháp của ngữ đoạn -Nó là yếu tố duy nhất của ngữ đoạn có thể có quan hệ ngữ pháp và ngữ nghĩa vƣợt ra ngoài ngữ đoạn

-Các yếu tố khác của ngữ đoạn chỉ có quan hệ phụ thuộc trực tiếp hay gián tiếp với trung tâm ngữ đoạn mà thôi (chứ không có bất cứ quan hệ gì ra ngoài phạm vi ngữ đoạn)

Một cụm từ có thể có một hoặc nhiều từ trung tâm. Cụm từ có một từ trung tâm: VP(V-H ngã)(R xuống)

Cụm từ có nhiều từ trung tâm: (VP-ADV(V-H Là) (NP(L những)(Nc-H ngƣời) (N kháng chiến) (AP(A-H cũ))))

Để xác định phần tử trung tâm, có thể sử dụng các thủ thuật: lƣợc, mở rộng văn cảnh, đặt câu hỏi, chen, quy tắc chính trƣớc phụ sau.

2.2.3.2. Cấu trúc với liên từ đẳng lập

Liên từ đẳng lập có hai tính chất: đối xứng và không đối xứng. Với mỗi liên từ mang tính chất khác nhau sẽ đƣợc gán một loại nhãn khác nhau.

Nhãn C gán cho liên từ đẳng lập có tính đối xứng: (N bàn) (C và) (N ghế). Nhãn CP dùng để gán cho liên từ đẳng lập không đối xứng:

(S(NP-SUB(N-H Giá)

(VP(V-H nấu)(V thuê)

(AP (A rẻ) (C hay) (A đắt))) (VP(V-H tùy)

(PP(E-H ở)

(AP(A-H thân sơ)) (UCP và)

(VP(V-H cam kết)

(NP(N-H chủ)(N-H thợ))))) (. .))

2.2.3.3. Cụm danh từ

Nhãn: NP

Cấu trúc cơ bản của một cụm danh từ nhƣ sau:

<phần phụ trƣớc> <danh từ trung tâm> <phần phụ sau>

Ví dụ: “một con hổ to” thì anh từ „„con‟‟ là trung tâm, “một” là phần phụ trƣớc, còn danh từ “hổ” và tính từ “to” thuộc phần phụ sau.

(NP (M một) (Nc-H con) (N hổ) (A to))

Một cụm danh từ có thể thiếu phần phụ trƣớc hay phần phụ sau nhƣng không thể thiếu phần trung tâm.

2.2.3.4. Cụm động từ

Nhãn : VP

Giống nhƣ cụm danh từ, cấu tạo một cụm động từ về cơ bản nhƣ sau: <phần phụ trƣớc> <động từ trung tâm> <phần phụ sau>

Ví dụ : (VP(R đã)(V-H thả)(N bom))

2.2.3.5. Cụm tính từ

Nhãn : AP

Cấu tạo một cụm tính từ về cơ bản nhƣ sau:

< phần phụ trƣớc> <tính từ trung tâm> <phần phụ sau> Ví dụ : (AP (NP (N bài toán)(A-H dễ)(R quá)) (adsbygoogle = window.adsbygoogle || []).push({});

2.2.3.6. Cụm giới từ

Nhãn : PP

Cấu trúc chung : <giới từ> <cụm danh từ> hoặc <giới từ> <cụm động từ> Ví dụ : (S (NP (P Tôi)) (VP (V đi) (NP (Np Nhật)) (PP (E để) (VP (V thăm) (N chồng))) 2.2.3.7. Cụm từ chỉ số lƣợng Nhãn : QP Nhãn QP bao gồm: Thành phần chính của QP là các số từ. Có thể là số từ xác định, số từ không xác định, hay phân số. Ngoài ra còn có thể có phụ từ

nhƣ "khoảng", "hơn", v.v. QP thƣờng đóng vai trò là thành phần phụ trƣớc của cụm danh từ (vị trí -1).

Ví dụ : (QP (R hơn) (M-H 1000))

Một phần của tài liệu Kiểm tra lỗi tự động từ dữ liệu được gán nhãn trong tiếng Việt (Trang 29)