Hệ thống các cấu trúc nét dùng lưu trữ từ tiếng Anh

Một phần của tài liệu Mô hình xử lý khoảng trống từ vựng trong dịch máy anh việt (Trang 92)

Để khai báo các từ loại trong từ điển, thay vì sử dụng các kiểu từ loại đơn giản như “danh từ”, “động từ”… luận án này xây dựng một cấu trúc phức tạp hơn với các nét lồng nhau theo văn phạm HPSG đã nghiên cứu ở chương 3 (mục 3.1). Hệ thống các từ loại phức này được xây dựng theo phương pháp sau. Các kiểu ma

79

trận được ký hiệu bằng chữ in nghiêng (word, nn …), các từ loại được ký hiệu bằng chữ in hoa (NN, DT…)

1. Một cấu trúc cơ bản được gọi là “sign” (Hình 5.1) bao gồm hai nét là “PHONOLOGY” (ngữ âm) và “SYNSEM” (cú pháp -ngữ nghĩa). Nét “PHONOLOGY” chứa từ gốc. “SYNSEM” bao gồm hai nét là CAT và CONTENT chứa thơng tin cú pháp và ngữ nghĩa tương ứng. Tạm thời mục CONTENT để trống do mơ hình dịch khơng sử dụng thơng tin nghĩa từ. Mục CAT gồm bốn nét là “HEAD” (thành phần trung tâm), “SUBJ” (chủ ngữ), “COMPS” (bổ ngữ) vả “SPR” (chỉđịnh từ). Kiểu cơ

bản signđược dùng để xây dựng các cấu trúc khác sát với từng kiểu từ

loại tiếng Anh.

2. Một sign bổ sung thêm nét ARG-ST (tham tố) được gọi là “word” (Hình 5.2). word là cấu trúc cĩ thểđược sử dụng để lưu một mục từ chưa rõ từ

loại. Trên thực tếwordđược cụ thể hĩa các giá trịđể chỉđịnh từ loại. 3. Dựa trên ma trận word, các kiểu “nn”(ma trận danh từ- hình 5.3), “vb

(động từ), “ivb”(nội động từ), “tvb” (ngoại động từ hình 5.4), “adj“ (tính từ)… được tạo bằng một số ràng buộc. Ví dụ kiểu nnđược mơ tả trong hình 5.3 bắt buộc nét HEAD cĩ giá trị “NN” (danh từ) và SPR là “DT” (chỉđịnh từ). Trong hình 5.3 các nét khác khơng được mơ tả.

Hình 5.1. Các ma trận sign, synsemcat

Hình 5.2. Ma trận kiểu word sign PHONOLOGY SYNSEM synsem CAT CONTENT cat HEAD SUBJ COMPS SPR word PHONOLOGY SYNSEM ARG-ST

80

Hình 5.3. Ràng buộc của kiểu nn (ma trận danh từ)

Hình 5.4. Ràng buộc của kiểu tvb (ngoại động từ)

Ví dụ: ma trận đầy đủ của danh từ “book” cĩ dạng như hình 5.5.

Một phần của tài liệu Mô hình xử lý khoảng trống từ vựng trong dịch máy anh việt (Trang 92)

Tải bản đầy đủ (PDF)

(167 trang)