Mô hình SynAF của ISO/TC 37/SC4

Một phần của tài liệu Luận án tiến sĩ: Xử lý tiếng việt (Trang 52 - 54)

Dự án European eContent LIRICSđã và đang xử lý quá trình chuẩn hóa quốc tế

về chú giải tài nguyên cú pháp – SynAF [60] được phát triển bởi tổ chức ISO/TC 37/SC 4. Dự án này nhằm phát triển mô hình gán nhãn chuẩn XML dựa trên cơ sở

các dự án lớn về ngân hàng cây cú pháp (treebank) như Penn Treebank cho tiếng Anh, French treebank cho tiếng Pháp, Negra/Tiger cho tiếng Đức, ISST cho tiếng Ý, Prague Treebank cho tiếng Tiệp .v.v. Nhìn chung trong các dự án này việc gán nhãn cú pháp chủ yếu đều chứa thông tin về cấu trúc thành phần (constituent

37

structure) và cấu trúc phụ thuộc (dependency structure). Đây chính là cơ sở để xây dựng mô hình chú giải cú pháp tiếng Việt.

Mô hình SynAF được thiết kế dựa vào cả hai cấu trúc phụ thuộc và cấu trúc thành phần, bên cạnh đó thì danh mục dữ liệu (danh sách bộ nhãn gán cho các nút, các cung) trên sơ đồ cũng được xây dựng theo một chuẩn để dễ dàng sử dụng, có thể ánh xạ, tham chiếu sang bộ danh mục của các nước khác nhau một cách dễ

dàng.

SynAF là mô hình hướng tới chuẩn quốc tế về chú giải cú pháp và đã được chấp nhận mức ISO (ISO/TC 37/SC 4), đây là một siêu mô hình bao phủ cả hai mảng cấu trúc cú pháp phụ thuộc và cú pháp thành phần. Mô hình SynAF là là nền tảng của chú giải đa tầng, được biểu diễn bằng UML (Unified Modeling Language), cho phép kết hợp sự chú giải dữ liệu ngôn ngữ thông qua cả hai mảng cấu trúc trên. Ngoài ra, SynAF còn được cung cấp danh sách các hạng mục dữ liệu được chuẩn hoá quốc tế cho cho cả hai mảng cấu trúc cú pháp, tất cả tất cả các dữ liệu trong mô hình sử dụng bộ mã hóa kí tự Unicode. Mô hình SynAF là cơ sở được sử dụng để

xây dựng các treebank cho các ngôn ngữ như tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Ý…

Các phần tử cơ bản của mô hình SynAF gồm có:

T Nodes: Biểu diễn các nút kết thúc (T) của cây cú pháp, thường gồm các từ được gán nhãn hình thái cú pháp. Các nút T được xác định trên một khoảng (span), có thể là một span bội (dùng để xét các thành phần không liên tục). Các nút T được gán các nhãn từ loại thích hợp ở mức từ.

NT Nodes: Biểu diễn các nút không kết thúc (NT) của cây cú pháp, chủ yếu chứa các nút kết thúc T và không kết thúc NT. Các nút NT cũng được xác định trên một span (bội). Chúng được sử dụng để gán nhãn ở mức cụm từ (ngữ) và mức cao hơn (mệnh đề, câu).

Edges: Biểu diễn quan hệ phụ thuộc giữa các nút (cả hai loại nút kết và không kết), đây là quan hệ nhị phân, gồm một tên nhãn và cặp nút nguồn, nút đích.

38

Syntactic Annotation (SA): Biểu diễn việc áp dụng thông tin chú giải cú pháp

đến đầu vào của nền chú giải hình thái-cú pháp MAF. Việc áp dụng này có thể là tự động hoặc bằng tay. Khi chú giải cú pháp được gắn vào các nút (kết hoặc không kết), nó sinh ra một nút mới (không kết) hoặc một cạnh phụ thuộc.

Biểu diễn UML của mô hình SynAF như Hình 3.2. Để gán nhãn cho các T Node, NT Node, Edge người ta đã sử dụng danh sách các các nhãn từ loại và nhãn quan hệđược khuyến nghị như trong tài liệu ISO/CD/24615 [60].

Hình 3. 2. Mô hình SynAF [60]

Một phần của tài liệu Luận án tiến sĩ: Xử lý tiếng việt (Trang 52 - 54)