Mô hình MAF của ISO/TC 37/SC 4

Một phần của tài liệu Luận án tiến sĩ: Xử lý tiếng việt (Trang 50 - 52)

MAF [59] là mô hình hướng tới chuẩn quốc tế về chú giải hình thái - cú pháp. Mô hình MAF là cơ sở để xây dựng các kho ngữ liệu có chú giải, đây là một siêu mô hình sử dụng XML để mã hoá, tất cả các dữ liệu trong mô hình sử dụng bộ mã hóa kí tự Unicode.

Giai đoạn chú giải cú pháp hình thái học là gắn tới mỗi đoạn câu trong tài liệu (đã phân tách đoạn) một hoặc nhiều thẻ cung cấp thông tin hình thái - cú pháp về

nhãn từ loại (danh từ, động từ….), các đặc điểm hình thái ngữ pháp (như giống, số

35

.

Hình 3. 1 Mô hình tổng quan của MAF [59]

Hình 3.1, biểu diễn mô hình tổng quan chú giải hình thái cú pháp, mô hình sử dụng tập thẻ từ loại được tham chiếu tới tập phạm trù ngữ liệu chuẩn của ISO (Data Categogy Register- ISO 12620), sử dụng kho từ vựng của mỗi ngôn ngữ và các cấu trúc nét11 (các thời của động từ, biến thể, giống của từ…). Mô hình gồm có các thành phần chính:

Segment (Phân đoạn- xác định đơn vị cơ sở): Mỗi tài liệu được phân chia (tách) ra thành các dấu hiệu từ (token), các dấu hiệu này có thểđược nhúng ngay trong các thẻ chú giải gọi là chú giải nhúng, nếu phần chú giải của các dấu hiệu được đặt trong tài liệu chú giải khác với tài liệu gốc (tham chiếu tới tài liệu gốc) thì gọi là chú giải cách biệt (stand_off notation)

Wordform (Hình thái từ): Mỗi Wordform là một đơn vị ngôn ngữđược xác định bằng các thuộc tính hình thái cú pháp, mỗi một Wordform định dạng 0 hoặc 1 hoặc

36

nhiều dấu hiệu từ trong văn bản gốc, một Wordform có thể tham chiếu tới một mục từ trong từđiển từ vựng và cung cấp các thông tin về từ gốc và các biến thể từ;

Morphosyntactic content (Nội dung chú giải hình thái – cú pháp): Các thông tin thuộc tính được gắn tới mỗi Wordform theo hướng dẫn của 1 hoặc nhiều tập thẻ

Ví dụ

Wordform biểu diễn từ “belle” trong tiếng Pháp được mã hóa XML trong mô hình MAF như sau

<token id="t0">belle</token>

<Wordform entry="urn:lexicon:fr:beau" lemma="beau" tokens="t0"> <fs> <f name="pos"> <symbol value="adjective"/> </f> <f name="adj_type"> <symbol value="qualifier"/> </f> <f name="gender"> <symbol value="feminine"/> </f> <f name="number"> <symbol value="singular"/> </f> </fs> </Wordform>

Một phần của tài liệu Luận án tiến sĩ: Xử lý tiếng việt (Trang 50 - 52)