Xây dựng sơ đồ mã hóa và công cụ trợ giúp gán nhãn cú pháp tiếng Việt

10 128 0
Xây dựng sơ đồ mã hóa và công cụ trợ giúp gán nhãn cú pháp tiếng Việt

Đang tải... (xem toàn văn)

Thông tin tài liệu

Báo cáo này trình bày một hướng tiếp cận xây dựng mô hình chú giải cú pháp cho tiếng Việt tương thích mô hình chú giải cú pháp chuẩn quốc tế SynAF có tên vnSynAF. Mô hình vnSynAF là một lược đồ mã hóa dựa trên định dạng XML (eXtended Markup Language) có thể sử dụng trong việc định dạng và mã hoá treebank cho tiếng Việt. Báo cáo cũng giới thiệu một công cụ đồ hoạ trợ giúp gán nhãn cây cú pháp và phát triển treebank tiếng Việt.

XÂY DỰNG SƠ ĐỒ MÃ HĨA VÀ CƠNG CỤ TRỢ GIÚP GÁN NHÃN CÚ PHÁP TIẾNG VIỆT Phan Thị Hà1, Nguyễn Thị Minh Huyền2, Lê Hồng Phương2, Lưu Văn Tăng2 Học viện Cơng nghệ Bưu Viễn Thơng Hà Nội Đại học Khoa học Tự nhiên Hà Nội Tóm tắt: Báo cáo trình bày hướng tiếp cận xây dựng mơ hình giải cú pháp cho tiếng Việt tương thích mơ hình giải cú pháp chuẩn quốc tế SynAF có tên vnSynAF Mơ hình vnSynAF lược đồ mã hóa dựa định dạng XML (eXtended Markup Language) sử dụng việc định dạng mã hoá treebank cho tiếng Việt Báo cáo giới thiệu công cụ đồ hoạ trợ giúp gán nhãn cú pháp phát triển treebank tiếng Việt Giới thiệu Kho văn mà câu giải cấu trúc cú pháp biểu diễn dạng cấu trúc phân cấp nguồn tài nguyên hữu ích lĩnh vực xử lý ngôn ngữ (XLNN) tự nhiên Kho văn gọi treebank Treebank có nhiều ứng dụng quan trọng đánh giá, kiểm định công cụ xử lí ngơn ngữ tự động, phần mềm dịch máy, tóm tắt văn bản, hệ thống hỏi đáp… Các hệ thống treebank cho thứ tiếng nghiên cứu nhiều Anh, Pháp, Hoa… xây dựng từ lâu, tiếng Việt, việc xây dựng treebank công việc bắt đầu Trong lĩnh vực XLNN tự nhiên, nguồn tài ngun ngơn ngữ đóng vai trò quan trọng việc nghiên cứu phát triển phương pháp công cụ tự động Việc chuẩn hố vấn đề mã hố tài ngun ngơn ngữ nói chung mã hố treebank nói riêng nhằm mở rộng đến mức tối đa phạm vi sử dụng khai thác tài nguyên vấn đề quan trọng Gần số dự án xây dựng kho ngữ liệu giới đưa vấn đề chuẩn hóa lên hàng đầu Đặc biệt dự án European eContent LIRICS xử lý q trình chuẩn hóa quốc tế giải tài nguyên cú pháp - SynAF (Syntactic Annotation Framework) Mơ hình SynAF thiết kế dựa vào hai cấu trúc phụ thuộc cấu trúc thành phần, bên cạnh danh mục liệu (danh sách nhãn gán cho nút, cung) sơ đồ xây dựng theo chuẩn để dễ dàng sử dụng, ánh xạ, tham chiếu sang danh mục nước khác cách dể dàng Có hai cách thường sử dụng để mã hóa cú pháp Cách thứ đơn giản, sử dụng cấu trúc dấu ngoặc Theo cách thành phần cú pháp có cặp dấu ngoặc bao quanh Ngay sau dấu ngoặc ký hiệu ngữ pháp thuộc tính (nếu có), danh sách thành phần cú pháp Cách thứ hai sử dụng lược đồ mã hóa XML (eXtended Markup Language) Cách nghiên cứu kỹ lưỡng áp dụng vào số dự án xử lý ngôn ngữ Châu Âu [4] Vấn đề xây dựng kho ngữ liệu chuẩn cho tiếng Việt vần đề cấp thiết, mục tiêu đề tài Nhà nước xử lí ngơn ngữ tiếng nói tiếng Việt giai đoạn 2007-2009 Việc xây dựng cơng cụ hỗ trợ cho việc mã hóa XML theo chuẩn hóa quốc tế nhiềm vụ cần thiết việc xây dựng treebank cho tiếng Việt (VNTreebank) Trong báo cáo giới thiệu xây dựng sơ đồ mã hóa cơng cụ đồ họa hỗ trợ cho nhà xây dựng VNTreebank việc mã hóa tự động cú pháp theo hệ mã XML tương thích với chuẩn SynAF tổ chức ISO Mơ hình SynAF 2.1 Một số mơ hình mã hố cấu trúc cú pháp Để mã hố cấu trúc cú pháp câu ngôn ngữ, UPenn Treebank sử dụng lược đồ mã hoá ngoặc đơn để phân cấp cấu trúc câu, với giải ngữ pháp thuộc tính cần sử dụng Ví dụ, câu "Pierre Vinken, 61 years old, will join the board as the board as a nonexecutive director Nov 29" mã sau: ( (S (NP-SBJ (NP Pierre Vinken) , (ADJP (NP 61 years) old) ,) (VP will (VP join (NP the board) (PP-CLR as (NP a nonexecutive director)) (NP-TMP Nov 29))) )) Cấu trúc đồ hoạ câu cho Hình Hình Cấu trúc cú pháp câu UPenn Treebank Prague Dependency Treebank giải cú pháp dựa mơ hình hai lớp: lớp cấu trúc thành phần lớp cấu trúc phụ thuộc Prague Dependency Treebank sử dụng lược đồ mã hoá PML (The Pargue Markup Language) - định dạng mã hoá liệu mở dựa XML [9] Các cấu trúc phụ thuộc thành phần mã hai lớp tương ứng Ví dụ, câu "John loves Mary He told her this Friday" có giải phụ thuộc thành phần với PML sau: Chú giải phụ thuộc Chú giải thành phần John Smith Sun May 18:56:55 2005 John loves Mary He told her this Friday Ví dụ sau biểu diễn giải cú pháp câu tiếng Đức mã hóa dạng TIGER XML - định dạng mã hoá treebank tiếng Đức, tiền đề tham khảo để xây dựng định dang ISO SynAF [5] 2.2 Mô hình SynAF Mơ hình giải cú pháp SynAF (Syntactic Annotation Framework) siêu mơ hình bao phủ hai mảng cấu trúc cú pháp phụ thuộc cú pháp thành phần Mơ hình SynAF là tảng giải đa tầng, cho phép kết hợp giải liệu ngôn ngữ thông qua hai mảng cấu trúc Ngồi ra, SynAF cung cấp danh sách hạng mục liệu chuẩn hoá quốc tế cho cho hai mảng cấu trúc cú pháp Các phần tử mơ hình SynAF gồm có:  T Nodes : Biểu diễn nút kết cú pháp, thường gồm từ gán nhãn hình thái cú pháp Các nút T xác định khoảng (span), span bội (dùng để xét thành phần không liên tục) Các nút T gán nhãn từ loại thích hợp mức từ  NT Nodes : Biểu diễn nút không kết cú pháp, chủ yếu chứa nút kết thúc T không kết thúc NT Các nút NT xác định span (bội) Chúng sử dụng để gán nhãn mức cụm từ (ngữ) mức cao (mệnh đề, câu)  Edges : Biểu diễn quan hệ phụ thuộc nút (cả hai loại nút kết không kết), quan hệ nhị phân, gồm tên nhãn cặp nút nguồn nút đích  Syntactic Annotation (SA) : Biểu diễn việc áp dụng thông tin giải cú pháp vào đầu vào giải hình thái-cú pháp MAF (Morphosyntactic Annotation Framework) Việc áp dụng tự động tay Khi giải cú pháp gắn vào nút (kết khơng kết), sinh nút (không kết) cạnh phụ thuộc Biểu diễn UML (Unified Modeling Language) mơ hình SynAF Hình [7] Để gán nhãn cho T Node, NT Node, Edge người ta sử dụng danh sách các nhãn từ loại nhãn quan hệ khuyến nghị tài liệu ISO/CD/24615 Mơ hình SynAF cho tiếng Việt Mơ hình SynAF ISO sở tốt cho việc xây dựng mơ hình giải cú pháp câu tiếng Việt Dựa SynAF, xây dựng mơ hình giải cú pháp câu tiếng Việt - vnSynAF Danh mục nhãn từ loại dùng để gán nhãn cho nút T, NT, cung Edge dựa tài liệu “ Thiết kế tập nhãn cú pháp hướng dẫn gán nhãn” [8] Các nút T dùng để mơ tả thuộc tính đơn vị từ đầu vào (token) Các nút NT dùng để biểu diễn thành phần không kết thúc từ loại, cụm từ, nhãn qui ước cho dấu…Các cung (edge) dùng để liên kết nút, biểu diễn chức thành phần cú pháp, cho biết vai trò thành phần cú pháp mức cao hơn, nhờ giúp biết quan hệ ngữ pháp nút, chủ ngữ, vị ngữ, tân ngữ… Khi đưa thông tin giải vào sơ đồ giải cú pháp lấy tài liệu có trước xây dựng cơng cụ tự động Tiếp theo chúng tơi trình bày định dạng giải nhãn cú pháp cho câu tiếng Việt theo XML tương ứng với mơ hình vnSynAF 3.1 Chú giải XML cho nút kết thúc (T) Tất nút kết thúc T mã hóa bên cặp thẻ …. Trong từ nguyên dạng câu tiếng Việt tương ứng nút T mã hóa thẻ thành phần : ……………………………… Mỗi thẻ bao gồm thuộc tính: • Địa id : Được đánh tuỳ ý, nhiên đánh địa nên dùng kí hiệu có liên quan đến nút nguồn cung • Nhãn label: Chính nhãn lấy từ danh sách nhãn chức năng, danh sách nhãn phân loại phụ ngữ động từ, nhãn phần tử rỗng Có thể có thẻ khơng cần có nhãn (trong trường hợp nhãn phân loại phụ ngữ động từ, không muốn cụ thể chi tiết thơng tin có cú pháp) • Địa đích tar: địa đích cung, đánh tuỳ ý Ngồi việc sử dụng mơ hình SynAF việc thiết kế nhãn chuẩn cho cú pháp tiếng Việt dùng để gán nhãn cho nút kết thúc (T), không kết thúc (NT), cung biểu diễn mối liên hệ phụ thuộc nút (edges) điều cần thiết Hình Mơ hình SynAF Ví dụ việc mã cú pháp SynAF S NP VP NP V John D wants the N cake

Ngày đăng: 11/01/2020, 16:49

Từ khóa liên quan

Mục lục

  • 1. Giới thiệu

  • 2. Mô hình SynAF

    • 2.1. Một số mô hình mã hoá cấu trúc cú pháp

    • 2.2. Mô hình SynAF

    • 3. Mô hình SynAF cho tiếng Việt

      • 3.1 Chú giải XML cho các nút kết thúc (T)

      • 3.2 Chú giải XML cho các nút không kết thúc (NT)

      • 3.3 Chú giải XML cho các cung(edges):

      • 4. Công cụ vnSynAF

      • Chương trình SynAF cung cấp các công cụ hỗ trợ cho việc xây dựng ngân hàng kho ngữ liệu. Trong chương trình này dữ lệu đầu vào có thể được cập nhập theo các cách sau:

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan