Giới thiệu về từ điển

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng việt với hệ hình thức văn phạm tag (Trang 26 - 28)

Trong khuôn khổ đề tài KC.01.01/06-10 ([3]), nhóm các chuyên gia ngôn ngữ học đã xây dựng một kho từ vựng gồm khoảng hơn 41700 nghĩa từ nhằm phục vụ cho các ứng dụng xử lí tiếng Việt. Mơ hình ngữ liệu của kho từ vựng được xây dựng theo chuẩn LMF (Lexical Markup Framework) do tiểu ban kĩ thuật ISO/TC 37/SC 4 (http://tc37sc4.org) phát triển. LMF được tổ chức thành các gói cho phép đặc tả các thông tin ngôn ngữ ở từng cấp độ.

Mỗi mục từ của từ điển đưa ra ba loại thông tin mơ tả: thơng tin hình thái, cú pháp, ngữ nghĩa.

Thơng tin hình thái cho phép mơ tả cấu tạo từ.

Thông tin cú pháp mô tả thông tin về từ loại, tiểu từ loại; thông tin về khung vị từ; thông tin về các tham tố của vị từ, chức năng cú pháp và thành phần cú pháp của các tham tố.

Gói thơng tin ngữ nghĩa mơ tả các thơng tin về ràng buộc logic bao gồm ý nghĩa phạm trù, từ đồng nghĩa, từ trái nghĩa; thông tin ràng buộc ngữ nghĩa của các tham tố của một vị từ.

Từ điển được triển khai dưới hai dạng là tra cứu trên Web và mã hóa XML. Chương trình xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng Việt sẽ sử dụng từ điển ở dạng mã hóa XML. Dưới đây là một minh họa của từ

“bàn” được mã hóa dưới dạng XML với các thơng tin hình thái, cú pháp và ngữ nghĩa tương ứng: <Entry> <HeadWord>bàn</HeadWord> <Morphology> <WordType>simple word</WordType> </Morphology> <Syntactic> <Category>V</Category> <SubCategory>Vt</SubCategory> <SubcategorizationFrame val="Sub+V+Dob" /> <SyntacticArgument>

<feat att="syntacticFunction" val="Sub" /> <feat att="syntacticConstituent" val="NP" />

</SyntacticArgument> <SyntacticArgument>

<feat att="syntacticFunction" val="Dob" /> <feat att="syntacticConstituent" val="NP" />

</SyntacticArgument>

<Before>R: đã, đang, lại, hãy, đừng, không, chưa</Before>

<After>O: về</After> </Syntactic> <Semantic> <LogicalConstraint> <CategorialMeaning>CognitiveAct</CategorialMeaning> </LogicalConstraint>

<SynSemArgMap>

<feat att="syntacticFunction" val="Sub" />

<feat att="semanticRole" val="Agt" />

<feat att="subjectMeaning" val="Person" />

</SynSemArgMap>

<SynSemArgMap>

<feat att="syntacticFunction" val="Dob" />

</SynSemArgMap>

</SemanticConstraint>

<def>trao đổi ý kiến về việc gì hoặc vấn đề gì</def> <exam>

họ đang bàn kế hoạch làm ăn ~ bàn chuyện thời sự

</exam>

</Semantic>

</Entry>

Trên cơ sở một từ được mơ tả bởi từ điển dưới dạng mã hóa XML thì phần tiếp theo sẽ trình bày phương pháp dựa trên mục từ cùng với các ràng buộc cú pháp chứa trong mỗi từ.

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng việt với hệ hình thức văn phạm tag (Trang 26 - 28)

Tải bản đầy đủ (PDF)

(52 trang)