Trong khuôn khổ đề tài KC.01.01/06-10 ([3]), nhóm các chuyên gia ngôn ngữ học đã xây dựng một kho từ vựng gồm khoảng hơn 41700 nghĩa từ nhằm phục vụ cho các ứng dụng xử lí tiếng Việt. Mô hình ngữ liệu của kho từ vựng được xây dựng theo chuẩn LMF (Lexical Markup Framework) do tiểu ban kĩ thuật ISO/TC 37/SC 4 (http://tc37sc4.org) phát triển. LMF được tổ chức thành các gói cho phép đặc tả các thông tin ngôn ngữ ở từng cấp độ.
Mỗi mục từ của từ điển đưa ra ba loại thông tin mô tả: thông tin hình thái, cú pháp, ngữ nghĩa.
Thông tin hình thái cho phép mô tả cấu tạo từ.
Thông tin cú pháp mô tả thông tin về từ loại, tiểu từ loại; thông tin về khung vị từ; thông tin về các tham tố của vị từ, chức năng cú pháp và thành phần cú pháp của các tham tố.
Gói thông tin ngữ nghĩa mô tả các thông tin về ràng buộc logic bao gồm ý nghĩa phạm trù, từ đồng nghĩa, từ trái nghĩa; thông tin ràng buộc ngữ nghĩa của các tham tố của một vị từ.
Từ điển được triển khai dưới hai dạng là tra cứu trên Web và mã hóa XML. Chương trình xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng Việt sẽ sử dụng từ điển ở dạng mã hóa XML. Dưới đây là một minh họa của từ
“bàn” được mã hóa dưới dạng XML với các thông tin hình thái, cú pháp và ngữ nghĩa tương ứng:
<Entry>
<HeadWord>bàn</HeadWord> <Morphology>
<WordType>simple word</WordType>
</Morphology> <Syntactic>
<Category>V</Category>
<SubCategory>Vt</SubCategory>
<SubcategorizationFrameval="Sub+V+Dob" />
<SyntacticArgument>
<featatt="syntacticFunction" val="Sub" />
<featatt="syntacticConstituent" val="NP" />
</SyntacticArgument> <SyntacticArgument>
<featatt="syntacticFunction" val="Dob" />
<featatt="syntacticConstituent" val="NP" />
</SyntacticArgument>
<Before>R: đã, đang, lại, hãy, đừng, không, chưa</Before>
<After>O: về</After>
</Syntactic> <Semantic>
<LogicalConstraint>
<CategorialMeaning>CognitiveAct</CategorialMeaning>
<SynSemArgMap>
<feat att="syntacticFunction" val="Sub" />
<feat att="semanticRole" val="Agt" />
<feat att="subjectMeaning" val="Person" />
</SynSemArgMap> <SynSemArgMap>
<feat att="syntacticFunction" val="Dob" />
</SynSemArgMap> </SemanticConstraint>
<def>trao đổi ý kiến về việc gì hoặc vấn đề gì</def>
<exam>
họ đang bàn kế hoạch làm ăn ~ bàn chuyện thời sự
</exam>
</Semantic> </Entry>
Trên cơ sở một từ được mô tả bởi từ điển dưới dạng mã hóa XML thì phần tiếp theo sẽ trình bày phương pháp dựa trên mục từ cùng với các ràng buộc cú pháp chứa trong mỗi từ.