Công cụ TULIPA và XMG

Một phần của tài liệu Nghiên cứu tích hợp thành phần ngữ nghĩa vào văn phạm tag cho tiếng việt (Trang 56)

TuLiPA (Tübingen Linguistic Parsing Architecture) được phát triển bởi trường Đại học Tübingen, Đức. TuLiPA là một môi trường phân tích cú pháp đa hình thức dựa trên phân tích cú pháp văn phạm ghép nối vùng. Nó hỗ trợ văn phạm kết nối cây đa thành phần.

XMG là một công cụ biên dịch siêu văn phạm, cho phép thiết kế một siêu văn phạm.

Để thực hiện tích hợp thành phần ngữ nghĩa vào TAG cần các công cụ sau:

 XMG-Tuebingen (https://sourcesup.renater.fr/xmg/#Requirements),

đây là công cụ cho phép chuyển đổi file mg chứa nội dung mô tả cấu trúc các mảnh cây sang định dạng XML.

 Công cụ LEX2ALL, sử dụng để chuyển đổi file từ điển và hình thái từ sang chuẩn XML.

 TuLiPA, công cụ để thực hiện phân tích cú pháp và tích hợp ngữ nghĩa vào văn phạm TAG.

3.2 Tổ chức dữ liệu 3.2.1 Cấu trúc dữ liệu

55

 Thứ nhất chúng ta cần một văn phạm (TAG) chứa thông tin ngữ nghĩa. Chính xác hơn, văn phạm chúng ta xét được tạo các sơ đồ cây liên quan đến công thức ngữ nghĩa phẳng. Cụ thể văn phạm được biên dịch từ một siêu văn phạm sử dụng hình thức XMG

 Thứ hai cần từ điển. Chúng ta cần một từ điển chứa bổ đề (lemmas) và một từ điển chứa thông tin hình thái.

 Thứ ba, chúng ta sử dụng một kho ngữ liệu, chẳng hạn tập các câu đã được chuyển sang văn phạm.

2. Cú pháp từ vựng (lemmas)

Đây là một tệp chứa nhiều thông tin (bao gồm cả ngữ nghĩa). Nó có các trường sau:

*ENTRY: dùng để lưu chữ lemma, *CAT: loại cú pháp,

*SEM: Thông tin ngữ nghĩa

*LAM: biểu diễn thông tin ngữ nghĩa là hạng tử lambda (trường tùy chọn)

*ACC: động từ chấp nhận

(đối với động từ có nhiều nghĩa) không được dùng *FAM: họ cây

*EX: danh sách ngoại lệ (trong tagml đây là đặc trưng có giá trị "-") không được dùng.

*EQUATIONS: phương trình neo có dạng: node -> feat = val

*COANCHORS: phương trình đồng neo,có dạng: node -> lemma / category

Những phương trình này được sử dụng để xác định một mục từ vựng mà đã được thêm vào trong cây.

Lưu ý: Tất cả các trường này được xếp theo thứ tự

3. Mục hình thái từ (Morphological entry) : Chứa thông tin về hình thái từ, và từ loại cũng như đặc trưng từ.

56

lexical item <tabulation> associated lemma <tabulation> [ feat1 = val1 ; feat2 = val2 ; etc (optional ";")]

Trong đó lexical item là mục từ vựng <tabulation> xếp theo bảng, associate lemma (bổ đề liên quan) [feat 1= val1] là cặp thuộc tính giá trị của mục từ tương ưng.

3.2.2 Mô tả các mảnh cây.

Phần này mô tả một số lớp cụ thể của các cây cơ bảnbao gồm cả phân tích cú pháp và tích hợp ngữ nghĩasử dụng cú pháp XMG trong quá trình tích hợp ngữ nghĩa vào trong văn phạm TAG cho tiếng Việt.

1. Lớp phân tích cú pháp - Cây động từ: class verbal export ?VP ?V ?P ?M ?I ?I2 declare ?VP ?V ?P ?M ?I ?I2 {<syn>{ (adsbygoogle = window.adsbygoogle || []).push({});

node ?VP [cat=vp,bot=[idx = ?I,pIdx=?P,idx2 = ?I2]]; node ?V (mark=anchor,name=Anchor)

[cat=v,top=[idx = ?I,pIdx=?P,idx2 = ?I2]]; ?VP ->+ ?V

}*=[prop=?P,arg1 = ?I]%Ràng buộc ngữ nghĩa }

Trong đó, nút VP có từ loại (cat) là vp, cấu trúc đặc trưng đáy (bot) có các biến ràng buộc ngữ nghĩa idx, pIdx, idx2

- Cây chủ ngữ chính tắc

class CanSubject

export ?S ?NP ?VP ?M ?I ?Min ?P1 ?P2 ?P declare ?S ?NP ?VP ?M ?I ?Min ?P1 ?P2 ?P { <syn>{

node ?S [cat = s,top=[pIdx=?P1], bot=[%inv=no,

pIdx=?P2],dIdx = ?P2];

node ?NP (name=SubjNode, mark = subst, gf=subj)[cat=n, top=[idx=?I,

minsIdx=?P2]];

node ?VP [cat = vp,top=[pIdx=?P2],dIdx = ?P]; ?S -> ?NP; ?S -> ?VP; ?NP >> ?VP

}*=[subjIdx=?I,mins=?Min ,dIdx = ?P2,dIdx = ?P] }

VP

V

S

57 - Cây bổ ngữ class Object export ?S ?VP ?NP ?V ?C ?I ?Min ?P declare ?S ?VP ?NP ?V ?C ?I ?Min ?P { <syn>{

node ?VP [cat = vp,dIdx = ?P,idx2 = ?I]; node ?NP (name=ObjNode, mark=subst,

gf=obj)[cat=n,

top=[idx=?I,minsIdx=?Min,idx2 = ?I],dIdx = ?P]; node ?V [cat=v,idx2 =?I];

?VP ->+ ?NP; ?VP -> ?V; ?V >>+ ?NP }*=[objIdx=?I,mins=?Min]

}

- Họ cây ngoại động từ

class transitive

declare ?Verb ?N0 ?N1 ?Rel ?U ?V ?Min { ?Verb=verbal[]; ?N0 =CanSubject[]; ?N1=Object[]; ?Rel=BinaryRel[]; ?Verb.?VP = ?N0.?VP; ?N0.?S = ?N1.?S; ?Verb.?VP = ?N1.?VP; ?Verb.?V = ?N1.?V; ?N1.?C=acc *=[arg1=?U,subjIdx=?U,arg2=?V ,objIdx=?V,mins=?Min,prop=?Min] } - Cây nội động từ class intransitive

declare ?Verb ?N0 ?Rel ?U ?Min { ?Verb=verbal[]; ?N0 = CanSubject[]; ?Rel=UnaryRel[]; ?Verb.?VP = ?N0.?VP *=[arg1=?U,subjIdx=?U, mins=?Min,prop=?Min] }

- Cây danh từ riêng

class ProperName declare ?NP ?Sem ?I VP NP V S N VP V N S N VP V

58 { ?NP=noun[]; ?Sem=SemProperName[]; ?NP.?D=no *=[arg1=?I,i=?I] } 2. Lớp ngữ nghĩa Lớp ngữ nghĩa một đối class UnaryRel declare !L ?X ?P { <sem>{!L:?P(?X) } *=[rel=?P,arg1=?X,prop=!L] }

Lớp ngữ nghĩa hai đối (adsbygoogle = window.adsbygoogle || []).push({});

class BinaryRel declare !L ?X ?Y ?P { <sem>{!L:?P(?X,?Y) } *=[rel=?P,arg1=?X,arg2=?Y,prop=!L] }

Lớp ngữ nghĩa cho danh từ một đối: class SemUnaryNoun declare !L ?X ?P { <sem>{!L:?P(?X) } *=[rel=?P,arg1=?X,prop=!L] }

Lớp ngữ nghĩa cho danh từ riêng một đối: class SemProperName declare !L ?P ?X { <sem>{!L:?P(?X) } *=[rel=?P,i=?X] }

Lớp ngữ nghĩa lượng từ ba đối class SemDetQuant

declare !L ?X ?P ?P1 ?P2 ?Restr ?Min { <sem>{!L:?P(?X,?P1,?P2);

?Restr << ?P1; ?Min << ?P2

59

}

*=[rel=?P,i=?X,prop=!L,restr=?Restr,mins=?Min] }

3.3 Thực nghiệm

Trong phần này luận văn minh họa thực nghiệm câu cụ thể trong tiếng Việt có tích hợp ngữ nghĩa..

Như trên đã nói siêu văn phạm được xây dựng gồm có ba phần. Phần thứ nhất bao gồm mô tả hình thái cùng các đặctrưng của từng đơn vị từ. Phần thứ hai là các mô tả kết nối mỗi mục từ với họ cây (mà từ đó có thể làm từneo) và quan hệ logic tương ứng. Phần thứ ba mô tả các họ cây cùng với tập công thức được sử dụngtrong các họ cây.

Ví dụ 1: Xây dựng ngữ nghĩa câu “An thíchBình

 Thông tin hình thái: đơn vị từ An, Bình gắn với mục từ An, Bình có từ loại là N, đơn vị từ gắn với mục từ “thích” có từ loại là V .

 Thông tin từ vựng và ngữ pháp/ngữ nghĩa:

– Mục từ An với từ loại N có thể làm từ neo cho họ cây ProperName (cây danh ngữ là tênriêng), với mô tả ngữ nghĩa thuộc kiểu SemProperName với tên vị từ là An. Tương tự đối với mục từ Bình.

– Mục từ thích với từ loại V có thể làm từ neo cho họ cây transitive (cây có vị từ là động từ nộiđộng), với công thức logic tương ứng là vị từ thuộc kiểu

BinaryRel với tên vị từ là thích

 Thông tin cú pháp và ngữ nghĩa (văn phạm và tập công thức logic):

– Cây cú pháp: cây transitive(mô tả ở trên). Cấu trúc đặc trưng ở các nút trên cây chứa các thuộc tính có giá trịsẽ được hợp nhất với các đối của vị từ kiểu

BinaryRel được khai báo cùng với cây này.

– Cây ProperName chứa mô tả danh ngữ có từ neo là tên riêng và kết nối với công thức biểudiễn ngữ nghĩa thuộc kiểu SemProperName.

60

Hình 3.1:Kết quả phân tích cú pháp/ngữ nghĩa câu “An thích Bình”

61

62

KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN

Quá trình tích hợp ngữ nghĩa vào trong văn phạm TAG ứng dụng cho tiếng Việt đòi hỏi nhiều thời gian và công sức. Luận văn mới chỉ tập trung giải quyết được hai vấn đề chính đó là phương pháp xây dựng ngữ nghĩa vào trong văn phạm TAG và ứng dụng cho tiếng Việt với sự hỗ công cụ TuLiPA và siêu văn phạm XMG.

Ngoài việc nắm vững được các kiến thức về văn phạm TAG, luận văn cũng nghiên cứu về phân tích cú pháp tiếng Việt tạo tiền đề để xây dựng kho ngữ liệu không chỉ chứa phân tích cú pháp mà còn tích hợp thành phần ngữ nghĩa. Bên cạnh đó đề tài cũng đã biểu diễn ngữ nghĩa bằng logic vị từ cấp một.

Với tập các mảnh cây theo cú pháp XMG cùng với mô tả ngữ nghĩa được xây dựng thủ công dựa trên cáccấu trúc cây TAG đã được xây dựng từnhóm nghiên cứu về xử lý ngôn ngữ tự nhiên của trường Đại học Khoa học Tự nhiên- Đại học Quốc gia Hà Nội. Hiện tại chúng tôi mới thực hiện thử nghiệm trên một bộ từvựng nhỏ. Trong thời gian tới, chúng tôi tiếp tục triển khai xây dựng một văn phạm LTAG có ngữ nghĩa kíchthước lớn cho tiếng Việt. Một trong các nguồn ngữ liệu đặc biệt quan trọng hỗ trợ cho việc này là từ điểntiếng Việt cho máy tính [19]. Quá trình triển khai xây dựng từ vựng LTAG tiếng Việt cũng cho thấy từ điểntiếng Việt cho máy tính hiện có cần được bổ sung và hiệu chỉnh mô tả một số thông tin ngữ pháp, ngữ nghĩađể có thể phục vụ hiệu quả cho việc xây dựng bộ từ vựng của các hệ thống phân tích cú pháp, ngữ nghĩa sửdụng một hệ hình thức văn phạm nào đó. (adsbygoogle = window.adsbygoogle || []).push({});

63

TÀI LIỆU THAM KHẢO Tiếng Việt

[1] Hữu Đạt- Trần Trí Dõi- Đào Thanh Lan. Cơ sở tiếng Việt. NXB Giáo dục, 1998. [2] Diệp Quang Ban. Ngữ pháp Tiếng Việt. NXB Giáo Dục, 2004.

[3] Lê Hồng Phương, Nguyễn Thị Minh Huyền, Nguyễn Phương Thái, and Phan Thị Hà. Trích rút tự động văn phạm TAG cho tiếng Việt. Tin học và Điều khiển học, 26(2):153–171, 2010. http://mim.hus.vnu.edu.vn/phuonglh/pubs/vnltag.pdf.

Tiếng Anh

[4] Aravind K. Joshi and Yves Schabes. Handbooks of Formal Languages and Automata, chapter Tree Adjoining Grammars. Springer-Verlag, 1997.

[5] A. Burchardt, S. Walter, A. Koller, M. Kohlhase, P. Blackburn and J. Bos, Com- putational Semantics, tài liệu giảng dạy của dự án MiLCA của đại học Bonn,Gießen, Osnabr ̈uck, Saarbr ̈ucken und T ̈ubingen, Germany, 2002.

[6] P. Blackburn, J. Bos, Representation and Inference for Natural Language A FirstCourse in Computational Semantics, CSLI Publications, 2005

[7] Duchier, D., Le Roux, J., Parmentier, Y.: The metagrammar compiler : An nlp application with a multi-paradigm architecture. In: Second International Mozart/Oz Conference - MOZ 2004, Charleroi, Belgique. (2004)

[8] Frank, A., van Genabith, J.: GlueTag. Linear Logic based Semantics for LTAG. In Butt, M., King, T.H., eds.: Proceedings of the LFG01 Conference, Hong Kong(2001)

[9] Kallmeyer, L.: Using an Enriched TAG Derivation Structure as Basis for Semantics. In: Proceedings of TAG+6 Workshop, Venice (2002) 127 – 136

[10] Copestake, A., Lascarides, A., Flickinger, D.: An algebra for semantic constructionin constraint-based grammars. In: Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics, Toulouse, France (2001) [11] Gardent, C., Kallmeyer, L.: Semantic construction in ftag. In: Proceedings of the 10th meeting of the European Chapter of the Association for Computational Linguistics, Budapest, Hungary (2003)

[12] Duchier, D., Le Roux, J., Parmentier, Y.: The metagrammar compiler : An nlp application with a multi-paradigm architecture. In: Second International Mozart/Oz Conference - MOZ 2004, Charleroi, Belgique. (2004)

[13] Shieber, S.: An Introduction to Unification-based Approaches to Grammar.

CSLILecture Notes (1986)

[14] Crabb ́e, B., Duchier, D.: Metagrammar redux. In: International Workshop on Constraint Solving and Language Processing - CSLP 2004, Copenhagen. (2004)

64

[15] Crabb ́e, B.: Grammatical development with XMG. Submitted to LACL05

(2005)

[16] Kallmeyer, L., Romero, M.: Ltag semantics with semantic unification. In: Proceedings of the 7th International Workshop on Tree Adjoining Grammar and Related Formalisms, Vancouver, BC, Canada (2004) 155–162

[17] Schiehlen, M.: Semantic construction from parse forests. In: Proceedings of the 16th International Conference on Computational Linguistics, Copenhagen (1996)

[18] Alonso, M.A., Villemonte de la Clergerie, E., Diaz, V.J., Vilares, M.: 1. In: Relating Tabular Parsing Algorithms for LIG and TAG. Kluwer Academic Publishers (2002)to appear, revised notes of a paper for IWPT2000.

[19] Vũ Xuân Lương and Nguyễn Thị Minh Huyền. Building a Vietnamese computational lexicon. In Proceedings of the National Symposium on Research, Development and Application of Informationand Communication Technology, pages 283–292, Hanoi, Vietnam, 2008.

Một phần của tài liệu Nghiên cứu tích hợp thành phần ngữ nghĩa vào văn phạm tag cho tiếng việt (Trang 56)