Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 19 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
19
Dung lượng
8,87 MB
Nội dung
`eu khiˆe’n ho.c, T.26, S.2 (2010), 153–171 Ta.p ch´ı Tin ho.c v` a Diˆ ´ TU DO ˆ NG VAN ˘ PHA ˆ´NG VIE ˆ T∗ TR´ICH RUT M LTAG CHO TIE ˜ˆ N THI MINH HUY`E ˜ˆ N PHU.O.NG THAI ´ 1, ˆ HO ˆ`NG PHU.O.NG1 , NGUYE ˆ N1 , NGUYE LE `2 PHAN THI HA Da.i ho.c Quˆ o´c gia H` a Nˆ o.i, Ho.c viˆe.n Cˆ ong nghˆe Bu u ch´ınh Viˆe˜n thˆ ong Abstract In this paper, we present a system that automatically extracts lexicalized tree adjoining grammars (LTAG) from treebanks We first discuss extraction algorithms and compare them to previous works Then we report the LTAG extraction result for Vietnamese, using a recently released Vietnamese treebank The implementation of an open source and language independent system for automatic extraction of LTAG grammars is also discussed ´t B` T´ om t˘ a b´ ao gi´ o.i thiˆe.u hˆe v˘ an pha.m kˆe´t nˆ o´i cˆ ay LTAG (Lexicalized Tree Adjoining Grammars – LTAG) v` a c´ ac thuˆ a.t to´ an tr´ıch r´ ut tu dˆ an ba’n g´ an nh˜ an c´ u ph´ ap (treebank) o.ng LTAG t` u kho v˘ ´ ´ ’ Kˆet qua tr´ıch r´ ut mˆ o.t v˘ an pha.m LTAG cho tiˆeng Viˆe.t Chu o ng tr`ınh tr´ıch r´ ut tu dˆ o.ng c´ ac v˘ an pha.m LTAG dˆ on ng˜ u v` a du.o c phˆ an phˆ o´i du.´ o.i da.ng m˜ a nguˆ o`n mo’ o.c lˆ a.p v´ o.i ngˆ Keywords: Extraction, LTAG, treebank, Vietnamese ´.I THIE ˆU GIO y ngˆon ng˜ u tu nhiˆen C´ac bˆo Phˆan t´ıch c´ u ph´ap l`a bu.´o.c quan tro.ng qu´a tr´ınh xu’ l´ up t˘ang t´ınh hiˆe.u qua’ cu’a c´ac hˆe thˆo´ng xu’ l´ı ngˆon ng˜ u phˆan t´ıch c´ u ph´ap chˆa´t lu.o ng cao gi´ tu nhiˆen nhu di.ch m´ay, t´om t˘a´t v˘an ba’n, c´ac hˆe ho’i d´ap `eu cˆ `an mˆo.t bˆo luˆa.t c´ u ph´ap, hay v˘an pha.m, du.o c biˆe’u diˆ˜en Mo.i bˆo phˆan t´ıch c´ u ph´ap dˆ u.c cu thˆe’ n`ao d´o Viˆe.c xˆay du ng v˘an pha.m thu’ cˆong l`a cˆong bo’.i mˆo.t hˆe v˘an pha.m h`ınh th´ `eu phu.o.ng ph´ap tu dˆo.ng ho˘a.c b´an `eu th`o.i gian v`a cˆong s´ u.c, ch´ınh v`ı vˆa.y nhiˆ viˆe.c tˆo´n rˆa´t nhiˆ `au hˆe´t c´ac kˆe´t u.u th`o.i gian qua Hˆ tu dˆo.ng dˆe’ xˆay du ng v˘an pha.m d˜a du.o c nghiˆen c´ `e xˆay du ng v˘an pha.m cho c´ac hˆe thˆo´ng xu’ l´ı ngˆon ng˜ u tu nhiˆen d˜a du.o c qua’ nghiˆen c´ u u vˆ ˆ´n-Au ˆ v`a `eu tˆa.p trung v`ao c´ac ngˆon ng˜ u phˆo’ du.ng nhu tiˆe´ng Anh, c´ac th´ u tiˆe´ng A cˆong bˆo´ dˆ tiˆe´ng Hoa Nh`ın chung, c´o hai phu.o.ng ph´ap ch´ınh dˆe’ xˆay du ng tu dˆo.ng v˘an pha.m Phu.o.ng ph´ap th´ u nhˆa´t su’ du.ng mˆo.t hˆe thˆo´ng mˆo ta’ v˘an pha.m bˆa.c cao dˆe’ sinh v˘an pha.m C´ac hˆe thˆo´ng u hai l`a nhu vˆa.y du.o c go.i l`a c´ac siˆeu v˘an pha.m (meta-grammar) [10, 20] Phu.o.ng ph´ap th´ u c´ac kho v˘an ba’n c´o ch´ ut tu dˆo.ng v˘an pha.m t` u gia’i c´ u ph´ap (treebank) phu.o.ng ph´ap tr´ıch r´ ung tˆoi quan tˆam t´o.i phu.o.ng ph´ap th´ u hai O’ dˆay, ch´ ∗ Nghiˆ ˜ tro t` `e t` en c´ u.u du.o c ho` an th` anh v´ o.i su hˆ o u dˆ nghiˆ en c´ u.u khoa ho.c QT-09-01 Da.i ho.c Quˆ o´c gia H` a Nˆ o.i 154 ˆ HO ˆ`NG PHU.O.NG ccs LE B`ai b´ao tr`ınh b`ay c´ac thuˆa.t to´an tr´ıch r´ ut tu dˆo.ng v˘an pha.m LTAG t` u treebank, v`a ph´at ut v˘an pha.m LTAG cho tiˆe´ng Viˆe.t t` u kho v˘an ba’n triˆe’n mˆo.t chu.o.ng tr`ınh dˆe’ tu dˆo.ng tr´ıch r´ VietTreebank v`a d´anh gi´a kˆe´t qua’ thu du.o c Cˆa´u tr´ uc cu’a b`ai b´ao nhu sau Mu.c gi´o.i thiˆe.u so lu.o c hˆe v˘an pha.m LTAG Mu.c `e tr´ıch r´ diˆe’m la.i mˆo.t sˆo´ cˆong tr`ınh d˜a c´o vˆ ut v˘an pha.m t` u treebank Mu.c nˆeu kh´ai qu´at `e treebank tiˆe´ng Viˆe.t Tiˆe´p theo, Mu.c tr`ınh b`ay chi tiˆe´t thuˆa.t to´an tr´ıch r´ vˆ ut v˘an pha.m ung tˆoi su’ du.ng v`a so s´anh n´o v´o i mˆo.t thuˆa.t to´an tu o.ng tu Mu.c LTAG t` u treebank m`a ch´ `an mˆ `em tr´ıch r´ ut tu dˆo.ng v˘an pha.m LTAG cho tiˆe´ng tr`ınh b`ay kˆe´t qua’ v`a chu.o.ng tr`ınh phˆ `an kˆe´t luˆa.n v`a hu.´o.ng ph´at triˆe’n Viˆe.t Cuˆo´i c` ung l`a phˆ ˆ VAN ˘ PHA HE M LTAG u.c du.o c V˘an pha.m kˆe´t nˆo´i cˆay (Tree Adjoining Grammars –TAG) l`a hˆe v˘an pha.m h`ınh th´ u ph´at minh bo’.i Aravind Joshi [17, 18] v`a c´ac dˆo`ng nghiˆe.p Kh´ac v´o.i hˆe v˘an pha.m phi ng˜ ca’nh su’ du.ng c´ac luˆa.t viˆe´t la.i da.ng xˆau, hˆe v˘an pha.m kˆe´t nˆo´i cˆay su’ du.ng c´ac luˆa.t viˆe´t la.i `e m˘a.t h`ınh th´ u.u k˜ y vˆ u.c v`a kha’ n˘ang u ´.ng du.ng da.ng cˆay V˘an pha.m TAG d˜a du.o c nghiˆen c´ `eu ngˆon ng˜ viˆe.c phˆan t´ıch nhiˆ u tu nhiˆen kh´ac nhau, v´ı du cho tiˆe´ng Anh [5, 13, 30], tiˆe´ng `an n`ay s˜e gi´o.i thiˆe.u kh´ai qu´at (mˆo.t u.c [19], tiˆe´ng Hoa [28] Trong phˆ Ph´ap [1, 12, 27], tiˆe´ng D´ `e v˘an pha.m LTAG d˜a du.o c tr`ınh b`ay c´ach khˆong h`ınh th´ u.c) hˆe v˘an pha.m LTAG Chi tiˆe´t vˆ `eu t`ai liˆe.u tham kha’o kh´ac nhau, v´ı du t`ai liˆe.u [18] k˜ y lu.˜o.ng nhiˆ 2.1 C´ ac cˆ ay co ba’n `eu ch´ `an tu’ co so’ cu’a mˆo.t v˘an pha.m TAG l`a c´ac cˆay co ba’n Nˆe´u mˆo˜i cˆay co ba’n dˆ u.a Phˆ ´ıt nhˆa´t mˆo.t n´ ut l´a c´o nh˜an l`a k´ı hiˆe.u kˆe´t (n´ ut t` u vu ng) th`ı v˘an pha.m du.o c go.i l`a LTAG ay kho’.i ta.o v`a cˆ ay phu tro Cˆay kho’.i ta.o (Lexicalized TAG) C´o hai kiˆe’u cˆay co ba’n l`a cˆ ut du.o c g´an k´ı hiˆe.u khˆong kˆe´t, riˆeng c´ac n´ ut l´a c´o thˆe’ du.o c g´an k´ı hiˆe.u kˆe´t Nˆe´u ch´ u.a c´ac n´ y hiˆe.u thay thˆe´ ↓ Cˆay phu c´ac n´ ut l´a c´o k´ı hiˆe.u khˆong kˆe´t th`ı ch´ ung du.o c d´anh dˆa´u b˘`a ng k´ ut gˆo´c v`a ut c´o k´ y hiˆe.u khˆong kˆe´t giˆo´ng nhau, d´o c´o mˆo.t n´ tro du o c d˘a.c tru ng bo’ i hai n´ y hiˆe.u ∗ ut chˆan v`a du o c d´anh dˆa´u b˘`a ng k´ mˆo.t n´ ut l´a N´ ut l´a d˘a.c biˆe.t n`ay du o c go.i l`a n´ 2.2 Hai thao t´ ac viˆ e´t la.i C´ac cˆay co ba’n cu’a v˘an pha.m LTAG du.o c kˆe´t ho p v´o.i b˘`a ng hai thao t´ac viˆe´t la.i l`a thay thˆe´ v`a kˆe´t nˆ o´i Thao t´ac thay thˆe´ thu c hiˆe.n ph´ep thˆe´ mˆo.t n´ ut l´a c´o nh˜an X cu’a mˆo.t cˆay α bo’ i mˆo.t cˆay β c´o gˆo´c c˜ ung c´o nh˜an l`a X Thao t´ac thay thˆe´ du.o c minh hoa bo’.i H`ınh H`ınh Ph´ep thay thˆe´ ˆ ´ TU ˘ PHA ˆ´NG VIE ˆ T TR´ICH RUT DO NG VAN M LTAG CHO TIE 155 Thao t´ac kˆe´t nˆo´i thu c hiˆe.n ph´ep ch`en mˆo.t cˆay phu tro v`ao bˆen mˆo.t cˆay kh´ac Nhu ut chˆan c´o c` ung nh˜an X du.o c ch`en v`ao minh hoa H`ınh 2, cˆay phu tro β c´o gˆo´c v`a n´ ut c˜ ung c´o nh˜an X, sinh cˆay γ Ch´ uy ´ r˘a` ng thao t´ac kˆe´t nˆo´i khˆong du.o c cˆay α ta.i n´ ut thay thˆe´ cu’a α ut du.o c d´anh dˆa´u l`a n´ thu c hiˆe.n ta.i c´ac n´ H`ınh Ph´ep kˆe´t nˆo´i ˜n xuˆ 2.3 Cˆ ay phˆ an t´ıch v` a cˆ ay dˆ a a´t ay phˆ an C´ac cˆay trung gian sinh ´ap du.ng c´ac ph´ep thˆe´ v`a kˆe´t nˆo´i du.o c go.i l`a c´ac cˆ `eu du o c g´an nh˜an kˆe´t Nhu `ay du’ l`a cˆay phˆan t´ıch d´o mo.i n´ t´ıch Cˆay phˆan t´ıch dˆ ut l´a dˆ vˆa.y, viˆe.c phˆan t´ıch c´ u ph´ap cu’a mˆo.t cˆau l`a viˆe.c xuˆa´t ph´at t` u mˆo.t cˆay co ba’n c´o gˆo´c l`a tiˆen `e, t`ım mˆo.t cˆay phˆan t´ıch dˆ `ay du’ c´o c´ac n´ dˆ ut l´a tu.o.ng u ´.ng v´o.i d˜ay c´ac t` u cˆau H`ınh Dˆa˜n xuˆa´t cu’a cˆau John, always laughs `e dˆa˜n xuˆa´t c´ H`ınh minh hoa v´ı du vˆ u ph´ap cu’a cˆau “John always laughs ” Nˆe´u ta k´ı ´.ng l`a c´ac cˆay g˘a´n v´o.i c´ac t` u John, always v`a laughs th`ı hiˆe.u αJohn, αalways v`a αlaughs tu.o.ng u u.c LTAG nhu sau: dˆa˜n xuˆa´t n`ay su’ du.ng hai quy t˘a´c viˆe´t la.i cu’a hˆe h`ınh th´ • Cˆay αJohn du.o c thay thˆe´ v`ao n´ ut l´a c´o nh˜an NP cu’a cˆay αlaughs, sinh cˆay αlaughs; `ay • Cˆay phu tro αalways du.o c kˆe´t nˆo´i v`ao n´ ut VP cu’a cˆay αlaughs, sinh cˆay dˆa˜n xuˆa´t dˆ du’ o’ bˆen tr´ai H`ınh Dˆo´i v´o.i v˘an pha.m phi ng˜ u ca’nh, nh`ın v`ao cˆay phˆan t´ıch ta biˆe´t du.o c c´ac quy t˘a´c viˆe´t u cˆay phˆan t´ıch ta khˆong thˆe’ biˆe´t cu thˆe’ c´ac ph´ep la.i d˜a thu c hiˆe.n Dˆo´i v´o.i v˘an pha.m TAG, t` u.c LTAG, ngu.`o.i viˆe´t la.i d˜a du.o c thu c hiˆe.n dˆe’ ta.o nˆen cˆay d´o, ch´ınh v`ı vˆa.y, hˆe h`ınh th´ `an d` ay dˆ a˜n xuˆ a´t dˆe’ ghi la.i c´ac thao t´ac ta.o nˆen cˆay ta cˆ ung mˆo.t cˆa´u tr´ uc d˘a.c biˆe.t go.i l`a cˆ ut trˆen cˆay dˆa˜n xuˆa´t l`a tˆen cu’a mˆo.t cˆay co ba’n, mˆo˜i cung phˆan t´ıch t` u c´ac cˆay co ba’n Mˆo˜i n´ 156 ˆ HO ˆ`NG PHU.O.NG ccs LE `en) ho˘a.c mˆo.t ph´ep thay thˆe´ (n´et d´ biˆe’u diˆ˜en mˆo.t ph´ep kˆe´t nˆo´i (n´et liˆ u.t) Ngo`ai ra, mˆo˜i n´ ut ` ˜ ´ ´ ’ ta.i d´o c´o ´ap du.ng thao t´ac viˆet la.i du o c d´anh dˆa u b˘a ng mˆo.t di.a chı Gorn Cˆay dˆan xuˆa´t mˆo ta’ phˆan t´ıch cu’a cˆau John always laughs du.o c biˆe’u diˆ˜en o’ bˆen pha’i cu’a H`ınh H`ınh Cˆay phˆan t´ıch v`a cˆay dˆa˜n xuˆa´t cu’a cˆau John always laughs u tu nhiˆen, ngu.`o.i ta ´ap du.ng mˆo.t sˆo´ Khi xˆay du ng v˘an pha.m LTAG cho mˆo.t ngˆon ng˜ u nhˆa´t, v˘an pha.m TAG du.o c t` u vu ng h´oa: mˆo˜i cˆay co ba’n nguyˆen l´ y ngˆon ng˜ u ho.c sau Th´ `eu c´o ´ıt nhˆa´t mˆo.t n´ dˆ ut l´a g˘a´n v´o.i mˆo.t do.n vi t` u vu ng go.i l`a t` u neo Th´ u hai, mˆo˜i cˆay kho’.i `an chiˆe´u cu’a mˆo.t t` ta.o cu’a LTAG biˆe’u diˆ˜en c´ac th`anh phˆ u neo, hay n´oi c´ach kh´ac l`a c´ac th`anh `an dˆo´i bˆo’ ngh˜ıa cho t` u neo Th´ u ba, c´ac cˆay co ba’n l`a cu c tiˆe’u: cˆay kho’.i ta.o pha’i c´o t` u phˆ `an ch´ınh cˆau v`a ch´ `an dˆo´i u.a tˆa´t ca’ c´ac th`anh phˆ neo l`a t` u trung tˆam cu’a mˆo.t th`anh phˆ `an phu cu’a t` u neo c´o thˆe’ thˆem v`ao mˆo.t c´ach b˘a´t buˆo.c cu’a t` u neo [14] Tˆa´t ca’ c´ac th`anh phˆ dˆe quy b˘`a ng c´ach su’ du.ng ph´ep kˆe´t nˆo´i v´o.i c´ac cˆay phu tro u., ph´ep ´.ng v´o.i viˆe.c g˘a´n c´ac dˆo´i v`ao vi t` Nhu vˆa.y, xˆay du ng cˆau, c´ac ph´ep thˆe´ tu.o.ng u `an phu V`ı thˆe´, cˆay dˆa˜n xuˆa´t biˆe’u diˆ˜en quan hˆe ´.ng v´o.i viˆe.c thˆem c´ac th`anh phˆ kˆe´t nˆo´i tu.o.ng u `au hˆe´t c´ac tiˆe´p cˆa.n t´o.i ng˜ y hˆ u a c´ac t` u cˆau Dˆay l`a l´ u ngh˜ıa phu thuˆo.c ng˜ u ngh˜ıa gi˜ u.a c´ u ph´ap v`a ng˜ u ngh˜ıa v˘an pha.m LTAG su’ du.ng cˆay dˆa˜n xuˆa´t nhu l`a giao diˆe.n gi˜ u ca’nh yˆe´u (middly context-sensitive grammar ), LTAG thuˆo.c l´o.p c´ac v˘an pha.m ca’m ng˜ u.c ta.p th`o.i u ca’nh, dˆo ph´ t´ u.c l`a c´o kha’ n˘ang sinh ma.nh ho.n c´ac v˘an pha.m phi ng˜ u.c (O(n6 )) V˘an pha.m h`ınh th´ u.c LTAG gian cu’a bˆo phˆan t´ıch c´ u ph´ap LTAG vˆa˜n l`a da th´ ´.ng du.ng ngˆon ng˜ u ho.c Ngu.`o.i ta d˜a chı’ r˘`a ng c´ac t´ınh chˆa´t cu’a v˘an rˆa´t ph` u ho p v´o.i c´ac u u ph´ap mˆo.t c´ach tu nhiˆen Ho.n n˜ u.a, kha’ n˘ang pha.m LTAG cho ph´ep mˆo ta’ c´ac hiˆe.n tu.o ng c´ u.c v˘an pha.m ho p nhˆa´t kh´ac nhu LFG chuyˆe’n dˆo’i mˆo.t v˘an pha.m LTAG sang c´ac hˆe h`ınh th´ (Lexical Functional Grammar) hay HPSG (Head-driven Phrase Structure Grammar) d˜a du.o c ung tˆoi cho.n hˆe h`ınh th´ u.c LTAG dˆe’ mˆo h`ınh h´oa v˘an ch´ u.ng minh [31] V`ı c´ac l´ı trˆen, ch´ `eu chı’nh mˆo.t bˆo phˆan t´ıch c´ u ph´ap LTAG tˆo’ng qu´at pha.m tiˆe´ng Viˆe.t Mˆo.t m˘a.t ch´ ung tˆoi diˆ ung tˆoi cˆo´ g˘a´ng xˆay du ng mˆo.t kho ng˜ u liˆe.u c´o thˆe’ cho ph` u ho p v´o.i tiˆe´ng Viˆe.t, m˘a.t kh´ac ch´ Di.a chı’ Gorn du.o c di.nh ngh˜ıa dˆe quy nhu sau: n´ ut th´ u k cu’a mˆ ut gˆ o´c c´ o di.a chı’ 0, n´ o.t n´ ut c´ o di.a a j.k chı’ j c´ o di.a chı’ l` ˆ ´ TU ˘ PHA ˆ´NG VIE ˆ T TR´ICH RUT DO NG VAN M LTAG CHO TIE 157 t´ai su’ du.ng cho c´ac u ´.ng du.ng liˆen quan dˆe´n phˆan t´ıch c´ u ph´ap tiˆe´ng Viˆe.t c˜ ung nhu viˆe.c d´anh gi´a c´ac cˆong cu phˆan t´ıch c´ u ph´ap `e tr´ıch r´ ut tu dˆo.ng v˘an Trong c´ac mu.c tiˆe´p theo, s˜e diˆe’m qua c´ac cˆong tr`ınh d˜a cˆong bˆo´ vˆ pha.m t` u treebank v`a tr`ınh b`ay thuˆa.t to´an tr´ıch r´ ut LTAG m`a ch´ ung tˆoi su’ du.ng cho tiˆe´ng Viˆe.t ˆ ˘ PHA ´ TU TR´ ICH RUT NG VAN DO M `eu cˆong tr`ınh vˆ `e tr´ıch r´ u treebank d˜a du.o c cˆong bˆo´, C´o kh´a nhiˆ ut tu dˆo.ng v˘an pha.m t` `eu du.o c thu c hiˆe.n cho c´ac ngˆon ng˜ u thˆong du.ng [21] Xia ph´at tˆa´t ca’ c´ac cˆong tr`ınh n`ay dˆ ut v˘an pha.m tˆo’ng qu´at v`a ´ap du.ng cho tiˆe´ng Anh, tiˆe´ng Trung v`a triˆe’n phu.o.ng ph´ap tr´ıch r´ u Penn tiˆe´ng H`an [28, 29] Chiang d˜a ph´at triˆe’n mˆo.t hˆe thˆo´ng tr´ıch cho.n v˘an pha.m LTAG t` Treebank tiˆe´ng Anh v`a d` ung phˆan t´ıch c´ u ph´ap thˆo´ng kˆe v´o.i LTAG [8] Chen d˜a tr´ıch ´.ng du.ng phu.o.ng ph´ap cu’a TAG t` u Penn Treebank tiˆe´ng Anh [6, 7] Mˆo.t sˆo´ cˆong tr`ınh sau d´o u ut v˘an pha.m cho mˆo.t sˆo´ ngˆon ng˜ u kh´ac, nhu c´ac cˆong tr`ınh cu’a Johansen [16] Chen dˆe’ tr´ıch r´ v`a Nasr 23 cho tiˆe´ng Ph´ap, cu’a Habash cho tiˆe´ng A’-rˆa.p [15] Neumann tr´ıch v˘an pha.m cho u.c t` u NEGRA Treebank [24] Băacker tieng Anh t` u Penn Treebank tiˆe´ng Anh v`a cho tiˆe´ng D´ u.c t` u NEGRA Treebank [3] Park tr´ıch r´ ut v˘an pha.m tr´ıch r´ ut v˘an pha.m LTAG cho tiˆe´ng D´ LTAG cho tiˆe´ng H`an t` u Sejong Treebank [26] ˆ´NG VIE ˆT TREEBANK TIE `e t`ai KC01.01/06-10, nh´om c´ac chuyˆen gia ngˆon ng˜ u ho.c d˜a thu c hiˆe.n Trong khuˆon khˆo’ dˆ viˆe.c ch´ u gia’i thˆong tin c´ u ph´ap cho mˆo.t kho v˘an ba’n tiˆe´ng Viˆe.t (VietTreebank) D˜ u liˆe.u v˘an u chuyˆen mu.c Ch´ınh tri - X˜a hˆo.i cu’a b´ao Tuˆo’i tre’ Online ba’n du.o c thu thˆa.p t` ´.ng v´o.i ba m´ u.c g´an nh˜an l`a t´ach t` u., g´an nh˜an Kho v˘an ba’n du.o c chia l`am ba tˆa.p tu.o.ng u u ph´ap Tˆa.p du.o c g´an nh˜an c´ u ph´ap l`a tˆa.p cu’a tˆa.p du.o c g´an nh˜an t` u loa i v`a g´an nh˜an c´ u loa.i l`a tˆa.p cu’a tˆa.p du.o c t´ach t` u Tˆa.p g´an nh˜an c´ u ph´ap t` u loa.i; tˆa.p du.o c g´an nh˜an t` u t´o.i 105 u vu ng) Dˆo d`ai cu’a c´ac cˆau n˘`a m khoa’ng t` gˆo`m 10471 cˆau (225085 n vi t` t` u., v´o.i dˆo d`ai trung b`ınh l`a 21, 75 t` u C´o 9314 cˆau (chiˆe´m 88, 95%) c´o dˆo d`ai khˆong l´o.n ho.n 40 t` u Tˆa.p nh˜an cu’a treebank gˆo`m 38 nh˜an c´ u ph´ap (18 nh˜an t` u loa.i, 17 nh˜an cu.m t` u., `an tu’ rˆo˜ng) v`a 17 nh˜an ch´ `eu cao da sˆo´ n˘`a m nh˜an phˆ u.c n˘ang C´ac cˆay c´ u ph´ap c´o chiˆ `eu cao b˘`a ng khoa’ng t` u dˆe´n 10, phˆo’ biˆe´n nhˆa´t l`a b˘`a ng (1436 cˆau) D˘a.c biˆe.t c´o cˆau c´o chiˆ `e treebank tiˆe´ng Viˆe.t du.o c tr`ınh b`ay t`ai liˆe.u [25] 27 C´ac thˆong tin chi tiˆe´t ho.n vˆ u ch´ınh phu., Mˆo.t ch´ uy ´ nho’ l`a VietTreebank khˆong phˆan biˆe.t c´ac liˆen t` u d˘a’ng lˆa.p v`a liˆen t` `eu du.o c g´an nh˜an C Do viˆe.c phˆan biˆe.t gi˜ `an u.a c´ac loa.i liˆen t` u n`ay l`a cˆ tˆa´t ca’ c´ac liˆen t` u dˆ ung tˆoi xu’ l´ y b˘`a ng c´ach thay thˆe´ c´ac liˆen t` u d˘a’ng thiˆe´t xˆay du ng v˘an pha.m LTAG nˆen ch´ lˆa.p treebank (“v`a”, “ho˘a.c”, “&”) b˘a` ng nh˜an CC Mˆo.t sˆo´ nh˜an c´ u ph´ap du o c su’ du.ng c´ac v´ı du cu’a b`ai b´ao n`ay du.o c liˆe.t kˆe Ba’ng 158 ˆ HO ˆ`NG PHU.O.NG ccs LE Ba’ng C´ ac nh˜ an c´ u ph´ ap du.o c su’ du.ng v´ı du No Nh˜ an Mˆ o ta’ `an thuˆ a.t S cˆ au trˆ VP cu.m dˆ o.ng t` u NP cu.m danh t` u u PP cu.m gi´ o.i t` N danh t` u chung V dˆ o.ng t` u P da.i t` u R ph´ o t` u u E gi´ o.i t` 10 CC liˆen t` u d˘ a’ng lˆ a.p ˆ T TOAN ´ TR´ ´ LTAG TU ` TREEBANK THUA ICH RUT `e co ba’n, qu´a tr`ınh tr´ıch r´ u treebank gˆo`m ba bu.´o.c Th´ ut tu dˆo.ng v˘an pha.m LTAG t` u Vˆ nhˆa´t, chuyˆe’n c´ac cˆay c´ u ph´ap cu’a treebank th`anh c´ac cˆay phˆan t´ıch cu’a hˆe h`ınh th´ u.c LTAG ´.ng Th´ u hai, phˆan r˜a c´ac cˆay phˆan t´ıch thu du.o c o’ bu.´o.c mˆo.t th`anh c´ac cˆay co ba’n tu.o.ng u ung, su’ du.ng tri th´ u.c ngˆon ng˜ u dˆe’ lo.c bo’ c´ac v´o.i ba mˆa˜u cˆay du.o c x´ac di.nh tru.´o.c Cuˆo´i c` cˆay co ba’n khˆong ho p lˆe `an tiˆe´p theo s˜e tr`ınh b`ay chi tiˆe´t c´ac thuˆa.t to´an m`a ch´ Phˆ ung tˆoi ph´at triˆe’n ba bu.´o.c n`ay v`a so s´anh ch´ ung v´o.i thuˆa.t to´an tu.o.ng tu cu’a Xia [28] ay phˆ an t´ıch LTAG 5.1 Xˆ ay du ng cˆ `en thˆo´ng O’ mˆo˜i C´ac cˆay c´ u ph´ap cu’a VietTreebank du.o c m˜a du.´o.i da.ng d˘a.t ngo˘a.c truyˆ `an trung tˆam, th`anh phˆ `an dˆo´i b˘a´t buˆo.c v`a u.a th`anh phˆ cu.m khˆong c´o su phˆan biˆe.t r˜o r`ang gi˜ `an phu tro nhu cˆa´u tr´ uc cˆay phˆan t´ıch cu’a hˆe h`ınh th´ u c LTAG V`ı vˆa.y, tru.´o.c th`anh phˆ `an chuyˆe’n dˆo’i t` u cˆay c´ u ph´ap gˆo´c th`anh cˆay phˆan t´ıch LTAG tu.o.ng u ´.ng tiˆen ta cˆ `an phˆan mˆo˜i n´ ut cu’a cˆay c´ u ph´ap th`anh ba loa.i l`a n´ ut Trong bu.´o.c n`ay, tru.´o.c tiˆen ta cˆ ut phu., sau d´o, ch`en thˆem c´ac n´ ut trung gian v`ao cˆay cho ta.i mˆo˜i trung tˆam, n´ ut dˆo´i v`a n´ u.a c´ac n´ ut l`a mˆo.t ba quan hˆe sau [28]: m´ u.c cu’a cˆay, quan hˆe gi˜ `eu n´ • quan hˆe vi t` u –dˆ o´i : c´o mˆo.t ho˘a.c nhiˆ ut, mˆo.t n´ ut l`a trung tˆam, c´ac n´ ut c`on la.i l`a c´ac dˆo´i cu’a trung tˆam; • quan hˆe phu tro : c´o d´ ung hai n´ ut, mˆo.t n´ ut phu tro cho n´ ut kia; • quan hˆe d˘ a’ ng lˆ a.p : c´o d´ ung ba n´ ut, hai n´ ut tr´ai v`a pha’i du.o c liˆen kˆe´t v´o.i b˘a` ng u.a n´ ut liˆen t` u o’ gi˜ `an trung tˆ anh phˆ am [9, 22] cho VietTreebank Ba’ng n`ay du.o c Ch´ ung tˆoi d˜a xˆay du ng ba’ng th` ut trung tˆam cu’a mˆo.t n´ ut bˆa´t k`ı Ba’ng dˆ o´i dˆe’ x´ac di.nh kiˆe’u dˆo´i cu’a su’ du.ng dˆe’ cho.n n´ `an trung tˆam Ba’ng n`ay du o c su’ du.ng dˆe’ x´ac di.nh t´ınh chˆa´t dˆo´i hay phu tro mˆo.t th`anh phˆ `an trung tˆam du a trˆen nh˜an cu’a trung tˆam v`a vi tr´ı cu’a cu’a mˆo.t n´ ut anh em cho th`anh phˆ c´ac n´ ut n`ay ˆ ´ TU ˘ PHA ˆ´NG VIE ˆ T TR´ICH RUT DO NG VAN M LTAG CHO TIE 159 H`ınh Xu’ l´ y c´ac cu.m t` u b˘`a ng Thuˆa.t to´an uc dˆo´i v`a phu tro nˆen tru.´o.c tiˆen ta V`ı cˆa´u tr´ uc cu’a c´ac cu.m d˘a’ng lˆa.p kh´ac v´o.i c´ac cˆa´u tr´ xu’ l´ı to`an bˆo c´ac cu.m d˘a’ng lˆa.p cu’a mˆo˜i cˆay b˘a` ng Thuˆa.t to´an Sau d´o xˆay du ng cˆay phˆan `ay du’ t` u cˆay thu du.o c b˘`a ng Thuˆa.t to´an t´ıch dˆ H`ınh minh hoa mˆo.t cˆay c´o c´ac cˆa´u tr´ uc liˆen t` u tru.´o.c v`a sau du.o c xu’ l´ı bo’.i Thuˆa.t u d˘a’ng lˆa.p v`a Xi l`a c´ac cu.m d˘a’ng lˆa.p H`ınh minh hoa viˆe.c to´an 1, o’ dˆay ci l`a c´ac liˆen t` `an trung tˆam H cu’a cˆay T v`a triˆe’n khai Thuˆa.t to´an d´o Ai l`a c´ac dˆo´i cu’a th`anh phˆ `an phu tro cho H Mi l`a c´ac th`anh phˆ 160 ˆ HO ˆ`NG PHU.O.NG ccs LE Hai thuˆa.t to´an n`ay su’ du.ng h`am Insert-Node(T, L) Thuˆa.t to´an dˆe’ ch`en c´ac n´ ut ut cu’a T N´ ut m´o i n`ay l`a n´ ut T v`a danh s´ach L c´ac n´ ut trung gian v`ao gi˜ u a mˆo.t n´ `e k cu.m ung nh˜an v´o i T v`a c´o danh s´ach l`a L H`am Conj-Groups(L) tra’ vˆ cu’a T , c´o c` `an Ci cu’a L du a trˆen k − liˆen t` u c1 , , ck−1 H`am New-Node(l) ta.o mˆo.t n´ ut th`anh phˆ m´o i c´o nh˜an l ut Thuˆa.t to´an su’ du.ng mˆo.t sˆo´ h`am phu tro sau H`am head-Child(X) cho.n n´ `an trung tˆam Ba’ng l`a ba’ng th`anh phˆ `an trung tˆam cu’a mˆo.t n´ ut X du a trˆen ba’ng th`anh phˆ ut X H`am Istrung tˆam cho VietTreebank H`am Is-Leaf(X) kiˆe’m tra t´ınh chˆa´t l´a cu’a n´ ˆ ´ TU ˘ PHA ˆ´NG VIE ˆ T TR´ICH RUT DO NG VAN M LTAG CHO TIE 161 Phrasal(X) kiˆe’m tra xem X c´o pha’i l`a mˆo.t cu.m hay khˆong.2 C´ac h`am Arg-Nodes(H, L) `e danh s´ach c´ac n´ v`a Mod-Nodes(H, L) tu.o.ng u ´.ng tra’ vˆ ut dˆo´i v`a phu tro cu’a n´ ut H Danh ´ u a tˆa t ca’ c´ac n´ ut anh em cu’a n´ ut H s´ach L ch´ H`ınh V´ı du minh hoa viˆe.c xˆay du ng cˆay phˆan t´ıch `en ong chuyˆe’n h` ang xuˆ o´ng thuyˆ V´ı du., H`ınh minh hoa cˆay c´ u ph´ap cu’a cˆau “Ho s˜e khˆ v` ao ng` ay mai.” tr´ıch t` u VietTreebank v´o i cˆa´u tr´ uc ngo˘a.c nhu sau: H`ınh Mˆo.t cˆay c´ u ph´ap H`ınh Cˆay phˆan t´ıch cu’a cˆay c´ u ph´ap H`ınh N´ ut cu.m l` a n´ ut khˆ ong pha’i n´ ut l´ a ho˘ a.c n´ ut t` u.loa.i, ngh˜ıa l` a n´ o pha’i c´ o ´ıt nhˆ a´t l` a hai n´ ut con, ho˘ a.c c´ o mˆ o.t n´ ut khˆ ong pha’i n´ ut l´ a ˆ HO ˆ`NG PHU.O.NG ccs LE 162 C´ac n´ ut trung tˆam cu’a c´ac cu.m du.o c khoanh tr`on Cˆay phˆan t´ıch cu’a cˆau v´ı du sinh ut trung gian ch`en thˆem l`a c´ac n´ ut du.o c d´ong bo’.i Thuˆa.t to´an du.o c cho trˆen H`ınh 8, c´ac n´ khung H`ınh C´ac mˆa˜u cˆay co so’ spine (´ u.) u.ng v´o.i quan hˆe dˆo´i–vi t` u.ng v´o.i quan hˆe phu tro ho˘a.c d˘a’ng lˆa.p v`a phu tro (´ 5.2 Tr´ıch r´ ut c´ ac cˆ ay co ba’n Trong bu.´o.c n`ay, mˆo˜i cˆay phˆan t´ıch du.o c phˆan r˜a th`anh mˆo.t tˆa.p c´ac cˆay co ba’n C´ac cˆa´u uc khˆong dˆe tr´ uc dˆe quy cu’a cˆay phˆan t´ıch du.o c t´ach th`anh c´ac cˆay phu tro , c´ac cˆa´u tr´ `eu thuˆo.c ut dˆ quy c`on la.i du o c t´ach th`anh c´ac cˆay kho’ i ta.o C´ac cˆay co ba’n du o c tr´ıch r´ ´ ng v´o i ba kiˆe’u quan hˆe cu’a n´ ut neo v´o i c´ac n´ ut kh´ac Ba mˆa˜u n`ay mˆo.t ba mˆa˜u tu o ng u du o c minh hoa H`ınh ut cu’a cˆay phˆan t´ıch dˆe’ xˆay du ng c´ac cˆay co Qu´a tr`ınh tr´ıch r´ ut thu c hiˆe.n viˆe.c ch´ep c´ac n´ u.a c´ac cˆay spine (c´ac cˆay kho’.i ta.o), M ch´ u.a ut gˆo`m ba tˆa.p cˆay: tˆa.p S ch´ so’ Kˆe´t qua’ tr´ıch r´ u.a c´ac cˆay d˘a’ng lˆa.p c´ac cˆay phu tro v`a C ch´ Dˆe’ xˆay du ng c´ac co ba’n t` u mˆo.t cˆay phˆan t´ıch T , tru.´o.c tiˆen ta t`ım du.`o.ng di trung tˆam {H0, H1, , Hn} cu’a T b˘`a ng thu’ tu.c head-path(T ) Du.`o.ng di trung tˆam xuˆa´t ph´at t` u T `eu l`a n´ l`a du.`o.ng di nhˆa´t t` u T t´o.i mˆo.t n´ ut tr` u T dˆ ut trung tˆam ut l´a d´o mˆo˜i n´ ’ ut trung tˆam Hj+1 V´o i mˆo˜i n´ ut cha P v`a cu’a n´ ut cha O dˆay H0 ≡ T v`a Hj l`a cha cu’a n´ ut anh em cu’a H v`a x´ac di.nh quan hˆe gi˜ u.a H n´ ut trung tˆam H , ta lˆa´y danh s´ach L c´ac n´ v`a L Nˆe´u d´o l`a quan hˆe d˘a’ng lˆa.p th`ı tr´ıch mˆo.t cˆay d˘a’ng lˆa.p; nˆe´u d´o l`a quan hˆe phu tro u.–dˆo´i th`ı tr´ıch mˆo.t cˆay kho’.i ta.o Thuˆa.t th`ı tr´ıch mˆo.t cˆay phu tro , nˆe´u l`a quan hˆe vi t` u mˆo.t cˆay phˆan t´ıch Thuˆa.t to´an n`ay su’ du.ng to´an l`a thuˆa.t to´an tr´ıch r´ ut c´ac cˆay co ba’n t` c´ac h`am nhu sau ut Thuˆa.t to´an tr´ıch r´ ut cˆay kho’.i ta.o (spine) H`am Merge-Link-Nodes(T ) gh´ep c´ac n´ liˆen kˆe´t cu’a mˆo.t cˆay spine th`anh mˆo.t n´ ut (xem H`ınh 11) C´ac Thuˆa.t to´an v`a7 l`a c´ac h`am u cˆay phˆan t´ıch o’ H`ınh 8, ta ´ ng tr´ıch r´ ut c´ac cˆay phu tro v`a cˆay d˘a’ng lˆa.p V´ı du., t` tu o ng u tr´ıch du.o c cˆay co ba’n nhu trˆen c´ac H`ınh 10 v`a11 ˆ ´ TU ˘ PHA ˆ´NG VIE ˆ T TR´ICH RUT DO NG VAN M LTAG CHO TIE 163 5.3 Lo.c bo’ cˆ e ay khˆ ong ho p lˆ u.ng lˆo˜i c´ac cˆay C´ac lˆo˜i ch´ u gia’i l`a khˆong thˆe’ tr´anh kho’i dˆo´i v´o.i c´ac treebank l´o.n, nh˜ phˆan t´ıch c´ u ph´ap s˜e dˆa˜n dˆe´n c´ac cˆay co ba’n khˆong ho p lˆe Cˆay co ba’n du.o c go.i l`a khˆong `au ngˆon ng˜ u ho.c n`ao d´o ho p lˆe nˆe´u n´o khˆong thoa’ m˜an mˆo.t yˆeu cˆ u.c ngˆon ng˜ u tiˆe´ng Viˆe.t, ch´ ung tˆoi d˜a xˆay du ng mˆo.t bˆo luˆa.t dˆe’ lo.c Du a trˆen mˆo.t sˆo´ tri th´ u (ho˘a.c mˆo.t cu.m t´ınh t` u.) c´o c´ac cˆay co ba’n khˆong ho p lˆe V´ı du., tiˆe´ng Viˆe.t, mˆo.t t´ınh t` `an phu cu’a mˆo.t danh t` u.), nhiˆen n´o luˆon pha’i di sau thˆe’ l`am phˆ u (ho˘a.c mˆo.t cu.m danh t` u n˘a` m bˆen tr´ai danh t` danh t` u V`ı vˆa.y, nˆe´u c´o cˆay co ba’n d´o c´o t´ınh t` u th`ı cˆay n`ay `an du.o c lo.c Mˆo.t v´ı du kh´ac vˆ `e kiˆe’u cˆay khˆong ho p lˆe l`a cˆay kho’.i ta.o l`a khˆong ho p lˆe., cˆ `eu ho.n dˆo´i b˘a´t buˆo.c, tru.`o.ng ho p khˆong xa’y tiˆe´ng ut trung tˆam c´o nhiˆ d´o n´ Viˆe.t, nhu cˆay trˆen H`ınh 12 Thˆong qua viˆe.c kiˆe’m tra t´ınh ho p lˆe cu’a tˆa.p cˆay co ba’n du.o c `e xuˆa´t nhiˆ `eu ca’i tiˆe´n v`a su’.a lˆo˜i cho VietTreebank, gi´ up nˆang cao chˆa´t tr´ıch r´ ut, ch´ ung tˆoi d˜a dˆ lu.o ng cu’a treebank tiˆe´ng Viˆe.t a.t to´ an cu’a Xia 5.4 So s´ anh v´ o.i thuˆ C´ach tiˆe´p cˆa.n tr´ıch r´ ut v˘an pha.m LTAG m`a ch´ ung tˆoi tr`ınh b`ay tu.o.ng dˆo´i giˆo´ng v´o.i `e xuˆa´t bo’.i Xia [25] Tuy nhiˆen, c´o mˆo.t sˆo´ diˆe’m kh´ac ut v˘an pha.m du.o c dˆ phu.o.ng ph´ap tr´ıch r´ `e phu.o.ng ph´ap thiˆe´t kˆe´ v`a c`ai d˘a.t thuˆa.t to´an gi˜ u.a hai c´ach tiˆe´p cˆa.n vˆ Th´ u nhˆa´t, bu.´o.c xˆay du ng cˆay phˆan t´ıch, tru.´o.c tiˆen ta xu’ l´ı to`an bˆo c´ac cu.m liˆen `an dˆo´i v`a phu tro , thay v`ı xu’ l´ı u ph´ap tru.´o.c phˆan biˆe.t c´ac th`anh phˆ t` u d˘a’ng lˆa.p cu’a cˆay c´ `an tu n`ay dˆ˜e hiˆe’u v`a dˆ˜e c`ai d˘a.t ho.n v`ı c´ac cu.m dˆo`ng th`o.i ca’ ba da.ng cˆa´u tr´ uc Viˆe.c xu’ l´ı tuˆ d˘a’ng lˆa.p c´o cˆa´u tr´ uc kh´ac v´o.i c´ac cˆa´u tr´ uc dˆo´i v`a phu tro Th´ u hai, bu.´o.c tr´ıch r´ ut cˆay `an trˆen v`a du ´o i nhu c´ach ut cu’a cˆay th`anh hai th`anh phˆ co ba’n, d˜a khˆong t´ach mˆo˜i n´ tiˆe´p cˆa.n cu’a Xia C´ac n´ ut cu’a cˆay phˆan t´ıch du o c ch´ep tru c tiˆe´p sang c´ac cˆay co ba’n ut l`am t˘ang t´ınh hiˆe.u qua’ th`o.i gian v`a khˆong gian Viˆe.c ch´ep tru c tiˆe´p m`a khˆong t´ach n´ ut cˆay du.o c phˆan r˜a th`anh c´ac thu’ tu.c con, go.i cu’a c´ac thuˆa.t to´an Th´ u ba, qu´a tr`ınh tr´ıch r´ ut trˆen t` u.ng cˆay c´o n´ ut gˆo´c chu.a du.o c xu’ l´ı tu.o.ng hˆo˜ qua la.i dˆe’ l˘a.p la.i qu´a tr`ınh tr´ıch r´ y lu.˜o.ng da’m ba’o khˆong c´o l`o.i go.i th` u.a, mˆo˜i mˆo.t C´ac h`am dˆe quy tu.o.ng hˆo˜ du.o c thiˆe´t kˆe´ k˜ `an T´ınh hiˆe.u qua’ v`a dˆ˜e tˆo´i u.u ho´a cu’a phu.o.ng n´ ut cu’a cˆay phˆan t´ıch chı’ du.o c xu’ l´ı mˆo.t lˆ u.ng minh l´ı thuyˆe´t thiˆe´t kˆe´ thuˆa.t to´an ph´ap “chia dˆe’ tri.” d˜a du.o c ch´ ’ THU’ NGHIE ˆM ˆ´T QUA KE Tiˆe´n h`anh cha.y c´ac thuˆa.t to´an tr´ıch r´ ut trˆen treebank tiˆe´ng Viˆe.t v`a tr´ıch hai v˘an pha.m u hai, G2 su’ du.ng V˘an pha.m th´ u nhˆa´t, G1 su’ du.ng bˆo nh˜an gˆo´c cu’a treebank V˘an pha.m th´ bˆo nh˜an thu go.n, d´o mˆo.t sˆo´ nh˜an cu’a treebank du.o c gh´ep th`anh mˆo.t nh˜an nhu trˆen `au hˆe´t c´ac cˆa´u tr´ uc c´ u ph´ap H`ınh V˘an pha.m G2 nho’ ho.n G1, vˆa˜n mˆo ta’ du.o c hˆ `eu n`ay gi´ `e d˜ up gia’m b´o t vˆa´n dˆ u liˆe.u thu a, t˘ang dˆo ch´ınh x´ac su’ du.ng c` ung loa.i cu’a G1 ; diˆ v˘an pha.m c´ac bˆo phˆan t´ıch c´ u ph´ap (do.n di.nh ho˘a.c thˆo´ng kˆe) Ngo`ai ra, k´ıch thu.´o.c cu’a ˆ HO ˆ`NG PHU.O.NG ccs LE 164 v˘an pha.m c˜ u.ng minh l`a mˆo.t nhˆan tˆo´ quan tro.ng phˆan t´ıch phu thuˆo.c ung d˜a du.o c ch´ v`a phˆan t´ıch c´ u ph´ap bˆo phˆa.n [4] Ta dˆe´m sˆo´ cˆay co ba’n v`a c´ac mˆa˜u cˆay3 K´ıch thu.´o.c cu’a hai v˘an pha.m du.o c cho u nhˆa´t treebank v`a trung b`ınh mˆo.t t` u g˘a´n v´o.i 3.07 cˆay co ba’n Ba’ng C´o 15035 t` u ca’nh cu’a c´ac v˘an pha.m d´o c´ac quy t˘a´c du.o c Ch´ ung tˆoi c˜ ung dˆe´m sˆo´ quy t˘a´c phi ng˜ ut gˆo´c, c´ac k´ı xˆay du ng do.n gia’n b˘a` ng c´ach do.c c´ac mˆa˜u cˆay (k´ı hiˆe.u tr´ai cu’a quy t˘a´c l`a n´ ´.ng c´o hiˆe.u bˆen pha’i cu’a quy t˘a´c l`a c´ac n´ ut cu’a gˆo´c) C´ac v˘an pha.m G1 v`a G2 tu.o.ng u Mˆ a˜u cˆ ay l` a cˆ ay co.ba’n bo’ di n´ ut neo ˆ ´ TU ˘ PHA ˆ´NG VIE ˆ T TR´ICH RUT DO NG VAN M LTAG CHO TIE 851 v`a 727 quy t˘a´c phi ng˜ u ca’nh H`ınh 10 C´ac cˆay co ba’n 165 166 ˆ HO ˆ`NG PHU.O.NG ccs LE H`ınh 11 Gh´ep c´ac n´ ut liˆen kˆe´t, du.`o.ng di trung tˆam du.o c d´anh dˆa´u b˘`a ng n´et dˆoi H`ınh 12 Mˆo.t cˆay co ba’n khˆong ho p lˆe Dˆe’ d´anh gi´a dˆo phu’ cu’a treebank tiˆe´ng Viˆe.t, ta dˆe´m sˆo´ mˆa˜u cˆay u ´.ng v´o.i k´ıch thu.´o.c cu’a `an theo k´ıch thu.´o.c cu’a treebank du.o c su’ treebank H`ınh 13 minh hoa sˆo´ mˆa˜u cˆay t˘ang dˆ du.ng Viˆe.c hˆo.i tu rˆa´t chˆa.m cu’a sˆo´ mˆa˜u cˆay cho thˆa´y k´ıch thu.´o.c hiˆe.n ta.i cu’a VietTreebank u ph´ap cu’a tiˆe´ng Viˆe.t l`a chu.a du’ l´o.n dˆe’ phu’ hˆe´t c´ac mˆa˜u c´ `an mˆ `em c´o tˆen LExtractor d˜a du.o c nh´om t´ac gia’ ph´at triˆe’n, c`ai Mˆo.t chu o ng tr`ınh phˆ d˘a.t c´ac thuˆa.t to´an tr´ıch r´ ut v˘an pha.m trˆen Chu.o.ng tr`ınh du.o c viˆe´t b˘a` ng ngˆon ng˜ u lˆa.p tr`ınh ˆ ´ TU ˘ PHA ˆ´NG VIE ˆ T TR´ICH RUT DO NG VAN M LTAG CHO TIE 167 `an mˆ `em tu cho cˆo.ng dˆo`ng nghiˆen c´ Java v`a du.o c phˆan phˆo´i du.´o.i da.ng phˆ ´.ng du.ng u.u v`a u ut to`an bˆo v˘an theo giˆa´y ph´ep GNU/GPL4 Chu.o.ng tr`ınh cha.y nhanh v`a hiˆe.u qua’ Dˆe’ tr´ıch r´ ` pha.m G1 o’ trˆen chu o ng tr`ınh chı’ cˆan cha.y 165 giˆay trˆen mˆo.t m´ay t´ınh c´a nhˆan thˆong thu.`o.ng Chu.o.ng tr`ınh LExtractor du.o c thiˆe´t kˆe´ v`a c`ai d˘a.t tu.o.ng dˆo´i tˆo’ng qu´at, dˆ˜e d`ang su’ ut v˘an pha.m t` u c´ac treebank cu’a c´ac ngˆon ng˜ u kh´ac Mo.i thˆong tin liˆen quan du.ng dˆe’ tr´ıch r´ u du.o c t´ach kho’i l˜oi chu.o.ng tr`ınh tr´ıch r´ ut Do d´o, ngu.`o.i su’ t´o.i d˘a.c tru.ng cu’a ngˆon ng˜ `an cung cˆa´p thˆong tin liˆen quan t´o.i treebank u kh´ac chı’ cˆ du.ng chu.o.ng tr`ınh trˆen mˆo.t ngˆon ng˜ `an tu’ trung tˆam v`a ba’ng dˆo´i cu’a ngˆon ng˜ u d´o du.´o.i da.ng c´ac ba’ng nh˜an, ba’ng th`anh phˆ ´.NG PHAT ´ TRIE ˆ’ N ˆ´T LUA ˆ N VA ` HU.O KE `e xuˆa´t c´ac thuˆa.t to´an v`a mˆo.t hˆe thˆo´ng tu dˆo.ng tr´ıch r´ ut c´ac v˘an pha.m LTAG B`ai b´ao d˜a dˆ ’ ´ ’ ut v˘an pha.m LTAG cho tiˆe´ng Viˆe.t t` u t` u treebank Hˆe thˆong du o c thu nghiˆe.m dˆe tr´ıch r´ treebank tiˆe´ng Viˆe.t uc c´ u ph´ap cu’a treebank, M˘a.c d` u v˘an pha.m LTAG thu du.o c d˜a phu’ ho`an to`an c´ac cˆa´u tr´ `eu cˆa´u tr´ sˆo´ mˆa˜u cˆay cu’a v˘an pha.m hˆo.i tu rˆa´t chˆa.m cho thˆa´y c´o nhiˆ uc c´ u ph´ap chu.a du.o c m˜a ho´a treebank, n´oi c´ach kh´ac l`a treebank tiˆe´ng Viˆe.t chu.a du’ l´o.n ho˘a.c chu.a du’ diˆe’n h`ınh dˆe’ phu’ hˆe´t c´ac mˆa˜u c´ u ph´ap cu’a tiˆe´ng Viˆe.t u ph´ap tiˆe´ng Viˆe.t su’ du.ng bˆo phˆan t´ıch c´ u Khi tiˆe´n h`anh d´anh gi´a kˆe´t qua’ phˆan t´ıch c´ ` u ph´ap rˆa´t cao V´ı du., su’ du.ng ph´ap LLP2 [11] cho thˆa´y tiˆe´ng Viˆe.t c´o dˆo nhˆa.p nh˘a ng c´ ’ u ph´ap 70 cˆau c´o dˆo d`ai nho’ ho.n mˆo.t v˘an pha.m LTAG k´ıch thu ´o c trung b`ınh dˆe phˆan t´ıch c´ u th`ı kˆe´t qua’ thu du.o c l`a mˆo˜i cˆau c´o trung b`ınh 49, c´ach phˆan t´ıch, d´o hay b˘a` ng 15 t` chı’ c´o 14 cˆau c´o nhˆa´t mˆo.t c´ach phˆan t´ıch Chu.o.ng tr`ınh cha.y v` a m˜ a nguˆ o`n c´ o thˆe’ta’i t` u di.a chı’ http://www.loria.fr/∼lehong/tools/vnLExtractor.php ˆ HO ˆ`NG PHU.O.NG ccs LE 168 Ba’ng Gh´ep mˆo.t sˆo´ nh˜an c´ u ph´ap cu’a VietTreebank th`anh mˆo.t Loa.i cu.m danh t` u cu.m t´ınh t` u cu.m ph t` u cu.m gi´o.i t` u `e mˆe.nh dˆ Nh˜ an Nh˜ an G2 gˆ o´c NP/WHNP NP AP/WHAP AP RP/WHRP RP PP/WHPP PP S/SQ S `an theo k´ıch thu.´o.c cu’a treebank: H`ınh 13 Sˆo´ mˆa˜u cˆay t˘ang dˆ `an tr˘am kho v˘an ba’n du.o c su’ du.ng dˆe’ tr´ıch r´ ut v˘an pha.m, tru.c x biˆe’u diˆ˜en phˆ tru.c y biˆe’u diˆ˜en sˆo´ lu o ng mˆa˜u cˆay tˆo’ng thˆe’ ( ), mˆa˜u cˆay kho’.i ta.o (o) v`a mˆa˜u cˆay phu tro ( ) thu du.o c ung nhu dˆo ch´ınh x´ac u.u tiˆe´p theo, s˜e d´anh gi´a to`an diˆe.n hiˆe.u qua’ c˜ Trong nh˜ u.ng nghiˆen c´ u ph´ap v`a v˘an pha.m d˜a xˆay du ng cu’a chu.o.ng tr`ınh phˆan t´ıch c´ ut t` u VietTreebank Ba’ng Hai v˘an pha.m LTAG du.o c tr´ıch r´ Kiˆ e’u G1 Cˆ ay kho’.i ta.o Cˆ ay phu tro Cˆ ay d˘ a’ng lˆ a.p G2 Cˆ ay kho’.i ta.o Cˆ ay phu tro Cˆ ay d˘ a’ng lˆ a.p Sˆ o´ cˆ ay 46382 24973 21309 100 46102 24884 21121 97 ˜u cˆ Sˆ o´ mˆ a ay 2317 1022 1223 72 2113 952 1093 68 D˜a v`a dang thu’ nghiˆe.m viˆe.c tr´ıch cho.n mˆo.t v˘an pha.m LTAG cho tiˆe´ng Ph´ap t` u treebank ut, s˜e so s´anh c´ac cˆa´u tr´ uc c´ u ph´ap cu’a tiˆe´ng tiˆe´ng Ph´ap [2] Du a trˆen c´ac kˆe´t qua’ tr´ıch r´ ˆ ´ TU ˘ PHA ˆ´NG VIE ˆ T TR´ICH RUT DO NG VAN M LTAG CHO TIE 169 Ph´ap v`a tiˆe´ng Viˆe.t mˆo.t c´ach di.nh lu.o ng dˆe’ t`ım c´ac diˆe’m chung, phu.c vu mˆo.t sˆo´ nghiˆen c´ u.u dˆo´i chiˆe´u gi˜ u.a hai ngˆon ng˜ u `an trung tˆam cho treebank tiˆe´ng Viˆe.t Ba’ng Ba’ng th`anh phˆ Nh˜ an S SBAR SQ NP VP AP RP PP QP XP YP MDP WHNP WHAP WHRP WHPP WHXP o.ng cho.n Hu.´ Tr´ Tr´ Tr´ Tr´ Tr´ Tr´ Pha’i Tr´ Tr´ Tr´ Tr´ Tr´ Tr´ Tr´ Tr´ Tr´ Tr´ en Danh s´ ach u.u tiˆ S VP AP NP SBAR S VP AP NP SQ VP AP NP NP Nc Nu Np N P VP V A AP N NP S AP A N S RP R T NP PP E VP SBAR AP QP QP M XP X YP Y MDP T I A P R X WHNP NP Nc Nu Np N P WHAP A N V P X WHRP P E T X WHPP E P X XP X ’O ` LIE ˆ U THAM KHA TAI [1] A Abeill´e, An electronic grammar of French (tiˆe´ng Ph´ ap), CNRS, Paris, 2002 [2] A Abeill, L Cl´ement, and F Toussenel, Building a treebank for French, Treebanks: Building and Using Parsed Corpora, Kluwer, Dordrecht, 2003 [3] J Backer and K Harbusch Hidden Markov model-based supertagging in a user-initiative dialogue system, Proceedings of TAG+6, Universita di Venezia, 2002 (269–278) [4] S Bangalore, Performance evaluation of supertagging for partial parsing, Advances in proba- bilistic and other parsing technologies, Kluwer Academic Publishers, 2000 (203220) [5] X Carreras, M Collins, and T Koo, TAG, dynamic programming, and the perceptron for efficient, feature-rich parsing, Proceedings of COLING 2008, Manchester, 2008 [6] J Chen, S Bangalore, and K Vijay-Shanker, Automated extraction of tree-adjoining grammars from treebanks,Natural Language Engineering 12 (3) (2006) 251299 [7] J Chen and K Vijay-Shanker, Automated extraction of TAGs from the Penn treebank, Proceed- ings of the Sixth International Workshop on Parsing Technologies, Trento, Italy, 2000 ˆ HO ˆ`NG PHU.O.NG ccs LE 170 [8] D Chiang, Statistical parsing with an automatically-extracted tree adjoining grammar, ACL00, Morristown, NJ, USA, 2000 (456463) [9] M Collins, Three generative, lexicalised models for statistical parsing, Proceedings of ACL, Madrid, Spain,1997 [10] B Crabb´e, Grammatical development with XMG, Proceedings of the 5th International Con- ference on Logical Aspects of Computational Linguistics, Bordeaux, France,2005 [11] B Crabb´e, B Gaiffe, and A Roussanaly, Representation and management of lexicalized tree adjoining grammar, French Journal of Natural Language Processing 44 (3) (2003) 67-91 (tiˆe´ng Ph´ ap) [12] E V de la Clergerie, B Sagot, L Nicolas, and M.-L Gu´enot, FRMG: evolution of a TAG parser for French, Workshop ATALA de IWPT 2009, Paris, 2009 [13] C Doran, B Hockey, A Sarkar, and B Srinivas, Evolution of the XTAG system, A Abeill´eand O Rambow, editors, Tree adjoining grammars, Stanford CSLI, 2000 (371404) [14] R Frank, Phrase Structure Composition and Syntactic Dependencies, MIT Press, Boston, 2002 [15] N Habash and O Rambow, Extracting a tree adjoining grammar from the penn arabic treebank, Proceedings of TALN04, Morocco, 2004 16 A.-D Johansen Extraction des grammaires LTAG partir dun corpus tiquett syntaxiquement (Extraction of LTAG grammars from a syntactically annotated corpus) Masters thesis, Universit Paris 7, 2004 [16] A.-D Johansen, “Extraction of LTAG grammars from a syntactically annotated corpus”, Masters thesis, Universit´eParis 7, 2004 (tiˆe´ng Ph´ ap) [17] A K Joshi, L S Levy, and M Takahashi, Tree adjunct grammars, Journal of the Computer and System Sciences 10 (1975) 136165 [18] A K Joshi and Y Schabes, Handbooks of Formal Languages and Automata, chapter Tree Adjoin- ing Grammars, Springer-Verlag, 1997 [19] L Kallmeyer, T Lichte, W Maier, Y Parmentier, and J Dellert, Developping an MCTAG for German with an RCG-based parser, Proceedings of LREC 2008, Marrakech, Morocco, 2008 [20] A Kinyon and C A Prolo, A classification of grammar development strategies, Proceedings of the Workshop on Grammar Engineering and Evaluation, Taipei, Taiwan, 2002 (43–49) [21] P Le.Hong, T M H Nguyen, P T Nguyen, and A Roussanaly, Automated extraction of tree adjoining grammars from a treebank for Vietnamese, Proceedings of TAG+10, Yale University, New Haven, CT, USA, 2010 [22] D M Magerman, Statistical decision tree models for parsing, Proceedings of ACL, Cambridge, Massachusetts, USA,1995 [23] A Nasr, “Analyse syntaxique probabiliste pour grammaires de d´ependances extraites automatique- ment”, Habilitation ` a diriger des recherches, Universit´e Paris 7, 2004 (tiˆe´ng Ph´ ap) ˆ ´ TU ˘ PHA ˆ´NG VIE ˆ T TR´ICH RUT DO NG VAN M LTAG CHO TIE 171 [24] G Neumann, A uniform method for automatically extracting stochastic lexicalized tree grammar from treebank and HPSG, Treebanks: Building and Using Parsed Corpora, Kluwer, Dordrecht, 2003 [25] P T Nguyen, L V Xuan, T M H Nguyen, V H Nguyen, and P Le.Hong, Building a large syntactically-annotated corpus of Vietnamese, Proceedings of the 3rd Linguistic Annotation Workshop, ACL-IJCNLP, Singapore, 2009 [26] J Park, Extraction of tree adjoining grammars from a treebank for Korean, COLING ACL06 Student Research Workshop, Morristown, NJ, USA, 2006 (7378) [27] Y Parmentier, SemTAG: “A platform for the semantic computing from tree adjoining grammars”, PhD thesis, Universit´e Henri Poincar´e, Nancy I, 2007 [28] F Xia, “Automatic grammar generation from two different perspectives”, PhD thesis, University of Pennsylvania, 2001 [29] F Xia, M Palmer, and A Joshi, A uniform method of grammar extraction and its applications, Proceedings of the joint SIGDAT conference on empirical methods in NLP and very large corpora, Morristown, NJ, USA, 2000 (5362) [30] XTAG-Research-Group, “A lexicalized tree adjoining grammar for English”, Technical report, Insti- tute for Research in Cognitive Science, University of Pennsylvania, 2001 [31] N Yoshinaga, Y.Miyao, K Torisawa, and J Tsuji, Parsing comparison across grammar formalisms using strongly equivalent grammars, Traitement Automatique des Langues 44 (3) (2003) 1539 Nhˆ a.n b` ng` ay 19 - - 2010 ay 10 - - 2010 Nhˆ a.n la.i sau su’.a ng`