Phân tích cú pháp phụ thuộc tiếng việt

94 301 0
Phân tích cú pháp phụ thuộc tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Đ I H C QU C GIA HÀ N I TRƯ NG Đ I H C KHOA H C T NHIÊN —————————— Hà M Linh PHÂN TÍCH CÚ PHÁP PH TI NG VI T LU N VĂN TH C SĨ KHOA H C Hà N i - 2015 THU C Đ I H C QU C GIA HÀ N I TRƯ NG Đ I H C KHOA H C T NHIÊN —————————— Hà M Linh PHÂN TÍCH CÚ PHÁP PH THU C TI NG VI T Chuyên ngành: Cơ s toán cho tin h c Mã s : 60460110 LU N VĂN TH C SĨ KHOA H C NGƯ I HƯ NG D N KHOA H C: TS Lê H ng Phương Hà N i - 2015 L i c m ơn Em xin g i l i c m ơn t i th y giáo, cô giáo, cán b khoa Toán - Cơ Tin h c, trư ng Đ i h c Khoa h c t nhiên, Đ i h c Qu c gia Hà N i t n tình d y d giúp đ em su t th i gian h c cao h c làm vi c t i B môn Tin h c Trong trình th c hi n lu n văn su t nh ng năm h c v a qua, em nh n đư c s ch b o hư ng d n nhi t tình c a TS Lê H ng Phương TS Nguy n Th Minh Huy n Em xin g i t i Th y Cô l i c m ơn chân thành nh t Em xin g i l i c m ơn t i gia đình, b n bè đ ng viên, khuy n khích t o u ki n cho em trình h c t p th c hi n lu n văn M c dù c g ng đ hoàn thành lu n văn, h n ch v kinh nghi m th i gian, nên lu n văn không th tránh kh i nh ng thi u sót Em mong nh n đư c s c m thông nh ng ý ki n đóng góp c a th y cô b n Hà N i, tháng năm 2015 H c viên Hà M Linh i M cl c Danh sách b ng iv Danh sách hình v v L im đ u 1 T ng quan v cú pháp ph thu c 1.1 1.2 Cú pháp ph thu c 1.1.1 Đ nh nghĩa cú pháp ph thu c 1.1.2 Bi u di n cú pháp ph thu c Các thu t toán phân tích cú pháp ph thu c 1.2.1 Phân tích cú pháp ph thu c d a đ th 1.2.2 Phân tích cú pháp ph thu c d a bư c chuy n Xây d ng t p nhãn ph thu c cho ti ng Vi t 11 16 2.1 Kho ng li u ti ng Vi t - Viettreebank 16 2.2 T p nhãn quan h ph thu c đa ngôn ng 19 2.3 T p nhãn quan h ph thu c cho ti ng Vi t Th c nghi m 3.1 3.2 23 33 Các công c phân tích cú pháp ph thu c 33 3.1.1 MSTParser 33 3.1.2 MaltParser 35 Thu t toán xây d ng tài nguyên ti ng Vi t t đ ng 39 3.2.1 40 T p lu t tìm ph n t trung tâm ii 3.2.2 3.3 Thu t toán chuy n t đ ng t Viettreebank sang cú pháp ph thu c 41 K t qu th c nghi m 45 K t lu n 48 Các công trình công b liên quan đ n lu n văn 49 Tài li u tham kh o 50 Ph l c 54 iii Danh sách b ng 1.1 1.2 1.3 1.4 2.1 2.2 2.3 2.4 2.5 3.1 3.2 3.3 3.4 3.5 3.6 3.7 K t qu phân tích cú pháp ph thu c c a hai mô hình cho h th ng CoNLL-X (Buchholz Marsi 2006) Các đ c trưng dùng MSTParser Các đ c trưng 10 dùng MaltParser Ví d v phân tích cú 14 pháp d a vào bư c chuy n 15 T p nhãn t lo i ti ng Vi t 18 T p nhãn c m t ti ng Vi t T p nhãn m 19 nh đ ti ng Vi t T p nhãn ch c cú 19 pháp ti ng Vi t So sánh t p nhãn ph thu c ti ng 20 Vi t v i t p nhãn ph thu c đa ngôn ng (UD) t p nhãn ph thu c ti ng Anh (SD) 32 K t qu c a MSTParser 35 K t qu c a MaltParser T p quy t c 39 xác đ nh ph n t trung tâm Câu ti ng Vi t theo đ 40 nh d ng CoNLL-X chưa đư c phân tích Câu ti ng Vi t theo đ nh 45 d ng CoNLL-X đư c phân tích ph thu c K t qu phân tích cú pháp ph thu c v i t p d li 46 u 2700 K t qu phân tích cú pháp ph thu c v i t p d li u 6546 46 câu 47 iv Danh sách hình v 1.1 C u trúc c m t 1.2 Đ th ph thu c c a m t câu ti ng Anh 61.3 Ví d v phân tích cú pháp d a đ th 11 3.1 41 Cú pháp thành ph n c a m t câu ti ng Vi t v L im đ u X lí ngôn ng t nhiên (Natural Language Processing - NLP) m t nhánh trí tu nhân t o, t p trung ng d ng nh m giúp h th ng máy tính hi u x lí đư c ngôn ng c a ngư i X lí ngôn ng t nhiên m t nh ng v n đ khó thu hút r t nhi u nhóm nghiên c u liên quan đ n vi c ph i hi u ý nghĩa ngôn ng - công c hoàn h o nh t c a tư giao ti p Phân tích cú pháp m t nh ng v n đ quan tr ng lĩnh v c x lí ngôn ng t nhiên V i m t b phân tích cú pháp t t, có th tích h p vào nhi u ng d ng x lí ngôn ng t nhiên d ch máy, tóm t t văn b n, h th ng h i đáp, trích ch n thông tin, đ tăng tính xác c a ng d ng Trong phân tích cú pháp, phân tích cú pháp ph thu c nghiên c u v s ph thu c gi a t câu d a ng nghĩa G n đây, phân tích cú pháp ph thu c thu hút đư c s quan tâm c a nhi u nhóm nghiên c u ngôn ng t nhiên th gi i b i quan h ph thu c gi a hai t câu nghiên c u kh nh p nh ng ng nghĩa c a câu cú pháp có kh mô hình hóa ngôn ng có tr t t t t Đ i v i nhi u ngôn ng ti ng Anh, ti ng Pháp, ti ng Trung, có r t nhi u nghiên c u công c phân tích cú pháp ph thu c v i hi u qu cao Tuy nhiên, ti p c n cho toán h u h t d a h c máy đòi h i kho ng li u v i nhi u thông tin v t lo i quan h ph thu c nên có r t công b nghiên c u v phân tích cú pháp ph thu c ti ng Vi t Hi n nay, công c phân tích cú pháp ph thu c cho ti ng Vi t đ t đư c m t s k t qu nh t đ nh Nhóm tác gi Nguy n Lê Minh c ng s [1] s d ng thu t toán phân tích cú pháp d a vào đ th , th c nghi m v i công c MSTParser b d li u h n ch g m 450 câu làm b ng tay v i đ xác 63.11% Nhóm tác gi Lê H ng Phương c ng s [20] nghiên c u phân tích cú pháp ph thu c d a vào văn ph m k t n i t v ng hóa, th c nghi m hu n luy n v i 8637 câu kho ng li u cú pháp thành ph n ti ng Vi t, phân tích 441 câu có đ dài nh 30 t đ t đ xác 73.21% G n nh t công b c a nhóm nghiên c u c a tác gi Nguy n Qu c Đ t c ng s [7], tác gi chuy n t đ ng kho ng li u cú pháp thành ph n sang kho ng li u cú pháp ph thu c, v i t p 33 nhãn quan h ph thu c v i đ xác 71.66% Tuy nhiên, h u h t nghiên c u đ i v i ti ng Vi t đ u chưa th ng nh t đư c t p nhãn ph thu c, nhãn ph thu c chưa đư c mô t m t cách rõ ràng hi u qu phân tích h n ch Lu n văn s trình bày v v n đ phân tích cú pháp ph thu c, t p trung vào vi c xây d ng t p nhãn ph thu c cho ti ng Vi t th nghi m hai công c phân tích cú pháp MaltParser MSTParser N i dung c a lu n văn g m có chương: • Chương T ng quan: Chương trình bày nh ng v n đ liên quan t i cú pháp ph thu c, khái ni m b n v phân tích cú pháp ph thu c Và m t s nh ng thu t toán phân tích cú pháp ph thu c t t nh t hi n • Chương Xây d ng t p nhãn ph thu c cho ti ng Vi t: Chương trình bày v vi c nghiên c u xây d ng t p nhãn ph thu c cho ti ng Vi t có đ i sánh v i t p nhãn ph thu c đa ngôn ng c a nhóm nghiên c u trư ng Đ i h c Stanford Ngoài ra, Chương so sánh s khác gi a hai b nhãn đ th y đư c nh ng đ c trưng ti ng Vi t • Chương 3: Th c nghi m: Chương trình bày v m t s công c phân tích cú pháp ph thu c hi u qu nh t hi n nay: MSTParser MaltParser Ti p theo thu t toán chuy n t đ ng t kho ng li u cú pháp thành ph n Viettreebank sang kho ng li u cú pháp ph thu c Ti n hành th c nghi m phân tích cú pháp ph thu c cho ti ng Vi t v i hai công c trên, sau so sánh k t qu đ t đư c gi a nh ng t p d li u khác đưa k t lu n Chương T ng quan v cú pháp ph thu c Chương s trình bày ki n th c s s d ng ph n sau, đ c bi t khái ni m liên quan t i phân tích cú pháp ph thu c thu t toán phân tích cú pháp ph thu c n hình 1.1 Cú pháp ph thu c Cú pháp ch đ nghiên c u c a hai c ng đ ng g m nh ng ngư i làm ngôn ng nh ng ngư i làm tin h c Cú pháp v a đ i tư ng nghiên c u, v a m t c p đ c n mô t đ i v i c ng đ ng nh ng ngư i làm ngôn ng Đ i v i c ng đ ng nh ng ngư i làm tin h c, c n làm cho máy tính phân tích đư c cú pháp v i hai m c tiêu xây d ng ng d ng, gi i quy t m t s toán th c t , đ i tư ng nghiên c u c a h h hình th c thu t toán 1.1.1 Đ nh nghĩa cú pháp ph thu c Ki n th c ví d ph n trình bày theo tài li u c a tác gi Joakim Nivre Johan Hall c ng s [9] Cú pháp quy t c dùng ti ng đ đ t câu văn cho xác Đ s d ng ngôn ng linh ho t, ta ph i hi u rõ v cú pháp Mu n hi u rõ v cú pháp, ta ph i hi u th câu, lo i câu, m nh đ , lo i m nh đ , c u trúc c a chúng V i m t câu có th có hai cách phân tích cú pháp: phân tích cú pháp thành root csubj nsubj pmod Anh nói neg th punct không • Gió th i m nh làm đ c i → csubj(làm, th i) • Ph n vi t ti u thuy t tr thành m t hi n tư ng → csubj(tr thành, vi t) dep: ph thu c Quan h ph thu c quan h t ng quát, đư c s d ng ta không th xác đ nh đư c quan h c th gi a t câu det: h n đ nh H n đ nh quan h gi a t c a c m danh t v i t h n đ nh Trong ti ng Vi t, nh ng t h n đ nh hay g p "nh ng", "các", "m i", "c ", "t t c " • Mưa c ngày → det(ngày, c ) root punct nsubj tmod det Tr i mưa c ngày predet: h n đ nh đ ng đ u câu H n đ nh quan h gi a t c a c m danh t v i t h n đ nh Các t h n đ nh đ ng đ u câu • T t c nh ng mèo đen y đ u r t đ p → det(con, nh ng); predet(con, t tc) nsubj predet det T t_c root pmod amod advmodb advmodb nc punct nh ng mèo đen y đu rt đp 10 60 dobj: b ng tr c ti p B ng tr c ti p c a m t c m đ ng t thư ng c m danh t • Nó đ t gi i nhì → dobj(đ t, gi i) punct root psubj • Nam ăn cháo → dobj num Nó đt gi i nhì dobj(ăn, cháo) root nsubj punct advmodt • Hoa sinh viên → ng Nam ăn cháo dobj(là, sinh viên) • Nam t ng cô y hoa → iobj: b dobj dobj(t ng, hoa) gián ti p B ng gián ti p c a m t c m đ ng t thư ng đ i t ho c danh t làm b ng t ng cách B ng gián ti p thư ng tr l i cho câu h i v đ i t : Ai? Ngư i nào? (whom) Chú ý r ng quan h đư c s d ng gi i t • Nam t ng cô y hoa punct dobj root iobj nsubj pmod Nam t ng cô y hoa Trong trư ng h p có gi i t ta s d ng quan h dobj, prep pobj • Hi n đ t cho làng → dobj(hi n, đ t); prep(hi n, cho); pobj(cho, làng) 61 mark: đánh d u T đánh d u t gi i thi u m t m nh đ ph c a m t m nh đ chính, ti ng Vi t thư ng t "r ng", "là", "mà", "nơi" Quan h đánh d u liên k t t c a m nh đ ph v i t đánh d u • Cô y nói r ng anh thích chơi → mark(thích, r ng) punct root ccomp mark nsubj pmod nsubj vv dobj Cô y nói r ng anh thích chơi • Anh nói r ng em thích kem → mark(thích, r ng) • Cô nói ngày mai s đ n → mark(đ n, là) neg: ph đ nh Mô t m i quan h ph đ nh gi a t (đ ng t ho c tính t ) m t t di n đ t ý nghĩa ph đ nh Trong ti ng Vi t, hai t hay dùng đ di n đ t ý ph đ nh "không" "ch ng" • Anh không t i → neg(t i, không) root nsubj neg punct Anh không ti • Hoa không chăm ch → neg(chăm ch , không) • Nó ch ng thi t n a → neg(thi t, ch ng) nc: b nghĩa danh t cho danh t ch lo i Quan h nc bi u di n m i liên h gi a danh t ch lo i v i danh t chung, danh t chung b nghĩa cho danh t ch lo i Các danh t ch lo i đ ng trư c danh t chung, ví d "cái", "con" Chú ý r ng t c a m t c m danh t danh t ch lo i • Hai mèo đen ăn cá → nc(con, mèo) 62 nsubj root amod num punct nc advmodt dobj Hai mèo đen ăn cá • Nh ng qu cam vàng → nc(qu , cam) nn: b nghĩa danh t Mô t quan h b nghĩa gi a m t danh t v i m t danh t ph Trong ti ng Vi t, n u c m có hai danh t danh t thư ng đ ng trư c danh t ph (ngư c v i ti ng Anh, danh t n m bên ph i cùng, ví d the phone book, oil prices) • S n tho i bàn → nn(s , n tho i) root nsubj nn advmodt S n_tho i • bàn máy tính → • ngư i nh n → punct prep pobj bàn nn(bàn, máy tính) nn(ngư i, nh n) nsubj: ch ng danh t Ch ng danh t c m danh t ho c đ i t làm ch ng c a m t m nh đ T c a quan h thư ng đ ng t ho c tính t • Bông hoa r t tươi → nsubj(tươi, bông) root nsubj nc • Liêm đánh b i Sơn → advmodb Bông hoa rt nsubj(đánh b i, Liêm) 63 punct tươi • Bi n l ng → nsubj(l ng, bi n) • Trang m → num: b t nsubj(m , trang) s lư ng B t s lư ng c a m t danh t m t c m s b nghĩa cho danh t Danh t thư ng có ki u Nc ho c Nu • Hoa ăn que kem → num(que, 3) punct root dobj nsubj • Có mèo → num nc Hoa ăn que kem num(con, 2) • Nó nh n tri u đ ng → num(tri u, 5) number: thành ph n c a s t Mô t quan h gi a thành ph n c a c m s t ho c s lư ng ti n T thư ng đơn v ti n t (đ ng, USD ) • Nó nh n tri u đ ng → number(đ ng, tri u) punct root dobj psubj number num Nó nh n tri u đ ng parataxis: thành ph n đ ng l p Quan h đ ng l p quan h gi a v t c a m t m nh đ thành ph n khác c a câu, ví d ph n ngo c đơn, m nh đ sau d u ch m ph y (;), d u hai ch m (:), ho c hai câu song song • Gã đó, anh nói, r i → parataxis(đi, nói) 64 nsubj root parataxis punct pmod nsubj punct advmodt advmoda punct Gã , anh nói , ri 10 Các thành ph n đ ng l p thư ng n m câu ph c đ ng l p, lo i câu ph c, m nh đ đư c liên k t v i b ng quan h bình đ ng Lo i câu có th đư c nh n bi t nh hai d u hi u hình th c Liên t liên h p: như, và, nhưng, song, r i, còn, hay [là], ho c [là], mà, v [l i], [là] [là]; quãng ngh nói, ho c d u ng t m nh đ (d u ph y, d u hai ch m) vi t Đ thi t l p lo i câu này, ngư i ta thư ng d a vào m t s quan h Dư i nh ng quan h ph bi n: • Quan h li t kê/n i ti p Ví d : - M t nhìn xu ng mũi, mũi nhìn xu ng mi ng, mi ng b u - Nó kêu, la, rên, khóc, gi giãy ch t, n m lăn ăn v • Quan h gi i thích Ví d : - N t làm m i vi c: cô đưa hàng bu i s m, cô đ n quan, cô d y h c - Tôi đùa chơi đ y ch , anh tư ng mê Dung l m à? • Quan h b sung Ví d : - Dung ch khóc, không dám nói - Thôi, nh c đ u b búa b , chóng m t l m - Tôi không nói, mà anh y không nói 65 • Quan h tương ph n/như ng b Ví d : - Ngư i đàn bà run c m c p, th y đ th n nhiên không - Cà có nhi u lo i, v không khác • Quan h l a ch n/so sánh Ví d : - Tôi hay anh đi? - Nó nghi n mùi xăng ngư i ta nghi n ma túy pcomp: b tr gi i t Quan h đư c s d ng b ng c a gi i t m t đ ng t ho c m t m nh đ • Đi h c đ m mang ki n th c → pcomp(đ , m mang) punct root prep vv pcomp Đi hc đ dobj m _mang ki n_th c • nh m phát tri n đ i ngũ → pcomp(nh m, phát tri n) • B i anh chăm vi c canh nông Cho nên m i có b b ch → pcomp(b i, chăm) pobj: b ng c a gi i t B ng c a gi i t t c a c m danh t sau gi i t • Tôi ng i gh → pobj(trên, gh ) root punct prep psubj pobj Tôi ng i • B trói bu c b i t p quán cũ → gh pobj(b i, t p quán) 66 • H ng vi c h p t p → • Nói chuy n v i s p → pobj(do, h p t p) pobj(v i, s p) • Chuy n hàng xu ng thuy n → pobj(xu ng, thuy n) • Tôi s v i anh lên thành ph → pobj(v i, anh); pobj(lên, thành ph ) pmod: đ i t ch đ nh Quan h đ i t ch đ nh mô t ph thu c gi a danh t v i m t đ i t ch đ nh ti ng Vi t, ví d " y", "kia", "này", "đó", "bây gi " • Anh r t cao → pmod(anh, này) root nsubj pmod • Hai mèo đen y → Anh prep: b rt punct cao pmod(con, y) • Mùa thu qua → • Nơi đâu → advmodb pmod(mùa thu, đó) pmod(nơi,đâu) nghĩa gi i t Quan h b nghĩa gi i t mô t liên h gi a m t c m gi i t v i đ ng t , tính t , danh t ho c gi i t • Anh xúc cát b ng x ng → prep(xúc, b ng) punct root prep nsubj dobj pobj Anh xúc cát b ng x ng • Tôi nhìn th y chu t g m bàn → • Nam nh n trách nhi m v vi c → prep(chu t, trong) prep(trách nhi m, v ) 67 • Nó b ng tay → prep(đi, b ng) psubj: ch đ i t Quan h psubj mô t ph thu c gi a t ng ch ng đ i t Ví d : • Tôi h c → psubj(đi, tôi) root punct psubj • Đó chuy n l → vv Tôi hc psubj(là, đó) punct: d u câu Quan h mô t ph thu c gi a t d u câu • Vào chu ng! → punct(vào, !) root punct dobj • Đi ch ? → Vào chu ng ! punct(đi, ?) question: t đ h i Quan h mô t ph thu c gi a t t đ h i, thư ng "sao", "t i sao", "vì sao" • Sao ngư i dân ph i gánh ch u h u qu → question(ph i, sao) root question punct nsubj dobj nc vv Sao ngư i dân ph i gánh_ch u quantmod: b ng h u_qu ? s lư ng c lư ng B sung nghĩa cho s t không t đ i Ti ng Vi t thư ng s d ng "kho ng", "g n", "x p x ", "ch ng", "g n_đ n", "quãng", "hơn" 68 • G n 200 ngư i tham gia → quantmod(200, G n) root quantmod num nsubj punct Gn 200 ngư i tham_gia • Nhóm g m kho ng 10 ngư i → quantmod(10, kho ng) rcmod: b nghĩa m nh đ quan h B nghĩa m nh đ quan h c a c m danh t (NP) Quan h ch m i quan h gi a t trung tâm c a c m danh t v i t trung tâm c a m nh đ quan h (thư ng m t đ ng t ) • Tôi th y ngư i đàn ông b n yêu → rcmod(ngư i, yêu) punct ccomp rcmod root ref psubj nc nsubj Tôi th y ngư i đàn_ông mà bn yêu ref: tham chi u Tham chi u c a m t c m danh t t quan h liên k t m nh đ quan h b nghĩa cho c m danh t T quan h ti ng Vi t đ i t "mà" • Tôi nhìn th y cu n sách mà b n mua → ref(cu n, mà) punct ccomp rcmod root ref psubj nc nsubj Tôi th y cu n sách mà bn • Ngư i mà anh nói đ n b → ref(ngư i, mà) 69 mua Chú ý r ng t "mà" có th liên t ho c tr t Trong nh ng trư ng h p không ph i t tham chi u Khi s d ng liên t , t "mà" di n đ t lo i ý nghĩa sau: Liên t bi u th m t k t qu : Bi t tay ăn m n ch a, đ ng trêu m mư p mà xơ có ngày; Non đ p mà cao, sông kia, bi n n đào mà sâu Liên t bi u th m t m c đích: Trèo lên trái núi mà coi, có bà qu n tư ng cư i voi bành vàng Liên t bi u th m t gi thi t: Anh mà đ n s m g p ch y Còn s d ng làm tr t , t "mà" thư ng đư c đ t cu i câu đ nh n m nh: Đã b o!; Anh c tin làm đư c mà! root: g c Quan h ng pháp g c tr t i t c a câu Ta dùng m t nút gi có tên ROOT đ làm t T ROOT đư c đánh ch s 0, t câu đư c đánh ch s b t đ u t • Tôi yêu Mai → root(ROOT, yêu) root punct psubj dobj Tôi yêu Mai • Doanh thu c a công ty tăng m nh → root(ROOT, tăng) tmod: b ng th i gian B ng th i gian c a c câu thư ng c m danh t ch th i gian Trong ng pháp, c m thư ng đư c g i tr ng t th i gian • Đêm qua ng mu n → tmod(ng , đêm_qua) root tmod punct psubj Đêm_qua apredmod ng 70 mu n • Ngày mai h s → tmod(đi, ngày mai) • Chuy n 20 năm v trư c → tmod(năm, chuy n) vcomp: b ng đ ng t c a đ ng t Quan h b ng đ ng t c a đ ng t đư c s d ng đ ch đ nh quan h gi a đ ng t đ ng t ph • Tôi chuy n ti n n p h c phí → vcomp(chuy n, n p) punct root vcomp psubj dobj dobj Tôi chuy n ti n np h c_phí • có v n m s → • tăng v n làm ăn → vcomp(có, m ) vcomp(tăng, làm ăn) Quan h vcomp đư c s d ng nh ng ví d sau: • Anh cho bò ăn → vcomp(cho, ăn) punct root vcomp dobj nsubj • Tôi cho mư n ti n → Anh cho bò ăn vcomp(cho, mư n) • Anh cho h c h t l p 12 → vcomp(cho, h c) vmod: b ng đ ng t c a danh t Quan h b ng đ ng t c a m t c m danh t dùng đ mô t m i quan h gi a danh t đ ng t c m danh t • Th s a tivi đ n → vmod(th , s a) 71 nsubj vmod dobj advmodt vnom: danh t punct Th sa tivi đn • Cô giáo d y THCS chuy n → • Năm đ i m i → root vmod(cô giáo, d y) vmod(năm, đ i m i) hóa đ ng t Đ ng t đư c danh t hóa b ng m t t ch lo i đ ng trư c Ví d "cái", "s ", "vi c" • Cái ăn khan hi m quá! → vnom(cái, ăn) root nsubj punct vnom advmoda Cái ăn khan_hi m ! • S h c ngày phát tri n quê hương → vnom(s , h c) vsubj: ch ng đ ng t Quan h vsubj mô t hi n tư ng đ ng t làm ch ng Trong ti ng Vi t, ch ng thư ng danh t , nhiên có m t s trư ng h p tính t , đ ng t , c m ch -v có th làm ch ng • H c t p nhi m v → vsubj(là, h c t p) root punct dobj vsubj H c_t p • Nói chuy n v i h chán → amod nhi m_v vsubj(chán phè, Nói chuy n) 72 • Vi t ti u thuy t tr thành h n m t ngh riêng → vv: b ng đ ng t vsubj(tr thành, vi t) c a v t Quan h vv mô t quan h b nghĩa gi a đ ng t m t v t Các đ ng t ch ý chí, quy t đ nh, yêu thích • Tôi thích ăn th t → vv(thích, ăn) punct root dobj psubj Tôi thích ăn th t • Tôi ph i → nsubjpass: ch vv ng vv(ph i, đi) danh t b đ ng Ch ng danh t b đ ng c m danh t ho c đ i t làm ch ng b đ ng c a m nh đ T di n đ t ý nghĩa b đ ng ti ng Vi t thư ng "b " ho c "đư c" T c a quan h thư ng đ ng t , tính t ho c danh t N u t tính t có th b t di n đ t ý nghĩa b đ ng đi; trư ng h p ta có th s d ng ph thu c nsubj thay cho ph thu c nsubjpass, nhiên đ nh t quán, ta s d ng nsubjpass • Nó b đánh → nsubjpass(đánh, nó) • Y b tr c xu t → nsubjpass(tr c xu t, y) • Lan đư c khen → nsubjpass(khen, Lan) • Trang [b ] m → • Tèo b m → nsubjpass(m , trang) nsubjpass(đi m, Tèo) xsubj: ch ng ki m soát Quan h xsubj mô t quan h gi a ch ng c a câu m t v t (là t c a vv) • Tôi thích ăn th t → xsubj(ăn, tôi) • Tôi ph i → xsubj(đi, tôi) 73 Hư ng d n s d ng MaltParser Thông tin chi ti t c a MaltParser đư c vi t trang http://www.maltparser.org [27] • Công c MaltParser đư c vi t b ng ngôn ng Java, yêu c u cài đ t JDK 1.6 tr lên cho máy tính • T i v b n MaltParser 1.7.1 gi i nén Ch đ hu n luy n: Đ hu n luy n mô hình, ta s d ng câu l nh: java -jar malt.jar -c vi.mco -i examples/data/training_data.conll -m learn Ch đ phân tích: Đ phân tích m t câu hoàn toàn m i, s d ng c u hình vi.mco v a t o ra, ta s d ng câu l nh: java -jar malt.jar -c vi.mco -i examples/data/test_data.conll -o output.conll -m parse K t qu c a trình phân tích cú pháp ph thu c file output.conll Hư ng d n s d ng MSTParser MSTParser chương trình vi t b ng Java Yêu c u cài đ t JDK 1.4 tr lên ch y v i JDK 1.4 ho c 1.5 t t nh t Yêu c u t i v thư vi n: trove.jar đ h tr cho chương trình Có th t i phiên b n m i nh t c a MSTParser v máy, tích h p vào Eclipse ch y ki u Run configuration v i câu l nh sau: Ch đ hu n luy n train train-file:data∴dulieuMSTParser.txt Ch đ phân tích train train-file:data∴dulieuMSTParser.txt test model-name:dep.model testfile:data∴testTV.txt output-file:out.txt 74 ... a chúng V i m t câu có th có hai cách phân tích cú pháp: phân tích cú pháp thành ph n phân tích cú pháp ph thu c Đ nh nghĩa 1.1.1 (Cú pháp thành ph n) Cú pháp thành ph n c u trúc câu theo th b... dùng cú pháp ph thu c ngư c l i Bài toán phân tích cú pháp ph thu c Phân tích cú pháp ph thu c đưa mô t v quan h vai trò ng pháp c a t câu, đ ng th i đưa hình thái c a câu Bài toán phân tích cú pháp. .. phân tích cú pháp ph thu c thu t toán phân tích cú pháp ph thu c n hình 1.1 Cú pháp ph thu c Cú pháp ch đ nghiên c u c a hai c ng đ ng g m nh ng ngư i làm ngôn ng nh ng ngư i làm tin h c Cú pháp

Ngày đăng: 02/05/2017, 09:57

Tài liệu cùng người dùng

Tài liệu liên quan