Thông tin tài liệu
Đ I H C QU C GIA HÀ N I TRƯ NG Đ I H C KHOA H C T NHIÊN —————————— Hà M Linh PHÂN TÍCH CÚ PHÁP PH TI NG VI T LU N VĂN TH C SĨ KHOA H C Hà N i - 2015 THU C Đ I H C QU C GIA HÀ N I TRƯ NG Đ I H C KHOA H C T NHIÊN —————————— Hà M Linh PHÂN TÍCH CÚ PHÁP PH THU C TI NG VI T Chuyên ngành: Cơ s toán cho tin h c Mã s : 60460110 LU N VĂN TH C SĨ KHOA H C NGƯ I HƯ NG D N KHOA H C: TS Lê H ng Phương Hà N i - 2015 L i c m ơn Em xin g i l i c m ơn t i th y giáo, cô giáo, cán b khoa Toán - Cơ Tin h c, trư ng Đ i h c Khoa h c t nhiên, Đ i h c Qu c gia Hà N i t n tình d y d giúp đ em su t th i gian h c cao h c làm vi c t i B môn Tin h c Trong trình th c hi n lu n văn su t nh ng năm h c v a qua, em nh n đư c s ch b o hư ng d n nhi t tình c a TS Lê H ng Phương TS Nguy n Th Minh Huy n Em xin g i t i Th y Cô l i c m ơn chân thành nh t Em xin g i l i c m ơn t i gia đình, b n bè đ ng viên, khuy n khích t o u ki n cho em trình h c t p th c hi n lu n văn M c dù c g ng đ hoàn thành lu n văn, h n ch v kinh nghi m th i gian, nên lu n văn không th tránh kh i nh ng thi u sót Em mong nh n đư c s c m thông nh ng ý ki n đóng góp c a th y cô b n Hà N i, tháng năm 2015 H c viên Hà M Linh i M cl c Danh sách b ng iv Danh sách hình v v L im đ u 1 T ng quan v cú pháp ph thu c 1.1 1.2 Cú pháp ph thu c 1.1.1 Đ nh nghĩa cú pháp ph thu c 1.1.2 Bi u di n cú pháp ph thu c Các thu t toán phân tích cú pháp ph thu c 1.2.1 Phân tích cú pháp ph thu c d a đ th 1.2.2 Phân tích cú pháp ph thu c d a bư c chuy n Xây d ng t p nhãn ph thu c cho ti ng Vi t 11 16 2.1 Kho ng li u ti ng Vi t - Viettreebank 16 2.2 T p nhãn quan h ph thu c đa ngôn ng 19 2.3 T p nhãn quan h ph thu c cho ti ng Vi t Th c nghi m 3.1 3.2 23 33 Các công c phân tích cú pháp ph thu c 33 3.1.1 MSTParser 33 3.1.2 MaltParser 35 Thu t toán xây d ng tài nguyên ti ng Vi t t đ ng 39 3.2.1 40 T p lu t tìm ph n t trung tâm ii 3.2.2 3.3 Thu t toán chuy n t đ ng t Viettreebank sang cú pháp ph thu c 41 K t qu th c nghi m 45 K t lu n 48 Các công trình công b liên quan đ n lu n văn 49 Tài li u tham kh o 50 Ph l c 54 iii Danh sách b ng 1.1 1.2 1.3 1.4 2.1 2.2 2.3 2.4 2.5 3.1 3.2 3.3 3.4 3.5 3.6 3.7 K t qu phân tích cú pháp ph thu c c a hai mô hình cho h th ng CoNLL-X (Buchholz Marsi 2006) Các đ c trưng dùng MSTParser Các đ c trưng 10 dùng MaltParser Ví d v phân tích cú 14 pháp d a vào bư c chuy n 15 T p nhãn t lo i ti ng Vi t 18 T p nhãn c m t ti ng Vi t T p nhãn m 19 nh đ ti ng Vi t T p nhãn ch c cú 19 pháp ti ng Vi t So sánh t p nhãn ph thu c ti ng 20 Vi t v i t p nhãn ph thu c đa ngôn ng (UD) t p nhãn ph thu c ti ng Anh (SD) 32 K t qu c a MSTParser 35 K t qu c a MaltParser T p quy t c 39 xác đ nh ph n t trung tâm Câu ti ng Vi t theo đ 40 nh d ng CoNLL-X chưa đư c phân tích Câu ti ng Vi t theo đ nh 45 d ng CoNLL-X đư c phân tích ph thu c K t qu phân tích cú pháp ph thu c v i t p d li 46 u 2700 K t qu phân tích cú pháp ph thu c v i t p d li u 6546 46 câu 47 iv Danh sách hình v 1.1 C u trúc c m t 1.2 Đ th ph thu c c a m t câu ti ng Anh 61.3 Ví d v phân tích cú pháp d a đ th 11 3.1 41 Cú pháp thành ph n c a m t câu ti ng Vi t v L im đ u X lí ngôn ng t nhiên (Natural Language Processing - NLP) m t nhánh trí tu nhân t o, t p trung ng d ng nh m giúp h th ng máy tính hi u x lí đư c ngôn ng c a ngư i X lí ngôn ng t nhiên m t nh ng v n đ khó thu hút r t nhi u nhóm nghiên c u liên quan đ n vi c ph i hi u ý nghĩa ngôn ng - công c hoàn h o nh t c a tư giao ti p Phân tích cú pháp m t nh ng v n đ quan tr ng lĩnh v c x lí ngôn ng t nhiên V i m t b phân tích cú pháp t t, có th tích h p vào nhi u ng d ng x lí ngôn ng t nhiên d ch máy, tóm t t văn b n, h th ng h i đáp, trích ch n thông tin, đ tăng tính xác c a ng d ng Trong phân tích cú pháp, phân tích cú pháp ph thu c nghiên c u v s ph thu c gi a t câu d a ng nghĩa G n đây, phân tích cú pháp ph thu c thu hút đư c s quan tâm c a nhi u nhóm nghiên c u ngôn ng t nhiên th gi i b i quan h ph thu c gi a hai t câu nghiên c u kh nh p nh ng ng nghĩa c a câu cú pháp có kh mô hình hóa ngôn ng có tr t t t t Đ i v i nhi u ngôn ng ti ng Anh, ti ng Pháp, ti ng Trung, có r t nhi u nghiên c u công c phân tích cú pháp ph thu c v i hi u qu cao Tuy nhiên, ti p c n cho toán h u h t d a h c máy đòi h i kho ng li u v i nhi u thông tin v t lo i quan h ph thu c nên có r t công b nghiên c u v phân tích cú pháp ph thu c ti ng Vi t Hi n nay, công c phân tích cú pháp ph thu c cho ti ng Vi t đ t đư c m t s k t qu nh t đ nh Nhóm tác gi Nguy n Lê Minh c ng s [1] s d ng thu t toán phân tích cú pháp d a vào đ th , th c nghi m v i công c MSTParser b d li u h n ch g m 450 câu làm b ng tay v i đ xác 63.11% Nhóm tác gi Lê H ng Phương c ng s [20] nghiên c u phân tích cú pháp ph thu c d a vào văn ph m k t n i t v ng hóa, th c nghi m hu n luy n v i 8637 câu kho ng li u cú pháp thành ph n ti ng Vi t, phân tích 441 câu có đ dài nh 30 t đ t đ xác 73.21% G n nh t công b c a nhóm nghiên c u c a tác gi Nguy n Qu c Đ t c ng s [7], tác gi chuy n t đ ng kho ng li u cú pháp thành ph n sang kho ng li u cú pháp ph thu c, v i t p 33 nhãn quan h ph thu c v i đ xác 71.66% Tuy nhiên, h u h t nghiên c u đ i v i ti ng Vi t đ u chưa th ng nh t đư c t p nhãn ph thu c, nhãn ph thu c chưa đư c mô t m t cách rõ ràng hi u qu phân tích h n ch Lu n văn s trình bày v v n đ phân tích cú pháp ph thu c, t p trung vào vi c xây d ng t p nhãn ph thu c cho ti ng Vi t th nghi m hai công c phân tích cú pháp MaltParser MSTParser N i dung c a lu n văn g m có chương: • Chương T ng quan: Chương trình bày nh ng v n đ liên quan t i cú pháp ph thu c, khái ni m b n v phân tích cú pháp ph thu c Và m t s nh ng thu t toán phân tích cú pháp ph thu c t t nh t hi n • Chương Xây d ng t p nhãn ph thu c cho ti ng Vi t: Chương trình bày v vi c nghiên c u xây d ng t p nhãn ph thu c cho ti ng Vi t có đ i sánh v i t p nhãn ph thu c đa ngôn ng c a nhóm nghiên c u trư ng Đ i h c Stanford Ngoài ra, Chương so sánh s khác gi a hai b nhãn đ th y đư c nh ng đ c trưng ti ng Vi t • Chương 3: Th c nghi m: Chương trình bày v m t s công c phân tích cú pháp ph thu c hi u qu nh t hi n nay: MSTParser MaltParser Ti p theo thu t toán chuy n t đ ng t kho ng li u cú pháp thành ph n Viettreebank sang kho ng li u cú pháp ph thu c Ti n hành th c nghi m phân tích cú pháp ph thu c cho ti ng Vi t v i hai công c trên, sau so sánh k t qu đ t đư c gi a nh ng t p d li u khác đưa k t lu n Chương T ng quan v cú pháp ph thu c Chương s trình bày ki n th c s s d ng ph n sau, đ c bi t khái ni m liên quan t i phân tích cú pháp ph thu c thu t toán phân tích cú pháp ph thu c n hình 1.1 Cú pháp ph thu c Cú pháp ch đ nghiên c u c a hai c ng đ ng g m nh ng ngư i làm ngôn ng nh ng ngư i làm tin h c Cú pháp v a đ i tư ng nghiên c u, v a m t c p đ c n mô t đ i v i c ng đ ng nh ng ngư i làm ngôn ng Đ i v i c ng đ ng nh ng ngư i làm tin h c, c n làm cho máy tính phân tích đư c cú pháp v i hai m c tiêu xây d ng ng d ng, gi i quy t m t s toán th c t , đ i tư ng nghiên c u c a h h hình th c thu t toán 1.1.1 Đ nh nghĩa cú pháp ph thu c Ki n th c ví d ph n trình bày theo tài li u c a tác gi Joakim Nivre Johan Hall c ng s [9] Cú pháp quy t c dùng ti ng đ đ t câu văn cho xác Đ s d ng ngôn ng linh ho t, ta ph i hi u rõ v cú pháp Mu n hi u rõ v cú pháp, ta ph i hi u th câu, lo i câu, m nh đ , lo i m nh đ , c u trúc c a chúng V i m t câu có th có hai cách phân tích cú pháp: phân tích cú pháp thành root csubj nsubj pmod Anh nói neg th punct không • Gió th i m nh làm đ c i → csubj(làm, th i) • Ph n vi t ti u thuy t tr thành m t hi n tư ng → csubj(tr thành, vi t) dep: ph thu c Quan h ph thu c quan h t ng quát, đư c s d ng ta không th xác đ nh đư c quan h c th gi a t câu det: h n đ nh H n đ nh quan h gi a t c a c m danh t v i t h n đ nh Trong ti ng Vi t, nh ng t h n đ nh hay g p "nh ng", "các", "m i", "c ", "t t c " • Mưa c ngày → det(ngày, c ) root punct nsubj tmod det Tr i mưa c ngày predet: h n đ nh đ ng đ u câu H n đ nh quan h gi a t c a c m danh t v i t h n đ nh Các t h n đ nh đ ng đ u câu • T t c nh ng mèo đen y đ u r t đ p → det(con, nh ng); predet(con, t tc) nsubj predet det T t_c root pmod amod advmodb advmodb nc punct nh ng mèo đen y đu rt đp 10 60 dobj: b ng tr c ti p B ng tr c ti p c a m t c m đ ng t thư ng c m danh t • Nó đ t gi i nhì → dobj(đ t, gi i) punct root psubj • Nam ăn cháo → dobj num Nó đt gi i nhì dobj(ăn, cháo) root nsubj punct advmodt • Hoa sinh viên → ng Nam ăn cháo dobj(là, sinh viên) • Nam t ng cô y hoa → iobj: b dobj dobj(t ng, hoa) gián ti p B ng gián ti p c a m t c m đ ng t thư ng đ i t ho c danh t làm b ng t ng cách B ng gián ti p thư ng tr l i cho câu h i v đ i t : Ai? Ngư i nào? (whom) Chú ý r ng quan h đư c s d ng gi i t • Nam t ng cô y hoa punct dobj root iobj nsubj pmod Nam t ng cô y hoa Trong trư ng h p có gi i t ta s d ng quan h dobj, prep pobj • Hi n đ t cho làng → dobj(hi n, đ t); prep(hi n, cho); pobj(cho, làng) 61 mark: đánh d u T đánh d u t gi i thi u m t m nh đ ph c a m t m nh đ chính, ti ng Vi t thư ng t "r ng", "là", "mà", "nơi" Quan h đánh d u liên k t t c a m nh đ ph v i t đánh d u • Cô y nói r ng anh thích chơi → mark(thích, r ng) punct root ccomp mark nsubj pmod nsubj vv dobj Cô y nói r ng anh thích chơi • Anh nói r ng em thích kem → mark(thích, r ng) • Cô nói ngày mai s đ n → mark(đ n, là) neg: ph đ nh Mô t m i quan h ph đ nh gi a t (đ ng t ho c tính t ) m t t di n đ t ý nghĩa ph đ nh Trong ti ng Vi t, hai t hay dùng đ di n đ t ý ph đ nh "không" "ch ng" • Anh không t i → neg(t i, không) root nsubj neg punct Anh không ti • Hoa không chăm ch → neg(chăm ch , không) • Nó ch ng thi t n a → neg(thi t, ch ng) nc: b nghĩa danh t cho danh t ch lo i Quan h nc bi u di n m i liên h gi a danh t ch lo i v i danh t chung, danh t chung b nghĩa cho danh t ch lo i Các danh t ch lo i đ ng trư c danh t chung, ví d "cái", "con" Chú ý r ng t c a m t c m danh t danh t ch lo i • Hai mèo đen ăn cá → nc(con, mèo) 62 nsubj root amod num punct nc advmodt dobj Hai mèo đen ăn cá • Nh ng qu cam vàng → nc(qu , cam) nn: b nghĩa danh t Mô t quan h b nghĩa gi a m t danh t v i m t danh t ph Trong ti ng Vi t, n u c m có hai danh t danh t thư ng đ ng trư c danh t ph (ngư c v i ti ng Anh, danh t n m bên ph i cùng, ví d the phone book, oil prices) • S n tho i bàn → nn(s , n tho i) root nsubj nn advmodt S n_tho i • bàn máy tính → • ngư i nh n → punct prep pobj bàn nn(bàn, máy tính) nn(ngư i, nh n) nsubj: ch ng danh t Ch ng danh t c m danh t ho c đ i t làm ch ng c a m t m nh đ T c a quan h thư ng đ ng t ho c tính t • Bông hoa r t tươi → nsubj(tươi, bông) root nsubj nc • Liêm đánh b i Sơn → advmodb Bông hoa rt nsubj(đánh b i, Liêm) 63 punct tươi • Bi n l ng → nsubj(l ng, bi n) • Trang m → num: b t nsubj(m , trang) s lư ng B t s lư ng c a m t danh t m t c m s b nghĩa cho danh t Danh t thư ng có ki u Nc ho c Nu • Hoa ăn que kem → num(que, 3) punct root dobj nsubj • Có mèo → num nc Hoa ăn que kem num(con, 2) • Nó nh n tri u đ ng → num(tri u, 5) number: thành ph n c a s t Mô t quan h gi a thành ph n c a c m s t ho c s lư ng ti n T thư ng đơn v ti n t (đ ng, USD ) • Nó nh n tri u đ ng → number(đ ng, tri u) punct root dobj psubj number num Nó nh n tri u đ ng parataxis: thành ph n đ ng l p Quan h đ ng l p quan h gi a v t c a m t m nh đ thành ph n khác c a câu, ví d ph n ngo c đơn, m nh đ sau d u ch m ph y (;), d u hai ch m (:), ho c hai câu song song • Gã đó, anh nói, r i → parataxis(đi, nói) 64 nsubj root parataxis punct pmod nsubj punct advmodt advmoda punct Gã , anh nói , ri 10 Các thành ph n đ ng l p thư ng n m câu ph c đ ng l p, lo i câu ph c, m nh đ đư c liên k t v i b ng quan h bình đ ng Lo i câu có th đư c nh n bi t nh hai d u hi u hình th c Liên t liên h p: như, và, nhưng, song, r i, còn, hay [là], ho c [là], mà, v [l i], [là] [là]; quãng ngh nói, ho c d u ng t m nh đ (d u ph y, d u hai ch m) vi t Đ thi t l p lo i câu này, ngư i ta thư ng d a vào m t s quan h Dư i nh ng quan h ph bi n: • Quan h li t kê/n i ti p Ví d : - M t nhìn xu ng mũi, mũi nhìn xu ng mi ng, mi ng b u - Nó kêu, la, rên, khóc, gi giãy ch t, n m lăn ăn v • Quan h gi i thích Ví d : - N t làm m i vi c: cô đưa hàng bu i s m, cô đ n quan, cô d y h c - Tôi đùa chơi đ y ch , anh tư ng mê Dung l m à? • Quan h b sung Ví d : - Dung ch khóc, không dám nói - Thôi, nh c đ u b búa b , chóng m t l m - Tôi không nói, mà anh y không nói 65 • Quan h tương ph n/như ng b Ví d : - Ngư i đàn bà run c m c p, th y đ th n nhiên không - Cà có nhi u lo i, v không khác • Quan h l a ch n/so sánh Ví d : - Tôi hay anh đi? - Nó nghi n mùi xăng ngư i ta nghi n ma túy pcomp: b tr gi i t Quan h đư c s d ng b ng c a gi i t m t đ ng t ho c m t m nh đ • Đi h c đ m mang ki n th c → pcomp(đ , m mang) punct root prep vv pcomp Đi hc đ dobj m _mang ki n_th c • nh m phát tri n đ i ngũ → pcomp(nh m, phát tri n) • B i anh chăm vi c canh nông Cho nên m i có b b ch → pcomp(b i, chăm) pobj: b ng c a gi i t B ng c a gi i t t c a c m danh t sau gi i t • Tôi ng i gh → pobj(trên, gh ) root punct prep psubj pobj Tôi ng i • B trói bu c b i t p quán cũ → gh pobj(b i, t p quán) 66 • H ng vi c h p t p → • Nói chuy n v i s p → pobj(do, h p t p) pobj(v i, s p) • Chuy n hàng xu ng thuy n → pobj(xu ng, thuy n) • Tôi s v i anh lên thành ph → pobj(v i, anh); pobj(lên, thành ph ) pmod: đ i t ch đ nh Quan h đ i t ch đ nh mô t ph thu c gi a danh t v i m t đ i t ch đ nh ti ng Vi t, ví d " y", "kia", "này", "đó", "bây gi " • Anh r t cao → pmod(anh, này) root nsubj pmod • Hai mèo đen y → Anh prep: b rt punct cao pmod(con, y) • Mùa thu qua → • Nơi đâu → advmodb pmod(mùa thu, đó) pmod(nơi,đâu) nghĩa gi i t Quan h b nghĩa gi i t mô t liên h gi a m t c m gi i t v i đ ng t , tính t , danh t ho c gi i t • Anh xúc cát b ng x ng → prep(xúc, b ng) punct root prep nsubj dobj pobj Anh xúc cát b ng x ng • Tôi nhìn th y chu t g m bàn → • Nam nh n trách nhi m v vi c → prep(chu t, trong) prep(trách nhi m, v ) 67 • Nó b ng tay → prep(đi, b ng) psubj: ch đ i t Quan h psubj mô t ph thu c gi a t ng ch ng đ i t Ví d : • Tôi h c → psubj(đi, tôi) root punct psubj • Đó chuy n l → vv Tôi hc psubj(là, đó) punct: d u câu Quan h mô t ph thu c gi a t d u câu • Vào chu ng! → punct(vào, !) root punct dobj • Đi ch ? → Vào chu ng ! punct(đi, ?) question: t đ h i Quan h mô t ph thu c gi a t t đ h i, thư ng "sao", "t i sao", "vì sao" • Sao ngư i dân ph i gánh ch u h u qu → question(ph i, sao) root question punct nsubj dobj nc vv Sao ngư i dân ph i gánh_ch u quantmod: b ng h u_qu ? s lư ng c lư ng B sung nghĩa cho s t không t đ i Ti ng Vi t thư ng s d ng "kho ng", "g n", "x p x ", "ch ng", "g n_đ n", "quãng", "hơn" 68 • G n 200 ngư i tham gia → quantmod(200, G n) root quantmod num nsubj punct Gn 200 ngư i tham_gia • Nhóm g m kho ng 10 ngư i → quantmod(10, kho ng) rcmod: b nghĩa m nh đ quan h B nghĩa m nh đ quan h c a c m danh t (NP) Quan h ch m i quan h gi a t trung tâm c a c m danh t v i t trung tâm c a m nh đ quan h (thư ng m t đ ng t ) • Tôi th y ngư i đàn ông b n yêu → rcmod(ngư i, yêu) punct ccomp rcmod root ref psubj nc nsubj Tôi th y ngư i đàn_ông mà bn yêu ref: tham chi u Tham chi u c a m t c m danh t t quan h liên k t m nh đ quan h b nghĩa cho c m danh t T quan h ti ng Vi t đ i t "mà" • Tôi nhìn th y cu n sách mà b n mua → ref(cu n, mà) punct ccomp rcmod root ref psubj nc nsubj Tôi th y cu n sách mà bn • Ngư i mà anh nói đ n b → ref(ngư i, mà) 69 mua Chú ý r ng t "mà" có th liên t ho c tr t Trong nh ng trư ng h p không ph i t tham chi u Khi s d ng liên t , t "mà" di n đ t lo i ý nghĩa sau: Liên t bi u th m t k t qu : Bi t tay ăn m n ch a, đ ng trêu m mư p mà xơ có ngày; Non đ p mà cao, sông kia, bi n n đào mà sâu Liên t bi u th m t m c đích: Trèo lên trái núi mà coi, có bà qu n tư ng cư i voi bành vàng Liên t bi u th m t gi thi t: Anh mà đ n s m g p ch y Còn s d ng làm tr t , t "mà" thư ng đư c đ t cu i câu đ nh n m nh: Đã b o!; Anh c tin làm đư c mà! root: g c Quan h ng pháp g c tr t i t c a câu Ta dùng m t nút gi có tên ROOT đ làm t T ROOT đư c đánh ch s 0, t câu đư c đánh ch s b t đ u t • Tôi yêu Mai → root(ROOT, yêu) root punct psubj dobj Tôi yêu Mai • Doanh thu c a công ty tăng m nh → root(ROOT, tăng) tmod: b ng th i gian B ng th i gian c a c câu thư ng c m danh t ch th i gian Trong ng pháp, c m thư ng đư c g i tr ng t th i gian • Đêm qua ng mu n → tmod(ng , đêm_qua) root tmod punct psubj Đêm_qua apredmod ng 70 mu n • Ngày mai h s → tmod(đi, ngày mai) • Chuy n 20 năm v trư c → tmod(năm, chuy n) vcomp: b ng đ ng t c a đ ng t Quan h b ng đ ng t c a đ ng t đư c s d ng đ ch đ nh quan h gi a đ ng t đ ng t ph • Tôi chuy n ti n n p h c phí → vcomp(chuy n, n p) punct root vcomp psubj dobj dobj Tôi chuy n ti n np h c_phí • có v n m s → • tăng v n làm ăn → vcomp(có, m ) vcomp(tăng, làm ăn) Quan h vcomp đư c s d ng nh ng ví d sau: • Anh cho bò ăn → vcomp(cho, ăn) punct root vcomp dobj nsubj • Tôi cho mư n ti n → Anh cho bò ăn vcomp(cho, mư n) • Anh cho h c h t l p 12 → vcomp(cho, h c) vmod: b ng đ ng t c a danh t Quan h b ng đ ng t c a m t c m danh t dùng đ mô t m i quan h gi a danh t đ ng t c m danh t • Th s a tivi đ n → vmod(th , s a) 71 nsubj vmod dobj advmodt vnom: danh t punct Th sa tivi đn • Cô giáo d y THCS chuy n → • Năm đ i m i → root vmod(cô giáo, d y) vmod(năm, đ i m i) hóa đ ng t Đ ng t đư c danh t hóa b ng m t t ch lo i đ ng trư c Ví d "cái", "s ", "vi c" • Cái ăn khan hi m quá! → vnom(cái, ăn) root nsubj punct vnom advmoda Cái ăn khan_hi m ! • S h c ngày phát tri n quê hương → vnom(s , h c) vsubj: ch ng đ ng t Quan h vsubj mô t hi n tư ng đ ng t làm ch ng Trong ti ng Vi t, ch ng thư ng danh t , nhiên có m t s trư ng h p tính t , đ ng t , c m ch -v có th làm ch ng • H c t p nhi m v → vsubj(là, h c t p) root punct dobj vsubj H c_t p • Nói chuy n v i h chán → amod nhi m_v vsubj(chán phè, Nói chuy n) 72 • Vi t ti u thuy t tr thành h n m t ngh riêng → vv: b ng đ ng t vsubj(tr thành, vi t) c a v t Quan h vv mô t quan h b nghĩa gi a đ ng t m t v t Các đ ng t ch ý chí, quy t đ nh, yêu thích • Tôi thích ăn th t → vv(thích, ăn) punct root dobj psubj Tôi thích ăn th t • Tôi ph i → nsubjpass: ch vv ng vv(ph i, đi) danh t b đ ng Ch ng danh t b đ ng c m danh t ho c đ i t làm ch ng b đ ng c a m nh đ T di n đ t ý nghĩa b đ ng ti ng Vi t thư ng "b " ho c "đư c" T c a quan h thư ng đ ng t , tính t ho c danh t N u t tính t có th b t di n đ t ý nghĩa b đ ng đi; trư ng h p ta có th s d ng ph thu c nsubj thay cho ph thu c nsubjpass, nhiên đ nh t quán, ta s d ng nsubjpass • Nó b đánh → nsubjpass(đánh, nó) • Y b tr c xu t → nsubjpass(tr c xu t, y) • Lan đư c khen → nsubjpass(khen, Lan) • Trang [b ] m → • Tèo b m → nsubjpass(m , trang) nsubjpass(đi m, Tèo) xsubj: ch ng ki m soát Quan h xsubj mô t quan h gi a ch ng c a câu m t v t (là t c a vv) • Tôi thích ăn th t → xsubj(ăn, tôi) • Tôi ph i → xsubj(đi, tôi) 73 Hư ng d n s d ng MaltParser Thông tin chi ti t c a MaltParser đư c vi t trang http://www.maltparser.org [27] • Công c MaltParser đư c vi t b ng ngôn ng Java, yêu c u cài đ t JDK 1.6 tr lên cho máy tính • T i v b n MaltParser 1.7.1 gi i nén Ch đ hu n luy n: Đ hu n luy n mô hình, ta s d ng câu l nh: java -jar malt.jar -c vi.mco -i examples/data/training_data.conll -m learn Ch đ phân tích: Đ phân tích m t câu hoàn toàn m i, s d ng c u hình vi.mco v a t o ra, ta s d ng câu l nh: java -jar malt.jar -c vi.mco -i examples/data/test_data.conll -o output.conll -m parse K t qu c a trình phân tích cú pháp ph thu c file output.conll Hư ng d n s d ng MSTParser MSTParser chương trình vi t b ng Java Yêu c u cài đ t JDK 1.4 tr lên ch y v i JDK 1.4 ho c 1.5 t t nh t Yêu c u t i v thư vi n: trove.jar đ h tr cho chương trình Có th t i phiên b n m i nh t c a MSTParser v máy, tích h p vào Eclipse ch y ki u Run configuration v i câu l nh sau: Ch đ hu n luy n train train-file:data∴dulieuMSTParser.txt Ch đ phân tích train train-file:data∴dulieuMSTParser.txt test model-name:dep.model testfile:data∴testTV.txt output-file:out.txt 74 ... a chúng V i m t câu có th có hai cách phân tích cú pháp: phân tích cú pháp thành ph n phân tích cú pháp ph thu c Đ nh nghĩa 1.1.1 (Cú pháp thành ph n) Cú pháp thành ph n c u trúc câu theo th b... dùng cú pháp ph thu c ngư c l i Bài toán phân tích cú pháp ph thu c Phân tích cú pháp ph thu c đưa mô t v quan h vai trò ng pháp c a t câu, đ ng th i đưa hình thái c a câu Bài toán phân tích cú pháp. .. phân tích cú pháp ph thu c thu t toán phân tích cú pháp ph thu c n hình 1.1 Cú pháp ph thu c Cú pháp ch đ nghiên c u c a hai c ng đ ng g m nh ng ngư i làm ngôn ng nh ng ngư i làm tin h c Cú pháp
Ngày đăng: 02/05/2017, 09:57
Xem thêm: Phân tích cú pháp phụ thuộc tiếng việt