1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ phân tích cú pháp phụ thuộc tiếng việt

100 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Cấu trúc

  • ĐAI HOC QUOC GIA HÀ N®I TRƯèNG ĐAI HOC KHOA HOC TU NHIÊN

  • ĐAI HOC QUOC GIA HÀ N®I TRƯèNG ĐAI HOC KHOA HOC TU NHIÊN

  • Lài cam ơn

  • Mnc lnc

  • Danh sách hình ve

    • 1.1 Cú pháp phn thu®c

      • Bài toán phân tích cú pháp phn thu®c

    • 1.2 Các thu¾t toán phân tích cú pháp phn thu®c

    • 2.1 Kho ngE li¾u tieng Vi¾t - Viettreebank

    • 2.2 T¾p nhãn quan h¾ phn thu®c đa ngôn ngE

    • 2.3 T¾p nhãn quan h¾ phn thu®c cho tieng Vi¾t

    • 3.1 Các công cn phân tích cú pháp phn thu®c

      • Đ%nh dang đau ra và đau vào

      • Thu¾t toán phân tích và huan luy¾n

      • Đ%nh dang đau ra và đau vào

      • Thu¾t toán phân tích cú pháp

      • Thu¾t toán huan luy¾n

    • 3.2 Thu¾t toán xây dEng tài nguyên tieng Vi¾t tE đ®ng

      • 1. Đqc dE li¾u tÈ Viettreebank tai vào cây cú pháp thành phan

      • 2. Chuyen cây cú pháp thành phan sang cú pháp phn thu®c

      • end if end for

      • end if end for

      • end if end for return l

      • end if

      • end if

      • end for

      • end for

      • end if

      • end for

      • end for

    • 3.3 Ket qua thEc nghi¾m

  • Ket lu¾n

    • NhEng van đe đã đat đưac trong lu¾n văn

    • NhEng van đe can phát trien

  • Các công trình công bo liên quan đen lu¾n văn

  • Tài li¾u tham khao

    • Tài li¾u tieng Vi¾t

    • Tài li¾u tieng Anh

    • Website

  • Phn lnc

    • Các quan h¾ phn thu®c cho tieng Vi¾t asubj: chu ngE tính tÈ

    • vmod: bo ngE đ®ng tÈ cua danh tÈ

    • vsubj: chu ngE đ®ng tÈ

    • Hưáng dan sE dnng MaltParser

    • Hưáng dan sE dnng MSTParser

    • Che đ® huan luy¾n

    • Che đ® phân tích

Nội dung

ĐAI HOC QUOC GIA HÀ N®I TRƯèNG ĐAI HOC KHOA HOC TU NHIÊN —————————— Hà My Linh PHÂN TÍCH CÚ PHP PHU THUđC TIENG VIfiT LUắN VN THAC S KHOA HOC Hà N®i - 2015 ĐAI HOC QUOC GIA HÀ N®I TRƯèNG ĐAI HOC KHOA HOC TU NHIÊN —————————— Hà My Linh PHÂN TÍCH CÚ PHÁP PHU THU®C TIENG VIfiT Chuyên ngành: Cơ so toán cho tin HQc Mã so: 60460110 LU¾N VĂN THAC SĨ KHOA HOC NGƯèI HƯéNG DAN KHOA HOC: TS Lê Hong Phương Lài cam ơn Em xin gui lịi cam ơn tói thay giáo, giáo, cán b® khoa Tốn - Cơ Tin HQc, trưịng Đai HQc Khoa HQc tn nhiên, Đai hQc Quoc gia H Nđi ó tắn tỡnh day v giỳp em suot thòi gian HQc cao HQc làm viắc tai Bđ mụn Tin HQc Trong quỏ trỡnh thnc hi¾n lu¾n văn suot nhung năm HQc vùa qua, em nh¾n đưoc sn chi bao hưóng dan nhi¾t tình cna TS Lê Hong Phương TS Nguyen Th% Minh Huyen Em xin gui tói Thay Cơ lịi cam ơn chân thành nhat Em xin gui lịi cam ơn tói gia đình, ban bè ó đng viờn, khuyen khớch v tao ieu kiắn cho em q trình HQc t¾p thnc hi¾n lu¾n văn M¾c dù co gang đe hồn thành lu¾n văn, han che ve kinh nghi¾m thịi gian, nên lu¾n văn khơng the tránh khoi nhung thieu sót Em mong nh¾n đưoc sn cam thơng nhung ý kien đóng góp cna thay ban Hà N®i, tháng năm 2015 HQc viên Hà My Linh iii Mnc lnc Danh sách bang iv Danh sách hình ve v Lài ma đau 1 Tong quan ve cú pháp phn thu®c 1.1 Cú pháp phu thu®c 1.1.1 Đ%nh nghĩa cú pháp phu thu®c 1.1.2 Bieu dien cú pháp phu thu®c 1.2 Các thu¾t tốn phân tích cú pháp phu thu®c 1.2.1 Phân tích cú pháp phu thu®c dna đo th% 1.2.2 Phân tích cú pháp phu thu®c dna búc chuyen 11 Xõy dEng nhón phn thuđc cho tieng Vi¾t 2.1 16 Kho ngu li¾u tieng Vi¾t - Viettreebank 16 2.2 T¾p nhãn quan hắ phu thuđc a ngụn ngu 19 2.3 T¾p nhón quan hắ phu thuđc cho tieng Viắt 23 ThEc nghi¾m 3.1 Các cơng cu phân tích cú pháp phu thu®c 33 3.1.1 MSTParser 33 3.1.2 MaltParser 35 3.2 Thu¾t toỏn xõy dnng ti nguyờn tieng Viắt tn đng 39 3.2.1 T¾p lu¾t tìm phan tu trung tâm 40 33 3.2.2 Thuắt toỏn chuyen tn đng tự Viettreebank sang cỳ phỏp phu thu®c 41 3.3 Ket qua thnc nghi¾m .45 Ket lu¾n 48 Các cơng trình cơng bo liên quan đen lu¾n văn 49 Tài li¾u tham khao 50 Phn lnc 54 Danh sách bang 1.1 Ket qua phân tích cú pháp phu thu®c cna hai mơ hình cho h¾ thong CoNLL-X (Buchholz Marsi 2006) 1.2 Các đ¾c trưng dùng MSTParser 10 1.3 Các đ¾c trưng dùng MaltParser 14 1.4 Ví du ve phân tích cú pháp dna vào bưóc chuyen 15 2.1 T¾p nhãn tù loai tieng Vi¾t 18 2.2 T¾p nhãn cum tù tieng Vi¾t 19 2.3 T¾p nhãn m¾nh đe tieng Vi¾t 19 2.4 T¾p nhãn chúc cú pháp tieng Vi¾t 20 2.5 So sánh t¾p nhón phu thuđc tieng Viắt vúi nhón phu thuđc a ngụn ngu (UD) v nhón phu thuđc tieng Anh (SD) 32 3.1 Ket qua cna MSTParser 35 3.2 Ket qua cna MaltParser 39 3.3 T¾p quy tac xác đ%nh phan tu trung tâm .40 3.4 Câu tieng Vi¾t theo đ%nh dang CoNLL-X chưa đưoc phân tích 45 3.5 Câu tieng Vi¾t theo đ%nh dang CoNLL-X đưoc phân tích phu thu®c 46 3.6 Ket qua phân tích cú pháp phu thu®c vói t¾p du li¾u 2700 46 3.7 Ket qua phân tớch cỳ phỏp phu thuđc vúi du liắu 6546 câu 47 Danh sách hình ve 1.1 Cau trúc cum tù .4 1.2 Đo th% phu thu®c cna m®t câu tieng Anh 1.3 Ví du ve phân tích cú pháp dna đo th% 11 3.1 Cỳ phỏp thnh phan cna mđt cõu tieng Viắt 41 Lài ma đau Xu lí ngơn ngu tn nhiên (Natural Language Processing - NLP) m®t nhánh trí tu¾ nhân tao, t¾p trung úng dung nham giúp h¾ thong máy tính hieu xu lí đưoc ngơn ngu cna ngưịi Xu lí ngơn ngu tn nhiên m®t nhung van đe khó thu hút rat nhieu nhóm nghiên cúu liên quan đen vi¾c phai hieu ý nghĩa ngơn ngu - cơng cu hồn hao nhat cna tư giao tiep Phân tích cú pháp m®t nhung van đe quan TRQNG lĩnh vnc xu lí ngơn ngu tn nhiên Vói m®t b® phân tích cú pháp tot, có the tích hop vào nhieu úng dung xu lí ngơn ngu tn nhiên d%ch máy, tóm tat văn ban, h¾ thong hoi đáp, trích cHQN thơng tin, đe tăng tính xác cna úng dung Trong phân tích cú pháp, phân tích cú pháp phu thu®c nghiên cúu ve sn phu thu®c giua tù câu dna ngu nghĩa Gan đây, phân tích cú pháp phu thu®c thu hút đưoc sn quan tâm cna nhieu nhóm nghiên cúu ngơn ngu tn nhiên the giói boi quan hắ phu thuđc giua hai tự cõu nghiờn cúu khu nh¾p nhang ngu nghĩa cna câu cú pháp có kha mơ hình hóa ngơn ngu có tr¾t tn tù tn Đoi vói nhieu ngôn ngu tieng Anh, tieng Pháp, tieng Trung, có rat nhieu nghiên cúu cơng cu phõn tớch cỳ phỏp phu thuđc vúi hiắu qua cao Tuy nhiên, tiep c¾n cho tốn hau het dna HQc máy đòi hoi kho ngu li¾u vói nhieu thơng tin ve tù loai quan hắ phu thuđc nờn cú rat ớt cụng bo nghiờn cỳu ve phõn tớch cỳ phỏp phu thuđc tieng Viắt Hi¾n nay, cơng cu phân tích cú pháp phu thuđc cho tieng Viắt ó at oc mđt so ket qua nhat đ%nh Nhóm tác gia Nguyen Lê Minh cđng sn [1] su dung thuắt toỏn phõn tớch cỳ pháp dna vào đo th%, thnc nghi¾m vói cơng cu MSTParser v bđ du liắu khỏ han che gom 450 câu làm bang tay vói đ® xác 63.11% Nhóm tác gia Lê Hong Phương c®ng sn [20] nghiên cúu phân tích cú pháp phu thu®c dna vào văn pham ket noi tù vnng hóa, thnc nghi¾m huan luy¾n vói 8637 câu kho ngu li¾u cú pháp thành phan tieng Vi¾t, phân tích 441 câu có đ® dài nho 30 tù đat đ® xác 73.21% Gan nhat cơng bo cna nhóm nghiên cúu cna tác gia Nguyen Quoc Đat c®ng sn [7], tác gia chuyen tn đ®ng kho ngu li¾u cú pháp thành phan sang kho ngu liắu cỳ phỏp phu thuđc, cựng vúi 33 nhón quan hắ phu thuđc vúi đ chớnh xỏc l 71.66% Tuy nhiên, hau het nghiên cúu đoi vói tieng Viắt eu cha thong nhat oc nhón phu thuđc, nhãn phu thu®c chưa đưoc mơ ta m®t cách rõ ràng hi¾u qua phân tích cịn han che Lu¾n văn se trình bày ve van đe phân tớch cỳ phỏp phu thuđc, trung vo viắc xõy dnng nhón phu thuđc cho tieng Viắt v thu nghi¾m hai cơng cu phân tích cú pháp MaltParser v MSTParser Nđi dung chớnh cna luắn gom có chương: • Chương Tong quan: Chương trình bày nhung van đe liên quan tói cú pháp phu thuđc, cỏc khỏi niắm c ban ve phõn tớch cỳ phỏp phu thuđc V mđt so nhung thuắt toỏn phõn tớch cỳ phỏp phu thuđc tot nhat hiắn ã Chng Xõy dEng nhón phn thuđc cho tieng Vi¾t: Chương trình bày ve vi¾c nghiên cúu v xõy dnng nhón phu thuđc cho tieng Viắt cú oi sỏnh vúi nhón phu thuđc a ngụn ngu cna nhóm nghiên cúu trưịng Đai HQc Stanford Ngồi ra, Chương so sánh sn khác giua hai bđ nhón e thay oc nhung ắc trng tieng Viắt ã Chng 3: ThEc nghiắm: Chng ny trỡnh bày ve m®t so cơng cu phân tích cú pháp phu thuđc hiắu qua nhat hiắn nay: MSTParser v MaltParser Tiep theo l thuắt toỏn chuyen tn đng tự kho ngu li¾u cú pháp thành phan Viettreebank sang kho ngu liắu cỳ phỏp phu thuđc Tien hnh thnc nghiắm phõn tớch cỳ phỏp phu thuđc cho tieng Viắt vúi hai cơng cu trên, sau so sánh ket qua đat đưoc giua nhung t¾p du li¾u khác đưa ket lu¾n dobj: bo ngE trEc tiep Bő ngu trnc tiep cna m®t cum đ®ng tù thưịng cum danh tù • Nó đat giai nhì → dobj(đat, giai) N đot root ó psubj gióipunct nhì dobj num • Nam ăn cháo → dobj(ăn, cháo) Na m đan g nsubj advmodt ă root chá n punct o dobj • Hoa sinh viên → dobj(là, sinh viờn) ã Nam tắng cụ ay hoa dobj(tắng, hoa) iobj: bo ngE gián tiep Bő ngu gián tiep cna mđt cum đng tự thũng l tự hoắc danh tù làm bő ngu t¾ng cách Bő ngu gián tiep thưòng tra lòi cho câu hoi ve đai tù: Ai? Ngưịi nào? (whom) Chú ý rang quan h¾ đưoc su dung khơng có giói tù • Nam t¾ng ay hoa punct dobj root nsubj iobjpmod Nam t¾ng oy hoa Trong trưịng hop có giói tù ta su dung cỏc quan hắ dobj, prep v pobj ã Hien đat cho làng → dobj(hien, đat); prep(hien, cho); pobj(cho, làng) mark: đánh dau Tù đánh dau tù giói thi¾u mđt mắnh e phu cna mđt mắnh e chớnh, tieng Vi¾t thưịng tù "rang", "là", "mà", "nơi" Quan h¾ đánh dau liên ket tù cna m¾nh đe phu vói tù đánh dau • Cơ ay nói rang anh thích chơi → mark(thích, rang) Cơ oy nói root ron g nsubj pmod an h thích punct chơi ccomp mark nsubj vv dobj • Anh nói rang em thích kem → mark(thích, rang) • Cơ nói ngày mai se đen → mark(đen, là) neg: phu đ%nh Mơ ta moi quan h¾ phn đ%nh giua tù chớnh (đng tự hoắc tớnh tự) v mđt tự dien đat ý nghĩa phn đ%nh Trong tieng Vi¾t, hai tù hay dùng đe dien đat ý phn đ%nh “không” “chang” • Anh khơng tái → neg(tái, khơng) An h khôn tái root g nsubj neg punct4 • Hoa khơng chăm chs → neg(chăm chs, khơng) • Nó chang thiet nua → neg(thiet, chang) nc: bo nghĩa danh tÈ cho danh tÈ chi loai Quan h¾ nc bieu dien moi liên h¾ giua danh tù chi loai vói danh tù chung, danh tù chung bő nghĩa cho danh tù chi loai Các danh tù chi loai ln trưóc danh tù chung, ví du “cái”, “con” Chú ý rang tù cna m®t cum danh tù danh tù chi loai • Hai mèo đen ăn cá → nc(con, mèo) nsubj root amod num Ha i punct advmodtdobj nc co n mè o đe n đan g ă n c • Nhung qua cam vàng → nc(qua, cam) nn: bo nghĩa danh tÈ Mơ ta quan h¾ bő nghĩa giua m®t danh tù vói m®t danh tù phu Trong tieng Vi¾t, neu cum có hai danh tù danh tù thưịng trưóc danh tù phu (ngưoc vói tieng Anh, danh tù ln nam o bên phai cùng, ví du the phone book, oil prices) • Ső đi¾n thoai bàn → nn(ső, iắn thoai) S iẳn_thoo nsubj i nn đan root ã trênpunct bà g n 3advmodtprep pobj • bàn máy tính → nn(bàn, mỏy tớnh) ã ngi nhắn nn(ngi, nhắn) nsubj: chu ngE danh tÈ Chn ngu danh tù cum danh tự hoắc tự lm chn ngu cna mđt mắnh e Tự chớnh cna quan hắ thũng l đng tự hoắc tớnh tự ã Bụng hoa rat ti nsubj(ti, bông) Bôn g hoa rot nsubj nc tươi root 3advmodbpunct • Liêm đánh bai Sơn nsubj(ỏnh bai, Liờm) ã Bien lắng nsubj(lắng, bien) • Trang mà → nsubj(mà, trang) num: bo tÈ so lưang Bő tù so lưong cna m®t danh tù m®t cum so bő nghĩa cho danh tù Danh tù thưịng có kieu Nc ho¾c Nu • Hoa ăn que kem → num(que, 3) Ho a ăn root nsubj qu punct e dobj num nc ke m • Có mèo → num(con, 2) • Nó nh¾n tri¾u đong → num(tri¾u, 5) number: thành phan cua so tÈ Mơ ta quan h¾ giua thành phan cna cum so tù ho¾c so lưong tien Tù thưịng đơn v% tien t¾ (đong, USD ) ã Nú nhắn triắu ong number(ong, tri¾u) Nó psubj nh root ¾n tri¼u punct dobj num number đon g parataxis: thành phan l¾p Quan h¾ l¾p l quan hắ giua v% tự chớnh cna mđt mắnh đe thành phan khác cna câu, ví du phan ngo¾c đơn, m¾nh đe sau dau cham phay (;), dau hai cham (:), ho¾c hai câu song song • Gã đó, anh nói, roi → parataxis(đi, nói) nsubj root parataxis punct pmod G ã đ ó punct advmodt advmoda nsubjpunct , anh nói , đ ã roi Các thành phan l¾p thưịng nam câu phúc l¾p, loai câu phúc, m¾nh đe đưoc liên ket vói bang quan h¾ bình Loai câu có the đưoc nh¾n biet nhị hai dau hi¾u hình thúc Liên tù liên hop: như, và, nhưng, song, roi, cịn, hay [là], ho¾c [là], mà, va [lai], [là] [là]; qng nghi nói, ho¾c dau ngat m¾nh đe (dau phay, dau hai cham) viet Đe thiet l¾p loai câu này, ngưịi ta thũng dna vo mđt so quan hắ Dúi õy l nhung quan hắ ph bien: ã Quan hắ liắt kờ/noi tiep Ví du: – Mat tơi nhìn xuong mũi, mũi tơi nhìn xuong mi¾ng, mi¾ng tơi b%u – Nó kêu, la, rên, khóc, gia giãy chet, nam lăn ăn va • Quan h¾ giai thích Ví du: – Net làm MQI vi¾c: đưa hàng buői sóm, đen quan, day HQc – Tôi đùa chơi đay chú, anh tưong tụi mờ Dung lam ? ã Quan hắ b sung Ví du: – Dung chi khóc, khơng dám nói – Thơi, tơi nhúc đau b% búa bő, chóng m¾t lam – Tơi khơng nói, mà anh ay cng khụng núi ã Quan hắ tng phan/nhưong b® Ví du: – Ngưịi đàn bà run cam c¾p, cịn thay đo than nhiên khơng – Cà có nhieu loai, v% khơng khác ã Quan hắ lna cHQN/SO sỏnh Vớ du: Tơi hay anh đi? – Nó nghi¾n mùi xăng ngưịi ta nghi¾n ma túy pcomp: bo tra giái tÈ Quan h¾ đưoc su dung bő ngu cna giúi tự l mđt đng tự hoắc mđt mắnh đe • Đi HQc đe má mang kien thúc → pcomp(đe, má mang) punct root prep vv Đi pcomp HQC đe dobj mã_mang kien_thúc ã nham phỏt trien ng pcomp(nham, phỏt trien) ã Bỏi anh chm viắc canh nụng Cho nờn mái có bo b%ch ngồi → pcomp(bái, chăm) pobj: bo ngE cua giái tÈ Bő ngu cna giói tù tù cna cum danh tù sau giói tù • Tơi ngoi ghe → pobj(trên, ghe) Tơi ngoi root psubj gh punct e prep pobj ã B% trúi buđc bỏi quỏn c pobj(bỏi, quỏn) ã Húng viắc hap tap pobj(do, hap tap) ã Núi chuyắn vái sep → pobj(vái, sep) • Chuyen hàng xuong thuyen → pobj(xuong, thuyen) • Tơi se vái anh lên thành → pobj(vái, anh); pobj(lên, thành pho) pmod: đai tÈ chi đ%nh Quan h¾ đai tù chi đ%nh mơ ta phu thu®c giua danh tù vói m®t đai tù chi đ%nh tieng Vi¾t, ví du “ay”, “kia”, “này”, “đó”, “bây giị” • Anh rat cao → pmod(anh, này) An nànsubj rot ca root h y o pmod 3advmodbpunct • Hai mèo đen ay → pmod(con, ay) • Mùa thu qua → pmod(mùa thu, đó) • Nơi đâu → pmod(nơi,đâu) prep: bo nghĩa giái tÈ Quan h¾ b ngha giúi tự mụ ta liờn hắ giua mđt cum giói tù vói đ®ng tù, tính tù, danh tù hoắc giúi tự chớnh ã Anh xỳc cỏt bang xộng → prep(xúc, bang) An h nsubj xúc root cát dobj prep bon punct g pobj xen g ã Tụi nhỡn thay chuđt gam bn prep(chuđt, trong) ã Nam nhắn trỏch nhiắm ve viắc ú prep(trỏch nhiắm, ve) ã Nú bang tay → prep(đi, bang) psubj: chu ngE đai tẩ Quan hắ psubj mụ ta phu thuđc giua tự chn ngu đai tù Ví du: • Tơi HQc → psubj(đi, tôi) Tôi root psubj HQ C punct vv • Đó chuy¾n la → psubj(là, đó) punct: dau câu Quan hắ ny mụ ta phu thuđc giua tự chớnh v dau câu • Vào chuong! → punct(vào, !) root punct dobj Vào chuong ! • Đi chú? → punct(đi, ?) question: tÈ đe hoi Quan h¾ mơ ta phu thu®c giua tù tù đe hoi, thưịng “sao”, “tai sao”, “vì sao” • Sao ngưài dân phai gánh ch%u h¾u qua → question(phai, sao) Sa o ngưàquestiondâ i nsubj n nc phói root gánh_ch h¾u_q ? punct %u dobj vv quantmod: bo ngE so lưang ưác lưang Bő sung nghĩa cho so tù khơng tuy¾t đoi Tieng Vi¾t thưịng su dung “khoang”, “gan”, “xap xi”, “chùng”, “gan_đen”, “quãng”, “hơn” • Gan 200 ngưài tham gia → quantmod(200, Gan) Go n 20 ngưà tham_gi root i a quantmod num nsubj punct • Nhóm gom khoang 10 ngưài → quantmod(10, khoang) rcmod: bo nghĩa m¾nh đe quan h¾ Bő nghĩa m¾nh đe quan h¾ cna cum danh tù (NP) Quan h¾ chi moi quan h¾ giua tù trung tâm cna cum danh tù vói tù trung tâm cna mắnh e quan hắ (thũng l mđt đng tự) • Tôi thay ngưài đàn ông ban yêu → rcmod(ngưài, yêu) Tôi tho y root ngưà i đàn_ôn punct gccomp 4rcmod m bo n yê u ref psubj nc nsubj ref: tham chieu Tham chieu cna m®t cum danh tù tù quan h¾ liên ket m¾nh đe quan h¾ bő nghĩa cho cum danh tù Tù quan h¾ tieng Viắt l tự m ã Tụi nhỡn thay cuon sách mà ban mua → ref(cuon, mà) Tôi tho y root cuo n sác punct m hccomp 4rcmod bo n mu a ref psubj nc • Ngưài mà anh nói đen bo → ref(ngưài, mà) nsubj Chú ý rang tù “mà” cịn có the liên tù ho¾c tro tù Trong nhung trưịng hop khơng phai tù tham chieu Khi su dung liên tù, tù “mà” dien đat loai ý nghĩa sau: Liên tù bieu th% m®t ket qua: Biet tay ăn m¾n chùa, đùng trêu me mưáp mà xơ có ngày; Non đap mà cao, sơng kia, bien NQ đào mà sâu Liên tù bieu th% m®t muc đích: Trèo lên trái núi mà coi, có bà quan tưang cưãi voi bành vàng Liên tù bieu th% m®t gia thiet: Anh mà đen sám g¾p ch% ay Cịn su dung làm tro tù, tù “mà” thưịng đưoc đ¾t o cuoi câu đe nhan manh: Đã bao!; Anh cú tin làm đưac mà! root: goc Quan h¾ ngu pháp goc tro tói tù cna câu Ta dùng m®t nút gia có tên ROOT đe làm tù Tù ROOT đưoc đánh chi so 0, tù câu đưoc đánh chi so bat đau tù • Tơi yêu Mai → root(ROOT, yêu) root punct dobj psubj Tôi yêu Mai • Doanh thu cua công ty tăng manh → root(ROOT, tăng) tmod: bo ngE thài gian Bő ngu thòi gian cna ca câu thưòng cum danh tù chi thòi gian Trong ngu pháp, cum thưòng đưoc GQI trang tù thòi gian • Đêm qua tơi ngu mu®n → tmod(ngu, đêm_qua) Đêm_q ua root ng tmodpunct ú psubjapredmod mu đn ã Ngy mai HQ se i tmod(i, ngy mai) ã Chuyắn 20 nm ve trỏc tmod(nm, chuyắn) vcomp: bo ngE đng tẩ cua đng tẩ Quan hắ b ngu đng tự cna đng tù đưoc su dung đe chi đ%nh quan h¾ giua đng tự chớnh v đng tự phu ã Tụi chuyen tien n®p HQc phí → vcomp(chuyen, n®p) Tơi chuyen root psubj dobj tien vcomp n® punct p HQC_P HÍ dobj • có von má sá → vcomp(có, má) • tăng von làm ăn → vcomp(tăng, làm ăn) Quan h¾ vcomp đưoc su dung nhung ví du sau: • Anh cho bị ăn → vcomp(cho, ăn) An cho bò ăn root punct h vcomp dobj nsubj • Tơi cho mưan tien → vcomp(cho, mưan) • Anh cho HQc het láp 12 → vcomp(cho, HQc) vmod: bo ngE đ®ng tÈ cua danh tÈ Quan hắ b ngu đng tự cna mđt cum danh tự dùng đe mơ ta moi quan h¾ giua danh tù v đng tự cum danh tự ã Tha sua tivi đen → vmod(tha, sua) nsubj vmod Tha root dobj súa advmodtpunct tivi đen • Cơ giáo day THCS chuyen → vmod(cơ giáo, day) • Năm đői mái → vmod(năm, đői mái) vnom: danh tÈ hóa đ®ng tÈ Đ®ng tù đưoc danh tù hóa bang m®t tù chi loai trưóc Ví du “cái”, “sn”, “vi¾c” • Cái ăn khan hiem quá! → vnom(cái, ăn) Cái ă khan_hie qu root nnsubj m punct vnom advmoda ! • Sn HQc ngày phát trien quê hương → vnom(sn, HQc) vsubj: chu ngE đng tẩ Quan hắ vsubj mụ ta hiắn tong đng tự lm chn ngu Trong tieng Viắt, chn ngu thưịng danh tù, nhiên có m®t so trưịng hop tính tù, đ®ng tù, cum chn-v% có the lm chn ngu ã HQc l nhiắm → vsubj(là, HQc t¾p) HQC_T root ¾P vsubj nhi¼m_ chín punct h dobj amod ã Núi chuyắn vỏi HQ chỏn phố vsubj(chỏn phố, Núi chuyắn) ã Viet tieu thuyet ó trá thành han m®t nghe riêng → vsubj(trá thành, viet) vv: bo ngE đng tẩ cua v% tẩ Quan hắ vv mụ ta quan hắ b ngha giua đng tự m®t v% tù Các đ®ng tù chi ý chí, quyet đ%nh, u thích • Tơi thích ăn th%t → vv(thích, ăn) Tơi thích root psubj ăn punct dobj vv th %t • Tôi phai → vv(phai, đi) nsubjpass: chu ngE danh tÈ b% đ®ng Chn ngu danh tù b% đng l cum danh tự hoắc tự lm chn ngu b% đng cna mắnh e Tự dien at ý ngha b% đng tieng Viắt thũng l b% hoắc oc Tự chớnh cna quan hắ thũng l đng tự, tính tù ho¾c danh tù Neu tù tính tù đơi có the bo tù dien đat ý nghĩa b% đ®ng đi; trưịng hop ta có the su dung phu thu®c nsubj thay cho phu thu®c nsubjpass, nhiên đe nhat quán, ta su dung nsubjpass • Nó b% đánh → nsubjpass(đánh, nó) • Y b% trnc xuat → nsubjpass(trnc xuat, y) • Lan đưac khen → nsubjpass(khen, Lan) • Trang [b%] mà → nsubjpass(mà, trang) • Tèo b% điem → nsubjpass(điem, Tèo) xsubj: chu ngE kiem sốt Quan h¾ xsubj mơ ta quan hắ giua chn ngu cna cõu v mđt v% tù (là tù cna vv) • Tơi thích ăn th%t → xsubj(ăn, tơi) • Tơi phai → xsubj(đi, tôi) Hưáng dan sE dnng MaltParser Thông tin chi tiet cna MaltParser đưoc viet trang http://www.maltparser.org [27] • Cơng cu MaltParser đưoc viet bang ngơn ngu Java, yêu cau cài đ¾t JDK 1.6 tro lên cho máy tính • Tai ve ban MaltParser 1.7.1 giai nộn Che đ huan luyắn: e huan luyắn mụ hỡnh, ta su dung câu l¾nh: java -jar malt.jar -c vi.mco -i examples/data/training_data.conll -m learn Che đ® phân tích: Đe phân tích m®t câu hồn tồn mói, su dung cau hình vi.mco vùa tao ra, ta su dung câu l¾nh: java -jar malt.jar -c vi.mco -i examples/data/test_data.conll -o output.conll -m parse Ket qua cna q trình phân tích cú pháp phu thu®c file output.conll Hưáng dan sE dnng MSTParser MSTParser chương trình viet bang Java u cau cài đ¾t JDK 1.4 tro lên chay vói JDK 1.4 ho¾c 1.5 tot nhat Yêu cau tai ve thư vi¾n: trove.jar đe ho tro cho chương trình Có the tai phiên ban mói nhat cna MSTParser ve máy, tích hop vào Eclipse chay kieu Run configuration vói cõu lắnh sau: Che đ huan luyắn train train-file:data\dulieuMSTParser.txt Che đ® phân tích train train-file:data\dulieuMSTParser.txt test model-name:dep.model testfile:data\testTV.txt output-file:out.txt ... chúng Vói m®t câu có the có hai cách phân tích cú pháp: phân tích cú pháp thành phan phân tích cú pháp phu thu®c Đ%nh nghĩa 1.1.1 (Cú pháp thành phan) Cú pháp thành phan cau trúc câu theo thú... ngưoc lai Bài tốn phân tích cú pháp phn thu®c Phân tích cú pháp phu thu®c đưa mơ ta ve quan h¾ vai trị ngu pháp cna tù câu, đong thịi đưa hình thái cna câu Bài tốn phân tích cú pháp phu thu®c tìm... sau dna vào thu¾t tốn phân tích cú pháp phu thu®c đo th% đe chuyen thành đo th% phu thu®c xác cna câu Hình 1.3: Ví du ve phân tích cú pháp dna đo th% 1.2.2 Phân tích cú pháp phn thuđc dEa trờn

Ngày đăng: 24/12/2021, 20:12

HÌNH ẢNH LIÊN QUAN

2 Xây dEng t¾p nhãn phn thu®c cho tieng Vi¾t - Luận văn thạc sĩ phân tích cú pháp phụ thuộc tiếng việt
2 Xây dEng t¾p nhãn phn thu®c cho tieng Vi¾t (Trang 4)
Danh sách hình ve - Luận văn thạc sĩ phân tích cú pháp phụ thuộc tiếng việt
anh sách hình ve (Trang 4)
Hình 1.1: Cau trúc cum tù. - Luận văn thạc sĩ phân tích cú pháp phụ thuộc tiếng việt
Hình 1.1 Cau trúc cum tù (Trang 12)
Hình 1.2: Đo th% phu thu®c cna m®t câu tieng Anh. - Luận văn thạc sĩ phân tích cú pháp phụ thuộc tiếng việt
Hình 1.2 Đo th% phu thu®c cna m®t câu tieng Anh (Trang 15)
Bang 1.1: Ket qua phân tích cú pháp phu thu®c cna hai mô hình cho h¾ thong CoNLL-X (Buchholz và Marsi 2006). - Luận văn thạc sĩ phân tích cú pháp phụ thuộc tiếng việt
ang 1.1: Ket qua phân tích cú pháp phu thu®c cna hai mô hình cho h¾ thong CoNLL-X (Buchholz và Marsi 2006) (Trang 18)
Hình 1.3: Ví du ve phân tích cú pháp dna trên đo th%. - Luận văn thạc sĩ phân tích cú pháp phụ thuộc tiếng việt
Hình 1.3 Ví du ve phân tích cú pháp dna trên đo th% (Trang 23)
Hình 3.1: Cú pháp thành phan cna m®t câu tieng Vi¾t - Luận văn thạc sĩ phân tích cú pháp phụ thuộc tiếng việt
Hình 3.1 Cú pháp thành phan cna m®t câu tieng Vi¾t (Trang 61)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w