Bài toán tách câu

Một phần của tài liệu Chiết lọc thông tin pháp luật trong dữ liệu văn bản (Trang 69)

M U

2. 3M ts ph ng pháp gi i quy t

4.3.1 Bài toán tách câu

tách .c các câu ti ng Vi t, chúng tôi s d)ng t p ví d) hu"n luy n

TachcauVN.txt v i c"u trúc .c xây d$ng nh mô t trong ph,n ch ng 3 c a lu n v n. S d)ng t p ví d) hu"n luy n này, chúng tôi ã hu"n luy n mô hình .c l u trong t p TachcauVN.nbin v i:

S l ng câu hu n luy n S l ng các feature sinh ra

t &ng ng

650 733

Nh ã phân tích 0 trên, ngôn ng ti ng Vi t th -ng .c k t thúc câu b0i các d"u ch"m ('.'), hai ch"m (':'), ch"m ph6y (';'), h3i ch"m ('?') và ch"m than ('!'). Chúng tôi xây d$ng l p

OpenNLP.Tools.SentenceDetect.DefaultEndOfSentenceScanner thi hành giao di n IEndOfSentenceScanner h8 tr. vi c tìm ki m các v% trí có các ký t$ trên xu"t hi n trong xâu.

L p VnMaximumEntropySentenceDetector .c xây d$ng k th2a l p OpenNLP.Tools.SentenceDetect.MaximumEntropySentenceDetector tách các câu trong v n b n ti ng Vi t s d)ng mô hình entropy c$c #i v i t p mô hình

TachcauVN.nbin.

4.3.2 Bài toán nh+n d,ng tên th c th và phân l p

V i bài toán nh n d#ng tên th$c th pháp lu t, chúng tôi s d)ng các t p ví d) hu"n luy n LuatDanSu.txt, Sovanban.txt, Tenluat.txt .c xây d$ng theo c"u

trúc mô t trong ph,n ch ng 3. Các t p mô hình hu"n luy n thu .c t ng ng là

LUATDANSU.nbin, SOVANBAN.nbin, TENLUAT.nbin .c (t trong th

m)c VNLawNameFind n>m trong th m)c Models trong ó:

T p hu n luuy n S l ng t hu n luy n S l ng các feature sinh

ra t &ng ng

Tenluat.txt 6025 14242

Sovanban.txt 1621 6945

Luatdansu.txt 7377 14720

Chúng tôi c9ng xây d$ng l p DefaultNameContextGeneratorVN trong gói OpenNLP.Tools.NameFind k th2a giao di n INameContextGenerator xác %nh các (c tr ng ng c nh cho b nh n d#ng tên th$c th . L p VietNamNameFinder

u.c xây d$ng trong gói OpenNLP.Tools.NameFind kh0i t#o m t b tìm ki m tên cho các th$c th pháp lu t trong v n b n ti ng Vi t.

4.4 Gi i thi u ch ng trình th nghi m

Trong th-i gian có h#n, chúng tôi t p trung xây d$ng t p d li u hu"n luy n t2 t p các v n b n pháp lu t thu th p t2 c s0 d li u pháp lu t Vi t Nam. Lu n v n xây d$ng b d li u hu"n luy n v i kích c< nh sau:

T p TachcauVN.bin thu .c t2 t p hu"n luy n v i t ng s 650 câu. K t qu test trên m t s v n b n

Tên v n b n P (Precision) R (Recall) F = 2PR/(P+R)

H ng d4n 01 1 1 1 H ng d4n 331-CS 0.96 0.96 0.96 Ch ng1-4 B lu t Hình s$ 0.97 1 0.98 Ngh% %nh 390-H BT 0.91 1 0.95 Ngh% %nh 61-CP 0.94 0.99 0.96 Ngh% %nh 63-CP 0.96 0.99 0.97 Trung bình 0.97 chính xác trung bình c a h th ng i v i vi c tách câu là 97%

T p TENLUAT.nbin thu .c trên t p hu"n luy n có t ng s t2 trong các v n b n hu"n luy n là 6025 t2.

T p LUATDANSU.nbin có t p hu"n luy n v i t ng s t2 trong các v n b n hu"n luy n là 7377 t2.

T p SOVANBAN.nbin, t ng s t2 trong các v n b n hu"n luy n là 1621 t2. Sau khi xây d$ng xong mô hình v i các t p hu"n luy n, chúng tôi ã th test v i m t s các v n b n pháp lu t khác, k t qu có nh b ng sau:

Tên v n b n P (Precision) R (Recall) F (β=1)

Ngh nh 17/CP 1 1 1 Ngh nh 18-CP 1 0.97 0.98 Ngh nh 24-CP 1 1 1 Ngh nh 38-CP 1 1 1 Ngh nh 45/CP 1 0.86 0.92 Ngh nh 49-H BT 0.94 0.79 0.86 Ngh nh 54-CP 0.96 0.85 0.90 Ngh nh 57-CP 0.91 1 0.95 Ngh nh 61-CP 1 1 1 Ngh nh 63/CP 0.99 0.93 0.96 Ngh quy t 0.95 0.77 0.85 Ngh quy t 42 0.81 0.96 0.88 Pháp l nh 23 1 1 1 Pháp l nh 28 0.59 0.91 0.72 Lu t 38L 1 0.75 0.86 Trung bình 0.92

chính xác trung bình mà h th ng #t .c trong vi c nh n d#ng tên th$c th là 92%.

D i ây là m t s giao di n c a ch ng trình th$c nghi m mà lu n v n ã hoàn thành s d)ng các module ã .c xây d$ng 0 trên.

Th$c hi n tách câu và nh n d#ng tên th$c th pháp lu t: h th ng s= a ra tên các th$c th liên quan n pháp lu t có m(t trong v n b n ,u vào, tên các th$c th này .c (t gi a thA b:t ,u và thA k t thúc (<>, </>). i v i th$c th là tên lu t thì thA b:t ,u và k t thúc t ng ng là o ( <TENLUAT>, </TENLUAT>) i v i th$c th là s v n b n thì thA b:t ,u và k t thúc là o (<SOVANBAN>, </SOVANBAN>) i v i th$c th n>m trong B lu t Dân s$ thì thA b:t ,u và k t thúc t ng ng là o (<LUATDANSU>, <\LUATDANSU>)

4.5 K t lu+n

Trong ch ng này, lu n v n gi i thi u khái quát v các th vi n mã ngu7n m0 Maxent, SharpEntropy và OpenNLP. Trình bày ph ng pháp xây d$ng và tích h.p các modun gi i quy t bài toán chi t l c tên th$c th pháp lu t trong d li u v n b n ti ng Vi t vào b công c) ã .c xây d$ng cho ti ng Anh.

Lu n v n c9ng th$c hi n m t s th nghi m trên t p các v n b n pháp lu t và a ra các tham s ánh giá chính xác c a h th ng ã .c xây d$ng.

K T LU1N

Sau m t th-i gian tìm hi u và nghiên c u v khai phá d li u v n b n, (c bi t là bài toán chi t l c thông tin và mô hình entropy c$c #i, lu n v n ã #t .c m t s k t qu sau:

- Gi i thi u chung v khai phá d li u v n b n, các b c trong quá trình khai phá d li u v n b n và m t s bài toán c b n nh phân l p v n b n, tìm ki m v n b n... Lu n v n trình bày nhi m v) và ki n trúc m t h th ng chi t l c thông tin, vai trò c a chi t l c thông tin trong x lý v n b n và gi i thi u ph ng pháp truy n th ng ánh giá m t h th ng chi t l c thông tin.

- Gi i thi u bài toán chi t l c thông tin v n b n và m t s ph ng pháp gi i quy t bài toán. Lu n v n ã t p h.p và trình bày m t s ph ong pháp ph bi n nh"t hi n nay nh mô hình cây quy t %nh, mô hình markov 6n, mô hình xác su"t Naive Bayes, mô hình entropy c$c #i. Sau ó, lu n v n trình bày v u nh .c i m c a t2ng ph ng pháp, t2 ó a ra quy t

%nh s d)ng mô hình entropy c$c #i.

- Trình bày m t v"n c) th là: chi t l c thông tin pháp lu t trong d li u v n b n. Có 2 bài toán c b n c,n gi i quy t là bài toán tách câu và bài toán nh n d#ng tên th$c th pháp lu t. Lu n v n mô t cách th c áp d)ng mô hình entropy c$c #i gi i quy t hai bài toán này. Lu n v n c9ng xây d$ng m t s lo#i tên th$c th pháp lu t th$c hi n chi t l c, nh ng (c i m c a t2ng lo#i và cách xây d$ng t p d li u hu"n luy n, xây d$ng t p các hàm (c tr ng cho m8i lo#i tên th$c th .

- Lu n v n gi i thi u hai th vi n maxent và sharpentropy, là các b công c) mã ngu7n m0 cho mô hình entropy c$c #i. Lu n v n ã xây d$ng .c các module tách câu cho ti ng Vi t và các module nh n d#ng m t s tên th$c th pháp lu t trong các v n b n ti ng Vi t. Các module này .c vi t b>ng ngôn ng C# và .c tích h.p vào th vi n mã ngu7n m0 OpenNLP. minh ho# cho vi c s d)ng các module ã .c xây d$ng 0 trên, chúng tôi c9ng ã xây d$ng m t ch ng trình th nghi m v i

các ch c n ng chính là tách câu, chi t l c và a ra tên c a 3 lo#i th$c th pháp lu t.

Tuy nhiên, có .c m t t p hu"n luy n t t òi h3i nhi u th-i gian và công s c, trong th-i gian có h#n tác gi m i chB s d)ng các v n b n pháp lu t t#o t p d li u hu"n luy n cho m t s lo#i tên th$c th . V i các t p d li u hu"n luy n này, khi ,u vào là m t v n b n b"t k5, trong m t s tr -ng h.p h th ng ch a a ra .c t"t c các k t qu úng. H n n a, v"n nh n d#ng tên th$c th pháp lu t trong v n b n ti ng Vi t là m t v"n m i, l,n ,u tiên .c nghiên c u do ó trong lu n v n không th tránh kh3i nh ng thi u sót và h#n ch . Chúng tôi mong mu n nh n .c nh ng nh n xét và góp ý có th phát tri n h n n a h ng nghiên c u này.

X lý ngôn ng t$ nhiên là m t v"n ph c t#p. Hi n này ã có nhi u công c) x lý ngôn ng t$ nhiên, tuy nhiên h,u h t chúng .c áp d)ng cho ti ng Anh, ti ng c... Các (c thù c a các ngôn ng là khác nhau nên vi c chuy n i gi a các ngôn ng c9ng g(p r"t nhi u khó kh n (c bi t là i v i m t ngôn ng phong phú và a d#ng nh ti ng Vi t. Hi n nay x lý ti ng Vi t ang là nhu c,u h t s c c"p thi t "t n c chúng ta có th hoà nh%p vào s$ phát tri n c a ngành công ngh thông tin trên th gi i. Bài toán tách t2 và gán nhãn t2 lo#i cho ti ng Vi t là bài toán mà chúng ta c,n gi i quy t làm ti n cho các công vi c liên quan n x lý ngôn ng t$ nhiên trong ti ng Vi t. Trong th-i gian t i chúng tôi s= t p trung xây d$ng và hoàn thi n t p hu"n luy n trong ch ng trình 7ng th-i c9ng nghiên c u vi c áp d)ng mô hình entropy c$c #i vào gi i quy t v"n tách t2 và gán nhãn t2 lo#i cho ti ng Vi t.

TÀI LI3U THAM KH"O

[1] Douglas E.Appelt and David J.Israel, Artificial Intelligence Center SRI International 333 Ravenswood Ave, Introduction to Information Extraction Technology, A Tutorial Prepared for IJCAI-99

[2] http://maxent.sourceforge.net/

[3] [Freitag, 1999], Freitag, D. Machine Learning for Information Extraction in

Informal Domains. Ph.D. dissertation, Carnegie Mellon University

[4] T.M.Michell, Machine Learning, Mc Graw Hill

[5] [Soderland 1999] Soderland, S. Learning information extraction rules for semi-

structured and free text.

[6] [Leek 1997] Leek, T. R. Information extraction using hidden Markov models.

Master’s thesis UC San Diego.

[7] Kamal Nigam John Lafferty, School of Computer Science Carnegie Mellon

University Pittsburgh, PA 15213, Andrew McCallum Just Research 4616 Henry

Street Pittsburgh, PA 15213,Using Maximum Entropy for Text Classification

[8] [Csiszár, 1996] I.Csiszár. Maxent, mathematics, and information theory. In K.

Hanson and R. Silver, editors, Maximum Entropy and Bayesian Methods. Kluwer

Academic Publishers, 1996.

[9] A.Ratnaparkhi. A maximum entropy part of speech tagger Proceedings of the

conference on empirical methods in natural language processing, May 1996,

University of Pennsylvania

[10] A.Berger, S.Della Pietra, and V.Della Pietra. A maximum entropy approach to natural language processing. Computational Linguistics, tr 39-71, 1996.

[11] Usama Fayyad, Gregory Piatetsky -Shapiro and Padhraic Smyth. From Data

Mining to Knowledge Discovery in Database

[12] Rob Gaizauskas. An Information Extraction Perspective on TextMining: Tasks,

Technologies and Propotype Applications

[13] Yair Even Zohar. Introduction to Textmining

[14] Dr Diana Maynard, NLP Group, Department of Computer Science University

of Sheffield. Text mining and the Semantic Web

[15] Decision Tree, Analysis mindtools.com

[16] Lawrence R. Rabiner, A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. Proceedings of the IEEE, 77 (2), p. 257–286, February 1989.

[17] Learning and NLP, lec 8: Maximum Entropy Models, Fall 2004

[18] Adwait Ratnaparkhi. Maximum Entropy Models for nature language ambiguity

resolution University of Pennsylvania Dept. of Computer and Information Science

[19] James R. Curran and Stephen Clack. Investigating GIS and Smoothing for

Maximum Entropy Taggers

[20] Joshua Goodman, Microsoft Research, One MicrosoftWay, Redmond.

Sequential Conditional Generalized Iterative Scaling

[21] Adam Berger, CMU, 1997. The Improved Iterative Scaling Algorithm: A gentle

Introduction

[22] Stanley F. Chen, Ronald Rosenfeld CMU-CS-99-108. A Gaussian Prior for

Smoothing Maximum Entropy Models

[23] Rong Jin, Rong Yan, Jian Zhang. School of Computer Science, Carnegie

Mellon University, Pittsburgh, PA 15213 USA. A Faster Iterative Scaling

Algorithm For Conditional Exponential Model

[24] Andrew Borthwick, 1999. A maximum entropy approach to name entity

recognition, Doctor of philosophy Computer Science Department New York

University

[25]http://www.codeproject.com/csharp/englishparsing.asp

[26]http://www.codeproject.com/csharp/sharpentropy.asp

[27] Wojciech Skut and Thorsten Brants, Computational Linguistics, D-66041 Saarbrficken, GermanyA Maximum-Entropy Partial Parser for Unrestricted Text

[28] Eugene Charniak, Brown Laboratory for Linguistic Information Processing,

Department of Computer Science, Brown University, A Maximum-Entropy-Inspired

Parser

[29] Georgios Paliouras Vangelis Karkaletsis Georgios Petasis and Constantine D. Spyropoulos,Learning Decision Trees for Named-Entity Recognition

and Classification

[30] Andrew W. Moore, Associate Professor School of Computer Science Carnegie

Mellon University, Decision Trees

[31] David J. C. MacKay. Information Theory, Inference, and Learning Algorithms

Cambridge: Cambridge University Press, 2003. ISBN 0521642981

[32] Greg Kochanski Markov Models, Hidden and Otherwise

[33] inh Quang Th:ng (2003), Các ph &ng pháp t ng phân tích hình thái cú pháp các t trong v n b n áp d ng cho vi c gán nhãn t lo i ti ng Vi t, Khoá lu n

[34] Luna De Ferrari Mining housekeeping genes with a Naive Bayes classifier,

Master of Science School of Informatics University of Edinburgh 2005

[35] Rish, Irina. (2001). "An empirical study of the naive Bayes classifier". IJCAI

2001 Workshop on Empirical Methods in Artificial Intelligence.

[36] Jaynes, E. T., 1963, Information Theory and Statistical Mechanics, in statistical Physics, K. Ford (ed.), Benjamin, New York, p. 181

PH0 L0C

V i o#n v n b n:

"N ng l c pháp lu t dân s c a cá nhân là kh n ng c a cá nhân có quy n dân s và ngh a v dân s ."

T p hu"n luy n cho lo#i tên th$c th <LUATDANSU> có d#ng:

"...

def w=pháp wf=other w&wf=pháp,other pd= ppw=n ng ppwf=ic ppw&f=n ng,ic pw=l c pwf=other pw&f=l c,other pw=l c,w=pháp pwf=other,wf=other nw=lu t nwf=other nw&f=lu t,other w=pháp,nw=lu t wf=other,nwf=other nnw=dân nnwf=other nnw&f=dân,other po=other pow=otherpháp powf=otherother ppo=other start

def w=lu t wf=other w&wf=lu t,other pd= ppw=l c ppwf=other ppw&f=l c,other pw=pháp pwf=other pw&f=pháp,other pw=pháp,w=lu t pwf=other,wf=other nw=dân nwf=other nw&f=dân,other w=lu t,nw=dân wf=other,nwf=other nnw=s nnwf=other nnw&f=s ,other po=start pow=startlu t powf=startother ppo=other cont

def w=dân wf=other w&wf=dân,other pd= ppw=pháp ppwf=other ppw&f=pháp,other pw=lu t pwf=other pw&f=lu t,other pw=lu t,w=dân pwf=other,wf=other nw=s nwf=other nw&f=s ,other w=dân,nw=s wf=other,nwf=other nnw=c a nnwf=other nnw&f=c a,other po=cont pow=contdân powf=contother ppo=start cont

def w=s wf=other w&wf=s ,other pd= ppw=lu t ppwf=other ppw&f=lu t,other pw=dân pwf=other pw&f=dân,other pw=dân,w=s pwf=other,wf=other nw=c a nwf=other nw&f=c a,other w=s ,nw=c a wf=other,nwf=other nnw=cá nnwf=other nnw&f=cá,other po=cont pow=conts powf=contother ppo=cont cont

...

def w=quy n wf=other w&wf=quy n,other pd= ppw=nhân ppwf=other ppw&f=nhân,other pw=có pwf=other pw&f=có,other pw=có,w=quy n pwf=other,wf=other nw=dân nwf=other nw&f=dân,other w=quy n,nw=dân wf=other,nwf=other nnw=s nnwf=other nnw&f=s ,other po=other pow=otherquy n powf=otherother ppo=other start

def w=dân wf=other w&wf=dân,other pd= ppw=có ppwf=other ppw&f=có,other pw=quy n pwf=other pw&f=quy n,other pw=quy n,w=dân pwf=other,wf=other nw=s nwf=other nw&f=s ,other w=dân,nw=s wf=other,nwf=other nnw=và nnwf=other nnw&f=và,other po=start pow=startdân powf=startother ppo=other cont

def w=s wf=other w&wf=s ,other pd= ppw=quy n ppwf=other ppw&f=quy n,other pw=dân pwf=other pw&f=dân,other pw=dân,w=s pwf=other,wf=other nw=và nwf=other nw&f=và,other w=s ,nw=và wf=other,nwf=other nnw=ngh a nnwf=other nnw&f=ngh a,other po=cont pow=conts powf=contother ppo=start cont

def w=ngh a wf=other w&wf=ngh a,other pd= ppw=s ppwf=other ppw&f=s ,other pw=và pwf=other pw&f=và,other pw=và,w=ngh a pwf=other,wf=other nw=v nwf=other nw&f=v ,other w=ngh a,nw=v wf=other,nwf=other nnw=dân nnwf=other nnw&f=dân,other po=other pow=otherngh a powf=otherother ppo=cont start

def w=v wf=other w&wf=v ,other pd= ppw=và ppwf=other ppw&f=và,other pw=ngh a pwf=other pw&f=ngh a,other pw=ngh a,w=v pwf=other,wf=other nw=dân nwf=other nw&f=dân,other w=v ,nw=dân wf=other,nwf=other nnw=s nnwf=other nnw&f=s ,other po=start pow=startv powf=startother ppo=other cont

def w=dân wf=other w&wf=dân,other pd= ppw=ngh a ppwf=other ppw&f=ngh a,other pw=v pwf=other pw&f=v ,other pw=v ,w=dân pwf=other,wf=other nw=s nwf=other nw&f=s ,other w=dân,nw=s wf=other,nwf=other nnw=. nnwf=other nnw&f=.,other po=cont pow=contdân powf=contother ppo=start cont

def w=s wf=other w&wf=s ,other pd= ppw=v ppwf=other ppw&f=v ,other pw=dân pwf=other pw&f=dân,other pw=dân,w=s pwf=other,wf=other nw=. nwf=other nw&f=.,other w=s ,nw=. wf=other,nwf=other nnw=EOS po=cont pow=conts powf=contother ppo=cont cont

..."

T p hu"n luy n cho lo#i tên th$c th <SOVANBAN> t2 o#n v n b n:

"B Xây D ng ra quy t nh s 03/2006/Q -BXD"

có d#ng sau: "....

def w=03 wf=2d w&wf=03,2d pd= ppw= nh ppwf=other ppw&f= nh,other pw=s pwf=other pw&f=s ,other pw=s ,w=03 pwf=other,wf=2d nw=/ nwf=other nw&f=/,other w=03,nw=/ wf=2d,nwf=other nnw=2006 nnwf=4d nnw&f=2006,4d po=other pow=other03 powf=other2d ppo=other start

def w=/ wf=other w&wf=/,other pd= ppw=s ppwf=other ppw&f=s ,other pw=03 pwf=2d pw&f=03,2d pw=03,w=/ pwf=2d,wf=other nw=2006 nwf=4d nw&f=2006,4d

Một phần của tài liệu Chiết lọc thông tin pháp luật trong dữ liệu văn bản (Trang 69)

Tải bản đầy đủ (PDF)

(81 trang)