M U
2. 3M ts ph ng pháp gi i quy t
4.3.1 Bài toán tách câu
tách .c các câu ti ng Vi t, chúng tôi s d)ng t p ví d) hu"n luy n
TachcauVN.txt v i c"u trúc .c xây d$ng nh mô t trong ph,n ch ng 3 c a lu n v n. S d)ng t p ví d) hu"n luy n này, chúng tôi ã hu"n luy n mô hình .c l u trong t p TachcauVN.nbin v i:
S l ng câu hu n luy n S l ng các feature sinh ra
t &ng ng
650 733
Nh ã phân tích 0 trên, ngôn ng ti ng Vi t th -ng .c k t thúc câu b0i các d"u ch"m ('.'), hai ch"m (':'), ch"m ph6y (';'), h3i ch"m ('?') và ch"m than ('!'). Chúng tôi xây d$ng l p
OpenNLP.Tools.SentenceDetect.DefaultEndOfSentenceScanner thi hành giao di n IEndOfSentenceScanner h8 tr. vi c tìm ki m các v% trí có các ký t$ trên xu"t hi n trong xâu.
L p VnMaximumEntropySentenceDetector .c xây d$ng k th2a l p OpenNLP.Tools.SentenceDetect.MaximumEntropySentenceDetector tách các câu trong v n b n ti ng Vi t s d)ng mô hình entropy c$c #i v i t p mô hình
TachcauVN.nbin.
4.3.2 Bài toán nh+n d,ng tên th c th và phân l p
V i bài toán nh n d#ng tên th$c th pháp lu t, chúng tôi s d)ng các t p ví d) hu"n luy n LuatDanSu.txt, Sovanban.txt, Tenluat.txt .c xây d$ng theo c"u
trúc mô t trong ph,n ch ng 3. Các t p mô hình hu"n luy n thu .c t ng ng là
LUATDANSU.nbin, SOVANBAN.nbin, TENLUAT.nbin .c (t trong th
m)c VNLawNameFind n>m trong th m)c Models trong ó:
T p hu n luuy n S l ng t hu n luy n S l ng các feature sinh
ra t &ng ng
Tenluat.txt 6025 14242
Sovanban.txt 1621 6945
Luatdansu.txt 7377 14720
Chúng tôi c9ng xây d$ng l p DefaultNameContextGeneratorVN trong gói OpenNLP.Tools.NameFind k th2a giao di n INameContextGenerator xác %nh các (c tr ng ng c nh cho b nh n d#ng tên th$c th . L p VietNamNameFinder
u.c xây d$ng trong gói OpenNLP.Tools.NameFind kh0i t#o m t b tìm ki m tên cho các th$c th pháp lu t trong v n b n ti ng Vi t.
4.4 Gi i thi u ch ng trình th nghi m
Trong th-i gian có h#n, chúng tôi t p trung xây d$ng t p d li u hu"n luy n t2 t p các v n b n pháp lu t thu th p t2 c s0 d li u pháp lu t Vi t Nam. Lu n v n xây d$ng b d li u hu"n luy n v i kích c< nh sau:
T p TachcauVN.bin thu .c t2 t p hu"n luy n v i t ng s 650 câu. K t qu test trên m t s v n b n
Tên v n b n P (Precision) R (Recall) F = 2PR/(P+R)
H ng d4n 01 1 1 1 H ng d4n 331-CS 0.96 0.96 0.96 Ch ng1-4 B lu t Hình s$ 0.97 1 0.98 Ngh% %nh 390-H BT 0.91 1 0.95 Ngh% %nh 61-CP 0.94 0.99 0.96 Ngh% %nh 63-CP 0.96 0.99 0.97 Trung bình 0.97 chính xác trung bình c a h th ng i v i vi c tách câu là 97%
T p TENLUAT.nbin thu .c trên t p hu"n luy n có t ng s t2 trong các v n b n hu"n luy n là 6025 t2.
T p LUATDANSU.nbin có t p hu"n luy n v i t ng s t2 trong các v n b n hu"n luy n là 7377 t2.
T p SOVANBAN.nbin, t ng s t2 trong các v n b n hu"n luy n là 1621 t2. Sau khi xây d$ng xong mô hình v i các t p hu"n luy n, chúng tôi ã th test v i m t s các v n b n pháp lu t khác, k t qu có nh b ng sau:
Tên v n b n P (Precision) R (Recall) F (β=1)
Ngh nh 17/CP 1 1 1 Ngh nh 18-CP 1 0.97 0.98 Ngh nh 24-CP 1 1 1 Ngh nh 38-CP 1 1 1 Ngh nh 45/CP 1 0.86 0.92 Ngh nh 49-H BT 0.94 0.79 0.86 Ngh nh 54-CP 0.96 0.85 0.90 Ngh nh 57-CP 0.91 1 0.95 Ngh nh 61-CP 1 1 1 Ngh nh 63/CP 0.99 0.93 0.96 Ngh quy t 0.95 0.77 0.85 Ngh quy t 42 0.81 0.96 0.88 Pháp l nh 23 1 1 1 Pháp l nh 28 0.59 0.91 0.72 Lu t 38L 1 0.75 0.86 Trung bình 0.92
chính xác trung bình mà h th ng #t .c trong vi c nh n d#ng tên th$c th là 92%.
D i ây là m t s giao di n c a ch ng trình th$c nghi m mà lu n v n ã hoàn thành s d)ng các module ã .c xây d$ng 0 trên.
Th$c hi n tách câu và nh n d#ng tên th$c th pháp lu t: h th ng s= a ra tên các th$c th liên quan n pháp lu t có m(t trong v n b n ,u vào, tên các th$c th này .c (t gi a thA b:t ,u và thA k t thúc (<>, </>). i v i th$c th là tên lu t thì thA b:t ,u và k t thúc t ng ng là o ( <TENLUAT>, </TENLUAT>) i v i th$c th là s v n b n thì thA b:t ,u và k t thúc là o (<SOVANBAN>, </SOVANBAN>) i v i th$c th n>m trong B lu t Dân s$ thì thA b:t ,u và k t thúc t ng ng là o (<LUATDANSU>, <\LUATDANSU>)
4.5 K t lu+n
Trong ch ng này, lu n v n gi i thi u khái quát v các th vi n mã ngu7n m0 Maxent, SharpEntropy và OpenNLP. Trình bày ph ng pháp xây d$ng và tích h.p các modun gi i quy t bài toán chi t l c tên th$c th pháp lu t trong d li u v n b n ti ng Vi t vào b công c) ã .c xây d$ng cho ti ng Anh.
Lu n v n c9ng th$c hi n m t s th nghi m trên t p các v n b n pháp lu t và a ra các tham s ánh giá chính xác c a h th ng ã .c xây d$ng.
K T LU1N
Sau m t th-i gian tìm hi u và nghiên c u v khai phá d li u v n b n, (c bi t là bài toán chi t l c thông tin và mô hình entropy c$c #i, lu n v n ã #t .c m t s k t qu sau:
- Gi i thi u chung v khai phá d li u v n b n, các b c trong quá trình khai phá d li u v n b n và m t s bài toán c b n nh phân l p v n b n, tìm ki m v n b n... Lu n v n trình bày nhi m v) và ki n trúc m t h th ng chi t l c thông tin, vai trò c a chi t l c thông tin trong x lý v n b n và gi i thi u ph ng pháp truy n th ng ánh giá m t h th ng chi t l c thông tin.
- Gi i thi u bài toán chi t l c thông tin v n b n và m t s ph ng pháp gi i quy t bài toán. Lu n v n ã t p h.p và trình bày m t s ph ong pháp ph bi n nh"t hi n nay nh mô hình cây quy t %nh, mô hình markov 6n, mô hình xác su"t Naive Bayes, mô hình entropy c$c #i. Sau ó, lu n v n trình bày v u nh .c i m c a t2ng ph ng pháp, t2 ó a ra quy t
%nh s d)ng mô hình entropy c$c #i.
- Trình bày m t v"n c) th là: chi t l c thông tin pháp lu t trong d li u v n b n. Có 2 bài toán c b n c,n gi i quy t là bài toán tách câu và bài toán nh n d#ng tên th$c th pháp lu t. Lu n v n mô t cách th c áp d)ng mô hình entropy c$c #i gi i quy t hai bài toán này. Lu n v n c9ng xây d$ng m t s lo#i tên th$c th pháp lu t th$c hi n chi t l c, nh ng (c i m c a t2ng lo#i và cách xây d$ng t p d li u hu"n luy n, xây d$ng t p các hàm (c tr ng cho m8i lo#i tên th$c th .
- Lu n v n gi i thi u hai th vi n maxent và sharpentropy, là các b công c) mã ngu7n m0 cho mô hình entropy c$c #i. Lu n v n ã xây d$ng .c các module tách câu cho ti ng Vi t và các module nh n d#ng m t s tên th$c th pháp lu t trong các v n b n ti ng Vi t. Các module này .c vi t b>ng ngôn ng C# và .c tích h.p vào th vi n mã ngu7n m0 OpenNLP. minh ho# cho vi c s d)ng các module ã .c xây d$ng 0 trên, chúng tôi c9ng ã xây d$ng m t ch ng trình th nghi m v i
các ch c n ng chính là tách câu, chi t l c và a ra tên c a 3 lo#i th$c th pháp lu t.
Tuy nhiên, có .c m t t p hu"n luy n t t òi h3i nhi u th-i gian và công s c, trong th-i gian có h#n tác gi m i chB s d)ng các v n b n pháp lu t t#o t p d li u hu"n luy n cho m t s lo#i tên th$c th . V i các t p d li u hu"n luy n này, khi ,u vào là m t v n b n b"t k5, trong m t s tr -ng h.p h th ng ch a a ra .c t"t c các k t qu úng. H n n a, v"n nh n d#ng tên th$c th pháp lu t trong v n b n ti ng Vi t là m t v"n m i, l,n ,u tiên .c nghiên c u do ó trong lu n v n không th tránh kh3i nh ng thi u sót và h#n ch . Chúng tôi mong mu n nh n .c nh ng nh n xét và góp ý có th phát tri n h n n a h ng nghiên c u này.
X lý ngôn ng t$ nhiên là m t v"n ph c t#p. Hi n này ã có nhi u công c) x lý ngôn ng t$ nhiên, tuy nhiên h,u h t chúng .c áp d)ng cho ti ng Anh, ti ng c... Các (c thù c a các ngôn ng là khác nhau nên vi c chuy n i gi a các ngôn ng c9ng g(p r"t nhi u khó kh n (c bi t là i v i m t ngôn ng phong phú và a d#ng nh ti ng Vi t. Hi n nay x lý ti ng Vi t ang là nhu c,u h t s c c"p thi t "t n c chúng ta có th hoà nh%p vào s$ phát tri n c a ngành công ngh thông tin trên th gi i. Bài toán tách t2 và gán nhãn t2 lo#i cho ti ng Vi t là bài toán mà chúng ta c,n gi i quy t làm ti n cho các công vi c liên quan n x lý ngôn ng t$ nhiên trong ti ng Vi t. Trong th-i gian t i chúng tôi s= t p trung xây d$ng và hoàn thi n t p hu"n luy n trong ch ng trình 7ng th-i c9ng nghiên c u vi c áp d)ng mô hình entropy c$c #i vào gi i quy t v"n tách t2 và gán nhãn t2 lo#i cho ti ng Vi t.
TÀI LI3U THAM KH"O
[1] Douglas E.Appelt and David J.Israel, Artificial Intelligence Center SRI International 333 Ravenswood Ave, Introduction to Information Extraction Technology, A Tutorial Prepared for IJCAI-99
[2] http://maxent.sourceforge.net/
[3] [Freitag, 1999], Freitag, D. Machine Learning for Information Extraction in
Informal Domains. Ph.D. dissertation, Carnegie Mellon University
[4] T.M.Michell, Machine Learning, Mc Graw Hill
[5] [Soderland 1999] Soderland, S. Learning information extraction rules for semi-
structured and free text.
[6] [Leek 1997] Leek, T. R. Information extraction using hidden Markov models.
Master’s thesis UC San Diego.
[7] Kamal Nigam John Lafferty, School of Computer Science Carnegie Mellon
University Pittsburgh, PA 15213, Andrew McCallum Just Research 4616 Henry
Street Pittsburgh, PA 15213,Using Maximum Entropy for Text Classification
[8] [Csiszár, 1996] I.Csiszár. Maxent, mathematics, and information theory. In K.
Hanson and R. Silver, editors, Maximum Entropy and Bayesian Methods. Kluwer
Academic Publishers, 1996.
[9] A.Ratnaparkhi. A maximum entropy part of speech tagger Proceedings of the
conference on empirical methods in natural language processing, May 1996,
University of Pennsylvania
[10] A.Berger, S.Della Pietra, and V.Della Pietra. A maximum entropy approach to natural language processing. Computational Linguistics, tr 39-71, 1996.
[11] Usama Fayyad, Gregory Piatetsky -Shapiro and Padhraic Smyth. From Data
Mining to Knowledge Discovery in Database
[12] Rob Gaizauskas. An Information Extraction Perspective on TextMining: Tasks,
Technologies and Propotype Applications
[13] Yair Even Zohar. Introduction to Textmining
[14] Dr Diana Maynard, NLP Group, Department of Computer Science University
of Sheffield. Text mining and the Semantic Web
[15] Decision Tree, Analysis mindtools.com
[16] Lawrence R. Rabiner, A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. Proceedings of the IEEE, 77 (2), p. 257–286, February 1989.
[17] Learning and NLP, lec 8: Maximum Entropy Models, Fall 2004
[18] Adwait Ratnaparkhi. Maximum Entropy Models for nature language ambiguity
resolution University of Pennsylvania Dept. of Computer and Information Science
[19] James R. Curran and Stephen Clack. Investigating GIS and Smoothing for
Maximum Entropy Taggers
[20] Joshua Goodman, Microsoft Research, One MicrosoftWay, Redmond.
Sequential Conditional Generalized Iterative Scaling
[21] Adam Berger, CMU, 1997. The Improved Iterative Scaling Algorithm: A gentle
Introduction
[22] Stanley F. Chen, Ronald Rosenfeld CMU-CS-99-108. A Gaussian Prior for
Smoothing Maximum Entropy Models
[23] Rong Jin, Rong Yan, Jian Zhang. School of Computer Science, Carnegie
Mellon University, Pittsburgh, PA 15213 USA. A Faster Iterative Scaling
Algorithm For Conditional Exponential Model
[24] Andrew Borthwick, 1999. A maximum entropy approach to name entity
recognition, Doctor of philosophy Computer Science Department New York
University
[25]http://www.codeproject.com/csharp/englishparsing.asp
[26]http://www.codeproject.com/csharp/sharpentropy.asp
[27] Wojciech Skut and Thorsten Brants, Computational Linguistics, D-66041 Saarbrficken, GermanyA Maximum-Entropy Partial Parser for Unrestricted Text
[28] Eugene Charniak, Brown Laboratory for Linguistic Information Processing,
Department of Computer Science, Brown University, A Maximum-Entropy-Inspired
Parser
[29] Georgios Paliouras Vangelis Karkaletsis Georgios Petasis and Constantine D. Spyropoulos,Learning Decision Trees for Named-Entity Recognition
and Classification
[30] Andrew W. Moore, Associate Professor School of Computer Science Carnegie
Mellon University, Decision Trees
[31] David J. C. MacKay. Information Theory, Inference, and Learning Algorithms
Cambridge: Cambridge University Press, 2003. ISBN 0521642981
[32] Greg Kochanski Markov Models, Hidden and Otherwise
[33] inh Quang Th:ng (2003), Các ph &ng pháp t ng phân tích hình thái cú pháp các t trong v n b n áp d ng cho vi c gán nhãn t lo i ti ng Vi t, Khoá lu n
[34] Luna De Ferrari Mining housekeeping genes with a Naive Bayes classifier,
Master of Science School of Informatics University of Edinburgh 2005
[35] Rish, Irina. (2001). "An empirical study of the naive Bayes classifier". IJCAI
2001 Workshop on Empirical Methods in Artificial Intelligence.
[36] Jaynes, E. T., 1963, Information Theory and Statistical Mechanics, in statistical Physics, K. Ford (ed.), Benjamin, New York, p. 181
PH0 L0C
V i o#n v n b n:
"N ng l c pháp lu t dân s c a cá nhân là kh n ng c a cá nhân có quy n dân s và ngh a v dân s ."
T p hu"n luy n cho lo#i tên th$c th <LUATDANSU> có d#ng:
"...
def w=pháp wf=other w&wf=pháp,other pd= ppw=n ng ppwf=ic ppw&f=n ng,ic pw=l c pwf=other pw&f=l c,other pw=l c,w=pháp pwf=other,wf=other nw=lu t nwf=other nw&f=lu t,other w=pháp,nw=lu t wf=other,nwf=other nnw=dân nnwf=other nnw&f=dân,other po=other pow=otherpháp powf=otherother ppo=other start
def w=lu t wf=other w&wf=lu t,other pd= ppw=l c ppwf=other ppw&f=l c,other pw=pháp pwf=other pw&f=pháp,other pw=pháp,w=lu t pwf=other,wf=other nw=dân nwf=other nw&f=dân,other w=lu t,nw=dân wf=other,nwf=other nnw=s nnwf=other nnw&f=s ,other po=start pow=startlu t powf=startother ppo=other cont
def w=dân wf=other w&wf=dân,other pd= ppw=pháp ppwf=other ppw&f=pháp,other pw=lu t pwf=other pw&f=lu t,other pw=lu t,w=dân pwf=other,wf=other nw=s nwf=other nw&f=s ,other w=dân,nw=s wf=other,nwf=other nnw=c a nnwf=other nnw&f=c a,other po=cont pow=contdân powf=contother ppo=start cont
def w=s wf=other w&wf=s ,other pd= ppw=lu t ppwf=other ppw&f=lu t,other pw=dân pwf=other pw&f=dân,other pw=dân,w=s pwf=other,wf=other nw=c a nwf=other nw&f=c a,other w=s ,nw=c a wf=other,nwf=other nnw=cá nnwf=other nnw&f=cá,other po=cont pow=conts powf=contother ppo=cont cont
...
def w=quy n wf=other w&wf=quy n,other pd= ppw=nhân ppwf=other ppw&f=nhân,other pw=có pwf=other pw&f=có,other pw=có,w=quy n pwf=other,wf=other nw=dân nwf=other nw&f=dân,other w=quy n,nw=dân wf=other,nwf=other nnw=s nnwf=other nnw&f=s ,other po=other pow=otherquy n powf=otherother ppo=other start
def w=dân wf=other w&wf=dân,other pd= ppw=có ppwf=other ppw&f=có,other pw=quy n pwf=other pw&f=quy n,other pw=quy n,w=dân pwf=other,wf=other nw=s nwf=other nw&f=s ,other w=dân,nw=s wf=other,nwf=other nnw=và nnwf=other nnw&f=và,other po=start pow=startdân powf=startother ppo=other cont
def w=s wf=other w&wf=s ,other pd= ppw=quy n ppwf=other ppw&f=quy n,other pw=dân pwf=other pw&f=dân,other pw=dân,w=s pwf=other,wf=other nw=và nwf=other nw&f=và,other w=s ,nw=và wf=other,nwf=other nnw=ngh a nnwf=other nnw&f=ngh a,other po=cont pow=conts powf=contother ppo=start cont
def w=ngh a wf=other w&wf=ngh a,other pd= ppw=s ppwf=other ppw&f=s ,other pw=và pwf=other pw&f=và,other pw=và,w=ngh a pwf=other,wf=other nw=v nwf=other nw&f=v ,other w=ngh a,nw=v wf=other,nwf=other nnw=dân nnwf=other nnw&f=dân,other po=other pow=otherngh a powf=otherother ppo=cont start
def w=v wf=other w&wf=v ,other pd= ppw=và ppwf=other ppw&f=và,other pw=ngh a pwf=other pw&f=ngh a,other pw=ngh a,w=v pwf=other,wf=other nw=dân nwf=other nw&f=dân,other w=v ,nw=dân wf=other,nwf=other nnw=s nnwf=other nnw&f=s ,other po=start pow=startv powf=startother ppo=other cont
def w=dân wf=other w&wf=dân,other pd= ppw=ngh a ppwf=other ppw&f=ngh a,other pw=v pwf=other pw&f=v ,other pw=v ,w=dân pwf=other,wf=other nw=s nwf=other nw&f=s ,other w=dân,nw=s wf=other,nwf=other nnw=. nnwf=other nnw&f=.,other po=cont pow=contdân powf=contother ppo=start cont
def w=s wf=other w&wf=s ,other pd= ppw=v ppwf=other ppw&f=v ,other pw=dân pwf=other pw&f=dân,other pw=dân,w=s pwf=other,wf=other nw=. nwf=other nw&f=.,other w=s ,nw=. wf=other,nwf=other nnw=EOS po=cont pow=conts powf=contother ppo=cont cont
..."
T p hu"n luy n cho lo#i tên th$c th <SOVANBAN> t2 o#n v n b n:
"B Xây D ng ra quy t nh s 03/2006/Q -BXD"
có d#ng sau: "....
def w=03 wf=2d w&wf=03,2d pd= ppw= nh ppwf=other ppw&f= nh,other pw=s pwf=other pw&f=s ,other pw=s ,w=03 pwf=other,wf=2d nw=/ nwf=other nw&f=/,other w=03,nw=/ wf=2d,nwf=other nnw=2006 nnwf=4d nnw&f=2006,4d po=other pow=other03 powf=other2d ppo=other start
def w=/ wf=other w&wf=/,other pd= ppw=s ppwf=other ppw&f=s ,other pw=03 pwf=2d pw&f=03,2d pw=03,w=/ pwf=2d,wf=other nw=2006 nwf=4d nw&f=2006,4d