Mô hình ME cho bài toán chi t lc thông tin pháp lu t

Một phần của tài liệu Chiết lọc thông tin pháp luật trong dữ liệu văn bản (Trang 50)

M U

2. 3M ts ph ng pháp gi i quy t

3.2.2 Mô hình ME cho bài toán chi t lc thông tin pháp lu t

xây d$ng .c bài toán chi t l c thông tin pháp lu t nh trên, tr c h t chúng ta c,n th$c hi n tách câu v n b n, v i m8i câu, chúng ta l#i th$c hi n nh n d#ng ra tên các th$c th xu"t hi n trong câu. Các b c trong quá trình chi t l c thông tin .c th$c hi n nh sau:

V i m8i t p v n b n ,u vào b"t k5, thông qua mô un tách câu, v n b n .c tách thành các câu, m8i câu trên m t hàng. V i m8i câu trong v n b n .c tách, s d)ng mô un nh n d#ng tên th$c th a ra các câu v i các th$c th

.c nh n tên.

Nh v y, có hai bài toán c b n c,n gi i quy t, bài toán tách câu ti ng Vi t và bài toán nh n d#ng, phân l p tên th$c th pháp lu t. gi i quy t các bài toán này, lu n v n s d)ng mô hình Entropy c$c #i ã .c trình bày chi ti t 0 ch ng 2. Mô hình entropy c$c #i ã .c ng d)ng cho khá nhi u bài toán khác nhau nh phân tích cú pháp, gán nhãn t2 lo#i,...[27, 28] tuy nhiên vi c áp d)ng mô hình này cho nh n d#ng tên th$c th và phân tách câu ti ng Vi t v4n ch a .c c p t i. V i mô hình entropy c$c #i, m t trong nh ng v"n quan tr ng c,n gi i quy t là ph i xây d$ng t p các thu c tính. Vi c xây d$ng các thu c tính này th$c s$ không h d dàng, ã .c chúng tôi ã th nghi m nhi u l,n m i a ra .c t p các thu c tính t ng i (c tr ng. Quá trình th$c hi n .c trình bày chi ti t 0 ph,n ti p theo i v i t2ng bài toán c) th .

3.2.2.1 Bài toán tách câu (Sentence Detection)

Tr c ây, h,u h t các công vi c nghiên c u ngôn ng t$ nhiên nh gán nhãn t2 lo#i và phân tích t2 lo#i u gi s r>ng v n b n ã .c chia thành các câu

n và không trình bày thu t toán chính xác th$c hi n công vi c này.

Bài toán tách câu nghe có vA khá n gi n, chB d$a trên các d"u k t thúc câu xác %nh các câu riêng r=, tuy nhiên các d"u câu nh (.), (!), (?) không chB .c dùng riêng chuyên k t thúc câu, ch@ng h#n d"u (.) có th dùng trong ch s th p phân, trong tên vi t t:t (nh 192.21, PGS.TS. Nguy n V n H), trong email,.. D"u (!) và (?) không có nhi u s$ nh p nh p nh>ng nh d"u (.) nh ng chúng c9ng có th xu"t hi n trong tên riêng hay .c s d)ng nhi u l,n nh"n m#nh k t thúc m t câu.

Chúng ta có th li t kê t p các lu t d$a trên t2 v$ng và a ra m t danh sách dùng tránh nh p nh>ng trong các tr -ng h.p nêu trên, tuy nhiên, danh sách này không th bao g7m h t t"t c các tr -ng h.p, m(t khác n u có quá nhi u lu t có th d4n t i tr -ng h.p các lu t nh h 0ng x"u l4n nhau. H n n a vi c xây d$ng s l .ng l n các lu t t2 v$ng b>ng tay g(p nhi u khó kh n và m"t r"t nhi u th-i gian.

Mô hình entropy c$c #i là m t l$a ch n t t cho vi c tách câu, v i mô hình này, h th ng chB yêu c,u m t s thông tin g.i ý và m t t p v n b n ã .c tách câu m t cách chính xác. Mô hình ME s= hu"n luy n d dàng và chính xác trong tách câu là có th so sánh .c v i các h th ng yêu c,u m t l .ng thông tin l n.

s d)ng mô hình entropy c$c #i, c,n ph i xác %nh các ,u ra, các thu c tính ng c nh t2 ó xây d$ng các hàm (c tr ng fi (hàm thu c tính), và c,n xây d$ng t p ví d) hu"n luy n tách câu.

H th ng s= quét qua v n b n xác %nh v% trí c a các ký t$ có kh n ng là d"u k t thúc câu. i v i v n b n bình th -ng, các d"u có th là k t thúc câu th -ng chB là (.), (!), (?), tuy nhiên trong v n b n pháp lu t th -ng không xu"t hi n các (!), (?), trong khi ó các d"u (;), (:) l#i xu"t hi n r"t nhi u và c9ng có th là d"u k t thúc câu, do ó h th ng s= quét qua v n b n và xác %nh v% trí xu"t hi n c a t"t c các ký t$ ó.

* Các ,u ra

,u ra c a h th ng i v i vi c tách câu chB là 2 tr#ng thái: "có" ho(c "không". V i m8i ký t$ có kh n ng là k t thúc câu:

H th ng cho k t q a là "có" (T) n u ó th$c s$ là k t thúc câu. Cho k t qu là "không" (F) n u ó không ph i là k t thúc câu.

* Các thu c tính ng c nh: là n i dung các ký t$, các t2 tr c và sau ký t$ có kh n ng là k t thúc câu t2 ó xác %nh xem ký t$ ó có th$c s$ là d"u k t thúc câu hay không.

Các thu c tính ng c nh này .c l$a ch n d$a vào các tr -ng h.p k t thúc câu th -ng x y ra, ch@ng h#n nh n u sau ký t$ ó là m t ký t$ tr:ng, t2 ng sau l#i có ch cái ,u vi t hoa thì có th ch:c ch:n ký t$ ó là k t thúc câu. V i m8i ký t$ có kh n ng là d"u k t thúc câu (coi m8i t2 ch a các ký t$ có kh n ng k t thúc câu là m t Candidate) các thu c tính ng c nh .c xét là:

Ký t$ ó có là ký t$ k t thúc câu hay không (end of sentence - eos)

Ph,n ng tr c ký t$ (c bi t g i là Prefix (ti n t -x),

Ph,n ti p theo c a ký t$ (c bi t g i là Suffix (h u t -s) .

Ch cái ,u c a Suffix và Prefix có .c vi t hoa không (IsFirrstUpper-

xcap, scap)?

T2 ng tr c Candidate (previous token - v)

T2 ng sau Candidate (next token - n)

ng tr c ký t$ .c xét có ph i là d"u cách không (space previous - sp)

ng sau ký t$ .c xét có ph i là d"u cách hay không (space next - sn)

Ch@ng h#n v i o#n v n b n sau:

"Ði u 60. Ði u ki n c a cá nhân làm ng i giám h

1. Có n ng l c hành vi dân s !y ;

2. Có t cách o c t t; không ph i là ng i ang b truy c u trách nhi m hình s ho c ng i b k t án nh ng ch a c xoá án tích v m t trong các t i c ý xâm ph m tính m ng, s c kho", danh d , nhân ph#m, tài s n c a ng i khác;

3. Có i u ki n c!n thi t b o m th c hi n vi c giám h ."

(Trích B lu t Dân s$ (1995)/Ph,n 1) Ký t$ (;) th 2 trong o#n v n b n trên có các thu c tính ng c nh (contextual predicates) là: "eos" "x=t t" "s= " "v= c" "n=không" "sn" * Xác nh các hàm hàm c tr ng (features) + i v i m8i ký t$ có th là d"u k t thúc câu (.), (:), (;), (?), (!) m)c ích c a chúng ta là c l .ng m t phân ph i xác su"t p i v i m8i ký t$ và ng c nh c a ký t$ ó. Phân ph i xác su"t s d)ng 0 ây là mô hình ME có d#ng:

( , ) 1 1 ( | ) ( ) j k f a b j j p a b Z b α = = ∏

trong ó a là outcome và b là context

D$a vào các thu c tính ng c nh chúng ta xây d$ng các hàm (c tr ng i v i các ký t$ k t thúc câu, ch@ng h#n: 1 1 ( | ) 0 f a b = 2 1 ( | ) 0 f a b = 3 1 ( | ) 0 f a b = ...

Hàm f2 s= cho phép mô hình nh n ra r>ng n u ký t$ ,u c a t2_ti p_theo không ph i là ký t$ vi t hoa thì ký t$ ang xét hi m khi là d"u k t thúc câu. Khái ni m "t2" 0 ây chB n gi n là các t2 cách nhau b0i các ký t$ tr:ng.

n u a = T và Suffix (b) = "\n" n u ng .c l#i

n u a = F và IsFirstUpper (t2_ti p_theo) = False n u ng .c l#i

n u a = T và sn n u ng .c l#i

Trong khi ó hàm f1 và f3 l#i t ng kh n ng ký t$ ang xét là d"u k t thúc câu n u Suffix c a nó là ký t$ xu ng dòng ho(c là ký t$ tr:ng.

T"t c các hàm (c tr ng xu"t hi n nhi u h n 10 l,n trong t p ví d) hu"n luy n s= .c s d)ng l#i trong mô hình, và tham s c a mô hình s= .c c l .ng b>ng thu t toán GIS ã .c trình bày trong ph,n ch ng 2 c a lu n v n.

T"t c m i th nghi m u s d)ng lu t ra quy t %nh n gi n phân l p m8i m t ký t$ có kh n ng là d"u k t thúc câu: M t ký t$ trong ng c nh b có kh n ng là k t thúc câu th$c s$ là k t thúc câu n u và chB n u p(T|b)> .5 . * Xây d$ng t p d li u hu"n luy n Nh v y v i m t t p v n b n bình th -ng, tr c h t chúng tôi s= quét l c ra t"t c các v% trí c a các ký t$ có th là d"u k t thúc câu. V i m8i ký t$ ó, a ra các thu c tính ng c nh, v i m8i ký t$ chúng tôi c9ng a ra k t qu ,u ra có là d"u k t thúc câu hay không. T p ví d) hu"n luy n ,u vào có d#ng t p v n b n g7m nhi u dòng, m8i dòng là t p các thu c tính ng c nh c a m t ký t$ có kh n ng là d"u k t thúc câu, các thu c tính ng c nh .c phân cách nhau b0i m t ký t$ tr:ng. Cu i m8i dòng là k t qu ra (T) ho(c (F).

Ch@ng h#n v i o#n v n b n:

"Ði u 60. Ði u ki n c a cá nhân làm ng i giám h

Cá nhân có các i u ki n sau ây có th làm ng i giám h : 1. Có n ng l c hành vi dân s !y ;

2. Có t cách o c t t; không ph i là ng i ang b truy c u trách nhi m hình s ho c ng i b k t án nh ng ch a c xoá án tích v m t trong các t i c ý xâm ph m tính m ng, s c kho", danh d , nhân ph#m, tài s n c a ng i khác;

3. Có i u ki n c!n thi t b o m th c hi n vi c giám h ."

(Trích B lu t Dân s$ (1995)/Ph,n 1) Chúng tôi xây d$ng .c t p hu"n luy n có d#ng sau:

sn eos=. x=60 v= i u vcap s= n= i u ncap T eos=: x=h v=giám s=\n n=1. T sn eos=. x=1 v=h : s= n=Có ncap T eos=; x= v= !y s=\n n=2. T sn eos=. x=2 v= ; s= n=Có ncap T eos=; x=t t v= c s=không n=ph i F eos=; x=khác v=ng i s=\n n=3. T sn eos=. x=3 v=khác; s= n=Có ncap T eos=. x=h v=giám s= n= T

T p d li u hu"n luy n càng ,y thì k t qu tách câu càng chính xác [12].

Lu n v n ã s d)ng m t s d li u trích t2 các v n b n pháp lu t bao g7m nh ng tr -ng h.p k t thúc câu và nh p nh>ng nh"t t#o t p d li u hu"n luy n cho vi c tách câu. Quá trình t#o t p hu"n luy n .c th$c hi n nh sau:

V i m8i v n ,u vào, module tách câu s d)ng t p mô hình hu"n luy n t#o .c 0 trên th$c hi n tách câu nh sau:

T p v n b n pháp lu t Tìm v% trí các d"u k t thúc câu Sinh ng c nh v i m8i d"u k t thúc câu tìm .c Xác %nh ,u ra là T hay F T p các ng c nh v i ,u ra t ng ng (t p hu"n luy n)

Hu"n luy n theo thu t toán GIS T p mô hình hu"n luy n tách câu

3.2.2.2 Bài toán nh n d ng tên th c th pháp lu t

Tên th$c th trong các v n b n có th là tên các lu t c) th nh : Hi n pháp, Ngh% %nh, Thông t , Quy t %nh, B lu t Hình s$, B lu t Dân s$, Lu t Báo chí, Lu t "t ai,..

S hi u v n b n pháp lu t nh : 21/2006/N -CP, 354/TTg-XDPL, 07/2006/Q -BTM,...

Các c)m danh t2 (c tr ng i v i pháp lu t nh : quy n th2a k , quy n t$ do, t i tham ô, t i h i l , t i gi t ng -i,...là d#ng tên th$c th pháp lu t thu c b lu t c) th (B lu t dân s$, B lu t hình s$,..).

s d)ng mô hình Entropy c$c #i nh n d#ng và phân l p tên th$c th , tr c h t chúng ta ph i xác %nh các l p tên th$c th s= .c nh n d#ng trong ch ng trình.

ây lu n v n chia tên th$c th pháp lu t s= .c nh n d#ng thành các nhóm lo#i nh sau:

Tên s hi u v n b n, ký hi u là "SOVANBAN" bao g7m nh ng c)m t2 có d#ng 21/2006/N -CP, 05/2006/CT-TTg, 354/TTg-XDPL,... Tên các lo#i lu t xu"t hi n trong v n b n, ký hi u là "TENLUAT" bao g7m nh ng c)m t2 nh Hi n pháp, Lu t Kinh T , B Lu t Hình S$, Lu t "t ai,...

Tên các c)m t2 (c tr ng trong B Lu t Dân S$, ký hi u là "LUATDANSU" bao g7m nh ng c)m t2 ch@ng h#n nh "pháp nhân", "quy n công dân",...

Ngoài ra còn r"t nhi u tên th$c th pháp lu t trong các B lu t khác nh B lu t Hình s$, Lu t "t ai, B lu t t t)ng Hình s$, Lu t kinh t ,... Tuy nhiên do th-i gian có h#n nên lu n v n chB th$c hi n .c i v i ba lo#i th$c th trên.

V i mô hình entropy c$c #i, chúng ta ph i xác %nh tr c các nhãn l p ,u ra mà m8i t2 có th phân vào l p ó, chúng ta c9ng ph i t#o các hàm (c tr ng i v i m8i nhãn l p và xây d$ng t p ví d) hu"n luy n.

* Các ,u ra

i v i m8i lo#i, lu n v n s= dùng 3 thA gán cho t2ng t2 riêng (t20 ây .c phân bi t nhau chB n gi n b>ng các ký t$ tr:ng), t20 ,u m t tên .c gán nhãn "start", các t2 ti p theo .c gán nhãn "cont", n u t2 không thu c tên thì gán nhãn "other".

Nh v y i v i m8i lo#i mô hình s= có 3 nhãn l p ,u ra gán cho m8i t2 .c xét.

*Các hàm (c tr ng

Vi c l$a ch n các thu c tính ng c nh nh h 0ng r"t l n t i chính xác c a h th ng. Qua các th nghi m v i nh ng thu c tính ng c nh khác nhau, chúng tôi a ra ng c nh i v i m8i t2 wi là c a s (wi, wi+1 ,wi+2 , wi-1 ,wi-2, ti-1, ti-2) bao g7m 2 t2 ng tr c và 2 t2 ng sau, thA c a 2 t2 ng tr c. Các ng c nh i v i m8i t2 bao g7m: 1. (c tr ng c a m t t2 (ký hi u là wf: word feature) KÝ HI+U GI I THÍCH lc t2 g7m toàn các ký t$ th -ng 2d t2 g7m 2 s 4d t2 có 4 s num t2 ch a toàn s an t2 v2a ch a s v2a ch a ch dd t2 ch a s và ký t$ (-) ds t2 ch a s và ký t$ (/) dc t2 ch a s và d"u (,) dp t2 ch a s và ký t$ (\) ac t2 có t"t c các ch vi t hoa sc t2 chB có 1 ký t$ và .c vi t hoa cp t2 có toàn ký t$ vi t hoa và (\) ic t2 có ch cái ,u vi t hoa

other t2 không có m t (c tr ng nào gi ng nh ã li t kê

M8i t2 chB nh n 1 trong các (c tr ng 0 trên. Ch@ng h#n v i c)m t2 "12. Pháp nhân ph i có tên g i b>ng ti ng Vi t" thì (c tr ng c a t2 "Pháp" là ic ngh/a là có ch cái ,u vi t hoa, (c tr ng c a "12" là num ngh/a là t2 g7m toàn s ,...

2. Các thu c tính ng c nh c a m t t2

TÊN GI I THÍCH

def %nh ngh/a

w t2 ang xét

w&wf t2 ang xét và (c tr ng c a t2 ó

pd thA c a t2 tr c ó

df=it n u t2 ang xét 0 ,u câu (i = 0)

ppw t2 wi-2 n u i>=2; ppw=BOS n u i<2

ppwf (c tr ng c a wi-2

ppw&f t2 wi-2 và (c tr ng c a nó

Một phần của tài liệu Chiết lọc thông tin pháp luật trong dữ liệu văn bản (Trang 50)

Tải bản đầy đủ (PDF)

(81 trang)