Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt
Trang 1Ch ng 5
MÔ HÌNH RÚT TRÍCH C M T C TR NG NG NGH A TRONG
TI NG VI T (ViKEe)
5.1 Gi i thi u
Ph ng pháp h c máy mà lu n án trình bày là ph ng pháp Support Vector
n m 1995 M c dù, SVMs ch là ph ng pháp phân lo i nh phân nh ng do tính
Trang 2hi u qu v t tr i so v i các ph ng pháp phân lo i d li u khác, nên SVMs ã
r t hi u qu trong nhi u v n th c t nh : nh n d ng ch vi t tay, nh n d ng gi ng nĩi, nh n d ng khuơn m t, phân tích gen, phân lo i nh vi n thám,…
i u hịa gi a chính xác và bao ph so sánh tính hi u qu vi c phân lo i v n b n c a SVMs và 4 ph ng pháp h c máy khác K t qu trung bình i u hịa c a 5 ph ng pháp h c (Ph l c G - B ng G.1) cho 10 l p th ng xuyên xu t hi n trong tồn b 118 l p c a t p ng li u Reuters, ã minh ch ng SVMs là ph ng pháp chính xác nh t, m c trung bình 92% cho 10 l p th ng xuyên và
ph ng pháp cây quy t nh (Decision Trees) th p h n 3.6%, cịn m ng Bayes
(Bayes Nets) cĩ kh n ng c i ti n h n Nạve Bayes nh ng k t qu v n th p h n
Ngồi ra, trong cơng trình (Mayer và CS, 2002), các tác gi ã ánh giá m t cách tồn di n tính hi u qu c a ph ng pháp SVMs so v i 16 ph ng pháp khác nhau (Ph l c G - B ng G.2) trong vi c phân lo i trên 21 t p ng li u K t qu th c nghi m trên 21 t p ng li u ( Ph l c G - B ng G.3 và G.4) th hi n ph ng pháp SVMs cĩ sai s th p h n so v i các ph ng pháp khác M c dù khơng ph i luơn t t nh t, nh ng SVMs th ng xuyên trong nhĩm 3 ph ng pháp cĩ sai s th p nh t và d n u trong nhĩm 10 trên 21 t p ng li u th nghi m
T! các k t qu ã nêu trong vi c áp d ng SVMs vào v n phân lo i m u
(Pattern Classification) ho c nh n d ng m u (Pattern Recognition) thì ph ng
pháp SVMs luơn t" ra v t tr i so v i các ph ng pháp h c máy khác c#ng nh tính hi u qu khi áp d ng vào các v n x lý ngơn ng t nhiên
bài tốn phân lo i hay nh n di n m u d a vào m t s các tính ch t c tr ng c a m u.V i hi u qu v t tr i c a SVMs trong vi c phân lo i d li u (Mayer, 2002),
qua các cơng trình áp d ng SVMs (Cheng, 2002; Hearst, 1998; Joachims,
Trang 31998;…), so v i các công trình áp d ng ph ng pháp khác ó là lý do lu n án áp d ng ph ng pháp SVMs th c hi n giai o n xác nh các c m danh t! c tr ng ng ngh$a trong câu ti ng Vi t cho mô hình ViKEe
quát ph ng pháp SVMs; Ph n 5.3 là phát bi u bài toán rút trích c m danh t! c tr ng ng ngh$a; Ph n 5.4 trình bày mô hình xu t cho bài toán rút trích c m danh t! c tr ng ng ngh$a trong câu ti ng Vi t; Ph n 5.5 trình bày k t qu th c nghi m và ánh giá; Ph n 5.6 là ph n k t ch ng
5.2 Ph ng pháp Support Vector Machines
C s toán h c c a ph ng pháp phân lo i SVMs là d a trên n n t ng lý thuy t
h c th ng kê (statistical learning theory) và lý thuy t không gian vect (vector space) n&m b&t ph ng pháp SVMs, tr c tiên c n kh o sát các khái ni m và nguyên lý sau
a VC-Dimension: là m t giá tr vô h ng dùng tính s c ch a c a t p các
m i m (v i m>n) th"a mãn i u ki n trên Giá tr c a VC-Dimension là n+1 (Gunn, 1998)
b Nguyên lý c c ti u r i ro c u trúc (Structural Risk Minimization) Ý
t ng c a nguyên lý là tìm m t m t gi thuy t h có th m b o sai s th c th p nh t Sai s th c c a gi thuy t h là xác su t mà h s% t o ra m t l(i sai trên
th c c a gi thuy t h v i v i sai s c a h trên t p hu n luy n và ph c t p c a H c o b i VC-Dimension, v i H là không gian các gi thuy t h SVMs tìm các gi thuy t h sao cho các gi thuy t này làm t i thi u hóa gi i h n trên sai s th c b)ng cách i u khi n có hi u qu VC-Dimension c a không gian gi thuy t H (Gunn, 1998)
Trang 4Hình 5.1 Nguyên lý c c ti u r i ro c u trúc
r i ro theo kinh nghi m (Empirical Risk Minimization)nh)m làm t i thi u hóa sai s hu n luy n Tuy nhiên, m t v n x y ra là n u ch n không gian gi thuy t h càng l n (VC-Dimension l n – H3) thì sai s hu n luy n s% càng nh" và sai s
t ng Ng c l i n u ch n không gian gi thuy t h càng nh" (VC-Dimension nh"
- H1) thì sai s th c và sai s hu n luy n c#ng s% cao hay còn g i là d i m c i u
ch nh lý t ng Trong c hai tr ng h p, vì có sai s th c cao nên mô hình s% thi u kh n ng d oán các m u m i Ph ng pháp SVMs có nhi m v cân b)ng
SVMs bao g'm ph ng pháp tuy n tính và ph ng pháp phi tuy n
H2 H3 H1
h
tin c y thu t ng Sai s th c
Mô hình t t
nh t V t m c i u ch nh lý t ng
Trang 5a Tr ng h p phân bi t c
ây là mô hình phân lo i nh phân và c#ng là mô hình n gi n nh t c a SVMs Xét m t t p hu n luy n S nh sau:
S = {(x1,y1), (x2,y2),… (xN,yN)} ⊆ (RN × {+1,-1}) Trong ó :
- xi là vect thành ph n i (i:1 N)
- N là s chi u trong không gian vector
_ _
_
_ _
_ _
w•x - b < 0
w• x - b > 0
+ +
+ +
+
+ +
+ +
x f(x)
Trang 6b là d i (bias)
a.1 r ng biên c c i c a m t ph ng phân tách
Có r t nhi u b giá tr (w, b) sinh ra các m t ph*ng phân tách t ng ng khác nhau Do ó, SVMs c n ph i tìm ra duy nh t m t m t ph*ng phân tách có r ng biên gi a hai t p S+ và S- là l n nh t H0 (nh Hình 5.3)
w•x - b = -1 v i i u ki n không có i m nào n)m trong kho ng H+ và H-
vect h tr (support vectors) vì có tham gia vào vi c xác nh nên m t ph*ng
phân tách, nh ng i m khác có th không c n xem xét
Bài toán yêu c u xác nh kho ng cách l n nh t gi a hai m t ph*ng phân tách
x
+ + +
+ + + +
+ +
H-
H+ w
d+ d -
_
_ _
_ _ _ _
_ _
x
Hình 5.3 M t ph*ng phân tách (w,b) cho t p hu n luy n hai chi u.
b f(x)
Trang 7tìm giá tr c c ti u c a ||w||, bài toán t i u (Gunn và CS, 1998) a v tìm c c
a.2 Công th c Lagrange
công th c sau:
(5.8) v i αi ≥0 là h s nhân Lagrange
P || || [ 1]2
=−
Trang 8(min( x ) 1 max( ) 1)2
b =− ww• iyi + + w•xiyi −
(5.10)
(5.11)
(5.12)
ph*ng phân tách H+ và H- Ng c l i, i v i các giá tr n)m trên H+ và H- thì ,i >
nh" h n t+ng s m u hu n luy n T! ó, ph ng pháp này có tên là SVMs
Vì v y, có th nói vect h( tr là s mô t cô ng c a d li u SVMs b" qua nh ng d li u không cung c p thông tin và ch quan tâm n các i m d li u cung c p nhi u thông tin, ó là các vect h( tr Ý t ng b" qua d li u mà không làm gi m i ch t l ng c a s c l ng là r t hi u qu trong tr ng h p áp d ng SVMs trên các t p d li u l n
a.3 Phân lo i d li u
Trang 9( )= ( • − )= −=
i1 iii
D a vào hàm phân lo i này gán giá tr m c tiêu +1 ho c -1 cho t t c nh ng i m trong t p d li u c n phân lo i
(noise)
b Tr ng h p không phân bi t c
c (non-separable) Trong tr ng h p này c n m r ng tr ng h p phân bi t c b)ng cách thêm gia s ξ ≥ 0 vào cho m(i i m trong t p hu n luy n (ξ c xem nh m t tham s i u ch nh l i s phân l p sai)
-c vi t l i nh sau:
w•xi - b ≥ +1 - ξi v i m i m u có y i = +1
Hình 5.4 Ví d v m t tr ng h p không phân bi t c.
ph m Tuy nhiên, lúc này m t v n m i phát sinh là tìm giá tr c c ti u c a t+ng
d-
d+ w
H+
ξ
_ _ H- H0
_ _
_
_ _ _ _ + + +
+ + + + + +
xf(x)
Trang 10P || || [ 1 ]2
12P || ||
1)
Trang 11(min( x ) 1 max( ) 1)
s mô hình hóa sai s c a biên gi a hai l p
5.2.2 PHNG PHÁP PHI TUY N
Nh ng i v i th gi i th c, d li u r t a d ng Vì v y, ph n này ti p t c m r ng ph ng pháp SVMs trong tr ng h p phi tuy n tính, ó là mô hình hóa m t ph*ng phân chia phi tuy n
m t cách tuy n tính Theo ó Vapnik s d ng m t ánh x
Φ : RN→ F
V i N là s chi u c a không gian nh p; F là không gian a chi u hay còn g i là không gian c tr ng
Trang 12K thu t này cho phép ánh x d li u trong không gian nh p vào trong không gian c tr ng Sau ó dùng các ph ng pháp SVMs trong tr ng h p phân lo i tuy n tính ã nêu trên phân lo i Cu i cùng là ánh x ng c tr l i không
qu trong không gian nh p s% là phi tuy n
Hình 5.5 Quá trình ánh x t! không gian nh p vào không gian c tr ng a Hàm Kernel
Vi c tìm ra m t ph*ng phân tách t i u th ng tính toán r t ph c t p và m t nhi u th i gian cho n khi Vapnik, Boser và Guyon xu t ra gi i thu t tính g i là kernel Cách tính này k t h p các b c trên l i thành m t M t khác, trong công
h ng trong không gian vect Vì th , m t ánh x t! không gian nh p vào không
xi•xj→ Φ(xi).Φ(xj) (5.23)
h ng trong không gian c tr ng nh là m t thao tác tr c ti p trên không gian d li u nh p nh công th c (5.24)
D i ây là m t s hàm kernel thông d ng:
- Kernel a th c (polynomial kernel)
_ _
_ _ _ _ _
_ _
_ _
+ + + + + +
+ +
+ + + + +
+ +
_ _ _
_ _ _
_ _ _
_ _
_
+ + + + +
+ +
+ + +
+ + +
Φ: x Φ(x)
Trang 13Quá trình hu n luy n t p m u theo ph ng pháp SVMs có th s d ng m t
V i các ràng bu c:
(5.27)
c dùng trong quá trình phân lo i các m u m i sau này
(5.25)
,.αα
Trang 14ph n t c n hu n luy n quá l n Vì v y, c n s d ng gi i thu t Chunking, gi i thu t Osuna và gi i thu t SMO gi i quy t bài toán hu n luy n c a SVMs (Hearst, 1998)
a Gi i thu t Chunking:Ý t ng chính c a gi i thu t Chunking là chia nh" v n
x lý M c tiêu là gi l i các h s nhân Lagrange αi > 0 và lo i b" các h s
i u ki n Karush Kuhn Tucker (KKT) N u có ít h n M ph n t vi ph m thì t t c
αi >0 B c cu i cùng c a gi i thu t s% tìm ra t t c các h s nhân Lagrange αi >0
b Gi i thu t Osuna: Ý t ng c a gi i thu t này c#ng t ng t nh gi i thu t
Chunking Ngh$a là chia nh" v n x lý Osuna ngh gi m t kích th c c nh c a ma tr n các ph n t c n t i u hóa m(i b c Do ó, t i m(i b c
c Gi i thu t SMO: Ý t ng c a gi i thu t t i u hóa c c ti u tu n t (SMO
-Sequential Minimal Optimisation) này là trong m(i b c hu n luy n l y 2 i m
Trang 15t ng ng c p nh t vào vect , sao cho th"a ràng bu c tuy n tính trong su t quá trình th c hi n gi i thu t
ph ng pháp SVMs Tuy nhiên, gi i thu t SMO có th i gian hu n luy n nhanh nh t so v i gi i thu t Chunking và Osuna Gi i thu t SMO có th nhanh g p 1000 l n so v i gi i thu t Chunking (Platt, 1998) và không gian b nh c n thi t ch là tuy n tính v i kích th c t p d li u hu n luy n Do ó gi i thu t SMO có th thao tác trên t p d li u r t l n
Xu t phát t! kh n ng, tính hi u qu c a SVMs so v i các ph ng pháp phân lo i d li u khác, c#ng nh kh n ng hi n th c và tính hi u qu c a gi i thu t hu n luy n SMO nên lu n án s d ng ph ng pháp SVMs gi i quy t bài toán rút trích c m danh t! c tr ng ng ngh$a trong câu ti ng Vi t.
5.3 Phát bi u bài toán rút trích c m danh t !c tr ng ng ngh"a trong câu ti ng Vi t
V m t hình th c, bài toán rút trích c m danh t! c tr ng ng ngh$a trong câu
B n ch t c a SVMs là ph ng pháp phân lo i nh phân, t p d li u ban u
khi áp d ng vào bài toán xác nh c m danh t! c tr ng ng ngh$a d a trên th hi n nhãn gom c m IOB (trong ó nhãn I: cho bi t t! trong c m t!; nhãn O: cho bi t t! ngoài c m t!; nhãn B: cho bi t t! b&t u c a c m t! n u tr c ó có c m t! khác li n k ) V i c t bài toán nh trên, ý t ng c a ph ng pháp
nh sau
n u c và k có quan h , hay c là CDT TNN tr ng h p ng c l i
Trang 16Vij(x) = 1 n u gij(x) = +1 hay x là CDT TNN
Cho C là t p các c m t! c n phân lo i có kích th c là N, ch n t!ng c p c m
tham gia (N - 1) l n phân lo i Sau khi hu n luy n y N(N-1)/2 mô hình, vi c
s% t ng ng v i hàm phân lo i sau:
(5.31) v i i u ki n:
và qui c 1vs1 là phân bi t lo i ci v i lo i cj
N u trong t p C g'm các c m t! c n phân lo i có kích th c N: v i ý t ng
ó hàm phân lo i (5.31) tr thành:
v i i = 1,… ,N
(5.32)
5.4 Mô hình ViKEe
ti n x lý nh)m phân o n và gán nhãn t! lo i, (b) mô- un rút trích c m danh t! c tr ng ng ngh$a ti ng Vi t
1 argmax
Trang 17C ch rút trích c m danh t! c tr ng ng ngh$a th c hi n d a trên ph ng
trong ph n 3.4.1 c a Ch ng 3) và có ý ngh$a nh sau:
• Mô- un phân o n t!: tách v n b n thành các t! có ngh$a trong ti ng Vi t • Mô- un gán nhãn t! lo i: xác nh các lo i t! (danh t!, ng t!, tính t!, i
t!, ph t!, ) nh)m cung c p các thông tin v vai trò cú pháp c a t! xu t hi n trong câu
áp d ng ph ng pháp h c máy SVMs, c th là áp d ng gi i thu t SMO hu n
g'm các b c sau
Hình 5.6 Mô hình rút trích CDT TNN-ViKEe Ti#n x$ lý
Phân o n t! Gán nhãn t! lo i
… … … … … … … …
Câu n ti ng Vi t Rút trích c m danh t !c tr ng ng ngh"a
Rút trích c m danh t! c tr ng ng ngh$a ti ng Vi t
Mô hình c hu n luy n
Các CDT TNN
Hu n luy n
Kho ng li u hu n luy n
SVMs (Gi i thu t hu n luy n SMO)
Trang 18• L a ch n tính ch t c tr ng • Xây d ng kho ng li u
• Xây d ng mô hình cho SVMs • Hu n luy n mô hình
• Rút trích các c m danh t c tr ng ng ngh a
5.2.5.1 L a ch n tính ch t c tr ng
Ti ng Vi t không gi ng các ngôn ng bi n hình khác nh ti ng Anh, ti ng Pháp,… T! c a ti ng Vi t có th mang nhi u s&c thái ng ngh$a khác nhau tùy theo ng c nh Ch*ng h n, m t t! có th có nhi u t! lo i khác nhau trong các ng c nh khác nhau
- Ví d : Chúng tôi suy ngh ch a th t chín ch!n (1) Nh ng suy ngh ch a th t chín ch!n c a chúng tôi (2)
V i suy ngh trong câu (1) óng vai trò cú pháp là ng t! n i ng, còn suy
ngh trong câu (2) là danh t! tr!u t ng
Do ó, n u ch d a vào vai trò cú pháp c a t! (v trí c a t! trong câu) xác
vào nhãn t! lo i c a t! mà không quan tâm vai trò cú pháp c a t! thì c#ng không
chính xác u ra c a mô- un phân o n t! và gán nhãn t! lo i (Chau Q Nguyen và Tuoi T Phan, 2006) M t khác, v i ph ng pháp SVMs, s tính ch t c a m u càng nhi u thì thông tin s% càng chi ti t và chính xác, s phân bi t gi a các m u s% rõ ràng h n Tuy nhiên, khi ó s% òi h"i t p d li u hu n luy n càng l n, th i gian hu n luy n c#ng nh th i gian phân lo i s% lâu h n Vì v y, lu n án s d ng
b n tính ch t c tr ng là vai trò cú pháp c a t và nhãn t lo i nh ã nêu trên (Nguy n Quang Châu, H'ng Thanh Lu n, Phan Th T i, 2008) cùng c u trúc cú
pháp c a c m danh t và t quan h gi a các c m danh t cân b)ng gi a các
y u t trên
Trang 19i v i các ph ng pháp h c máy khác nhau thì lo i d li u u vào òi h"i ph i khác nhau Do d li u u vào c a SVMs là các vect s nên các giá tr nêu
vnlex40K.lst (Chau Q.Nguyen và Tuoi T.Phan, 2007) v i kho ng 102.000 t!
tính v trí c a t! trong danh sách Tuy nhiên, vì s l ng t! lo i t ng i l n, s%
Tuoi T.Phan, 2006) v i 50 nhãn t! lo i
Ví d : Câu “ Vi t Nam tr thành thành viên c a WTO khi nào?” N u vect s
hóa t! “ tr thành” v i dài vect m c nh là 3 t! thì có vect s th c v i d ng nh sau:
0.8041931 0.4 0.6351226 0.8 0.0 1.0
Trong ó: 0.8041931: giá tr t! c a “ Vi t Nam”
0.4: giá tr t! lo i c a “ Vi t Nam”
0.6351226: giá tr t! c a “ tr thành” 0.8: giá tr t! lo i c a “ tr thành” 0.0: giá tr t! c a “ thành viên”
1.0: giá tr t! lo i c a “ thành viên”
tham gia tr c ti p trong b c xác nh các nhãn gom c m IOB, là nhãn cho bi t t! ó n)m trong ho c ngoài c m danh t! c tr ng ng ngh$a và 'ng th i là tên l p trong SVMs
c u trúc c m danh t!
V i h ng gi i quy t này, d li u u vào c a SVMs là các vect s ch có hai
giá tr c a tính ch t t và nhãn t lo i thay vì b n tính ch t, nên th i gian hu n