Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt 06

Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt

Trang 1

Ch ng 5

MÔ HÌNH RÚT TRÍCH C M T C TR NG NG NGH A TRONG

TI NG VI T (ViKEe)

5.1 Gi i thi u

Ph ng pháp h c máy mà lu n án trình bày là ph ng pháp Support Vector

n m 1995 M c dù, SVMs ch là ph ng pháp phân lo i nh phân nh ng do tính

Trang 2

hi u qu v t tr i so v i các ph ng pháp phân lo i d li u khác, nên SVMs ã

r t hi u qu trong nhi u v n th c t nh : nh n d ng ch vi t tay, nh n d ng gi ng nĩi, nh n d ng khuơn m t, phân tích gen, phân lo i nh vi n thám,…

i u hịa gi a chính xác và bao ph so sánh tính hi u qu vi c phân lo i v n b n c a SVMs và 4 ph ng pháp h c máy khác K t qu trung bình i u hịa c a 5 ph ng pháp h c (Ph l c G - B ng G.1) cho 10 l p th ng xuyên xu t hi n trong tồn b 118 l p c a t p ng li u Reuters, ã minh ch ng SVMs là ph ng pháp chính xác nh t, m c trung bình 92% cho 10 l p th ng xuyên và

ph ng pháp cây quy t nh (Decision Trees) th p h n 3.6%, cịn m ng Bayes

(Bayes Nets) cĩ kh n ng c i ti n h n Nạve Bayes nh ng k t qu v n th p h n

Ngồi ra, trong cơng trình (Mayer và CS, 2002), các tác gi ã ánh giá m t cách tồn di n tính hi u qu c a ph ng pháp SVMs so v i 16 ph ng pháp khác nhau (Ph l c G - B ng G.2) trong vi c phân lo i trên 21 t p ng li u K t qu th c nghi m trên 21 t p ng li u ( Ph l c G - B ng G.3 và G.4) th hi n ph ng pháp SVMs cĩ sai s th p h n so v i các ph ng pháp khác M c dù khơng ph i luơn t t nh t, nh ng SVMs th ng xuyên trong nhĩm 3 ph ng pháp cĩ sai s th p nh t và d n u trong nhĩm 10 trên 21 t p ng li u th nghi m

T! các k t qu ã nêu trong vi c áp d ng SVMs vào v n phân lo i m u

(Pattern Classification) ho c nh n d ng m u (Pattern Recognition) thì ph ng

pháp SVMs luơn t" ra v t tr i so v i các ph ng pháp h c máy khác c#ng nh tính hi u qu khi áp d ng vào các v n x lý ngơn ng t nhiên

bài tốn phân lo i hay nh n di n m u d a vào m t s các tính ch t c tr ng c a m u.V i hi u qu v t tr i c a SVMs trong vi c phân lo i d li u (Mayer, 2002),

qua các cơng trình áp d ng SVMs (Cheng, 2002; Hearst, 1998; Joachims,

Trang 3

1998;…), so v i các công trình áp d ng ph ng pháp khác ó là lý do lu n án áp d ng ph ng pháp SVMs th c hi n giai o n xác nh các c m danh t! c tr ng ng ngh$a trong câu ti ng Vi t cho mô hình ViKEe

quát ph ng pháp SVMs; Ph n 5.3 là phát bi u bài toán rút trích c m danh t! c tr ng ng ngh$a; Ph n 5.4 trình bày mô hình xu t cho bài toán rút trích c m danh t! c tr ng ng ngh$a trong câu ti ng Vi t; Ph n 5.5 trình bày k t qu th c nghi m và ánh giá; Ph n 5.6 là ph n k t ch ng

5.2 Ph ng pháp Support Vector Machines

C s toán h c c a ph ng pháp phân lo i SVMs là d a trên n n t ng lý thuy t

h c th ng kê (statistical learning theory) và lý thuy t không gian vect (vector space) n&m b&t ph ng pháp SVMs, tr c tiên c n kh o sát các khái ni m và nguyên lý sau

a VC-Dimension: là m t giá tr vô h ng dùng tính s c ch a c a t p các

m i m (v i m>n) th"a mãn i u ki n trên Giá tr c a VC-Dimension là n+1 (Gunn, 1998)

b Nguyên lý c c ti u r i ro c u trúc (Structural Risk Minimization) Ý

t ng c a nguyên lý là tìm m t m t gi thuy t h có th m b o sai s th c th p nh t Sai s th c c a gi thuy t h là xác su t mà h s% t o ra m t l(i sai trên

th c c a gi thuy t h v i v i sai s c a h trên t p hu n luy n và ph c t p c a H c o b i VC-Dimension, v i H là không gian các gi thuy t h SVMs tìm các gi thuy t h sao cho các gi thuy t này làm t i thi u hóa gi i h n trên sai s th c b)ng cách i u khi n có hi u qu VC-Dimension c a không gian gi thuy t H (Gunn, 1998)

Trang 4

Hình 5.1 Nguyên lý c c ti u r i ro c u trúc

r i ro theo kinh nghi m (Empirical Risk Minimization)nh)m làm t i thi u hóa sai s hu n luy n Tuy nhiên, m t v n x y ra là n u ch n không gian gi thuy t h càng l n (VC-Dimension l n – H3) thì sai s hu n luy n s% càng nh" và sai s

t ng Ng c l i n u ch n không gian gi thuy t h càng nh" (VC-Dimension nh"

- H1) thì sai s th c và sai s hu n luy n c#ng s% cao hay còn g i là d i m c i u

ch nh lý t ng Trong c hai tr ng h p, vì có sai s th c cao nên mô hình s% thi u kh n ng d oán các m u m i Ph ng pháp SVMs có nhi m v cân b)ng

SVMs bao g'm ph ng pháp tuy n tính và ph ng pháp phi tuy n

H2 H3 H1

h

tin c y thu t ng Sai s th c

Mô hình t t

nh t V t m c i u ch nh lý t ng

Trang 5

a Tr ng h p phân bi t c

ây là mô hình phân lo i nh phân và c#ng là mô hình n gi n nh t c a SVMs Xét m t t p hu n luy n S nh sau:

S = {(x1,y1), (x2,y2),… (xN,yN)} ⊆ (RN × {+1,-1}) Trong ó :

- xi là vect thành ph n i (i:1 N)

- N là s chi u trong không gian vector

_ _

_

_ _

w•x - b < 0

w• x - b > 0

+ +

+

+ +

x f(x)

Trang 6

b là d i (bias)

a.1 r ng biên c c i c a m t ph ng phân tách

Có r t nhi u b giá tr (w, b) sinh ra các m t ph*ng phân tách t ng ng khác nhau Do ó, SVMs c n ph i tìm ra duy nh t m t m t ph*ng phân tách có r ng biên gi a hai t p S+ và S- là l n nh t H0 (nh Hình 5.3)

w•x - b = -1 v i i u ki n không có i m nào n)m trong kho ng H+ và H-

vect h tr (support vectors) vì có tham gia vào vi c xác nh nên m t ph*ng

phân tách, nh ng i m khác có th không c n xem xét

Bài toán yêu c u xác nh kho ng cách l n nh t gi a hai m t ph*ng phân tách

x

+ + +

+ + + +

+ +

H-

H+ w

d+ d -

_

_ _

_ _ _ _

_ _

x

Hình 5.3 M t ph*ng phân tách (w,b) cho t p hu n luy n hai chi u.

b f(x)

Trang 7

tìm giá tr c c ti u c a ||w||, bài toán t i u (Gunn và CS, 1998) a v tìm c c

a.2 Công th c Lagrange

công th c sau:

(5.8) v i αi ≥0 là h s nhân Lagrange

P || || [ 1]2

=−

Trang 8

(min( x ) 1 max( ) 1)2

b =− ww• iyi + + w•xiyi −

(5.10)

(5.11)

(5.12)

ph*ng phân tách H+ và H- Ng c l i, i v i các giá tr n)m trên H+ và H- thì ,i >

nh" h n t+ng s m u hu n luy n T! ó, ph ng pháp này có tên là SVMs

Vì v y, có th nói vect h( tr là s mô t cô ng c a d li u SVMs b" qua nh ng d li u không cung c p thông tin và ch quan tâm n các i m d li u cung c p nhi u thông tin, ó là các vect h( tr Ý t ng b" qua d li u mà không làm gi m i ch t l ng c a s c l ng là r t hi u qu trong tr ng h p áp d ng SVMs trên các t p d li u l n

a.3 Phân lo i d li u

Trang 9

( )= ( • − )= −=

i1 iii

D a vào hàm phân lo i này gán giá tr m c tiêu +1 ho c -1 cho t t c nh ng i m trong t p d li u c n phân lo i

(noise)

b Tr ng h p không phân bi t c

c (non-separable) Trong tr ng h p này c n m r ng tr ng h p phân bi t c b)ng cách thêm gia s ξ ≥ 0 vào cho m(i i m trong t p hu n luy n (ξ c xem nh m t tham s i u ch nh l i s phân l p sai)

-c vi t l i nh sau:

w•xi - b ≥ +1 - ξi v i m i m u có y i = +1

Hình 5.4 Ví d v m t tr ng h p không phân bi t c.

ph m Tuy nhiên, lúc này m t v n m i phát sinh là tìm giá tr c c ti u c a t+ng

d-

d+ w

H+

ξ

_ _ H- H0

_ _

_

_ _ _ _ + + +

+ + + + + +

xf(x)

Trang 10

P || || [ 1 ]2

12P || ||

1)

Trang 11

(min( x ) 1 max( ) 1)

s mô hình hóa sai s c a biên gi a hai l p

5.2.2 PHNG PHÁP PHI TUY N

Nh ng i v i th gi i th c, d li u r t a d ng Vì v y, ph n này ti p t c m r ng ph ng pháp SVMs trong tr ng h p phi tuy n tính, ó là mô hình hóa m t ph*ng phân chia phi tuy n

m t cách tuy n tính Theo ó Vapnik s d ng m t ánh x

Φ : RN→ F

V i N là s chi u c a không gian nh p; F là không gian a chi u hay còn g i là không gian c tr ng

Trang 12

K thu t này cho phép ánh x d li u trong không gian nh p vào trong không gian c tr ng Sau ó dùng các ph ng pháp SVMs trong tr ng h p phân lo i tuy n tính ã nêu trên phân lo i Cu i cùng là ánh x ng c tr l i không

qu trong không gian nh p s% là phi tuy n

Hình 5.5 Quá trình ánh x t! không gian nh p vào không gian c tr ng a Hàm Kernel

Vi c tìm ra m t ph*ng phân tách t i u th ng tính toán r t ph c t p và m t nhi u th i gian cho n khi Vapnik, Boser và Guyon xu t ra gi i thu t tính g i là kernel Cách tính này k t h p các b c trên l i thành m t M t khác, trong công

h ng trong không gian vect Vì th , m t ánh x t! không gian nh p vào không

xi•xj→ Φ(xi).Φ(xj) (5.23)

h ng trong không gian c tr ng nh là m t thao tác tr c ti p trên không gian d li u nh p nh công th c (5.24)

D i ây là m t s hàm kernel thông d ng:

- Kernel a th c (polynomial kernel)

_ _

_ _ _ _ _

_ _

+ + + + + +

+ +

+ + + + +

+ +

_ _ _

_ _

_

+ + + + +

+ +

+ + +

Φ: x Φ(x)

Trang 13

Quá trình hu n luy n t p m u theo ph ng pháp SVMs có th s d ng m t

V i các ràng bu c:

(5.27)

c dùng trong quá trình phân lo i các m u m i sau này

(5.25)

,.αα

Trang 14

ph n t c n hu n luy n quá l n Vì v y, c n s d ng gi i thu t Chunking, gi i thu t Osuna và gi i thu t SMO gi i quy t bài toán hu n luy n c a SVMs (Hearst, 1998)

a Gi i thu t Chunking:Ý t ng chính c a gi i thu t Chunking là chia nh" v n

x lý M c tiêu là gi l i các h s nhân Lagrange αi > 0 và lo i b" các h s

i u ki n Karush Kuhn Tucker (KKT) N u có ít h n M ph n t vi ph m thì t t c

αi >0 B c cu i cùng c a gi i thu t s% tìm ra t t c các h s nhân Lagrange αi >0

b Gi i thu t Osuna: Ý t ng c a gi i thu t này c#ng t ng t nh gi i thu t

Chunking Ngh$a là chia nh" v n x lý Osuna ngh gi m t kích th c c nh c a ma tr n các ph n t c n t i u hóa m(i b c Do ó, t i m(i b c

c Gi i thu t SMO: Ý t ng c a gi i thu t t i u hóa c c ti u tu n t (SMO

-Sequential Minimal Optimisation) này là trong m(i b c hu n luy n l y 2 i m

Trang 15

t ng ng c p nh t vào vect , sao cho th"a ràng bu c tuy n tính trong su t quá trình th c hi n gi i thu t

ph ng pháp SVMs Tuy nhiên, gi i thu t SMO có th i gian hu n luy n nhanh nh t so v i gi i thu t Chunking và Osuna Gi i thu t SMO có th nhanh g p 1000 l n so v i gi i thu t Chunking (Platt, 1998) và không gian b nh c n thi t ch là tuy n tính v i kích th c t p d li u hu n luy n Do ó gi i thu t SMO có th thao tác trên t p d li u r t l n

Xu t phát t! kh n ng, tính hi u qu c a SVMs so v i các ph ng pháp phân lo i d li u khác, c#ng nh kh n ng hi n th c và tính hi u qu c a gi i thu t hu n luy n SMO nên lu n án s d ng ph ng pháp SVMs gi i quy t bài toán rút trích c m danh t! c tr ng ng ngh$a trong câu ti ng Vi t.

5.3 Phát bi u bài toán rút trích c m danh t !c tr ng ng ngh"a trong câu ti ng Vi t

V m t hình th c, bài toán rút trích c m danh t! c tr ng ng ngh$a trong câu

B n ch t c a SVMs là ph ng pháp phân lo i nh phân, t p d li u ban u

khi áp d ng vào bài toán xác nh c m danh t! c tr ng ng ngh$a d a trên th hi n nhãn gom c m IOB (trong ó nhãn I: cho bi t t! trong c m t!; nhãn O: cho bi t t! ngoài c m t!; nhãn B: cho bi t t! b&t u c a c m t! n u tr c ó có c m t! khác li n k ) V i c t bài toán nh trên, ý t ng c a ph ng pháp

nh sau

n u c và k có quan h , hay c là CDT TNN tr ng h p ng c l i

Trang 16

Vij(x) = 1 n u gij(x) = +1 hay x là CDT TNN

Cho C là t p các c m t! c n phân lo i có kích th c là N, ch n t!ng c p c m

tham gia (N - 1) l n phân lo i Sau khi hu n luy n y N(N-1)/2 mô hình, vi c

s% t ng ng v i hàm phân lo i sau:

(5.31) v i i u ki n:

và qui c 1vs1 là phân bi t lo i ci v i lo i cj

N u trong t p C g'm các c m t! c n phân lo i có kích th c N: v i ý t ng

ó hàm phân lo i (5.31) tr thành:

v i i = 1,… ,N

(5.32)

5.4 Mô hình ViKEe

ti n x lý nh)m phân o n và gán nhãn t! lo i, (b) mô- un rút trích c m danh t! c tr ng ng ngh$a ti ng Vi t

1 argmax

Trang 17

C ch rút trích c m danh t! c tr ng ng ngh$a th c hi n d a trên ph ng

trong ph n 3.4.1 c a Ch ng 3) và có ý ngh$a nh sau:

• Mô- un phân o n t!: tách v n b n thành các t! có ngh$a trong ti ng Vi t • Mô- un gán nhãn t! lo i: xác nh các lo i t! (danh t!, ng t!, tính t!, i

t!, ph t!, ) nh)m cung c p các thông tin v vai trò cú pháp c a t! xu t hi n trong câu

áp d ng ph ng pháp h c máy SVMs, c th là áp d ng gi i thu t SMO hu n

g'm các b c sau

Hình 5.6 Mô hình rút trích CDT TNN-ViKEe Ti#n x$ lý

Phân o n t! Gán nhãn t! lo i

… … … … … … … …

Câu n ti ng Vi t Rút trích c m danh t !c tr ng ng ngh"a

Rút trích c m danh t! c tr ng ng ngh$a ti ng Vi t

Mô hình c hu n luy n

Các CDT TNN

Hu n luy n

Kho ng li u hu n luy n

SVMs (Gi i thu t hu n luy n SMO)

Trang 18

• L a ch n tính ch t c tr ng • Xây d ng kho ng li u

• Xây d ng mô hình cho SVMs • Hu n luy n mô hình

• Rút trích các c m danh t c tr ng ng ngh a

5.2.5.1 L a ch n tính ch t c tr ng

Ti ng Vi t không gi ng các ngôn ng bi n hình khác nh ti ng Anh, ti ng Pháp,… T! c a ti ng Vi t có th mang nhi u s&c thái ng ngh$a khác nhau tùy theo ng c nh Ch*ng h n, m t t! có th có nhi u t! lo i khác nhau trong các ng c nh khác nhau

- Ví d : Chúng tôi suy ngh ch a th t chín ch!n (1) Nh ng suy ngh ch a th t chín ch!n c a chúng tôi (2)

V i suy ngh trong câu (1) óng vai trò cú pháp là ng t! n i ng, còn suy

ngh trong câu (2) là danh t! tr!u t ng

Do ó, n u ch d a vào vai trò cú pháp c a t! (v trí c a t! trong câu) xác

vào nhãn t! lo i c a t! mà không quan tâm vai trò cú pháp c a t! thì c#ng không

chính xác u ra c a mô- un phân o n t! và gán nhãn t! lo i (Chau Q Nguyen và Tuoi T Phan, 2006) M t khác, v i ph ng pháp SVMs, s tính ch t c a m u càng nhi u thì thông tin s% càng chi ti t và chính xác, s phân bi t gi a các m u s% rõ ràng h n Tuy nhiên, khi ó s% òi h"i t p d li u hu n luy n càng l n, th i gian hu n luy n c#ng nh th i gian phân lo i s% lâu h n Vì v y, lu n án s d ng

b n tính ch t c tr ng là vai trò cú pháp c a t và nhãn t lo i nh ã nêu trên (Nguy n Quang Châu, H'ng Thanh Lu n, Phan Th T i, 2008) cùng c u trúc cú

pháp c a c m danh t và t quan h gi a các c m danh t cân b)ng gi a các

y u t trên

Trang 19

i v i các ph ng pháp h c máy khác nhau thì lo i d li u u vào òi h"i ph i khác nhau Do d li u u vào c a SVMs là các vect s nên các giá tr nêu

vnlex40K.lst (Chau Q.Nguyen và Tuoi T.Phan, 2007) v i kho ng 102.000 t!

tính v trí c a t! trong danh sách Tuy nhiên, vì s l ng t! lo i t ng i l n, s%

Tuoi T.Phan, 2006) v i 50 nhãn t! lo i

Ví d : Câu “ Vi t Nam tr thành thành viên c a WTO khi nào?” N u vect s

hóa t! “ tr thành” v i dài vect m c nh là 3 t! thì có vect s th c v i d ng nh sau:

0.8041931 0.4 0.6351226 0.8 0.0 1.0

Trong ó: 0.8041931: giá tr t! c a “ Vi t Nam”

0.4: giá tr t! lo i c a “ Vi t Nam”

0.6351226: giá tr t! c a “ tr thành” 0.8: giá tr t! lo i c a “ tr thành” 0.0: giá tr t! c a “ thành viên”

1.0: giá tr t! lo i c a “ thành viên”

tham gia tr c ti p trong b c xác nh các nhãn gom c m IOB, là nhãn cho bi t t! ó n)m trong ho c ngoài c m danh t! c tr ng ng ngh$a và 'ng th i là tên l p trong SVMs

c u trúc c m danh t!

V i h ng gi i quy t này, d li u u vào c a SVMs là các vect s ch có hai

giá tr c a tính ch t t và nhãn t lo i thay vì b n tính ch t, nên th i gian hu n

Định dạng
Số trang	27
Dung lượng	1 MB