Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt 06

27 509 6
Tài liệu đã được kiểm tra trùng lặp
Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt 06

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt

Trang 1

Ch ng 5

MÔ HÌNH RÚT TRÍCH C M T C TR NG NG NGH A TRONG

TI NG VI T (ViKEe)

5.1 Gi i thi u

Ph ng pháp h c máy mà lu n án trình bày là ph ng pháp Support Vector

n m 1995 M c dù, SVMs ch là ph ng pháp phân lo i nh phân nh ng do tính

Trang 2

hi u qu v t tr i so v i các ph ng pháp phân lo i d li u khác, nên SVMs ã

r t hi u qu trong nhi u v n th c t nh : nh n d ng ch vi t tay, nh n d ng gi ng nĩi, nh n d ng khuơn m t, phân tích gen, phân lo i nh vi n thám,…

i u hịa gi a chính xác và bao ph so sánh tính hi u qu vi c phân lo i v n b n c a SVMs và 4 ph ng pháp h c máy khác K t qu trung bình i u hịa c a 5 ph ng pháp h c (Ph l c G - B ng G.1) cho 10 l p th ng xuyên xu t hi n trong tồn b 118 l p c a t p ng li u Reuters, ã minh ch ng SVMs là ph ng pháp chính xác nh t, m c trung bình 92% cho 10 l p th ng xuyên và

ph ng pháp cây quy t nh (Decision Trees) th p h n 3.6%, cịn m ng Bayes

(Bayes Nets) cĩ kh n ng c i ti n h n Nạve Bayes nh ng k t qu v n th p h n

Ngồi ra, trong cơng trình (Mayer và CS, 2002), các tác gi ã ánh giá m t cách tồn di n tính hi u qu c a ph ng pháp SVMs so v i 16 ph ng pháp khác nhau (Ph l c G - B ng G.2) trong vi c phân lo i trên 21 t p ng li u K t qu th c nghi m trên 21 t p ng li u ( Ph l c G - B ng G.3 và G.4) th hi n ph ng pháp SVMs cĩ sai s th p h n so v i các ph ng pháp khác M c dù khơng ph i luơn t t nh t, nh ng SVMs th ng xuyên trong nhĩm 3 ph ng pháp cĩ sai s th p nh t và d n u trong nhĩm 10 trên 21 t p ng li u th nghi m

T! các k t qu ã nêu trong vi c áp d ng SVMs vào v n phân lo i m u

(Pattern Classification) ho c nh n d ng m u (Pattern Recognition) thì ph ng

pháp SVMs luơn t" ra v t tr i so v i các ph ng pháp h c máy khác c#ng nh tính hi u qu khi áp d ng vào các v n x lý ngơn ng t nhiên

bài tốn phân lo i hay nh n di n m u d a vào m t s các tính ch t c tr ng c a m u.V i hi u qu v t tr i c a SVMs trong vi c phân lo i d li u (Mayer, 2002),

qua các cơng trình áp d ng SVMs (Cheng, 2002; Hearst, 1998; Joachims,

Trang 3

1998;…), so v i các công trình áp d ng ph ng pháp khác ó là lý do lu n án áp d ng ph ng pháp SVMs th c hi n giai o n xác nh các c m danh t! c tr ng ng ngh$a trong câu ti ng Vi t cho mô hình ViKEe

quát ph ng pháp SVMs; Ph n 5.3 là phát bi u bài toán rút trích c m danh t! c tr ng ng ngh$a; Ph n 5.4 trình bày mô hình xu t cho bài toán rút trích c m danh t! c tr ng ng ngh$a trong câu ti ng Vi t; Ph n 5.5 trình bày k t qu th c nghi m và ánh giá; Ph n 5.6 là ph n k t ch ng

5.2 Ph ng pháp Support Vector Machines

C s toán h c c a ph ng pháp phân lo i SVMs là d a trên n n t ng lý thuy t

h c th ng kê (statistical learning theory) và lý thuy t không gian vect (vector space) n&m b&t ph ng pháp SVMs, tr c tiên c n kh o sát các khái ni m và nguyên lý sau

a VC-Dimension: là m t giá tr vô h ng dùng tính s c ch a c a t p các

m i m (v i m>n) th"a mãn i u ki n trên Giá tr c a VC-Dimension là n+1 (Gunn, 1998)

b Nguyên lý c c ti u r i ro c u trúc (Structural Risk Minimization) Ý

t ng c a nguyên lý là tìm m t m t gi thuy t h có th m b o sai s th c th p nh t Sai s th c c a gi thuy t h là xác su t mà h s% t o ra m t l(i sai trên

th c c a gi thuy t h v i v i sai s c a h trên t p hu n luy n và ph c t p c a H c o b i VC-Dimension, v i H là không gian các gi thuy t h SVMs tìm các gi thuy t h sao cho các gi thuy t này làm t i thi u hóa gi i h n trên sai s th c b)ng cách i u khi n có hi u qu VC-Dimension c a không gian gi thuy t H (Gunn, 1998)

Trang 4

Hình 5.1 Nguyên lý c c ti u r i ro c u trúc

r i ro theo kinh nghi m (Empirical Risk Minimization)nh)m làm t i thi u hóa sai s hu n luy n Tuy nhiên, m t v n x y ra là n u ch n không gian gi thuy t h càng l n (VC-Dimension l n – H3) thì sai s hu n luy n s% càng nh" và sai s

t ng Ng c l i n u ch n không gian gi thuy t h càng nh" (VC-Dimension nh"

- H1) thì sai s th c và sai s hu n luy n c#ng s% cao hay còn g i là d i m c i u

ch nh lý t ng Trong c hai tr ng h p, vì có sai s th c cao nên mô hình s% thi u kh n ng d oán các m u m i Ph ng pháp SVMs có nhi m v cân b)ng

SVMs bao g'm ph ng pháp tuy n tính và ph ng pháp phi tuy n

H2 H3 H1

h

tin c y thu t ng Sai s th c

Mô hình t t

nh t V t m c i u ch nh lý t ng

Trang 5

a Tr ng h p phân bi t c

ây là mô hình phân lo i nh phân và c#ng là mô hình n gi n nh t c a SVMs Xét m t t p hu n luy n S nh sau:

S = {(x1,y1), (x2,y2),… (xN,yN)} ⊆ (RN × {+1,-1}) Trong ó :

- xi là vect thành ph n i (i:1 N)

- N là s chi u trong không gian vector

_ _

_

_ _

_ _

w•x - b < 0

w• x - b > 0

+ +

+ +

+

+ +

+ +

x f(x)

Trang 6

b là d i (bias)

a.1 r ng biên c c i c a m t ph ng phân tách

Có r t nhi u b giá tr (w, b) sinh ra các m t ph*ng phân tách t ng ng khác nhau Do ó, SVMs c n ph i tìm ra duy nh t m t m t ph*ng phân tách có r ng biên gi a hai t p S+ và S- là l n nh t H0 (nh Hình 5.3)

w•x - b = -1 v i i u ki n không có i m nào n)m trong kho ng H+ và H-

vect h tr (support vectors) vì có tham gia vào vi c xác nh nên m t ph*ng

phân tách, nh ng i m khác có th không c n xem xét

Bài toán yêu c u xác nh kho ng cách l n nh t gi a hai m t ph*ng phân tách

x

+ + +

+ + + +

+ +

H-

H+ w

d+ d -

_

_ _

_ _ _ _

_ _

x

Hình 5.3 M t ph*ng phân tách (w,b) cho t p hu n luy n hai chi u.

b f(x)

Trang 7

tìm giá tr c c ti u c a ||w||, bài toán t i u (Gunn và CS, 1998) a v tìm c c

a.2 Công th c Lagrange

công th c sau:

(5.8) v i αi ≥0 là h s nhân Lagrange

P || || [ 1]2

=−

Trang 8

(min( x ) 1 max( ) 1)2

b =− wwiyi + + wxiyi

(5.10)

(5.11)

(5.12)

ph*ng phân tách H+ và H- Ng c l i, i v i các giá tr n)m trên H+ và H- thì ,i >

nh" h n t+ng s m u hu n luy n T! ó, ph ng pháp này có tên là SVMs

Vì v y, có th nói vect h( tr là s mô t cô ng c a d li u SVMs b" qua nh ng d li u không cung c p thông tin và ch quan tâm n các i m d li u cung c p nhi u thông tin, ó là các vect h( tr Ý t ng b" qua d li u mà không làm gi m i ch t l ng c a s c l ng là r t hi u qu trong tr ng h p áp d ng SVMs trên các t p d li u l n

a.3 Phân lo i d li u

Trang 9

( )= ( • − )= −=

i1 iii

D a vào hàm phân lo i này gán giá tr m c tiêu +1 ho c -1 cho t t c nh ng i m trong t p d li u c n phân lo i

(noise)

b Tr ng h p không phân bi t c

c (non-separable) Trong tr ng h p này c n m r ng tr ng h p phân bi t c b)ng cách thêm gia s ξ ≥ 0 vào cho m(i i m trong t p hu n luy n (ξ c xem nh m t tham s i u ch nh l i s phân l p sai)

-c vi t l i nh sau:

w•xi - b ≥ +1 - ξi v i m i m u có y i = +1

Hình 5.4 Ví d v m t tr ng h p không phân bi t c.

ph m Tuy nhiên, lúc này m t v n m i phát sinh là tìm giá tr c c ti u c a t+ng

d-

d+ w

H+

ξ

_ _ H- H0

_ _

_

_ _ _ _ + + +

+ + + + + +

xf(x)

Trang 10

P || || [ 1 ]2

12P || ||

1)

Trang 11

(min( x ) 1 max( ) 1)

s mô hình hóa sai s c a biên gi a hai l p

5.2.2 PHNG PHÁP PHI TUY N

Nh ng i v i th gi i th c, d li u r t a d ng Vì v y, ph n này ti p t c m r ng ph ng pháp SVMs trong tr ng h p phi tuy n tính, ó là mô hình hóa m t ph*ng phân chia phi tuy n

m t cách tuy n tính Theo ó Vapnik s d ng m t ánh x

Φ : RN→ F

V i N là s chi u c a không gian nh p; F là không gian a chi u hay còn g i là không gian c tr ng

Trang 12

K thu t này cho phép ánh x d li u trong không gian nh p vào trong không gian c tr ng Sau ó dùng các ph ng pháp SVMs trong tr ng h p phân lo i tuy n tính ã nêu trên phân lo i Cu i cùng là ánh x ng c tr l i không

qu trong không gian nh p s% là phi tuy n

Hình 5.5 Quá trình ánh x t! không gian nh p vào không gian c tr ng a Hàm Kernel

Vi c tìm ra m t ph*ng phân tách t i u th ng tính toán r t ph c t p và m t nhi u th i gian cho n khi Vapnik, Boser và Guyon xu t ra gi i thu t tính g i là kernel Cách tính này k t h p các b c trên l i thành m t M t khác, trong công

h ng trong không gian vect Vì th , m t ánh x t! không gian nh p vào không

xi•xj→ Φ(xi).Φ(xj) (5.23)

h ng trong không gian c tr ng nh là m t thao tác tr c ti p trên không gian d li u nh p nh công th c (5.24)

D i ây là m t s hàm kernel thông d ng:

- Kernel a th c (polynomial kernel)

_ _

_ _ _ _ _

_ _

_ _

+ + + + + +

+ +

+ + + + +

+ +

_ _ _

_ _ _

_ _ _

_ _

_

+ + + + +

+ +

+ + +

+ + +

Φ: x Φ(x)

Trang 13

Quá trình hu n luy n t p m u theo ph ng pháp SVMs có th s d ng m t

V i các ràng bu c:

(5.27)

c dùng trong quá trình phân lo i các m u m i sau này

(5.25)

,.αα

Trang 14

ph n t c n hu n luy n quá l n Vì v y, c n s d ng gi i thu t Chunking, gi i thu t Osuna và gi i thu t SMO gi i quy t bài toán hu n luy n c a SVMs (Hearst, 1998)

a Gi i thu t Chunking:Ý t ng chính c a gi i thu t Chunking là chia nh" v n

x lý M c tiêu là gi l i các h s nhân Lagrange αi > 0 và lo i b" các h s

i u ki n Karush Kuhn Tucker (KKT) N u có ít h n M ph n t vi ph m thì t t c

αi >0 B c cu i cùng c a gi i thu t s% tìm ra t t c các h s nhân Lagrange αi >0

b Gi i thu t Osuna: Ý t ng c a gi i thu t này c#ng t ng t nh gi i thu t

Chunking Ngh$a là chia nh" v n x lý Osuna ngh gi m t kích th c c nh c a ma tr n các ph n t c n t i u hóa m(i b c Do ó, t i m(i b c

c Gi i thu t SMO: Ý t ng c a gi i thu t t i u hóa c c ti u tu n t (SMO

-Sequential Minimal Optimisation) này là trong m(i b c hu n luy n l y 2 i m

Trang 15

t ng ng c p nh t vào vect , sao cho th"a ràng bu c tuy n tính trong su t quá trình th c hi n gi i thu t

ph ng pháp SVMs Tuy nhiên, gi i thu t SMO có th i gian hu n luy n nhanh nh t so v i gi i thu t Chunking và Osuna Gi i thu t SMO có th nhanh g p 1000 l n so v i gi i thu t Chunking (Platt, 1998) và không gian b nh c n thi t ch là tuy n tính v i kích th c t p d li u hu n luy n Do ó gi i thu t SMO có th thao tác trên t p d li u r t l n

Xu t phát t! kh n ng, tính hi u qu c a SVMs so v i các ph ng pháp phân lo i d li u khác, c#ng nh kh n ng hi n th c và tính hi u qu c a gi i thu t hu n luy n SMO nên lu n án s d ng ph ng pháp SVMs gi i quy t bài toán rút trích c m danh t! c tr ng ng ngh$a trong câu ti ng Vi t.

5.3 Phát bi u bài toán rút trích c m danh t !c tr ng ng ngh"a trong câu ti ng Vi t

V m t hình th c, bài toán rút trích c m danh t! c tr ng ng ngh$a trong câu

B n ch t c a SVMs là ph ng pháp phân lo i nh phân, t p d li u ban u

khi áp d ng vào bài toán xác nh c m danh t! c tr ng ng ngh$a d a trên th hi n nhãn gom c m IOB (trong ó nhãn I: cho bi t t! trong c m t!; nhãn O: cho bi t t! ngoài c m t!; nhãn B: cho bi t t! b&t u c a c m t! n u tr c ó có c m t! khác li n k ) V i c t bài toán nh trên, ý t ng c a ph ng pháp

nh sau

n u c và k có quan h , hay c là CDT TNN tr ng h p ng c l i

Trang 16

Vij(x) = 1 n u gij(x) = +1 hay x là CDT TNN

Cho C là t p các c m t! c n phân lo i có kích th c là N, ch n t!ng c p c m

tham gia (N - 1) l n phân lo i Sau khi hu n luy n y N(N-1)/2 mô hình, vi c

s% t ng ng v i hàm phân lo i sau:

(5.31) v i i u ki n:

và qui c 1vs1 là phân bi t lo i ci v i lo i cj

N u trong t p C g'm các c m t! c n phân lo i có kích th c N: v i ý t ng

ó hàm phân lo i (5.31) tr thành:

v i i = 1,… ,N

(5.32)

5.4 Mô hình ViKEe

ti n x lý nh)m phân o n và gán nhãn t! lo i, (b) mô- un rút trích c m danh t! c tr ng ng ngh$a ti ng Vi t

1 argmax

Trang 17

C ch rút trích c m danh t! c tr ng ng ngh$a th c hi n d a trên ph ng

trong ph n 3.4.1 c a Ch ng 3) và có ý ngh$a nh sau:

• Mô- un phân o n t!: tách v n b n thành các t! có ngh$a trong ti ng Vi t • Mô- un gán nhãn t! lo i: xác nh các lo i t! (danh t!, ng t!, tính t!, i

t!, ph t!, ) nh)m cung c p các thông tin v vai trò cú pháp c a t! xu t hi n trong câu

áp d ng ph ng pháp h c máy SVMs, c th là áp d ng gi i thu t SMO hu n

g'm các b c sau

Hình 5.6 Mô hình rút trích CDT TNN-ViKEe Ti#n x$ lý

Phân o n t! Gán nhãn t! lo i

… … … … … … … …

Câu n ti ng Vi t Rút trích c m danh t !c tr ng ng ngh"a

Rút trích c m danh t! c tr ng ng ngh$a ti ng Vi t

Mô hình c hu n luy n

Các CDT TNN

Hu n luy n

Kho ng li u hu n luy n

SVMs (Gi i thu t hu n luy n SMO)

Trang 18

• L a ch n tính ch t c tr ng • Xây d ng kho ng li u

• Xây d ng mô hình cho SVMs • Hu n luy n mô hình

• Rút trích các c m danh t c tr ng ng ngh a

5.2.5.1 L a ch n tính ch t c tr ng

Ti ng Vi t không gi ng các ngôn ng bi n hình khác nh ti ng Anh, ti ng Pháp,… T! c a ti ng Vi t có th mang nhi u s&c thái ng ngh$a khác nhau tùy theo ng c nh Ch*ng h n, m t t! có th có nhi u t! lo i khác nhau trong các ng c nh khác nhau

- Ví d : Chúng tôi suy ngh ch a th t chín ch!n (1) Nh ng suy ngh ch a th t chín ch!n c a chúng tôi (2)

V i suy ngh trong câu (1) óng vai trò cú pháp là ng t! n i ng, còn suy

ngh trong câu (2) là danh t! tr!u t ng

Do ó, n u ch d a vào vai trò cú pháp c a t! (v trí c a t! trong câu) xác

vào nhãn t! lo i c a t! mà không quan tâm vai trò cú pháp c a t! thì c#ng không

chính xác u ra c a mô- un phân o n t! và gán nhãn t! lo i (Chau Q Nguyen và Tuoi T Phan, 2006) M t khác, v i ph ng pháp SVMs, s tính ch t c a m u càng nhi u thì thông tin s% càng chi ti t và chính xác, s phân bi t gi a các m u s% rõ ràng h n Tuy nhiên, khi ó s% òi h"i t p d li u hu n luy n càng l n, th i gian hu n luy n c#ng nh th i gian phân lo i s% lâu h n Vì v y, lu n án s d ng

b n tính ch t c tr ng là vai trò cú pháp c a t và nhãn t lo i nh ã nêu trên (Nguy n Quang Châu, H'ng Thanh Lu n, Phan Th T i, 2008) cùng c u trúc cú

pháp c a c m danh t và t quan h gi a các c m danh t cân b)ng gi a các

y u t trên

Trang 19

i v i các ph ng pháp h c máy khác nhau thì lo i d li u u vào òi h"i ph i khác nhau Do d li u u vào c a SVMs là các vect s nên các giá tr nêu

vnlex40K.lst (Chau Q.Nguyen và Tuoi T.Phan, 2007) v i kho ng 102.000 t!

tính v trí c a t! trong danh sách Tuy nhiên, vì s l ng t! lo i t ng i l n, s%

Tuoi T.Phan, 2006) v i 50 nhãn t! lo i

Ví d : Câu “ Vi t Nam tr thành thành viên c a WTO khi nào?” N u vect s

hóa t! “ tr thành” v i dài vect m c nh là 3 t! thì có vect s th c v i d ng nh sau:

0.8041931 0.4 0.6351226 0.8 0.0 1.0

Trong ó: 0.8041931: giá tr t! c a “ Vi t Nam”

0.4: giá tr t! lo i c a “ Vi t Nam”

0.6351226: giá tr t! c a “ tr thành” 0.8: giá tr t! lo i c a “ tr thành” 0.0: giá tr t! c a “ thành viên”

1.0: giá tr t! lo i c a “ thành viên”

tham gia tr c ti p trong b c xác nh các nhãn gom c m IOB, là nhãn cho bi t t! ó n)m trong ho c ngoài c m danh t! c tr ng ng ngh$a và 'ng th i là tên l p trong SVMs

c u trúc c m danh t!

V i h ng gi i quy t này, d li u u vào c a SVMs là các vect s ch có hai

giá tr c a tính ch t t và nhãn t lo i thay vì b n tính ch t, nên th i gian hu n

Ngày đăng: 07/11/2012, 12:13

Tài liệu cùng người dùng

Tài liệu liên quan