Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt 06

27 509 6
Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt 06

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt

hình rút trích cm t c trng ng ngha trong ting Vit 75 Chng 5 HÌNH RÚT TRÍCH CM T C TRNG NG NGHA TRONG TING VIT (ViKEe) PHNG PHÁP HC MÁY 5.1 Gii thiu Phng pháp hc máy mà lun án trình bày là phng pháp Support Vector Machines (SVMs), nó chính là phng pháp phân loi d liu có giám sát da trên nguyên lý cc tiu hóa ri ro cu trúc, c Vapnik gii thiu ln u tiên vào nm 1995. Mc dù, SVMs ch là phng pháp phân loi nh phân nhng do tính Mơ hình rút trích cm t c trng ng ngha trong ting Vit 76 hiu qu vt tri so vi các phng pháp phân loi d liu khác, nên SVMs ã c phát trin  có th áp dng cho các bài tốn a phân loi và c ng dng rt hiu qu trong nhiu vn  thc t nh: nhn dng ch vit tay, nhn dng ging nói, nhn dng khn mt, phân tích gen, phân loi nh vin thám,… Trong cơng trình (Dumais và Susan, 1998), các tác gi dùng  o trung bình iu hòa gia  chính xác và  bao ph  so sánh tính hiu qu vic phân loi vn bn ca SVMs và 4 phng pháp hc máy khác. Kt qu  trung bình iu hòa ca 5 phng pháp hc (Ph lc G - Bng G.1) cho 10 lp thng xun xut hin trong tồn b 118 lp ca tp ng liu Reuters, ã minh chng SVMs là phng pháp chính xác nht, mc trung bình 92% cho 10 lp thng xun và 87% cho tt c 118 lp.  chính xác ca 4 phng pháp còn li thp hn SVMs, phng pháp cây quyt nh (Decision Trees) thp hn 3.6%, còn mng Bayes (Bayes Nets) có kh nng ci tin hn Nạve Bayes nhng kt qu vn thp hn SVMs. Ngồi ra, trong cơng trình (Mayer và CS, 2002), các tác gi ã ánh giá mt cách tồn din tính hiu qu ca phng pháp SVMs so vi 16 phng pháp khác nhau (Ph lc G - Bng G.2) trong vic phân loi trên 21 tp ng liu. Kt qu thc nghim trên 21 tp ng liu ( Ph lc G - Bng G.3 và G.4) th hin phng pháp SVMs có sai s thp hn so vi các phng pháp khác. Mc dù khơng phi ln tt nht, nhng SVMs thng xun  trong nhóm 3 phng pháp có sai s thp nht và dn u trong nhóm 10 trên 21 tp ng liu th nghim. T! các kt qu ã nêu trong vic áp dng SVMs vào vn  phân loi mu (Pattern Classification) hoc nhn dng mu (Pattern Recognition) thì phng pháp SVMs ln t" ra vt tri so vi các phng pháp hc máy khác c#ng nh tính hiu qu khi áp dng vào các vn  x lý ngơn ng t nhiên. Quan im ca lun án là qui vic rút trích cm danh t! c trng ng ngh$a v bài tốn phân loi hay nhn din mu da vào mt s các tính cht c trng ca mu.Vi hiu qu vt tri ca SVMs trong vic phân loi d liu (Mayer, 2002), thì khi áp dng SVMs s% t c nhiu kt qu rt kh quan, minh chng th hin qua các cơng trình áp dng SVMs (Cheng, 2002; Hearst, 1998; Joachims, Mô hình rút trích cm t c trng ng ngha trong ting Vit 77 1998;…), so vi các công trình áp dng phng pháp khác. ó là lý do lun án áp dng phng pháp SVMs  thc hin giai on xác nh các cm danh t! c trng ng ngh$a trong câu ting Vit cho hình ViKEe. Các phn còn li ca chng này c b cc nh sau: Phn 5.2 trình bày khái quát phng pháp SVMs; Phn 5.3 là phát biu bài toán rút trích cm danh t! c trng ng ngh$a; Phn 5.4 trình bày hình  xut cho bài toán rút trích cm danh t! c trng ng ngh$a trong câu ting Vit; Phn 5.5 trình bày kt qu thc nghim và ánh giá; Phn 5.6 là phn kt chng. 5.2 Phng pháp Support Vector Machines C s toán hc ca phng pháp phân loi SVMs là da trên nn tng lý thuyt hc thng kê (statistical learning theory) và lý thuyt không gian vect (vector space).  n&m b&t phng pháp SVMs, trc tiên cn kho sát các khái nim và nguyên lý sau. a. VC-Dimension: là mt giá tr vô hng dùng  tính sc cha ca tp các hàm tuyn tính và c nh ngh$a là tp hp các im (có n im) mà các im này có th phân chia thành 2n các cu hình có th và không t'n ti tp hp nào có m im (vi m>n) th"a mãn iu kin trên. Giá tr ca VC-Dimension là n+1 (Gunn, 1998). b. Nguyên lý cc tiu ri ro cu trúc (Structural Risk Minimization). Ý tng ca nguyên lý là tìm mt mt gi thuyt h  có th m bo sai s thc thp nht. Sai s thc ca gi thuyt h là xác sut mà h s% to ra mt l(i sai trên mt mu cha bit và c chn ngu nhiên. Mt cn trên dùng  liên kt sai s thc ca gi thuyt h vi vi sai s ca h trên tp hun luyn và  phc tp ca H c o bi VC-Dimension, vi H là không gian các gi thuyt h. SVMs tìm các gi thuyt h sao cho các gi thuyt này làm ti thiu hóa gii hn trên sai s thc b)ng cách iu khin có hiu qu VC-Dimension ca không gian gi thuyt H (Gunn, 1998). Mô hình rút trích cm t c trng ng ngha trong ting Vit 78 Hình 5.1 Nguyên lý cc tiu ri ro cu trúc. Hu ht các phng pháp hc máy trc ây u s dng nguyên lý cc tiu ri ro theo kinh nghim (Empirical Risk Minimization) nh)m làm ti thiu hóa sai s hun luyn. Tuy nhiên, mt vn  xy ra là nu chn không gian gi thuyt h càng ln (VC-Dimension ln – H3) thì sai s hun luyn s% càng nh" và sai s thc s% càng cao. Trng hp này thng c gi là vt mc iu chnh lý tng. Ngc li nu chn không gian gi thuyt h càng nh" (VC-Dimension nh" - H1) thì sai s thc và sai s hun luyn c#ng s% cao hay còn gi là di mc iu chnh lý tng. Trong c hai trng hp, vì có sai s thc cao nên hình s% thiu kh nng d oán các mu mi. Phng pháp SVMs có nhim v cân b)ng gia  ln ca không gian gi thuyt c chn và sai s hun luyn. C th, SVMs bao g'm phng pháp tuyn tính và phng pháp phi tuyn. 5.2.1 Phng pháp tuyn tính Phng pháp tuyn tính bao g'm hai trng hp: phân bit c và không phân bit c. Sai s Sai s hun luyn Di mc iu chnh lý tng H2 H3 H1 h  tin cy thut ng Sai s thc hình tt nht Vt mc iu chnh lý tng Mô hình rút trích cm t c trng ng ngha trong ting Vit 79 a. Trng hp phân bit c ây là hình phân loi nh phân và c#ng là hình n gin nht ca SVMs. Xét mt tp hun luyn S nh sau: S = {(x1,y1), (x2,y2),… (xN,yN)} ⊆ (RN × {+1,-1}) Trong ó : - xi là vect thành phn i (i:1 N) - N là s chiu trong không gian vector - yi là giá tr mc tiêu dùng  phân bit trên m(i xi Mc tiêu vic phân loi là tìm ra mt hàm tuyn tính f c nh ngh$a nh sau. f: RN → {+1,-1} ; sao cho f(xi) = yi, vi ∀(xi, yi) ∈ S. Qui c: f(xi) > 0 c gán cho giá tr mc tiêu yi = +1 thuc tp S+ c biu din trên Hình 5.2 b)ng nhng du “+”, ngc li nu f(xi) < 0 thì c gán giá tr mc tiêu yi = -1 thuc tp S- c biu din trên Hình 5.2 b)ng nhng du “-”. Hình 5.2 Các mt ph*ng phân tách. Vi mc tiêu là làm th nào  có th phân bit c 2 tp S+ và S-, hàm f c nh ngh$a nh sau: f(x) = sign(w•x - b) (5.1) vi: w là vect trng s (weight vector) _ _ _ _ _ _ _ _ _ w•x - b < 0 w•x - b > 0 + + + + + + + + + x f(x) Mô hình rút trích cm t c trng ng ngha trong ting Vit 80 b là  di (bias) Khi ó, bài toán cn xây dng mt mt phng phân tách (hyperplane) H0 th"a: H0 = w•x - b = 0 (5.2) H0 c nh ngh$a là ranh gii gia tp S+ và S-, hai tp này c gi là phân bit tuyn tính bi mt ph*ng phân tách nu tìm c cp giá tr (w,b) sao cho mt ph*ng phân tách phân bit c tp S+ và S- (nh trên Hình 5.2). a.1  rng biên cc i ca mt phng phân tách Có rt nhiu b giá tr (w, b)  sinh ra các mt ph*ng phân tách tng ng khác nhau. Do ó, SVMs cn phi tìm ra duy nht mt mt ph*ng phân tách có  rng biên gia hai tp S+ và S- là ln nht H0 (nh Hình 5.3). Gi s ã có mt mt ph*ng phân tách H0= w•x - b = 0 thì luôn tìm c hai mt ph*ng phân tách H+ và H- song song vi H0 sao cho: H+= w•x - b = +1 và H-= w•x - b = -1 vi iu kin không có im nào n)m trong khong H+ và H- . Nhng im n)m trên H+ và H- (nhng im c khoanh tròn) c gi là nhng vect h tr (support vectors) vì có tham gia vào vic xác nh nên mt ph*ng phân tách, nhng im khác có th không cn xem xét. Bài toán yêu cu xác nh khong cách ln nht gia hai mt ph*ng phân tách H- và H+. Nh ã bit, trong hình hc ph*ng khong cách t! mt im (x0, y0) n ng th*ng A.x + B.y + C = 0 c xác nh là: x + + + + + + + + + H0 H- H+ w d+ d - _ _ _ _ _ _ _ _ _ x Hình 5.3 Mt ph*ng phân tách (w,b) cho tp hun luyn hai chiu. b f(x) Mô hình rút trích cm t c trng ng ngha trong ting Vit 81 ||||2||||||||||||wwbxwwbxwdd=−•+−•=+−+−+ (5.3) Tng t, trong không gian vect thì khong cách t! mt im n)m trên H+ n H0= w•x - b = 0 c xác nh là (Gunn và CS, 1998): (5.4) Khi ó, khong cách gia hai mt ph*ng phân tách H+ và H- c tính b)ng: (5.5) Vì vy,  cho khong cách ca H+ và H- t cc i thì ||w|| phi cc tiu, vi iu kin không có im hun luyn nào n)m gia hai mt ph*ng phân tách H+ và H-, ngh$a là: w•xi - b ≥ +1 vi mi mu có yi = +1 w•xi - b ≤ -1 vi mi mu có yi = -1 (5.6) kt hp hai iu kin trên công thc (5.6) có th vit t+ng quát li nh sau: yi(w•xi - b) ≥ +1 | ∀i (5.7)  tìm khong cách cc i ca hai mt ph*ng phân tách H+ và H- thay vì tìm tìm giá tr cc tiu ca ||w||, bài toán ti u (Gunn và CS, 1998) a v tìm cc tiu ca ||w||2 vi ràng buc cho  công thc (5.7). a.2 Công thc Lagrange Theo lý thuyt h s nhân Lagrange thì bài toán tìm cc tiu ca ||w||2 s% có công thc sau: (5.8) vi αi ≥0 là h s nhân Lagrange ( )−−•−≡=liiiibxwyw12P]1[||||21LMinα2200||BACByAx+++||||1||||||wwbxw=−•+ Mô hình rút trích cm t c trng ng ngha trong ting Vit 82 −===ljijijijiliixxyy1,1D,21LMaxααα( )11)max()xmin(21b−=+=•+•−=iiyiyixwww>=0:wiiiiixyαα01==liiiyαLy o hàm riêng phn ca hàm LP (theo w và b) và th vào công thc trên, bài toán tr thành: (5.9) Vi ràng buc là: (5.10) T! ây, vic hun luyn SVMs có th xem nh vic tìm cc i ca LD ng vi vic tìm các giá tr ,i tho mãn ràng buc (5.10) và ,i dng, khi ó vect trng s w c tính b)ng công thc (5.11): (5.11) Và  di b c tính b)ng công thc (5.12): (5.12) Mt chi tit quan trng là ,i = 0 i vi các giá tr xi không n)m trên các mt ph*ng phân tách H+ và H-. Ngc li, i vi các giá tr n)m trên H+ và H- thì ,i > 0, các im này c gi là các vect h( tr, vi s lng các vect h( tr luôn nh" hn t+ng s mu hun luyn. T! ó, phng pháp này có tên là SVMs. Vì vy, có th nói vect h( tr là s t cô ng ca d liu. SVMs b" qua nhng d liu không cung cp thông tin và ch quan tâm n các im d liu cung cp nhiu thông tin, ó là các vect h( tr. Ý tng b" qua d liu mà không làm gim i cht lng ca s c lng là rt hiu qu trong trng hp áp dng SVMs trên các tp d liu ln. a.3 Phân loi d liu Các giá tr ti u αi v!a tìm c th vào công thc (5.11) s% tìm c vect trng s w tng ng. Lúc này hàm phân loi có th c vit li nh sau: Mô hình rút trích cm t c trng ng ngha trong ting Vit 83 ( ) ( )−=−•==bxxysignbsignxfliiii1,xwα (5.13) Da vào hàm phân loi này  gán giá tr mc tiêu +1 hoc -1 cho tt c nhng im trong tp d liu cn phân loi. Vi phân tích trên, trng hp các im trong tp S+ và S- là phân bit rõ ràng. Nhng trên thc t, có nhng im trong tp S+ n)m trong tp S- và ngc li. Lúc này tp S+ và S- không còn 'ng nht na. Trng hp này c gi là nhiu (noise). b. Trng hp không phân bit c Trng hp tp S+ và S- không còn 'ng nht c gi là không phân bit c (non-separable). Trong trng hp này cn m rng trng hp phân bit c b)ng cách thêm gia s ξ ≥ 0 vào cho m(i im trong tp hun luyn (ξ c xem nh mt tham s  iu chnh li s phân lp sai). iu kin  không có nhng im n)m gia hai mt ph*ng phân tách H+ và H- c vit li nh sau: w•xi - b ≥ +1 - ξi vi mi mu có y i = +1 w•xi - b ≤ -1 + ξi vi mi mu có yi = -1 (5.14) Hình 5.4 Ví d v mt trng hp không phân bit c. S b+ sung các gia s ξi nh)m m bo các ràng buc  (5.6) không b vi phm. Tuy nhiên, lúc này mt vn  mi phát sinh là tìm giá tr cc tiu ca t+ng d- d+ w H+ ξ _ _ H- H0 _ _ _ _ _ _ _ + + + + + + + + + x f(x) Mô hình rút trích cm t c trng ng ngha trong ting Vit 84 −===ljijijijiliixxyy1,1D,21LMaxαααkliiCw+=12||||ξ( )−+−−−+≡==liiiliiiiiliibxwyCwξµξαξ112P]1.[||||21LMin( )+−−−−+≡=liiliiiliiiiliiiibywxyCwαααξµα12P||||21L−===ljijijijiliixxyyW1,1,21)(Maxαααα||w||2 và t+ng các sai s phân lp sai. Hàm mc tiêu bây gi c m rng là tìm cc tiu ca công thc (5.15): (5.15) Vi: C là h s iu chnh gia các gia s ξi và ||w||2 k là mt s nguyên thuc tp {1, 2} Hàm ràng buc trong công thc (5.7) c vit li: yi.(w•xi - b) ≥ 1 - ξi vi i = 1,… ,l và ξi ≥ 0 , vi i = 1,… ,l (5.16) Áp dng lý thuyt Lagrange ta có: (5.17) vi αi, µi≥0 là h s nhân Lagrange Ly o hàm riêng phn ca LP (theo w, ξ, b) và th vào hàm Lagrange, bài toán tr thành: (5.18) Kt hp vi iu kin ca Karush - Kuhn – Tucker (KKT): αi.[yi.(w•xi - b) -1 + ξi] = 0 vi i = 1,… , l (5.19) Bài toán c tóm t&t li nh sau: 0 ≤ αi ≤ C (5.20) [...]... vào cho c hai giai o n hu n luy n và rút trích CDT TNN 5.2.5 UN RÚT TRÍCH C M DANH T TRONG TI NG VI T V gi i thu t, ph g'm các b ng pháp SVMs c dùng c sau 91 C TR NG NG NGH A rút trích các CDT TNN, bao hình rút trích c m t • c tr ng ng ngh a trong ti ng Vi t L a ch n tính ch t c tr ng • Xây d ng kho ng li u • Xây d ng hình cho SVMs • Hu n luy n hìnhRút trích các c m danh t 5.2.5.1 L a ch... hình ViKEe hình c tác gi xu t (Hình 5.6) bao g'm hai mô- un là (a) mô- un ti n x lý nh)m phân o n và gán nhãn t! lo i, (b) mô- un rút trích c m danh t! c tr ng ng ngh$a ti ng Vi t 90 hình rút trích c m t Câu c tr ng ng ngh a trong ti ng Vi t Rút trích c m danh t n ti ng Vi t ……… … … ……… ! tr ng ng ngh"a c Hu n luy n SVMs (Gi i thu t hu n luy n SMO) Kho ng li u hu n luy n Ti#n x$ lý hình c hu... CDT TNN Phân o n t! Rút trích c m danh t! c tr ng ng ngh$a ti ng Vi t Gán nhãn t! lo i Hình 5.6 hình rút trích CDT TNN-ViKEe C ch rút trích c m danh t! pháp h c máy l n l t c tr ng ng ngh$a th c hi n d a trên ph ng c trình bày qua các bài toán (Hình 5.6): - Các mô- un ti n x lý trong ph n 3.4.1 c a Ch c phát tri n m i cho ti ng Vi t ( c trình bày ng 3) và có ý ngh$a nh sau: • Mô- un phân o n t!:... cho bi t t! b&t c m t! khác li n k ) V i SVMs trong c m t!; nhãn O: cho u c a c m t! n u tr c t bài toán nh trên, ý t rút trích c m danh t! ng c a ph c tr ng ng ngh$a trong ti ng Vi t nh sau 89 c bi t là c tr ng ng ngh$a d a trên th hi n nhãn gom c m IOB (trong ó nhãn I: cho bi t t! bi t t! u c ó có ng pháp c t hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t Cho C là t p các c m t! c n... Minimal Optimisation) này là trong m(i b c hu n luy n l y 2 i m m u trong t p hu n luy n th"a i u ki n ch n c a heuristic 88 tìm các giá tr ,1, ,2 hình rút trích c m t t c tr ng ng ngh a trong ti ng Vi t ng ng c p nh t vào vect , sao cho th"a ràng bu c tuy n tính trong su t quá trình th c hi n gi i thu t Ba gi i thu t trên ph c s d ng ph+ bi n trong b c hu n luy n hình c a ng pháp SVMs Tuy nhiên,... Xây d ng hình cho SVMs Do các u i m c a gi i thu t SMO trong vi c hu n luy n cho SVMs (Jones, 2001), nên lu n án ã áp d ng hu n luy n t p d li u t o ra m t hình dùng trong quá trình phân l p Gi i thu t g'm ba th t c chính: Th t c svmLearn(): quét trên t p các m u tìm các m u vi ph m ràng bu c Th t c examineExample(i2): ch n h s nhân Lagrange 95 hình rút trích c m t c tr ng ng ngh a trong ti... hu n luy n, vì d li u c hình theo ba nhãn gom c m nên t p tin hình tr ng s s% ch a 3 b phân lo i t ng ng v i các l p I, O và B 5.2.5.5 Rút trích các c m danh t c tr ng ng ngh a u vào c a vi c rút trích c#ng là t p vect s th c nh giai o n hu n luy n m(i vect i di n cho m t t! trong câu ch a thông tin c a t! trung tâm cùng thông tin c a các t! ng c nh lân c n T! t p tin hình tr ng s , cho m(i... h p ViKEe Nh v y, v i ViKEe theo h ng chính xác, y và trung bình i u hòa c a hình ng ti p c n rút trích CDT TNN c m c tiêu c trong B ng 5.3 ã áp ra c a lu n án và s% góp ph n c i thi n hi u su t c a hình k t h p ViKE trong tr hình ViKEa theo h t ng h p các CDT TNN không ng xác nh d a trên Ontology ViO 101 c xác nh trong ... có d ng nh sau: ! "# $%& ' # ( ) ) 94 hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t * + %, - ( ( / 0 1 Trong ó: 1 I: t! trong c m t! O: t! ngoài c m t! B: t! b&t u c a c m t! n u tr c ó có c m t! khác li n k Cách bi u di n d li u b)ng các nhãn gom c m IOB m c dù n gi n nh ng ã ch ng t" tính hi u qu so v i các cách bi u di n d li u khác trong vi c rút trích các thu t ng (Cheng, 2002; Kudo,... h th ng ViKEe khi m r ng thêm 100 hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t hai tính ch t c u trúc c m t , và t quan h gi a các c m t là V2 Lu n án ti n hành ánh giá trên t p ng li u C1 g'm 2.079 câu 5.2.5.2 K t qu t c chính xác, y n ã c trình bày , và m c trung bình i u hòa F nh B ng 5.3 B ng 5.3: K t qu# rút trích CDT"TNN c a hình ViKEe hình ViKEe S% câu Precision Recall F Hai . Mô hình rút trích cm t c trng ng ngha trong ting Vit 75 Chng 5 MÔ HÌNH RÚT TRÍCH CM T C TRNG NG NGHA TRONG TING. fi(x) là mô hình phân loi SVMs lp th i ca N lp phân loi SVMs. 5.4 Mô hình ViKEe Mô hình c tác gi  xut (Hình 5.6) bao g'm hai mô- un

Ngày đăng: 07/11/2012, 12:13

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan