Đang tải... (xem toàn văn)
Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt
Mô hình rút trích cm t c trng ng ngha trong ting Vit 75 Chng 5 MÔ HÌNH RÚT TRÍCH CM T C TRNG NG NGHA TRONG TING VIT (ViKEe) PHNG PHÁP HC MÁY 5.1 Gii thiu Phng pháp hc máy mà lun án trình bày là phng pháp Support Vector Machines (SVMs), nó chính là phng pháp phân loi d liu có giám sát da trên nguyên lý cc tiu hóa ri ro cu trúc, c Vapnik gii thiu ln u tiên vào nm 1995. Mc dù, SVMs ch là phng pháp phân loi nh phân nhng do tính Mơ hình rút trích cm t c trng ng ngha trong ting Vit 76 hiu qu vt tri so vi các phng pháp phân loi d liu khác, nên SVMs ã c phát trin có th áp dng cho các bài tốn a phân loi và c ng dng rt hiu qu trong nhiu vn thc t nh: nhn dng ch vit tay, nhn dng ging nói, nhn dng khn mt, phân tích gen, phân loi nh vin thám,… Trong cơng trình (Dumais và Susan, 1998), các tác gi dùng o trung bình iu hòa gia chính xác và bao ph so sánh tính hiu qu vic phân loi vn bn ca SVMs và 4 phng pháp hc máy khác. Kt qu trung bình iu hòa ca 5 phng pháp hc (Ph lc G - Bng G.1) cho 10 lp thng xun xut hin trong tồn b 118 lp ca tp ng liu Reuters, ã minh chng SVMs là phng pháp chính xác nht, mc trung bình 92% cho 10 lp thng xun và 87% cho tt c 118 lp. chính xác ca 4 phng pháp còn li thp hn SVMs, phng pháp cây quyt nh (Decision Trees) thp hn 3.6%, còn mng Bayes (Bayes Nets) có kh nng ci tin hn Nạve Bayes nhng kt qu vn thp hn SVMs. Ngồi ra, trong cơng trình (Mayer và CS, 2002), các tác gi ã ánh giá mt cách tồn din tính hiu qu ca phng pháp SVMs so vi 16 phng pháp khác nhau (Ph lc G - Bng G.2) trong vic phân loi trên 21 tp ng liu. Kt qu thc nghim trên 21 tp ng liu ( Ph lc G - Bng G.3 và G.4) th hin phng pháp SVMs có sai s thp hn so vi các phng pháp khác. Mc dù khơng phi ln tt nht, nhng SVMs thng xun trong nhóm 3 phng pháp có sai s thp nht và dn u trong nhóm 10 trên 21 tp ng liu th nghim. T! các kt qu ã nêu trong vic áp dng SVMs vào vn phân loi mu (Pattern Classification) hoc nhn dng mu (Pattern Recognition) thì phng pháp SVMs ln t" ra vt tri so vi các phng pháp hc máy khác c#ng nh tính hiu qu khi áp dng vào các vn x lý ngơn ng t nhiên. Quan im ca lun án là qui vic rút trích cm danh t! c trng ng ngh$a v bài tốn phân loi hay nhn din mu da vào mt s các tính cht c trng ca mu.Vi hiu qu vt tri ca SVMs trong vic phân loi d liu (Mayer, 2002), thì khi áp dng SVMs s% t c nhiu kt qu rt kh quan, minh chng th hin qua các cơng trình áp dng SVMs (Cheng, 2002; Hearst, 1998; Joachims, Mô hình rút trích cm t c trng ng ngha trong ting Vit 77 1998;…), so vi các công trình áp dng phng pháp khác. ó là lý do lun án áp dng phng pháp SVMs thc hin giai on xác nh các cm danh t! c trng ng ngh$a trong câu ting Vit cho mô hình ViKEe. Các phn còn li ca chng này c b cc nh sau: Phn 5.2 trình bày khái quát phng pháp SVMs; Phn 5.3 là phát biu bài toán rút trích cm danh t! c trng ng ngh$a; Phn 5.4 trình bày mô hình xut cho bài toán rút trích cm danh t! c trng ng ngh$a trong câu ting Vit; Phn 5.5 trình bày kt qu thc nghim và ánh giá; Phn 5.6 là phn kt chng. 5.2 Phng pháp Support Vector Machines C s toán hc ca phng pháp phân loi SVMs là da trên nn tng lý thuyt hc thng kê (statistical learning theory) và lý thuyt không gian vect (vector space). n&m b&t phng pháp SVMs, trc tiên cn kho sát các khái nim và nguyên lý sau. a. VC-Dimension: là mt giá tr vô hng dùng tính sc cha ca tp các hàm tuyn tính và c nh ngh$a là tp hp các im (có n im) mà các im này có th phân chia thành 2n các cu hình có th và không t'n ti tp hp nào có m im (vi m>n) th"a mãn iu kin trên. Giá tr ca VC-Dimension là n+1 (Gunn, 1998). b. Nguyên lý cc tiu ri ro cu trúc (Structural Risk Minimization). Ý tng ca nguyên lý là tìm mt mt gi thuyt h có th m bo sai s thc thp nht. Sai s thc ca gi thuyt h là xác sut mà h s% to ra mt l(i sai trên mt mu cha bit và c chn ngu nhiên. Mt cn trên dùng liên kt sai s thc ca gi thuyt h vi vi sai s ca h trên tp hun luyn và phc tp ca H c o bi VC-Dimension, vi H là không gian các gi thuyt h. SVMs tìm các gi thuyt h sao cho các gi thuyt này làm ti thiu hóa gii hn trên sai s thc b)ng cách iu khin có hiu qu VC-Dimension ca không gian gi thuyt H (Gunn, 1998). Mô hình rút trích cm t c trng ng ngha trong ting Vit 78 Hình 5.1 Nguyên lý cc tiu ri ro cu trúc. Hu ht các phng pháp hc máy trc ây u s dng nguyên lý cc tiu ri ro theo kinh nghim (Empirical Risk Minimization) nh)m làm ti thiu hóa sai s hun luyn. Tuy nhiên, mt vn xy ra là nu chn không gian gi thuyt h càng ln (VC-Dimension ln – H3) thì sai s hun luyn s% càng nh" và sai s thc s% càng cao. Trng hp này thng c gi là vt mc iu chnh lý tng. Ngc li nu chn không gian gi thuyt h càng nh" (VC-Dimension nh" - H1) thì sai s thc và sai s hun luyn c#ng s% cao hay còn gi là di mc iu chnh lý tng. Trong c hai trng hp, vì có sai s thc cao nên mô hình s% thiu kh nng d oán các mu mi. Phng pháp SVMs có nhim v cân b)ng gia ln ca không gian gi thuyt c chn và sai s hun luyn. C th, SVMs bao g'm phng pháp tuyn tính và phng pháp phi tuyn. 5.2.1 Phng pháp tuyn tính Phng pháp tuyn tính bao g'm hai trng hp: phân bit c và không phân bit c. Sai s Sai s hun luyn Di mc iu chnh lý tng H2 H3 H1 h tin cy thut ng Sai s thc Mô hình tt nht Vt mc iu chnh lý tng Mô hình rút trích cm t c trng ng ngha trong ting Vit 79 a. Trng hp phân bit c ây là mô hình phân loi nh phân và c#ng là mô hình n gin nht ca SVMs. Xét mt tp hun luyn S nh sau: S = {(x1,y1), (x2,y2),… (xN,yN)} ⊆ (RN × {+1,-1}) Trong ó : - xi là vect thành phn i (i:1 N) - N là s chiu trong không gian vector - yi là giá tr mc tiêu dùng phân bit trên m(i xi Mc tiêu vic phân loi là tìm ra mt hàm tuyn tính f c nh ngh$a nh sau. f: RN → {+1,-1} ; sao cho f(xi) = yi, vi ∀(xi, yi) ∈ S. Qui c: f(xi) > 0 c gán cho giá tr mc tiêu yi = +1 thuc tp S+ c biu din trên Hình 5.2 b)ng nhng du “+”, ngc li nu f(xi) < 0 thì c gán giá tr mc tiêu yi = -1 thuc tp S- c biu din trên Hình 5.2 b)ng nhng du “-”. Hình 5.2 Các mt ph*ng phân tách. Vi mc tiêu là làm th nào có th phân bit c 2 tp S+ và S-, hàm f c nh ngh$a nh sau: f(x) = sign(w•x - b) (5.1) vi: w là vect trng s (weight vector) _ _ _ _ _ _ _ _ _ w•x - b < 0 w•x - b > 0 + + + + + + + + + x f(x) Mô hình rút trích cm t c trng ng ngha trong ting Vit 80 b là di (bias) Khi ó, bài toán cn xây dng mt mt phng phân tách (hyperplane) H0 th"a: H0 = w•x - b = 0 (5.2) H0 c nh ngh$a là ranh gii gia tp S+ và S-, hai tp này c gi là phân bit tuyn tính bi mt ph*ng phân tách nu tìm c cp giá tr (w,b) sao cho mt ph*ng phân tách phân bit c tp S+ và S- (nh trên Hình 5.2). a.1 rng biên cc i ca mt phng phân tách Có rt nhiu b giá tr (w, b) sinh ra các mt ph*ng phân tách tng ng khác nhau. Do ó, SVMs cn phi tìm ra duy nht mt mt ph*ng phân tách có rng biên gia hai tp S+ và S- là ln nht H0 (nh Hình 5.3). Gi s ã có mt mt ph*ng phân tách H0= w•x - b = 0 thì luôn tìm c hai mt ph*ng phân tách H+ và H- song song vi H0 sao cho: H+= w•x - b = +1 và H-= w•x - b = -1 vi iu kin không có im nào n)m trong khong H+ và H- . Nhng im n)m trên H+ và H- (nhng im c khoanh tròn) c gi là nhng vect h tr (support vectors) vì có tham gia vào vic xác nh nên mt ph*ng phân tách, nhng im khác có th không cn xem xét. Bài toán yêu cu xác nh khong cách ln nht gia hai mt ph*ng phân tách H- và H+. Nh ã bit, trong hình hc ph*ng khong cách t! mt im (x0, y0) n ng th*ng A.x + B.y + C = 0 c xác nh là: x + + + + + + + + + H0 H- H+ w d+ d - _ _ _ _ _ _ _ _ _ x Hình 5.3 Mt ph*ng phân tách (w,b) cho tp hun luyn hai chiu. b f(x) Mô hình rút trích cm t c trng ng ngha trong ting Vit 81 ||||2||||||||||||wwbxwwbxwdd=−•+−•=+−+−+ (5.3) Tng t, trong không gian vect thì khong cách t! mt im n)m trên H+ n H0= w•x - b = 0 c xác nh là (Gunn và CS, 1998): (5.4) Khi ó, khong cách gia hai mt ph*ng phân tách H+ và H- c tính b)ng: (5.5) Vì vy, cho khong cách ca H+ và H- t cc i thì ||w|| phi cc tiu, vi iu kin không có im hun luyn nào n)m gia hai mt ph*ng phân tách H+ và H-, ngh$a là: w•xi - b ≥ +1 vi mi mu có yi = +1 w•xi - b ≤ -1 vi mi mu có yi = -1 (5.6) kt hp hai iu kin trên công thc (5.6) có th vit t+ng quát li nh sau: yi(w•xi - b) ≥ +1 | ∀i (5.7) tìm khong cách cc i ca hai mt ph*ng phân tách H+ và H- thay vì tìm tìm giá tr cc tiu ca ||w||, bài toán ti u (Gunn và CS, 1998) a v tìm cc tiu ca ||w||2 vi ràng buc cho công thc (5.7). a.2 Công thc Lagrange Theo lý thuyt h s nhân Lagrange thì bài toán tìm cc tiu ca ||w||2 s% có công thc sau: (5.8) vi αi ≥0 là h s nhân Lagrange ( )−−•−≡=liiiibxwyw12P]1[||||21LMinα2200||BACByAx+++||||1||||||wwbxw=−•+ Mô hình rút trích cm t c trng ng ngha trong ting Vit 82 −===ljijijijiliixxyy1,1D,21LMaxααα( )11)max()xmin(21b−=+=•+•−=iiyiyixwww>=0:wiiiiixyαα01==liiiyαLy o hàm riêng phn ca hàm LP (theo w và b) và th vào công thc trên, bài toán tr thành: (5.9) Vi ràng buc là: (5.10) T! ây, vic hun luyn SVMs có th xem nh vic tìm cc i ca LD ng vi vic tìm các giá tr ,i tho mãn ràng buc (5.10) và ,i dng, khi ó vect trng s w c tính b)ng công thc (5.11): (5.11) Và di b c tính b)ng công thc (5.12): (5.12) Mt chi tit quan trng là ,i = 0 i vi các giá tr xi không n)m trên các mt ph*ng phân tách H+ và H-. Ngc li, i vi các giá tr n)m trên H+ và H- thì ,i > 0, các im này c gi là các vect h( tr, vi s lng các vect h( tr luôn nh" hn t+ng s mu hun luyn. T! ó, phng pháp này có tên là SVMs. Vì vy, có th nói vect h( tr là s mô t cô ng ca d liu. SVMs b" qua nhng d liu không cung cp thông tin và ch quan tâm n các im d liu cung cp nhiu thông tin, ó là các vect h( tr. Ý tng b" qua d liu mà không làm gim i cht lng ca s c lng là rt hiu qu trong trng hp áp dng SVMs trên các tp d liu ln. a.3 Phân loi d liu Các giá tr ti u αi v!a tìm c th vào công thc (5.11) s% tìm c vect trng s w tng ng. Lúc này hàm phân loi có th c vit li nh sau: Mô hình rút trích cm t c trng ng ngha trong ting Vit 83 ( ) ( )−=−•==bxxysignbsignxfliiii1,xwα (5.13) Da vào hàm phân loi này gán giá tr mc tiêu +1 hoc -1 cho tt c nhng im trong tp d liu cn phân loi. Vi phân tích trên, trng hp các im trong tp S+ và S- là phân bit rõ ràng. Nhng trên thc t, có nhng im trong tp S+ n)m trong tp S- và ngc li. Lúc này tp S+ và S- không còn 'ng nht na. Trng hp này c gi là nhiu (noise). b. Trng hp không phân bit c Trng hp tp S+ và S- không còn 'ng nht c gi là không phân bit c (non-separable). Trong trng hp này cn m rng trng hp phân bit c b)ng cách thêm gia s ξ ≥ 0 vào cho m(i im trong tp hun luyn (ξ c xem nh mt tham s iu chnh li s phân lp sai). iu kin không có nhng im n)m gia hai mt ph*ng phân tách H+ và H- c vit li nh sau: w•xi - b ≥ +1 - ξi vi mi mu có y i = +1 w•xi - b ≤ -1 + ξi vi mi mu có yi = -1 (5.14) Hình 5.4 Ví d v mt trng hp không phân bit c. S b+ sung các gia s ξi nh)m m bo các ràng buc (5.6) không b vi phm. Tuy nhiên, lúc này mt vn mi phát sinh là tìm giá tr cc tiu ca t+ng d- d+ w H+ ξ _ _ H- H0 _ _ _ _ _ _ _ + + + + + + + + + x f(x) Mô hình rút trích cm t c trng ng ngha trong ting Vit 84 −===ljijijijiliixxyy1,1D,21LMaxαααkliiCw+=12||||ξ( )−+−−−+≡==liiiliiiiiliibxwyCwξµξαξ112P]1.[||||21LMin( )+−−−−+≡=liiliiiliiiiliiiibywxyCwαααξµα12P||||21L−===ljijijijiliixxyyW1,1,21)(Maxαααα||w||2 và t+ng các sai s phân lp sai. Hàm mc tiêu bây gi c m rng là tìm cc tiu ca công thc (5.15): (5.15) Vi: C là h s iu chnh gia các gia s ξi và ||w||2 k là mt s nguyên thuc tp {1, 2} Hàm ràng buc trong công thc (5.7) c vit li: yi.(w•xi - b) ≥ 1 - ξi vi i = 1,… ,l và ξi ≥ 0 , vi i = 1,… ,l (5.16) Áp dng lý thuyt Lagrange ta có: (5.17) vi αi, µi≥0 là h s nhân Lagrange Ly o hàm riêng phn ca LP (theo w, ξ, b) và th vào hàm Lagrange, bài toán tr thành: (5.18) Kt hp vi iu kin ca Karush - Kuhn – Tucker (KKT): αi.[yi.(w•xi - b) -1 + ξi] = 0 vi i = 1,… , l (5.19) Bài toán c tóm t&t li nh sau: 0 ≤ αi ≤ C (5.20) [...]... vào cho c hai giai o n hu n luy n và rút trích CDT TNN 5.2.5 MÔ UN RÚT TRÍCH C M DANH T TRONG TI NG VI T V gi i thu t, ph g'm các b ng pháp SVMs c dùng c sau 91 C TR NG NG NGH A rút trích các CDT TNN, bao Mô hình rút trích c m t • c tr ng ng ngh a trong ti ng Vi t L a ch n tính ch t c tr ng • Xây d ng kho ng li u • Xây d ng mô hình cho SVMs • Hu n luy n mô hình • Rút trích các c m danh t 5.2.5.1 L a ch... hình ViKEe Mô hình c tác gi xu t (Hình 5.6) bao g'm hai mô- un là (a) mô- un ti n x lý nh)m phân o n và gán nhãn t! lo i, (b) mô- un rút trích c m danh t! c tr ng ng ngh$a ti ng Vi t 90 Mô hình rút trích c m t Câu c tr ng ng ngh a trong ti ng Vi t Rút trích c m danh t n ti ng Vi t ……… … … ……… ! tr ng ng ngh"a c Hu n luy n SVMs (Gi i thu t hu n luy n SMO) Kho ng li u hu n luy n Ti#n x$ lý Mô hình c hu... CDT TNN Phân o n t! Rút trích c m danh t! c tr ng ng ngh$a ti ng Vi t Gán nhãn t! lo i Hình 5.6 Mô hình rút trích CDT TNN-ViKEe C ch rút trích c m danh t! pháp h c máy l n l t c tr ng ng ngh$a th c hi n d a trên ph ng c trình bày qua các bài toán (Hình 5.6): - Các mô- un ti n x lý trong ph n 3.4.1 c a Ch c phát tri n m i cho ti ng Vi t ( c trình bày ng 3) và có ý ngh$a nh sau: • Mô- un phân o n t!:... cho bi t t! b&t c m t! khác li n k ) V i SVMs trong c m t!; nhãn O: cho u c a c m t! n u tr c t bài toán nh trên, ý t rút trích c m danh t! ng c a ph c tr ng ng ngh$a trong ti ng Vi t nh sau 89 c bi t là c tr ng ng ngh$a d a trên th hi n nhãn gom c m IOB (trong ó nhãn I: cho bi t t! bi t t! u c ó có ng pháp c mô t Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t Cho C là t p các c m t! c n... Minimal Optimisation) này là trong m(i b c hu n luy n l y 2 i m m u trong t p hu n luy n th"a i u ki n ch n c a heuristic 88 tìm các giá tr ,1, ,2 Mô hình rút trích c m t t c tr ng ng ngh a trong ti ng Vi t ng ng c p nh t vào vect , sao cho th"a ràng bu c tuy n tính trong su t quá trình th c hi n gi i thu t Ba gi i thu t trên ph c s d ng ph+ bi n trong b c hu n luy n mô hình c a ng pháp SVMs Tuy nhiên,... Xây d ng mô hình cho SVMs Do các u i m c a gi i thu t SMO trong vi c hu n luy n cho SVMs (Jones, 2001), nên lu n án ã áp d ng hu n luy n t p d li u t o ra m t mô hình dùng trong quá trình phân l p Gi i thu t g'm ba th t c chính: Th t c svmLearn(): quét trên t p các m u tìm các m u vi ph m ràng bu c Th t c examineExample(i2): ch n h s nhân Lagrange 95 Mô hình rút trích c m t c tr ng ng ngh a trong ti... hu n luy n, vì d li u c mô hình theo ba nhãn gom c m nên t p tin mô hình tr ng s s% ch a 3 b phân lo i t ng ng v i các l p I, O và B 5.2.5.5 Rút trích các c m danh t c tr ng ng ngh a u vào c a vi c rút trích c#ng là t p vect s th c nh giai o n hu n luy n m(i vect i di n cho m t t! trong câu ch a thông tin c a t! trung tâm cùng thông tin c a các t! ng c nh lân c n T! t p tin mô hình tr ng s , cho m(i... h p ViKEe Nh v y, v i ViKEe theo h ng chính xác, y và trung bình i u hòa c a mô hình ng ti p c n rút trích CDT TNN c m c tiêu c trong B ng 5.3 ã áp ra c a lu n án và s% góp ph n c i thi n hi u su t c a mô hình k t h p ViKE trong tr mô hình ViKEa theo h t ng h p các CDT TNN không ng xác nh d a trên Ontology ViO 101 c xác nh trong ... có d ng nh sau: ! "# $%& ' # ( ) ) 94 Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t * + %, - ( ( / 0 1 Trong ó: 1 I: t! trong c m t! O: t! ngoài c m t! B: t! b&t u c a c m t! n u tr c ó có c m t! khác li n k Cách bi u di n d li u b)ng các nhãn gom c m IOB m c dù n gi n nh ng ã ch ng t" tính hi u qu so v i các cách bi u di n d li u khác trong vi c rút trích các thu t ng (Cheng, 2002; Kudo,... h th ng ViKEe khi m r ng thêm 100 Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t hai tính ch t c u trúc c m t , và t quan h gi a các c m t là V2 Lu n án ti n hành ánh giá trên t p ng li u C1 g'm 2.079 câu 5.2.5.2 K t qu t c chính xác, y n ã c trình bày , và m c trung bình i u hòa F nh B ng 5.3 B ng 5.3: K t qu# rút trích CDT"TNN c a mô hình ViKEe Mô hình ViKEe S% câu Precision Recall F Hai . Mô hình rút trích cm t c trng ng ngha trong ting Vit 75 Chng 5 MÔ HÌNH RÚT TRÍCH CM T C TRNG NG NGHA TRONG TING. fi(x) là mô hình phân loi SVMs lp th i ca N lp phân loi SVMs. 5.4 Mô hình ViKEe Mô hình c tác gi xut (Hình 5.6) bao g'm hai mô- un