Phân loại văn bản hành chính tiếng việt và ứng dụng vào các cơ quan nhà nước tỉnh bắc kạn

74 495 7
Phân loại văn bản hành chính tiếng việt và ứng dụng vào các cơ quan nhà nước tỉnh bắc kạn

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i I HC THI NGUYấN TRNG I HC CễNG NGH THễNG TIN V TRUYN THễNG LẩNG HONG LM PHN LOI VN BN HNH CHNH TING VIT V NG DNG VO CC C QUAN NH NC TNH BC KN Chuyờn ngnh: Khoa hc mỏy tớnh Mó s: 60 48 0101 LUN VN THC S KHOA HC MY TNH Ngi hng dn khoa hc: PGS.TS ON VN BAN Thỏi Nguyờn - 2017 LI CAM OAN ii Tụi xin cam oan õy l sn phm nghiờn cu, tỡm hiu ca cỏ nhõn tụi Cỏc s liu, kt qu trỡnh by lun l trung thc Nhng ni dung trỡnh by lun hoc l ca bn thõn, hoc l c tng hp t nhng ngun ti liu cú ngun gc rừ rng v c trớch dn hp phỏp, y Tụi xin hon ton chu trỏch nhim cho li cam oan ca mỡnh Thỏi Nguyờn, thỏng nm 2017 HC VIấN Lống Hong Lõm LI CM N iii Trõn trng cm n cỏc thy giỏo, cụ giỏo trng i hc Cụng ngh thụng tin v Truyn thụng Thỏi Nguyờn; cỏc ging viờn n t Vin Hn lõm Khoa hc v Cụng ngh Vit Nam, Trng i hc Quc gia H Ni ó to iu kin tt nht cho hc viờn quỏ trỡnh hc v lm lun c bit, xin c by t lũng bit n chõn thnh v sõu sc nht ti thy giỏo, PGS.TS on Vn Ban, ngi ó nh hng v luụn tn tỡnh ch bo, hng dn em vic nghiờn cu, thc hin lun ny Trong sut quỏ trỡnh hc v thc hin ti, hc viờn luụn nhn c s ng h, ng viờn ca gia ỡnh, ng nghip, c bit l s quan tõm to iu kin ca Ban lónh o Trung tõm Cụng ngh thụng tin v Truyn thụng tnh Bc Kn - ni hc viờn ang cụng tỏc Xin trõn trng cm n! Thỏi Nguyờn, thỏng nm 2017 HC VIấN Lống Hong Lõm MC LC iv LI CAM OAN i LI CM N ii MC LC iii DANH MC CC T VIT TT v DANH MC CC HèNH vi DANH MC CC BNG vii M U CHNG I TNG QUAN V PHN LOI VN BN TING VIT 1.1 Khai phỏ d liu 1.2 Khai phỏ d liu bn 1.3 Phõn loi bn 11 1.3.1 Gii thiu bi toỏn phõn loi bn 11 1.3.2 Quy trỡnh phõn loi bn 12 1.3.3 Phõn loi bn ting Vit 13 1.4 c trng ca bn ting Vit 14 1.4.1 Cỏc n v ca ting Vit 14 1.4.2 Ng phỏp ca ting Vit 17 1.4.3 T ting Vit 18 1.4.4 Cõu ting Vit 20 1.4.5 Cỏc c im chớnh t v bn ting Vit 23 1.5 Cụng tỏc qun lý bn ti cỏc c quan tnh Bc Kn 23 1.6 Kt lun chng 25 CHNG II CC K THUT TRONG PHN LOI VN BN TING VIT 25 2.1 Tỏch t bn 26 2.1.1 Phng phỏp khp ti a 27 2.1.2 Mụ hỡnh tỏch t bng WFST v mng Neural 28 2.1.3 Phng phỏp hc da vo s bin i trng thỏi 29 2.1.4 Loi b t dng 31 2.2 Trng s ca t bn 31 2.2.1 Phng phỏp Boolean 32 2.2.2 Phng phỏp da trờn tn s 32 v 2.3 Cỏc mụ hỡnh biu din bn 33 2.3.1 Mụ hỡnh Boolean 33 2.3.2 Mụ hỡnh xỏc sut 33 2.3.3 Mụ hỡnh khụng gian vector 34 2.4 tng ng bn 36 2.5 Thut toỏn phõn loi bn 39 2.5.1 Thut toỏn Support Vector Machine (SVM) 39 2.5.2 Thut toỏn K-Nearest Neighbor (kNN) 43 2.5.3 Thut toỏn Nave Bayers (NB) 44 2.6 Phõn loi bn ting Vit 47 2.6.1 Trớch chn c trng bn 47 2.6.2 S dng thut toỏn SVM phõn loi bn 50 2.7 Kt lun chng 53 CHNG III P DNG THUT TON SUPPORT VECTOR MACHINE PHN LOI VN BN HNH CHNH TING VIT 54 3.1 ng dng SVM vo bi toỏn phõn loi bn hnh chớnh ting Vit ti cỏc c quan nh nc tnh Bc Kn 54 3.2 p dng phõn loi bn 56 3.3 Xõy dng chng trỡnh th nghim ng dng phõn loi bn ỏp dng vo mỏy tỡm kim bn hnh chớnh ting Vit 57 3.3.1 Mụ t bi toỏn 57 3.3.2 Quỏ trỡnh tin x lý bn 59 3.3.3 Vector húa v trớch chn c trng bn 60 3.3.4 ỏnh giỏ b phõn lp 60 3.3.5 Chng trỡnh thc nghim 62 3.3.6 Kt qu thc nghim 62 3.4 Kt lun chng 63 KT LUN V HNG PHT TRIN 64 TI LIU THAM KHO 65 DANH MC CC T VIT TT vi T vit tt Gii thớch CSDL C s d liu KDD Knowledge Discovery from Data IDF Inverse Document Frequency kNN K-Nearest Neighbor NB Nave Bayers SVM Support Vector Machine S3VM Semi-Supervised Support Vector Machine TBL Transformation - based Learning TF Term Frequency WFST Weighted Finite - State Transducer DANH MC CC HèNH vii Hỡnh 1.1 Cỏc bc quỏ trỡnh phỏt hin tri thc t CSDL (KDD) Hỡnh 1.2 Quy trỡnh phõn loi bn 13 Hỡnh 2.1 Biu din bn theo mụ hỡnh xỏc sut 34 Hỡnh 2.2 Minh hỡnh hc thut toỏn SVM 40 Hỡnh 2.3 Chi tit giai on hun luyn 50 Hỡnh 2.4 Mụ hỡnh SVM 51 Hỡnh 3.1 Chi tit giai on hun luyn 58 Hỡnh 3.2 Chi tit giai on phõn lp 59 DANH MC CC BNG viii Bng 3.1 B d liu th nghim 62 Bng 3.2 Kt qu phõn lp b d liu kim tra 63 Bng 3.3 ỏnh giỏ hiu sut phõn lp 63 M U t Trong thi i bựng n Cụng ngh thụng tin hin nay, phng thc s dng bn giy truyn thng ó dn c s húa, chuyn sang dng cỏc bn in t lu tr trờn mỏy tớnh v c chia s, truyn ti trờn mng Vi rt nhiu tớnh nng u vit ca ti liu s nh: Lu tr gn nh, linh hot; thi gian lu tr lõu di; d hiu chnh v c bit tin dng trao i, chia s nờn ngy nay, s lng bn in t c s dng cỏc c quan nh nc tng lờn rt nhanh chúng Do ú, mt t l lm th no cú th tỡm kim v khai thỏc thụng tin t ngun d liu phong phỳ ny Cỏc k thut gii quyt ny c gi l Text Mining hay Khai phỏ d liu bn Khai phỏ d liu bn cp n tin trỡnh trớch lc cỏc mu hỡnh thụng tin hay tri thc ỏng quan tõm hoc cú giỏ tr t cỏc ti liu bn Trong ú, phõn loi bn l mt bi toỏn c bn nht ca lnh vc khai phỏ d liu bn Phõn loi bn l cụng vic phõn tớch ni dung ca bn v sau ú quyt nh (hay d oỏn) bn thuc nhúm no cỏc nhúm bn ó cho trc Vn bn c phõn loi cú th thuc mt nhúm, nhiu nhúm, hoc khụng thuc nhúm bn m ta ó nh ngha trc Phõn loi bn cú th thc hin bng nhiu cỏch nh s dng tip cn lý thuyt thụ, cỏch tip cn theo lut kt hp hoc da trờn cỏch tip cn mỏy hc õy l mt lnh vc mang tớnh khoa hc cao, ng dng c rt nhiu cỏc bi toỏn thc t hin nh tỡm kim thụng tin, lc bn, tng hp tin tc t ng, th vin in t, Do vy, hc viờn quyt nh chn ti Phõn loi bn hnh chớnh ting Vit v ng dng vo cỏc c quan nh nc tnh Bc Kn nghiờn cu, thc hin lun tt nghip ca mỡnh Mc tiờu ca ti lun l kho sỏt, tỡm hiu mt s phng phỏp phõn loi bn thng c s dng hin nay, trờn c s ú xut la chn mt phng ỏn phõn loi bn ting Vit t ng v ng dng th nghim phõn loi cho mt i tng c th l bn hnh chớnh ting Vit i tng v phm vi nghiờn cu i tng nghiờn cu bao gm: Cỏc thut toỏn phõn loi bn v cỏc liờn quan n bi toỏn phõn loi bn ting Vit Phm vi nghiờn cu ca lun trung vo mt s thut toỏn phõn loi bn thụng dng; cỏc c trng ca bn ting Vit; cỏc k thut liờn quan x lý phõn loi bn v ng dng thut toỏn hc bỏn giỏm sỏt phõn loi bn ting Vit Hng nghiờn cu ca ti Nghiờn cu lý thuyt c bn v khai phỏ d liu, khai phỏ d liu bn v bi toỏn phõn loi bn vi mt s thut toỏn phõn loi bn thụng dng nh Nave Bayers, K-Nearest Neighbor, Support Vector Machine Nghiờn cu v cỏc c trng ca bn ting Vit v cỏc k thut liờn quan x lý phõn loi bn ting Vit nh tỏch t, biu din bn, ỏnh trng s ca t, tớnh tng ng bn T kt qu thu c tin hnh ci t ng dng bi toỏn phõn loi bn hnh chớnh ting Vit Nhng ni dung chớnh Ni dung chớnh ca lun c trỡnh by chng vi t chc cu trỳc nh sau: Chng Tng quan v phõn loi bn ting Vit Chng ny trỡnh by khỏi quỏt v khai phỏ d liu, khai phỏ d liu bn v bi toỏn phõn loi bn ting Vit; ng thi lm rừ cỏc c trng ca bn ting Vit v gii thiu s b v cụng tỏc qun lý bn ti cỏc c quan thuc tnh Bc Kn 52 cú kớch thc bng bỡnh phng ca s lng mu hun luyn Trong nhng bi toỏn thc t, iu ny l khụng kh thi vỡ thụng thng kớch thc ca d liu hun luyn thng rt ln (cú th lờn ti hng chc nghỡn mu) Nhiu thut toỏn khỏc c phỏt trin gii quyt nờu trờn Nhng thut toỏn ny da trờn vic phõn ró d liu hun luyn thnh nhng nhúm d liu, giỳp cho bi toỏn quy hoch ton phng s c gii vi kớch thc nh hn Sau ú, nhng thut toỏn ny kim tra cỏc iu kin KKT (Karush-KuhnTucker) xỏc nh phng ỏn ti u Mt s thut toỏn hun luyn da vo tớnh cht: Nu d liu hun luyn ca bi toỏn quy hoch ton phng cn gii mi bc cú ớt nht mt mu vi phm cỏc iu kin KKT, thỡ sau gii bi toỏn ny, hm mc tiờu s tng Nh vy, mt chui cỏc bi toỏn quy hoch ton phng vi ớt nht mt mu vi phm cỏc iu kin KKT c m bo hi t n mt phng ỏn ti u Do ú, ta cú th trỡ mt d liu lm vic ln cú kớch thc c nh v ti mi bc hun luyn, ta loi b v thờm vo cựng mt s lng mu Cỏc u im ca SVM phõn loi bn: Nh ó bit, phõn loa i bn l mt tin trỡnh a cỏc bn cha bit ch vo cỏc lp bn ó bit (tng ng vi cỏc ch hay lnh vc khỏc nhau) Mi lnh vc c xỏc nh bi mt s ti liu mu ca lnh vc ú thc hin quỏ trỡnh phõn lp, cỏc phng phỏp hun luyn c s dng xõy dng phõn lp t cỏc ti liu mu, sau ú dựng phõn lp ny d oỏn lp ca nhng ti liu mi (cha bit ch ) Chỳng ta cú th thy t cỏc thut toỏn phõn lp hai lp nh SVM n cỏc thut toỏn phõn lp a lp u cú c im chung l yờu cu bn phi c biu din di dng vector c trng, nhiờn cỏc thut toỏn khỏc u phi s dng cỏc uc lng tham s v ngng ti u, ú thut toỏn 53 SVM cú th t tỡm cỏc tham s ti u ny Trong cỏc phng phỏp thỡ SVM l phng phỏp s dng khụng gian vector c trng ln nht (hn 10.000 chiu), ú cỏc phng phỏp khỏc cú s chiu hn nhiu (nh Naùve Bayes l 2000, k-Nearest Neighbors l 2415) Phng phỏp phõn lp s dng thut toỏn SVM ó c nhiu tỏc gi nghiờn cu, so sỏnh vi cỏc phng phỏp phõn loi khỏc nh Naùve Bayes, kNearest Neighbors v u ch SVM cú nhiu u im, phự hp hn cỏc phng phỏp khỏc vic ng dng gii quyt bi toỏn phõn loa i bn V trờn thc t, cỏc thớ nghim phõn loa i bn ting Anh ch rng SVM t chớnh xỏc phõn lp cao v t xut sc hn so vi cỏc phng phỏp phõn loa i bn khỏc [4] Do vy, lun la chn phng phỏp s dng thut toỏn SVM gii quyt bi toỏn phõn loi bn ti chng sau 2.7 Kt lun chng Chng ny trỡnh by chi tit v bi toỏn phõn loi bn ting Vit vi cỏc thut toỏn phõn loi v cỏc khỏi nim liờn quan nh: Cỏc k thut c bn vic x lý bn phõn loi nh tỏch t, ỏnh trng s ca t bn, cỏc mụ hỡnh biu din bn, tớnh tng ng bn Ni dung ca chng cng ó trung phõn tớch, lm rừ mt s gii phỏp k thut liờn quan, qua ú nh hng ỏp dng vic gii quyt bi toỏn phõn loi bn nh phng phỏp trớch chn c trng, mụ hỡnh biu din bn, phng phỏp ỏnh trng s ca t, thut toỏn phõn loi Kt qu nghiờn cu ca chng ny l c s gii quyt bi toỏn phõn loi bn ting Vit chng sau 54 CHNG III P DNG THUT TON SUPPORT VECTOR MACHINE PHN LOI VN BN HNH CHNH TING VIT 3.1 ng dng SVM vo bi toỏn phõn loi bn hnh chớnh ting Vit ti cỏc c quan nh nc tnh Bc Kn chng 2, lun ó trung gii thiu mt s thut toỏn phõn loi bn in hỡnh nh Support Vector Machine (SVM), K-Nearest Neighbor (kNN) v Naùve Bayes (NB) Cỏc thut toỏn ny cú hng tip cn khỏc nhng u cú mt im chung, ú l s dng hun luyn vi cỏc mu d liu ó c gỏn nhón d oỏn giỏ tr ca mt hm phõn lp cho mt i tng u vo Ngi ta gi õy l cỏc thut toỏn hc cú giỏm sỏt Nhim v ca chng trỡnh hc cú giỏm sỏt l hun luyn kh nng d oỏn giỏ tr u cho hm cú mt i tng u vo hp l thụng qua b d liu hun luyn Chng trỡnh hc phi tin hnh tng quỏt húa t cỏc d liu sn cú cú th a d oỏn nhng tỡnh mi [4] Trong phn ny, luõ n s gii thiu mt phng thc ci tin ca thut toỏn SVM l bỏn giỏm sỏt SVM (Semi-Supervised Support Vector Machine - S3VM) [4] Bỏn giỏm sỏt SVM c a nhm nõng SVM lờn mt mc cao hn Trong cỏc thut toỏn hc cú giỏm sỏt ch s dng d liu hun luyn ó gỏn nhón thỡ hc bỏn giỏm sỏt s dng c d liu ó gỏn nhón kt hp vi d liu cha gỏn nhón Bi toỏn truyn dn s d oỏn giỏ tr ca mt hm phõn lp ti cỏc im ó cho d liu cha gỏn nhón Cho mt hun luyn gm nhng d liu ó gỏn nhón (training set) v mt cỏc d liu cha gỏn nhón (working set), S3VM xõy dng mt mỏy h tr vector s dng c training set v working set Mc ớch l gỏn cỏc nhón cho d liu working set mt cỏch tt nht cú th, sau ú s dng hn hp d liu hun luyn ó gỏn nhón cho trc (training set) v d liu working set 55 va c gỏn nhón hun luyn v phõn lp nhng d liu mi Nu working set rng (ton b d liu ó c gỏn nhón) thỡ bi toỏn ny li tr thnh bi toỏn hc cú giỏm sỏt SVM Ngc li, nu training set rng, tc l d liu hun luyn hon ton cha c gỏn nhón, bi toỏn ny s tr thnh mt hỡnh th hc mỏy khỏc gi l hc khụng giỏm sỏt Hc bỏn giỏm sỏt xy c training set v working set khụng rng hiu mt cỏch rừ rng c th v S3VM, chỳng ta cn hiu v SVM ó c trỡnh by chi tit phn trc Trong lun ny s tỡm hiu v thut toỏn S3VM l bi toỏn phõn lp nh phõn Cho trc mt hun luyn gm training set v working set bao gm n d liu Mc ớch l gỏn nhón cho nhng d liu cha gỏn nhón ny Vi hai lp ó cho trc gm lp dng (lp +1) v lp õm (lp 1) Mi d liu c xem nh mt im khụng gian vector Mi im i thuc training set cú mt sai s l i v mi im j thuc working set s cú hai sai s j (sai s phõn lp vi gi s rng j thuc lp +1) v zj (sai s phõn lp vi gi s rng j thuc lp 1) Ni dung thut toỏn S3VM [4],[11],[12]: u vo: Tp hun luyn gm c d liu cú nhón v cha cú nhón: D = {(xi, yi) | xi RP, yi {-1, 0, 1}, i = 1, 2, , n} Tp d liu ó gỏn nhón D gm d liu: L = {(xi, yi) | xi RP, yi {-1, 1}, i = 1, 2, , } Tp d liu cha cú nhón D gm d liu: K = {(xj, yj) | xj RP, yj = 0, j = 1, 2, , } u ra: Mt siờu phng h phõn chia d liu D thnh hai nhúm vi sai s l nh nht 56 Thc hin thut toỏn: theo , , Gii bi toỏn ti u: ( + ) 1; = 1, , { ( + ) 1; = 1, , Cc tiu húa (3.1) C th hn, ta gii bi toỏn sau: =1 =1 { + max(0,1 ( + )) + max (0,1 ( + ))} ,, 2 Vn õy l ta cn phi xỏc nh nhón yj ca mi im j d liu cha c gỏn nhón K Ta thc hin tỡm kim mt siờu phng w v ghi nhón mt nhng vớ d khụng cú nhón, ú hm mc tiờu SVM c gim thiu, v b rng buc bi phn nh ca d liu khụng cú nhón c phõn loi tớch cc Giỏ tr c xỏc nh theo cụng thc: = (0, sign( + )) (3.2) =1 Tp d liu cha gỏn nhón (working set) sau ó gỏn nhón s c a vo d liu hun luyn, tip theo ú s s dng thut toỏn SVM hc to SVM mi, SVM ny chớnh l S3VM cú mt siờu phng mi Sau ú ỏp dng siờu phng ny phõn lp cỏc mu d liu mi c a vo 3.2 p dng phõn loi bn ỏp dng vo phõn loa i bn, thut toỏn S3VM xem mi tai liờu l mt vector f(d1, d2,, dn) p dng phng trỡnh tng quỏt ca siờu phng tỡm c bi thut toỏn SVM (2.16): () = + hay cũn cú th vit theo dng sau: (1 , , , ) = + =1 (3.3) 57 Thay th mi bn tng ng vo phng trỡnh siờu phng ny: (1 , , , ) = + (3.4) =1 Nu: f(d) 0, ban thuc lp +1, f(d) < thỡ ban thuc lp Cú th thy rng quỏ trỡnh ỏp dng thut toỏn S3VM vo bi toỏn phõn lp ban chớnh l vic thay th vector trng s biu din ban ú vo phng trỡnh siờu phng ca S3VM, t ú tỡm c nhón lp ca cỏc bn cha gỏn nhón Nh vy, thc cht ca quỏ trỡnh phõn lp bỏn giỏm sỏt ỏp dng i vi bn l: Tp d liu hun luyn l cỏc ban, cũn d liu cha gỏn nhón (working set) l nhng bn c cỏc bn ó cú nhón hun luyn tr ti Gii thut S3VM chớnh l mt phng phỏp ci tin ca gii thut SVM, gii thut ó tn dng c nhng u im ca SVM l cú chớnh xỏc cao, ng thi tn dng c ngun d liu hun luyn khụng gỏn nhón rt sn cú nhm gii quyt bi toỏn phõn lp mt cỏch ti u 3.3 Xõy dng chng trỡnh th nghim ng dng phõn loi bn ỏp dng vo mỏy tỡm kim bn hnh chớnh ting Vit 3.3.1 Mụ t bi toỏn Cho n ban thuụ c cac lnh vc khỏc Yờu u t l cn phi xõy dng mt ng dng th nghim ỏp dng mt gii thut phõn lp phõn loi n ban theo cac lnh vc khac da vao cac ban mõu a c huõ n luyn theo cac lnh vc khỏc o Nh ó phõn tớch cỏc phn trờn, phm vi ti ny, lun s dng thut toỏn SVM xõy dng mụ hỡnh phõn loi bn, bao gm hai giai on: Giai on hun luyn v giai on phõn lp 58 a Giai on hun luyn: xõy dng c mụ hỡnh ng dng th nghim, cn cú mt hun luyn vi mi phn t hun luyn ó c xỏc nh nhón lp (lnh vc) v c th hin bng mt mụ hỡnh mó húa s dng khụng gian vector (ó c trỡnh by chi tit Mc 2.3 - Cỏc mụ hỡnh biu din bn) Sau ú, chỳng ta s nh ngha mt lp mụ hỡnh v mt th tc hun luyn, vi lp mụ hỡnh l h cỏc tham s ca b phõn loi, th tc hun luyn vi gii thut c la chn l SVM chn mt h cỏc tham s ti u cho b phõn loi Chi tit giai on hun luyn c mụ t nh s sau: Hỡnh 3.1 Chi tit giai on hun luyn Trong ú: + D liu hun luyn: Kho d liu thu thp c + Tin x lý: X lý chun húa d liu hun luyn + Vộc t húa: Mó húa bn vi mt mụ hỡnh trng s + Trớch chn c trng: Loi b nhng t (c trng) khụng quan trng (khụng cha thụng tin c trng) ti liu nhm nõng cao hiu sut phõn loi v gim phc ca thut toỏn hun luyn + Thut toỏn hun luyn: Th tc hun luyn b phõn lp tỡm h cỏc tham s ti u (s dng thut toỏn SVM) 59 + ỏnh giỏ: Bc ỏnh giỏ hiu sut (cht lng) ca b phõn lp Th tc hun luyn s c thc thi lp li nhiu ln tỡm h cỏc tham s ti u sau mi ln lp b Giai on phõn lp: Sau ó hon thnh cỏc giai on hun luyn, mụ hỡnh phõn lp s c ỏp dng cho cỏc bn mi cn phõn loi Chi tit giai on phõn lp c mụ t nh s sau: Hỡnh 3.2 Chi tit giai on phõn lp 3.3.2 Quỏ trỡnh tin x lý bn Vn bn trc c vector húa, tc l trc a vo s dng bi mụ hỡnh phõn loi, cn phi c tin x lý Quỏ trỡnh tin x lý s giỳp nõng cao hiu sut phõn loi v gim phc ca thut toỏn hun luyn Tựy vo mc ớch b phõn loi m chỳng ta s cú nhng phng phỏp tin x lý bn khỏc nhau, nh: - Chuyn bn v ch thng; - Loi b cỏc ký t c bit (vớ d nh: ~; @; #; $; %; &; *; ); - Thc hin tỏch t: S dng cụng c tỏch t vnTokenizer, version 4.1.1 phõn tỏch cỏc t Kt qu ta s thu c file cha cỏc t c phõn tỏch (du | c s dng ngn cỏch gia cỏc t) 60 - Loi b cỏc t dng hay t tm thng (stopword): Thc hin loi b cỏc t khụng cú ý ngha sau tỏch t da trờn danh mc t dng cú trc 3.3.3 Vector húa v trớch chn c trng bn Nh ó trỡnh by cỏc phn trờn, mụ hỡnh khụng gian vector, mt bn d c biu din di dng vector c trng f(d1, d2,, dn), ú n l s lng c trng hay s chiu ca vector bn, di l trng s ca c trng th i trớch chn c trng bn ta s dng phng phỏp TF*IDF ó gii thiu ti Mc 2.6.1 Chng II Gi s: Ta cú m ti liu thuc lp P; ú n ti liu cú cha t A (m n) Khi ú: + ph bin ca t A i vi ti liu (vn bn) T cha nú: tf(A) = [s ln xut hin ca A T] / [tng s t cú T] + o IDF ca t A m ti liu mu thuc lp P, ú cú n ti liu cha t A: idf(A) = log(m/n) T ú ta tớnh c o TF*IDF (chớnh l trng s ca t A i vi lp P): TF*IDF(A) = tf(A)*idf(A) 3.3.4 ỏnh giỏ b phõn lp Sau ó tỡm c h cỏc tham s ti u cho b phõn lp (hay cú th núi l b phõn lp ó c hun luyn xong), nhim v tip theo l cn phi ỏnh giỏ (kim tra) b phõn lp ú cho kt qu nh th no Quỏ trỡnh kim tra c thc hin trờn mt d liu khỏc vi d liu hun luyn, gi l d liu kim tra n gin, ta xột mt b phõn lp nh phõn (phõn hai lp) Vi cỏc tham s: + a: L s lng i tng thuc v lp ang xột v c b phõn lp gỏn vo lp; 61 + b: L s lng i tng khụng thuc v lp ang xột nhng c b phõn lp gỏn vo lp; + c: L s lng i tng thuc v lp ang xột nhng b b phõn lp loi lp; + d: L s lng i tng khụng thuc v lp ang xột v c b phõn lp loi lp ỏnh giỏ cht lng b phõn lp, cú hai n v o lng quan trng l ỳng n (accuracy) c o bng cụng thc (error) c tớnh bng cụng thc + +++ + +++ v sai li Cỏc o ny phn ỏnh y cht lng ca b phõn lp Tuy nhiờn, ỏnh giỏ b phõn lp, thng ngi ta ch xột n nhng i tng thuc v lp v c phõn lp ỳng, cũn nhng i tng khụng thuc v lp s ớt c quan tõm Do ú, mt s o khỏc c nh ngha nh: + Precision ( chớnh xỏc): + Recall ( bao ph, y ): + Fallout ( loi b): (3.5) + + + (3.6) (3.7) Tuy nhiờn, mt s trng hp thc t, nu tớnh o precision v o recall riờng r s cho kt qu khụng cõn i Do ú, thun tin, ngi ta kt hp hai o ny vo mt n v o tng quỏt nht thc hin iu ny, ngi ta s dng n v o lng F1 c nh ngha nh sau: = 1 + (1 ) Trong ú: + P: L chớnh xỏc (Precision); (3.8) 62 + R: L bao ph (Recall); + : L h s xỏc nh s cõn bng ca chớnh xỏc v bao ph Giỏ tr = thng c chn cho s cõn bng gia P v R Vi giỏ tr ny, o c tớnh n gin l: F1 = 2*R*P/(R + P) (3.9) 3.3.5 Chng trỡnh thc nghim Chng trỡnh thc nghim c xõy dng trờn c s s dng cỏc cụng c mó ngun m cú sn c chia s ti th vin LIBSVM, b cụng c lp trỡnh Visual Studio 2013 v h qun tr CSDL Microsoft Access 2013 B d liu hun luyn bao gm 43 bn, c gỏn nhón phõn loi th cụng vo lnh vc: Giỏo dc (ID=1); Kinh t (ID=2); Th thao (ID=3); Tin hc (ID=4) B d liu kim tra bao gm 249 bn hnh chớnh ting Vit thuc lnh vc nờu trờn Cỏc bn c thu thp t c s d liu bn hnh chớnh ó c phỏt hnh, ng ti cụng khai trờn h thng cng thụng tin in t ca cỏc c quan nh nc Vic ỏnh giỏ b phõn lp da vo cỏc ch s chớnh xỏc (precision), bao ph (recall) v F1 3.3.6 Kt qu thc nghim Bng 3.1 B d liu th nghim S mu hun luyn S mu kim tra Tng s mu Giỏo dc 10 60 70 Kinh t 10 58 68 Th thao 12 45 57 Tin hc 11 86 97 Tng cng 43 249 292 Tờn lp 63 Bng 3.2 Kt qu phõn lp b d liu kim tra Tờn lp ID Tng s Giỏo dc 54 60 Kinh t 2 52 58 Th thao 2 41 45 Tin hc 77 86 Bng 3.3 ỏnh giỏ hiu sut phõn lp Tờn lp Precision Recall F1 Giỏo dc 88,89% 93,33% 91,06% Kinh t 89,83% 91,38% 90,60% Th thao 93,18% 91,11% 92,13% Tin hc 95,18% 91,86% 93,49% Trung bỡnh 91,82% chớnh xỏc phõn lp cỏc bn thuc c lnh vc u t t l ~90%; bao ph >90% Kt qu thc nghim ó khng nh tớnh hiu qu ca thut toỏn SVM ỏp dng vo bi toỏn phõn lp bn 3.4 Kt lun chng Chng ny trỡnh by v thut toỏn hc bỏn giỏm sỏt S3VM v ỏp dng thut toỏn vic phõn loi bn ting Vit xõy dng chng trỡnh th nghim n gin da trờn ngụn ng lp trỡnh Visual C# b cụng c lp trỡnh Visual Studio 2013, h qun tr CSDL Microsoft Access 2013 v tin hnh chy th nghim chng trỡnh vi mt s b d liu u vo 64 KT LUN V HNG PHT TRIN ỏnh giỏ kt qu thc hin ti Qua nghiờn cu v thc hin, lun ó t c kt qu nh sau: - Trỡnh by bi toỏn phõn loi bn v c s lý thuyt ca bi toỏn xõy dng h thng phõn loi bn ting Vit - Gii thiu cỏc thut toỏn phõn loi bn nh SVM, kNN, NB v nờu phng phỏp s dng SVM phõn loi bn ting Vit - Thc hin ci t thut toỏn hc bỏn giỏm sỏt SVM xõy dng chng trỡnh th nghim phõn loi bn ting Vit; tin hnh chy th nghim chng trỡnh vi mt s b d liu u vo n gin Tuy ó gii quyt c mc tiờu ra, nhng lun mi ch ỏnh giỏ c phõn loi bn da trờn cỏc b d liu cú sn trờn c s lý thuyt ch cha thc s xõy dng c mt ng dng hon thin ỏnh giỏ chớnh xỏc hn v u, nhc im ca hng tip cn ny Chng trỡnh th nghim cũn n gin, v mi ch dng li mc thc hin c cỏc thut toỏn trờn d liu u vo l cỏc file bn truyn thng cú nh dng n gin (*.txt), cha h tr vic c trc tip t cỏc file word, PDF, Hng phỏt trin Lun ó gii quyt c bi phõn loi bn da trờn nn tng lý thuyt v cỏc ng dng sn cú m rng tớnh thc t cho lun cn tip tc xõy dng mt ng dng c th ỏp dng gii phỏp ó la chn, ng dng cho vic xõy dng mt h thng phõn loi t ng bn ting Vit Nghiờn cu v ỏp dng mt s gii thut tớnh toỏn tng ng ng ngha trờn mng ng ngha ci tin mụ hỡnh phõn loi bn ting Vit 65 TI LIU THAM KHO Ting Vit [1] H Quang Thy (2009), Giỏo trỡnh khai phỏ d liu Web, NXB Giỏo dc, H Ni [2] y ban Khoa hc Xó hi Vit Nam (1983), Ng phỏp ting Vit, NXB Khoa hc Xó hi, H Ni [3] Nguyn Th Kim Anh, Trnh Th Ngc Hng (2016), Nghiờn cu k thut ỏnh giỏ tng ng bn ng dng so sỏnh bn ting Vit, Bỏo cỏo nghiờn cu khoa hc, i hc Hng hi Vit Nam, Hi Phũng [4] Lờ Hong Dng, Ngụ Quc Vinh (2016), Nghiờn cu v thut toỏn phõn lp s dng quỏ trỡnh hc mỏy bỏn giỏm sỏt, ng dng vic phõn lp trang web, Bỏo cỏo nghiờn cu khoa hc, i hc Hng hi Vit Nam, Hi Phũng [5] Trn Th Thu Tho, V Th Chinh (2012), Xõy dng h thng phõn loi ti liu ting Vit, Bỏo cỏo nghiờn cu khoa hc, i hc Lc Hng, ng Nai Ting Anh [6] Jiawei Han, Micheline Kamber, Jian Pei (2012), Data Mining: Conceptsand Techniques, Third Edition, Morgan Kaufmann Publishers [7] Steven Bird, Ewan Klein, Edward Loper (2009), Natural language processing with Python, O'Reilly Media, America [8] Dinh Dien, Hoang Kiem, Nguyen Van Toan (2001), Vietnamese Word Segmentation, The sixth Natural Language Processing Pacific Rim Symposium, Tokyo, Japan, pp 749-756 [9] Eric Brill (1995), Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging, Computational Linguistics, 21(4), pp 543565 66 [10] T Joachims (1997), A probabilistic analysis of the Rocchio algorithm with TFIDF for text categorization, Proceedings of International Conference on Machine Learning, San Mateo, CA, pp 143-151 [11] K Bennett, A Demiriz (1998), Semi - Supervised Support Vector Machines, Advances in Neural information processing systems, 12, p.368-374 [12] T Joachims (1997), Text Categorization with Support Vector Machine: Learning with Many Relevant Feautures, Cornell Computer [13] Alex Smola, S.V.N Vishwanathan (2008), Introduction to Machine Learning, Departments of Statistics and Computer Science Purdue University, College of Engineering and Computer Science, Australian National University ... VECTOR MACHINE PHÂN LOẠI VĂN BẢN HÀNH CHÍNH TIẾNG VIỆT 54 3.1 Ứng dụng SVM vào toán phân loại văn hành tiếng Việt quan nhà nước tỉnh Bắc Kạn 54 3.2 Áp dụng phân loại văn 56... lý văn quan thuộc tỉnh Bắc Kạn 3 Chương 2: Các kỹ thuật phân loại văn tiếng Việt Chương trình bày toán phân loại văn tiếng Việt với thuật toán phân loại kỹ thuật việc xử lý văn tiếng Việt để phân. .. liên quan đến toán phân loại văn tiếng Việt số thuật toán thường sử dụng phân loại văn Ứng dụng thuật toán học bán giám sát SVM vào toán phân loại văn tiếng Việt Ý nghĩa thực tiễn: Luận văn đề

Ngày đăng: 05/10/2017, 08:34

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan