Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 61 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
61
Dung lượng
548,84 KB
Nội dung
TIU LUN: Phõn loi bn ting Vit bng phng phỏp phõn tớch cỳ phỏp LI GII THIU Ngy nay, c s d liu ó tr thnh mt phn khụng th thiu ca xó hi loi ngi Trong k nguyờn thụng tin ny, cỏc thụng tin c lu tr v x lý hiu qu hu ht l thụng qua c s d liu Sau gn 50 nm phỏt trin, c s d liu ó cú nhng bc tin vụ cựng quan trng lch s Cụng ngh thụng tin T mụ hỡnh C s d liu quan h E.Codd xut t nhng nm 60, cỏc ng dng cụng ngh thụng tin ó thc s bin vic lu tr d liu tr thnh lu tr thụng tin thụng qua cỏc cụng c qun lý v x lý c s d liu Ngy nay, nhu cu lu tr v x lý thụng tin cú mt khp mi ni bt c mt t chc no, vi bt k mt mụ hỡnh hay quy mụ no cng u cú nhng nhu cu v lu tr v khai thỏc thụng tin Khỏi nim thụng tin õy bao gm c thụng tin v ni ti ca t chc v thụng tin v mụi trng v t chc hot ng Vic nghiờn cu lý thuyt v c s d liờu ó tr thnh mt ngnh khoa hc ng dng Do nhng tin b vt bc nghiờn cu lý thuyt cng nh ci t thc t, cỏc h qun tr c s d liu ó tr thnh nn tng, l phn ct yu hot ng ca cỏc t chc Nh chỳng m cỏc t chc hot ng hiu qu hn Vic ng dng c s d liu ó giỳp lm gim rt nhiu cụng sc lao ng ca ngi v nh ú hiu sut lao ng ca h cao hn H qun tr c s d liu ngy khụng cũn n thun ch l mt c cu cho phộp lu tr s liu m cũn kốm theo ú l cỏc cụng c, tin ớch hay cỏc phng phỏp lun chuyn i s liu thnh thụng tin Tp tt c cỏc cụng c ngi dựng phỏt trin hoc cỏc nh cung cp phn mm tung phc v cho mc ớch hot ng ca t chc, c ti u theo nhng yờu cu nghip v ca t chc c gi l cỏc ng dng h tr x lý tỏc nghip Cao hn na, cỏc nhu cu s dng thụng tin mc cao cp hn h tr cỏc nhu cu phõn tớch ca cỏc nh lónh o, cỏc nh lp chin lc mt t chc, mt loi ng dng mi i phc v cho cỏc mc ớch ny vi tờn gi h phõn tớch v x lý trc tuyn cỏc ng dng ny, thụng tin c lu tr, x lý v kt xut theo cỏc mc ớch c th di dng hng ch Nh cỏc thụng tin dng ny m cỏc phõn tớch, cỏc nh lónh cú th a cỏc quyt nh hot ng mt cỏch hiu qu nht Khi cỏc mụ hỡnh d liu phỏt trin mc cao hn, cỏc thụng tin lu tr di dng d liu phong phỳ a dng hn, ngi ta nhn cũn rt nhiu tri thc cũn tim n d liu m cỏc mc phõn tớch trc ú khụng phỏt hin Lý ca ny l cỏc phõn tớch trc ú ch mi hng mc ớch c th ca ngi Cỏc mc ớch ny l c nh v cỏc phõn tớch ny hon ton ngi a hon cnh c th Khi cỏc thụng tin phn ỏnh mụi trng thay i thỡ ngi khụng nhn iu chnh cỏc phõn tớch v a cỏc phõn tớch mi Cỏc tri thc ú cú th l hng kinh doanh, cỏc d bỏo th trng, cng cú th l mi quan h gia cỏc trng hay ni dung d liu m ngi khụng hỡnh dung c tin hnh mụ hỡnh hoỏ cỏc h thng Vỡ th, ngnh nghiờn cu v Phỏt hin tri thc c s d liu (Knowledge Discovery in Database) i vi bi toỏn Khai phỏ d liu (DataMining) lm trung tõm nghiờn cu Cỏc t tng nghiờn cu v cỏc thut toỏn v Trớ tu nhõn to v H chuyờn gia ó c ỏp dng v thu c nhng kt qu rt quan trng nh: cõy quyt nh, mng n-ron Hu ht cỏc thut toỏn nghiờn cu cho DataMining l trung trờn cỏc ngun s liu cú cu trỳc (structured data) Nhng phn ln thụng tin m chỳng ta lu tr v trao i hng ngy li c lu tr di cỏc dng d liu bỏn cu trỳc (semi-structured data) hoc phi cu trỳc (non-structured data) Vớ d nh cỏc nh xut bn, h thng cỏc trang web trờn mt website, cỏc cụng vn, giy t, bỏo cỏo, th tớn in t mt cụng ty Thm ta cú th nhn thy rng mt h qun tr c s d liu (ni m d liu c lu tr cú cu trỳc) thỡ d liu kiu text chim mt t l cao Do ú mt t l lm th no cú th tỡm kim v khai thỏc tri thc t ngun d liu nh vy Cỏc k thut gii quyt ny c gi l k thut "TextMining" hay Khai phỏ d liu bn Bi toỏn Khai phỏ d liu bn khụng ch trung vo mt hay mt nhúm cỏc thụng tin c lu tr di dng bn, t l lm th no cú th Khai phỏ c cỏc thụng tin theo lch s, t quỏ kh hng d oỏn tng lai Nhng tri thc tng trng nh vụ ớch quỏ kh nhng cú th c phỏt hin s dng cho cỏc mc ớch sau ny Mt s bi toỏn quan trng Khai phỏ d liu bn hay c xột n nh l cỏc bi toỏn Text Classification, Text Sumarization, v Text Categorization Trờn th gii ó cú rt nhiu thnh cụng ti phõn lp bn nh cỏc nghiờn cu ca hóng IBM, cỏc phũng thớ nghim MIT hay cỏc vin nghiờn cu ca cỏc trng i hc M, Phỏp, Nht Bn, Canada Tuy nhiờn, cỏc thnh cụng ú ch yu trung vo nghiờn cu v cỏc bn ting Anh, ting Phỏp Nhng ngụn ng ny l cỏc ngụn ng tng i thun li x lý Hin nay, cha cú mt cụng c no c coi l hiu qu lnh vc khai phỏ bn ting Vit Nn Cụng ngh thụng tin ca nc ta c phỏt trin ht sc mnh m Do nhu cu hi nhp, nhu cu phỏt trin kinh t, hoỏ, Xó hi ngy cng tng, cỏc thụng tin c x lý thụng qua bn in t, qua web, qua email phỏt trin vi tc chúng mt T ú, nhu cu nghiờn cu v xõy dng cỏc cụng c Khai phỏ d liu bn ting Vit ang c ht sc coi trng Trong ti thc ny, em xin trỡnh by cỏc nghiờn cu tng quan ca em v: Text Mining v cỏc ng dng ca nú v thu thp thụng tin t d liu bn v phõn loi d liu bn Mc ớch ca ti l hng ti phỏt trin cỏc cụng c phõn loi bn ting Vit cỏc nghiờn cu sau ti lun tt nghip I t Nh chỳng ta ó bit, hu ht cỏc thụng tin c trao i hin nm di dng ti liu bn Cỏc thụng tin ú cú th l cỏc bi bỏo, cỏc ti liu kinh doanh, cỏc thụng tin kinh t, cỏc bi nghiờn cu khoa hc Dự ỏp dng C s d liu vo hot ng ca t chc l rt ph bin v em li nhiu li ớch lu tr v x lý, nhng ta khụng th quờn c rng cũn rt nhiu dng thụng tin khỏc c lu tr di dng bn Thm c cỏc thụng tin c lu cỏc c s d liu thỡ phn ln s chỳng cng c t chc di dng bn Hin nay, cỏc t chc ó ỏp dng cụng ngh thụng tin vo qun lý h thng cụng giy t, vớ d cỏc h thng s dng Lotus Node Tuy nhiờn ú ch thc s l cỏch qun lý lung d liu bn, cung cp cỏc cụng c kho cha, cũn d liu thc s nm di dng bn Chỳng ta cha cú cỏc gii thut phõn loi, tỡm kim ti liu, cỏc cụng c trớch lc thụng tin nhm mc ớch thng kờ, phỏt hin tri thc, quyt nh trc tip trờn cỏc ngun d liu kiu ny Vi thc t ú, t l lm th no chỳng ta cú th khai thỏc c nhng thụng tin hu ớch t cỏc ngun ti liu bn núi chung Cỏc ngun d liu ny phi c x lý nh th no ngi dựng cú th cú nhng cụng c t ng hoỏ tr giỳp vic phỏt hin tri thc v khai thỏc thụng tin Rừ rng, chỳng ta phi hiu rừ bn cht ca d liu bn, hiu rừ cỏc c trng ca cỏc d liu loi ny cú th cú c nhng phng phỏp lun cn thit Vic khai thỏc thụng tin t cỏc ngun d liu bn cỏc t chc Vit Nam chc chn phi da vo nhng kt qu nghiờn cu v bn núi chung, v d liu bn v cỏc k thut x lý ó c phỏt trin trờn th gii Tuy nhiờn, nhng bn ting Vit li cú nhng c trng riờng ca nú Ta cú th nhn thy c s khỏc bit v mt kớ phỏp, cỳ phỏp v ng phỏp ting Vit cỏc bn so vi cỏc ngụn ng ph bin trờn th gii nh ting Anh, ting Phỏp Vy thỡ nhng c trng ny nh hng th no n cỏc k thut khai phỏ d liu bn, ta cn phi cú nhng ký thut mi no cú th tn dng c nhng u th ca ting Vit cng nh gii quyt c nhng phc ting Vit tr li c nhng cõu hi ny, ỏn s i t nhng bc nghiờn cu v Khai phỏ d liu bn, tỡm hiu nhng c trng ca ting Vit, t ú phng hng giỳp gii quyt bi toỏn phõn loi bn ting Vit phc cỏc nghiờn cu cao hn Cỏc kt qu ca nghiờn cu ti thc ny s l nhng bc tin u tiờn cho lun tt nghip ca em vi ti Phõn loi bn ting Vit bng phng phỏp phõn tớch cỳ phỏp. II C s lý thuyt Khỏi nim Text Mining a Khai phỏ d liu (Data Mining) Vic s dng c s d liu vo hot ng ca mt t chc ó c phỏt trin vũng 60 nm tr li õy Vi d liu c thu thp sut quỏ trỡnh hot ng ca mt t chc, mt nhu cu c t l tỡm kim v khai thỏc tri thc t nhng d liu ú ú chớnh l xut phỏt im ca bi toỏn Phỏt hin tri thc t c s d liu Ngi ta nhn thy rng cú rt nhiu tri thc m chỳng ta khụng lng trc ang cũn tim n d liu, nhim v ca chỳng ta l phỏt hin, khỏm phỏ cỏc tri thc ú, phc v cho nhng nhu cu s dng thụng tin cao hn, vớ d nh cỏc h chuyờn gia hay h h tr quyt nh Khai phỏ d liu l giai on ch yu ca quỏ trỡnh Phỏt hin tri thc t c s d liu Quỏ trỡnh khai phỏ tri thc c thc hin sau cỏc quỏ trỡnh thu thp v tinh lc d liu, cú ngha l ch tỡm cỏc mu tri thc (pattern) cú ý ngha trờn d liu cú hy vng ch khụng phi l trờn ton b CSDL nh cỏc phng phỏp thng kờ trc õy Vỡ vy khai phỏ d liu bao gm vic th tỡm mụ hỡnh phự hp vi d liu v tỡm kim cỏc mu hỡnh tri thc t d liu theo mụ hỡnh ú Mc dự mu hỡnh cú th tỡm c t bt kỡ mt CSDL no nhng ch nhng mu phự hp vi mc ớch tỡm kim mi c gi l tri thc Ta s cú nhng hm s ỏnh giỏ cỏc tiờu mu nh mi, cú li, ỏng c xem xột mi ca mu hỡnh ph thuc vo khung phm vi quy chiu, cú th i vi h thng hoc i vi ngi dựng Vớ d vi d liu ca mt cụng ty, quỏ trỡnh Khai phỏ d liu tỡm c mt lut nh Li tc thu c gim vo thu vựng phớa Bc, i vi h thng thỡ rt mi, trc cha h cú nhng bt c mt cỏn b lp k hoch no cng nhn c iu ny qua cỏc bỏo cỏo ti chớnh Tớnh hu dng ca mu cú th o c qua s liờn quan n mc ớch tỡm kim Vi mt cỏn b ph trỏch bo trỡ mỏy tớnh cụng ty thỡ lut trờn khụng cú giỏ tr, mc dự l mi i vi Cú th qua cụng on khai phỏ tri thc cú rt nhiu mu c ly nhng khụng phi mu no cng cú giỏ tr, cú th l mi, hu ớch nhng li tm thng, c bit l ỏp dng cỏc k thut da trờn thng kờ Do ú luụn phi cú cỏc tiờu v cỏc hm ỏnh cỏc mu ỏng xem xột, khụng tm thng Túm li, Khai phỏ d liu thc cú th coi l mt quỏ trỡnh xỏc nh mu t cỏc Datawarehouse, s dng cỏc k thut sn cú nh hc mỏy, nhn dng, thng kờ, phõn oi v cỏc k thut c phỏt trin bi ngnh nghiờn cu trớ tu nhõn to nh Mng n-ron nhõn to (neutral network), cỏc thut toỏn di truyn (generic algorithm), quy np lut rule reduction) Ta cú th xột n mt s bi toỏn chớnh i vi nghiờn cu v Khai phỏ d liu - Bi toỏn phõn lp (classification): Tỡm mt ỏnh x (phõn loi) t mt mu d liu vo mt cỏc lp cho trc - Bi toỏn hi quy (regression): Tỡm mt ỏnh x hi quy t mt mu d liu vo mt bin d oỏn cú giỏ tr thc - Bi toỏn lp nhúm ( clustering): L vic mụ t chung tỡm cỏc xỏc nh hu hn cỏc nhúm hay cỏc loi mụ t d liu - Bi toỏn tng kt (summarization): L vic i tỡm kim mt mụ t chung túm tt cho mt d liu b Khai phỏ d liu bn (Text Mining) Khai phỏ d liu bn hay phỏt hin tri thc t cỏc c s d liu bn (textual databases) cp n tin trỡnh trớch lc cỏc mu hỡnh thụng tin (pattern) hay tri thc (knowledge) ỏng quan tõm hoc cú giỏ tr (non-trivial) t cỏc ti liu bn phi cu trỳc Quỏ trỡnh ny cú th c coi l vic m rng k thut Khai phỏ d liu truyn thng, vỡ nh ch ỳng ta ó thy (ó c cp trờn) k thut Khai phỏ d liu truyn thng (DataMining) hng ti vic phỏt hin tri thc t cỏc c s d liu cú cu trỳc Thụng tin c lu tr di dng nguyờn s nht chớnh l bn Thm ta cú th thy rng d liu tn ti di dng bn cũn cú lng ln hn rt nhiu so vi cỏc d liu cú cu trỳc khỏc Thc t, nhng nghiờn cu gn õy ó cho thy rng cú n 80% thụng tin ca mt t chc nm di dng bn ú cú th l cỏc cụng giy t, cỏc biu mu iu tra, cỏc phiu t hng, cỏc yờu cu khiu ni, gii quyt quyn li, cỏc th tớn in t (email), cỏc thụng tin trờn cỏc website thng mi Khi cỏc nghiờn cu v c s d liu i vo nhng nm 60, ngi ta tng rng cú th lu mi loi thụng tin di dng d liu cú cu trỳc Nhng trờn thc t sau gn 50 nm phỏt trin, ngi ta dựng cỏc h thng lu tr dng bn v thm trớ cũn cú xu hng dựng thng xuyờn hn T ú ngi ta cú th tin rng cỏc sn phm Khai phỏ d liu bn cú th cú giỏ tr thng mi cao hn rt nhiu ln so vi cỏc sn phm Khai phỏ d liu truyn thng khỏc Tuy nhiờn ta cng cú th thy rng cỏc k thut Khai phỏ d liu bn phc hn nhiu so vi cỏc k thut Khai phỏ d liu truyn thng bi vỡ phi thc hin trờn d liu bn ó dng phi cu trỳc v cú tớnh m (fuzzy) Mt vớ d cho bi toỏn khai phỏ d liu bn, phõn tớch cỏc bi bỏo nghiờn cu khoa hc, ta cú cỏc thụng tin sau: - stress l mt bnh liờn quan n au u - stress xut hin cú th thiu Magờ mỏu - Canxi cú th ngn cn mt s chng au u - Magờ l mt nguyờn t iu ho canxi t nhiờn mỏu Sau phõn tớch cỏc thụng tin quan trng ny, h thng cn phi a cỏc suy luõn c th mang tớnh cỏch mng: - Thiu ht Magờ cú th gõy mt s bnh au u Rừ rng õy cú s phõn tớch suy lun mc cao t c kh nng nh vy cn phi cú nhng cụng trỡnh nghiờn cu v trớ tu nhõn to tiờn tin hn Bi toỏn Khai phỏ d liu bn l mt bi toỏn nghiờn cu a lnh vc, bao gm rt nhiu k thut cng nh cỏc hng nghiờn cu khỏc nhau: thu thp thụng tin (information retrieval), phõn tớch bn (text analysis), chit xut thụng tin (information extraction), lp on (clustering), phõn loi bn (categorization), hin th trc quan (visualization), cụng ngh c s d liu, hc mỏy (machine learning) v bn thõn cỏc k thut Khai phỏ d liu Trong ti ny em ch yu cp n hai bi toỏn c th, ú l bi toỏn phõn loi d liu bn (Text categorization) v bi toỏn thu thp thụng tin (information retrieval) Cỏc nghiờn cu mi ch dng li bc tỡm hiu, kho sỏt, so sỏnh l tin cho cỏc nghiờn cu c th sau ny m mc ớch trc mt l phc v cho lun tt nghip Vi mt h thng Khai phỏ bn thng bao gm ba bc chớnh: - Bc tin x lý: bc ny, h thng s chuyn bn t dng phi cu trỳc v dng cú cu trỳc Vớ d, vi bn T chc ny to lm, h thng s c gng phõn tớch thnh T chc|ny|to|lm Cỏc t c lu riờng r mt cỏch cú cu trỳc tin cho vic x lý - Loi b cỏc thụng tin khụng cn thit bc ny, b phõn tớch tỡm cỏch loi b cỏc thụng tin vụ ớch t bn Bc ny ph thuc rt nhiu vo ngụn ng ang c phõn tớch v k thut s c dựng phõn tớch bc tip theo Vớ d, nu k thut phõn tớch bn ch da vo xỏc xut xut hin t khoỏ, ú ta cú th loi b cỏc t ph nh: nu, thỡ, th nhng, nh vy - Khai phỏ d liu ó c gin lc vi cỏc k thut khai phỏ d liu (data mining) truyn thng Xột v cu trỳc cõu, ting Vit cú hai loi cõu l cõu n v cõu ghộp d.1 Cõu n Cõu n l loi cõu c s ca ting Vit, bao gm mt nũng ct n hay mt kt cu ch v V mt ng ngha, cõu n mang ngha t thõn, cũn cõu ghộp mang ngha kt hp Cõu n cú th l cõu khng nh, cõu ph nh, cõu nghi vn, cõu tng thut, cõu cu khin, cõu biu cm Vớ d: - Cỏi xe ny tt - Tụi cha lm xong vic ny - Anh i lm cha? - Nú ang i n trng - Con i ng i! - Con mốo mi p lm sao! Nũng ct n ca mt cõu n l mt kt cu ch v Ngoi ra, cõu n cũn cú cỏc thnh phn ngoi nũng ct [3]: - Thnh phn than gi Vớ d "bn i, chỳng ta i no" - Thnh phn chuyn tip Vớ d "Anh Trng, trỏi li, khụng lm gỡ c" - Thnh phn chỳ thớch Vớ d "Nú, em tụi, rt thụng minh" - Thnh phn tỡnh Vớ d " Trong mỏy tớnh, d liu dng nh phõn" - Thnh phn ý Vớ d " Thuc, anh y khụng hỳt" biu din mt cõu n, ngi ta thng dựng mụ hỡnh suy din cõu n nh sau: Px - Cx - Vx - Bx Vi P: thnh phn ph C: ch ng V: v ng B: B ng, nh ng x: thnh phn cú th khai trin tip Cỏch biu din ny rừ rng rt thun tin vic xõy dng b lut cỳ phỏp v tin hnh phõn tớch cỳ phỏp cho mt cõu u vo d.2 Cõu ghộp V mt ng phỏp, cõu ghộp bao gm b phn ch yu l mt nũng ct ghộp, c to nờn bi ớt nht hai v v mi v thng bao gm mt nũng ct n Vớ d: Mõy tan, ma tnh Tuy rng cõu n ch cú mt nũng ct n nhng khụng phi bao gi cõu n cng ngn hn cõu ghộp, cú nhng cõu rt n gin nh cõu trờn cng l mt cõu ghộp Ngi ta cú th chia cõu ghộp thnh hai loi: cõu ghộp song song v cõu ghộp qua li [3] d.2.1 Cõu ghộp song song L loi cõu ghộp cú th cú hai v hay nhiu hn, nhiờn s liờn kt gia cỏc v l lng lo, cú th tỏch thnh cỏc cõu n m bo ton ngha Trong mt s trng hp cỏc v cú quan h, s dng cỏc kt t, nhiờn ý ngha c lp ca cỏc v tng i rừ rng Vớ d: Khỏn gi hũ reo, c pht rc tri, cuc u din quyt lit Nú vy tụi v tụi tin li phớa nú d.2.2 Cõu ghộp qua li L loi cõu cú hai v v v ny l iu kin tn ti ca v Cú c hai v thỡ cõu mi cú ý ngha trn Ni gia hai v l cỏc liờn t, thụng thng ngi ta dựng c cp liờn t Ta cú th biu din cõu ghộp l cõu cú dng nh sau: xN1 + yN2 Mt cỏc liờn t cú th c loi b Ta cú mt s vớ d nh sau: - (Bi) vỡ N1 (cho) nờn/ m N2 - N1 (cho) nờn/ m N2 - Nu N1 thỡ N2 - Khụng nhng N1 m cũn N2 - Tụi i thỡ nú cht Vỡ ph ngon nờn ca hnh ca nú mi ụng khỏch th d.2.3 Cỏc thnh phn cõu - Ch ng: Thnh phn ch yu ca cõu - V ng: Thnh phn chớnh, b sung, gii thớch ý ngha cho thnh phn ch ng - Trng ng: Thnh phn th yu, b sung ý ngha cho cõu, ch ni chn, thi gian, khụng gian - B ng: Thnh phn ph thuc, b sung ý ngha cho ng t lm v ng - nh ng: Thnh phn ph thuc, b sung ý ngha cho v ng e Cỏc c im chớnh t v bn ting Vit Hin nay, chớnh t ting Vit cha thng nht, ó cú nhng quy tc chun mc nht nh Vic nghiờn cu cỏc c im chớnh t ting Vit cú ý ngha c bit quan trng khõu tin x lý d liu, to ngun d liu u vo cho nhng pha sau nh phõn tớch cỳ phỏp hay ỏnh trng s cho cỏc t (terms), lp ch mc Mt s v chớnh t ting Vit m ta cn quan tõm nh sau: - Cỏc ch ng õm: Cỏc ch ng õm nh M/ M, k/ k thng b s dng ln - T a phng: Trong bn ngi ta thng s dng mt s t a phng thay cho cỏc t ph thụng Vớ d cõy king thay cho cõy cnh - V trớ du: Theo quy nh ỏnh du ting Vit, du c t trờn nguyờn õm cú u tiờn cao nht Tuy nhiờn vit bn, mi ngi s dng cỏc b gừ ting Vit khỏc nờn nhiu du c t khụng theo chun Vớ d hai ch: hay ho - Cỏch vit hoa: Theo quy nh, u cõu v u tờn riờng phi vit hoa Tuy nhiờn tn ti mt s cỏch vit nh sau: Tng cụng ty Dt may Vit nam - Phiờn õm ting nc ngoi: Cỏc cỏch vit sau c chp nhn m khụng cú quy chun bn ting Vit: Singapore/ Xinh-ga-po - T gch ni: Do cỏch vit du gch ni tu tin nờn khụng th phõn bit gia ni tờn riờng hay chỳ thớch Nhng va nờu trờn thc s gõy nhiu d liu u vo, ũi hi phi cú mt h thng tin x lý tt, m bo cho vic phõn tớch cỳ phỏp c thc hin cú hiu qu Cỏc gii phỏp, ỏnh giỏ hiu qu, gii phỏp cho phõn tớch bn ting Vit Cú rt nhiu bi toỏn phõn loi bn Tuy nhiờn, õy em ch xin nhc ti hai bi toỏn i din, v cng l hai bi toỏn ang c quan tõm nhiu nht ú l bi toỏn phõn loi bn ting Vit v thu thp thụng tin t bn ting Vit a Bi toỏn phõn loi bn ting Vit Cn xõy dng mt h thng cú th phõn loi c ti liu ting Vit Hay núi khỏc i, a mt ti liu ting Vit, h thng cn ch rng ú l loi bn thuc ch no (vn hoỏ, kinh t, chớnh tr, th thao, ) trờn chỳng ta ó trỡnh by hai phng phỏp phõn loi khỏc nhau, ú l phng phỏp s dng t in phõn cp ch v phng phỏp cõy quyt nh i vi gii thut s dng t in phõn cp ch , cú th hiu õy l mt phng phỏp chun Quỏ trỡnh thc hin khỏ d dng v mi kt qu ó c lng trc Tuy nhiờn, õy l mt phng phỏp thu c hiu qu khụng cao Lý l phng phỏp ny khụng cp n ng ngha ca bn phng phỏp th hai, chỳng ta ó gn bi toỏn vo mt dng trớ tu nhõn to So vi phng phỏp trc thỡ phng phỏp ny cho kt qu tt hn tớnh mm do, tớnh t hc ca gii thut Tuy nhiờn, kt qu t c cũn rt khiờm tn Do mt s c trng, nh ó nờu trờn, ca bn ting Vit, vic phõn tớch bn s rt phc Vic ỏp dng hai phng phỏp ó nờu trờn ch thu c cỏc kt qu tng i hn ch gii gii quyt bi toỏn phõn loi bn ting Vit mt cỏch trit phng phỏp phõn tớch cỳ phỏp c u tiờn lờn hng u Trong ti ny ca em cha cp c n phng phỏp ny Nú thuc vo cỏc phng phỏp x lý ngụn ng t nhiờn Do thi gian cú hn hng tip cn ban u khụng ỳng, nờn em ng phng phỏp ny Tuy nhiờn, hng mc tiờu ca em kỡ lm lun tt nghip ti s trung gii chuyt bi toỏn ny ú l: Phõn loi bn ting Vit bng phng phỏp phõn tớch cỳ phỏp. b Bi toỏn thu thp thụng tin t bn ting Vit trờn chỳng ta ó chỡnh by ba phng phỏp cho bi toỏn thu thp thụng tin ú l cỏc phng phỏp: mụ hỡnh Boolean, mụ hỡnh khụng gian vec-t, v mng n-ron i vi mụ hỡnh Boolean, õy l phng phỏp truy thụng tin da theo cỏc biu thc logic u im ln nht ca phng phỏp ny l tớnh n gin, d ci t v tc nhanh Tuy nhiờn, hn tr ln nht ca nú khụng gian lu tr v giỏ thnh cho vic thờm bt bn t kho lu tr ti liu Phng phỏp th hai ó ci tin c mt s hn tr ca phng phỏp thc nht Tuy nhiờn, nhc im ln nht ca phng phỏp ny l tc Tuy nhiờn, õy l mt phng ỏn cú tớnh kh thi cao Phng phỏp ny nờn c ỏp dng cho thu thp thụng tin ting Vit Phng phỏp th ba da trờn gii thut trớ tu nhõn to u im ca phng phỏp ny l kh nng hun luyn c ca h thng Khi cỏc mu hun luyn v phng phỏp hun luyn tt, h thng s cho cỏc kt qu rt tt Nhng nhc im ca phng phỏp ny l gii thut phc tp, khú ci t IV Xõy dng th chng trỡnh tỏch thut ng ting Vit theo phng phỏp c in Chng trỡnh v bi toỏn c gii quyt phc v cho bi toỏn phõn tớch bn ting Vit, em ó xõy dng th nghim mt chng trỡnh Tỏch thut ng ting Vit Chng trỡnh c vit bng ngụn ng java Bi toỏn t c mụ t nh sau: Xõy dng mt cụng c tỏch cỏc thut ng mt bn ting Vit theo mt t in thut ng cú sn u vo ca bi toỏn l mt tin cha mt ti liu ting Vit c nh dng Text di dng phụng VN (vớ d phụng VnTime), mt tin cha thụng tin v cỏc thut ng cng c inh dng Text di dng phụng VN u ca bi toỏn l mt tin nh dng Text bi phụng VN, ú cha cỏc thụng tin v cỏc thut ng tỡm c theo khuõn dng: Tờn thut ng (s t tỡm c) Chng trỡnh c xõy dng bng ngụn ng java v c t vi tờn tachthuatngu Kt qu chy chng trỡnh Khi chy chng trỡnh vi tin Test.txt (tp tin mu cú sn) vi ni dung l mt bỏo cỏo nghiờn cu v lý thuyt thụ, kt qu hin vi ni dung nh sau: Ket qua phan tich tu tep tin "Test.txt" Ten tu khoa (so lan xuat hien) "thông tin" (40) "hàm" (34) "khai thác" (33) "truy vấn" (26) "thực hiện" (22) "dữ liệu" (22) "tập thô" (14) "hệ thống" (10) "xử lý" (10) "không gian dung sai" (8) "phân nhóm" (5) "từ khoá" (5) "l-u trữ" (5) "nghiên cứu" (4) "ngữ nghĩa" (3) "khai phá liệu" (3) "khái niệm" (2) "chỉ tiêu" (2) Sau hai dũng m u, trờn mi dũng sau ú ghi tờn thut ng tỡm c (s ln xut hin ti liu) Vớ d: vi t thụ ta thy xut hin 14 ln ti liu TI LIU THAM KHO [1] Text Categorization Using a Hierarchical Topic Dictionary Alexander Gelbukh, Grigori Sidorov, Adolfo Guzmỏn-Arenas [2] Machine Learning in Automated Text Categorization - Fabrizio Sebastiani [3] Ng phỏp ting Vit Trung tõm Khoa hc xó hi v Nhõn quc gia Nh xut bn Khoa hc v xó hi H ni 2000 [4] Information retrieval: standard and AI - based methods - Ilya Baraev PH LC Cỏc thụng tin v bỏo cỏo Trờn a mm gm cú: - Bỏo cỏo (2 bn softcopy) nm cỏc tin A:\Docs\BaocaoTTTN.doc, v A:\Docs\BaocaoTTTN.pdf - Bn bo v bng Microsoft PowerPoint A:\Docs\Baove.ppt - Chng trỡnh demo cha th mc A:\Project bao gm mó ngun vit bng java cha th mc A:\Project\src v mó dch cha th mc A:\Project\tachthuatngu Cỏch chy chng trỡnh demo Yờu cu: - Trờn mỏy tớnh cha b dch java - t ng dn n th mc cha tin java.exe PATH - Sao th mc A:\Project vo mt ni khỏc trờn a cng Cỏch chy: - Vo ch Command Prompt - Chuyn n th mc Project ó trờn a cng - Ghừ vo dũng lnh: java tachthuatngu.Main ten_file_tai_lieu - Sau chng trỡnh kt thỳc, kt qu ó c ghi tin nh chng trỡnh thụng bao Bn cú th m tin ny (nờn m bng Notepad) xem kt qu Chỳ ý: Tp tin u vo phi cú dng text, cha cỏc bn t phụng VN T IN THUT NG Data Mining Khai phỏ bn d liu Text Mining Khai phỏ d liu bn Text Categorization Phõn loi bn Text Clustering Lp nhúm bn Information Retrieval (IR) Thu thp thụng tin Neural Network Mng N-ron Decision tree Cõy quyt nh AI-based method Phng phỏp da trớ tu nhõn to similarity tng ng Vector space model (VSM) Mụ hỡnh khụng gian vec-t Text summarization Tng hp bn Term Thut ng MC LC MC LC 57 BNG DANH MC HèNH HO 61 LI GII THIU I t II C s lý thuyt Khỏi nim Text Mining a Khai phỏ d liu (Data Mining) b Khai phỏ d liu bn (Text Mining) Bi toỏn phõn loi bn (Text categorization) 12 a Khỏi nim phõn loi bn 12 b Cỏc phng phỏp phõn loi bn 13 b.1 S dng t in phõn cp ch 13 b.1.1 Gii thut phõn lp v phõn cp ch 13 b.1.2 S phự hp v s phõn bit ca cỏc trng s 14 b.2 Phng phỏp cõy quyt nh (Decision tree) 16 Bi toỏn thu thp thụng tin (Information retrieval - IR) 18 a Khỏi nim thu thp thụng tin 18 b Cỏc phng phỏp thu thp thụng tin 20 b.1 Cỏc phng phỏp chun 21 b.1.1 Mụ hỡnh Boolean 21 b.1.2 Mụ hỡnh khụng gian vec-t (Vector space model - VSM) 23 b.2 Cỏc phng phỏp da trớ tu nhõn to (AI-based method) 28 b.2.1 K thut mng N-ron (Neural network) 29 Mt s cụng c phõn tớch bn ting Anh 35 III Cỏc gii phỏp ỏp dng cho Vietnamese Text Mining 39 c trng ca bn ting Vit 39 a Cỏc n v ca ting Vit 39 a.1 Ting v c im ca ting 39 a.1.1 Ting v giỏ tr ng õm 39 a.1.2 Ting v giỏ tr ng ngha 39 a.1.3 Ting v giỏ tr ng phỏp 40 a.2 T v cỏc c im ca t 40 a.2.1 T l n v nh nht t cõu 40 a.2.2 T cú ngha hon chnh v cu to n nh 41 a.3 Cõu v cỏc c im ca cõu 41 a.3.1 Cõu cú ý ngha hon chnh 41 a.3.2 Cõu cú cu to a dng 42 b Cỏc phng tin ng phỏp ca ting vit 42 b.1 Trong phm vi cu to t 42 b.2 Trong phm vi cu to cõu 42 c T ting vit 43 c.1 T n - t ghộp 43 c.2 T loi 45 c.3 Dựng t cu to ng 45 d Cõu ting vit 46 d.1 Cõu n 47 d.2 Cõu ghộp 48 d.2.1 Cõu ghộp song song 48 d.2.2 Cõu ghộp qua li 48 d.2.3 Cỏc thnh phn cõu 49 e Cỏc c im chớnh t v bn ting Vit 49 Cỏc gii phỏp, ỏnh giỏ hiu qu, gii phỏp cho phõn tớch bn ting Vit 50 a Bi toỏn phõn loi bn ting Vit 51 b Bi toỏn thu thp thụng tin t bn ting Vit 51 IV Xõy dng th chng trỡnh tỏch thut ng ting Vit theo phng phỏp c in 53 Chng trỡnh v bi toỏn c gii quyt 53 Kt qu chy chng trỡnh 53 TI LIU THAM KHO 55 PH LC 56 Cỏc thụng tin v bỏo cỏo 56 Cỏch chy chng trỡnh demo 56 T IN THUT NG 57 BNG DANH MC HèNH HO Hỡnh 1: Mt vớ d v cõy quyt nh Hỡnh Mụ hỡnh thu thp thụng tin chun Hỡnh th biu din cỏc vec-t ca bi bỏo D1 v D2 Hỡnh 4: th biu din quan h gia truy (query) v cỏc ti liu D1, D2 Hỡnh Mng n-ron: toỏn t AND (a) v toỏn t OR (b) Hỡnh Mng n-ron vi lp n: toỏn t NOR Hỡnh 7: Mụ hỡnh biu din mng n-ron Hỡnh 8: Minh ho cụng c TextAnalyst Hỡnh 9: Minh ho cụng c TextAnalyst nhỳng trờn Internet Explorer