Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 42 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
42
Dung lượng
628 KB
Nội dung
MC LC MC LC .1 BNG DANH MC HèNH HO LI GII THIU I t II C s lý thuyt Khỏi nim Text Mining a Khai phỏ d liu (Data Mining) b Khai phỏ d liu ban (Text Mining) Bi toỏn phõn loi ban (Text categorization) 11 a Khỏi nim phõn loi ban 11 b Cỏc phng phỏp phõn loi ban .12 b.1 S dng t in phõn cp ch 12 b.1.1 Giai thuõt phõn lp v phõn cp ch 12 b.1.2 S phự hp v s phõn bit ca cỏc trng s 13 b.2 Phng phỏp cõy quyt nh (Decision tree) 14 Bi toỏn thu thõp thụng tin (Information retrieval - IR) 15 a Khỏi nim thu thõp thụng tin 15 b Cỏc phng phỏp thu thõp thụng tin .17 b.1 Cỏc phng phỏp chun 17 b.1.1 Mụ hỡnh Boolean .17 b.1.2 Mụ hỡnh khụng gian vec-t (Vector space model - VSM) 19 b.2 Cỏc phng phỏp da trớ tu nhõn to (AI-based method) .22 b.2.1 K thuõt mng N-ron (Neural network) 23 Mt s cụng c phõn tớch ban ting Anh 27 III Cỏc giai phỏp ỏp dng cho Vietnamese Text Mining 30 c trng ca ban ting Vit 30 a Cỏc n v ca ting Vit 30 a.1 Ting v c im ca ting 30 a.1.1 Ting v giỏ tr ng õm 30 a.1.2 Ting v giỏ tr ng nghia 30 a.1.3 Ting v giỏ tr ng phỏp 30 a.2 T v cỏc c im ca t 31 a.2.1 T l n v nho nht t cõu .31 a.2.2 T co nghia hon chinh v cu to ụn nh .31 a.3 Cõu v cỏc c im ca cõu .31 a.3.1 Cõu co ý nghia hon chinh 31 a.3.2 Cõu co cu to a dng 31 b Cỏc phng tin ng phỏp ca ting vit .32 b.1 Trong phm vi cu to t 32 b.2 Trong phm vi cu to cõu 32 c T ting vit 33 c.1 T n - t ghep 33 c.2 T loi .33 c.3 Dựng t cu to ng 34 d Cõu ting vit 35 d.1 Cõu n .35 d.2 Cõu ghep 36 d.2.1 Cõu ghep song song 36 d.2.2 Cõu ghep qua li 36 d.2.3 Cỏc thnh phõn cõu 36 e Cỏc c im chớnh ta v ban ting Vit 37 Cỏc giai phỏp, ỏnh giỏ hiu qua, giai phỏp cho phõn tớch ban ting Vit 37 a Bi toỏn phõn loi ban ting Vit .37 b Bi toỏn thu thõp thụng tin t ban ting Vit 38 IV Xõy dng th chng trỡnh tỏch thuõt ng ting Vit theo phng phỏp cụ in 39 Chng trỡnh v bi toỏn c giai quyt 39 Kt qua chy chng trỡnh 39 TI LIU THAM KHO 40 PH LC .41 Cỏc thụng tin v bỏo cỏo 41 Cỏch chy chng trỡnh demo 41 T IN THUT NG .42 BNG DANH MC HèNH HO Hỡnh 1: Mt vớ d v cõy quyt nh Hỡnh Mụ hỡnh thu thõp thụng tin chun Hỡnh th biu din cỏc vec-t ca bi bỏo D1 v D2 Hỡnh 4: th biu din quan h gia truy (query) v cỏc ti liu D1, D2 Hỡnh Mng n-ron: toỏn t AND (a) v toỏn t OR (b) Hỡnh Mng n-ron vi lp n: toỏn t NOR Hỡnh 7: Mụ hỡnh biu din mng n-ron Hỡnh 8: Minh ho cụng c TextAnalyst Hỡnh 9: Minh ho cụng c TextAnalyst nhỳng trờn Internet Explorer LI GII THIU Ngy nay, c s d liu ó tr thnh mt phõn khụng th thiu ca xó hi loi ngi Trong ki nguyờn thụng tin ny, cỏc thụng tin c lu tr v x lý hiu qua hõu ht l thụng qua c s d liu Sau gõn 50 nm phỏt trin, c s d liu ó co nhng bc tin vụ cựng quan trng lch s Cụng ngh thụng tin T mụ hỡnh C s d liu quan h E.Codd xut t nhng nm 60, cỏc ng dng cụng ngh thụng tin ó thc s bin vic lu tr d liu tr thnh lu tr thụng tin thụng qua cỏc cụng c quan lý v x lý c s d liu Ngy nay, nhu cõu lu tr v x lý thụng tin co mt khp mi ni bt c mt tụ chc no, vi bt ky mt mụ hỡnh hay quy mụ no cung u co nhng nhu cõu v lu tr v khai thỏc thụng tin Khỏi nim thụng tin õy bao gm ca thụng tin v ni ti ca tụ chc v thụng tin v mụi trng v tụ chc hot ng Vic nghiờn cu lý thuyt v c s d liờu ó tr thnh mt ngnh khoa hc ng dng Do nhng tin b vt bõc nghiờn cu lý thuyt cung nh ci t thc t, cỏc h quan tr c s d liu ó tr thnh nn tang, l phõn ct yu hot ng ca cỏc tụ chc Nh chỳng m cỏc tụ chc hot ng hiu qua hn Vic ng dng c s d liu ó giỳp lm giam rt nhiu cụng sc lao ng ca ngi v nh o hiu sut lao ng ca h cao hn H quan tr c s d liu ngy khụng n thuõn chi l mt c cu cho phep lu tr s liu m kem theo o l cỏc cụng c, tin ớch hay cỏc phng phỏp luõn chuyn ụi s liu thnh thụng tin Tõp tt ca cỏc cụng c ngi dựng phỏt trin hoc cỏc nh cung cp phõn mm tung phc v cho mc ớch hot ng ca tụ chc, c ti u theo nhng yờu cõu nghip v ca tụ chc c gi l cỏc ng dng hụ tr x lý tỏc nghip Cao hn na, cỏc nhu cõu s dng thụng tin mc cao cp hn hụ tr cỏc nhu cõu phõn tớch ca cỏc nh lónh o, cỏc nh lõp chin lc mt tụ chc, mt loi ng dng mi i phc v cho cỏc mc ớch ny vi tờn gi h phõn tớch v x lý trc tuyn cỏc ng dng ny, thụng tin c lu tr, x lý v kt xut theo cỏc mc ớch c th di dng hng ch Nh cỏc thụng tin dng ny m cỏc phõn tớch, cỏc nh lónh co th a cỏc quyt nh hot ng mt cỏch hiu qua nht Khi cỏc mụ hỡnh d liu phỏt trin mc cao hn, cỏc thụng tin lu tr di dng d liu phong phỳ a dng hn, ngi ta nhõn rt nhiu tri thc tim n d liu m cỏc mc phõn tớch trc o khụng phỏt hin Lý ca ny l cỏc phõn tớch trc o chi mi hng mc ớch c th ca ngi Cỏc mc ớch ny l c nh v cỏc phõn tớch ny hon ton ngi a hon canh c th Khi cỏc thụng tin phan ỏnh mụi trng thay ụi thỡ ngi khụng nhõn iu chinh cỏc phõn tớch v a cỏc phõn tớch mi Cỏc tri thc o co th l hng kinh doanh, cỏc d bỏo th trng, cung co th l mi quan h gia cỏc trng hay ni dung d liu m ngi khụng hỡnh dung c tin hnh mụ hỡnh hoỏ cỏc h thng Vỡ th, ngnh nghiờn cu v Phỏt hin tri thc c s d liu (Knowledge Discovery in Database) i vi bi toỏn Khai phỏ d liu (DataMining) lm trung tõm nghiờn cu Cỏc t tng nghiờn cu v cỏc thuõt toỏn v Trớ tu nhõn to v H chuyờn gia ó c ỏp dng v thu c nhng kt qua rt quan trng nh: cõy quyt nh, mng nron Hõu ht cỏc thuõt toỏn nghiờn cu cho DataMining l tõp trung trờn cỏc ngun s liu co cu trỳc (structured data) Nhng phõn ln thụng tin m chỳng ta lu tr v trao ụi hng ngy li c lu tr di cỏc dng d liu bỏn cu trỳc (semi-structured data) hoc phi cu trỳc (non-structured data) Vớ d nh cỏc nh xut ban, h thng cỏc trang web trờn mt website, tõp cỏc cụng vn, giy t, bỏo cỏo, th tớn in t mt cụng ty Thõm ta co th nhõn thy rng mt h quan tr c s d liu (ni m d liu c lu tr co cu trỳc) thỡ d liu kiu text võn chim mt ty l cao Do o mt t l lm th no co th tỡm kim v khai thỏc tri thc t ngun d liu nh võy Cỏc k thuõt giai quyt ny c gi l k thuõt "TextMining" hay Khai phỏ d liu ban Bi toỏn Khai phỏ d liu ban khụng chi tõp trung vo mt hay mt nhom cỏc thụng tin c lu tr di dng ban, t l lm th no co th Khai phỏ c cỏc thụng tin theo lch s, t quỏ kh hng d oỏn tng lai Nhng tri thc tng trng nh vụ ớch quỏ kh nhng co th c phỏt hin s dng cho cỏc mc ớch sau ny Mt s bi toỏn quan trng Khai phỏ d liu ban hay c xet n nh l cỏc bi toỏn Text Classification, Text Sumarization, v Text Categorization Trờn th gii ó co rt nhiu thnh cụng ti phõn lp ban nh cỏc nghiờn cu ca hóng IBM, cỏc phong thớ nghim MIT hay cỏc vin nghiờn cu ca cỏc trng i hc M, Phỏp, Nhõt Ban, Canada Tuy nhiờn, cỏc thnh cụng o ch yu tõp trung vo nghiờn cu v cỏc ban ting Anh, ting Phỏp Nhng ngụn ng ny l cỏc ngụn ng tng i thuõn li x lý Hin nay, cha co mt cụng c no c coi l hiu qua linh vc khai phỏ ban ting Vit Nn Cụng ngh thụng tin ca nc ta c phỏt trin ht sc mnh m Do nhu cõu hi nhõp, nhu cõu phỏt trin kinh t, hoỏ, Xó hi ngy cng tng, cỏc thụng tin c x lý thụng qua ban in t, qua web, qua email phỏt trin vi tc chong mt T o, nhu cõu nghiờn cu v xõy dng cỏc cụng c Khai phỏ d liu ban ting Vit ang c ht sc coi trng Trong ti thc tõp ny, em xin trỡnh by cỏc nghiờn cu tụng quan ca em v Text Mining v cỏc ng dng ca no v thu thp thụng tin t d liu bn v phõn loi d liu bn Mc ớch ca ti l hng ti phỏt trin cỏc cụng c phõn loi ban ting Vit cỏc nghiờn cu sau ti luõn tt nghip Em xin chõn thnh cam n thõy Nguyn Ngc Bỡnh ó giỳp em rt nhiu quỏ trỡnh hng dõn em nghiờn cu v ti Em xin cam n anh Lu Anh Tun ó giỳp em mt s nh hng quỏ trỡnh nghiờn cu ti I t Nh chỳng ta ó bit, hõu ht cỏc thụng tin c trao ụi hin nm di dng ti liu ban Cỏc thụng tin o co th l cỏc bi bỏo, cỏc ti liu kinh doanh, cỏc thụng tin kinh t, cỏc bi nghiờn cu khoa hc Dự ỏp dng C s d liu vo hot ng ca tụ chc l rt phụ bin v em li nhiu li ớch lu tr v x lý, nhng ta khụng th quờn c rng rt nhiu dng thụng tin khỏc c lu tr di dng ban Thõm ca cỏc thụng tin c lu cỏc c s d liu thỡ phõn ln s chỳng cung c tụ chc di dng ban Hin nay, cỏc tụ chc ó ỏp dng cụng ngh thụng tin vo quan lý h thng cụng giy t, vớ d cỏc h thng s dng Lotus Node Tuy nhiờn o chi thc s l cỏch quan lý lung d liu ban, cung cp cỏc cụng c kho cha, d liu võn thc s nm di dng ban Chỳng ta cha co cỏc giai thuõt phõn loi, tỡm kim ti liu, cỏc cụng c trớch lc thụng tin nhm mc ớch thng kờ, phỏt hin tri thc, quyt nh trc tip trờn cỏc ngun d liu kiu ny Vi thc t o, t l lm th no chỳng ta co th khai thỏc c nhng thụng tin hu ớch t cỏc ngun ti liu ban noi chung Cỏc ngun d liu ny phai c x lý nh th no ngi dựng co th co nhng cụng c t ng hoỏ tr giỳp vic phỏt hin tri thc v khai thỏc thụng tin Ro rng, chỳng ta phai hiu ro ban cht ca d liu ban, hiu ro cỏc c trng ca cỏc d liu loi ny co th co c nhng phng phỏp luõn cõn thit Vic khai thỏc thụng tin t cỏc ngun d liu ban cỏc tụ chc Vit Nam chc chn phai da vo nhng kt qua nghiờn cu v ban noi chung, v d liu ban v cỏc k thuõt x lý ó c phỏt trin trờn th gii Tuy nhiờn, nhng ban ting Vit li co nhng c trng riờng ca no Ta co th nhõn thy c s khỏc bit v mt kớ phỏp, cỳ phỏp v ng phỏp ting Vit cỏc ban so vi cỏc ngụn ng phụ bin trờn th gii nh ting Anh, ting Phỏp Võy thỡ nhng c trng ny anh hng th no n cỏc k thuõt khai phỏ d liu ban, ta cõn phai co nhng ký thuõt mi no co th tõn dng c nhng u th ca ting Vit cung nh giai quyt c nhng phc ting Vit tra li c nhng cõu hoi ny, ỏn s i t nhng bc nghiờn cu v Khai phỏ d liu ban, tỡm hiu nhng c trng ca ting Vit, t o phng hng giỳp giai quyt bi toỏn phõn loi ban ting Vit phc cỏc nghiờn cu cao hn Cỏc kt qua ca nghiờn cu ti thc tõp ny s l nhng bc tin õu tiờn cho luõn tt nghip ca em vi ti Phõn loi bn ting Vit bng phng phỏp phõn tớch cỳ phỏp. II C s lý thuyt Khỏi nim Text Mining a Khai phỏ d liu (Data Mining) Vic s dng c s d liu vo hot ng ca mt tụ chc ó c phỏt trin vong 60 nm tr li õy Vi d liu c thu thõp sut quỏ trỡnh hot ng ca mt tụ chc, mt nhu cõu c t l tỡm kim v khai thỏc tri thc t nhng d liu o o chớnh l xut phỏt im ca bi toỏn Phỏt hin tri thc t c s d liu Ngi ta nhõn thy rng co rt nhiu tri thc m chỳng ta khụng lng trc ang tim n d liu, nhim v ca chỳng ta l phỏt hin, khỏm phỏ cỏc tri thc o, phc v cho nhng nhu cõu s dng thụng tin cao hn, vớ d nh cỏc h chuyờn gia hay h hụ tr quyt nh Khai phỏ d liu l giai on ch yu ca quỏ trỡnh Phỏt hin tri thc t c s d liu Quỏ trỡnh khai phỏ tri thc c thc hin sau cỏc quỏ trỡnh thu thõp v tinh lc d liu, co nghia l chi tỡm cỏc mõu tri thc (pattern) co ý nghia trờn tõp d liu co hy vng ch khụng phai l trờn ton b CSDL nh cỏc phng phỏp thng kờ trc õy Vỡ võy khai phỏ d liu bao gm vic th tim mụ hinh phu hp vi d liờu v tim kiờm cac mõu hinh tri thc t d liờu theo mụ hinh o Mc dự mõu hỡnh co th tỡm c t bt kỡ mt CSDL no nhng chi nhng mõu phự hp vi mc ớch tỡm kim mi c gi l tri thc Ta s co nhng hm s ỏnh giỏ cỏc tiờu mõu nh mi, co li, ang c xem xet mi ca mõu hỡnh ph thuc vo khung phm vi quy chiu, co th i vi h thng hoc i vi ngi dựng Vớ d vi d liu ca mt cụng ty, quỏ trỡnh Khai phỏ d liu tỡm c mt luõt nh Li tc thu c giam vo thu vựng phớa Bc, i vi h thng thỡ rt mi, trc cha h co nhng bt c mt cỏn b lõp k hoch no cung nhõn c iu ny qua cỏc bỏo cỏo ti chớnh Tớnh hu dng ca mõu co th o c qua s liờn quan n mc ớch tỡm kim Vi mt cỏn b ph trỏch bao trỡ mỏy tớnh cụng ty thỡ luõt trờn khụng co giỏ tr, mc dự l mi i vi Co th qua cụng on khai phỏ tri thc co rt nhiu mõu c ly nhng khụng phai mõu no cung co giỏ tr, co th l mi, hu ớch nhng li tõm thng, c bit l ỏp dng cỏc k thuõt da trờn thng kờ Do o luụn phai co cỏc tiờu v cỏc hm ỏnh cỏc mõu ỏng xem xet, khụng tõm thng Tom li, Khai phỏ d liu thc co th coi l mt quỏ trỡnh xỏc nh mõu t cỏc Datawarehouse, s dng cỏc k thuõt sn co nh hc mỏy, nhõn dng, thng kờ, phõn oi v cỏc k thuõt c phỏt trin bi ngnh nghiờn cu trớ tu nhõn to nh Mng n- ron nhõn to (neutral network), cỏc thuõt toỏn di truyn (generic algorithm), quy np luõt rule reduction) Ta co th xet n mt s bi toỏn chớnh i vi nghiờn cu v Khai phỏ d liu - Bai toan phõn lp (classification): Tỡm mt ỏnh x (phõn loi) t mt mõu d liu vo mt cỏc lp cho trc - Bai toan hụi quy (regression): Tỡm mt ỏnh x hi quy t mt mõu d liu vo mt bin d oỏn co giỏ tr thc - Bai toan lp nhom ( clustering): L vic mụ ta chung tỡm cỏc tõp xỏc nh hu hn cỏc nhom hay cỏc loi mụ ta d liu - Bai toan tụng kờt (summarization): L vic i tỡm kim mt mụ ta chung tom tt cho mt tõp d liu b Khai phỏ d liu bn (Text Mining) Khai phỏ d liu ban hay phỏt hin tri thc t cỏc c s d liu ban (textual databases) cõp n tin trỡnh trớch lc cỏc mõu hỡnh thụng tin (pattern) hay tri thc (knowledge) ỏng quan tõm hoc co giỏ tr (non-trivial) t cỏc ti liu ban phi cu trỳc Quỏ trỡnh ny co th c coi l vic m rng k thuõt Khai phỏ d liu truyn thng, vỡ nh ch ỳng ta ó thy (ó c cõp trờn) k thuõt Khai phỏ d liu truyn thng (DataMining) hng ti vic phỏt hin tri thc t cỏc c s d liu co cu trỳc Thụng tin c lu tr di dng nguyờn s nht chớnh l ban Thõm ta co th thy rng d liu tn ti di dng ban co lng ln hn rt nhiu so vi cỏc d liu co cu trỳc khỏc Thc t, nhng nghiờn cu gõn õy ó cho thy rng co n 80% thụng tin ca mt tụ chc nm di dng ban o co th l cỏc cụng giy t, cỏc biu mõu iu tra, cỏc phiu t hng, cỏc yờu cõu khiu ni, giai quyt quyn li, cỏc th tớn in t (email), cỏc thụng tin trờn cỏc website thng mi Khi cỏc nghiờn cu v c s d liu i vo nhng nm 60, ngi ta tng rng co th lu mi loi thụng tin di dng d liu co cu trỳc Nhng trờn thc t sau gõn 50 nm phỏt trin, ngi ta võn dựng cỏc h thng lu tr dng ban v thõm trớ co xu hng dựng thng xuyờn hn T o ngi ta co th tin rng cỏc san phm Khai phỏ d liu ban co th co giỏ tr thng mi cao hn rt nhiu lõn so vi cỏc san phm Khai phỏ d liu truyn thng khỏc Tuy nhiờn ta cung co th thy rng cỏc k thuõt Khai phỏ d liu ban phc hn nhiu so vi cỏc k thuõt Khai phỏ d liu truyn thng bi vỡ phai thc hin trờn d liu ban ó dng phi cu trỳc v co tớnh m (fuzzy) Mt vớ d cho bi toỏn khai phỏ d liu ban, phõn tớch cỏc bi bỏo nghiờn cu khoa hc, ta co cỏc thụng tin sau: - stress l mt bnh liờn quan n au õu - stress xut hin co th thiu Magờ mỏu - Canxi co th ngn can mt s chng au õu - Magờ l mt nguyờn t iu ho canxi t nhiờn mỏu Sau phõn tớch cỏc thụng tin quan trng ny, h thng cõn phai a cỏc suy luõn c th mang tớnh cỏch mng: - Thiu ht Magờ co th gõy mt s bnh au õu Ro rng õy co s phõn tớch suy luõn mc cao t c kh nng nh võy cõn phai co nhng cụng trỡnh nghiờn cu v trớ tu nhõn to tiờn tin hn Bi toỏn Khai phỏ d liu ban l mt bi toỏn nghiờn cu a linh vc, bao gm rt nhiu k thuõt cung nh cỏc hng nghiờn cu khỏc nhau: thu thõp thụng tin (information retrieval), phõn tớch ban (text analysis), chit xut thụng tin (information extraction), lõp on (clustering), phõn loi ban (categorization), hin th trc quan (visualization), cụng ngh c s d liu, hc mỏy (machine learning) v ban thõn cỏc k thuõt Khai phỏ d liu Trong ti ny em ch yu cõp n hai bi toỏn c th, o l bi toỏn phõn loi d liu bn (Text categorization) v bi toỏn thu thp thụng tin (information retrieval) Cỏc nghiờn cu mi chi dng li bc tỡm hiu, khao sỏt, so sỏnh l tin cho cỏc nghiờn cu c th sau ny m mc ớch trc mt l phc v cho luõn tt nghip Vi mt h thng Khai phỏ ban thng bao gm ba bc chớnh: - Bc tin x lý: bc ny, h thng s chuyn ban t dng phi cu trỳc v dng co cu trỳc Vớ d, vi ban Tụ chc to lm, h thng s c gng phõn tớch thnh Tụ chc|nay|to|lm Cỏc t c lu riờng r mt cỏch co cu trỳc tin cho vic x lý - Loi bo cỏc thụng tin khụng cõn thit bc ny, b phõn tớch tỡm cỏch loi bo cỏc thụng tin vụ ớch t ban Bc ny ph thuc rt nhiu vo ngụn ng ang c phõn tớch v k thuõt s c dựng phõn tớch o bc tip theo Vớ d, nu k thuõt phõn tớch ban chi da vo xỏc xut xut hin t khoỏ, o ta co th loi bo cỏc t ph nh: nờu, thỡ, thờ nhng, nh vy - Khai phỏ d liu ó c gian lc vi cỏc k thuõt khai phỏ d liu (data mining) truyn thng Co rt nhiu k thuõt v phng phỏp tt c s dng cho Text Mining tỡm cỏc kin trỳc mi, cỏc mõu mi, v cỏc liờn kt mi Cỏc bc tin x lý l cỏc k thuõt rt phc nhm phõn tớch mt phõn lp c bit thnh cỏc thuc tớnh c bit, sau o tin hnh ỏp dng cỏc phng phỏp khai phỏ d liu kinh in tc l phõn tớch thng kờ v phõn tớch cỏc liờn kt Cỏc bc li s khai phỏ ca ban õy t tõp cỏc ban, vớ d nh phõn lp ban Mc tiờu cui cựng ca Text Mining thng l ng li hiu qua, hon thin, v c trng trỡnh din v tỡm kim cỏc tõp hp rng ln ca cỏc ban Do o, cỏc k thuõt chớnh ca Text Mining co th c phõn phõn thnh cỏc nhim v m chỳng thc hin x lý khai phỏ ban: loi thụng tin m chỳng co th trớch v loi phõn tớch c thc hin bi chỳng 10 Hỡnh 8: Minh ho cụng c TextAnalyst Tng t nh TextAnalyst, WebAnalyst cung c dựng phõn tớch ni dung ca ban ting Anh Nhng im khỏc bit l cụng c ny c gn vo Internet Explorer ca Microsoft chy trờn h iu hnh Windows Khi ta vo bt c mt trang web no thỡ cụng c ny t ng chy ch nn v phõn tớch ton b trang web o v tom lng cỏc thụng tin c xem l quan trng nht Vớ d, em ci t b TextAnalyst for IE, kớch hot phõn cụng c TextAnalyst c gn vo trỡnh duyt IE ca Microsoft, ri vo th trang web ti a chi http://citeseer.nj.nec.com/content/31361/141654 õy l ti liu co ni dung v Text categorization Khi o, trờn ca sụ summarization ca TextAnalyst co mt on ban Text categorization with support vector machines: learning with many relevant feature õy l ni dung chớnh bao quỏt ton b ti liu ny Sau dựng th hai cụng c trờn, em co chung mt nhõn xet l chỳng lm vic khỏ tt Ca hai u giai quyt mt bi toỏn chung l Text Summarization 28 Hỡnh 9: Minh ho cụng c TextAnalyst nhỳng trờn Internet Explorer 29 III Cỏc gii phỏp ỏp dng cho Vietnamese Text Mining c trng ca bn ting Vit Ting Vit l mt ngụn ng n lp [3], c im ny bao quỏt ton b c trng ting Vit v mt ng õm, ng nghia v ng phỏp Do o, chỳng ta phai tin hnh nghiờn cu c im ny ca ting Vit co th co c nhng hng nghiờn cu c th v ban ting Vit a Cỏc n v ca ting Vit a.1 Ting va c im ca ting Trong ting Vit, cung nh cỏc ban ting Vit, ta co th thy tiờng l mt thnh phõn khỏ quan trng Trong kớ phỏp, mụi ting ng c lõp, v ta co th phỏt hin c cỏc tiờng ca ting noi cung nh ban [3] a.1.1 Tiờng va gia tri ng õm Ng õm chớnh l mt õm ca ngụn ng Ti ta li phai nghiờn cu khớa cnh ny ca ngụn ng ting Vit o l vỡ trờn thc t, cỏc ng dng liờn quan n ting Vit nh dch thuõt, lu tr ngi ta võn ghi li õm thnh dng ban, sau o mi tin hnh cỏc thao tỏc x lý Mụi ting chớnh l mt õm tit v c ghi li thnh mt cm ban a.1.2 Tiờng va gia tri ng nghia Nu xet v mt ng nghia thỡ tiờng la n vi nho nht co th co nghia [3] Thc ta co th thy rng n v ng õm thp nht l õm v thỡ hon ton khụng co nghia (vớ d nh cỏc ch cỏi ng riờng r) Tuy nhiờn cung co nhng ting co nghia (vớ d nh , ) Theo [3], ta co th phõn bit cỏc ting nh sau: - Cỏc ting t no co nghia (vớ d nh chuụng, kinh, bỳt) co th c dựng gi tờn s võt, hin tng, co th c dựng nh mt t - Cỏc ting co nghia nhng khụng dựng gi tờn s võt, hin tng (vớ d nh thuy, thc) m chi c dựng vi t cỏch l b phõn cu thnh nờn t co nghia bõc cao hn Ta khụng th noi tụi thc m chi co th noi tụi n, nhng co nhng t nh thc phm - Cỏc ting ban thõn khụng h co nghia m chi dựng kt hp to thnh nghia cho n v trc tip cao hn, o l t Vớ d nh cỏc ting lang, ang t no khụng co nghia nhng co th to thnh t co nghia l lang ang a.1.3 Tiờng va gia tri ng phap Khớa cnh ng phỏp bao gm nhng quy tc cu to t, cu to cõu V ta co th thy rng ting l n vi ng phap dựng cu to t [3] V vic dựng ting cu to t, ta co hai trng hp nh sau: - T mt ting: õy l trng hp mt ting dựng lm mt t, vớ d nh cõy, a Cỏc ting (ong vai tro l t) l mt b phõn cu thnh nờn cõu 30 - T nhiu ting: l mt hai hay nhiu hn cỏc ting kt hp vi nhau, gn bo tng i cht ch Vic nghiờn cu cu trỳc t (nhiu ting hay mt ting) ong vai tro rt quan trng quỏ trỡnh nghiờn cu v ci t ng dng phõn tớch cỳ phỏp ting Vit a.2 T va cỏc c im ca t T v ting l hai n v khỏc nhng u rt quan trng ng phỏp ting Vit Do o ta phai i xet cỏc c im ca t a.2.1 T la n vi nho nht t cõu Nh trờn va trỡnh by, ta thy t co th gm co mt ting nhng cung co th gm hai hay nhiu ting, nhiờn t l n vi nho nht t cõu [3] Vớ d: Cụng ty ny rt ln Ngi ny rt gioi Co mt lu ý l t cõu, tc l vit, noi, suy nghi thỡ chỳng ta dựng t ch khụng phai l dựng ting Ta co th thy lu ý ny rt quan trng, vỡ thc th thnh phõn riờng r co th phỏt hin mt cõu ( dng noi hay vit) l mt tiờng nhng co th hiu ý nghia ca cõu ta phai dựng t Do o bt kỡ mt nghiờn cu v ting Vit trờn mỏy tớnh no cung phi quan tõm ờn viờc ghep cac ting t a.2.2 T co nghia hoan chnh va cu to ụn inh Ta co th nhõn iu ny cỏc t ting Vit mt ting, i vi nhng t nhiu ting thỡ o l nhng c im xỏc nh lõn Cu to ụn nh dõn n nghia hon chinh v ngc li Vớ d nh t hai ting cõy ci co cu to ụn nh v nghia hon chinh, nhng cm khụng phai l t nh cõy va ci khụng co cu to ụn nh v nghia hon chinh i vi nhng t nhiu ting, tớnh hon chinh v nghia v ụn nh v cu to c hỡnh thnh theo mi quan h gia cỏc ting cu thnh nờn t o l mi quan h phi hp, co th theo ng õm (cỏc t lỏy õm), hoc v nghia (vớ d nh nghia ca hai t xe v p t xe p) a.3 Cõu va cỏc c im ca cõu Trong ngh phỏp ting Vit, t v cõu l nhng n v ng phỏp rt quan trng i vi ngi, t c coi nh sn co kho t vng c tớch lu quỏ trỡnh sng Con co th hiu, giao tip thỡ ngi phai dựng n cõu Trong ngụn ng, cõu l n v bõc cao hn ca Noi gỡ, vit gỡ cung phai thnh cõu a.3.1 Cõu co y nghia hoan chnh Tớnh hon chinh v nghia ca cõu l tớnh hon chinh ca ca mt quỏ trỡnh t duy, quỏ trỡnh thụng bỏo din mt hon canh nht nh [3] Trong mt cõu bao gi cung co hai thnh phõn, mt thnh phõn nờu s võt hin tng v mt thnh phõn giai thớch ca s võt hin tng o a.3.2 Cõu co cu to a dng 31 Cõu co dng n gian nh l cõu n, v co nhng cu trỳc phc hn gi l cõu ghộp Xet v mt ng nghia, cõu n co nhiu dng khỏc nhau, biu l nhng ý nghia, trng thỏi, ni dung cõn thụng bỏo khỏc Tớnh cht a dng khụng trỏi ngc vi tớnh cht cht ch ca cõu v mt ng phỏp Noi chung, cu to ng phỏp co thay ụi thỡ nghia cung co thay ụi v ngc li [3] b Cỏc phng tin ng phỏp ca ting vit b.1 Trong phm vi cu to t Trong phm vi cu to t, phng tin ch yu v ng phỏp chớnh l s kờt hp cỏc ting Trt t sp xp cỏc ting co vai tro quan trng cu to t Kt hp hai phng tin ny, co hai phng thc cu to t ch yu l lay v ghộp Lỏy l vic sp t cỏc ting thnh ụi, k cõn nhau, co s phi hp v ng õm to nờn nghia Ghep l vic sp t cỏc ting thnh i, k cõn nhau, co s phi hp v ng nghia to nờn nghia ca t ghep b.2 Trong phm vi cu to cõu Tc l phm vi cỳ phỏp, ta co cỏc phng tin trt t, h t va ng iu Trt t sp t cỏc t l phng tin chớnh biu th quan h ng phỏp tc l quan h cỳ phỏp gia cỏc t mt cõu [3] Trong ting Vit, trõt t cỏc yu t cu thnh c quy nh bng mt v trớ nht nh Khi v trớ thay ụi thỡ nghia cung thay ụi theo Vớ d ta co cỏc hoỏn v cỏc ting ca mt tụ hp nh sau: Sai õu sa y Sa õu sai y Sa y sai õu õu sai sa y y sai sa õu Trõt t theo hng thuõn biu hin chụ yu t chớnh trc, yờu t ph sau, yu t c xỏc nh trc, yu t xỏc nh sau, yu t dựng khai trin ng lin sau t, nu co cỏch ly cung ng khụng quỏ xa H t l nhng t dựng biu th mt s nhng quan h cỳ phỏp nht nh Vớ d cõu Anh, chi a i chi rụi, co th dựng t va ni hai t anh, chi lm ro hn mi quan h liờn hp, bỡnh ng gia hai t Nh th t va l mt h t Tuy nhiờn ta co th thy rng h t co nhng sc thỏi v nghia [3], vớ d nh ta thy Anh vi chi khỏc vi Anh va chi iu o t mt kho khn tin hnh nghiờn cu ting Vit trờn mỏy tớnh, o l vic xỏc nh ng nghia ca mt cõu, vỡ ban tin Vit thỡ cỏch vit hay biu th trờn khỏ phụ bin 32 Tt nhiờn, ng iu ong vai tro vụ cựng quan trng ting Vit, nhiờn phm vi nghiờn cu v ban ting Vit, ng iu s khụng c i sõu nghiờn cu c T ting vit c.1 T n - t ghep Nh ó trỡnh by trờn, t ting Vit co th co mt ting hay gm nhiu ting Hn na, ting Vit, nhng t nhiu ting li co th c ghep bi nhng ting hay t khỏc co nghia Vớ d hai t mt ting t, nc co th c ghep vi thnh mt t co ý nghia tru tng hn l t nc Nhng t ny c gi l cỏc t ghep Do s tn ti ca nhng t n (l nhng t mt ting) v t ghep, chỳng ta phai tin hnh nghiờn cu co th xut nhng phng ỏn hu hiu bi toỏn nhõn dng t cõu Khi xem xet t ghep, chỳng ta co th thy co hai loi nh sau: - T ghep song song: mụi ting thng l mt ting co nghia, co th dựng lm t mt ting, gn bo vi theo quan h song song v noi chung co th ụi chụ cho Trong s phi hp v ng nghia thỡ thng co s bin ụi nghia riờng thnh mt nghia hỡnh tng, nh vớ d ca t t nc ó nờu trờn, hoc cỏc t qun ao, giay dộp - T ghep chớnh ph: mụi ting co th l mt ting co nghia, nhng thụng thng co mt ting chớnh co th c dựng lm t ting khụng co chc nng ng phỏp o, vớ d nh nha thng, banh mỡ Ta cung co th thy ting Vit tn ti mt s cỏc t ghep co nhiu ting hn, phỏt trin t loi t ghep chớnh ph, qua o co th chia thnh cỏc phõn chớnh, phõn ph, thuõn tin hn vic phõn tớch t Chớnh s tn ti ca t ghep (ghep bi cỏc ting co nghia) m co s nhõp nhng v nghia ca mt cõu Ta co th ly vớ d sau: Chic xe p nng õy, hai ting xe v p u l cỏc ting co nghia, o cõu trờn co th hiu theo hai cỏch nh sau: Chic xe p / nng Chic xe / p / nng Giai quyt c ny rt phc tp, nhiờn chc chn mun phõn tớch cõu hoc x lý ban ting Vit thỡ bi toỏn õu tiờn c t l lam thờ nao tach cac t cõu c.2 T loi Co th phõn loi cỏc t theo cỏch thc cu to nh ó xet phõn trờn, cung co th phõn loi theo cỏc ch cỏi õu nh ta lm t in Tuy nhiờn co mt cỏch phõn loi c bit quan trng v mt cu to cõu, o l xỏc nh t loi cho mụi t ting Vit 33 Theo [3], ting Vit co th co nhng t loi sau: - Danh t - ng t - Tớnh t - Pho t (s, ó, ri, rt) - Liờn t (ca, thỡ) - i t (tụi, no, anh, em, hn) - Tr t (nhi, ha, nhe) - Cam t (ỏi ch, chao ụi, võng, d) - S t (mt, hai) - Loi t (con, cỏi) - Gii t (cựng, vi, bng, ) - Trng t (hụm qua) Tt nhiờn vic phõn loi trờn chi co ý nghia tng i, vỡ nhiu ti liu khỏc võn co nhng s khỏc v cỏc phõn chia t theo t loi Nu xem xet mt cỏch k lng hn na v mt cỳ phỏp, mụi loi t li co th chia nho hn c na, vớ d rt l t ng trc vỡ mt cõu no chi ng trc cỏc tớnh t nhn mnh hiu qua biu t ca tớnh t c.3 Dung t cu to ng Ng l n v ng phỏp bõc trung gian gia t v cõu [3] Vic tỡm hiu cu to cung nh cỏc loi ng l cõn thit tỡ m hiu cu to ca cõu Qua cu to ca ng, co th nhõn ro thờm c im ng phỏp ca t loi v cỏc tiu loi Theo [3], ta co mt s nhõn xet nh sau: - Ng l mt cu to theo quan h cỳ phỏp chớnh ph - Kờt t cung c dựng biu hin quan h chớnh ph gia chớnh t vi mt s loi ph t sau Vớ d "bao ca tụi" - Khi ph t sau thc t am nhim thỡ noi chung ph t y co th l mt ng Vớ d "mt ngi / hc sinh / rt thụng minh" Ta co th xet mt s ng loi nh sau [3]: - Danh ng: Ng co danh t lm trung tõm - ng ng: Ng co ng t lm trung tõm - Tớnh ng: Ng co tớnh t lm trung tõm - Gii ng: Ng bt õu bng gii t 34 Cung nh ó phõn tớch phõn t loi, co th xõy dng c mt h thng luõt cỳ phỏp tt, ta cõn phai phõn chia cỏc ng loi mt cỏch cht che hn, vớ d: ta co danh ng "cai cu", nu thờm mt s t na, vớ d l mt thỡ danh ng mi "mt cai cu" phai l mt danh ng kờt thỳc trai vỡ ro rng ta khụng th m rng v phỏi trỏi danh ng ny na Ton b cỏc t loi v ng loi chi tit s c nờu phõn xõy dng luõt cỳ phỏp d Cõu ting vit Cõu l n v dựng t, hay ỳng hn l dựng ng m cu to nờn quỏ trỡnh t duy, thụng bỏo; no co nghia hon chinh, co cu to ng phỏp v co tớnh cht c lõp [3] Xet v cu trỳc cõu, ting Vit co hai loi cõu l cõu n v cõu ghộp d.1 Cõu n Cõu n l loi cõu c s ca ting Vit, bao gm mt nong ct n hay mt kt cu ch v V mt ng nghia, cõu n mang nghia t thõn, cõu ghep mang nghia kt hp Cõu n co th l cõu khng nh, cõu ph nh, cõu nghi vn, cõu tng thuõt, cõu cõu khin, cõu biu cam Vớ d: - Cỏi xe ny tt - Tụi cha lm xong vic ny - Anh i lm cha? - No ang i n trng - Con i ng i! - Con meo mi ep lm sao! Nong ct n ca mt cõu n l mt kt cu ch v Ngoi ra, cõu n co cỏc thnh phõn ngoi nong ct [3]: - Thnh phõn than gi Vớ d "bn i, chỳng ta i nao" - Thnh phõn chuyn tip Vớ d "Anh Trng, trỏi li, khụng lam gỡ c" - Thnh phõn chỳ thớch Vớ d "No, em tụi, rt thụng minh" - Thnh phõn tỡnh Vớ d " Trong mỏy tớnh, d liu dng nhi phõn" - Thnh phõn ý Vớ d " Thuục, anh y khụng hỳt" biu din mt cõu n, ngi ta thng dựng mụ hỡnh suy din cõu n nh sau: Px - Cx - Vx - Bx Vi P: thnh phõn ph C: ch ng V: v ng 35 B: Bụ ng, nh ng x: thnh phõn co th khai trin tip Cỏch biu din ny ro rng rt thuõn tin vic xõy dng b luõt cỳ phỏp v tin hnh phõn tớch cỳ phỏp cho mt cõu õu vo d.2 Cõu ghep V mt ng phỏp, cõu ghep bao gm b phõn ch yu l mt nong ct ghep, c to nờn bi ớt nht hai v v mụi v thng bao gm mt nong ct n Vớ d: Mõy tan, ma tnh Tuy rng cõu n chi co mt nong ct n nhng khụng phai bao gi cõu n cung ngn hn cõu ghep, co nhng cõu rt n gian nh cõu trờn cung l mt cõu ghep Ngi ta co th chia cõu ghep thnh hai loi: cõu ghep song song v cõu ghep qua li [3] d.2.1 Cõu ghộp song song L loi cõu ghep co th co hai v hay nhiu hn, nhiờn s liờn kt gia cỏc v l long leo, co th tỏch thnh cỏc cõu n m võn bao ton nghia Trong mt s trng hp cỏc v co quan h, s dng cỏc kt t, nhiờn ý nghia c lõp ca cỏc v võn tng i ro rng Vớ d: Khỏn gia ho reo, c pht rc tri, cuc u din quyt lit No võy tụi v tụi tin li phớa no d.2.2 Cõu ghộp qua li L loi cõu co hai v v v ny l iu kin tn ti ca v Co ca hai v thỡ cõu mi co ý nghia trn ven Ni gia hai v l cỏc liờn t, thụng thng ngi ta dựng ca cp liờn t Ta co th biu din cõu ghep l cõu co dng nh sau: xN1 + yN2 Mt cỏc liờn t co th c loi bo Ta co mt s vớ d nh sau: - (Bi) vỡ N1 (cho) nờn/ ma N2 - N1 (cho) nờn/ ma N2 - Nờu N1 thỡ N2 - Khụng nhng N1 ma N2 - Tụi i thi no cht Vi ph ngon nờn ca hnh ca no mi ụng khỏch th d.2.3 Cac phn cõu - Ch ng: Thnh phõn ch yu ca cõu - V ng: Thnh phõn chớnh, bụ sung, giai thớch ý nghia cho thnh phõn ch ng 36 - Trng ng: Thnh phõn th yu, bụ sung ý nghia cho cõu, chi ni chn, thi gian, khụng gian - Bụ ng: Thnh phõn ph thuc, bụ sung ý nghia cho ng t lm v ng - nh ng: Thnh phõn ph thuc, bụ sung ý nghia cho v ng e Cỏc c im chớnh t va bn ting Vit Hin nay, chớnh ta ting Vit cha thng nht, ó co nhng quy tc chun mc nht nh Vic nghiờn cu cỏc c im chớnh ta ting Vit co ý nghia c bit quan trng khõu tin x lý d liu, to ngun d liu õu vo cho nhng pha sau nh phõn tớch cỳ phỏp hay ỏnh trng s cho cỏc t (terms), lõp chi mc Mt s v chớnh ta ting Vit m ta cõn quan tõm nh sau: - Cac ch ụng õm: Cỏc ch ng õm nh Mi/ M, ki/ k thng b s dng lõn - T ia phng: Trong ban ngi ta võn thng s dng mt s t a phng thay cho cỏc t phụ thụng Vớ d cõy king thay cho cõy canh - Vi tri du: Theo quy nh ỏnh du ting Vit, du c t trờn nguyờn õm co u tiờn cao nht Tuy nhiờn vit ban, mụi ngi s dng cỏc b go ting Vit khỏc nờn nhiu du c t khụng theo chun Vớ d hai ch: hoa hay hoa - Cach viờt hoa: Theo quy nh, õu cõu v õu tờn riờng phai vit hoa Tuy nhiờn võn tn ti mt s cỏch vit nh sau: Tụng cụng ty Dt may Vit nam - Phiờn õm tiờng nc ngoai: Cỏc cỏch vit sau võn c chp nhõn m khụng co quy chun ban ting Vit: Singapore/ Xinh-gapo - T gch ni: Do cỏch vit du gch ni tin nờn khụng th phõn bit gia ni tờn riờng hay chỳ thớch Nhng va nờu trờn thc s gõy nhiu d liu õu vo, oi hoi phai co mt h thng tin x lý tt, am bao cho vic phõn tớch cỳ phỏp c thc hin co hiu qua Cỏc gii phỏp, ỏnh giỏ hiu qu, gii phỏp cho phõn tớch bn ting Vit Co rt nhiu bi toỏn phõn loi ban Tuy nhiờn, õy em chi xin nhc ti hai bi toỏn i din, v cung l hai bi toỏn ang c quan tõm nhiu nht o l bi toỏn phõn loi ban ting Vit v thu thõp thụng tin t ban ting Vit a Bai toỏn phõn loi bn ting Vit Cõn xõy dng mt h thng co th phõn loi c ti liu ting Vit Hay noi khỏc i, a mt ti liu ting Vit, h thng cõn chi rng o l loi ban thuc ch no (vn hoỏ, kinh t, chớnh tr, th thao, ) 37 trờn chỳng ta ó trỡnh by hai phng phỏp phõn loi khỏc nhau, o l phng phỏp s dng t in phõn cp ch v phng phỏp cõy quyt nh i vi giai thuõt s dng t in phõn cp ch , co th hiu õy l mt phng phỏp chun Quỏ trỡnh thc hin khỏ d dng v mi kt qua ó c lng trc Tuy nhiờn, õy l mt phng phỏp thu c hiu qua khụng cao Lý l phng phỏp ny khụng cõp n ng nghia ca ban phng phỏp th hai, chỳng ta ó gn bi toỏn vo mt dng trớ tu nhõn to So vi phng phỏp trc thỡ phng phỏp ny cho kt qua tt hn tớnh mm deo, tớnh t hc ca giai thuõt Tuy nhiờn, kt qua t c võn rt khiờm tn Do mt s c trng, nh ó nờu trờn, ca ban ting Vit, vic phõn tớch ban s rt phc Vic ỏp dng hai phng phỏp ó nờu trờn chi thu c cỏc kt qua tng i hn ch giai giai quyt bi toỏn phõn loi ban ting Vit mt cỏch trit phng phỏp phõn tớch cỳ phỏp c u tiờn lờn hng õu Trong ti ny ca em cha cõp c n phng phỏp ny No thuc vo cỏc phng phỏp x lý ngụn ng t nhiờn Do thi gian co hn hng tip cõn ban õu khụng ỳng, nờn em võn ngo phng phỏp ny Tuy nhiờn, hng mc tiờu ca em kỡ lm luõn tt nghip ti s tõp trung giai chuyt bi toỏn ny o l: Phõn loi bn ting Vit bng phng phỏp phõn tớch cỳ phỏp. b Bai toỏn thu thp thụng tin t bn ting Vit trờn chỳng ta ó chỡnh by ba phng phỏp cho bi toỏn thu thõp thụng tin o l cỏc phng phỏp: mụ hỡnh Boolean, mụ hỡnh khụng gian vec-t, v mng n-ron i vi mụ hỡnh Boolean, õy l phng phỏp truy thụng tin da theo cỏc biu thc logic u im ln nht ca phng phỏp ny l tớnh n gian, d ci t v tc nhanh Tuy nhiờn, hn tr ln nht ca no khụng gian lu tr v giỏ thnh cho vic thờm bt ban t kho lu tr ti liu Phng phỏp th hai ó ci tin c mt s hn tr ca phng phỏp thc nht Tuy nhiờn, nhc im ln nht ca phng phỏp ny l tc Tuy nhiờn, õy võn l mt phng ỏn co tớnh kha thi cao Phng phỏp ny nờn c ỏp dng cho thu thõp thụng tin ting Vit Phng phỏp th ba da trờn giai thuõt trớ tu nhõn to u im ca phng phỏp ny l kha nng hun luyn c ca h thng Khi cỏc mõu hun luyn v phng phỏp hun luyn tt, h thng s cho cỏc kt qua rt tt Nhng nhc im ca phng phỏp ny l giai thuõt phc tp, kho ci t 38 IV Xõy dng th chng trỡnh tỏch thut ng ting Vit theo phng phỏp c in Chng trỡnh v bi toỏn c gii quyt phc v cho bi toỏn phõn tớch ban ting Vit, em ó xõy dng th nghim mt chng trỡnh Tỏch thut ng ting Vit Chng trỡnh c vit bng ngụn ng java Bi toỏn t c mụ ta nh sau: Xõy dng mt cụng c tỏch cỏc thut ng mt bn ting Vit theo mt t in thut ng cú sn õu vo ca bi toỏn l mt tin cha mt ti liu ting Vit c nh dng Text di dng phụng VN (vớ d phụng VnTime), mt tin cha thụng tin v cỏc thuõt ng cung c inh dng Text di dng phụng VN õu ca bi toỏn l mt tin nh dng Text bi phụng VN, o cha cỏc thụng tin v cỏc thuõt ng tỡm c theo khuõn dng: Tờn thuõt ng (s t tỡm c) Chng trỡnh c xõy dng bng ngụn ng java v c t vi tờn tachthuatngu Kt qu chy chng trỡnh Khi chy chng trỡnh vi tin Test.txt (tp tin mõu co sn) vi ni dung l mt bỏo cỏo nghiờn cu v lý thuyt tõp thụ, kt qua hin vi ni dung nh sau: Ket qua phan tich tu tep tin "Test.txt" Ten tu khoa (so lan xuat hien) "thông tin" (40) "hàm" (34) "khai thác" (33) "truy vấn" (26) "thực hiện" (22) "dữ liệu" (22) "tập thô" (14) "hệ thống" (10) "xử lý" (10) "không gian dung sai" (8) "phân nhóm" (5) "từ khoá" (5) "lu trữ" (5) "nghiên cứu" (4) "ngữ nghĩa" (3) "khai phá liệu" (3) "khái niệm" (2) "chỉ tiêu" (2) Sau hai dong m õu, trờn mụi dong sau o ghi tờn thut ng tỡm c (s ln xut hin tai liu) Vớ d: vi t thụ ta thy xut hin 14 lõn ti liu 39 TI LIU THAM KHO [1] Text Categorization Using a Hierarchical Topic Dictionary - Alexander Gelbukh, Grigori Sidorov, Adolfo Guzman-Arenas [2] Machine Learning in Automated Text Categorization - Fabrizio Sebastiani [3] Ng phỏp ting Vit Trung tõm Khoa hc xó hi v Nhõn quc gia Nh xut ban Khoa hc v xó hi H ni 2000 [4] Information retrieval: standard and AI - based methods - Ilya Baraev 40 PH LC Cỏc thụng tin v bỏo cỏo Trờn ia mm gm co: - Bỏo cỏo (2 ban softcopy) nm cỏc tin A:\Docs\BaocaoTTTN.doc, v A:\Docs\BaocaoTTTN.pdf - Ban bao v bng Microsoft PowerPoint A:\Docs\Baove.ppt - Chng trỡnh demo cha th mc A:\Project bao gm mó ngun vit bng java cha th mc A:\Project\src v mó dch cha th mc A:\Project\tachthuatngu Cỏch chy chng trỡnh demo Yờu cõu: - Trờn mỏy tớnh cha b dch java - t ng dõn n th mc cha tin java.exe PATH - Sao th mc A:\Project vo mt ni khỏc trờn ia cng Cỏch chy: - Vo ch Command Prompt - Chuyn n th mc Project ó trờn ia cng - Gho vo dong lnh: java tachthuatngu.Main ten_file_tai_lieu - Sau chng trỡnh kt thỳc, kt qua ó c ghi tin nh chng trỡnh thụng bao Bn co th m tin ny (nờn m bng Notepad) xem kt qua Chỳ ý: Tp tin õu vo phai co dng text, cha cỏc ban t phụng VN 41 T IN THUT NG Data Mining Khai phỏ ban d liu Text Mining Khai phỏ d liu ban Text Categorization Phõn loi ban Text Clustering Lõp nhom ban Information Retrieval (IR) Thu thõp thụng tin Neural Network Mng N-ron Decision tree Cõy quyt nh AI-based method Phng phỏp da trớ tu nhõn to similarity tng ng Vector space model (VSM) Mụ hỡnh khụng gian vec-t Text summarization Tụng hp ban Term Thuõt ng 42 [...]... Các kỹ thu ̣t thu thập thông tin có thể được chia ra thành hai loại: - Các kỹ thu ̣t chuẩn - Các kỹ thu ̣t có áp dụng trí tuệ nhân tạo Nhóm đầu tiên bao gồm các kỹ thu ̣t dựa trên các phương thức thu ̣t toán và toán học truyền thống Nhóm thứ hai cố gắng thu thập tri thức bằng các kỹ thu ̣t áp dụng trí tuệ nhân tạo để giành được các kết quả tốt hơn b Các phương pháp thu thập thông tin Ngày... Extraction), thu thập thông tin (Information Retrieval) Rất nhiều các phương pháp thu thập thông tin được phát triển và kết quả mà chúng đem lại khá tốt Trong đó có rất nhiều phương pháp tồn tại ở dạng chuẩn Các phương pháp này thường dựa theo các phương pháp toán học cổ điển Một số phương pháp khác được phát triển theo hướng dựa trí tuệ nhân tạo Sau đây, chúng ta sẽ tìm hiểu sâu hơn về các phương pháp thu. .. trên các chú dẫn của văn bản, kỹ thu ̣t này sử dụng lợi thế của nội dụng nguyên mẫu của các văn bản Kỹ thu ̣t này được gọi là “trích văn bản nguyên mẫu” 2 Bài toán phân loại văn bản (Text categorization) a Khái niệm phân loại văn bản Phân loại văn bản (Text categorization) là xử lý nhóm các tài liệu thành các lớp khác nhau hay các phân nhóm (categories) Đây là một tác vụ phân lớp liên quan đến... lớn TextAnalyst cố gắng phân tích và ghi lại các thông tin liên kết này Từ kết quả phân tích thống kê, TextAnalyst đưa ra những câu văn được xem như quan trọng nhất trong cả văn bản Nhờ TextAnalyst, chúng ta có thể tiết kiệm đáng kể thời gian trong khi chọn ra các văn bản chứa các thông tin cần thiết Thay vì các phương pháp phân loại cổ điển là đọc hết văn bản để đánh giá nội dung của văn. .. Việc thu thập thông tin có thể được định nghĩa cho bất cứ một loại thông tin nào ví dụ như kiểu văn bản, hình ảnh, âm thanh Tuy nhiên, ở đây chúng ta chỉ đề cập đến việc 16 thu thập văn bản bởi văn bản là một loại thông tin mà phương thức thực hiện và kỹ thu ̣t xử lý đơn giản hơn Có thể nhấn mạnh rằng các kỹ thu ̣t này cũng có thể được áp dụng cho thu thập thông tin đa phương tiện Các. .. đó vào một phân lớp Phân lớp văn bản là bài toán hay và đang có những bước phát triển hết sức quan trọng mà nguyên nhân chủ yếu do sự phát triển mạnh mẽ gần đây của các thông tin nguyên trực tuyến b Các phương pháp phân loại văn bản b.1 Sử dụng từ điển phân cấp chủ đề Một phương pháp thống kê phân lớp văn bản được điều khiển bởi một từ điển chủ đề có phân cấp được đề xuất Phương pháp này sử... có thể có được những hướng nghiên cứu cụ thể về văn bản tiếng Việt a Các đơn vị của tiếng Việt a.1 Tiếng và đặc điểm của tiếng Trong tiếng Việt, cũng như trong các văn bản tiếng Việt, ta có thể thấy tiếng là một thành phần khá quan trọng Trong kí pháp, mỗi tiếng đứng độc lập, và ta có thể phát hiện được ngay các tiếng trong cả tiếng nói cũng như trong văn bản [3] a.1.1 Tiếng và... trong văn bản đó - Các thu t ngữ: Ở đây với mỗi văn bản tìm thấy các chuỗi từ, chuỗi từ đó thu c về một lĩnh vực nào đó và do đó việc tìm khai phá văn bản được thực hiện trên các khai niệm được gán nhãn cho mỗi văn bản Ưu điểm của phương pháp này là các thu ̣t ngữ được tách ra ít và có xu hướng tập trung vào các thông tin quan trọng của văn bản hơn hai phương pháp trước đây Các loại... company trong tiếng Anh, ứng với nó là từ công ty trong tiếng Việt Do vấn đề về từ ghép nên gay nhiều hiểu nhầm trong tiếng Việt Các vấn đề đó gọi là sự mập mờ trong tiếng Việt Ví dụ, với câu thu c địa bàn, ta có thể có hai cách phân tách thu c địa|bàn và thu c|địa bàn Như vậy, đối với tiếng Việt, chúng ta cần có các phương pháp tách từ đặc biệt hơn b.1.2.1 Tiếp cận phương thức TF... chung là Text Summarization” 28 Hình 9: Minh hoạ công cụ TextAnalyst nhúng trên Internet Explorer 29 III Các giải pháp áp dụng cho Vietnamese Text Mining 1 Đặc trưng của văn bản tiếng Việt Tiếng Việt là một ngôn ngữ đơn lập [3], đặc điểm này bao quát toàn bộ đặc trưng tiếng Việt về mặt ngữ âm, ngữ nghĩa và ngữ pháp Do đó, chúng ta phải tiến hành nghiên cứu đặc điểm này của tiếng Việt để có