Tìm hiểu phương pháp phân loại Naive Bayes và nghiên cứu xây dựng ứng dụng tóm tắt văn bản tiếng Việt

79 397 2
Tìm hiểu phương pháp phân loại Naive Bayes và nghiên cứu xây dựng ứng dụng tóm tắt văn bản tiếng Việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i I HC THI NGUYấN TRNG I HC CễNG NGH THễNG TIN V TRUYN THễNG ====================== NGễ THANH HO TèM HIU PHNG PHP PHN LOI NAẽVE BAYES V NGHIấN CU XY DNG NG DNG TểM TT VN BN TING VIT LUN VN THC S KHOA HC MY TNH THI NGUYấN - 2015 S húa bi Trung tõm Hc liu - HTN ` http://www.lrc-tnu.edu.vn/ ii LI CM N Li u tiờn tụi xin gi li cm n chõn thnh v lũng bit n sõu sc TS Nguyn Th Thu H, ngi ó ch bo v hng dn tn tỡnh cho tụi v úng gúp ý kin quý bỏu sut quỏ trỡnh hc tp, nghiờn cu v thc hin lun ny Tụi xin trõn trng cm n Ban giỏm hiu Trng i hc Cụng Ngh Thụng Tin v Truyn Thụng i hc Thỏi Nguyờn, khoa CNTT ó giỳp v to cỏc iu kin cho chỳng tụi c hc v lm khúa lun mt cỏch thun li V cui cựng tụi xin gi li cm n n gia ỡnh, ngi thõn v bn bố nhng ngi luụn bờn tụi v l ch da giỳp cho tụi vt qua nhng khú khn nht H luụn ng viờn tụi khuyn khớch v giỳp tụi cuc sng v cụng vic cho tụi quyt tõm hon thnh lun ny Tuy nhiờn thi gian cú hn, mc dự ó n lc c gng ht mỡnh nhng chc rng lun khú trỏnh nhng thiu sút Rt mong c s ch bo, gúp ý tn tỡnh ca Quý thy cụ v cỏc bn Tụi xin chõn thnh cm n! S húa bi Trung tõm Hc liu - HTN ` http://www.lrc-tnu.edu.vn/ iii LI CAM OAN Tụi xin cam oan lun l kt qu nghiờn cu ca tụi, khụng chộp ca Ni dung lun cú tham kho v s dng cỏc ti liu liờn quan, cỏc thụng tin ti liu c ng ti trờn cỏc v cỏc trang website theo danh mc ti liu ca lun Tỏc gi lun Ngụ Thanh Ho S húa bi Trung tõm Hc liu - HTN ` http://www.lrc-tnu.edu.vn/ iv MC LC LI CM N I LI CAM OAN III MC LC IV DANH MC HèNH V VI DANH MC BNG BIU VI DANH MC T VIT TT VIII LI M U CHNG : TNG QUAN V TểM TT V TểM TT VN BN TING VIT 1.1 Gii thiu 1.1.1 Tng quan bi toỏn túm tt bn 1.1.2 T l túm tt bn 1.2 c im ngụn ng ting Vit 1.2.1 c im ng õm 1.2.4 X lý ngụn ng ting Vit trờn mỏy tớnh 10 1.3 Mt s phng phỏp túm tt bn 12 1.4 ỏnh giỏ túm tt bn 14 1.4.1 ỏnh giỏ theo cỏch th cụng 14 1.4.2 Phng phỏp ỏnh giỏ BLEU 14 1.4.3 Phng phỏp ỏnh giỏ ROUGE 15 1.4.4 o precision v o recall 16 CHNG : PHNG PHP TểM TT VN BN TING VIT DA TRấN NAIVE BAYES 18 2.1 Mt s phng phỏp túm tt bn in hỡnh 18 2.1.1 Phng phỏp túm tt bn bng cõy quyt nh 18 2.1.2 Phng phỏp túm tt bn bng mng n ron 19 2.1.3 Phng phỏp phõn tớch ngụn ng t nhiờn mc sõu 19 2.1.4 Phng phỏp túm tt ngn 22 S húa bi Trung tõm Hc liu - HTN ` http://www.lrc-tnu.edu.vn/ v 2.1.5 Phng phỏp da trờn mụ hỡnh markov n 23 2.1.6 Phng phỏp túm tt da trờn rỳt gn cõu 24 2.1.7 Phng phỏp túm tt bn bng naùve bayes: 24 2.2 Phng phỏp túm tt bn s dng lý thuyt phõn loi Naùve Bayes 25 2.2.1 Phõn loi Naùve Bayes 25 2.2.2 La chn cỏc c trng cho trớch chn 31 2.3 Hun luyn v tớnh trng s cỏc cõu hun luyn 39 2.4 La chn cỏc cõu to túm tt 41 CHNG XY DNG V CI T H THNG TểM TT VN BN TING VIT DA TRấN Lí THUYT NAẽVE BAYES 44 3.1 Mụ hỡnh h thng túm tt bn ting Vit da trờn lý thuyt Naùve Bayes 44 3.2 Phõn tớch thit k h thng túm tt bn ting Vit da trờn Naùve Bayes 50 3.3 Mt s giao din ca h thng túm tt bn ting Vit da trờn Naùve Bayes 52 3.3.1 Giao din trang ch h thng túm tt bn ting Vit 52 3.3.2 Giao din trang qun tr h thng túm tt bn ting Vit 53 3.4 Kt qu thc nghim phng phỏp túm tt bn ting Vit da trờn Naùve Bayes 59 3.4.1 Xõy dng d liu phc v hun luyn 59 3.4.2 Xõy dng b t in danh t 60 3.4.3 Tin x lý v chun húa d liu 60 3.4.4 ỏnh giỏ kt qu ca h thng túm tt bn da trờn Naùve Bayes 61 KT LUN 62 TI LIU THAM KHO 63 TING VIT 63 PH LC 64 S húa bi Trung tõm Hc liu - HTN ` http://www.lrc-tnu.edu.vn/ vi DANH MC HèNH V Hỡnh 1.1 H Thng Túm Tt Vn Bn Text Compactor Hỡnh 2.1 Cõy Cu Trỳc Tu T 22 Hỡnh 2.2 Mụ Hỡnh Markov n S Dng Trong Trớch Rỳt Cõu 23 Hỡnh 2.3.Ma Trn Vớ D 33 Hỡnh 2.4 Mụ Hỡnh Gim Chiu Vộc T 33 Hỡnh 2.5 Vn Bn Vớ D 35 Hỡnh 2.6 Quan H Gia S Vn Bn V S Thut Ng 36 Hỡnh 2.7 Tỏch T Da Trờn H Thng Phõn Tớch Cõu Vlsp 36 Hinh 2.8 Thut Toan Tinh Trng S Ca Cau 40 Hỡnh 2.9 Thut Toỏn Trớch Rỳt Cõu 42 Hỡnh 3.1 Mụ Hỡnh Túm Tt Vn Bn Thụng Thng 45 Hỡnh 3.2 Mụ Hỡnh Túm Tt Vn Bn Trong Lun Vn Xut 47 Hỡnh 3.3 C s d liu ca h thng..50 Hỡnh 3.4 S Usecase Tng Quỏt 51 Hỡnh 3.5 Usecase Trng Hp Hun Luyn 52 Hỡnh 3.6 Giao Din Trang Ch Ca H Thng 53 Hỡnh 3.7 Giao Din Chớnh Ca Trang Qun Tr 54 Hỡnh 3.8 Ly Tin T ng 54 Hỡnh 3.9 Giao Din Hin Th D Liu Ly V 55 Hỡnh 3.10 Giao Din Hun Luyn Vn Bn 56 Hỡnh 3.11 Giao Din Qun Lý T 56 Hỡnh 3.12 Hin Th Tin Tc Sau Khi Cp Nht 57 Hỡnh 3.13 Giao Din Túm Tt Tin Tc 58 Hỡnh 3.14 Giao Din Túm Tt Vn Bn 58 S húa bi Trung tõm Hc liu - HTN ` http://www.lrc-tnu.edu.vn/ vii DANH MC BNG BIU Bng 1.1 Hin Trng Cỏc Kho Ng Liu Ting Vit 12 Bng 2.1 : Vớ d v bng hun luyn28 Bng 3.1 Bng Kt Qu Thc Nghim 61 S húa bi Trung tõm Hc liu - HTN ` http://www.lrc-tnu.edu.vn/ viii DANH MC T VIT TT Kớ hiu tf Din gii Tn sut t (Term frequency) tn sut nghch o bn (inverse document Idf frequency) Hi tho tra cu bn (Text REtrieval TREC Conferrence) Hi tho hiu bn (Document Understanding DUC Conferrence) Phng phỏp ỏnh giỏ dch mỏy t ng (Bilingual BLEU Evaluation Under Study) Vin cụng ngh tiờu chun quc gia (National NIST Institute of Standards and Technology) Phng phỏp ỏnh giỏ kt qu túm tt ROUGE Rouge (Recall Oriented Understudy for Gisting Evaluation) S húa bi Trung tõm Hc liu - HTN ` http://www.lrc-tnu.edu.vn/ LI M U Ngy thụng tin ó v ang úng vai trũ cc k quan trng xó hi S phỏt trin mnh m ca Internet mang li cho ngi nhng thụng tin quan trng v b ớch, vi lng ln thụng tin ny mang li cho ngi nhng tin ớch tra cu thụng tin Cỏc h thng tỡm kim, tra cu c nghiờn cu, xut v xõy dng tha phn no yờu cu ca ngi dựng t hin ti Tuy nhiờn, nú khin chỳng ta khú khn vic tỡm kim v tng hp thụng tin Cỏc nh nghiờn cu ó xut cỏc gii phỏp xõy dng cỏc h thng, cụng c khai phỏ d liu nh: phõn loi d liu, phõn cm d liu, nộn d liu, tra cu thụng tin, túm tt bn Mt nhng cụng c quan trng ú l túm tt bn i vi d liu dng bn, túm tt bn l túm tt cỏc thụng tin chớnh t bn gc nhn c mt bn dng ngn hn v cht lc cỏc thụng tin quan trng t bn gc Túm tt bn nhn c nhiu s quan tõm nghiờn cu ca cỏc nh khoa hc nhúm nghiờn cu v cỏc cụng ty trờn th gii Bi toỏn túm tt bn ting Vit cng khụng ngoi l vỡ khụng th khai thỏc thụng tin ting Vit hiu qu nu khụng cú phng phỏp túm tt bn ting Vit Trong khuụn kh ti lun vn, tụi s dng cỏch tip cn rỳt gn cõu da trờn Naive Bayes : - Nõng cao cht lng ca h thng túm tt bn ting Vit t ng bng cỏch hc giỏm sỏt Trờn thc t gii quyt bi toỏn ny ó cú rt nhiu phng phỏp c a nh s dng thut toỏn Naùve Bayes, phng S húa bi Trung tõm Hc liu - HTN ` http://www.lrc-tnu.edu.vn/ phỏp cõy quyt nh(Decision tree), Phng phỏp túm tt bn bng mng nron nhõn to(Artificial Neural Network), phng phỏp túm tt ngn, Phng phỏp phõn tớch ngụn ng t nhiờn mc sõu, phng phỏp hc khụng giỏm sỏt, phng phỏp mỏy hc Mi phng phỏp u cho kt qu khỏ tt, nhiờn phng phỏp túm tt bn ting Vit bng thut toỏn Naùve Bayes cú cht lng ca túm tt bn l cao hn - Gim phc tớnh toỏn v mt thi gian - Xõy dng h thng t ng tng hp tin tc trc tuyn v túm tt - Xõy dng d liu hun luyn gm 200 bn ting Vit Lun c chia thnh chng vi cỏc ni dung sau: Chng 1: Tng quan v túm tt v túm tt bn ting Vit Chng 2: Phng phỏp túm tt bn ting vit da trờn Naive Bayes Chng 3: Xõy dng ng dng túm tt bn ting Vit da trờn Naive Bayes S húa bi Trung tõm Hc liu - HTN ` http://www.lrc-tnu.edu.vn/ 57 Tin tc sau cp nht c hin th ngoi trang ch ca h thng, ngi dựng c quyn truy cp h thng xem cỏc thụng tin di dng tng hp t mt s ngun d liu khỏc Hỡnh 3.12 Hin th tin tc sau cp nht Sau ngi dựng la chn mc tin tc cn c Ni dung tin c hin th di dng full text (bn y ) v bn short text (vn bn túm tt) nh hỡnh 3.9 S húa bi Trung tõm Hc liu - HTN ` http://www.lrc-tnu.edu.vn/ 58 Hỡnh 3.13 Giao din túm tt tin tc Ngoi vic túm tt bn trờn cỏc trang web c ni mng thỡ h thng cho phộp túm tt nhng bn cú sn, di õy l giao din th hin chc nng ny Hỡnh 3.14 Giao din túm tt bn S húa bi Trung tõm Hc liu - HTN ` http://www.lrc-tnu.edu.vn/ 59 3.4 Kt qu thc nghim phng phỏp túm tt bn ting Vit da trờn Naùve Bayes 3.4.1 Xõy dng d liu phc v hun luyn Cỏc nghiờn cu trc õy thng lm vic vi d liu ó qua tin x lý, ú, thi gian chun b d liu thng c lm bng cỏch th cụng, mt thi gian v chi phớ ln, hn na khú khn b sung hc tng cng cho nhng h thng ũi hi phi cp nht tri thc thng xuyờn Trong lun ny, d liu c s dng bng cỏch ti v (download) t ng trờn h thng v c lu tr vo c s d liu ca h thng di dng ng dn lu bn Cỏc bn ti v c t ng loi b cỏc th html v ch ly phn ni dung ca bn Cỏc bn trờn c lu thnh cỏc bn phc v cho quỏ trỡnh hun luyn Gi D= {d1, d2, , dn} l cỏc bn hun luyn Tp cỏc bn trờn c tỏch thnh cỏc cõu i vi mi bn ds thuc d tỏch thnh cỏc cõu Sds={s1ds, s2ds, , skds} Vi mi cõu sids c tớnh toỏn trng s da trờn c trng: quan trng thụng tin Lng thụng tin cõu V trớ cõu bn Tip theo cỏc cõu c gỏn nhón th cụng bng cỏch da trờn ngi trớch chn cỏc cõu h cho rng cú ý ngha bn v lu vo (+) Cỏc cõu khụng c la chn lu vo (-) S húa bi Trung tõm Hc liu - HTN ` http://www.lrc-tnu.edu.vn/ 60 D liu t D gm n bn sau quỏ trỡnh chun b d liu c gỏn nhón thnh hai gm cỏc cõu cú nhón (+) v cỏc cõu cú nhón (-) 3.4.2 Xõy dng b t in danh t tng tc cho h thng v quỏ trỡnh xõy dng t in gm cỏc danh t, lun ó s dng cụng c Vntagger c ti v t trang web vlsp [15]v nhỳng vo mó ngun ca chng trỡnh thnh b cụng c tớch hp ca h thng 3.4.3 Tin x lý v chun húa d liu Tp bn u vo l bn dng thụ, n gin cho vic x lý d liu, vi mi bn u vo, ta s thc hic qua bc tin x lý ký t a bn v dng xõu chun õy xõu chun l xõu m ú khụng cú du cỏch no lin nhau, cú du cõu kt thỳc xõu, trc du cõu khụng cú du cỏch cú c xõu chun, chun b cho vic tỏch t, ta thc hin qua cỏc bc sau: Chuyn ht cỏc ký t ch hoa thnh ch thng Dựng cỏc du cõu (bao gm du . , :) tỏch bn thnh mt tõp hp cỏc cõu Ta cú th tỏch nh vy vỡ õm tit cỏch bi mt du cõu s khụng bao gi thuc v cựng mt t Tin hnh chun hoỏ vi mi cõu: Khi cú >1 du cỏch ng k nhau, loi bt i, ch li mt du cỏch loi b nhng du cỏch u v cui cõu S húa bi Trung tõm Hc liu - HTN ` http://www.lrc-tnu.edu.vn/ 61 3.4.4 ỏnh giỏ kt qu ca h thng túm tt bn da trờn Naùve Bayes Lun s dng phng phỏp ỏnh giỏ truyn thng l o Precision ỏnh giỏ cht lng ca túm tt, chớnh xỏc ca h thng so vi ngi ỏnh giỏ vi tng mc ca túm tt, mt s cỏc h thng khỏc hoc phng phỏp khỏc nh textcompactor [16], VTSonline [14], Le Thanh Ha [13] thng s dng túm tt theo t l c nh ngha nh sau: T l r= chiu di bn túm tt/ chiu di bn gc % Kt qu c th hin nh bng sau T l Phng phỏp 80% 60% 40% 20% Lun 0.88 0.86 0.82 0.6 HLT 0.82 0.75 0.69 0.54 Baseline 0.81 0.8 0.84 0.63 Textcompactor 0.85 0.82 0.65 0.57 VTSonline 0.72 0.68 0.51 0.48 Bng 3.1 Bng kt qu thc nghim Da vo bng kt qu thc nghim trờn thy rng, phng phỏp lun s dng c ci t hiu qu trờn h thng thc cú hiu qu v gn vi kt qu ỏnh giỏ ca ngi S húa bi Trung tõm Hc liu - HTN ` http://www.lrc-tnu.edu.vn/ 62 KT LUN Cỏc phng phỏp khai phỏ d liu hin ngy cng gn vi yờu cu ca ngi dựng l mong mun cho thụng tin hu ớch nht vụ lng thụng tin trờn Internet Trong ú, d liu dng bn chim ti trờn 80% kho d liu ln ó cú khai phỏ hiu qu thụng tin ny cn ti nhiu cụng c khỏc khai phỏ, ú cú cụng c túm tt bn Trong lun ny ó trỡnh by mt phng phỏp túm tt bn ting Vit da trờn lý thuyt Naùve Bayes phõn lp cỏc cõu cú quan trng so vi d liu ó c hun luyn bi ngi dựng cho cht lng túm tt tt hn cỏc phng phỏp ó c xut da trờn cỏch tip cn hc khụng giỏm sỏt Lun cng ó xõy dng v ci t h thng chy trờn mụi trng web, gúp phn a nhng nghiờn cu gn hn vi thc t v ỏp dng thc t vi kt qu th nghim chp nhn c Vn bn túm tt d c d hiu v gn vi kt qu túm tt ca ngi Dự ó ht sc c gng hon thnh lun v xõy dng h thng túm tt bn ting Vit t ng, nhiờn, thi gian nghiờn cu cú hn nờn khụng th trỏnh nhng sai sút Kớnh mong cỏc thy cụ, ng nghip, bn bố úng gúp lun hon thin hn Trõn trng cm n! S húa bi Trung tõm Hc liu - HTN ` http://www.lrc-tnu.edu.vn/ 63 TI LIU THAM KHO Ting Vit [1] Phm Cụng Cnh, Phng phỏp rỳt gn cõu ting Vit da trờn mng Bayesian, lun thc s, Hc vin k thut quõn s, 2014 [2] La c Dng, Khai phỏ d liu bn bng cụng c thụ, lun thc s, i hc cụng ngh thụng tin v truyn thụng Thỏi Nguyờn, 2012 [3] Lờ Mnh Hựng, Tra cu bn ting Vit da trờn mụ hỡnh phõn cm phõn cp, lun thc s, hc vin bu chớnh vin thụng, 2013 [4] Lng Chi Mai (2009), Nghiờn cu phỏt trin mt s sn phm thit yu v x lý ting núi v bn ting Vit, Chng trỡnh KH&CN cp nh nc KC01/06-10, ti KC01/06-10 [5] Hong Tt Thng, Nguyn Th Bch Nhn, Nguyn Quc Dng Lờ Th Hoi Nam, Trn Th Qunh Nga, Ti liu hng dn ụn v thi tt nghip mụn Ting Vit v phng phỏp ging dy ting Vit Tiu hc, trng i hc Hu, 2013 [6] Nguyn Th Ngc Tỳ, Túm tt bn ting Vit da trờn mng n ron, lun thc s, i hc cụng ngh thụng tin i hc quc gia thnh ph H Chớ Minh, 2014 Ting Anh [7] Chin-Yew Lin, Eduard Hovy (2003/5/27), Automatic evaluation of summaries using n-gram co-occurrence statistics, In Proceedings of the Human Technology Conference, Association for Computational Linguistics Volume 1, 71-78 [8] Clarke, J., & Lapata, M (2008), Global inference for sentence compression: An integer linear programming approach, Journal of Articial Intelligence Research, 31, 399-429 S húa bi Trung tõm Hc liu - HTN ` http://www.lrc-tnu.edu.vn/ 64 [9] Dipanjan Das and Andre F.T Martins (2007), A Survey on Automatic Text Summarization, Language Technologies Institute, Carnegie Mellon University [10] Ha N.T.T, An optimization text summarization method based on Naùve Bayes and topic word for Single syllable Language, Applied Mathematical Sciences, Vol 8, No 3, pp 99-115, 2014 [11] Hovy, E and Lin, C , Automated text summarization and the summarist system, TIPSTER '98 Proceedings of a workshop on held at Baltimore, Maryland: October 13-15, 1998, pp.197214, 1998 [12] Knight, K., & Marcu, D (2002), Summarization beyond sentence extraction: a probabilistic approach to sentence compression, Articial Intelligence, 139 (1), 91-107 [13] Thanh, Le Ha; Quyet, Thang Huynh; Chi, Mai Luong, A Primary Study on Summarization of Documents in Vietnamese, Proceedings of the First World Congress of the International Federation for Systems Research : The New Roles of Systems Sciences For a Knowledge-based Society 2005-11 Website [14] http://labs.baomoi.com/demoTS.aspx [15] http://vlsp.vietlp.org:8080/demo/ [16] http://www.textcompactor.com/ [17] http://www.tools4noobs.com/summarize PH LC 1.Phn hc bn public void Trainings(string typenewsId) { S húa bi Trung tõm Hc liu - HTN ` http://www.lrc-tnu.edu.vn/ 65 DataTable topword = dt.GetDataTable("Select * From tbWords where Type='0' and TypeNewsId='"+int.Parse(typenewsId)+"'"); if (topword != null) { foreach (DataRow row in topword.Rows) { row[2] = 0; row[3] = 0; row[4] = 0; row[5] = 0; row[6] = 0; } } string s1; int tong = 0; int dem = 0; for (int i = 0; i < 2; i++) { string sentence = st.GetSentence(i + "",typenewsId); if (topword != null) { foreach (DataRow row in topword.Rows) { s1 = Convert.ToString(row[1]); Regex thegex = new Regex(s1.ToLower()); MatchCollection theMatches = thegex.Matches(sentence); S húa bi Trung tõm Hc liu - HTN ` http://www.lrc-tnu.edu.vn/ 66 int str = 0; foreach (Match theMatch in theMatches) { str++; } if (str > 0) { dem++; tong = Convert.ToInt32(row[i + 2]) + Convert.ToInt32(str.ToString()); row[i + 2] = Convert.ToInt32(str.ToString()); } } } } double xs = 0.0; for (int i = 0; i < 2; i++) { foreach (DataRow row1 in topword.Rows) { if (tong > 0) { xs = (Convert.ToDouble(row1[i + 2]) + 1) / (Convert.ToDouble(dem) + Convert.ToDouble(tong)); } else xs = 0.0; S húa bi Trung tõm Hc liu - HTN ` http://www.lrc-tnu.edu.vn/ 67 row1[i + 4] = xs.ToString(); } } tw.Update(topword,typenewsId); DataTable noun = dt.GetDataTable("Select * From tbWords where Type='1' and TypeNewsId='"+int.Parse(typenewsId)+"'"); if (noun != null) { foreach (DataRow row in noun.Rows) { row[2] = 0; row[3] = 0; row[4] = 0; row[5] = 0; row[6] = 1; } } string s2; int tong2 = 0; int dem2 = 0; for (int i = 0; i < 2; i++) { string sentence = st.GetSentence(i + "",typenewsId); if (noun != null) { foreach (DataRow row in noun.Rows) S húa bi Trung tõm Hc liu - HTN ` http://www.lrc-tnu.edu.vn/ 68 { s2 = Convert.ToString(row[1]); Regex thegex = new Regex(s2.ToLower()); MatchCollection theMatches = thegex.Matches(sentence); int str = 0; foreach (Match theMatch in theMatches) { str++; } if (str > 0) { dem2++; tong2 = Convert.ToInt32(row[i + 2]) + Convert.ToInt32(str.ToString()); row[i + 2] = Convert.ToInt32(str.ToString()); } } } } double xs2 = 0.0; for (int i = 0; i < 2; i++) { foreach (DataRow row1 in noun.Rows) { if (tong2 > 0) S húa bi Trung tõm Hc liu - HTN ` http://www.lrc-tnu.edu.vn/ 69 { xs2 = (Convert.ToDouble(row1[i + 2]) + 1) / (Convert.ToDouble(dem2) + Convert.ToDouble(tong2)); } else xs2 = 0.0; row1[i + 4] = xs2.ToString(); } } tw.Update(noun,typenewsId); } 2.Phn Túm tt public string SummaryText(string text,string typenewsId) { DataTable topword = dt.GetDataTable("Select * From tbWords where Type='0' and TypeNewsId='"+int.Parse(typenewsId)+"'"); DataTable noun = dt.GetDataTable("Select * From tbWords where Type='1' and TypeNewsId='" + int.Parse(typenewsId) + "'"); string output = ""; string[] input = text.Split('.', '?', '!', ';'); for (int i = 0; i < input.Length; i++) { string s1 = ""; string s2 = ""; double ProbabilityYes = 0; double ProbabilityNo = 0; S húa bi Trung tõm Hc liu - HTN ` http://www.lrc-tnu.edu.vn/ 70 if (topword != null) { foreach (DataRow row in topword.Rows) { s1 = Convert.ToString(row[1]); Regex thegex = new Regex(s1); MatchCollection theMatches = thegex.Matches(input[i]); int s = 0; foreach (Match theMatch in theMatches) { ProbabilityYes += Convert.ToDouble(row[4].ToString()); ProbabilityNo += Convert.ToDouble(row[5].ToString()); } } } if (noun != null) { foreach (DataRow row in noun.Rows) { s2 = Convert.ToString(row[1]); Regex thegex = new Regex(s2); MatchCollection theMatches = thegex.Matches(input[i]); int s = 0; S húa bi Trung tõm Hc liu - HTN ` http://www.lrc-tnu.edu.vn/ 71 foreach (Match theMatch in theMatches) { ProbabilityYes += Convert.ToDouble(row[4].ToString()); ProbabilityNo += Convert.ToDouble(row[5].ToString()); } } } if (ProbabilityYes > ProbabilityNo) { output += input[i] + " "; } } return output; } S húa bi Trung tõm Hc liu - HTN ` http://www.lrc-tnu.edu.vn/ [...]... PHÁP TÓM TẮT VĂN BẢN TIẾNG VIỆT DỰA TRÊN NAIVE BAYES Trong chương này, luận văn trình bày một số phương pháp tóm tắt văn bản điển hình và đi sâu vào phương pháp tóm tắt văn bản Naïve Bayes, trên cơ sở đó tìm hiểu phương pháp rút gọn đặc trưng trong xử lý tiếng Việt và đưa giải pháp tích hợp với bộ công cụ gán nhãn từ loại VnTagger để xây dựng hệ thống thử nghiệm 2.1 Một số phương pháp tóm tắt văn bản. ..3 Chƣơng 1 : TỔNG QUAN VỀ TÓM TẮT VÀ TÓM TẮT VĂN BẢN TIẾNG VIỆT Trong chương này, luận văn trình bày các khái niệm tổng quan về tóm tắt văn bản và tóm tắt văn bản tiếng Việt, các kỹ thuật tóm tắt văn bản dựa trên máy học như: Naïve Bayes, Cây quyết định, phương pháp can thiệp mức ngôn ngữ tự nhiên,…thông qua đó, luận văn cũng trình bày một số phương pháp đánh giá tóm tắt cơ bản hiện nay 1.1 Giới thiệu... - Việt Nhóm các công cụ cho cộng đồng về xử lý ngôn ngữ tự nhiên: - Hệ phân tách từ Việt - Hệ phân loại từ Việt - Hệ phân cụm từ Việt - Hệ phân tích cú pháp tiếng Việt Do tính phức tạp và không phổ biến của tiếng Việt, mà những nghiên cứu về tóm tắt văn bản tiếng Việt so với tiếng Anh vẫn còn nhiều hạn chế Hiện nay, hầu hết các nghiên cứu về tóm tắt tiếng Việt tập trung chủ yếu vào trích rút câu và. .. dụng trong thực nghiệm được lấy từ các trang tin, và đánh giá dựa vào TREC 2.2 Phương pháp tóm tắt văn bản sử dụng lý thuyết phân loại Naïve Bayes 2.2.1 Phân loại Naïve Bayes Phân loại Naïve Bayes( Naïve Bayes Classifier) là một thuật ngữ trong xử lý số liệu thống kê Bayesian với một phân lớp xác suất dựa trên các ứng dụng định lý Bayes Naïve Bayes là phương pháp phân loại dựa vào xác suất được sử dụng. .. thống và văn bản tham khảo và Count(ngram) là số n-gram trong văn bản cho bởi hệ thống Khi sử dụng phương pháp đánh giá BLEU để đánh giá chất lượng tóm tắt, ta coi văn bản tóm tắt là văn bản ứng viên, văn bản gốc là văn bản nguồn Trong một số trường hợp người ta sử dụng phương pháp BLEU trong đánh giá chất lượng tóm tắt thủ công 1.4.3 Phƣơng pháp đánh giá ROUGE Các phương pháp đánh giá tóm tắt truyền... trong tóm tắt văn bản Thông thường, khi tóm tắt văn bản người ta đề cập tới hai yêu cầu chính sau: - Văn bản tóm tắt phải ngắn hơn văn bản gốc - Văn bản tóm tắt phải giữ được thông tin quan trọng của văn bản gốc Do đó, trong quá trình tóm tắt văn bản người ta thường quan tâm tới hai tỉ lệ tóm tắt: tỉ lệ nén và tỉ lệ thông tin Tỉ lệ nén (compression ratio) biểu thị chiều dài của văn bản tóm tắt được rút... tóm tắt văn bản tiếng Việt hiện nay cũng đã và đang được quan tâm nghiên cứu và phát triển bởi các nhóm xử lý ngôn ngữ tự nhiên tiếng Việt trong nước (JAIST) Luận văn cũng đã đưa ra đặc điểm của ngôn ngữ tiếng Việt, một số phương pháp tóm tắt văn bản đánh giá tóm tắt văn bản Ở chương 2 của luận văn sẽ đi sâu vào phương pháp tóm tắt văn bản dựa trên Naïve Bayes Số hóa bởi Trung tâm Học liệu - ĐHTN `... quả tìm kiếm Định nghĩa 1.1 [Tóm tắt văn bản (Text summarization)]: Tóm tắt văn bản là quá trình rút ra những thông tin quan trọng từ một văn bản để tạo thành một văn bản ngắn gọn hơn theo nhiệm vụ cụ thể và yêu cầu của người sử dụng [9] Số hóa bởi Trung tâm Học liệu - ĐHTN ` http://www.lrc-tnu.edu.vn/ 4 Hình 1.1 Hệ thống tóm tắt văn bản Text Compactor Những nghiên cứu sớm nhất về tóm tắt văn bản được... n-gram, gramn và Countmatch(gramn) là số chuỗi n-gram lớn nhất xuất hiện trong văn bản tóm tắt ứng viên và tập các văn bản tóm tắt tham khảo 1.4.4 Độ đo precision và độ đo recall Đối với phương pháp tóm tắt văn bản dựa trên trích rút câu, các câu được trích chọn kết nối với nhau, tạo nên văn bản tóm tắt, không cần hiệu chỉnh thêm Trong trường hợp này, người ta sử dụng độ đo triệu hồi và chính xác để... lý ngôn ngữ tiếng nước ngoài, đa số là các văn bản tiếng Anh Để áp dụng cho các tài liệu tiếng Việt thì không có được độ chính xác mong muốn do đặc điểm ngôn ngữ tiếng Việt phức tạp và có rất nhiều điểm khác biệt so với ngôn ngữ khác Một số phần mềm tóm tắt văn bản được đưa lên Intenet để sử dụng miễn phí như phần mềm Text Compactor[16] Hiện nay, các nghiên cứu về tóm tắt văn bản tiếng Việt chưa nhiều ... Naùve Bayes 2.2.1 Phõn loi Naùve Bayes Phõn loi Naùve Bayes( Naùve Bayes Classifier) l mt thut ng x lý s liu thng kờ Bayesian vi mt phõn lp xỏc sut da trờn cỏc ng dng nh lý Bayes Naùve Bayes l... túm tt bn ting Vit Chng 2: Phng phỏp túm tt bn ting vit da trờn Naive Bayes Chng 3: Xõy dng ng dng túm tt bn ting Vit da trờn Naive Bayes S húa bi Trung tõm Hc liu - HTN ` http://www.lrc-tnu.edu.vn/... cõu da trờn Naive Bayes : - Nõng cao cht lng ca h thng túm tt bn ting Vit t ng bng cỏch hc giỏm sỏt Trờn thc t gii quyt bi toỏn ny ó cú rt nhiu phng phỏp c a nh s dng thut toỏn Naùve Bayes, phng

Ngày đăng: 01/02/2016, 15:53

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan