Xử lý trùng lặp, phân loại, xác định từ khóa quan trọng và sinh tóm tắt cho văn bản trong một hệ thống thu thập tin tức tự động

59 298 0
Xử lý trùng lặp, phân loại, xác định từ khóa quan trọng và sinh tóm tắt cho văn bản trong một hệ thống thu thập tin tức tự động

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Header Page of 113 i LI CM N Trc tiờn, tụi xin c gi li cm n v lũng bit n sõu sc nht ti Thy giỏo, PGS TS Nguyn Trớ Thnh ó tn tỡnh ch bo, hng dn, ng viờn v giỳp tụi sut quỏ trỡnh thc hin lun tt nghip Tụi xin gi li cm n ti cỏc thy cụ trng i Hc Cụng Ngh - i Hc Quc Gia H Ni nhng ngi ó tn tỡnh giỳp , c v, v gúp ý cho tụi sut thi gian tụi hc v nghiờn cu ti trng Tụi xin gi li cm n ti cỏc anh ch, cỏc bn hc viờn cựng hc nghiờn cu ti Trng i hc Cụng ngh ó h tr tụi rt nhiu quỏ trỡnh hc cng nh thc hin lun Cui cựng, tụi mun gi li cm n ti gia ỡnh v bn bố, nhng ngi thõn yờu luụn bờn cnh, quan tõm, ng viờn tụi sut quỏ trỡnh hc v thc hin lun tt nghip ny Tụi xin chõn thnh cm n! H Ni, thỏng 05 nm 2016 Hc viờn Cn Mnh Cng Footer Page of 113 Header Page of 113 ii LI CAM OAN Tụi xin cam oan gii phỏp X lý trựng lp, phõn loi, xỏc nh t khúa quan trng v sinh túm tt cho bn mt h thng thu thp tin tc t ng c trỡnh by lun ny tụi thc hin di s hng dn ca PGS TS Nguyn Trớ Thnh Tụi ó trớch dn y cỏc ti liu tham kho, cụng trỡnh nghiờn cu liờn quan nc v quc t Tt c nhng tham kho t cỏc nghiờn cu liờn quan u c nờu ngun gc mt cỏch rừ rng t danh mc ti liu tham kho lun H Ni, thỏng nm 2016 Tỏc gi lun Cn Mnh Cng Footer Page of 113 Header Page of 113 MC LC LI CM N i LI CAM OAN ii MC LC .1 DANH MC CC Kí HIU, CC CH VIT TT DANH MC CC HèNH .5 DANH MC CC BNG Chng GII THIU TI 10 1.1 Tng quan v h thng thu thp tin tc t ng 10 1.1.1 Tng quan v Crawler 10 1.1.2 H thng thu thp tin tc t ng 12 1.2 Cỏc bi toỏn khuụn kh ti 14 1.2.1 Bi toỏn x lý trựng lp tin tc 14 1.2.2 Bi toỏn phõn loi tin tc 14 1.2.3 Bi toỏn xỏc nh t khúa quan trng v chn túm tt 15 1.3 í ngha ca cỏc bi toỏn c gii quyt ti .16 1.3.1 í ngha khoa hc 16 1.3.2 í ngha thc tin 16 1.4 Kt lun 16 Chng MT S PHNG PHP TIP CN BI TON 17 2.1 Cỏc phng phỏp tip cn bi toỏn trựng lp tin tc 17 2.1.1 Bag of Words .17 2.1.2 Shingling 18 2.1.3 Hashing 20 2.1.4 MinHash 20 2.1.5 SimHash 22 Footer Page of 113 Header Page of 113 2.2 Cỏc phng phỏp tip cn bi toỏn phõn loi tin tc 24 2.2.1 Tip cn da trờn phng phỏp cõy quyt nh 25 2.2.2 Phõn loi d liu Naùve Bayes 26 2.2.3 Tip cn theo phng phỏp SVM 29 2.3 Tip cn bi toỏn xỏc nh t khúa quan trng v chn cõu túm tt 33 2.3.1 Phng phỏp TF-IDF 33 2.3.2 Phng phỏp Edmundson 34 2.4 Tng kt 36 Chng XUT GII PHP V CI TIN P DNG GII QUYT CC BI TON TRONG THC T 37 3.1 H thu thp tin tc t ng m rng 37 3.2 Gii quyt bi toỏn trựng lp tin tc 39 3.2.1 Yờu cu thc t bi toỏn x lý trựng lp tin tc 39 3.2.2 Mụ hỡnh gii phỏp thc t 39 3.3 Gii quyt bi toỏn phõn loi tin tc 40 3.3.1 Yờu cu bi toỏn thc t 40 3.3.2 Mụ hỡnh gii phỏp thc t 41 3.4 Gii quyt bi toỏn xỏc nh t khúa quan trng v chn cõu túm tt .42 3.4.1 Yờu cu bi toỏn thc t 42 3.4.2 Mụ hỡnh gii phỏp thc t 43 3.5 Tng kt 44 Chng THC NGHIM V NH GI KT QU 46 4.1 Mụi trng thc nghim v cỏc cụng c s dng thc nghim 46 4.2 Quỏ trỡnh thu thp d liu tin tc v tin x lý 47 4.2.1 Thu thp d liu tin tc .47 4.2.2 Tin x lý d liu 47 4.3 ỏnh giỏ phỏt hin trựng lp tin tc 48 4.3.1 Phng phỏp ỏnh giỏ 48 4.3.2 Kt qu ỏnh giỏ .48 Footer Page of 113 Header Page of 113 4.4 ỏnh giỏ b phõn loi tin tc .49 4.4.1 Phng phỏp ỏnh giỏ 49 4.4.2 Kt qu ỏnh giỏ .51 4.5 ỏnh giỏ kt qu xỏc nh t khúa quan trng v chn cõu túm tt 52 4.5.1 Phng phỏp ỏnh giỏ 52 4.5.2 Kt qu ỏnh giỏ .52 4.6 Tng kt 53 TNG KT 54 Kt qu t c 54 Hn ch .54 Hng phỏt trin 55 TI LIU THAM KHO .56 PH LC 57 Footer Page of 113 Header Page of 113 DANH MC CC Kí HIU, CC CH VIT TT S th t Ký hiu, vit tt Chỳ gii Crawler Trỡnh thu thp ni dung trang web WebBrowser Trỡnh duyt web HTTP Giao thc truyn ti siờu bn URL a ch liờn kt ca trang web Seed URL Tp hp cỏc URL ht nhõn xut phỏt ca Crawler Frontier Kho cha cỏc URL cha c thm Finger print Du võn, i din cho ti liu c lp Front End Phn x lý giao din tng tỏc vi ngi dựng ID nh danh ca ti liu 10 IP Giao thc kt ni Internet 11 Hashing Bm ti liu 12 Search Engine Mỏy tỡm kim 13 SEO Ti u húa trang web h tr mỏy tỡm kim 14 TF Tn s t 15 IDF Tn s ti liu o ngc Footer Page of 113 Header Page of 113 DANH MC CC HèNH Hỡnh 1.1 Kin trỳc cỏc thnh phn c bn ca Web Crawler 10 Hỡnh 1.2 Biu trng thỏi ca Web Crawler .12 Hỡnh 1.3 Mụ hỡnh tng quan h tng hp tin t ng c bn 13 Hỡnh 2.1 Mụ phng BagofWords 18 Hỡnh 2.2 Vớ d v hashing .20 Hỡnh 2.3 Mụ phng minhash 21 Hỡnh 2.3 Vớ d v minhash 21 Hỡnh 2.4 Mụ phng vic ly simhash 22 Hỡnh 2.5 Mụ phng vic tớnh trựng lp bng simhash 23 Hỡnh 2.6 Mụ phng vic chia simhash theo bucket(khi) 23 Hỡnh 2.7 Vớ d hoỏn v cỏc vi simhash 24 Hỡnh 2.10 H2 l mt phng tt nht 29 Hỡnh 2.11 Cỏc im d liu c biu din trờn R+ .30 Hỡnh 2.12 Cỏc vector h tr (support vector) c chn 30 Hỡnh 2.13: Siờu phng c biu din trờn R+ 32 Hỡnh 3.1 Mụ hỡnh tng quan h tng hp tin t ng 37 Hỡnh 3.2 Mụ hỡnh dch v x lý phc v ngi dựng thụng qua API 39 Hỡnh 3.3 Minh thc t ng dng bi toỏn x lý trựng lp .39 Hỡnh 3.4 Minh thc t trin khai bi toỏn x lý trựng lp .40 Hỡnh 3.5 Minh thc t ng dng bi toỏn phõn loi tin tc 40 Hỡnh 3.6 Mụ hỡnh trin khai thc t trin khai bi toỏn phõn loi tin tc 41 Hỡnh 3.7 Minh thc t ng dng xỏc nh t khúa quan trng .42 Hỡnh 3.8 Minh thc t ng dng chn cõu túm tt 43 Hỡnh 3.9 Mụ hỡnh thc t bi toỏn xỏc nh t khúa quan trng 43 Hỡnh 3.10 Mụ hỡnh thc t bi toỏn xỏc nh cõu túm tt 44 Hỡnh 4.1 So sỏnh tc simhash v shingling .49 Footer Page of 113 Header Page of 113 Footer Page of 113 Header Page of 113 DANH MC CC BNG Bng 0.1 Thng kờ s lng tin tc bỏo mi thỏng u 2016 .8 Bng 4.1 Cu hỡnh phn cng thc nghim 46 Bng 4.2 Cỏc cụng c phn mm c s dng 46 Bng 4.3 Thng kờ thi gian chy vi simhash v shingling 48 Bng 4.4 Kt qu phõn loi cha c ci tin .51 Bng 4.5 Kt qu phõn loi c ci tin .51 Bng 4.6 Thng kờ t l tag v túm tt t yờu cu .52 Footer Page of 113 Header Page 10 of 113 M U Bỏo in t ó khụng cũn l khỏi nim xa l vi mi chỳng ta, nú ang dn thay th cỏc hỡnh thc phỏt hnh bỏo, truyn thng bi cỏc c im u vit nh: tớnh thi s - kh nng cp nht trc tip, kh nng truyn ti a phng tin, kh nng lu tr v tỡm kim thụng tin, kh nng tng tỏc vi ngi dựng cao, bỏo in t ó khc phc nhng hn ch ca cỏc loi hỡnh bỏo truyn thng tr thnh loi hỡnh bỏo u vit thi im hin Tớnh n ngy 25/12/2014, c nc cú 838 c quan bỏo in vi 1.111 n phm bỏo (trong ú cỏc c quan Trung ng cú 86 bỏo in v 507 chớ; a phng cú 113 bỏo in v 132 chớ); 90 bỏo v in t, 215 trang tin in t tng hp ca cỏc c quan bỏo S bỏo v in t ó tng gp gn 1.5 ln so vi s 62 bỏo in t vo nm 2012 [1] Cng theo thng kờ ca mt trang tng hp thụng tin in t ln l Baomoi.com1 thỏng t thỏng 12/2015 n thỏng 2/2016, v s lng tin bi trờn bỏo, in t, trang thụng tin in t thỡ: Bng 0.1 Thng kờ s lng tin tc bỏo mi thỏng u 2016 Tng s tin 583827 Tng s tin ng li 137823 Tng s tin gc b ng li 123805 Tng s tin gc khụng b ng li 446004 Vi lng thụng tin khng l t hn 300 trang bỏo v tin in t nh hin thỡ vic tng hp chn lc mt cỏch th cụng mang li ngun thụng tin hu ớch dng nh l mt iu khụng th, vic thu thp thụng tin t ng xõy dng mt h thng c tin t ng thụng minh bng mỏy tớnh khụng cũn l ch mi, xong vic ci tin, ng dng cỏc cụng ngh mi vo h thng h thng hnh tt bi cnh d liu ln dn l c mt bi toỏn khụng h n gin xõy dng c mt h thng nh vy ta cú nhiu bc cn phi s dng cỏc gii thut x lý bn c nghiờn cu nhiu khai phỏ d liu bn, d liu web nh: Thu thp ni dung tin tc, x lý trựng lp tin tc, phõn loi bn tin theo danh mc, xỏc nh t khúa quan trng ca ni dung tin tc v sinh túm tt cho bn tin, kim li chớnh t tin tc, phỏt hin ch núng, ch nhy cm, xu hng c tin thi http://www.baomoi.com/Statistics/Report.aspx Footer Page 10 of 113 Header Page 45 of 113 43 Hỡnh 3.8 Minh thc t ng dng chn cõu túm tt i vi mt s ni dung khụng ly c on trớch dn túm tt ni dung, h thng cú th t túm tt mt on trớch dn ni dung túm tt cho bi vit Hoc h tr biờn viờn, phúng viờn xut cõu dựng lm cõu túm tt mụ t ca bn tin 3.4.2 Mụ hỡnh gii phỏp thc t Bi toỏn xỏc nh t khúa quan trng Hỡnh 3.9 Mụ hỡnh thc t bi toỏn xỏc nh t khúa quan trng Cỏc úng gúp quan trng b xỏc nh t khúa quan trng: Footer Page 45 of 113 Header Page 46 of 113 44 - Tham chiu v trớ cõu, v trớ tiờu , phn mụ t v ni dung, s dng thờm trng s Tf-idf - Tham chiu t b t khúa(Tags) cú sn thu thp d liu t internet, v b cỏc t khúa t vic phõn tớch xu hng thụng tin - Tham chiu kt qu Google Suggestion v Search Volumne ly lng tỡm kim, lng tỡm kim cng cao cú ngha l t khúa cú mc quan trng cng cao Bi toỏn chn cõu túm tt Hỡnh 3.10 Mụ hỡnh thc t bi toỏn xỏc nh cõu túm tt Bi toỏn chn cõu túm tt ti s dng kt hp phng phỏp Tf-idf v Edmundson, va cú im trng s cho t khúa, cõu cú nhiu t khúa quan trng, va xỏc nh tng quan gia v trớ ca cõu, nm tiờu , phn mụ t, ni dung, cui on u on c tớnh toỏn hp lý xut danh sỏch cõu quan trng bi tin Vic chn t l cõu xut trờn tng s cõu bn tin cng l quyt nh n chớnh xỏc ca bn tin Vi h thng hin ti sau cỏc kt qu kim nghim thc t cõu s ly i din mt cõu quan trng phự hp vi d liu tin tc 3.5 Tng kt T nhng kt qu nghiờn cu t chng 2, lun ch phng phỏp phự hp cho bi toỏn thc t c chn la a vo thc nghim Sau ú, phỏt biu, mụ t mụ hỡnh chi tit v cỏch gii quyt cho cỏc bi toỏn, cng nh mt s úng gúp quan trng ci thin chớnh xỏc kt qu Phn tip theo ca lun s tin hnh ỏnh giỏ Footer Page 46 of 113 Header Page 47 of 113 45 cỏc kt qu thc nghim t c sau ỏp dng cỏc mụ hỡnh Footer Page 47 of 113 Header Page 48 of 113 46 Chng THC NGHIM V NH GI KT QU chng ny, lun s tin hnh quỏ trỡnh thc nghim v ỏnh giỏ kt qu xut da trờn cỏc bi toỏn Vi c im riờng ca mi bi toỏn s cú nhng cỏch ỏnh giỏ, so sỏnh riờng phự hp vi yờu cu thc t, ng thi m bo ý ngha khoa hc ca bi toỏn 4.1 Mụi trng thc nghim v cỏc cụng c s dng thc nghim Cu hỡnh phn cng, phn mm cỏc gúi i kốm thc nghim c s dng lun c mụ t hai bng sau õy: Cụng c phn cng c s dng: Bng 4.1 Cu hỡnh phn cng thc nghim Thnh phn Stt Ch s CPU Intel Core i5 4460 3.4GHZ RAM 8GB H iu hnh Ubuntu 14.04 B nh ngoi 500GB Bng 4.2 Cỏc cụng c phn mm c s dng STT Tờn phn mm Chc nng Ngun http://nutch.apache.org/ Apache Nutch 1.11 Ti d liu t cỏc website Elasticsearch Index, lu tr d liu https://github.com/elastic/elasticsearch Eclipse Java EE Luna To mụi trng vit https://eclipse.org/downloads/ chng trỡnh Footer Page 48 of 113 Header Page 49 of 113 47 Readability Trớch xut ni dung https://github.com/mozilla/readability vnSentDetector 2.0.0 PhngLH Trớch xut cõu on bn http://mim.hus.vnu.edu.vn/phuonglh/so ftwares/vnSentDetector vn.hus.nlp.tokenizer4.1.1 PhngLH - Tỏch t http://mim.hus.vnu.edu.vn/phuonglh/so bn ftwares/vnTokenizer LibSVM 3.21 Redis Chih-Chung Chang https://www.csie.ntu.edu.tw/~cjlin/libs and Chih-Jen Lin vm/ Phc v phõn loi bn Cache Simhash vo memory, share gia http://redis.io/ cỏc cm 4.2 Quỏ trỡnh thu thp d liu tin tc v tin x lý 4.2.1 Thu thp d liu tin tc D liu c thu thp vi phn mm mó ngun m Apache Nutch 1.11 cu hỡnh chy phõn tỏn, Nutch c tựy bin thờm plugin k tha vic trớch xut d liu v vic ỏnh ch mc d liu lờn Elasticsearch ( mt dng mỏy tỡm kim linh ng vi mc tựy bin tỡm kim cao ) - - Plugin trớch xut d liu c implement t Readability code, tựy bin trớch xut c cỏc hng mc chớnh ca tin l: tiờu , phn mụ t (túm tt), ni dung tin, tờn tỏc gi v ngy ng tin Plugin index tựy bin giỳp index thờm cỏc trng cn thit mi lờn ElasticSearch D liu c thu thp cng c chun húa li font ch, lc cỏc tin ni dung nh, video, m bo d liu text ó c chun húa ( normalizefilter) phc v cho vic x lý d liu 4.2.2 Tin x lý d liu Vi d liu c ly v s c cỏc dch v t ng tin hnh x lý tỏch t, tỏch Footer Page 49 of 113 Header Page 50 of 113 48 cõu bng hai cụng c mó ngun m l vnSentDetector 2.0.0 v vnTokenizer 4.1.1, tip ú bn tin s c ly du i din simhash simhash c lu tr riờng di dng c bit phc v vic phỏt hin trựng lp, ngoi bn tin cũn c x lý ly t khúa quan trng(tags) v chn mt vi cõu xut túm tt nu bn tin ly v khụng cú cõu túm tt Vi t khúa ó c tỏch, v URL gc bn tin cng c phõn loi mt cỏch t ng Mụ hỡnh gii quyt chi tit cho mi bi toỏn lun ó c nờu chi tit chng 3, phn tip theo s nờu lờn phng phỏp ỏnh giỏ v kt qu ỏnh giỏ ca tng bi toỏn 4.3 ỏnh giỏ phỏt hin trựng lp tin tc 4.3.1 Phng phỏp ỏnh giỏ Trong thc t cú nhng thut gii kim tra trựng lp cho kt qu tt hn vic s dng hm bm Simhash to i din Tuy nhiờn khuụn kh lun tỏc gi ỏnh giỏ vic s dng Simhash trờn phng din phc v cho Crawler kim tra trựng lp nờn tc kim tra trựng lp l yu t c u tiờn hng u 4.3.2 Kt qu ỏnh giỏ Trong thớ nghim ỏnh giỏ, chỳng ta s so sỏnh tc ca hai thut toỏn Simhash v Shingling trờn d liu vi s lng d liu tng dn t 100 bn ghi lờn n 1500 bn ghi, Simhash õy c ly di dng Simhash 32bit v Shingling ly dng token sau ó tỏch t, kt qu thu c cho di bng 4.3: Bng 4.3 Thng kờ thi gian chy vi simhash v shingling NumRecords Simhash(ms) Shingling(ms) 100 2466 5389 200 2692 12851 300 3052 25841 400 3253 43918 500 3437 66225 600 3664 94262 700 3869 127710 800 4140 166124 900 4419 209418 1000 4697 258469 1100 4985 307823 1200 5261 366019 1300 5575 429911 Footer Page 50 of 113 Header Page 51 of 113 49 1400 5935 498562 1500 6240 570506 Mụ hỡnh húa di dng biu : SIMHASH VS SHINGLING SPEEDS Simhash Shingling 600000 500000 400000 300000 200000 100000 0 200 400 600 800 1000 1200 1400 1600 Hỡnh 4.1 So sỏnh tc simhash v shingling Thut toỏn Shingling th hin rừ phc tớnh toỏn theo thi gian l O(n2) ỏp dng Simhash cho thy kt qu tt rừ rt ỳng vi lý thuyt thi gian chy logarit Hon ton phự hp vi vic ỏp dng vo thc t 4.4 ỏnh giỏ b phõn loi tin tc 4.4.1 Phng phỏp ỏnh giỏ Trc tiờn cn núi thờm v quỏ trỡnh thu thp d liu ca crawler, cỏc danh mc thuc din tin bn c ly v c ỏnh du riờng nm 12 danh mc bao gm:{"cong-nghe","giai-tri","giao-duc","kham-pha","kinh-te","phap-luat","quansu","suc-khoe","tam-su","the-gioi","the-thao","xe-360"} Vic ỏnh giỏ thut toỏn phõn loi s s dng o precision/recall v F1 ỏnh giỏ b hc d liu s bao gm 56400 bn c chn sn danh mc hc da trờn ngun VNExpress, 54000 bn thuc 12 ch ( tng ng vi 4500 bn tin/1 ch ) s c dựng hun luyn(train), v 2400 bn s c dựng kim nh (test), khuụn kh lun thc hin ỏnh giỏ trờn phng din vic s dng SVM thun tỳy vi ni dung bn tin v vic ci tin cho kt qu thc t sao, chi tit s c nờu ti phn kt qu Footer Page 51 of 113 Header Page 52 of 113 50 Sau õy l mt s o c s dng ỏnh giỏ: Ma trn nhm ln (Confusion Matrix) TPi : S lng cỏc bn tin thuc lp ci c phõn loi chớnh xỏc vo lp ci FPi: S lng cỏc bn tin khụng thuc lp ci b phõn loi nhm vo lp ci TNi: S lng cỏc bn tin khụng thuc lp ci c phõn loi (chớnh xỏc) FNi: S lng cỏc bn tin thuc lp ci b phõn loi nhm (vo cỏc lp khỏc ci) o Precision v recall Hay cũn gi l chớnh xỏc v bao ph, Precision l vic th hin tỡm c thỡ bao nhiờu cỏi (phõn loi) ỳng Recall l vic th hin s cỏc tn ti, tỡm c bao nhiờu cỏi (phõn loi) õy l hai o ph bin, rt hay c s dng ỏnh giỏ cỏc h thng phõn loi bn - Precision i vi lp ci l mt lp cỏc lp C ={c1, c2, , cn} = + Tng s cỏc bn tin thuc lp ci c phõn loi chớnh xỏc chia cho tng s cỏc bn tin c phõn loi vo lp ci - Recall i vi lp ci = + Tng s cỏc bn tin thuc lp ci c phõn loi chớnh xỏc chia cho tng s cỏc vớ d thuc lp ci Recall cng c gi l True Positive Rate hay Sensitivity ( nhy), v precision cng c gi l Positive predictive value (PPV); ngoi ra, ta cú cỏc o khỏc nh True Negative Rate v Accuracy True Negative Rate cng c gi l Specificity o F1 Tiờu ỏnh giỏ F1 l s kt hp ca hai tiờu ỏnh giỏ Precision v Recall =2 F1 l mt trung Precision v Recall Footer Page 52 of 113 bỡnh + iu hũa (harmonic mean) ca cỏc tiờu Header Page 53 of 113 51 F1 cú xu hng ly giỏ tr gn vi giỏ tr no nh hn gia hai giỏ tr Precision v Recall, F1 cú giỏ tr ln nu c hai giỏ tr Precision v Recall u ln 4.4.2 Kt qu ỏnh giỏ Kt qu sau tin hnh phõn loi s dng SVM kernel linear vi d liu bn bao gm ni dung bn thun tỳy cha cú ci tin Bng 4.4 Kt qu phõn loi cha c ci tin CatNo Category Precison Recall F1 cong-nghe 75.5 82.51 78.85 giai-tri 66 75.43 70.4 giao-duc 79 92.4 85.18 kham-pha 65 71.43 68.06 kinh-te 66.5 73.08 69.63 phap-luat 76.5 83.61 79.9 quan-su 46.5 93.94 62.21 suc-khoe 67.5 87.66 76.27 tam-su 89 84.36 86.62 10 the-gioi 88.5 40.69 55.75 11 the-thao 83 91.71 87.14 12 xe-360 81.5 66.8 73.42 Avg 73.71 78.64 74.45 p dng cỏc ci tin vo phõn loi xỏc nh ch bn, bng cỏc bin phỏp ó c nờu chng 3, kt qu t c c cho bng 4.5: Bng 4.5 Kt qu phõn loi c ci tin CatNo Category Precison Recall F1 cong-nghe 80.9 90.58 85.47 giai-tri 81.7 83.29 82.49 giao-duc 82.1 93.26 87.32 kham-pha 73.5 81.4 77.25 kinh-te 76.9 77.25 77.07 phap-luat 77.6 88.92 82.88 quan-su 73.2 95.97 83.05 Footer Page 53 of 113 Header Page 54 of 113 52 suc-khoe 84.9 94.04 89.24 tam-su 91.2 93.58 92.37 10 the-gioi 88.7 93.41 90.99 11 the-thao 92.6 92.62 92.61 12 xe-360 73.9 88.24 80.44 Avg 81.43 89.38 85.1 Kt qu bng trờn cho thy, ton b kt qu phõn loi ó c ci thin c v chớnh xỏc v hi tng, chớnh xỏc Precision trung bỡnh t 73.71% lờn n 81.43%, hi tng Recall cng tng t 78.64% lờn ti 89.38%, kộo theo ú o F1 cng tng khỏ rừ rt 4.5 ỏnh giỏ kt qu xỏc nh t khúa quan trng v chn cõu túm tt 4.5.1 Phng phỏp ỏnh giỏ Vic ỏnh giỏ bi toỏn ny c thc hin mt cỏch th cụng mt phn da trờn ý kin chuyờn gia (expert judgment) bi c im c bit ca bi toỏn: ỏnh giỏ bi toỏn xỏc nh t khúa quan trng (tags) phc v nờu bt ch ca bn tin cng nh h tr vic phc v ti u mỏy tỡm kim (SEO) v chn cõu túm tt cho ch bn tin nu bn tin thiu phn túm tt khỏ phc ũi hi ngi ỏnh giỏ va cú kinh nghim v SEO v va cú kinh nghim biờn bn tin Lun s dng vic tng hp kt qu ỏnh giỏ t ba ngi ban biờn viờn ó c o to k nng SEO thc hin ỏnh giỏ vi mi bn 100 bn tin Tng s bn tin c ly t khúa quan trng, v chn cõu túm tt l 300 bn tin, t l chn (nộn cõu túm tt l 5:1)[2] Chi tit kt qu thu c cú phn kt qu ỏnh giỏ 4.5.2 Kt qu ỏnh giỏ Kt qu ỏnh giỏ th cụng ba ln ba biờn viờn cú kinh nghim SEO c o to bi bn c v mng biờn ln kinh nghim v ỏnh giỏ ni dung c cho bng 4.6 Bng 4.6 Thng kờ t l tag v túm tt t yờu cu T l tags t T l túm tt t Ln (100 tin) 73% 71% Ln (100 tin) 76% 69% Ln (100 tin) 78% 64% Bỡnh Quõn 76% 68% Gii thớch: Footer Page 54 of 113 Header Page 55 of 113 53 T l Tags t 76% tc l 100 bn tin c ly Tags t ng thỡ cú 76 bn tin t yờu cu theo ý kin ca ngi ỏnh giỏ, cú ngha l phn tags cha cỏc t khúa ny cú th thay th ngi s dng phn tag ni dung t ng khụng cn ngi biờn phi can thip, dựng lm tags phn ỏnh ni dung chớnh ca bn tin T l túm tt t 68% tc l 100 bn tin ly t hp cõu túm tt t ng thỡ cú 68% t hp cõu cú cha mt cõu cú th chn i din h tr biờn viờn t lm cõu túm tt ca bn tin Qua ỏnh giỏ ly ý kin, sau ba ln vi kt qu bỡnh quõn cho vic chn tags t ng l 76% v vic xut cõu túm tt t ng l 68% c ỏnh giỏ cao v cú kh nng trin khai thc t, ng dng vo h thng CMS tin tc tng lai 4.6 Tng kt Chng ny tỏc gi ó trỡnh by cỏc kt qu thc nghim chng minh phng phỏp xut chng Kt qu thc nghim trung vo ba bi toỏn chớnh ú l kim tra trựng lp, phõn loi tin tc v sinh cỏc t khúa ni dung chớnh, sinh cõu xut túm tt ca bn Kt qu thc nghim cho thy phng phỏp xut phự hp mc chp nhn c v ó cú nhng phn kt qu kh quan hn sau thi c úng gúp ci tin Footer Page 55 of 113 Header Page 56 of 113 54 TNG KT Kt qu t c Lun ó trỡnh by cỏc kin thc c bn v phỏt hin trựng lp, phõn loi tin tc, xỏc nh t khúa quan trng v xut cõu túm tt cho tin tc trờn d liu ting Vit Bờn cnh ú, lun ó trỡnh by chi tit cỏc phng phỏp tip cn bi toỏn, cng nh hng gii quyt v kt qu thc t Vi bi toỏn phỏt hin trựng lp tin tc t phớa Crawler lun ó cp phõn tớch u nhc im ca mt s phng phỏp ph bin phỏt hin trựng lp v sau ú xut mụ hỡnh gii quyt bi toỏn vi gii thut SimHash t ú ỏnh giỏ v so sỏnh vi thut toỏn phỏt hin trựng lp ph bin l shingling Vi bi toỏn phõn loi lun cng a mt vi bi toỏn phõn loi cng nh lý s dng hc mỏy bỏn giỏm sỏt vi SVM, Cui cựng l bi toỏn xỏc nh t khúa quan trng, v xut cõu i din chn túm tt cho tin tc c gii quyt bng vic tng hp cỏc bin phỏp Edmundson v TF-IDF Cỏc kt qu cho thy phng phỏp s dng Simhash kim tra trựng lp cú tc tớnh toỏn tng theo hm loragit ci thin hn rt nhiu so vi O(n2) ca phng phỏp shingling, c th d liu ch lờn ti 1500 bn tin tc ca SimHash ó nhanh hn tc ca Shingling ti 91,4 ln Phng phỏp SVM tớch hp vo mụ un phõn loi cng cho kt qu tt sau úng gúp mt s ci tin so vi s dng SVM thun tỳy trờn d liu, vi kt qu tt S dng o chớnh xỏc (precision), o hi tng (recall), v o F-1 (F-1 measured) o lng kt qu cho thy: o chớnh xỏc (89.38%), o hi tng (89.3%), v o F-1 (85.1%) Vi bi toỏn t ng xut tags bao gm cỏc t khúa quan trng v xut mt nhng cõu cú th chn lm túm tt cng cho mt kt qu tớch cc sau ỏp dng cỏc bin phỏp ci tin chng 3, t l chp nhn c gúc ỏnh giỏ ca ngi c o to (expert) lnh vc biờn v SEO cho thy t l tags t 76% v t l chn cõu túm tt chp nhn c t 68% Hn ch Mc dự kt qu t c kh quan nhiờn cỏc gii phỏp lun cng khụng trỏnh mt s hn ch v nhc im cn khc phc chng hn nh: Vic ly hm i din Simhash l vic ỏnh x t vụ hn sang hu hn vy nờn xut hin t l trựng Simhash vi hai bn khỏc nhau, iu ny khin b kim tra trựng lp mt thờm thi gian kim nh thờm cỏc trng hp k trờn ú tc kim tra trựng lp b gim xung mt phn Vic phõn loi hin ti phi thit t lut cho Crawler gii hn danh mc Footer Page 56 of 113 Header Page 57 of 113 55 c th ca bn tin phc v vic phõn danh mc cú chớnh xỏc cao, cỏc tin vn, tin cú cht lng thp cha c h tr Vic chn t khúa túm tt(tags) v chn cõu túm tt cũn ph thuc nhiu vo vic tham chiu kho t c, kho t xu hng cú sn tng cao chớnh xỏc, m cha t ch c t vic da vo bn thõn ca bn Hng phỏt trin Trong thi im tng lai gn, hng phỏt trin trc mt ca lun l khc phc nhng hn ch khuyt im ca cỏc mụ un hin ti v nõng cao kh nng chớnh xỏc ca cỏc thut toỏn, c th l: ci thin tc hn na vic ỏp dng Simhash ng phú vi mụi trng d liu ln hn, ci thin chớnh xỏc phõn loi vi ngun tin tc a dng hn ng thi nõng cao chớnh xỏc vic sinh t khúa, v xut cõu túm tt Footer Page 57 of 113 Header Page 58 of 113 56 TI LIU THAM KHO Ting Vit B Thụng tin v Truyn thụng (2015), Tỡnh hỡnh phỏt trin lnh vc bỏo nm 2015, H Ni Trn Mai V (2009), Túm Tt a Vn Bn Da Vo Trớch Xut Cõu, i Hc Quc Gia H Ni, Trng i Hc Cụng Ngh, 2009, tr.4 Ting Anh Christopher D Manning, Prabhakar Raghavan and Hinrich Schỹtze (2009), Introduction to Information Retrieval, Cambridge University Press 2009 Martin Law (2011), A Simple Introduction to Support Vector Machines, Michigan State University, Lecture for CSE 802 T Joachims (1999) Transductive Inference for Text Classification using Support Vector Machines International Conference on Machine Learning (ICML), 1999 Jin Huang, Jingjing Lu, Charles X Ling (2003) Comparing Naive Bayes, Decision Trees, and SVM with AUC and Accuracy The Third IEEE International Conference on Data Mining (ICML2003) Sarini, Sarini, McGree, James, White, Nicole, Mengersen, Kerrie, & Kerr, Graham (2015), Comparison of decision tree, support vector machines, and Bayesian network approaches for classification of falls in Parkinsons disease International Journal of Applied Mathematics and Statistics, 53(6), pp 145-151 A Sopharak, B Uyyanonvara, S Barman, World Academy of Science, Engineering and Technology International Journal of Computer, Electrical, Automation, Control and Information Engineering Vol:8, No:5, 2014 Ranjeeta Rana, Vaishali Kolhe (2015) Analysis of Students Emotion for Twitter Data using Naùve Bayes and Non Linear Support Vector Machine Approachs International Journal on Recent and Innovation Trends in Computing and Communication ISSN: 2321-8169 10 HP Luhn (1958), The Automatic Creation of Literature Abstracts, IBM JOURNAL, pp 159-161 Footer Page 58 of 113 Header Page 59 of 113 57 PH LC CHNG NHN PHT TRIN V TRIN KHAI THC T Footer Page 59 of 113 ... gii thut x lý bn c nghiờn cu nhiu khai phỏ d liu bn, d liu web nh: Thu thp ni dung tin tc, x lý trựng lp tin tc, phõn loi bn tin theo danh mc, xỏc nh t khúa quan trng ca ni dung tin tc v sinh. .. toỏn x lý trựng lp tin tc, bi toỏn phõn loi tin tc, bi toỏn xỏc nh t khúa quan trng ca tin tc 2.1 Cỏc phng phỏp tip cn bi toỏn trựng lp tin tc V c bn tin tc sau thu thp d liu v tin x lý loi b... nghim 46 4.2 Quỏ trỡnh thu thp d liu tin tc v tin x lý 47 4.2.1 Thu thp d liu tin tc .47 4.2.2 Tin x lý d liu 47 4.3 ỏnh giỏ phỏt hin trựng lp tin tc 48 4.3.1

Ngày đăng: 25/03/2017, 21:35

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan