Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 59 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
59
Dung lượng
1,91 MB
Nội dung
Header Page of 113 I HC QUC GIA H NI TRNG I HC CễNG NGH Lấ VN HO NGHIấN CU XY DNG H THNG TèM KIM VIDEO DA TRấN NI DUNG LUN VN THC S CễNG NGH THễNG TIN H Ni - 2016 Footer Page of 113 Header Page of 113 I HC QUC GIA H NI TRNG I HC CễNG NGH Lấ VN HO NGHIấN CU XY DNG H THNG TèM KIM VIDEO DA TRấN NI DUNG Ngnh: Cụng ngh thụng tin Chuyờn ngnh: H thng thụng tin Mó s: 60.48.01.04 LUN VN THC S CễNG NGH THễNG TIN NGI HNG DN KHOA HC: PGS.TS Nguyờn Tri Thanh H Ni - 2016 Footer Page of 113 Header Page of 113 LI CAM OAN Tụi xin cam oan kt qu t c Lun l sn phm ca riờng cỏ nhõn tụi, khụng chộp li ca ngi khỏc Nhng iu c trỡnh by ni dung Lun vn, hoc l ca cỏ nhõn hoc l c tng hp t nhiu ngun ti liu Tt c cỏc ti liu tham kho u cú xut x rừ rng v c trớch dn ỳng quy cỏch Tụi xin hon ton chu trỏch nhim v chu mi hỡnh thc k lut theo quy nh cho li cam oan ca mỡnh Ha Nụi, 05/2016 Lờ Vn Hao Footer Page of 113 Header Page of 113 MC LC LI CAM OAN MC LC BNG CH CI VIT TT DANH MC CC BNG BIU DANH MC CC HèNH V, TH M U CHNG 1: GII THIấU 10 1.1 Gii thiu v cụng c tỡm kim 10 1.2 Lch s phỏt trin ca cụng c tỡm kim 10 1.3 Kin trỳc ca cụng c tỡm kim 11 1.3.1 Quỏ trỡnh ỏnh ch mc 11 1.3.2 Quỏ trỡnh truy 13 1.4 Cụng c tỡm kim video trờn mng internet 13 1.5 Tng quan ca ti v cỏc cõn gii quyt 14 1.5.1 Tng quan ti 14 1.5.2 Cỏc cõn gii quyt 14 1.6 Y nghia khoa hc v thc tiờn ca ti nghiờn cu 14 1.6.1 Y nghia khoa hc 14 1.6.2 Y nghia thc tiờn 15 1.7 Kt lun 15 CHNG 2: BI TON TèM KIM VIDEO BI GING 16 DA TRấN NI DUNG 16 2.1 Phỏt biu bi toỏn 16 2.2 Cỏc nghiờn cu v tỡm kim video da trờn ni dung 17 2.3 Hng nghiờn cu ca tỏc gi 18 2.4 Bi toỏn phõn on video thnh nh 19 2.4.1 Khỏi nim 19 2.4.2 Phng phỏp tip cn 19 2.5 Bi toỏn trich xut bn 20 2.5.1 Bi toỏn nhn dng ki t quang hc 20 2.5.2 Bi toỏn x lý trựng lp bn 22 2.5.3 Bi toỏn sa li chớnh t bn 26 2.6 Bi toỏn ỏnh ch mc v tỡm kim 29 2.6.1 Khỏi nim 29 2.6.2 Phng phỏp tip cn 29 2.6.3 Kin trỳc ca Elasticsearch 30 Footer Page of 113 Header Page of 113 2.7 Kt lun 32 CHNG 3: K THUT GII QUYT CC BI TON TRONG KHUễN KH LUN VN 33 3.1 Bi toỏn phõn on video thnh nh dnh nh 33 3.1.1 Phỏt biu bi toỏn 33 3.1.2 Gii phỏp thc hin 33 3.2 Bi toỏn trich xut bn 34 3.2.1 Bi toỏn nhn dng kớ t quang hc bng cụng c Tesseract-OCR 34 3.2.2 Bi toỏn x lý trựng lp bn bng ki thut Shingling 37 3.2.3 Bi toỏn sa li chớnh t bn ting Vit 40 3.3 Bi toỏn ỏnh ch mc v tỡm kim 45 3.3.1 Phỏt biu bi toỏn 45 3.3.2 Lp ch mc v tỡm kim bng Elasticsearch 46 CHNG 4: KT QU THC NGHIấM, NH GI V KT LUN 50 4.1 Cụng c, mụi trng thc nghim 50 4.2 Kt qu thc nghim, ỏnh giỏ 51 4.3 Kt lun 54 4.3.1 Kt qu t c 54 4.3.2 nh hng phỏt trin 55 TI LIấU THAM KHO 56 Footer Page of 113 Header Page of 113 BNG CH CI VIT TT STT T vit tt ASR FPS FTP GNU OCR PDF NDD TIFF UTF-8 Footer Page of 113 í ngha Automatic Speech Recognition Nhn dng ting noi t ng Frame Per Second S khung hỡnh trờn mt giõy File Transfer Protocol Giao thc truyn tin General Public License Giy phộp cụng cng Optical Character Recognition Nhn dng kớ t quang hc Portable Document Format nh dng ti liu di ng Near Duplicate Detection Phỏt hin gõn trựng lp Tagged Image File Format nh dng tin trờn mỏy tinh lu tr cỏc hỡnh nh Unicode Transformation Format - nh dng chuyn i Unicode Header Page of 113 DANH MC CC BNG BIU Bng 3.1 Kt qu Bigram d liu 44 Bng 4.1 Thụng s phõn cng 50 Bng 4.2 Danh sỏch cụng c phõn mm 50 Bng 4.3 Kt qu thc hin trich xut khung hỡnh t video 51 Bng 4.4 Kt qu thc hin Tesseract-OCR i vi khung hỡnh thu c .52 Bng 4.5 Kt qu thc hin NDD vi ki thut Shingling .52 Bng 4.6 Kt qu quỏ trỡnh phỏt hin li chinh t dung Aspell kt hp Bi-gram 53 Bng 4.7 Kt qu quỏ trỡnh sa li chinh t 54 Footer Page of 113 Header Page of 113 DANH MC CC HèNH V, TH Hỡnh 1.1 Quỏ trỡnh ỏnh ch mc 12 Hỡnh 2.1 Kin trỳc tng quan h thng tỡm kim video da trờn ni dung 17 Hỡnh 2.2 Kin trỳc h thng tỡm kim video tỏc gi xut 18 Hỡnh 2.3 S dng FFMpeg chuyn i video thnh nh 20 Hỡnh 2.4 Kin trỳc ca Tesseract OCR 22 Hỡnh 2.5 Vn bn gc 23 Hỡnh 2.6 Vn bn trựng lp ca bn hỡnh 2.5 24 Hỡnh 2.7 Vn bn gõn trựng lp ca bn hỡnh 2.5 24 Hỡnh 2.8 [15] chinh xỏc v hi tng ca o tng t cho phng phỏp fuzzy-fingerprinting (FF), localitysensitive hashing (LSH), supershingling (SSh), shingling (Sh), and hashed breakpoint chunking (HBC) 26 Hỡnh 2.9 Ki thut phỏt hin li chớnh t da vo tra cu t in 27 Hỡnh 2.10 Ki thut phỏt hin li chớnh t da vo phõn tớch N-gram 28 Hỡnh 2.11 Th hng ca 17 cụng c tỡm kim Ngun http://db-engines.com 30 Hỡnh 2.12 Kin trỳc cluster-node-shard ca Elasticsearch 31 Hỡnh 3.1 Mụ t quỏ trỡnh bin i video ngun thnh dng nh 33 Hỡnh 3.2 Chuyn i nh mu thnh nh a cp xỏm 34 Hỡnh 3.3 nh mu 35 Hỡnh 3.4 nh a cp xỏm 35 Hỡnh 3.5 Quỏ trỡnh OCR nh hỡnh 3.4 bng Tesseract-OCR 36 Hỡnh 3.6 Kt qu sau hon thnh OCR bng Tesseract-OCR 36 Hỡnh 3.7 Thc hin OCR tt c nh th mc bng Tesseract-OCR 36 Hỡnh 3.8 Quỏ trỡnh x lý trựng lp bn 37 Hỡnh 3.9 H s Jaccard ca ti liu d1 v d2 38 Hỡnh 3.10[4] Bn quỏ trỡnh tớnh toỏn shingle ca hai ti liu 39 Hỡnh 3.11 S quỏ trỡnh trich xut bn i din 40 Hỡnh 3.12 Quỏ trỡnh phỏt hin v sa li chớnh t bn 41 Hỡnh 3.13 S sa li chinh t s dng t in Aspell 43 Hỡnh 3.14 S sa li chinh t s dng Bigram 45 Hỡnh 3.15 Mụ t quỏ trỡnh lp ch mc ti liu 46 Hỡnh 3.16 Kim tra ng Elasticsearch 46 Hỡnh 3.17 Danh sỏch cỏc ch mc hin co Tờn ch mc l lectures, s ti liu docs.count hin ti co giỏ tr bng (do cha to ti liu cho ch mc ny) 47 Hỡnh 3.18 To type v document cho ch mc 47 Hỡnh 3.19 To type v document bng lnh POST Id ca document c Elasticsearch gỏn t ng 47 Footer Page of 113 Header Page of 113 Hỡnh 3.20 Cp nht li document cho ch mc vi id a tn ti 48 Hỡnh 3.21 Thc hin cp nht li document bng cõu lnh UPDATE 48 Hỡnh 3.22 Tỡm kim document trờn ch mc 48 Footer Page of 113 Header Page 10 of 113 M U Cựng vi s phỏt trin ca cụng ngh thụng tin, tc internet ang ci thin ỏng k S lng video bi ging, diờn thuyt phc v hc cho mi la tui ang c ti lờn v chia s trờn internet nhanh chúng Mi ngy, hng triu video nh vy trờn th gii c ng ti lờn cỏc ng dng internet nh Youtube, Facebook, Yahoo i vi lng video ang tng trng tng ngy ny, c ch t chc lu tr phc v cho vic tra cu, tỡm kim l mt thỏch thc Giỏo dc trc tuyn hay E-Learning khụng cũn l khỏi nim mi l v ang phỏt trin mnh m S lng video bi ging, diờn thuyt cng vỡ th ngy cng c tng trng Nhu cõu tỡm kim ca ngi hc cng yờu cõu kht khe hn: c v chớnh xỏc v thi gian tỡm kim Tuy nhiờn, cỏc chc nng tỡm kim bi ging cho ca cỏc h thng hin ti thụng thng ch cho phộp ngi dựng tỡm kim vi tờn bi ging, tờn hc phõn, hoc tờn ging viờn Cỏc chc nng ny thng cho kt qu co chớnh xỏc khụng cao, v cỏc kt qu tr v cú nhiu ni dung khụng liờn quan n mc ich tỡm kim thc s ca ngi dựng Do o, cõn cú mt h thng m cú th hiu c ni dung ca tng video bi ging phc v cho vic tỡm kim ca ngi dựng Nhng cụng c tỡm kim ph bin hin - nh Google, Yahoo, Bing, l nhng h thng tỡm kim da trờn t khoa, v tỡm kim trờn d liu bn (text) Chớnh vỡ th, nu video khụng cú bt k siờu d liu (metadata) vớ d nh ngy, tỏc gi, t khúa, hoc mụ t thỡ khụng th tỡm kim c bng cỏch s dng cỏc cụng c nờu trờn Siờu d liu thng c thờm bng tay, quỏ trỡnh ny s rt tn thi gian Hn na, c mt on video cú th c tỡm thy bng siờu d liu ca nú, cụng c tỡm kim thụng thng khụng cú kh nng tỡm kim mt on bi ging, slide c th video m ngi dựng quan tõm Mc tiờu chớnh ca ca Lun l trung nghiờn cu xõy dng mụt h thng tỡm kim cỏc bi ging, thuyt trỡnh, trỡnh din bng slide di dng video H thng s cho phộp ngi dựng ch cõn nhp vo mt phõn ni dung ca bi ging, kt qu tr v s l nhng video bi ging co liờn quan n chui truy Ngoi ra, vi gii phỏp ny cng cho phộp cỏc h thng tỡm kim cú th truy d liu video m khụng cõn cú siờu d liu Xut phỏt t quan im nờu trờn, ngoi phõn m õu v kt lun, lun c chia lm chng c túm tt nh sau: Footer Page 10 of 113 Header Page 45 of 113 43 Hỡnh 3.13 S sa li chinh t s dng t in Aspell Ki thut sa li chớnh t dựng GNU Aspell ch ỏp dng c vi nhng li dng non-word Vỡ ki thut ny s kim tra tng t v khụng quan tõm n v trớ ca t o so vi cỏc t xung quanh Vỡ vy, nõng cao hiu qu ca vic kim tra li chớnh t bn, tỏc gi ỏp dng ki thut N-gram 3.2.3.4 K thut sa li chớnh ta dng real-word Li chớnh t dng real-word thỡ phc v kho hn non-word, nhng li ny thng lm nhp nhng cỳ phỏp v y nghia ca cõu Vic t ng phõn tớch cỳ phỏp/ng nghia ca mt cõu ỳng l nhim v kho khn v nhim v phõn tớch nhng cõu sai gõn nh l khụng th nhiu trng hp Vớ d di õy cho thy ngụn ng Ting Vit s a dng v phong phỳ ca ng phỏp Ting Vit Cõu c cho l: ễng gi i nhanh quỏ õy l mt cõu hon ton ỳng v ng phỏp v cỏc t hon ton cú t in Nhng li cú s nhp nhng Footer Page 45 of 113 Header Page 46 of 113 44 gia y nghia cõu trờn Cõu trờn co th tỏch thnh hai cõu /ễng/ gi i /nhanh / quỏ/ hoc ễng gi/ i / nhanh /quỏ Cỏc nghiờn cu [11] [12] [20] cng a ch rng, cỏc h thng phỏt hin v sa li chớnh t bn co chớnh xỏc xp x khong 50% cho tt c cỏc loi li Trong o thỡ 25% - 40% tt c loi li ny l li real-word, chớnh vỡ th vic nghiờn cu phỏt hin v sa loi li ny l hu ớch Do c trng ngụn ng Ting Vit l gm cỏc t n ghộp li vi Vỡ vy, xut ca tỏc gi l s dng ki thut 2-gram sa cỏc li chớnh t dng real-word Nghia l t c kim tra s xem xột kt hp c hai hng xúm bờn trỏi v bờn phi ca no Di õy l mụ t v ki thut kim tra v sa li chớnh t dựng bigram Tp c cho t c kim tra (W) l cỏc t t vng m cú th sinh W bng cỏch mt thao tỏc chnh sa Tp c cú th c biu diờn dng ( ) = {1 , , , , , } Trong o: l t th i cõu cõn kim tra v kj l s phõn t ( ) Bõy gi bigram trỏi v bigram phi ca mi t ( ) s cú dng nh sau: Bigram trỏi: Bigram phi: +1 T in Bigram c tỏc gi xõy dng bng cỏch thu thp d liu t nhiu ngun trờn mng nh vnexpress.net, dantri.com.vn, wikipedia.org D liu bao gm nhiu ch nh khoa hc, xó hi, th thao, gii tri Kich thc ca d liu ca tỏc gi khong 66 MB Sau o tỏc gi s tớnh tõn s ca cỏc bigram ny Kt qu c mụ t bng 3.1 Bang 3.1 Kt qu Bigram d liu Bigram Kich thc tin S Bigram trc tỏch Bigram tỏch c 66 MB 4.836.571 Kich thc sau tỏch Bigram 82 MB Thut toỏn phỏt hin v sa li chớnh t bn da vo ki thut N-gram c tỏc gi ci t v mụ t nh sau: Footer Page 46 of 113 Header Page 47 of 113 45 Hỡnh 3.14 S sa li chinh t s dng Bigram 3.3 Bai toỏn ỏnh ch mc v tỡm kim 3.3.1 Phỏt biu bai toỏn Bi toỏn lp ch mc cho bn tri qua hai bc: - Bc 1: Xỏc nh cỏc mc t, khỏi nim cú kh nng i din cho bn s c lu tr õy l quỏ trỡnh phõn tich bn bao gm cỏc quỏ trỡnh nh tỏch t, loi b t dng - Bc 2: Xỏc nh trng s cho tng mc t, trng s ny l giỏ tr phn ỏnh tõm quan trng ca mc t o bn Hỡnh 3.15 mụ t cỏc bc lp ch mc ti liu Footer Page 47 of 113 Header Page 48 of 113 46 Hỡnh 3.15 Mụ t quỏ trỡnh lp ch mc ti liu 3.3.2 Lp ch mc v tỡm kim bng Elasticsearch Trc tin hnh lp ch mc bng Elasticsearch, cõn thc hin ng Elasticsearch Khi ng Elasticsearch bng cõu lnh: sudo service elasticsearch start kim tra, trờn a ch ca trỡnh duyt web, truy cp vo a ch http://localhost:9200 Nu thnh cụng thỡ kt qu s co nh mụ t ca hỡnh 3.16 Hỡnh 3.16 Kim tra ng Elasticsearch To index: to ch mc co tờn l lectures thỡ sau khi ng elasticsearch S dng cõu lnh: curl -XPUT 'localhost:9200/lectures' a danh sỏch tt c cỏc ch mc co Elasticsearch bng cõu lnh: curl 'localhost:9200/_cat/indices?v' Kt qu c mụ t hỡnh 3.17 Footer Page 48 of 113 Header Page 49 of 113 47 Hỡnh 3.17 Danh sỏch cỏc ch mc hin co Tờn ch mc l lectures, s ti liu docs.count hin ti co giỏ tr bng (do cha to ti liu cho ch mc ny) To type v document cho ch mc: nh dng ca mt document s co kiu {url:ng dn n video bi ging, contents: ni dung tin bn ni dung a c x ly} Document õy thuc type external Cõu lnh to type v document nh hỡnh 3.18 Hỡnh 3.18 To type v document cho ch mc Ch mc c to co tờn l lectures, type l external Document co hai tham s l url v content URL l ng n n tin video, v content l ni dung ca video bi ging Id ca document õy c gỏn bng Nu thc hin lnh POST khụng gỏn id cho document thỡ Elasticsearch s to mt id t ng cho document Hỡnh 3.19 To type v document bng lnh POST Id ca document c Elasticsearch gỏn t ng Ly document: S dng cõu lnh GET ly document vi id v ch mc tng ng:curl -XGET 'localhost:9200/lectures/external/1?pretty' Cp nht document: Thc hin lnh to document vi id a tn ti thỡ thụng tin ca document cng s c cp nht li Footer Page 49 of 113 Header Page 50 of 113 48 Hỡnh 3.20 Cp nht li document cho ch mc vi id a tn ti Hoc co th s dng lnh UPDATE trc tip c mụ t hỡnh 3.21 Hỡnh 3.21 Thc hin cp nht li document bng cõu lnh UPDATE Xoa ch mc: xoa ch mc a to, s dng cõu lnh nh sau: curl -XDELETE 'localhost:9200/lectures?pretty' Xoa document: Cõu lnh xoa mt document a tn ti bng cỏch: curl -XDELETE 'localhost:9200/lectures/external/1?pretty' Tỡm kim cỏc document trờn index: Hỡnh 3.22 Tỡm kim document trờn ch mc Footer Page 50 of 113 Header Page 51 of 113 49 Thi gian tỡm kim cho cõu truy giỏo ỏn in t l 0.030 giõy Hin th 10 kt qu õu tiờn co liờn quan n truy Kt qu c sp xp theo th t gim dõn ca score Kt thỳc chng 3, tỏc gi a trỡnh by chi tit cỏc gii phỏp v cỏc ki thut ci t xõy dng h thng cho phộp tỡm kim cỏc video bi ging da vo chui truy nhp vo ca ngi dung Chng tip theo, tỏc gi s trỡnh by quỏ trỡnh thc nghim v cỏc ỏnh giỏ chng trỡnh Footer Page 51 of 113 Header Page 52 of 113 50 CHNG 4: KT QU THC NGHIM, NH GI V KT LUN 4.1 Cụng c, mụi trng thc nghim phc v cho quỏ trỡnh thc nghim, tỏc gi s dng cu hỡnh phõn cng v cỏc cụng c phõn mm th hin hai bng 4.1 v bng 4.2 nh sau: Bang 4.1 Thụng s phõn cng STT Thanh phõn CPU RAM H iu hnh B nh ngoi Thụng s k thut Intel đ Pentium đ Dual core T3200 2.00GHz DDR II - 3GB Ubuntu 14.04 LTS 150 GB Bang 4.2 Danh sỏch cụng c phõn mm STT Tờn cụng c Sublime Text PHP 5.0 FFMpeg Imagemagick Tesseract -OCR Aspell Pspell Vietnamese Dictionary Teleport Pro 10 Elasticsearch Footer Page 52 of 113 Chc nng Trỡnh son tho v by li chng trỡnh Ngụn ng lp trỡnhdung thc nghim Cụng c x ly video Cụng c chuyn i nh mu thnh nh a cp xỏm Cụng c nhn dng ki t quang hc Cụng c kim tra li chinh t Th vin lp trỡnh sa li chinh t trờn nguụn ng PHP T in t vng ca Ting Vit Cụng c h tr ti d liu trờn mng Cụng c h tr ỏnh ch mc v tỡm kim ti liu Nguụn tai https://www.sublimetext.com http://php.net/downloads.php https://ffmpeg.org/download.html http://www.imagemagick.org/script/ binary-releases.php https://github.com/tesseract-ocr http://aspell.net/ http://php.net/manual/en/intro.pspell php https://github.com/1ec5/hunspellvi/tree/master/dictionaries http://www.tenmax.com/teleport/pro/ download.htm https://www.elastic.co/ Header Page 53 of 113 51 4.2 Kt qua thc nghim, ỏnh giỏ Trong phõn thc nghim ny, tỏc gi ly ngu nhiờn trờn mng nm video bi ging Tin hnh trich xut cỏc khung hỡnh t lõn lt cho cỏc video ny thu c bng kt qu mụ t bng 4.3 Bang 4.3 Kt qu thc hin trich xut khung hỡnh t video STT nh dng Kich thc (MB) Thi gian (phỳt:giõy) S khung hỡnh thu c Kich thc (MB) mp4 23,8 6:22 382 404,6 mp4 48,1 6:38 398 450,7 mp4 32,1 3:07 187 174,8 mp4 137,6 28:27 1707 1740,8 mp4 19,6 2:35 155 139,4 Chỳng ta co th iu chnh tng, gim tõn s FPS nhm thu c s lng khung hỡnh phu hp Qua quỏ trỡnh thc nghim, m bo khụng b tha hoc thiu ni dung thỡ tõn s FPS m tỏc gi s dng lun ny l FPS S lng khung hỡnh thu c ca mi video tng ng nh bng 4.3 Vỡ cỏc khung hỡnh hin ti ang l nh mu, nhm nõng cao cht lng ca quỏ trỡnh OCR Tỏc gi tin hnh chuyn i ton b khung hỡnh thu c thnh nh a cp xỏm Bng 4.4 mụ t kt qu nhn dng ki t quang hc bng cụng c TesseractOCR Tp kt qu c lu tr vi nh dng bn txt ỏnh giỏ quỏ trỡnh OCR bng Tesseract-OCR, tỏc gi s dng chinh xỏc - P, hi tng - R, v o F1 chinh xỏc OCR ca mt video P = =1 video o Vi N l tng s tin ca chinh xỏc Pi c tinh theo cụng thc: Pi = T nhõn dang c|ung T nhõn dang c hi tng OCR ca mt video R = ca video o 100% =1 Vi N l tng s tin hi tng Ri c tinh theo cụng thc: Ri = Footer Page 53 of 113 T nhõn dang c|ung Tụng sụ t lụi thc tờ 100% Header Page 54 of 113 52 o F1 l s kt hp ca hai o chinh xỏc v o hi tng o F1 i vi mt video c tinh theo cụng thc F1 = ụ chi nh xa c ụ hụi tng ụ chi nh xa c + ụ hụi tng Bang 4.4 Kt qu thc hin Tesseract-OCR i vi khung hỡnh thu c STT S lng Kich thc chớnh xỏc hụi tng kt qua (KB) (%) (%) 382 136,3 71,2 81,8 76,13 398 100,5 71,1 82,0 76,16 187 33,7 76,4 67,0 71,39 1707 529,1 66,4 76,2 70,96 155 45,0 77,5 66,3 71,46 72,52 74,66 73,22 Trung bỡnh F1 (%) Qua thc nghim tỏc gi nhn rng, i vi cỏc khung hỡnh khụng b nh hng bi hiu ng trỡnh chiu thỡ kt qu nhn dng bng Tesseract-OCR cho kt qu vi chinh xỏc cao, xp x khong 96% n 100% Nhng i vi cỏc khung hỡnh b nh hng thỡ cho kt qu nhn dng thp, khong 56% - 64% Vỡ vy chinh xỏc trung bỡnh i vi mt video b gim ỏng k, xp x 72,52% õy cng l thỏch thc v hn ch ca tỏc gi lun ny Tp kt qu sau quỏ trỡnh OCR tip tc c x ly trung lp bng ki thut Shingling Kt qu thc hin loi b trung lp c mụ t hỡnh 4.5 Bang 4.5 Kt qu thc hin NDD vi ki thut Shingling STT Tp õu vo S ban S slide S chớnh hụi i din thc t ban i xỏc tng thu c din ỳng (%) (%) 382 14 22 12 85,7 54,5 66,63 398 24 25 22 91,6 88,0 89,76 187 42 35 34 80,1 97,1 87,78 1707 14 18 13 92,8 72,2 81,21 155 21 24 18 85,7 75,0 79,99 87,18 77,36 81,07 Trung bỡnh F1 (%) chinh xỏc, hi tng v o F1 c dung ỏnh giỏ quỏ trỡnh x ly trung lp bn Kt qu ca quỏ trỡnh ny l bn i din cho video bi ging õu vo chinh xỏc P c tinh bng cụng thc: P= Footer Page 54 of 113 Vn ban diờn|ung Vn ban diờn thu c 100% Header Page 55 of 113 53 hi tng R c tinh theo cụng thc: Vn ban diờn|ung R= Vn ban diờn thc tờ o F1 c tinh l: F1= 100% + Sau x ly trung lp bn, hp cỏc bn i din c gp chung thnh mt bn nht Trc x ly li chinh t, bn cõn c lm sch nh a trỡnh by chi tit mc 3.4.2 Tp d liu sau c lm sch u bao gm c hai loi li non-word v real-word Trong lun ny, tỏc gi kt hp c th vin Aspell kim tra li non-word v s dng Bi-gram phỏt hin li real-word Kt qu mụ t quỏ trỡnh phỏt hin li chinh t c mụ t bng 4.6 chinh xỏc P c tinh bng cụng thc: P= Sụ t phat hiờn c|ung Sụ t phat hiờn c 100% hi tng R c tinh theo cụng thc: R= Sụ t phat hiờn c|ung Sụ t lụi thc tờ o F1 c tinh l: F1= 100% + Bang 4.6 Kt qu quỏ trỡnh phỏt hin li chinh t dung Aspell kt hp Bi-gram STT Tp õu Tụng s li thc vo t (s t) S li phỏt hin c S li phỏt hin ỳng chớnh xỏc (%) hụi tng (%) F1 (%) 946 77 71 66 92,9 85,7 89,15 1365 121 112 96 85,7 79,3 82,38 2482 43 33 18 54,54 41,8 47,33 786 96 91 85 93,4 88,54 90,91 1520 31 26 22 84,6 70,9 77,15 82,23 73,25 77,38 Trung bỡnh Danh sỏch nhng t gi y cho t phỏt hin li, tỏc gi s dng t in kt hp vi khong cỏch chnh sa nh nht v tõn sut xut hin Bi-gram la chn t thay th phu hp Bng kt qu sa li chinh t c mụ t bng bng 4.7 chinh xỏc P c tinh bng cụng thc: Footer Page 55 of 113 Header Page 56 of 113 54 P= Sụ t sa c|ung Sụ t sa c 100% hi tng R c tinh theo cụng thc: R= Sụ t sa c|ung Sụ t lụi thc tờ o F1 c tinh l: F1= 100% + Bang 4.7 Kt qu quỏ trỡnh sa li chinh t STT S li phỏt hin S li sa S li sa ỳng chớnh xỏc (%) hụi tng (%) F1 (%) 71 69 49 71,0 69,0 69,99 112 102 62 65,8 55,4 57,97 33 16 56,3 27,3 36,77 91 84 43 51,2 50,5 49,17 26 28 18 64,3 69,2 66,66 60,72 53,64 56,11 Trung bỡnh Nh a trỡnh by mc 3.4 v kho khn sa li chinh t Ting Vit Vỡ vy lun ny, tỏc gi a c gng nhm ci thin cht lng ca quỏ trỡnh sa li chinh xỏc trung bỡnh xp x khong 60,72% 4.3 Kt lun 4.3.1 Kt qua t c Trong lun ny, tỏc gi hng ti mc ich l tỡm hiu v nghiờn cu phng phỏp xõy dng mt h thng tra cu video da trờn ni dung Video tỏc gi quan tõm l cỏc video bi ging dng silde Ni dung ca truy s l cỏc t hoc cỏc cm t co liờn quan n ni dung bn bờn cỏc video bi ging Qua bn chng, lun a trỡnh by v cỏc khỏi nim liờn quan n cụng c tỡm kim Cỏc phng phỏp tip cn, ki thut ỏp dng gii quyt cỏc bi toỏn v xõy dng cụng c tỡm kim video ng dng cỏc phng phỏp, ki thut thc nghim xõy dng mt h thng tỡm kim video bi ging da trờn ni dung Cỏc ong gop chinh ca lun vn: - H thng li kin thc, khỏi nim liờn quan v kin trỳc ca cụng c tỡm kim Footer Page 56 of 113 Header Page 57 of 113 55 - Trỡnh by mụ hỡnh cỏc bi toỏn cõn x ly quỏ trỡnh xõy dng cụng c tỡm kim video - Phõn tich cỏc phng phỏp tip cn gii quyt cỏc bi toỏn v la chn ki thut thc nghim - Xõy dng th nghim ng dng tỡm kim video bi ging dng slide da trờn ni dung 4.3.2 nh hng phỏt trin Vi nhng kt qu t c lun ny, tỏc gi hy vng tng lai s: - Th nghim vi d liu a dng hn v ln hn Thu thp v x ly c vi nhiu nh dng video - Nghiờn cu cỏc phng phỏp, ki thut nõng cao cht lng chng trỡnh sa li chinh t Ting Vit - Ci tin v nghiờn cu nõng cao cht lng, gim thi gian x ly video õu vo Footer Page 57 of 113 Header Page 58 of 113 56 TI LIU THAM KHO Andrei Z Broder (2000), Identifying and Filtering Near-Duplicate Documents, 11th Annual Symposium on Combinatorial Pattern Matching ,Springer-Verlag London, pp.1-10 Bassma S Alsulami (2012), Near Duplicate Document Detection Survey, International Journal of Computer Science & Communication Networks, pp 147-151 Chirag Patel, Atul Patel, Dharmendra Patel (2012), Optical Character Recognition by Open Source OCR Tool Tesseract: A Case Study, International Journal of Computer Applications, Volume 55 No.10, pp 50-56 Christopher D Manning, Prabhakar Raghavan, Hinrich Schỹtze (2009), Introduction to Information Retrieval, Cambridge University Press, Cambridge University David C Gibbon (2012), Introduction to Video Search Engines, Springer Verlag Berlin Heidelberg, Spinger Gurmeet Singh Manku, Arvind Jain, Anish Das Sarma (2007), Detecting Near Duplicates for Web Crawling, 16th International Conference on World Wide Web, pp 141-150 Haojin Yang, Maria Siebert, Patrick Lỹhne, Harald Sack, Christoph Meinel (2011), Automatic Lecture Video Indexing Using Video OCR Technology, 2011 IEEE International Symposium on, pp 111 116 Haojin Yang (2011), Lecture Video Indexing and Analysis Using Video OCR Technology, 7th International Conference IEEE Dijon France, pp 54-61 Hannaneh Hajishirzi, Wen-tau Yih, Aleksander Kolcz (2010), Adaptive Near-Duplicate Detection via Similarity Learning, ACM SIGIR conference on Research and development in information retrieval, pp 419-426 10 Nguyen Thi Xuan Huong, Tran-Thai Dang, The-Tung Nguyen, Anh-Cuong Le (2015), Using Large N-gram for Vietnamese Spell Checking, Advances in Intelligent Systems and Computing, pp 617-627 11 Kukich, Karen (1992), Techniques for Automatically Correcting Words in Text, 24th ACM Computing Surveys, pp 377439 12 Kurt Hornik, Duncan Murdoch (2011), Watch Your Spelling, The R Journal Vol 3, pp 22-28 Footer Page 58 of 113 Header Page 59 of 113 57 13 Kyle Williams, C Lee Giles (2013), Near Duplicate Detection in an Academic Digital Library , 2013 ACM Symposium on Document Engineering, pp 91-94 14 Martin Rứst Halvorsen (2007), Content-based lecture video indexing, Masters Thesis, Department of Computer Science and Media Technology Gjứvik University College 15 Martin Potthast, Benno Stein (2008), New Issues in Near-duplicate Detection, 31th Conf of the German Classification Society, pp 601-609 16 Pratip Samanta, Bidyut B Chaudhuri (2013), A simple real-word error detection and correction using local word bigram and trigram, Association for Computational Linguistics and Chinese Language Processing, pp 211-220 17 Ritika Mishra, Navjot Kaur (2013), A Survey of Spelling Error Detection and Correction Techniques, International Journal of Computer Trends and Technology, pp 372-374 18 Radu Gheorghe, Matthew Lee Hinman, Roy Russo (2016), Elasticsearch in Action, Manning Publications Co, Shelter Island 19 Smith, R (2007), An Overview of the Tesseract OCR Engine, In proceedings of Document analysis and Recognition IEEE Ninth International Conference 20 Suzan Verberne (2002), Context-sensitive spellchecking based on word trigram probabilities, Master thesis Taal, Spraak & Informatica University of Nijmegen 21 Youssef Bassil, Mohammad Alwani (2012), Context-sensitive Spelling Correction Using Google Web 1T 5-Gram Information, Computer and Information Science, Vol 5, No 3, May 2012, pp 37-48 Footer Page 59 of 113 ... 113 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ VĂN HÀO NGHIÊN CỨU XÂY DỰNG HỆ THỐNG TÌM KIẾM VIDEO DỰA TRÊN NỘI DUNG Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số:... cần có hệ thống mà “hiểu” nội dung video giảng để phục vụ cho việc tìm kiếm người dùng Những công cụ tìm kiếm phổ biến - Google, Yahoo, Bing…, hệ thống tìm kiếm dựa “từ khóa”, tìm kiếm liệu... tiễn đề tài nghiên cứu xây dựng hệ thống tìm kiếm video dựa nội dung Chương tiếp theo, luận văn trình bày chi tiết tiếp cận để giải vấn đề toán tìm kiếm video giảng dạng slide dựa nội dung Footer