1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu xây dựng hệ thống tìm kiếm video dựa trên nội dung (tt)

33 541 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 33
Dung lượng 1,45 MB

Nội dung

I HC QUC GIA H NI TRNG I HC CễNG NGH Lấ VN HO NGHIấN CU XY DNG H THNG TèM KIM VIDEO DA TRấN NI DUNG Ngnh: Chuyờn ngnh: Mó s: Cụng ngh thụng tin H thng thụng tin 60.48.01.04 TểM TT LUN VN THC S CễNG NGH THễNG TIN H Ni - 2016 MC LC MC LC BNG CH CI VIT TT DANH MC CC BNG BIU DANH MC CC HèNH V, TH M U CHNG 1: GII THIấU 1.1 Gii thiu v cụng c tỡm kim 1.2 Lch s phỏt trin ca cụng c tỡm kim 1.3 Kin trỳc ca cụng c tỡm kim 10 1.3.1 Quỏ trỡnh ỏnh ch mc 10 1.3.2 Quỏ trỡnh truy 10 1.4 Cụng c tỡm kim video trờn mng internet 10 1.5 Tụng quan ca tai va cỏc cõn giai quyt 10 1.5.1 Tụng quan tai 10 1.5.2 Cỏc cõn giai quyt 11 1.6 Y nghia khoa hoc va thc tiờn ca tai nghiờn cu 11 1.6.1 Y nghia khoa hoc 11 1.6.2 Y nghia thc tiờn 11 1.7 Kt lun 11 CHNG 2: BI TON TèM KIM 12 VIDEO BI GING DA TRấN NI DUNG 12 2.1 Phỏt biu bi toỏn 12 2.2 Cỏc nghiờn cu v tỡm kim video da trờn nụi dung 13 2.3 Hng nghiờn cu ca tỏc gia 13 2.4 Bai toỏn phõn on video anh 13 2.4.1 Khỏi nim 13 2.4.2 Phng phỏp tip cn 14 2.5 Bai toỏn trich xut ban 15 2.5.1 Bai toỏn nhn dng ki t quang hoc 15 2.5.2 Bi toỏn x lý trựng lp ban 15 2.5.3 Bi toỏn sa li chớnh ta ban 17 2.6 Bai toỏn ỏnh ch mc v tỡm kim 18 2.6.1 Khỏi nim 18 2.6.2 Phng phỏp tip cn 19 2.6.3 Kin trỳc ca Elasticsearch 19 2.7 Kt lun 19 3.1 Bai toỏn phõn on video nh dnh anh 20 3.1.1 Phỏt biu bai toỏn 20 3.1.2 Giai phỏp thc hin 20 3.2 Bai toỏn trich xut ban 20 3.2.1 Bi toỏn nhn dng kớ t quang hoc bng cụng c Tesseract-OCR 20 3.2.2 Bi toỏn x lý trựng lp ban bng ki thut Shingling 21 3.2.3 Bi toỏn sa li chớnh ta ban ting Vit 23 3.3 Bai toỏn ỏnh ch mc v tỡm kim 25 3.3.1 Phỏt biu bai toỏn 25 3.3.2 Lp ch mc v tỡm kim bng Elasticsearch 25 CHNG 4: KT QU THC NGHIấM, NH GI V KT LUN 27 4.1 Cụng c, mụi trng thc nghim 27 4.2 Kt qua thc nghim, ỏnh giỏ 28 4.3 Kt lun 29 4.3.1 Kt qua t c 29 4.3.2 nh hng phỏt trin 30 TI LIấU THAM KHO 31 BNG CH CI VIT TT STT T vit tt ASR FPS FTP GNU OCR PDF NDD TIFF UTF-8 í ngha Automatic Speech Recognition Nhn dng ting noi t ụng Frame Per Second S khung hỡnh trờn mụt giõy File Transfer Protocol Giao thc truyn tin General Public License Giy phộp cụng cụng Optical Character Recognition Nhn dng kớ t quang hoc Portable Document Format nh dng tai liu di ụng Near Duplicate Detection Phỏt hin gõn trựng lp Tagged Image File Format nh dng tin trờn mỏy tinh lu tr cỏc hỡnh anh Unicode Transformation Format - nh dng chuyn ụi Unicode DANH MC CC BNG BIU Bang 3.1 Kt qua Bigram d liu 24 Bang 4.1 Thụng s phõn cng 27 Bang 4.2 Danh sỏch cụng c phõn mm 27 Bang 4.3 Kt qua thc hin trich xut khung hỡnh t video 28 Bang 4.4 Kt qua thc hin Tesseract-OCR i vi khung hỡnh thu c 28 Bang 4.5 Kt qua thc hin NDD vi ki thut Shingling 28 Bang 4.6 Kt qua quỏ trỡnh phỏt hin li chinh ta dung Aspell kt hp Bi-gram 29 Bang 4.7 Kt qua quỏ trỡnh sa li chinh ta 29 DANH MC CC HèNH V, TH Hỡnh 1.1 Quỏ trỡnh ỏnh ch mc 10 Hỡnh 2.1 Kin truc tụng quan h thng tỡm kim video da trờn nụi dung 12 Hỡnh 2.2 Kin truc h thng tỡm kim video tỏc gia xut 13 Hỡnh 2.3 S dng FFMpeg chuyn ụi video thnh anh 14 Hỡnh 2.4 Kin trỳc ca Tesseract OCR 15 Hỡnh 2.5 Vn ban gc 16 Hỡnh 2.6 Vn ban trựng lp ca ban hỡnh 2.5 16 Hỡnh 2.7 Vn ban gõn trựng lp ca ban hỡnh 2.5 16 Hỡnh 2.8 [15] ụ chinh xỏc va ụ hi tng ca ụ o tng t cho phng phỏp fuzzy-fingerprinting (FF), localitysensitive hashing (LSH), supershingling (SSh), shingling (Sh), and hashed breakpoint chunking (HBC) 17 Hỡnh 2.9 Ki thut phỏt hin li chớnh ta da vo tra cu t in18 Hỡnh 2.10 Ki thut phỏt hin li chớnh ta da vo phõn tớch Ngram 18 Hỡnh 2.11 Th hng ca 17 cụng c tỡm kim Ngun http://dbengines.com 19 Hỡnh 2.12 Kin trỳc cluster-node-shard ca Elasticsearch 19 Hỡnh 3.1 Mụ ta quỏ trỡnh bin ụi video ngun thnh dng anh 20 Hỡnh 3.2 Chuyn ụi anh mu thnh anh a cp xỏm 20 Hỡnh 3.3 nh mu 20 Hỡnh 3.4 nh a cp xỏm 21 Hỡnh 3.5 Quỏ trỡnh OCR anh hỡnh 3.4 bng Tesseract-OCR 21 Hỡnh 3.6 Kt qua sau hon thnh OCR bng Tesseract-OCR 21 Hỡnh 3.7 Thc hin OCR tt ca anh th mc bng Tesseract-OCR 21 Hỡnh 3.8 Quỏ trỡnh x lý trựng lp ban 22 Hỡnh 3.9 H s Jaccard ca ti liu d1 v d2 22 Hỡnh 3.10[4] Bn quỏ trỡnh tớnh toỏn shingle ca hai ti liu 22 Hỡnh 3.11 S quỏ trỡnh trich xut ban i din 23 Hỡnh 3.12 Quỏ trỡnh phỏt hin v sa li chớnh ta ban 23 Hỡnh 3.13 S sa li chinh ta s dng t in Aspell 24 Hỡnh 3.14 S sa li chinh ta s dng Bigram 24 Hỡnh 3.15 Mụ ta quỏ trỡnh lp ch mc ti liu 25 Hỡnh 3.16 Kim tra ụng Elasticsearch 25 Hỡnh 3.17 Danh sỏch cỏc ch mc hin co Tờn ch mc la lectures, s tai liu docs.count hin ti co giỏ tr bng (do cha to tai liu cho ch mc nay) 25 Hỡnh 3.18 To type va document cho ch mc 25 Hỡnh 3.19 To type va document bng lnh POST Id ca document c Elasticsearch gỏn t ụng 25 Hỡnh 3.20 Cp nht li document cho ch mc vi id a tn ti 26 Hỡnh 3.21 Thc hin cp nht li document bng cõu lnh UPDATE 26 Hỡnh 3.22 Tỡm kim document trờn ch mc 26 M U Cựng vi s phỏt trin ca cụng ngh thụng tin, tc ụ internet ang cai thin ỏng k S lng video bi giang, diờn thuyt phc v hoc cho moi la tuụi ang c tai lờn v chia s trờn internet nhanh chúng Mi ngy, hng triu video nh vy trờn th gii c ng tai lờn cỏc ng dng internet nh Youtube, Facebook, Yahoo i vi lng video ang tng trng tng nay, c ch tụ chc lu tr phc v cho vic tra cu, tỡm kim l mụt thỏch thc Giỏo dc trc tuyn hay E-Learning khụng cũn l khỏi nim mi l va ang phỏt trin mnh m S lng video bi giang, diờn thuyt cng vỡ th cang c tng trng Nhu cõu tỡm kim ca ngi hoc cng yờu cõu kht khe hn: ca v ụ chớnh xỏc v thi gian tỡm kim Tuy nhiờn, cỏc chc nng tỡm kim bi giang cho ca cỏc h thng hin ti thụng thng ch cho phộp ngi dựng tỡm kim vi tờn bi giang, tờn hoc phõn, hoc tờn giang viờn Cỏc chc nng thng cho kt qua co ụ chinh xỏc khụng cao, va cỏc kt qua tra v cú nhiu nụi dung khụng liờn quan n mc ich tỡm kim thc s ca ngi dựng Do o, cõn cú mụt h thng m cú th hiu c nụi dung ca tng video bi giang phc v cho vic tỡm kim ca ngi dựng Nhng cụng c tỡm kim phụ bin hin - nh Google, Yahoo, Bing, la nhng h thng tỡm kim da trờn t khoa, va tỡm kim trờn d liu ban (text) Chớnh vỡ th, nu video khụng cú bt k siờu d liu (metadata) vớ d nh ngay, tỏc gia, t khúa, hoc mụ ta thỡ khụng th tỡm kim c bng cỏch s dng cỏc cụng c nờu trờn Siờu d liu thng c thờm bng tay, quỏ trỡnh ny s rt tn thi gian Hn na, ca mụt on video cú th c tỡm thy bng siờu d liu ca nú, cụng c tỡm kim thụng thng khụng cú kha nng tỡm kim mụt on bi giang, slide c th video ma ngi dựng quan tõm Mc tiờu chớnh ca ca Lun la trung nghiờn cu xõy dng mt h thng tỡm kim cỏc bi ging, thuyt trỡnh, trỡnh din bng slide di dng video H thng s cho phộp ngi dựng ch cõn nhp vo mụt phõn nụi dung ca bi giang, kt qua tra v s l nhng video bi giang cú liờn quan n chui truy Ngoi ra, vi giai phỏp cng cho phộp cỏc h thng tỡm kim cú th truy d liu video m khụng cõn cú siờu d liu Xut phỏt t quan im nờu trờn, ngoi phõn m õu v kt lun, lun c chia lam chng c túm tt nh sau: - Chng 1: Gii thiu v cụng c tỡm kim trờn mng internet, cỏc khỏi nim v kin trỳc ca cụng c tỡm kim Cỏc cõn giai quyt lun va y nghia khoa hoc, thc tiờn ca lun - Chng 2: Trỡnh by v cỏc bi toỏn cõn giai quyt khuụn khụ tỡm kim video bi giang dng slide Mụt s khỏi nim, mụ hỡnh cỏc bi toỏn cõn giai quyt Cỏc phng phỏp tip cn giai quyt - Chng 3: La chng quan nht ca Lun Nụi dung chớnh ca chng l trung trỡnh by giai phỏp thc hin ca tỏc gia, cỏc ki thut ỏp dng trớch xut ban, x ly ban va ỏnh ch mc tỡm kim cho video bi giang - Chng 4: L phõn trỡnh by cỏc kt qua thc nghim va ỏnh giỏ mi bi toỏn tỏc gia u cú nhng thc nghim kim chng v ỏnh giỏ v ụ chớnh xỏc Tỏc gia xin by t lũng bit n chõn ti PGS.TS Nguyờn Trớ Thnh, thõy a luụn õn cõn, ch bao, ụng viờn, giup tỏc gia sut quỏ trỡnh thc hin Lun Tỏc gia xin chõn thnh cam n gia ỡnh, bn bố, ng nghip a luụn tin tng, ụng viờn va giup v nhiu mt thi gian qua Tỏc gia xin chõn thnh cam n cỏc thõy, cụ giỏo khoa Cụng ngh Thụng tin v Truyn thụng, trng i hoc Hng c a ụng viờn v to iu kin giup tỏc gia hon thnh tt nht lun CHNG 1: GII THIU 1.1 Gii thiu v cụng c tỡm kim Nu bn a tng truy cp a ch www.google.com.vn, nhp nụi dung cõn tra cu v bm vao tỡm vi google Mụt danh sỏch kt qua liờn quan n nụi dung tỡm kim c lit kờ trờn mn hỡnh cho phộp ngi dung la chon cỏc nụi dung phự hp vi yờu cõu Nhng cụng c cho phộp ngi dựng tỡm kim cỏc thụng tin trờn mng nh Google, Bing, Yahoo nh vy goi l cỏc cụng c tỡm kim (web search engine) Thut ng web search engine c nh nghia: Mụt cụng c tỡm kim l cỏc ng dng thc t ca cỏc ki thut truy hi thụng tin trờn d liu ban qui mụ ln[5] 1.2 Lch s phỏt trin ca cụng c tỡm kim Nm 1990, Archie l cụng c tỡm kim õu tiờn c phỏt trin bi Alan Emtage, Bill Heelan and J Peter Deutsch, hai sinh viờn chuyờn ngnh khoa hoc mỏy tớnh ca trng McGill University ti Montreal (Canada) Nm 1991, mụt cụng c tng t Archie l Gopher ca tỏc gia Mark McCahill ti University of Minnesota, cú chc nng tỡm kim theo tờn tin va tiờu c lu tr h thng Gopher a lp ch mc Nm 1993, ỏnh du nhng bc tin mi v cụng c tỡm kim nh World Wide Web Wanderer bi Matthew Gray, õy c xem l mụt web robot õu tiờn o lng c dung lng ca trang web Nm 1994, vi s i ca WebCrawler cụng c tỡm kim õu tiờn ch mc toan trang web va cho phộp ngi dựng tỡm kim va thu thp vi bt k t nao mụt cỏch t ụng Nm 1995, cụng c tỡm kim yahoo c to bi David Filo v Jerry Yang S dng danh b web thay vỡ ỏnh ch mc toan ban Nm 1996-nay, vi s phỏt trin mnh m ca internet cỏc cụng c tỡm kim phỏt trin mnh m hn, ti u hn nhiu so vi cỏc cụng c trc õy Nm 1998, Google c phỏt trin bi Larry v Sergey a khỏi nim v PageRank ỏnh du s phỏt trin vt bc v hin ang la cụng c tỡm kim cú th phõn ln nht hin 18 Hỡnh 2.9 mụ ta quỏ trỡnh kim tra li chớnh ta bng ki thut dựng t in Hỡnh 2.9 Ki thut phỏt hin li chớnh ta da vo tra cu t in Ki thut phõn tớch N-gram: N-gram l mụt chui gm n t, thng thỡ l hai, ba hoc nm t Ki thut ny thc hin bng cỏch chia ban õu vo thnh n-gram tng ng, i vi mi n-gram õu vo, tỡm kim bang thng kờ ngram tinh trc Kt hp thờm tõn sut xut hin ca n-gram bang thng kờ kim tra s tn ti hoc mc ụ phụ bin ca n-gram õu vo nhm xỏc nh li chớnh ta Hỡnh 2.10 mụ ta quỏ trỡnh kim tra li chớnh ta bng ki thut s dng N-gram Hỡnh 2.10 Ki thut phỏt hin li chớnh ta da vo phõn tớch N-gram 2.6 Bai toỏn ỏnh ch mc v tỡm kim 2.6.1 Khỏi nim Lp ch mc ti liu l cụng vic sp xp ti liu nhm ỏp ng nhanh chúng yờu cõu tỡm kim thụng tin ca ngi s 19 dng Quỏ trỡnh lp ch mc c hiu la giai on phõn tớch ban a x ly va thu c xỏc nh cỏc ch mc biu diờn nụi dung ca ban ny 2.6.2 Phng phỏp tip cn Cú nhiu cụng c thc hin lp ch mc cho ti liu nh Apache Sorl, Lucence, Sphinx Nhng i vi bi toỏn ỏnh ch mc ti liu tỏc gia s dng cụng c Elasticsearch Hỡnh 2.11 Th hng ca 17 cụng c tỡm kim Ngun http://db-engines.com 2.6.3 Kin trỳc ca Elasticsearch - Cluster - Node - Index - Type - Document - Shard & Replicas Hỡnh 2.12 Kin trỳc cluster-node-shard ca Elasticsearch 2.7 Kt lun Kt thuc chng nay, tỏc gia a trỡnh bay khỏi quỏt cỏc bi toỏn cõn giai quyt nụi dung lun Cỏc phng phỏp tip cn giai quyt Tip theo, chng ba tỏc gia xin trỡnh by chi tit v cỏc giai phỏp ki thut tin hnh ca tỏc gia thc hin cỏc bai toỏn a nờu chng hai 20 CHNG 3: K THUT GII QUYT CC BI TON TRONG KHUễN KH LUN VN 3.1 Bi toỏn phõn on video nh dnh anh 3.1.1 Phỏt biu bai toỏn Hỡnh 3.1 mụ ta quỏ trỡnh bin ụi video bi giang thnh anh Hỡnh 3.13 Mụ ta quỏ trỡnh bin ụi video ngun thnh dng anh 3.1.2 Giai phỏp thc hin Sau cai t phõn mm Ffmpeg, s dng dũng lnh ffmpeg -i lecture001.mp4 -r %d.tif o: - i la video õu vo vi ng dn ca tin video Trong vớ d video c nh dng l mp4 vi tờn tin l lecture001 - r l s khung hỡnh trờn giõy - %d.tif la nh dng tờn tin hỡnh anh lu vi tờn l s nguyờn va nh dng l tif Vớ d 1.tif, 2.tif, 3.tif - S dng s FPS la (mụt khung hỡnh mụt giõy) 3.2 Bai toỏn trich xut ban 3.2.1 Bi toỏn nhn dng kớ t quang hoc bng cụng c Tesseract-OCR Hỡnh 3.14 Chuyn ụi anh mu thnh anh a cp xỏm Hỡnh 3.15 nh mu 21 Hỡnh 3.16 nh a cp xỏm Hỡnh 3.17 Quỏ trỡnh OCR anh hỡnh 3.4 bng TesseractOCR Hỡnh 3.18 Kt qua sau hon thnh OCR bng TesseractOCR Hỡnh 3.19 Thc hin OCR tt ca anh th mc bng Tesseract-OCR 3.2.2 Bi toỏn x lý trựng lp ban bng k thut Shingling 3.2.2.1 Phỏt biu bai toỏn Mc tiờu ca quỏ trỡnh ny s l phỏt hin v loi b nhng ban cú nụi dung gõn trựng (cỏc c 22 trớch xut t mụt slide) Quỏ trỡnh ny trai qua hai bc c trỡnh bay hỡnh Hỡnh 3.20 Quỏ trỡnh x lý trựng lp ban 3.2.2.2 Giai thut Shingling Goi S(dj) l shingles ca ti liu dj S tng ng ca hai ti liu c o bng cỏch s dng h s Jaccard gia cỏc vector shingles Gia s vi hai d1 v d2 thỡ h s Jaccard c tớnh theo cụng thc hỡnh 3.9 |(1 ) (2 )| ((1 ), (2 )) = |(1 ) (2 )| Hỡnh 3.21 H s Jaccard ca ti liu d1 v d2 Hỡnh 3.22[4] Bn quỏ trỡnh tớnh toỏn shingle ca hai ti liu 3.2.2.3 K thut tin hnh Da trờn cỏc c s ca phng phỏp shingling, tỏc gia a xỏc nh v kt lun c hai ban bt k cú phai l gõn trựng lp hay khụng, cn c vo mụt giỏ tr ngng ca ụ o Jaccard hỡnh 3.13 Bai toỏn tip theo nụi dung la xỏc nh c cỏc ban i din cho video bi giang Bai toỏn c mụ ta di dng mó gia nh sau: õu vo: Cho D l tt ca ban c trớch xut OCR t video, giỏ tr d1, d2, dn la cỏc ban c thuục D õu ra: Tp D la ban i din cho D Giai thut 23 Hỡnh 3.23 S quỏ trỡnh trich xut ban i din 3.2.3 Bi toỏn sa li chớnh ta ban ting Vit 3.2.3.1 Phỏt biu bai toỏn Hỡnh 3.12 mụ ta cỏc bc thc hin phỏt hin v sa li chớnh ta ban Hỡnh 3.24 Quỏ trỡnh phỏt hin v sa li chớnh ta ban 3.2.3.2 Lm sch d liu trc sa li chớnh ta - Bc 1: Loi b cỏc kớ t khoang trng tha õu, gia, v cui cõu Vớ d bai giang s c thay bng bai giang - Bc 2: B qua cỏc chui la a ch email, a ch website - Bc 3: Loi b cỏc kớ t c bit, cỏc du chm, kớ t s, thỏng 3.2.3.3 K thut sa li chớnh ta dng non-word Trong lun tỏc gia s s dng cụng c mó ngun m Aspell cai t chng trỡnh sa li chớnh ta i vi dng li non-word 24 Hỡnh 3.25 S sa li chinh ta s dng t in Aspell 3.2.3.4 K thut sa li chớnh ta dng real-word Di õy la mụ ta v ki thut kim tra v sa li chớnh ta dựng bigram Bang 3.1 Kt qua Bigram d liu Bigram Kớch thc tin trc tỏch Bigram 66 MB S Bigram tỏch c Kich thc sau tỏch Bigram 4.836.571 82 MB Thut toỏn phỏt hin v sa li chớnh ta ban da vo ki thut N-gram c tỏc gia cai t v mụ ta nh sau: Hỡnh 3.26 S sa li chinh ta s dng Bigram 25 3.3 Bai toỏn ỏnh ch mc v tỡm kim 3.3.1 Phỏt biu bai toỏn Hỡnh 3.15 mụ ta cỏc bc lp ch mc ti liu Hỡnh 3.27 Mụ ta quỏ trỡnh lp ch mc ti liu 3.3.2 Lp ch mc v tỡm kim bng Elasticsearch Hỡnh 3.28 Kim tra ụng Elasticsearch Hỡnh 3.29 Danh sỏch cỏc ch mc hin co Tờn ch mc la lectures, s tai liu docs.count hin ti co giỏ tr bng (do cha to tai liu cho ch mc nay) Hỡnh 3.30 To type va document cho ch mc Hỡnh 3.31 To type va document bng lnh POST Id ca document c Elasticsearch gỏn t ụng 26 Hỡnh 3.32 Cp nht li document cho ch mc vi id a tn ti Hoc co th s dng lnh UPDATE trc tip c mụ ta hỡnh 3.21 Hỡnh 3.33 Thc hin cp nht li document bng cõu lnh UPDATE Hỡnh 3.34 Tỡm kim document trờn ch mc 27 CHNG 4: KT QU THC NGHIM, NH GI V KT LUN 4.1 Cụng c, mụi trng thc nghim phc v cho quỏ trỡnh thc nghim, tỏc gia s dng cu hỡnh phõn cng va cỏc cụng c phõn mm th hin hai bang 4.1 va bang 4.2 nh sau: Bang 4.1 Thụng s phõn cng STT Thanh phõn CPU RAM H iu hanh Bụ nh ngoai Thụng s k thut Intel đ Pentium đ Dual core T3200 2.00GHz DDR II - 3GB Ubuntu 14.04 LTS 150 GB Bang 4.2 Danh sỏch cụng c phõn mm STT Tờn cụng c Sublime Text PHP 5.0 FFMpeg Imagemagick Tesseract -OCR Aspell Pspell Vietnamese Dictionary Teleport Pro 10 Elasticsearch Chc nng Trỡnh son thao va by li chng trỡnh Ngụn ng lp trỡnh dung thc nghim Cụng c x ly video Cụng c chuyn ụi anh mau anh a cp xỏm Cụng c nhn dng ki t quang hoc Cụng c kim tra li chinh ta Th vin lp trỡnh sa li chinh ta trờn nguụn ng PHP T in t vng ca Ting Vit Cụng c h tr tai d liu trờn mng Cụng c h tr ỏnh ch mc va tỡm kim tai liu Nguụn tai https://www.subli metext.com http://php.net/dow nloads.php https://ffmpeg.org /download.html http://www.image magick.org/script/ binaryreleases.php https://github.com /tesseract-ocr http://aspell.net/ http://php.net/man ual/en/intro.pspell php https://github.com /1ec5/hunspellvi/tree/master/dict ionaries http://www.tenma x.com/teleport/pro /download.htm https://www.elasti c.co/ 28 4.2 Kt qua thc nghim, ỏnh giỏ Bang 4.3 Kt qua thc hin trich xut khung hỡnh t video STT nh dng Kớch thc (MB) Thi gian (phỳt:giõy) S khung hỡnh thu c Kớch thc (MB) mp4 23,8 6:22 382 404,6 mp4 48,1 6:38 398 450,7 mp4 32,1 3:07 187 174,8 mp4 137,6 28:27 1707 1740,8 mp4 19,6 2:35 155 139,4 Bang 4.4 Kt qua thc hin Tesseract-OCR i vi khung hỡnh thu c STT S lng Kich thc chớnh kt qua (KB) xỏc (%) hụi tng (%) F1 (%) 382 136,3 71,2 81,8 76,13 398 100,5 71,1 82,0 76,16 187 33,7 76,4 67,0 71,39 1707 529,1 66,4 76,2 70,96 155 45,0 77,5 66,3 71,46 72,52 74,66 73,22 Trung bỡnh Bang 4.5 Kt qua thc hin NDD vi ki thut Shingling S S slide S ban i thc t ban i din thu din c ỳng chớnh xỏc (%) hụi tng (%) F1 (%) 12 85,7 54,5 66,63 25 22 91,6 88,0 89,76 42 35 34 80,1 97,1 87,78 1707 14 18 13 92,8 72,2 81,21 155 21 24 18 85,7 75,0 79,99 87,18 77,36 81,07 STT Tp õu vo 382 14 22 398 24 187 Trung bỡnh 29 Bang 4.6 Kt qua quỏ trỡnh phỏt hin li chinh ta dung Aspell kt hp Bi-gram STT Tp õu vo (s t) Tụng s li thc t S li S li phỏt phỏt hin hin ỳng c 946 77 71 66 92,9 85,7 89,15 1365 121 112 96 85,7 79,3 82,38 2482 43 33 18 54,54 41,8 47,33 786 96 91 85 93,4 88,54 90,91 1520 31 26 22 84,6 70,9 77,15 82,23 73,25 77,38 Trung bỡnh chớnh xỏc (%) hụi F1 tng (%) (%) Bang 4.7 Kt qua quỏ trỡnh sa li chinh ta STT S li phỏt hin S li sa hụi tng (%) F1 (%) 71 69 49 71,0 69,0 69,99 112 102 33 16 62 65,8 55,4 57,97 56,3 27,3 36,77 91 84 43 51,2 50,5 49,17 26 28 18 64,3 69,2 66,66 60,72 53,64 56,11 Trung bỡnh S li sa chớnh ỳng xỏc (%) Nh a trỡnh bay mc 3.4 v kho khn sa li chinh ta Ting Vit Vỡ vy lun nay, tỏc gia a c gng nhm cai thin cht lng ca quỏ trỡnh sa li ụ chinh xỏc trung bỡnh xp x khoang 60,72% 4.3 Kt lun 4.3.1 Kt qua t c Trong lun nay, tỏc gia hng ti mc ich la tỡm hiu v nghiờn cu phng phỏp xõy dng mụt h thng tra cu video da trờn nụi dung Video tỏc gia quan tõm la cỏc video bai giang dng silde Nụi dung ca truy s la cỏc t hoc cỏc cm t co liờn quan n nụi dung ban bờn cỏc video bai giang 30 Qua bn chng, lun a trỡnh bay v cỏc khỏi nim liờn quan n cụng c tỡm kim Cỏc phng phỏp tip cn, ki thut ỏp dng giai quyt cỏc bai toỏn v xõy dng cụng c tỡm kim video ng dng cỏc phng phỏp, ki thut thc nghim xõy dng mụt h thng tỡm kim video bai giang da trờn nụi dung Cỏc ong gop chinh ca lun vn: - H thng li kin thc, khỏi nim liờn quan va kin truc ca cụng c tỡm kim - Trỡnh by mụ hỡnh cỏc bai toỏn cõn x ly quỏ trỡnh xõy dng cụng c tỡm kim video - Phõn tich cỏc phng phỏp tip cn giai quyt cỏc bai toỏn va la chon ki thut thc nghim - Xõy dng th nghim ng dng tỡm kim video bai giang dng slide da trờn nụi dung 4.3.2 nh hng phỏt trin Vi nhng kt qua t c lun nay, tỏc gia hy vong tng lai s: - Th nghim vi d liu a dng hn va ln hn Thu thp va x ly c vi nhiu nh dng video - Nghiờn cu cỏc phng phỏp, ki thut nõng cao cht lng chng trỡnh sa li chinh ta Ting Vit - Cai tin va nghiờn cu nõng cao cht lng, giam thi gian x ly video õu vao 31 TI LIU THAM KHO Andrei Z Broder (2000), Identifying and Filtering NearDuplicate Documents, 11th Annual Symposium on Combinatorial Pattern Matching ,Springer-Verlag London, pp.1-10 Bassma S Alsulami (2012), Near Duplicate Document Detection Survey, International Journal of Computer Science & Communication Networks, pp 147-151 Chirag Patel, Atul Patel, Dharmendra Patel (2012), Optical Character Recognition by Open Source OCR Tool Tesseract: A Case Study, International Journal of Computer Applications, Volume 55 No.10, pp 50-56 Christopher D Manning, Prabhakar Raghavan, Hinrich Schỹtze (2009), Introduction to Information Retrieval, Cambridge University Press, Cambridge University David C Gibbon (2012), Introduction to Video Search Engines, Springer Verlag Berlin Heidelberg, Spinger Gurmeet Singh Manku, Arvind Jain, Anish Das Sarma (2007), Detecting Near Duplicates for Web Crawling, 16th International Conference on World Wide Web, pp 141-150 Haojin Yang, Maria Siebert, Patrick Lỹhne, Harald Sack, Christoph Meinel (2011), Automatic Lecture Video Indexing Using Video OCR Technology, 2011 IEEE International Symposium on, pp 111 116 Haojin Yang (2011), Lecture Video Indexing and Analysis Using Video OCR Technology, 7th International Conference IEEE Dijon France, pp 54-61 Hannaneh Hajishirzi, Wen-tau Yih, Aleksander Kolcz (2010), Adaptive Near-Duplicate Detection via Similarity Learning, ACM SIGIR conference on Research and development in information retrieval, pp 419-426 10 Nguyen Thi Xuan Huong, Tran-Thai Dang, The-Tung Nguyen, Anh-Cuong Le (2015), Using Large N-gram for Vietnamese Spell Checking, Advances in Intelligent Systems and Computing, pp 617-627 32 11 Kukich, Karen (1992), Techniques for Automatically Correcting Words in Text, 24th ACM Computing Surveys, pp 377439 12 Kurt Hornik, Duncan Murdoch (2011), Watch Your Spelling, The R Journal Vol 3, pp 22-28 13 Kyle Williams, C Lee Giles (2013), Near Duplicate Detection in an Academic Digital Library , 2013 ACM Symposium on Document Engineering, pp 91-94 14 Martin Rứst Halvorsen (2007), Content-based lecture video indexing, Masters Thesis, Department of Computer Science and Media Technology Gjứvik University College 15 Martin Potthast, Benno Stein (2008), New Issues in Near-duplicate Detection, 31th Conf of the German Classification Society, pp 601-609 16 Pratip Samanta, Bidyut B Chaudhuri (2013), A simple real-word error detection and correction using local word bigram and trigram, Association for Computational Linguistics and Chinese Language Processing, pp 211-220 17 Ritika Mishra, Navjot Kaur (2013), A Survey of Spelling Error Detection and Correction Techniques, International Journal of Computer Trends and Technology, pp 372-374 18 Radu Gheorghe, Matthew Lee Hinman, Roy Russo (2016), Elasticsearch in Action, Manning Publications Co, Shelter Island 19 Smith, R (2007), An Overview of the Tesseract OCR Engine, In proceedings of Document analysis and Recognition IEEE Ninth International Conference 20 Suzan Verberne (2002), Context-sensitive spellchecking based on word trigram probabilities, Master thesis Taal, Spraak & Informatica University of Nijmegen 21 Youssef Bassil, Mohammad Alwani (2012), Contextsensitive Spelling Correction Using Google Web 1T 5-Gram Information, Computer and Information Science, Vol 5, No 3, May 2012, pp 37-48

Ngày đăng: 14/09/2016, 23:10

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Andrei Z. Broder. (2000), “Identifying and Filtering Near- Duplicate Documents”, 11 th Annual Symposium on Combinatorial Pattern Matching ,Springer-Verlag London, pp.1-10 Sách, tạp chí
Tiêu đề: Identifying and Filtering Near-Duplicate Documents”, "11"th Annual Symposium on Combinatorial Pattern Matching
Tác giả: Andrei Z. Broder
Năm: 2000
2. Bassma S. Alsulami. (2012), “Near Duplicate Document Detection Survey”, International Journal of Computer Science& Communication Networks, pp. 147-151 Sách, tạp chí
Tiêu đề: Near Duplicate Document Detection Survey”, "International Journal of Computer Science "& Communication Networks
Tác giả: Bassma S. Alsulami
Năm: 2012
3. Chirag Patel, Atul Patel, Dharmendra Patel. (2012), “Optical Character Recognition by Open Source OCR Tool Tesseract: A Case Study”, International Journal of Computer Applications, Volume 55 –No.10, pp. 50-56 Sách, tạp chí
Tiêu đề: Optical Character Recognition by Open Source OCR Tool Tesseract: A Case Study”, "International Journal of Computer Applications
Tác giả: Chirag Patel, Atul Patel, Dharmendra Patel
Năm: 2012
4. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze. (2009), Introduction to Information Retrieval, Cambridge University Press, Cambridge University Sách, tạp chí
Tiêu đề: Introduction to Information Retrieval
Tác giả: Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze
Năm: 2009
5. David C. Gibbon. (2012), Introduction to Video Search Engines, Springer Verlag Berlin Heidelberg, Spinger Sách, tạp chí
Tiêu đề: Introduction to Video Search Engines
Tác giả: David C. Gibbon
Năm: 2012
7. Haojin Yang, Maria Siebert, Patrick Lühne, Harald Sack, Christoph Meinel. (2011), “Automatic Lecture Video Indexing Using Video OCR Technology”, 2011 IEEE International Symposium on, pp. 111 – 116 Sách, tạp chí
Tiêu đề: Automatic Lecture Video Indexing Using Video OCR Technology”, "2011 IEEE International Symposium on
Tác giả: Haojin Yang, Maria Siebert, Patrick Lühne, Harald Sack, Christoph Meinel
Năm: 2011
8. Haojin Yang. (2011), “Lecture Video Indexing and Analysis Using Video OCR Technology”, 7 th International Conference IEEE Dijon France, pp. 54-61 Sách, tạp chí
Tiêu đề: Lecture Video Indexing and Analysis Using Video OCR Technology”", 7"th" International Conference IEEE Dijon France
Tác giả: Haojin Yang
Năm: 2011
10. Nguyen Thi Xuan Huong, Tran-Thai Dang, The-Tung Nguyen, Anh-Cuong Le. (2015), “Using Large N-gram for Vietnamese Spell Checking”, Advances in Intelligent Systems and Computing, pp. 617-627 Sách, tạp chí
Tiêu đề: Using Large N-gram for Vietnamese Spell Checking”, "Advances in Intelligent Systems and Computing
Tác giả: Nguyen Thi Xuan Huong, Tran-Thai Dang, The-Tung Nguyen, Anh-Cuong Le
Năm: 2015
11. Kukich, Karen. (1992), “Techniques for Automatically Correcting Words in Text”, 24 th ACM Computing Surveys, pp.377–439 Sách, tạp chí
Tiêu đề: Techniques for Automatically Correcting Words in Text”, "24"th" ACM Computing Surveys
Tác giả: Kukich, Karen
Năm: 1992
12. Kurt Hornik, Duncan Murdoch. (2011), “Watch Your Spelling”, The R Journal Vol. 3, pp. 22-28 Sách, tạp chí
Tiêu đề: Watch Your Spelling”, "The R Journal Vol. 3
Tác giả: Kurt Hornik, Duncan Murdoch
Năm: 2011
13. Kyle Williams, C. Lee Giles. (2013), “Near Duplicate Detection in an Academic Digital Library” , 2013 ACM Symposium on Document Engineering, pp. 91-94 Sách, tạp chí
Tiêu đề: Near Duplicate Detection in an Academic Digital Library” , "2013 ACM Symposium on Document Engineering
Tác giả: Kyle Williams, C. Lee Giles
Năm: 2013
14. Martin Rứst Halvorsen. (2007), Content-based lecture video indexing, Master’s Thesis, Department of Computer Science and Media Technology Gjứvik University College Sách, tạp chí
Tiêu đề: Content-based lecture video indexing
Tác giả: Martin Rứst Halvorsen
Năm: 2007
15. Martin Potthast, Benno Stein. (2008), “New Issues in Near-duplicate Detection”, 31 th Conf. of the German Classification Society, pp. 601-609 Sách, tạp chí
Tiêu đề: New Issues in Near-duplicate Detection”, "31"th" Conf. of the German Classification Society
Tác giả: Martin Potthast, Benno Stein
Năm: 2008
16. Pratip Samanta, Bidyut B. Chaudhuri. (2013), “A simple real-word error detection and correction using local word bigram and trigram”, Association for Computational Linguistics and Chinese Language Processing, pp. 211-220 Sách, tạp chí
Tiêu đề: A simple real-word error detection and correction using local word bigram and trigram”, "Association for Computational Linguistics and Chinese Language Processing
Tác giả: Pratip Samanta, Bidyut B. Chaudhuri
Năm: 2013
17. Ritika Mishra, Navjot Kaur. (2013), “A Survey of Spelling Error Detection and Correction Techniques”, International Journal of Computer Trends and Technology, pp. 372-374 Sách, tạp chí
Tiêu đề: A Survey of Spelling Error Detection and Correction Techniques”, "International Journal of Computer Trends and Technology
Tác giả: Ritika Mishra, Navjot Kaur
Năm: 2013
19. Smith, R. (2007), An Overview of the Tesseract OCR Engine, In proceedings of Document analysis and Recognition. IEEE Ninth International Conference Sách, tạp chí
Tiêu đề: An Overview of the Tesseract OCR Engine
Tác giả: Smith, R
Năm: 2007
20. Suzan Verberne. (2002), Context-sensitive spellchecking based on word trigram probabilities, Master thesis Taal, Spraak & Informatica University of Nijmegen Sách, tạp chí
Tiêu đề: Context-sensitive spellchecking based on word trigram probabilities
Tác giả: Suzan Verberne
Năm: 2002
21. Youssef Bassil, Mohammad Alwani. (2012), “Context- sensitive Spelling Correction Using Google Web 1T 5-Gram Information”, Computer and Information Science, Vol. 5, No.3, May 2012, pp. 37-48 Sách, tạp chí
Tiêu đề: Context-sensitive Spelling Correction Using Google Web 1T 5-Gram Information”, "Computer and Information Science
Tác giả: Youssef Bassil, Mohammad Alwani
Năm: 2012

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w