TÌM HIỂU PHƯƠNG PHÁP học sâu CHO bài TOÁN PHÁT HIỆN đối TƯỢNG TRONG tài LIỆU DẠNG ẢNH

30 24 0
TÌM HIỂU PHƯƠNG PHÁP học sâu CHO bài TOÁN PHÁT HIỆN đối TƯỢNG TRONG tài LIỆU DẠNG ẢNH

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM - o0o - BÁO CÁO ĐỒ ÁN Đề tài: TÌM HIỂU PHƯƠNG PHÁP HỌC SÂU CHO BÀI TOÁN PHÁT HIỆN ĐỐI TƯỢNG TRONG TÀI LIỆU DẠNG ẢNH Giảng viên hướng dẫn: Ths.Nguyễn Thị Thanh Trúc Lớp: SE121.L21.PMCL Nhóm sinh viên thực hiện: Nguyễn Kỷ Nguyên – 17520825 Nguyễn Phương Tính – 17521136 TP.HCM, 31/12/2019 i LÕI CÉM ÃN ¶u tiên, chúng em xin chân thành c£m ẽn cụ Trỳc khoa Cụng nghê phản mm ó tn tình gi£ng d§y cÙng nh˜ truy∑n §t nh˙ng ki∏n th˘c qu giỏ cho chỳng em v tĐo iu kiên em thác hiên ỏn ny Chỳng em cng xin c£m Ïn anh khóa trên, b§n bè, gia ình ã ln Ỵng viên, quan tâm giúp Ơ chúng em suËt thÌi gian qua M∞c dù ã cË g≠ng h∏t s˘c ∫ hồn thành nh˜ng cÙng khơng th∫ trỏnh cỏc sai sút, ròt mong nhn ềc sá gúp qu giỏ ca Thảy Cụ v cỏc bĐn Xin chân thành c£m Ïn ii Mˆc lˆc TÍng quan 1.1 GiĨi thiªu ∑ tài 1.1.1 TÍng quan 1.1.2 GiĨi thiªu tốn 1.2 MỴt sË thách th˘c 1.3 Mˆc tiêu, ph˜Ïng phỏp thác hiên, úng gúp 1.3.1 Mˆc tiêu 1.3.2 óng góp Cßu trúc Á án 1.4 CÏ s l˛ thuy∏t 10 2.1 Ph˜Ïng pháp M2Det 10 2.2 Ph˜Ïng pháp Faster RCNN 12 Bẻ d liêu 15 3.1 Cỏc bẻ d liêu liờn quan 15 3.1.1 Dataset ICDAR2019 15 3.1.2 Annotation ICDAR2019 16 3.1.3 Dataset TableBank 18 3.1.4 Annotation 19 3.1.5 Th˜ mˆc "images" TableBank 21 iii K∏t lu™n 22 4.1 Nh˙ng k∏t qu£ §t ˜Ịc 22 4.2 Khó kh´n 22 4.3 H˜Óng phát tri∫n 23 Bibliography 24 iv Danh sách hình v≥ 1.1 Mơ t£ tốn POD 1.2 Mơ t£ tài liªu modern 1.3 Mơ t£ tài liªu historical 1.4 MỴt sË ví dˆ v∑ tài liªu historical 1.5 MỴt sË ví dˆ v∑ tài liªu historical 1.6 MỴt sË ví dˆ v∑ tài liªu historical 1.7 MỴt sË ví dˆ v∑ tài liªu modern 1.8 MỴt sË ví dˆ v∑ tài liªu modern 1.9 Mẻt sậ vớ d v ti liêu modern 2.1 Chi tit còu trỳc mẻt sậ module 11 2.2 Minh hÂa SFAM 12 2.3 TÍng quan v∑ ph˜Ïng pháp M2Det 12 2.4 TÍng quan v∑ ph˜Ïng pháp Faster RCNN 14 3.1 TÍng quan v∑ bẻ d liêu TableBank 19 v Danh mˆc t¯ vi∏t t≠t MLFPN FPN NMS FFM TUM SFAM M2Det RCNN Multi-Level Feature Pyramid Network Feature Pyramid Network Non-Maximum Suppression Feature Fusion Module Thinned U-shape Module Scale-wise Feature Aggregation Module Multi-Level Multi-Scale Detector Region-based Convolutional Neural Networks Trong Á án chúng tơi t™p trung nghiên c˘u tốn phát hiªn Ëi tềng ti liêu dĐng Ênh Mc tiờu ca án tìm hi∫u ph˜Ïng pháp phát hiªn ậi trềng v mẻt sậ bẻ d liêu phc v cho tốn nói T¯ ó chÂn hai phẽng phỏp nghiờn cu v hai bẻ d liêu liờn quan thác hiên ềc mc tiờu ny, chỳng tơi s˚ dˆng Ëi t˜Ịng b£ng bỴ d liêu ICDAR2019 v bẻ d liêu TableBank Phẽng phỏp chÂn pháp M2Det Faster RCNN ∫ phát hiªn b£ng  ây ph˜Ïng Ch˜Ïng TÍng quan 1.1 1.1.1 GiĨi thiªu ∑ tài TÍng quan Trong thèi Đi cụng nghê ngy mẻt phỏt trin nh hiên nay, cỏc ti liêu iên t ang dản dản thay th ti liêu băng giòy nhè vo khÊ nng lu tr˙ thi∏t b‡ iªn t˚ Có khơng tÍ ch˘c ã sË hóa d˙ liªu bao gÁm sách, báo, hÁ sÏ, b£n th£o cÙ, Các tài liªu iªn t˚ có nhi∑u ˜u i∫m hÏn so vĨi tài liêu giòy chẩ chỳng ta cú th chia sƠ, chép, truy vßn, tìm ki∏m, nhanh hÏn hiªu qu£ hÏn Document Image Understanding (DIU) nhiªm vˆ tìm trình bày nỴi dung  m˘c cao cıa ti liêu dĐng Ênh bao gm nhiu giai oĐn, ch yu băng page segmentation, block classification v mẻt sậ thao tác x˚ l˛ v´n b£n, hình £nh, cơng th˘c, b£ng, Hai giai oĐn ảu giỳp ta tỡm ậi tềng "cú nghổa" ti liêu dĐng Ênh Quỏ trỡnh ny cú giỏ tr mẻt loĐt cỏc ng dng phõn tớch ti liêu dĐng Ênh õy l lổnh vác nghiên c˘u thú v‡ vĨi nhi∑u thách th˘c Lỉnh v¸c ngày ˜Ịc ˛ khơng chø t¯ cẻng ng phõn tớch v nhn dĐng ti liêu dĐng £nh mà cịn t¯ cỴng Áng cÏ s d˙ liªu khai thác thơng tin Ch˜Ïng TÍng quan 1.1.2 GiĨi thiªu tốn Page Object Detection (POD) tốn khơng ph£i q mĨi, ˜Ịc phát biu lản ảu cuẻc thi ICDAR 2017 POD D liêu ảu vo ca bi toỏn l mẻt ti liêu dĐng Ênh, ảu ca bi toỏn l v trí Ëi t˜Ịng (n∏u có) £nh Tài liªu l cỏc bi bỏo khoa hc băng ting anh, ậi t˜Ịng formulas (cơng th˘c), tables (b£ng), figures (hình £nh, Á th‡ bi∫u Á) HÌNH 1.1: Mơ t£ tốn POD Ëi vĨi Á án này, chúng tơi tỡm hiu v bẻ d liêu ICDAR2019 bao gm cỏc ti liêu modern v cỏc ti liêu historical; bờn cĐnh ú chỳng tụi cng tỡm hiu v bẻ d liêu TableBank bao gm cỏc ti liêu dĐng pdf v word Ëi t˜Ịng mà chúng tơi h˜Ĩng ∏n  Á án chuyên ngành b£ng (table) Ch˜Ïng TÍng quan HÌNH 1.2: Mơ t£ tài liªu modern HÌNH 1.3: Mơ t£ tài liªu historical Ch˜Ïng TÍng quan 1.2 Mẻt sậ thỏch thc ã Bẻ d liêu ICDAR2019 l mẻt bẻ d liêu mểi ậi tềng cú sá a dĐng v hỡnh dỏng v kớch thểc Ti liêu ềc phõn hai loĐi: ti liêu historical v ti liêu modern ã ậi vểi ti liêu historical, mang ∞c i∫m cıa v´n b£n vi∏t tay, ô th˜Ìng chÁng chéo vĨi nhau, ranh giĨi khơng rõ rng l nhng thỏch thc lển nhòt HèNH 1.4: Mẻt sậ vớ d v ti liêu historical ã ậi vểi ti liêu modern, bao úng ca nẻi dung mụ tÊ vựng ca mẻt ụ, cú nh dĐng mẻt hoc hai cẻt Cỏc bÊng trỡnh by vểi hỡnh dĐng phong phỳ, 10 Ch˜Ïng CÏ s l˛ thuy∏t 2.1 Ph˜Ïng pháp M2Det M2Det vi∏t t≠t cıa Multi-Level Multi-Scale Detector Ph˜Ïng pháp ˜Ịc ∑ xt vào tháng n´m 2019, s˚ dˆng Multi-Level Feature Pyramid Network (MLFPN) backbone ∫ rút trích ∞c tr˜ng t¯ £nh ¶u vào Sau ó, tẽng tá vểi SSD[1] xuòt bounding box v tớnh tốn i∫m, sau ó k∏t qu£ ci ˜Ịc ˜a sau dùng non-maximum suppression (NMS) Hình 2.3 mơ t£ tÍng quan ph˜Ïng pháp M2Det Ëi vĨi MLFPN ˜Ịc chia thành ba module: • Feature Fusion Module (FFM): õy l mẻt phản quan trng xõy dáng multi-level feature pyramid Băng cỏch dựng lểp chp 1x1 nộn kênh cıa ∞c tr˜ng ¶u vào, dùng thao tác nËi (concat) ∫ tÍng hỊp b£n Á ∞c tr˜ng (feature map) HÏn n˙a FFMv1 lßy hai b£n Á ∞c tr˜ng vĨi t lª khác backbone lm ảu vo nờn phÊi ỏp dng mẻt thao tác upsample ∫ ∞c tr˜ng v∑ mỴt t lê trểc nậi Trong ú, FFMv2 lòy ∞c tr˜ng cÏ b£n (base feature) b£n Á ∞c trng ảu lển nhòt ca TUM trểc ú Chi tit còu trỳc ca FFMv1 v FFMv2 ềc th hiên  hình 2.1 Ch˜Ïng CÏ s l˛ thuy∏t 11 ã Thinned U-shape Module (TUM): p dng còu trỳc Thinner U-shape nh˜ minh hÂa hình 2.1 BỴ mã hóa mỴt chi lĨp ch™p 3x3 vĨi b˜Ĩc tr˜Ịt (stride) Bẻ giÊi mó lòy ảu ca lểp làm b£n Á ∞c tr˜ng ∫ tham chi∏u tÓi Ngồi thêm lĨp ch™p 1x1 sau upsample v tớnh tng cỏc phản t (element-wise sum) tĐi nhỏnh gi£i mã ∫ t´ng c˜Ìng kh£ n´ng hÂc h‰i gi ẻ mềt cho cỏc c trng ảu cỏc TUM x∏p chÁng t§o thành ∞c tr˜ng multi-level multi-scale vĨi ∞c tr˜ng  m˘c nơng (shallow level) ˜Ịc cung cßp bi TUM phía tr˜Ĩc, ∞c tr˜ng  m˘c trung bình (medium level) ˜Ịc cung cßp bi TUM  gi˙a ∞c tr˜ng  m˘c sâu (deep level) ˜Ịc cung cßp bi TUM phía sau HÌNH 2.1: Chi tit còu trỳc mẻt sậ module ã Scale-wise Feature Aggregation Module (SFAM): tÍng hỊp ∞c tr˜ng multi-level multi-scale ềc tĐo bi TUM thnh mẻt multi-level feature pyramid Q trình chia thành hai giai o§n Giai oĐn ảu tiờn l ghộp cỏc c trng cú t lê tẽng ẽng dc theo kớch thểc kờnh Giai oĐn sau Ch˜Ïng CÏ s l˛ thuy∏t 12 s˚ dˆng SE attention ∫ tÍng hỊp ∞c tr˜ng Chi ti∏t ˜Ịc mơ t£ hình 2.2 HÌNH 2.2: Minh hÂa SFAM HÌNH 2.3: TÍng quan v∑ ph˜Ïng pháp M2Det 2.2 Ph˜Ïng pháp Faster RCNN Faster R-CNN (Faster Region Based Convolutional Neural Networks) ph˜Ïng pháp gi£i quy∏t toán phát hiªn Ëi t˜Ịng £nh Faster R-CNN ˜Ịc c£i ti∏n t Fast R-CNN băng cỏch b sung Region Proposal Network (RPN) vào Fast R-CNN Faster R-CNN ã ˜Òc s˚ dˆng phỏt hiên nhiu loĐi ậi tềng khỏc nh ngèi, phẽng tiên giao thụng, ẻng vt, v cú th∫ s˚ dˆng cho tốn phát hiªn b£ng vĨi ẻ chớnh xỏc Đt n 98% trờn bẻ d liêu TableBank vÓi Ch˜Ïng CÏ s l˛ thuy∏t 13 backbone l ResNeXt101 Faster R-CNN cú ảu vo l mẻt Ênh, ảu l hẻp giểi hĐn ca cỏc ậi tềng Ênh v lểp ca ậi tềng Ban ảu, mẻt mĐng Convolutional Neural Network (CNN) cú nhiêm v phõn loĐi hỡnh Ênh ềc o tĐo trểc Bểc ảu ca quỏ trình phân lĨp ˜a £nh ã có vùng xuòt qua mẻt mĐng CNN thu ềc Convolutional Feature Map Region Proposal Network t¯ conv feature map ˜Òc tĐo băng cỏch thờm mẻt Fully Convolutional Network trờn ønh cıa Convolutional Feature Map Region Proposal Network (RPN) có ảu vo l mẻt Ênh cú kớch thểc bòt k v ảu l cỏc vựng xuòt cú cha cỏc ậi tềng RPN hoĐt ẻng băng cỏch s dng mẻt ca s trềt trờn cỏc feature map, tĐi mẩi v trớ s tĐo nhiu vựng xuòt khỏc CuËi cùng, RPN s≥ cho vùng ∑ xuòt m ềc dá oỏn l cú cha ậi tềng ó, vùng ∑ xt s≥ ˜Ịc s˚ dˆng ∫ d¸ ốn Ëi t˜Ịng ch˘a bên Ch˜Ïng CÏ s l˛ thuy∏t HÌNH 2.4: TÍng quan v∑ ph˜Ïng pháp Faster RCNN 14 15 Ch˜Ïng Bẻ d liêu 3.1 3.1.1 Cỏc bẻ d liêu liờn quan Dataset ICDAR2019 Bẻ d liêu ICDAR 2019 cú tÍng cỴng 2639 £nh MÈi £nh có mỴt file XML i kốm nhăm lu tr còu trỳc ca cỏc bÊng mẻt hỡnh C th nh sau: ã Training: TRACK A: 1200 £nh gÁm 600 £nh lo§i historical 600 £nh lo§i modern – TRACK B1: 600 £nh lo§i historical – TRACK B2: 600 ground truth giËng vÓi ground truth ca 600 Ênh loĐi historical ca TRACK B1 ã Test: – TRACK A: 439 £nh gÁm 199 £nh lo§i historical 240 £nh lo§i modern – TRACK B1: 150 £nh lo§i historical – TRACK B2: 250 £nh gÁm 150 loĐi historical v 100 Ênh loĐi modern Chẽng Bẻ d liêu 16 Trong bẻ d liêu ny cú TRACK A dùng ∫ phát hiªn b£ng TRACK B dùng ∫ nh™n d§ng b£ng Trong TRACK B chia TRACK B1 cung còp vựng bÊng v TRACK B2 Cỏc mđu t bẻ d liêu moder s bt ảu vểi tin tậ cTDaR_t1 v bẻ d liêu historical s bt ảu vĨi “cTDaR_t0” Hình £nh ˜Ịc l˜u  ‡nh d§ng JPG, mẻt sậ ớt dĐng TIFF v PNG Trong nẻi dung Á án chuyên ngành này, chø s˚ dng bẻ d liêu TRACK A ca bẻ d liêu ICDAR 2019 Chi tit TRACK A nh sau: ã Training: Có 1200 £nh Trong ó: – cTDaR_t1: 600 £nh – cTDaR_t0: 600 £nh • Test: Có 439 £nh ó: – cTDaR_t1: 240 £nh – cTDaR_t0: 199 £nh 3.1.2 Annotation ICDAR2019 ậi vểi annotation, bẻ d liêu ó s dng mẻt annotation tẽng tá t nh dĐng ca cuẻc thi bÊng ICDAR 2013 ú l tĐo mẻt têp XML nhßt ∫ l˜u tr˙ cßu trúc cıa bÊng mẻt Ênh Trong mẩi têp XML, mẩi phản t tẽng ng vểi mẻt bÊng, cha mẻt thƠ nhòt cú thuẻc tớnh ta ẻ ca a giỏc giểi hĐn ứnh BÊng cÙng ch˘a danh sách ph¶n t˚ cho mÈi thuẻc tớnh phản t [start-row], [start-col], [end-row] v [end-col] bi∫u th‡ v‡ trí cıa b£ng sË [id] nhòt cho ụ ny Phản t cú phản t biu th ta ẻ ca a giỏc giĨi h§n v´n b£n ụ Chẽng Bẻ d liêu ã 17 ậi vểi TRACK A: Cung còp thụng tin mẻt vựng bÊng tẽng ng vểi mẻt Ênh ảu vo ã ậi vểi TRACK B: Cung còp thụng tin mẻt vùng b£ng cßu trúc cıa b£ng Tuy nhiên, vùng cıa Ëi vĨi t™p d˙ liªu modern bao úng ca nẻi dung, cũn d liêu historical ranh giĨi IndustryA 660 Ch˜Ïng Bẻ d liêu 18 «content>IndustryB 3.1.3 Dataset TableBank Bẻ d liêu TableBank cung còp cụng khai vĨi mong mn s≥ hÈ trỊ ˜Ịc nhi∑u ph˜Ïng pháp hÂc sâu hÏn nhiªm vˆ phát hiªn v nhn dĐng bÊng TableBank ềc cụng bậ tĐi hẻi ngh LREC 2020 Bẻ d liêu cú th ềc tỡm thòy a https://doc- analysis.github.io/tablebank-page/index.html õy l bẻ d liêu mểi, ềc xõy dáng t cỏc ti liêu thuẻc cú nh dĐng Word v Latex thuẻc nhiu lổnh vác khác internet, ch˘a 417 234 b£ng ˜Òc g≠n nhón chòt lềng cao TableBank bao gm tng cẻng 278 582 £nh Chi ti∏t v∑ cßu trúc th˜ mˆc sậ Ênh mẩi phản ềc th hiên bÊng dểi: BÊng bẻ d liêu khụng cú nhiu nh dĐng v bậ cc, m còu trỳc bÊng cng a d§ng vơ cùng, i∑u t§o nhi∑u thách th˘c thỳ v cho bi Chẽng Bẻ d liêu 19 HèNH 3.1: Tng quan v bẻ d liêu TableBank toỏn Khúa lun s dng phản Latex ca bẻ d liêu TableBank tin hnh thác nghiêm 3.1.4 Annotation Tp tin annotation ca bẻ d liêu ềc lu dểi dĐng tin json vĨi ‡nh d§ng giËng vĨi ‡nh d§ng cıa tin json bẻ d liêu COCO nh dĐng t™p tin json gÁm có ph¶n chi tit tng phản nh bờn dểi: Chẽng Bẻ d liêu 20 Chẽng Bẻ d liêu 3.1.5 21 Th mˆc "images" TableBank Th˜ mˆc ‘images’ ch˘a 1492 £nh jpg dựng cho quỏ trỡnh huòn luyên v 1000 Ênh jpg dùng cho trình ki∫m tra 22 Ch˜Ïng K∏t lu™n Trong ch˜Ïng chúng tơi s≥ tÍng hỊp l§i nh˙ng chúng tơi ã làm ˜Ịc Ëi vểi bi toỏn 4.1 Nhng kt quÊ Đt ềc ã Hi∫u v∑ Deep Learning • Bi∏t ˜Ịc ph˜Ïng pháp M2Det v Faster RCNN ã Hiu ềc bẻ d liêu ICDAR2019 v TableBank 4.2 Khú khn ã Kin thc rẻng mòt nhiu thèi gian tỡm hiu ã D liêu ca hai bẻ d liêu ròt lển ã Cỏc phẽng phỏp Deep Learning phc tĐp, yờu cảu tỡm hiu thờm nhiu kin th˘c liên quan Ch˜Ïng K∏t lu™n 4.3 23 H˜Óng phát tri∫n MỴt sË h˜Ĩng phát tri∫n cho Á án: • Tìm hi∫u thêm mỴt sË ph˜Ïng pháp khác • M rỴng Ëi t˜Ịng ngồi b£ng s≥ thêm ậi tềng nh ch, biu , cụng thc ã ChĐy thác nghiêm hai phẽng phỏp ó tỡm hiu trờn mẻt hai bẻ d liêu ó chn 24 Bibliography [1] Dmitry Pestov et al “Single-shot detection of bacterial endospores via coherent Raman spectroscopy” In: Proceedings of the National Academy of Sciences 105.2 (2008), pp 422–427 ... Neural Networks Trong Á án chúng tơi t™p trung nghiên c˘u tốn phát hiªn ậi tềng ti liêu dĐng Ênh Mc tiờu ca Á án tìm hi∫u ph˜Ïng pháp phát hiên ậi trềng v mẻt sậ bẻ d liêu phc vˆ cho tốn nói T¯... phẽng phỏp Deep Learning phc tĐp, yờu c¶u tìm hi∫u thêm nhi∑u ki∏n th˘c liên quan Ch˜Ïng K∏t lu™n 4.3 23 H˜Ĩng phát tri∫n MỴt sË h˜Ĩng phát tri∫n cho Á án: • Tìm hi∫u thêm mẻt sậ phẽng phỏp khỏc ã... phát tri∫n 23 Bibliography 24 iv Danh sách hình v≥ 1.1 Mơ t£ toán POD 1.2 Mơ t£ tài liªu modern 1.3 Mơ t£ tài

Ngày đăng: 05/09/2021, 20:49

Từ khóa liên quan

Mục lục

  • Tổng quan

    • Giới thiệu đề tài

      • Tổng quan

      • Giới thiệu bài toán

      • Một số thách thức

      • Mục tiêu, phương pháp thực hiện, đóng góp

        • Mục tiêu

        • Đóng góp

        • Cấu trúc đồ án 1

        • Cơ sở lý thuyết

          • Phương pháp M2Det

          • Phương pháp Faster RCNN

          • Bộ dữ liệu

            • Các bộ dữ liệu liên quan

              • Dataset ICDAR2019

              • Annotation ICDAR2019

              • Dataset TableBank

              • Annotation

              • Thư mục "images" trong TableBank

              • Kết luận

                • Những kết quả đạt được

                • Khó khăn

                • Hướng phát triển

                • Bibliography

Tài liệu cùng người dùng

Tài liệu liên quan