Xây dựng chức năng tra cứu thông tin văn bản dựa trên web ngữ nghĩa của hệ thống tic office

89 0 0
Xây dựng chức năng tra cứu thông tin văn bản dựa trên web ngữ nghĩa của hệ thống tic office

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 LỜICAMĐ O A N Tôixincamđoan: Nhữngnội dungtrong luận vănnày thực hướng dẫn trựctiếpcủaThầyP G S TSĐ ỗ VănN h n Mọi thamkhảotrong luận vănđều trích dẫnrõ ràng tên tác giả, tên cơngtrình,thờigiancơngbố Mọi saochép khơnghợplệ, viphạmquychếđàotạotơi xinchịu hoànt o n t r c h nhiệm Tp.H ChíM i n h , ngày1 tháng0 năm2 2 Học viênthựchiệnluậnvăn HàHoàiNam LỜICẢMƠ N Xin cho tơi gửi lịng biết ơn đến ThầyP G S T S Đ ỗ V ă n N h n – n g i hướng dẫn luận văn cho Trong suốt thời gian thực luận văn, Thầy tậntình hướng dẫn có nhữngl i k h u y ê n , n h ữ n g đ ó n g g ó p r ấ t q u ý b u , g i ú p c h o t ô i địnhhướngv h o n thànhc c mụctiêuđềra Tôi xin chân thành tỏ lịng biết ơn đến q Thầy, Cơ tận tình giảng dạy chotôi suốt nămhọc quatrong chươngt r ì n h đàotạo Thạcsĩ H ệ t h ố n g t h ô n g tin,KhoaSauĐạiH ọ c , HọcViệnBưuChínhV i ễ n ThơngT h n h P h ố HồChíM i n h Chotơi gửil ò n g biết ơn trân trọng nhữngngườilãnhđạo đến q u a n , đãtạođiềukiệnthuậnlợiđểtôicôngtácvàhọctập Xin cảm ơn tất bạn bè động viên,g i ú p đ ỡ v đ ó n g g ó p c h o t ô i n h i ề u ý kiếnquýb u , quađ ó giúpchúngt ô i hoànthiệnhơnchođềtàinày Và cuối cùng, không quên gửi lời cảm ơn đến tác giả báo cáonghiênc ứ u khoahọcmàtơiđãthamk h ảo v t ì m hiểuchođềtài Luận vănđ ã h o n t h n h v i m ộ t s ố k ế t q u ả n h ấ t đ ị n h t u y n h i ê n v ẫ n k h ô n g tránh khỏi thiếu sót Kínhm o n g s ự c ả m t h ô n g v đ ó n g g ó p ý k i ế n t q u ý t h ầ y c ô v cácbạn Mộtlầnnữatôixinchânthànhc ả m ơn! Tp.H ChíM i n h , ngày1 tháng0 năm2 2 Họcv iênthựchiệnluậnvăn HàHoàiNam MỤCLỤC LỜICAMĐOAN .i LỜICẢMƠN ii MỤCLỤC iii DANHMỤCCÁCKÝHIỆUVÀCHỮV I Ế T TẮT vi DANHSÁCHCÁCBẢNG vii DANHSÁCHCÁCHÌNHVẼ viii MỞĐẦU CHƯƠNG1:TỔNGQUANVỀĐỀTÀI 1.1 Giớithiệutổngquanvềv ấ n đềnghiêncứu .3 1.1.1 Nhucầuvàthựctrạngtìmkiếmhiệnnay 1.1.2 Khảosáthệthốngtìmkiếmv ăn 1.2 Mụctiêuđềtài 1.3 Đốitượngvàphạmvinghiêncứu 1.3.1 Đốitượngnghiêncứu 1.3.2 Phạmvinghiêncứu 1.4 Phươngphápnghiêncứu 1.4.1 Giảthuyếtnghiêncứu .7 1.4.2 Phươngphápnghiêncứu 1.5 Ýnghĩakhoahọcvàthựctiễncủađềtài .8 1.5.1 Ýnghĩakhoahọc .8 1.5.2 Ýnghĩathựctiễn 1.6 Nộidungthựchiện CHƯƠNG2:CƠSỞLÝTHUYẾT 10 2.1 Vấnđềtruytìmt h ô n g tin 10 2.1.1 Cấutrúccủ a mộth ệ th ốn g truytìmt h n g tin .10 2.1.2 Cácp h n g pháptruyhồithôngtin 11 2.1.3 Đánhgiámộthệthốngtìmk i ếm t hơ ng tin 17 2.2 Ontology .18 2.2.1 Địnhn g h ĩ a 18 2.2.2 Cáct h n h p h ầ n củao n t o l o g y 19 2.2.3 Phânloạio n t o l o g y 20 2.2.4 VaitròcủaOntology 22 2.2.5 Cácứ n g dụngdựatrênOntology .24 2.2.6 Cách n g tiếpcận x âyd ự ng ontology 25 2.3 MơhìnhKhơnggianVector(VSM) .27 2.3.1 Giớithiệu 27 2.3.2 Mơhìnhkhơng gian Vector .27 CHƯƠNG3 : MƠH Ì N H V À GIẢIPHÁP 29 3.1 Giớithiệu h ệ t h ố n g T i c - O f f i c e .29 3.2 Mơhìnhontologychon g ữ n g h ĩ a củacâutruyvấn 30 3.3 Côngcụhỗtrợxử lýtàiliệuv ă n 36 3.3.1 Phươngphápnhậndạngv ă n .36 3.3.2 Phươngpháprúttríchnộid u n g thựcthể 40 3.3.3 Mơh ì n h C o n d i t i o n a l R an dom F i e l d (CRFs) 42 3.4 Xâyd ự n g m h ì n h VSMt r o n g tracứutàil i ệ u cósửdụngn g ữ n g h ĩ a c h o câ utruyvấn .43 3.4.1 Sốhóavănbảntheomơhìnhkhơnggianvector 43 3.4.2 Matrậnbiểudiễntậpvănbản 47 3.4.3 KiếntrúcmơhìnhtìmkiếmtàiliệuVSM .50 CHƯƠNG4:CÀIĐẶT,T H Ử NGHIỆM,ĐÁNHGIÁ 51 4.1 Càiđặt 51 4.1.1 Xâydựngmơhìnhdữliệuontology 51 4.1.2 Moduletríchxuấtnộidung củatàiliệusửdụngTesseractOCR 52 4.1.3 Modulerúttríchđặctrưngcủatàiliệu 53 4.1.4 ModuleAPIkếtnốiđếnhệthốngTic-Office 54 4.1.5 Càiđặtphânhệtìmkiếmvănbản 54 4.2 Kếtquảthửnghiệm 57 4.3 Đánhgiá .60 CHƯƠNG5:K Ế T LUẬNVÀHƯỚNGPHÁTTRIỂN 61 5.1 Kếtquảđạtđượccủađềtài 61 5.2 Nhữnghạnchếcủađềtài .62 5.3 Hướngpháttriển 62 TÀILIỆUTHAMKHẢO 64 PHỤLỤC 66 DANHMỤCCÁCKÝHIỆUV À CHỮV I Ế T TẮT Viếttắt Diễngiải CRFs ConditionalR a n d o m F i e l d s NE NamedEntity NER NamedE n t i t y R e c o g n i t i o n VSM VectorSp ace M od el OCR OpticalC h a r a c t e r R e c o g n i t i o n IR InformationR e t r i e v a l CSDL Cơsởdữl i ệ u HTML HyperTextMarkup L a n g u a g e XML ExtensibleMarkupL an g u a g e CK_ONTO ClassedKeyphrasebasedO n t o l o g y MEMM Mơhìnhc ự c đạihóaE ntropy HMM MơhìnhM a r k o v ẩn DANHS Á C H C Á C BẢNG Bảng3.1:Bảngvídụmốiquanhệtươngđương .34 Bảng3.2:Quanhệgiữa cáckeyphrasetrongCK_ONTO 34 Bảng3.3:Bảngcáchàmtínhtrọngsốcụcbộ 44 Bảng3.4:Bảngcáchàmtrọngsốtoàncục 46 Bảng4.1:T hống kêk ết quảtìmkiếmtrênchứcnăngtracứumới 58 Bảng4.2:Thống kêkết quảtìmkiếmtrênchứcnăngtracứucũ 59 DANHSÁCHCÁCHÌNHV Ẽ Hình1.1:Websitec ó l ợ n g t ru y cậpn h i ều n h ất trongtháng12/2020 Hình1.2:Kếtq u ả chứcn ă n g t ì m kiếmtheotừkhóa Hình2.1:Cácp h n g pháptruyhồithơngtin .12 Hình2.2:Mơh ì n h VSM 27 Hình 3.1:Chứcn ă n g quảnlývănbảnđến 29 Hình3.2:Chứcn ă n g quảnlývănbảnđi 30 Hình3.3:Chứcn ă n g tracứuvănbảntheotừkhóa 30 Hình3.4:Khơnggiancáck e y p h r a s e 32 Hình3.5:T ổ chứcx lýnhậndạngv ă n .37 Hình3.6:Phânloạicácthuậtt o n phântíchbốcụcv ậ t l ý 37 Hình3.7:KiếntrúccủaT e s s e r a c t OCR 38 Hình3.8:Sơđồhuấnluyệndữliệunhậndạng 39 Hình3.9:Mơtảquytrìnhxửlýtàiliệuv ă n 40 Hình 3.10:Mơh ì n h xửlývănbản thành thựcthể 41 Hình3.11:Quytrìnhxửlýcâutruyv ấ n củahệthốngVSM 50 Hình4.1:Mơtảcáclớptrongontology 51 Hình4.2:Mơtảthuộctínhcủađốitượng 52 Hình4.3:Mơtảcácthựcthểcómốiq u an hệv i 52 Hình4.4:Chứcn ă n g tra cứunângcaotheon g ữ nghĩa 56 MỞĐẦU Ngày với phát triển internet liệu ngành công nghệthông tin ngày gia tăng Nhu cầu quản lý, chia sẻ, tìm kiếm thơng tin ngànhnàyc ũ n g đ ợ c đ ặ t r a v đ p ứ n g m ộ t p h ầ n n h c c c ô n g c ụ t ì m k i ế m M ộ t s ố c ô n g cụ tìm kiếm tiếng nayn h G o o g l e h a y Y a h o o đ ề u c ó t h ể c h o p h é p n g i dùng tìm kiếm liệu có liên quan cách nhập từ khóa tìm tài liệu cóchứa từ khóa Với phươngp h p t ì m vậythì kết tìm kiếm c h ẳ n g liên quang ì đ ế n c i m n g i d ù n g m u ố n t ì m , v ì c c c ô n g c ụ t ì m k i ế m n y k h ô n g hiểu ý nghĩamà ngườid ù n g c ầ n t ì m N h v ậ y c c c ô n g c ụ t ì m k i ế m t h ô n g t i n từ khóa khơng trả lời câu hỏi tìm ẩn mà người dùng muốn tìm kiếm hệthống Các hệ thống tìm kiếm phần lớn dựa từ khóa mức độ phổ biếncủa tài liệu Một danh sách từ khóa dạng biểu diễn sơ lược nội dung,nghĩa tài liệu biểu diễn tập từ hay cụm từ rút trích từ chínhnội dungc ủ a tài liệu đó, cách biểu diễn n y m a n g m ứ c đ ộ t h ô n g t i n c ị n t h ấ p Do hệ thống tìm kiếm có kết trả khơng phải lúc thỏa mãn ucầu tìm kiếm ngườis dụng,nhưlà độ xác khơngcao kết trả v ề quánhiều mà tỷ lệ số tài liệu hữu ích tổng số tài liệu trả t h ấ p , h o ặ c c ó t h ể khơng tìm thấy nhữngt i l i ệ u l i ê n q u a n k h i c h ú n g đ ợ c m ô t ả v i n h ữ n g t khóa khác đồng nghĩa gần nghĩav i t k h ó a mà người khókhăncho dùngtìm kiếm ngườis (độ b a o phủkhơngcao) gâyra khơngít dụngtrong việctìm k i ế m chínhxácthơngtinmìnhcần Như làm để việc tìm kiếm người sử dụng có hiệu Đểgiải vấn đề cần phải xây dựng hệ thống cho phép tra cứu, tìm kiếmtài liệu theo đa dạnghơn khôngc h ỉ h ỗ t r ợ t ì m k i ế m d ự a t r ê n t k h ó a m c ị n h ỗ t r ợ tìm kiếm dựa tri thức lĩnh vực hay theo ngữ nghĩa,trả tập tài liệu kết quảđúngnhấtv i ý địnhcủangườid ù n g Ứng dụng cài đặt, thử nghiệm Hệ thống quản lý văn TicOfficecủaHộinôngd â n t ỉ n h Tâyn i n h K ế t quảt h ự c n g h i ệ m b c đ ầ u chothấyg iảip h p đãđềxuấtl khảq u a n v c ó khản ă n g ứ n g dụngt ố t Nộidungc ủ a luậnvănđ ợ c trìnhbàytrong5chương,b a o gồm: Chương 1: Giới thiệu khảo sát hệ thống tìm kiếm thơng tin, phân tíchđánh giá thực trạng, trình bày mục tiêu, giới hạn đề tài, ý nghĩa l ý l u ậ n v t h ự c tiễn, phươngp h p n g h i ê n cứu, hướng tiếp cận giải q u y ế t v ấ n đ ề v n ộ i d u n g t h ự c hiệncủađềtài Chương 2: Trình bày sở lý thuyết đề tài liên quan đến vấn đề truy hồithông tin bao mô tả cấu trúc, phương pháp truy hồi thông tin đánh giá hệ thốngtruy hồi thông tin Các lý thuyết tảng vềm hình khơnggianvector O n t o l o g y cùngvớic c phươngp h p x â y dựngm hìnhdữliệu Chương3: Mơ hình giải pháp: Chươngn y đ ề x u ấ t c c m h ì n h gồm m ộ t mơhìnhontology mơtảtrithứcvềmột lĩnhvựcđặcbiệt trongđósửdụngk e y p h r a s e thành phần để hình thành khái niệm ontology; Các kỹ thuật xử lý tàiliệu văn bản; Xây dựng mơ hình VSM tra cứu tài liệu có sử dụng ngữ nghĩa chocâutruyvấn Chương 4: Cài đặt thử nghiệm đánh giá: Thiết kế mơ hình liệu ontologyhỗ trợ xửl ý c â u t r u y v ấ n ; X â y d ự n g c h ứ c n ă n g t r a c ứ u nângcao cho hệ thống q u ả n lývănb ả n T i c - O f f i c e Tiếnh n h t h ự c nghiệm,s o sánhvàđ n h giákếtquả Chương5: Kết luận vàh n g p h t t r i ể n : T ổ n g k ế t n h ữ n g k ế t đạt trongtươnglai đ ợ c củaluậnv ă n , n h ữ n g h n chếvàh n g p h t t r i ể n củađềtài

Ngày đăng: 27/10/2023, 09:24

Tài liệu cùng người dùng

Tài liệu liên quan