Luận văn, khóa luận, chuyên đề, tiểu luận, quản trị, khoa học, tự nhiên, kinh tế
1 LI CM N u tiên, chúng em xin gi li cm n n Thy, Cô khoa Công ngh Thông tin trng i hc Khoa hc T nhiên ã tn tình dy d, dìu dt chúng em sut bn nm i hc. Chúng em cm n Cô Phm Th Bch Hu, ngi tn tình hng dn, giúp , ng viên chúng em hoàn thành lun vn này. Cui cùng, chúng con cm n Ba, M và nhng ngi thân ã khích l, h tr, ng viên chúng con trong thi gian hc tp, nghiên cu có c thành qu nh ngày nay. Tháng 7 nm 2005 Sinh viên Phm Th M Phng – T Th Ngc Thanh 2 NHN XÉT CA GIÁO VIÊN HNG DN …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ………………………………………………………………………………… …………………………………………………………………………………… Ngày…… tháng……nm 2005 Ký tên tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc 0112274 – Phm Th M Phng - 3 - 0112398 – T Th Ngc Thanh NHN XÉT CA GIÁO VIÊN PHN BIN …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………….……………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………… Ngày…… tháng……nm 2005 Ký tên tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc 0112274 – Phm Th M Phng - 4 - 0112398 – T Th Ngc Thanh MC LC M U .10 Chng 1 : TNG QUAN .11 1.1. "t v#n 11 1.2. Bài toán gii quyt . 13 1.3. Hng tip cn . 14 Chng 2 : C S LÝ THUYT 17 2.1. Chin lc tìm kim thông tin c$a các b tìm kim (Search Engine) . 17 2.1.1. Mt s search engine thông d!ng: . 17 2.1.2. Chin lc tìm kim 32 Nguyên lý hot ng 34 2.2. Semantic Web 34 2.2.1. Khái nim . 34 2.2.2. Kin trúc 36 2.2.3. Các thách thc "t ra cho Semantic web . 37 2.2.4. So sánh web và web ng ngh a 41 2.2.5. Các khái nim liên quan . 42 2.2.6. Ontology 44 2.2.7. Rdf . 46 2.3. eDoc . 55 2.3.1. Tìm hiu eLearning 55 2.3.2. Tìm hiu eLib . 61 2.3.3. Tìm hiu eDoc . 68 2.4. Mt s v#n trong x% lí ngôn ng t nhiên: . 71 2.4.1. V#n trong vic x% lí vn bn: 72 2.4.2. V#n x% lí ng ngh a: . 72 2.4.3. Phân loi vn bn (Text Classification) . 82 Chng 3 : MÔ HÌNH VÀ GII THUT 84 3.1. Công ngh tìm kim ng ngh a trên th gii hin nay: . 84 3.2. Các bc xây dng mt ng d!ng semantic search engine: 91 3.3.1. Xây dng kin trúc Web ng ngh a: 92 3.3.2. Lp ch& m!c ng ngh a tim tàng: . 93 3.3. Mô hình ngh cho ng d!ng tìm kim ng ngh a trên l nh vc eDoc . 96 3.4. Các gii thut s% d!ng . 100 3.4.1. Gii thut x% lý tài liu: . 100 3.4.2. Gii thut rút trích siêu d liu: . 102 3.4.3. Gii thut phân loi l nh vc cho tài liu: 104 3.4.4. Gii thut x% lí câu truy v#n: . 104 Chng 4 : CHNG TRÌNH NG DNG 105 4.1. Gii thiu chng trình ng d!ng: 105 4.2. Kin trúc c$a ng d!ng: . 105 4.3. Mô t phm vi ng d!ng 107 4.3.1. Mô t bài toán: . 107 tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc 0112274 – Phm Th M Phng - 5 - 0112398 – T Th Ngc Thanh 4.3.2. Xác nh yêu cu: 107 4.4. Xây dng ng d!ng: 108 4.4.1. Thit k d liu: . 108 4.4.2. Thit k x% lý: 110 4.5. Kt qu chng trình . 112 4.6. Thc nghim chng trình 114 Chng 5 : KT LUN 118 5.1. ánh giá kt qu nghiên cu . 118 5.1.1. 'u im . 118 5.1.2. Khuyt im: 119 5.2. Hng phát trin 119 TÀI LIU THAM KHO .120 I. Lun vn, lun án: 120 II. Sách, eBooks: . 120 III. Website: . 122 PH LC 124 1. Cú pháp RDF: 124 2. RDF Gateway: . 129 2.1. Kin trúc c$a RDF Gateway: . 130 2.2. Tính nng (Features) 132 3. H thng nhãn ng ngh a: 138 3.1. Nhãn ng ngh a c bn cho danh t: . 139 3.2. Nhãn ng ngh a c bn cho ng t: . 141 3.3. Nhãn ng ngh a c bn cho tính t: . 142 3.4. H thng nhãn ng ngh a LDOCE 142 4. H c s tri thc ng ngh a t vng WordNet 144 4.1. H thng nhãn ng ngh a c$a danh t: 144 4.2. H thng nhãn ng ngh a c$a ng t: 149 tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc 0112274 – Phm Th M Phng - 6 - 0112398 – T Th Ngc Thanh DANH MC CÁC BNG Bng 1 : Bng hng dn nhanh v cách s dng mt s search engine ph bin . 28 Bng 2: S lc v các c trng c a mt s search engine thông dng trên Internet 32 Bng 3 : Các lp trong RDF 54 Bng 4:Các thuc tính c a RDF . 55 Bng 5: Danh sách các ngh!a và ràng buc c a các t" th#c trong câu . 77 Bng 6 Mô t c s$ d% li&u cho 'ng dng 110 Bng 7 Các module c a chng trình 110 Bng 8 Module eDocSearch 111 Bng 9 Module eDocSearch 111 Bng 10 Các câu truy v(n th nghi&m . 115 Bng 11 Thng kê l!nh v#c khoa h)c máy tính . 116 Bng 12 Thng kê l!nh v#c ngh& thu*t. . 116 Bng 13: Nhãn ng% ngh!a c bn cho danh t" 140 Bng 14: Nhãn ng% ngh!a c bn cho ng t" 142 Bng 15 : Nhãn ng% ngh!a c bn cho tính t" . 142 Bng 16: H& thng nhãn ng% ngh!a LDOCE 144 Bng 17:S# phân lp danh t" trong WordNet 148 tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc 0112274 – Phm Th M Phng - 7 - 0112398 – T Th Ngc Thanh DANH MC CÁC HÌNH Hình 1: Giao di&n c a Google . 18 Hình 2: Giao di&n c a Yahoo 19 Hình 3: Giao di&n c a Ask Jeeves 20 Hình 4: Giao di&n c a AllTheWeb . 21 Hình 5: Giao di&n c a Teoma . 22 Hình 6: Giao di&n HotBot . 23 Hình 7: Giao di&n c a Altavista 24 Hình 8: Giao di&n c a Lycos . 25 Hình 9: Kin trúc t+ng c a Semantic web . 36 Hình 10: Mt Ontology n gin . 46 Hình 11: Mô hình d% li&u RDF . 51 Hình 12 : Tiêu chu,n ánh giá tính bo m*t c a eDoc 71 Hình 13 Các quan h& cú pháp và ràng buc ng% ngh!a . 76 Hình 14 Cây quyt -nh trong vi&c ch)n ngh!a phù hp. 78 Hình 15: Dòng c s$ tìm kim Web . 91 Hình 16: Mô hình ngh- cho 'ng dng tìm kim ng% ngh!a trên l!nh v#c eDoc 97 Hình 17: Qui trình x lý c a t+ng search engine 99 Hình 18: Gii thu*t x lý tài li&u: 100 Hình 19: Gii thu*t rút trích siêu d% li&u 103 Hình 20: S . d% li&u quan h& c a 'ng dng 108 Hình 21: Giao di&n chính c a 'ng dng 112 Hình 22: Giao di&n kt qu tìm kim c a 'ng dng . 113 Hình 23: Giao di&n qun lí tài nguyên . 113 Hình 24: Kin trúc c a RDF Gateway . 130 Hình 25: Giao di&n c a RQF Query Analyzer 136 tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc 0112274 – Phm Th M Phng - 8 - 0112398 – T Th Ngc Thanh DANH MC CÁC T/ VIT T0T eDoc Electronic document eLib Electronic library eLearning Electronic learning www World Wide Web URI Uniform Resource Identifier URL Uniform Resource Locator HTTP Hypertext Transfer Protocol RDF Resources Descriprion Framework OIL Ontology Inference Language OWL Ontology Web Language XML eXtensible Markup Language tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc 0112274 – Phm Th M Phng - 9 - 0112398 – T Th Ngc Thanh DANH MC CÁC THUT NG1 Class Lp Property Thuc tính Metadata Siêu d liu Subject Ch$ , ch$ ng Title Tiêu Namespace Không gian tên Predicate V ng Triple B ba (subject, predicate, object) tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc 0112274 – Phm Th M Phng - 10 - 0112398 – T Th Ngc Thanh M( )U Hin nay, hu ht các h thng tìm kim trên Internet u i theo hng truyn thng ó là tìm kim theo t khoá ( key word ). Theo cách tìm kim này, khi ta gõ vào t cn tìm, các h thng tìm kim s* hin th các tài liu mà trong nó có cha t khoá cn tìm. Do ó, kt qu tr ra là mt danh sách r#t nhiu các tài liu, mà có th các tài liu này không liên quan gì n ni dung ta cn tìm. Và ôi khi các h thng này không a ra ht các tài liu cn thit, tc là tha tài liu không cn thit nhng li thiu h+n nhng tài liu quan trng khác. V#n "t ra là ta phi xây dng mt h thng tìm kim nh th nào khc ph!c hin trng nêu trên ? gii quyt v#n này, ta cn xây dng h thng tìm kim sao cho áp ng y $ thông tin mà ngi dùng mong mun, ngh a là phi xây dng h thng tìm kim theo ng ngh a da trên thông tin ngi dùng a vào. T nhn thc trên chúng em quyt nh chn tài: Tìm kim ng% ngh!a 'ng dng trên l!nh v#c eDoc (nhng tài liu in t% ting Anh) vi m!c ích tìm hiu và xây dng mt công c! tìm kim theo ng ngh a có th tìm kim thông tin chính xác và y $, có th hn ch c phn nào v#n tìm kim theo t khoá c$a các search engine hin ti. Các i tng nghiên cu liên quan n tài: eDoc, Semantic Web, RDF, OWL, Metadata,…. Trong phm vi tài, vì thi gian thc hin ngn, nên chúng em ch& th% nghim chng trình tìm kim trong mt s l nh vc: Khoa hc máy tính (Computer Science), Ngh thut (Art). Hai l nh vc này có v, nh không liên h vi nhau nhng thc t vn có nhng trng hp cn phi phân bit, ví d! nh tài liu v “ngh thut lp trình” (“Art of programming”) thì phi phân tài liu v l nh vc khoa hc máy tính ch không phi ngh thut …. Tóm li, ng d!ng mà chúng em xây dng ch& tìm kim thông tin trong các l nh vc nêu trên. Tuy nhiên, ng d!ng có th d- dàng m rng ra nhiu l nh vc còn li. . trên Internet u i theo hng truyn thng ó là tìm kim theo t khoá ( key word ). Theo cách tìm kim này, khi ta gõ vào t cn tìm, các h thng tìm. thng tìm kim theo ng ngh a da trên thông tin ngi dùng a vào. T nhn thc trên chúng em quyt nh chn tài: Tìm kim ng% ngh!a 'ng dng trên