Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 153 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
153
Dung lượng
2,29 MB
Nội dung
Luận văn
Tìm kiếmngữnghĩa ứng
dụng trênlĩnhvựceDoc
1
LI CM N
u tiên, chúng em xin gi li cm n n Thy, Cô khoa Công ngh Thông tin
trng i hc Khoa hc T nhiên ã tn tình dy d, dìu dt chúng em sut bn nm
i hc.
Chúng em cm n Cô Phm Th Bch Hu, ngi tn tình hng dn, giúp ,
ng viên chúng em hoàn thành lun vn này.
Cui cùng, chúng con cm n Ba, M và nhng ngi thân ã khích l, h tr,
ng viên chúng con trong thi gian hc tp, nghiên cu có c thành qu nh
ngày nay.
Tháng 7 nm 2005
Sinh viên
Phm Th M Phng – T Th Ngc Thanh
2
NHN XÉT CA GIÁO VIÊN HNG DN
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………
……………………………………………………………………………………
Ngày…… tháng……nm 2005
Ký tên
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 3 - 0112398 – T Th Ngc Thanh
NHN XÉT CA GIÁO VIÊN PHN BIN
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………….………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………
Ngày…… tháng……nm 2005
Ký tên
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 4 - 0112398 – T Th Ngc Thanh
MC LC
M U 10
Chng 1 : TNG QUAN 11
1.1. "t v#n 11
1.2. Bài toán gii quyt 13
1.3. Hng tip cn 14
Chng 2 : C S LÝ THUYT 17
2.1. Chin lc tìm kim thông tin c$a các b tìm kim (Search Engine) 17
2.1.1. Mt s search engine thông d!ng: 17
2.1.2. Chin lc tìm kim 32
Nguyên lý hot ng 34
2.2. Semantic Web 34
2.2.1. Khái nim 34
2.2.2. Kin trúc 36
2.2.3. Các thách thc "t ra cho Semantic web 37
2.2.4. So sánh web và web ng ngh a 41
2.2.5. Các khái nim liên quan 42
2.2.6. Ontology 44
2.2.7. Rdf 46
2.3. eDoc 55
2.3.1. Tìm hiu eLearning 55
2.3.2. Tìm hiu eLib 61
2.3.3. Tìm hiu eDoc 68
2.4. Mt s v#n trong x% lí ngôn ng t nhiên: 71
2.4.1. V#n trong vic x% lí vn bn: 72
2.4.2. V#n x% lí ng ngh a: 72
2.4.3. Phân loi vn bn (Text Classification) 82
Chng 3 : MÔ HÌNH VÀ GII THUT 84
3.1. Công ngh tìm kim ng ngh a trên th gii hin nay: 84
3.2. Các bc xây dng mt ng d!ng semantic search engine: 91
3.3.1. Xây dng kin trúc Web ng ngh a: 92
3.3.2. Lp ch& m!c ng ngh a tim tàng: 93
3.3. Mô hình ngh cho ng d!ng tìm kim ng ngh a trên l nh vc eDoc 96
3.4. Các gii thut s% d!ng 100
3.4.1. Gii thut x% lý tài liu: 100
3.4.2. Gii thut rút trích siêu d liu: 102
3.4.3. Gii thut phân loi l nh vc cho tài liu: 104
3.4.4. Gii thut x% lí câu truy v#n: 104
Chng 4 : CHNG TRÌNH NG DNG 105
4.1. Gii thiu chng trình ng d!ng: 105
4.2. Kin trúc c$a ng d!ng: 105
4.3. Mô t phm vi ng d!ng 107
4.3.1. Mô t bài toán: 107
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 5 - 0112398 – T Th Ngc Thanh
4.3.2. Xác nh yêu cu: 107
4.4. Xây dng ng d!ng: 108
4.4.1. Thit k d liu: 108
4.4.2. Thit k x% lý: 110
4.5. Kt qu chng trình 112
4.6. Thc nghim chng trình 114
Chng 5 : KT LUN 118
5.1. ánh giá kt qu nghiên cu 118
5.1.1. 'u im 118
5.1.2. Khuyt im: 119
5.2. Hng phát trin 119
TÀI LIU THAM KHO 120
I. Lun vn, lun án: 120
II. Sách, eBooks: 120
III. Website: 122
PH LC 124
1. Cú pháp RDF: 124
2. RDF Gateway: 129
2.1. Kin trúc c$a RDF Gateway: 130
2.2. Tính nng (Features) 132
3. H thng nhãn ng ngh a: 138
3.1. Nhãn ng ngh a c bn cho danh t: 139
3.2. Nhãn ng ngh a c bn cho ng t: 141
3.3. Nhãn ng ngh a c bn cho tính t: 142
3.4. H thng nhãn ng ngh a LDOCE 142
4. H c s tri thc ng ngh a t vng WordNet 144
4.1. H thng nhãn ng ngh a c$a danh t: 144
4.2. H thng nhãn ng ngh a c$a ng t: 149
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 6 - 0112398 – T Th Ngc Thanh
DANH MC CÁC BNG
Bng 1 : Bng hng dn nhanh v cách s dng mt s search engine ph bin 28
Bng 2: S lc v các c trng c a mt s search engine thông dng trên Internet 32
Bng 3 : Các lp trong RDF 54
Bng 4:Các thuc tính c a RDF 55
Bng 5: Danh sách các ngh!a và ràng buc c a các t" th#c trong câu 77
Bng 6 Mô t c s$ d% li&u cho 'ng dng 110
Bng 7 Các module c a chng trình 110
Bng 8 Module eDocSearch 111
Bng 9 Module eDocSearch 111
Bng 10 Các câu truy v(n th nghi&m 115
Bng 11 Thng kê l!nh v#c khoa h)c máy tính 116
Bng 12 Thng kê l!nh v#c ngh& thu*t. 116
Bng 13: Nhãn ng% ngh!a c bn cho danh t" 140
Bng 14: Nhãn ng% ngh!a c bn cho ng t" 142
Bng 15 : Nhãn ng% ngh!a c bn cho tính t" 142
Bng 16: H& thng nhãn ng% ngh!a LDOCE 144
Bng 17:S# phân lp danh t" trong WordNet 148
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 7 - 0112398 – T Th Ngc Thanh
DANH MC CÁC HÌNH
Hình 1: Giao di&n c a Google 18
Hình 2: Giao di&n c a Yahoo 19
Hình 3: Giao di&n c a Ask Jeeves 20
Hình 4: Giao di&n c a AllTheWeb 21
Hình 5: Giao di&n c a Teoma 22
Hình 6: Giao di&n HotBot 23
Hình 7: Giao di&n c a Altavista 24
Hình 8: Giao di&n c a Lycos 25
Hình 9: Kin trúc t+ng c a Semantic web 36
Hình 10: Mt Ontology n gin 46
Hình 11: Mô hình d% li&u RDF 51
Hình 12 : Tiêu chu,n ánh giá tính bo m*t c a eDoc 71
Hình 13 Các quan h& cú pháp và ràng buc ng% ngh!a 76
Hình 14 Cây quyt -nh trong vi&c ch)n ngh!a phù hp. 78
Hình 15: Dòng c s$ tìm kim Web 91
Hình 16: Mô hình ngh- cho 'ng dng tìm kim ng% ngh!a trên l!nh v#c eDoc 97
Hình 17: Qui trình x lý c a t+ng search engine 99
Hình 18: Gii thu*t x lý tài li&u: 100
Hình 19: Gii thu*t rút trích siêu d% li&u 103
Hình 20: S . d% li&u quan h& c a 'ng dng 108
Hình 21: Giao di&n chính c a 'ng dng 112
Hình 22: Giao di&n kt qu tìm kim c a 'ng dng 113
Hình 23: Giao di&n qun lí tài nguyên 113
Hình 24: Kin trúc c a RDF Gateway 130
Hình 25: Giao di&n c a RQF Query Analyzer 136
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 8 - 0112398 – T Th Ngc Thanh
DANH MC CÁC T/ VIT T0T
eDoc Electronic document
eLib Electronic library
eLearning Electronic learning
www World Wide Web
URI Uniform Resource Identifier
URL Uniform Resource Locator
HTTP Hypertext Transfer Protocol
RDF Resources Descriprion Framework
OIL Ontology Inference Language
OWL Ontology Web Language
XML eXtensible Markup Language
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 9 - 0112398 – T Th Ngc Thanh
DANH MC CÁC THUT NG1
Class Lp
Property Thuc tính
Metadata Siêu d liu
Subject Ch$ , ch$ ng
Title Tiêu
Namespace Không gian tên
Predicate V ng
Triple B ba (subject, predicate, object)
[...].. .tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc M( )U Hi n nay, h u h t các h th ng tìm ki m trên Internet u i theo h ng truy n th ng ó là tìm ki m theo t khoá ( key word ) Theo cách tìm ki m này, khi ta gõ vào t c n tìm, các h th ng tìm ki m s* hi n th các tài li u mà trong nó có ch a t khoá c n tìm Do ó, k t qu tr ra là m t danh sách r#t nhi u các tài li u, mà có th các tài li u này... ngh a d a trên thông tin ng T nh n th c trên chúng em quy t i dùng a vào nh ch n tài: Tìm ki m ng% ngh!a 'ng d ng trên l!nh v#c eDoc (nh ng tài li u i n t% ti ng Anh) v i m!c ích tìm hi u và xây d ng m t công c! tìm ki m theo ng ngh a và y $, có th h n ch có th tìm ki m thông tin chính xác c ph n nào v#n tìm ki m theo t khoá c$a các search engine hi n t i Các it ng nghiên c u liên quan n tài: eDoc, Semantic... m Th M Ph - 12 - ng 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc nay: m ra m i tài li u c$a danh sách k t qu và quét nó m t cách th$ công l#y thông tin Theo cách ó, các công c! tìm ki m ng ngh a có kh n ng cách m ng hoá, h ng n vi c tìm ki m thông tin i n t% m t cách t ki m t vi c thu h i tài li u 1.2 ng: nó thay i mô hình tìm n vi c tr l i câu h i Bài toán gi i quy t... c! tìm ki m là: Công c! tìm ki m c n cho phép nh ng truy v#n ph c t p h n (ví d! trong ngôn ng t nhiên), (ii) Công c! tìm ki m c n “hi u” nh ng gì con ng (iii) Công c! tìm ki m ph i cung c#p câu tr l i cho truy v#n (có th sao l u l i nh ng liên k t 0112274 – Ph m Th M Ph ng - 13 - i h2i, và n các tài li u mà cho ra câu tr l i) 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc. .. công c! tìm ki m ng ngh a là nh ng công c! quan tr ng cho nh ng l nh v c c! th Trong tr 0112274 – Ph m Th M Ph ng - 15 - ng h p này, m!c ích 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc c$a các công c! tìm ki m ng ngh a là b sung cho các công c! tìm ki m thông th ng, h n là c nh tranh nh nh ng 0112274 – Ph m Th M Ph ng i th$ - 16 - 0112398 – T Th Ng c Thanh tài: Tìm ki... và d- ch u h n là khi th c hi n Yahoo Tiêu i m là trong tìm ki m web, ngo i tr tin t c, tìm ki m hình nh, video, MP3 và FPT c/ng c 0112274 – Ph m Th M Ph a ra ng - 21 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc 2.1.1.5 Teoma: http://www.teoma.com/ Hình 5: Giao di&n c a Teoma Teoma là m t công c! tìm ki m d a trên crawler Nó có s l Teoma ra ng trang web c s h u b i... trang a.com AND (m"c nh) web (kho ng Trong tìm nâng 0112274 – Ph m Th M Ph ng - 29 - D#u * rút g n Ki m l i chính D#u “” cho c!m t t Phiên d ch : 8 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc H tr tìm 1B) và file cao ho"c danh Tìm nâng cao : ngôn ng c$a ki m nâng pdf t riêng trong gi i h n ngày, Châu Âu & các cao Tin t c (3000 tìm c b n : ngôn ng ngôn ng c$a H th ng... i ti t, 0112274 – Ph m Th M Ph ng - 31 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc mua s m B ng 2: S l c v các 2.1.2 Chi n l c tr ng c a m t s search engine thông d ng trên Internet c tìm ki m T “search engine” th ng c s% d!ng r ng rãi ki m d a trên crawler và các th m!c do con ng mô t các công c! tìm i cung c#p ây là hai lo i c$a các search engine t p h p các danh... thành 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc c s d li u riêng có th tìm ki m trên ó m t cách nhanh chóng, hi u qu H th ng ch& m!c là danh sách các t khoá, ch& rõ các t khoá nào xu#t hi n trang nào, a ch& nào B tìm ki m thông tin – Search Engine Search engine là c!m t dùng ch& toàn b h th ng bao g1m b thu th p thông tin, b l p ch& m!c và b tìm ki m thông tin Các b này... dung ta c n tìm Và ôi khi các h th ng này a ra h t các tài li u c n thi t, t c là th a tài li u không c n thi t nh ng l i thi u h+n nh ng tài li u quan tr ng khác V#n "t ra là ta ph i xây d ng m t h th ng tìm ki m nh th nào kh c ph!c hi n tr ng nêu trên ? gi i quy t v#n này, ta c n xây d ng h th ng tìm ki m sao cho áp ng y $ thông tin mà ng i dùng mong mu n, ngh a là ph i xây d ng h th ng tìm ki m theo .
Luận văn
Tìm kiếm ngữ nghĩa ứng
dụng trên lĩnh vực eDoc
1
LI CM N
u tiên, chúng em xin.
2.2.6. Ontology 44
2.2.7. Rdf 46
2.3. eDoc 55
2.3.1. Tìm hiu eLearning 55
2.3.2. Tìm hiu eLib 61
2.3.3. Tìm hiu eDoc 68
2.4. Mt s v#n trong x%