I. Lu nv n, lun án:
B ng 7 Các module cach ng trình
tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
Các l p i t ng cho t ng module: Module eDocSearch:
STT L p i t ng Ý ngh!a
1 UserQuery.cs Có trách nhi m x% lí câu truy v#n c$a ng i dùng, và tr ra k t qu cho câu truy v#n. B ng 8 Module eDocSearch
Module eDocSearchAdministrator:
STT L p i t ng Ý ngh!a
1 Database.cs Th c hi n k t n i c s d li u SQL server và RDF gateway.
2 Spider.cs Thu th p tài li u t Internet
3 DocumentProcess.cs Qu n lí c s d li u tài li u ( rút trích
metadata cho tài li u, phân lo i lnh v c cho tài li u).
4 TextProcess.cs Có trách nhi m x% lí v n b n (l c b2 các t không quan tr ng, th c hi n “lemmatize”) 5 Word_database.cs Qu n lí c s d li u các t chuyên ngành cho
t ng lnh v c.
5 ManageOntology.cs Qu n lí c s d li u Ontology
6 DatabaseProcess.cs X% lí Ontology, chuy n t d ng l u tr RDF sang c s d li u quan h SQL server. B ng 9 Module eDocSearch
tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
4.5. K t qu ch ng trình
Tài li u cho vi c tìm ki m th% nghi m c download v và l u trong máy ch$ th m!c http://localhost/eDocSearch/DataTest/. S l ng tài li u kho ng 500 tài li u cho c hai lnh v c.
Môi tr ng ng d!ng: Máy Celeron, 256 MB RAM, 1.2 GB, hdh Windows XP. Th i gian x% lý v n b n ~ 2s/tài li u
Th i gian x% lý truy v#n nhanh. Phân lo i v n b n theo lnh v c: 91%
Ch ng trình cho phép ng i dùng truy v#n nh ng v#n quan tâm b0ng ngôn ng t nhiên.
Giao di n chính c$a ch ng trình:
tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
Hình 22: Giao di&n k t qu tìm ki m c a 'ng d ng Giao di n qu n lí tài nguyên:
tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
4.6. Th#c nghi&m ch ng trình
Danh sách các câu truy v(n th nghi&m ch ng trình: STT T" truy v(n S tài li&u
tr v
S tài li&u không úng n i dung 1 Programming 14 3 2 Oop 10 1 3 Asp 10 1 4 Assembly 9 2 5 Java 12 3 6 Visual basic 3 0 7 C# 10 1 8 Data 7 3 9 Database 76 33 10 Metadata 32 14 11 Register 0 0 12 Security 5 1 13 Computer science 63 25 14 Computing 47 17 15 Algorithm 45 9 16 Machine translation 52 17 17 Computer vision 62 27 18 Internet 46 6 19 www 43 18 20 Site 43 18 21 Server 57 22 22 Computer 29 24 23 Hardware 11 7
tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc 24 Information processing 9 7 25 Natural language processing 10 8 26 Sofrware 12 6 27 Freeware 7 2 28 Shareware 7 2 29 Virus 6 0 30 Norton antivirus 5 0 31 Graphic 5 3 32 Picture 9 7 33 Artwork 15 7 34 Art school 100 90 35 Artist 12 3 36 Gallery 19 17 37 Museum 19 8 38 Clip art 100 90 39 Painting 36 27 40 Landscape 11 6 41 Portrait 10 7
B ng 10 Các câu truy v(n th nghi&m K t qu th ng kê truy v(n theo t"ng l!nh v#c: K t qu th ng kê truy v(n theo t"ng l!nh v#c: Công th c th ng kê:
chính xác c$a lnh v c = trung bình c ng(ph n tr m chính xác c$a t ng t trong lnh v c ó).
tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
Computer & information science:
STT Tên l!nh v#c chính xác 1 Programming 87% 2 Data 57% 3 Security 93% 4 Computer science 65% 5 Internet 67% 6 Computer 26% 7 Information science 21% 8 Software 64% 9 Virus 100%
B ng 11 Th ng kê l!nh v#c khoa h)c máy tính
Art:
STT Tên l!nh v#c chính xác
1 Art and artwork 10%
2 Artist 75% 3 Gallery 11% 4 Museum 58% 5 Art school 10% 6 Painting 25% 8 Music 70% 9 Music style 65%
tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
Nh*n xét:
- 7ng d!ng ch& xây d ng trên hai lnh v c là ngh thu t và khoa h c máy tính nên m i tài li u a vào u c phân vào m t trong hai lnh v c này do ó làm gi m i chính xác.
- S tài li u tr v cho m i t trong cùng m t l p con trong ontology là không b0ng nhau do ph ng pháp x% lí câu truy v#n là: l#y nh ng tài li u trong cùng l p con c$a ontology và 1ng th i l#y nh ng tài li u có t khoá có trong v i t khoá c$a câu truy v#n.
- chính xác trong vi c phân lo i tài li u theo t ng l p con ch a cao do các l p con trong ontology thi t k ch a y $, ch a bao hàm h t các khái ni m trong m t l nh v c và s t trong m t lnh v c ch a nhi u và
y $.
- M"t khác, chính xác trong vi c phân lo i c$a tài li u còn b nh h ng do s l ng t c$a n i dung trong tài li u ít (tài li u ch& ch a a s là các hyperlink và các hình nh).
- L nh v c ngh thu t có chính xác th#p do các t trong m i l p con c$a ontology không c phân bi t rõ ràng, m t t có th n0m nhi u l p và s l ng t ít.
Tóm l i, ch ng trình ng d!ng t hi u qu t t trong vi c phân lo i tài li u theo lnh v c l n, còn i v i t ng l p con trong m i lnh v c thì hi u qu ch a cao. Ng i qu n tr có th nâng cao hi u qu c$a ch ng trình b0ng cách xây d ng t#t c các lnh v c trong th c t , b. sung các t trong t ng l p con c$a m i lnh v c theo xu h ng càng nhi u t "c tr ng cho l p càng t t (m c cô l p gi a các l p càng cao).
tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc Ch ng 5 : K T LU N 5.1. ánh giá k t qu nghiên c'u 5.1.1. u i6m V c b n lu n v n ã th c hi n t t các n i dung ra và t c m t s k t qu nh#t nh :
o Lu n v n ã trình bày c s lý thuy t v nguyên lý v n hành c/ng nh u và khuy t i m c$a m t h th ng search engine.
o Lu n v n trình bày rõ mô hình Web ng ngha cùng v i các i t ng c$a nó nh RDF, OWL, …
o Trình bày các v#n v ng ngha c/ng nh các h ng gi i quy t trong vi c x% lí ngôn ng t nhiên nh0m giúp máy tính “hi u” c câu h2i c$a ng i dùng.
o T nh ng c s nghiên c u lí thuy t, lu n v n ã ra mô hình cho vi c xây d ng công c! tìm ki m ng ngha, và th c hi n cài "t m t công c! tìm ki m các tài li u i n t% phù h p v i ng ngha c$a câu truy v#n c$a ng i dùng.
o Lu n v n có th xác nh t ng i chính xác lnh v c mà tài li u thu c v . Và ph n nào xác nh c lnh v c c$a câu truy v#n c$a ng i dùng.
Ý ngh a th c ti-n:
Tìm hi u mô hình, n m v ng công ngh tìm ki m ng ngha áp d!ng chi ti ng Vi t.
Ý ngh a khoa h c:
ây là công c! ph!c v! cho nhu c u phân lo i v n b n, phân lo i tài li u h c t p.
tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
5.1.2. Khuy t i6m:
Tuy nhiên, do v#n v ng ngha là m t v#n ph c t p và r ng l n nên lu n v n ch& ra m t s h ng nghiên c u hi n nay m t s l nh v c h u h n, không th bao hàm h t c các khái ni m c/ng nh ngôn ng c$a con ng i.
Nh ng v#n c xu#t trong lu n v n nh0m m!c ích a ra m t h ng gi i quy t mang tính ch#t tham kh o nên có th s* có nhi u i m ch a t i u, c n
c hoàn thi n h n.
Trong ch ng trình ng d!ng, lu n v n s% d!ng c s d li u các t "c tr ng cho t lnh v c, c s d li u này c xây d ng ch$ y u d a vào WordNet, song v n còn h n ch v s l ng các t riêng cho t ng chuyên ngành. N u câu truy v#n c$a ng i dùng h2i v nh ng t không n0m trong c s d li u thì có th s* không tìm th#y k t qu . Và vi c phân lo i các t l nh v c mang tính ch$ quan nên có th ch a t i
u.
Vi c phân lo i tài li u theo lnh v c t ng i t t do có s l ng t khá nhi u nh ng vi c phân lo i câu truy v#n c$a ng i dùng, s% d!ng m t l ng t r#t ít nên có m t s câu truy v#n không có k t qu tr v .
Ngoài ra, lu n v n ch& s% d!ng c s d li u các tài li u l u s6n v trên máy ch$ nên s l ng các tài li u ch a l n.
5.2. H ng phát tri6n
Ch ng trình ng d!ng c$a lu n v n c xây d ng d a trên nh ng v#n c b n, song nó có th phát tri n ngày càng hoàn thi n và t i u h n. Nh ng h ng phát tri n c$a lu n v n:
- M r ng tìm ki m trong t#t c các lnh v c.
- Tìm ki m trên nhi u ontology, phân lo i ontology. - Th c s tìm ki m online.
tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
TÀI LI U THAM KH O
I. Lu*n v8n, lu*n án:
[I.1] "ng Th Qu3nh Chi. Lu n v n th c s tin h c. Nghiên c'u v mô hình, khám phá và khai thác các m i quan h& trên web ng% ngh!a, xây d#ng 'ng d ng. Ng i h ng d n khoa h c: Nguy-n Ti n D/ng.
[I.2] Lê Thuý Ng c, M Nhung. Lu n v n c% nhân tin h c. Tìm hi6u v Search Engine và xây d#ng 'ng d ng minh ho4 cho Search Engine ti ng Vi&t. GVHD: Nguy-n Th Di-m Tiên.
II. Sách, eBooks:
[II.1] Ying Ding, Dieter Fensel, Michel Klein, and Borys Omelayenko. The Semantic Web: Yet another Hip?. Data and knowedgle engineering, 2002. [II.2] Eero Hyvonen. Semantic web Kick – off in Finland vision, Technologies, Research, and Applications; May 19, 2002 .
[II.3] inh i n, Giáo trình X% Lý Ngôn Ng T Nhiên, tháng 12/2004. [II.4] Dr. V. Richard Benjamins, Jesús Contreras; Six challenges for the semantic web; April 2002.
[II.5] Nicola Guarino; Some Ontological Principles for Designing Upper Level Lexical Resources; 28 – 30 May 1998.
[II.6] Urvi Shah, Tim Finin, Anupam Joshi, R. Scott Cost, James Mayfield; Information Retrieval on the Semantic Web*.
[II.7] Luke K. McDowell; Meaning for the Masses: Theory and Applications for Semantic Web and Semantic Email Systems; 2004.
[II.8] Gareth Osler;The Semantic Web Through Semantic Data – A Four Tier Architecture Model ; 4 Mar 2005.
tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
[II.9] Julius Stuller; Network of Excellence Semantic Web; 7 June 2002. [II.10] Peter Dolog and Wolfgang Nejdl; Challenges and Benefits of the Semantic Web for User Modelling.
[II.11] Pang Wang; A Search Engine Based on the Semantic Web; May, 2003. [II.12] Karen Sparck Jones; What’s new about the Semantic Web? Some questions; December 2004, 18 – 23.
[II.13] Mark Klein, Abraham Bernstein; Searching for Services on the Semantic Web Using Process Ontology; July 30 – August 1, 2001.
[II.14] Michael Sintek, Stefan Decker; TRIPLE – A Query Language for the Semantic Web; November 2 2001.
[II.15] Stefan Decker, Vipul Kashyap; The Semantic Web: Semantics for Data on the Web; September 10 2003.
[II.16] Catherine C. Marshall; Taking a Stand on the Semantic Web; 2003. [II.17] Eric Miller, Ralph Swick; Semantic Web Activity: Adcanced Development; 07/09/2003.
[II.18] Tim Berners – Lee; Semantic Web Road map; 10/14/1998.
[II.19] Raul Corazzon; Ontology. A resource guide for philosophers; 06/01/2005.
[II.20] John F.Sowa; Guided Tour of Ontology; June 03 2005.
[II.21] John F. Sowa; Building, Sharing, and Merging Ontologies; June 03 2005.
[II.22] ISO; Information and documentation – The Dublin Core metadata element set; 02/26/2003.
[II.23] IEEE; Draft Standard for Learning Object Metadata; 15 July 2002. [II.24] Shigeo SUGIMOTO, Jun ADACHI, Stuart WEIBEL; 68th IFLA Council and General Conference; August 24 2002.
[II.25] Stiching SURF; DARE use of Dublin Core, version 2.0; December 2004.
tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
[II.26] CEN/ISSS MII – DC (WI3) Report; Guidance for the Deployment of Dublin Core Metadata in Corporate Environments; 8/20/2004 DRAFT.
[II.27] Kazuhiko Asou, Takako Nakahara, Takao Namiki; A report on Dublin Core based research information service on mathematics; 10/26/2001.
[II.28] Western States Digital Standards Group, Metadata Working Group; Western States Dublin Core Metadata Best Practices, Version 2.0; 01/12/2005. [II.29] Jay Cross, CEO, Internet Time Group; eLearning; mid – 1999.
[II.30] ADOBE; A primer on electronic document security; 11/2004.
[II.31] Gerhard U. Bartsch; Introduction to Electronic Document Management Whitepaper ; March 16 2003.
[II.32] Andreas Hotho; Using Ontologies to Improve the Text Custering and Classification Task; January 14 2005.
[II.33] Norman Paskin; DOI: implementing a standard digital identifier as the key to effective digital rights management; March 9 2000.
III. Website:
[III.1] W3C SemanticWeb Activity http://www.w3.org/2001/sw
[III.2] Semantic web server http://www.semanticwebserver.com
[III.3] RDF http://www.w3.org/RDF
[III.4] Tim Berners – Lee Notation3
http://www.w3.org/DesignIssues/Notation3.html
[III.5] http://www.cimtech.co.uk
[III.6] http://www.adobe.com/security
[III.7] RDQL: RDF Data Query Language
http://www.htl.hp.com/semweb/rdql.html
[III.8] RDF/XML Syntax Specification http://www.w3.org/TR/rdf-syntax- grammar/
[III.9] DAML http://www.daml.org
tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
[III.11] National Information Standards Organization http://www.niso.org
[III.12] Intellidimension: Delivering a Platform for the Semantic Web
http://www.intellidimension.com/
tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
PH L C
1. Cú pháp RDF:
rdfs:Resource
T#t c m i th c mô t b i RDF c g i là resources và là thành viên c$a class rdfs:Resource
rdfs:Literal
L p rdfs:Listeral i di n cho m t l p các giá tr ký t nh là strings và intergers. Ví d!: thu c tính giá tr : chu i text
rdfs:XMLLiteral
L p rdfs:XMLLiteral i di n cho l p giá tr chu i c$a XML. rdfs:Class
L p này t ng ng v i khái ni m chung type ho"c là catalog c$a tài nguyên.
RDF class membership (quan h thành viên l p RDF) c s% d!ng i di n cho types và catalog c$a tài nguyên. Hai l p có th có cùng thành viên.
rdf:Property
rdf:Property i di n cho nh ng tài nguyên có thu c tính RDF. rdfs:Datatype
rdfs:Datatype i di n cho nh ng tài nguyên có các ki u d li u RDF. rdf:type
Thu c tính rdf:type cho bi t m t tài nguyên là thành viên c$a class nào.
Khi m t tài nguyên có m t thu c tính rdf:type mà giá tr c$a thu c tính này là m t s class xác nh, thì chúng ta nói r0ng tài nguyên là m t instance of c$a class xác nh này.
tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
Giá tr c$a thu c tính rdf:type s* luôn là m t tài nguyên – tài nguyên này là m t th hi n (instance) c$a rdfs:Class. Tài nguyên này c bi t nh là rdfs:Class b n thân nó là m t tài nguyên c$a m t rdf:type rdfs:Class. (B n thân nó c/ng là m t ki u – type c$a m t l p).
rdfs:subClassOf
Thu c tính rdfs:subClassOf i di n cho m i quan h chu5n hoá gi a các class c$a m t tài nguyên. Thu c tính rdfs:subClassOf là m t transitive.
rdfs:subPropertyOf
Thu c tính rdfs:subPropertyOf là m t th hi n (instance) c$a rdf:Property, c s% d!ng xác nh m t thu c tính là m t chu5n c$a m t cái khác.
H th ng c#p b c thu c tính con có th c s% d!ng trình bày h th ng c#p b c c$a các ràng bu c v range và domain.
Chú ý: Thu t ng “super – property” ôi khi c s% d!ng cho bi t m i quan h gi a m t s thu c tính v i nhi u thu c tính ph. bi n khác, ví d! là m i quan h rdfs:subPropertyOf.
rdfs:range
M t th hi n c$a rdf:Property c s% d!ng cho bi t các class nào mà giá tr c$a m t thu c tính s* là thành viên c$a nó.
Giá tr c$a m t thu c tính rdfs:range luôn luôn là m t Class. Thu c tính rdfs:range b n thân nó có th c s% d!ng bi u di-n i u này: The rdfs:range of rdfs:range is the class rdfs:Class. i u này cho th#y r0ng b#t k3 m t tài nguyên nào là giá tr c$a thu c tính range s* là m t class.
Thu c tính rdfs:range ch& c áp d!ng i v i các thu c tính. i u này c/ng c miêu t trong RDF thông qua vi c s% d!ng thu c tính rdfs:domain. The rdfs:Domain