1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tìm kiếm ngữ nghĩa ứng dụng trên lĩnh vực edoc

153 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 153
Dung lượng 2,35 MB

Nội dung

Luận văn Tìm kiếm ngữ nghĩa ứng dụng lĩnh vực eDoc LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com L IC M u tiên, chúng em xin g i l i c m n tr ng N n Th y, Cô khoa Công ngh Thông tin i h c Khoa h c T nhiên ã t n tình d y d , dìu d t chúng em su t b n n m i h c Chúng em c m n Cô Ph m Th B ch Hu , ng i t n tình h ng d n, giúp , ng viên chúng em hoàn thành lu n v n Cu i cùng, chúng c m n Ba, M nh ng ng ng viên chúng th i gian h c t p, nghiên c u i thân ã khích l , h tr , có c thành qu nh ngày Tháng n m 2005 Sinh viên Ph m Th M Ph ng – T Th Ng c Thanh LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com NH N XÉT C A GIÁO VIÊN H NG D N …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ………………………………………………………………………………… …………………………………………………………………………………… Ngày…… tháng……n m 2005 Ký tên LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc NH N XÉT C A GIÁO VIÊN PH N BI N …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………….……………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………… Ngày…… tháng……n m 2005 Ký tên 0112274 – Ph m Th M Ph ng -3- 0112398 – T Th Ng c Thanh LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc M CL C M U .10 Ch ng : T NG QUAN 11 1.1 "t v#n 11 1.2 Bài toán gi i quy t 13 1.3 H ng ti p c n 14 Ch ng : C S LÝ THUY T 17 2.1 Chi n l c tìm ki m thơng tin c$a b tìm ki m (Search Engine) 17 2.1.1 M t s search engine thông d!ng: 17 2.1.2 Chi n l c tìm ki m 32 Nguyên lý ho t ng 34 2.2 Semantic Web 34 2.2.1 Khái ni m 34 2.2.2 Ki n trúc 36 2.2.3 Các thách th c "t cho Semantic web 37 2.2.4 So sánh web web ng ngh a 41 2.2.5 Các khái ni m liên quan 42 2.2.6 Ontology 44 2.2.7 Rdf 46 2.3 eDoc 55 2.3.1 Tìm hi u eLearning 55 2.3.2 Tìm hi u eLib 61 2.3.3 Tìm hi u eDoc 68 2.4 M t s v#n x% lí ngơn ng t nhiên: 71 2.4.1 V#n vi c x% lí v n b n: 72 2.4.2 V#n x% lí ng ngh a: 72 2.4.3 Phân lo i v n b n (Text Classification) 82 Ch ng : MƠ HÌNH VÀ GI I THU T 84 3.1 Công ngh tìm ki m ng ngh a th gi i hi n nay: 84 3.2 Các b c xây d ng m t ng d!ng semantic search engine: 91 3.3.1 Xây d ng ki n trúc Web ng ngh a: 92 3.3.2 L p ch& m!c ng ngh a ti m tàng: 93 3.3 Mơ hình ngh cho ng d!ng tìm ki m ng ngh a l nh v c eDoc 96 3.4 Các gi i thu t s% d!ng 100 3.4.1 Gi i thu t x% lý tài li u: 100 3.4.2 Gi i thu t rút trích siêu d li u: 102 3.4.3 Gi i thu t phân lo i l nh v c cho tài li u: 104 3.4.4 Gi i thu t x% lí câu truy v#n: 104 Ch ng : CH NG TRÌNH NG D NG 105 4.1 Gi i thi u ch ng trình ng d!ng: 105 4.2 Ki n trúc c$a ng d!ng: 105 4.3 Mô t ph m vi ng d!ng 107 4.3.1 Mơ t tốn: 107 0112274 – Ph m Th M Ph ng -4- 0112398 – T Th Ng c Thanh LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc 4.3.2 Xác nh yêu c u: 107 4.4 Xây d ng ng d!ng: 108 4.4.1 Thi t k d li u: 108 4.4.2 Thi t k x% lý: 110 4.5 K t qu ch ng trình 112 4.6 Th c nghi m ch ng trình 114 Ch ng : K T LU N 118 5.1 ánh giá k t qu nghiên c u 118 5.1.1 'u i m 118 5.1.2 Khuy t i m: 119 5.2 H ng phát tri n 119 TÀI LI U THAM KH O 120 I Lu n v n, lu n án: 120 II Sách, eBooks: 120 III Website: 122 PH L C 124 Cú pháp RDF: 124 RDF Gateway: 129 2.1 Ki n trúc c$a RDF Gateway: 130 2.2 Tính n ng (Features) 132 H th ng nhãn ng ngh a: 138 3.1 Nhãn ng ngh a c b n cho danh t : 139 3.2 Nhãn ng ngh a c b n cho ng t : 141 3.3 Nhãn ng ngh a c b n cho tính t : 142 3.4 H th ng nhãn ng ngh a LDOCE 142 H c s tri th c ng ngh a t v ng WordNet 144 4.1 H th ng nhãn ng ngh a c$a danh t : 144 4.2 H th ng nhãn ng ngh a c$a ng t : 149 0112274 – Ph m Th M Ph ng -5- 0112398 – T Th Ng c Thanh LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc DANH M C CÁC B NG B B B B B B B B B B B B B B B B B ng : B ng h ng d n nhanh v cách s d ng m t s search engine ph bi n 28 ng 2: S l c v c tr ng c a m t s search engine thông d ng Internet 32 ng : Các l p RDF 54 ng 4:Các thu c tính c a RDF 55 ng 5: Danh sách ngh!a ràng bu c c a t" th#c câu 77 ng Mô t c s$ d% li&u cho 'ng d ng 110 ng Các module c a ch ng trình 110 ng Module eDocSearch 111 ng Module eDocSearch 111 ng 10 Các câu truy v(n th nghi&m 115 ng 11 Th ng kê l!nh v#c khoa h)c máy tính 116 ng 12 Th ng kê l!nh v#c ngh& thu*t 116 ng 13: Nhãn ng% ngh!a c b n cho danh t" 140 ng 14: Nhãn ng% ngh!a c b n cho ng t" 142 ng 15 : Nhãn ng% ngh!a c b n cho tính t" 142 ng 16: H& th ng nhãn ng% ngh!a LDOCE 144 ng 17:S# phân l p danh t" WordNet 148 0112274 – Ph m Th M Ph ng -6- 0112398 – T Th Ng c Thanh LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc DANH M C CÁC HÌNH Hình 1: Giao di&n c a Google 18 Hình 2: Giao di&n c a Yahoo 19 Hình 3: Giao di&n c a Ask Jeeves 20 Hình 4: Giao di&n c a AllTheWeb 21 Hình 5: Giao di&n c a Teoma 22 Hình 6: Giao di&n HotBot 23 Hình 7: Giao di&n c a Altavista 24 Hình 8: Giao di&n c a Lycos 25 Hình 9: Ki n trúc t+ng c a Semantic web 36 Hình 10: M t Ontology n gi n 46 Hình 11: Mơ hình d% li&u RDF 51 Hình 12 : Tiêu chu,n ánh giá tính b o m*t c a eDoc 71 Hình 13 Các quan h& cú pháp ràng bu c ng% ngh!a 76 Hình 14 Cây quy t -nh vi&c ch)n ngh!a phù h p 78 Hình 15: Dịng c s$ tìm ki m Web 91 Hình 16: Mơ hình ngh- cho 'ng d ng tìm ki m ng% ngh!a l!nh v#c eDoc 97 Hình 17: Qui trình x lý c a t+ng search engine 99 Hình 18: Gi i thu*t x lý tài li&u: 100 Hình 19: Gi i thu*t rút trích siêu d% li&u 103 Hình 20: S d% li&u quan h& c a 'ng d ng 108 Hình 21: Giao di&n c a 'ng d ng 112 Hình 22: Giao di&n k t qu tìm ki m c a 'ng d ng 113 Hình 23: Giao di&n qu n lí tài nguyên 113 Hình 24: Ki n trúc c a RDF Gateway 130 Hình 25: Giao di&n c a RQF Query Analyzer 136 0112274 – Ph m Th M Ph ng -7- 0112398 – T Th Ng c Thanh LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc DANH M C CÁC T/ VI T T0T eDoc Electronic document eLib Electronic library eLearning Electronic learning www World Wide Web URI Uniform Resource Identifier URL Uniform Resource Locator HTTP Hypertext Transfer Protocol RDF Resources Descriprion Framework OIL Ontology Inference Language OWL Ontology Web Language XML eXtensible Markup Language 0112274 – Ph m Th M Ph ng -8- 0112398 – T Th Ng c Thanh LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc DANH M C CÁC THU T NG1 Class L p Property Thu c tính Metadata Siêu d li u Subject Ch$ Title Tiêu Namespace Không gian tên Predicate V ng Triple B ba (subject, predicate, object) 0112274 – Ph m Th M Ph ng , ch$ ng -9- 0112398 – T Th Ng c Thanh LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc table, data source component ( c#p table, d- dàng s%a i vi c c, vi t, xoá quy n cho user riêng bi t M t khái ni m b o m t d a dòng table c d a c t “context”, tr ng thêm vào th t predicate, object M t user có th (rights) i v i l nh RDF c cho phép c add vào subject, c, vi t, xoá quy n i v i m t context riêng bi t Khơng h có s h tr i v i m t nhóm ng i s% d!gn (user group – RDF Gateway khơng có khái ni m này) o Configuration and Management (c(u hình qu n lý) Các s s p "t (setting) c#u hình chi ti t di n web, giao di n c truy c p thông qua giao c d n vào nh web server g n li n Ng i dùng ph i ng nh p vào b0ng cách s% d!ng m t account có vai trị administrator c$a windows 7ng d!ng web truy c p c "t tên “RDF Gateway Management Utility” cung c#p n databases, tables, users, contexts, ActiveX Components, Data Services, Roles, Packages, MimeTypes Timers i v i h u h t thành ph n này, ch n l a b o m t v s cho phép có th c "t Ti n ích qu n lý c th c thi nh RDF Gateway web package Trên ây nh ng gi i thi u bao quát v RDF Gateway Ngoài ta c/ng có th xem thêm v cú pháp cu RDF Gateway chi ti t ph n help c$a ti n ích RDF Query Analyzer H& th ng nhãn ng% ngh!a: H th ng nhãn ng ngh a v i t lo i: danh t , c gi i thi u ây g1m ti u h th ng nh2 ng ng t tính t Trong m i ti u h th ng, l i c phân thành c#p: c#p c b n ch a m t s nhãn chung nh#t, s% d!ng nhi u nh#t nh ng nhãn vi t t t (g i nh ) d* nh ; c#p chuyên sâu nh ng nhãn theo h th ng 0112274 – Ph m Th M Ph ng - 138 - 0112398 – T Th Ng c Thanh LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc LLOCE Ngoài ra, ph n này, c/ng li t kê m t s h th ng nhãn ng ngh a khác nh WordNet, CoreLex 3.1 Nhãn ng% ngh!a c b n cho danh t": STT Nhãn Mô t Ý ngh a ABS Abstraction Nh ng tr u t ACT Act Hành AGT Agent Tác nhân ANM Animal Sinh v t ART Artifact Nhân t o ATR Attribute Thu c tính BDY Body C th ng CEL Cell T bào CHM Chemical Hoá ch#t 10 COM Communication Truy n tin 11 CON Consequence H u qu 12 ENT Entity Th c th 13 EVT Event Bi n c 14 FEL Feel S c m nh n 15 FEM Female Gi ng cái/ n 16 FOD Food Th c n 17 FRM Shape, form Hình d ng 18 GAS Gas Th khí 19 GRB Group biology Nhóm sinh h c 20 GRP Group Nhóm nói chung 21 GRS Group social Nhóm xã h i 22 HOU House Cơng trình xây d ng 23 HUM Human Con ng 0112274 – Ph m Th M Ph ng - 139 - ng ng i i 0112398 – T Th Ng c Thanh LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc 24 LFR Life form S s ng 25 LIN Line 26 LIQ Liquid 27 LME Linear measure 28 LOC Location V trí 29 LOG Location geography Vùng 30 MAL Male Gi ng 31 MEA Measure 32 MIC Microoragnism Vi sinh v t 33 MOT Motion S chuy n 34 NAT Natural object V t th thiên nhiên 35 PHM Phenomenon Hi n t 36 PHO Physical object V t th v t lý 37 PLT Plant Th c v t 38 POS Possession S s h u 39 PRO Process Quá trình 40 PRT Part, piece B ph n 41 PSY Psychological Thu c tính tâm lý 42 QUD Definite quantity il ng h u h n 43 QUI Indefinite quantity il ng vô h n 44 REL Relation Quan h 45 SOL Solid Th r n 46 SPC Space Không gian 47 STA State Tr ng thái 48 SUB Substance Ch#t li u 49 TME Time Th i gian 50 UNT Unit Thu c ng, nét, d#u v t Th l2ng ol ng il a lý c/ nam ng ng ng nv B ng 13: Nhãn ng ngh a c b n cho danh t 0112274 – Ph m Th M Ph ng - 140 - 0112398 – T Th Ng c Thanh LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc 3.2 Nhãn ng% ngh!a c b n cho STT Nhãn VBDY ng t": Mô t Ý ngh a Body Các ng t c$a c th : n, m"c, … VCHG Change Các ng t thu c v s thay i: t ng, i, … VCOG Human Các ng t tri nh n: suy ngh , xét oán,… VCOM Communication Các ng t truy n thông: k , h2i, l nh, … VCMP Competition Các ng t v c nh tranh: chi n #u, thi #u, … VCSM Consumption Các ng t v tiêu th!: n, u ng, … VCON Contact Các ng t v ti p xúc: ánh, ào, … VCRE Creation Các ng t v s t o l p: s n, khâu, thi hành, … VEMO Emotion Các ng t v c m giác: yêu, ghét,… 10 VMOT Motion Các ng t v chuy n ng: i, bay, b i, … 11 VPER Perception Các ng t v giác quan: nghe, th#y, c m th#y, … 12 VPOS Possession Các ng t v s h u: mua, bán, s h u, … 13 VSOC Social Các ng t v ho t ng xã h i: b u c%, t i vì, … 0112274 – Ph m Th M Ph ng - 141 - 0112398 – T Th Ng c Thanh LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc VSTA 14 Stative Các ng t v tr ng thái, quan h không gian 15 VWEA Weather Các ng t v th i ti t: m a, t, s#m, … B ng 14: Nhãn ng ngh a c b n cho 3.3 ng t Nhãn ng% ngh!a c b n cho tính t": STT Nhãn Mô t Ý ngh a ACOL Color Các tính t v màu s c: 2, xanh, … ASIZ Size Các tính t v kích th ATME Time Các tính t thu c v th i gian: lâu, mau, c: tròn, d t, … … ASPC Space Các tính t thu c v khơng gian: l n, nh2, dài, … ASTR Strength Các tính t v s c m nh: m nh, y u, … ADEG Degree Các tính t v m c AFEA Feature Các tính t v : nhi u, ít, … "c i m, n i dung: khó, hay, … AREF Reference Các tính t b ngh a s ch&: former (president) AREL Relation Các tính t quan h : Vietnamese (war) B ng 15 : Nhãn ng ngh a c b n cho tính t 3.4 H& th ng nhãn ng% ngh!a LDOCE Mã ng ngh a c b n STT A Con v t Mã ng ngh a phát sinh E Ch#t r n/ l2ng (S + (animal) B 0112274 – Ph m Th M Ph Con v t ng - 142 - L) K Ng i/con v t c 0112398 – T Th Ng c Thanh LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc (female animal) C (D +M) V t c! th O Ng (concrete) D + H) Con v t c R Ng (male animal) F Ng in G Khí (gas) i/con v t (B + F) U (female human) i/ v t (A T p h p ng i/con v t (Col + O) V Th c v t/ v t (P + A) H Ng i (human) W V t tr u t ng/c! th (T + I) I V t c! th X khơng có s s ng J V t r n di chu4ên 10 L V t tr u t ng Y c Ng Ng N i nam ( Tr u t P Th c v t ( Q c plant) 14 ng/ ch#t r n ( T + S) V t r n không di chuy n 13 i /ch#t r n ( H + S) male human) 12 ng/ có s s ng (T + Q) Ch#t l2ng M i (T + H) V t tr u t (liquid) 11 ng/ Ch#t l2ng/ tr u t ng (L + T) Ch#t khí/ ch#t l2ng (G + L) Có s s ng (animate) 15 S 16 T Ch#t r n (solid) Tr u t ng (abstract) 0112274 – Ph m Th M Ph ng - 143 - 0112398 – T Th Ng c Thanh LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc Z 17 Không ánh d#u (unmarked) 18 V t th tr u t 19 ng (abs physic) Ch#t h u c ( organic material) B ng 16: H& th ng nhãn ng% ngh!a LDOCE H& c s$ tri th'c ng% ngh!a t" v#ng WordNet 4.1 Tr H& th ng nhãn ng% ngh!a c a danh t": c h t, ta s* tìm hi u nh ng h n ch cách l u tr thông tin v ng ngh a c$a danh t t i n thơng th ng, t ó, m i th#y nh ng u th c$a WordNet cách l u tr , truy xu#t, c p nh t thơng tin ó 4.1.1 T ch'c c a danh t" t" i6n thông th 7ng: Khi ta tra m t danh t ó t nh ng l i gi i thích có v, i n thông th ng, ta s* nh n y $ Ví d!, tra t “tree” (cây), ta s* nh n c c nh ngh a “tree is a plant that is large, woody, perennial and has a distinct trunk” ( m t th c v t mà có thân, s ng lâu n m, có g , kích th có ki n th c ph thơng, có th ch#p nh n c l n) i v i nh ng ng i nh ngh a Nh ng n u mu n bi t sâu h n nh “cây có r-, có t bào xen – lu – lơ, t ch c có s s ng, …” ta c n ph i tra ng ngh a c$a t “plant”, nhiên tra t “plant”, ta s* nh n c hai l i gi i thích hồn tồn khác nhau: m t dành cho ngh a “nhà máy” m t dành cho ngh a “th c v t” Câu h2i "t là, mu n truy xu#t t ngh a nào? ây h n ch c$a t Các t (structure), i n thơng th i n thơng th ng ng ch$ y u thi u thơng tin mang tính c#u trúc nh ngh a c$a ch& mang thơng tin có tính d t ch c theo v n abc, nên không th ch a 0112274 – Ph m Th M Ph ng ng, máy tính s* ch n - 144 - ki n (fact), cách m i t m i thơng tin có liên quan 0112398 – T Th Ng c Thanh LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc nh ngh a c$a c, làm nh v y s* trùng l p thơng tin, kích th c c$a t i n s* vô l n không kinh t Cu i cùng, m t khuy t i m l n nh#t mà h u h t t ph i, ó vi c i n thông th ng u g"p nh ngh a t Wb, r1i nh ngh a vòng tròn Ngh a là: dùng t Wa nh ngh a l i t Wa l i có ch l i dùng t Wb 4.1.2 T ch'c d% li&u danh t" WordNet Th#y c khuy t i m c$a t i n thông th ng, WordNet l u tr danh t thành m t h th ng phân c#p hình d a theo quan h h danh (hyponymy) th ng danh (hypernymy) Xu#t phát t g c m t ý ni m cha r#t t.ng quát, d a theo quan h th ng danh (hypernymy), t gi phân (nhánh) thành ý ni m c! th h n, r1i c/ng t ý ni m này, l i ti p t!c phân nh2 n a thành ý ni m chi ti t h n, c nh th n khơng cịn c n thi t phân chia n a (trung bình c ch!c c#p) nút t n ó (nút lá) danh t Ví d!, “cây s1i” (oak) m t loài “cây” (tree), “cây” m t loài “th c v t” (plant), “th c v t” m t loài “h u c ” (organism) Trong WordNet s* di-n t nh sau: oak @ → tree @ → plant @ → organism, v i ký hi u “@ →” cha, th hi n quan h h danh (hyponymy), hay g i quan h ISA quan h h danh quan h th c ký hi u “~ →” oak ( WordNet tr2 n nút il pv i ng danh (hypernymy) WordNet, quan h n nút con, ví d!: organism ~ → plant ~ → tree ~ → c l u tr d hyponymy m t cách t tr2 i d ng i n t%, nên WordNet ch& c n l u quan h ng minh, quan h hypernymy s* ct ng suy t quan h hyponymy) V i cách t ch c phân c#p nh trên, WordNet không c n l u m i tính ch#t c$a m i ý ni m (nút), mà ch& c n l u "c i m riêng c$a ý ni m ó mà thơi, cịn tính ch#t khác ct ng suy di-n t "c tính chung c k th a t ý ni m cha v i "c tính khác c$a ý ni m i u giúp cho WordNet kh c ph!c khuy t i m c$a t i n thông th c ng (không l u trùng l p thông tin mà v n ch a y $ thông tin, ti t ki m không gian l u tr ) 0112274 – Ph m Th M Ph ng - 145 - 0112398 – T Th Ng c Thanh LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc Ngoài ra, v i t ch c phân c#p có k th a nh trên, WordNet kh c ph!c c hi n t ng nh ngh a vịng quanh, khơng bao gi có hi n t ngh a t Wb, r1i Wb l i h ch& có m t chi u nh#t d i, i t t.ng th it d nh ngh a Wa Vì theo t ch c hình cây, m i lo i quan nh, ví d! quan h th ng danh, ch& có chi u t xu ng n chi ti t ( chuyên bi t hố), cịn quan h h danh ng i lên trên, i t chi ti t nh ng t Wa c l i: n t.ng th (t.ng quát hoá) Tuy nhiên, không ph i m i thông tin v th gi i th c ni m c$a WordNet, nên th c t , ta c/ng khơng th có tri th c v th gi i th c c$a “cây” nh tri th c c$a ng i u c l u ý c y $ hoàn toàn c Ví d!: WordNet khơng l u nh ng thơng tin, nh : “cây” cho bóng mát, khơ có th làm c$i un, … Hi n nay, WordNet ch a liên k t “bác s ” v i “b nh vi n”, ch a th liên k t “v t”, “banh”, “l i”, … v i “sân ch i tennis” 4.1.3 Các ý ni&m nguyên thu2 (primitive semantic) Trong WordNet, ta có “gia ph ” c$a t “oak” nh sau: {oak} @→ {tree} @→ {plant, flora} @→ {organism, living thing} @→ {thing, entity} Nh v y, ý ni m {thing, entity} m t ý ni m g c, ý ni m cao nh#t, t.ng qt nh#t, v y ch+ng mang m t ý ngh a ( ó r#t chung chung) m i ý ni m WordNet u d n t i ý ni m g c ó ( u cháu c$a nó) Tuy nhiên, n u ta t ch c ý ni m danh t v i m t g c ý ni m nh#t s* n cho có kích th c r#t l n, vi c t ch c nhãn cho ý ni m ph i chi ti t h n tránh trùng Ví d!: gi a “plant” c$a ý ni m “th c v t” “plant” c$a ý ni m “nhà máy”, WordNet ph i dùng nhãn (d ng t ) khác phân bi t, h n n a, s gom v chung m t g c l n nh v y c/ng ch+ng có k th a c thơng tin ( ý ni m g c r#t chung chung, thơng tin) Chính v y mà WordNet ã phân thành 25 g c nh b ng d t Các g c c g i ý ni m nguyên thu4 M i nh v y i ây mô c l u thành m t t p tin riêng r* Chính v y, mà g"p nhãn “plant” (th c v t) nh trên, máy tính khơng nh0m l n v i “plant” có ngh a “nhà máy”, ý ni m mà ch a “tree” mà có ý ni m nguyên thu4 {plant} (th c v t) 0112274 – Ph m Th M Ph ng - 146 - c l u riêng bi t v i 0112398 – T Th Ng c Thanh LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc ý ni m mà có ch a “plant” v i ngh a “nhà máy” (ý ni m c l u khác, mà có ý ni m nguyên thu4 {artifact}) Quan sát 25 ý ni m nguyên thu4 ó, ta th#y có m t s ý ni m có nh ng nét ngh a chung (ví d!: {animal}, {person}, {plant} u nh ng v t có s s ng), v y mà WordNet, nh ng ý ni m có chung nét ngh a nh v y s* nhóm v i t o thành c$a m t ý ni m cao h n Sau nhóm rút g n l i, WordNet ch& 11 ý ni m nguyên thu4 (nh ng ý ni m b ng d Organism Animal (súc v t) (th c th (v t có s Person (ng xúc s ng) c) c in nghiêng i ây) Entity ti p c i) Plant (th c v t) Object (v t Artifact ( nhân t o) th không Natural object (v t th t nhiên) có s s ng) Substance (ch#t) Body (c th ) Food (th c n) Abstraction Attribute (thu c tính) ( t tr u Quantity (s l ng) ng ) Relation (quan h ) Time (th i gian) Psychology Cognition (tri nh n) feature (v Feeling (c m giác) tâm lý) Motivation (tình c m) Natural phenomenon (hi n t t nhiên) ng Process (quá trình) Activity (ho t ng) Event (bi n c ) Group (nhóm ng i) Location (v trí ) Possession (s h u) 0112274 – Ph m Th M Ph ng - 147 - 0112398 – T Th Ng c Thanh LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc Shape (hình d ng) State (tr ng thái) B ng 17:S phân l p danh t WordNet Các ý ni m b ng ây c g i nh ng ý ni m nguyên thu4 (primitive semantic component) T nh ng ý ni m nguyên thu4 này, WordNet ã xây d ng nên h th ng phân l p cho danh t theo quan h h danh (hyponymy) th ng danh (hypermyny) V i cách s p x p nh trên, th c t s% d!ng WordNet, tác gi th#y sâu c$a WordNet r#t c n (c 10 – 12 c#p) g n m t n%a s ý ni m ph i i qua ó, mang ý ngh a k thu t nhi u h n 4.1.4 c i6m riêng c a m=i ý ni&m h& phân c(p: Theo cách t ch c c$a WordNet, ý ni m k th a m t ý ni m cha, c n ph i có m t s "c tính riêng nh0m phân bi t v i ý ni m cha ý ni m anh em v i Các "c tính phân bi t g1m lo i, ví d! v i ý ni m {robin} (chim c 2), có lo i "c tính sau: Thu c tính (attributes), (n i v i tính t ) [ màu = 2, kích th c = nh2] B ph n (parts) (n i v i dnh t ) [m2, lông,cánh] Ch c n ng (functions) (n i v i T ng t ) = [hót, bay] ng t , ý ni m {canary} (chim vàng anh) c/ng c$a ý ni m {bird} (chim), có thu c tính [ màu = vàng, kích th c = nh2], có b ph n [ m2, lơng, cánh], có kh n ng [hót, bay, , tr ng] V y ta th#y gi a {robin} {canary} ( u lồi chim), có i m khác bi t v màu s c Nh v y, thông tin c$a m t ý ni m thơng tin k th a t ý ni m cha c n thêm "c tính riêng c$a V y ta có th nói synset {A} c$a synset {B} n u t#t c "c tính c$a synset {B} u có synset {A} Vì v y m t t thu c synset con, có th làm ti n trí t (antecendent) thay cho m t t thu c synset cha, hay có th thay cho m t ki n it i t c$a m t ng t v i i u ó thu c synset cha Ví d!: 0112274 – Ph m Th M Ph ng - 148 - 0112398 – T Th Ng c Thanh LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc - Trong câu “Tôi a anh #y m t cu n ti u thuy t hay, nh ng cu n sách ó làm bu1n” Ta có cu n ti u thuy t ý ni m c$a ý ni m cu n sách, nên có th làm ti n trí t cho t cu n sách - Trong câu “Tôi u ng n c”, có th thay th t “u ng” b0ng b#t k3 i t mà thu c ý ni m c$a nó, nh : n 4.2 c ngot, n c trà, n i t “n ng t": ng t t lo i quan tr ng nh#t t b t bu c ph i có Hornby) D a ng c su i, … H& th ng nhãn ng% ngh!a c a ti ng Anh D a "c i m c$a c” c$a ng t , ta có th xác ng t , ta có th xác i v i m i câu nh c#u trúc c$a câu (A.S nh vai câu (Fillmore) S l ng ng t ti ng Anh ch& b0ng 1/3 s l ng danh t , m c ng t l i cao h n (trung bình m t ng t có 2.11 ngh a, cịn danh t có 1.74 ngh a) Ngh a c$a ng t r#t uy n chuy n, linh n WordNet chia hành m h1 ngh a c$a ng theo danh t có liên quan ng t thành 15 nhóm ( trên) ch& bi n c (event), ng (action) hay tr ng thái (state) khác d a theo s phân chia v m"t ng ngh a, nh : nhóm ng t ch ch c n ng vi c ch m sóc c th , s nh n th c, quan h xã h i, … Vi c xây d ng t p 1ng ngh a (synset) cho h n so v i danh t khó xác ng t nh t ng t c/ng g"p nhi u khó kh n 1ng ngh a Ta th#y ti ng Anh có m t s 1ng ngh a, nh : begin – commence (b t u), end – terminate (k t thúc), buy – purchase (mua), hide – conceal (gi#u), … nh ng th c ch#t vi c dùng l n l n ng t 1ng ngh a khơng ph i lúc c/ng úng Ví d!: ng “Where have you hidden Dad’s slippers?” (Anh gi#u dép c$a Dad i ta th ng nói âu?) ch khơng nói “Where have you concealed Dad’s slippers?” Vi c bi u di-n ng ngh a t ch c ng t i u khó kh n nh#t so v i t lo i khác Có r#t nhi u cách ti p c n khác ch$ y u phân rã ng ngh a s cách phân gi i ng ngh a 0112274 – Ph m Th M Ph bi u di-n ng ngh a c$a ng t , ng t thành d ng hay d ng khác Sau ây m t ng t ng - 149 - 0112398 – T Th Ng c Thanh LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc 4.2.1 S# phân gi i ng% ngh!a c a H u h t cách ti p c n ngh a ng t": i v i ng ngh a ng t c g ng phân gi i ng ng t thành m t s h u h n thành ph n ý ni m – ng ngh a ph quát (universal semantic – conceptial components), hay g i ý ni m nguyên thu4, nguyên t , s kh i, v t nguyên t%, danh t ánh d#u (noun marker), ví d!: “kill” (gi t) = {CAUSE TO BECOME NOT ALIVE} (gây s d n Cách ti p c n ã nh n c nhi u ý ki n khác nhau, có ng Lakoff, Jackendoff, Schank, Miller) nh ng c/ng có ng h p (Chomsky m t s ng n khơng s ng) i 1ng tình (Katz, i cho khơng thích i khác) S phân tích ng ngh a quan h c$a c$a i ph n ng t ng t khác v i s phân gi i ng ngh a ng t S phân gi i ng ngh a ch$ y u d a ý ni m c s ( n v ng ngh a nh2 nh#t), cịn s phân tích ng ngh a quan h l i d a vào ý ni m c n b n ã hình thành u óc c$a ng i Ví d!: nh quan h CAUSE (nguyên nhân) liên k t c"p ng t teach (d y) – learn (h c), show (ch&) – see (th#y), d a quan h c/ng giúp ta phân bi t m t cách có h th ng tha verb) t ng t (transitive ng t (intransitive verb) 4.2.2 Quan h& kéo theo c a Trong WordNet, m i t lo i ng t": c t ch c d a theo m t quan h ó, ví d!: danh t d a theo quan h h danh (hyponymy), tính t d a theo quan h ph n ngh a (antonymy), cịn ng t d a vào quan h kéo theo (entialment) Gi a quan h kéo theo có ph n ó gi ng quan h b ph n (meronymy), nh ng khơng thích h p cho ý ngh a V1 b ph n c$a V2 gi ng nh bên danh t Ví d!: ta th% xét có ph i “thinking” (s suy ngh ) m t b ph n c$a “planning” (vi c ho ch nh) hay không? Nh ng nhi u ng i cho r0ng ng t không th phân chia b ph n gi ng nh danh t vì: danh t b ph n c$a danh t (referent) c! th , phân bi t ó bên Ngồi ra, quan h gi a ng t khơng u có s ch& v t c rõ ràng nh v y ng t ph! thu c vào th i gian th c hi n, x y hành ng, bi n c (bên danh t : quan h b ph n không ph! thu c vào th i gian) M t 0112274 – Ph m Th M Ph ng - 150 - 0112398 – T Th Ng c Thanh LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc hành ng hay bi n c c g i m t b ph n c$a m t hành ng hay bi n c khác ch& m t ph n, m t giai o n trình th c hi n c$a hành Tóm l i, qua quan sát tr ng trên, ta rút nh n ng nh sau: n u V1 kéo theo V2 n u th i gian di n V1 n m hay bao hàm th i gian di n V2 gi a V1 V2 có quan h b ph n – toàn th (part – whole) 4.2.3 Quan h& cách th'c c bi&t c a ng t": Trong WordNet, quan h h danh (hyponymy) óng vai trị vi c t ch c danh t , ví d!: “canary” (chim vàng anh) m t lo i (h danh c$a) “bird” (chim), nh ng iv i ng t , ta th#y khơng thích h p n u nói “limp” ( i kh p khi-ng) m t lo i c$a “walk” ( i b ) i u do: s khác bi t ng ngh a gi a ng t khác v i nh ng "c tr ng phân bi t gi a danh t quan h h danh Trong vi c xem xét quan h “h danh” c$a không tr n gi n nh danh t , mà liên quan ng t , ng i ta nh n th#y n s cân nh c t& m& v ng ngh a ng ngh a (semantic field) khác Ví d!: phân tích ng: “slide” (tr t) “pull” (kéo), ng i ta nh n th#y r0ng chúng m t s k t h p khác gi a nét ngh a MOVE (chuy n ng) v i nét ngh a MANNER (cách th c) Chính v y, mà WordNet, ã s% d!ng m t quan h m i, cách th c (troponymy) ng t chuy n c g i quan h di-n t “V1 V2 v i cách th c "c bi t”, ví d!: “limp” ( i kh p khi-ng) có quan h cách th c v i "c bi t v i “walk” ( i b ) “ i kh p khi-ng m t cách th c i b cách th c ng, hành "c bi t” Cách th c "c bi t ph i ng, mà cịn có th ý x y bi n c , nh, c hi u r ng không ch& ng c , mơi tr ng, … hành hình thành tr ng thái Trong m i quan h cách th c "c bi t, gi a ng t V1 c$a m t ng t V2 t.ng quát h n, bao gi c/ng có quan h V1 c/ng kéo theo V2 Ví d! nh : di-n hành ng “ i kh p khi-ng” hi n nhiên lúc ó c/ng ph i di-n ang di-n hành ng “ i b ” Vì v y, ta có th nói: quan h cách th c h p c bi t (troponymy) m t tr ng c bi t c a quan h kéo theo (entailment) M t quan h kéo theo mà ó th i gian di-n hành 0112274 – Ph m Th M Ph ng c$a ng ng t trùng Còn gi a hai - 151 - ng t “buy/ 0112398 – T Th Ng c Thanh LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc pay” hay “snore/ sleep” ch& quan h kéo theo mà thơi ch khơng có quan h cách th c "c bi t (vì th i gian di-n c$a hành 0112274 – Ph m Th M Ph ng - 152 - ng không trùng nhau) 0112398 – T Th Ng c Thanh LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... pháp tìm ki m t t h n mà có th th c s tin c y vào nh ng k t qu tìm ki m ó ó xu h ng c$a nh ng cơng c! tìm ki m d a vào ng ngh a agent tìm ki m theo ng ngh a M t cơng c! tìm ki m ng ngh a tìm ki... luanvanchat@agmail.com tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc M( )U Hi n nay, h u h t h th ng tìm ki m Internet u i theo h ng truy n th ng ó tìm ki m theo t khố ( key word ) Theo cách tìm ki m này, ta... nh ch n tài: Tìm ki m ng% ngh!a 'ng d ng l!nh v#c eDoc (nh ng tài li u i n t% ti ng Anh) v i m!c ích tìm hi u xây d ng m t cơng c! tìm ki m theo ng ngh a y $, có th h n ch có th tìm ki m thơng

Ngày đăng: 01/11/2022, 20:26

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w