0
Tải bản đầy đủ (.pdf) (152 trang)

ng 13: Nhãn ng% ngh!a cb ncho dan ht "

Một phần của tài liệu TÌM KIẾM NGỮ NGHĨA ỨNG DỤNG TRÊN LĨNH VỰC EDOC (Trang 140 -140 )

I. Lu nv n, lun án:

B ng 13: Nhãn ng% ngh!a cb ncho dan ht "

tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc

3.2. Nhãn ng% ngh!a c b n cho ng t":

STT Nhãn Mô t Ý ngha

1 VBDY Body Các ng t c$a c th : n, m"c, …

2 VCHG Change Các ng t thu c v s thay .i:

t ng, .i, …

3 VCOG Human Các ng t tri nh n: suy ngh, xét

oán,…

4 VCOM Communication Các ng t truy n thông: k , h2i, ra l nh, …

5 VCMP Competition Các ng t v c nh tranh: chi n #u, thi #u, …

6 VCSM Consumption Các ng t v tiêu th!: n, u ng, …

7 VCON Contact Các ng t v ti p xúc: ánh, ào,

8 VCRE Creation Các ng t v s t o l p: s n, khâu, thi hành, …

9 VEMO Emotion Các ng t v c m giác: yêu,

ghét,…

10 VMOT Motion Các ng t v chuy n ng: i,

bay, b i, …

11 VPER Perception Các ng t v giác quan: nghe, th#y, c m th#y, …

12 VPOS Possession Các ng t v s h u: mua, bán, s h u, …

13 VSOC Social Các ng t v ho t ng xã h i:

tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc

14 VSTA Stative Các ng t v tr ng thái, quan h

không gian. 15 VWEA Weather Các ng t v th i ti t: m a, tuy t, s#m, … B ng 14: Nhãn ng ngha c b n cho ng t 3.3. Nhãn ng% ngh!a c b n cho tính t": STT Nhãn Mô t Ý ngha

1 ACOL Color Các tính t v màu s c: 2, xanh, … 2 ASIZ Size Các tính t v kích th c: tròn, d t, … 3 ATME Time Các tính t thu c v th i gian: lâu, mau,

4 ASPC Space Các tính t thu c v không gian: l n, nh2, dài, …

5 ASTR Strength Các tính t v s c m nh: m nh, y u, … 6 ADEG Degree Các tính t v m c : nhi u, ít, … 7 AFEA Feature Các tính t v "c i m, n i dung: khó,

hay, …

8 AREF Reference Các tính t b. ngha s ch&: former (president)

9 AREL Relation Các tính t quan h : Vietnamese (war) B ng 15 : Nhãn ng ngha c b n cho tính t 3.4. H& th ng nhãn ng% ngh!a LDOCE STT Mã ng ngh a c b n Mã ng ngha phát sinh 1 A Con v t (animal) E Ch#t r n/ l2ng (S + L)

tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc (female animal) (D +M) 3 C V t c! th (concrete) O Ng i/ con v t (A + H) 4 D Con v t c (male animal) R Ng i/con v t cái (B + F) 5 F Ng i n (female human) U T p h p ng i/con v t (Col. + O) 6 G Khí (gas) V Th c v t/ con v t (P + A) 7 H Ng i (human) W V t tr u t ng/c! th (T + I) 8 I V t c! th không có s s ng X V t tr u t ng/ ng i (T + H) 9 J V t r n di chu4ên c Y V t tr u t ng/ có s s ng (T + Q) 10 L Ch#t l2ng (liquid) 1 Ng i /ch#t r n ( H + S) 11 M Ng i nam ( male human) 2 Tr u t ng/ ch#t r n ( T + S) 12 N V t r n không di chuy n c 6 Ch#t l2ng/ tr u t ng (L + T) 13 P Th c v t ( plant) 7 Ch#t khí/ ch#t l2ng (G + L) 14 Q Có s s ng (animate) 15 S Ch#t r n (solid) 16 T Tr u t ng (abstract)

tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc 17 Z Không ánh d#u (unmarked) 18 4 V t th tr u t ng (abs physic) 19 5 Ch#t h u c ( organic material) B ng 16: H& th ng nhãn ng% ngh!a LDOCE 4. H& c s$ tri th'c ng% ngh!a t" v#ng WordNet

4.1. H& th ng nhãn ng% ngh!a c a danh t":

Tr c h t, ta s* tìm hi u nh ng h n ch trong cách l u tr thông tin v ng ngha c$a danh t t i n thông th ng, t ó, chúng ta m i th#y nh ng u th c$a WordNet trong cách l u tr , truy xu#t, c p nh t các thông tin ó.

4.1.1. T ch'c c a danh t" trong t" i6n thông th 7ng:

Khi ta tra m t danh t nào ó trong các t i n thông th ng, ta s* nh n c nh ng l i gi i thích có v, khá y $. Ví d!, tra t “tree” (cây), ta s* nh n c nh ngha “tree is a plant that is large, woody, perennial and has a distinct trunk” ( cây là

m t th c v t mà có thân, s ng lâu n m, có g , kích th c l n). i v i nh ng ng i

có ki n th c ph. thông, có th ch#p nh n nh ngha này. Nh ng n u chúng ta mu n bi t sâu h n nh “cây có r-, có t bào xen – lu – lô, là t. ch c có s s ng, …” thì ta c n ph i tra ng ngha c$a t “plant”, tuy nhiên khi tra t “plant”, ta s* nh n c hai l i gi i thích hoàn toàn khác nhau: m t dành cho ngha “nhà máy” và m t dành cho ngha “th c v t”. Câu h2i "t ra là, khi mu n truy xu#t t ng, thì máy tính s* ch n ngha nào? ây là h n ch c$a các t i n thông th ng.

Các t i n thông th ng ch$ y u thi u thông tin mang tính c#u trúc (structure), vì nh ngha c$a nó ch& mang thông tin có tính d ki n (fact), và do cách t. ch c theo v n abc, nên không th ch a m i t m i thông tin có liên quan trong

tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc

nh ngha c$a nó c, vì làm nh v y s* trùng l p thông tin, kích th c c$a t i n s* vô cùng l n và không kinh t .

Cu i cùng, m t khuy t i m l n nh#t mà h u h t các t i n thông th ng u g"p ph i, ó là vi c nh ngh a vòng tròn. Ngha là: dùng t Wa nh ngh a t Wb, r1i l i có ch l i dùng t Wb nh ngha l i t Wa.

4.1.2. T ch'c d% li&u danh t" trong WordNet

Th#y c các khuy t i m c$a t i n thông th ng, WordNet l u tr danh t thành m t h th ng phân c#p hình cây d a theo quan h h danh (hyponymy) và th ng danh (hypernymy). Xu#t phát t g c là m t ý ni m cha r#t t.ng quát, d a theo quan h th ng danh (hypernymy), t gi phân (nhánh) thành các ý ni m con c! th h n, r1i c/ng t chính các ý ni m con này, l i ti p t!c phân nh2 n a thành các ý ni m chi ti t h n, và c nh th n khi không còn c n thi t phân chia n a (trung bình c ch!c c#p) và nút t n cùng ó (nút lá) chính là các danh t .

Ví d!, “cây s1i” (oak) là m t loài “cây” (tree), “cây” là m t loài “th c v t” (plant), “th c v t” là m t loài “h u c ” (organism). Trong WordNet s* di-n t nh sau: oak @ → tree @ → plant @ → organism, v i ký hi u “@ →” tr2 n nút cha, th hi n quan h h danh (hyponymy), hay còn g i là quan h ISA. i l p v i quan h h danh là quan h th ng danh (hypernymy) và trong WordNet, quan h này c ký hi u là “~ →” tr2 n nút con, ví d!: organism ~ → plant ~ → tree ~ → oak ( vì WordNet c l u tr d i d ng i n t%, nên WordNet ch& c n l u quan h hyponymy m t cách t ng minh, còn quan h hypernymy s* c t ng suy ra t quan h hyponymy).

V i cách t. ch c phân c#p nh trên, WordNet không c n l u m i tính ch#t c$a m i ý ni m (nút), mà ch& c n l u "c i m riêng c$a ý ni m ó mà thôi, còn các tính ch#t khác c t ng suy di-n ra t "c tính chung c k th a t ý ni m cha cùng v i các "c tính khác c$a các ý ni m con. i u này giúp cho WordNet kh c ph!c c các khuy t i m c$a t i n thông th ng (không l u trùng l p thông tin mà v n ch a

tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc

Ngoài ra, v i các t. ch c phân c#p có k th a nh trên, WordNet kh c ph!c c hi n t ng nh ngha vòng quanh, không bao gi có hi n t ng t Wa nh ngha t Wb, r1i chính Wb l i nh ngha Wa. Vì theo t. ch c hình cây, m i lo i quan h ch& có m t chi u nh#t nh, ví d! quan h th ng danh, ch& có chi u t trên xu ng d i, i t t.ng th n chi ti t ( chuyên bi t hoá), còn quan h h danh thì ng c l i:

i t d i lên trên, i t chi ti t n t.ng th (t.ng quát hoá).

Tuy nhiên, không ph i m i thông tin v th gi i th c u c l u trong các ý ni m c$a WordNet, nên trên th c t , ta c/ng không th có c y $ hoàn toàn các tri th c v th gi i th c c$a “cây” nh tri th c c$a ng i c. Ví d!: WordNet không l u nh ng thông tin, nh : “cây” cho bóng mát, cây khô có th làm c$i un, …. Hi n nay, WordNet ch a liên k t “bác s” v i “b nh vi n”, ch a th liên k t “v t”, “banh”, “l i”, … v i “sân ch i tennis”.

4.1.3. Các ý ni&m nguyên thu2 (primitive semantic)

Trong WordNet, ta có “gia ph ” c$a t “oak” nh sau: {oak} @→ {tree} @→ {plant, flora} @→ {organism, living thing} @→ {thing, entity}. Nh v y, ý ni m {thing, entity} là m t ý ni m g c, ý ni m cao nh#t, t.ng quát nh#t, chính vì v y nó ch+ng mang m t ý ngh a gì ( vì nó là cái gì ó r#t chung chung) và m i ý ni m trong WordNet u d n t i ý ni m g c ó ( u là con cháu c$a nó). Tuy nhiên, n u ta t. ch c cây ý ni m danh t v i m t g c ý ni m duy nh#t trên cây thì s* khi n cho cây có kích th c r#t l n, vi c t. ch c các nhãn cho các ý ni m ph i chi ti t h n tránh trùng nhau. Ví d!: gi a “plant” c$a ý ni m “th c v t” và “plant” c$a ý ni m “nhà máy”, WordNet ph i dùng 2 nhãn (d ng t ) khác nhau phân bi t, h n n a, s gom v chung m t g c l n nh v y thì c/ng ch+ng có k th a c thông tin gì ( vì các ý ni m g c là r#t chung chung, ít thông tin).

Chính vì v y mà WordNet ã phân thành 25 g c chính nh b ng d i ây mô t . Các g c này c g i là các ý ni m nguyên thu4. M i cây nh v y c l u thành m t t p tin riêng r*. Chính vì v y, mà khi g"p nhãn “plant” (th c v t) nh trên, thì máy tính không nh0m l n v i “plant” có ngha “nhà máy”, vì cây ý ni m mà ch a “tree” là cây mà có ý ni m nguyên thu4 là {plant} (th c v t) c l u riêng bi t v i

tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc

cây ý ni m mà có ch a “plant” v i ngha là “nhà máy” (ý ni m này c l u trong cây khác, cây mà có ý ni m nguyên thu4 là {artifact}).

Quan sát 25 ý ni m nguyên thu4 ó, ta th#y có m t s ý ni m có nh ng nét ngha chung nhau (ví d!: {animal}, {person}, {plant} u là nh ng v t có s s ng), chính vì v y mà trong WordNet, nh ng ý ni m có chung nét ngha nh v y s* c nhóm v i nhau t o thành con c$a m t ý ni m cao h n. Sau khi nhóm rút g n l i, trong WordNet ch& còn 11 ý ni m nguyên thu4 (nh ng ý ni m c in nghiêng trong b ng d i ây). Animal (súc v t) Person (ng i) Organism (v t có s s ng) Plant (th c v t) Artifact ( 1 nhân t o)

Natural object (v t th t nhiên) Body (c th ) Entity (th c th ti p xúc c) Object (v t th không có s s ng) Substance (ch#t) Food (th c n) Attribute (thu c tính) Quantity (s l ng ) Relation (quan h ) Abstraction ( tr u t ng) Time (th i gian) Cognition (tri nh n) Feeling (c m giác) Psychology feature (v tâm lý) Motivation (tình c m)

Natural phenomenon (hi n t ng t nhiên) Process (quá trình) Activity (ho t ng) Event (bi n c ) Group (nhóm ng i) Location (v trí ) Possession (s h u)

tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc

Shape (hình d ng) State (tr ng thái)

B ng 17:S phân l p danh t trong WordNet

Các ý ni m trong b ng trên ây c g i là nh ng ý ni m nguyên thu4 (primitive semantic component). T nh ng ý ni m nguyên thu4 này, WordNet ã xây d ng nên h th ng cây phân l p cho danh t theo quan h h danh (hyponymy) và th ng danh (hypermyny).

V i cách s p x p nh trên, trong th c t s% d!ng WordNet, tác gi th#y sâu c$a cây WordNet r#t c n (c 10 – 12 c#p) và g n m t n%a trong s các ý ni m ph i i qua ó, mang ý ngha k thu t nhi u h n.

4.1.4. c i6m riêng c a m=i ý ni&m trong h& phân c(p:

Theo cách t. ch c c$a WordNet, các ý ni m con cùng k th a m t ý ni m cha, c n ph i có m t s "c tính riêng nh0m phân bi t v i ý ni m cha và các ý ni m anh em v i nó. Các "c tính phân bi t này g1m 3 lo i, ví d! v i ý ni m {robin} (chim c. 2), nó có 3 lo i "c tính sau:

Thu c tính (attributes), (n i v i tính t ) [ màu = 2, kích th c = nh2]

B ph n (parts) (n i v i dnh t ) [m2, lông,cánh] Ch c n ng (functions) (n i v i ng t ) = [hót, bay]

T ng t , ý ni m {canary} (chim vàng anh) c/ng là con c$a ý ni m {bird} (chim), có thu c tính [ màu = vàng, kích th c = nh2], có b ph n [ m2, lông, cánh], có kh n ng [hót, bay, , tr ng]. V y ta th#y gi a {robin} và {canary} ( u cùng là loài chim), có i m khác bi t v màu s c. Nh v y, thông tin c$a m t ý ni m chính là thông tin k th a t ý ni m cha c n thêm các "c tính riêng c$a nó. V y ta có th nói synset {A} là con c$a synset {B} n u t#t c các "c tính c$a synset {B} u có trong synset {A}. Vì v y m t t thu c synset con, có th làm ti n trí t (antecendent) thay cho m t t thu c synset cha, hay có th thay cho m t i t c$a m t ng t v i i u ki n i t ó thu c synset cha. Ví d!:

tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc

- Trong câu “Tôi a anh #y m t cu n ti u thuy t hay, nh ng cu n sách ó làm anh ta bu1n”. Ta có cu n ti u thuy t là ý ni m con c$a ý ni m cu n sách, nên có th làm ti n trí t cho t cu n sách.

- Trong câu “Tôi u ng n c”, có th thay th i t “n c” c$a ng t “u ng” b0ng b#t k3 i t nào mà thu c ý ni m con c$a nó, nh :

n c ngot, n c trà, n c su i, …

4.2. H& th ng nhãn ng% ngh!a c a ng t":

ng t là t lo i quan tr ng nh#t và là t b t bu c ph i có i v i m i câu ti ng Anh. D a trên "c i m c$a ng t , ta có th xác nh c#u trúc c$a câu (A.S. Hornby). D a trên ng t , ta có th xác nh các vai trong câu (Fillmore). S l ng ng t trong ti ng Anh ch& b0ng 1/3 s l ng danh t , còn m c m h1 ngha c$a ng t thì l i cao h n (trung bình m t ng t có 2.11 ngha, còn danh t có 1.74 ngha). Ngha c$a ng t r#t uy n chuy n, linh ng theo các danh t có liên quan n nó. WordNet chia các ng t thành 15 nhóm ( trên) ch& các bi n c (event),

hành ng (action) hay tr ng thái (state) khác nhau d a theo s phân chia v m"t ng ngha, nh : nhóm ng t ch ch c n ng và vi c ch m sóc c th , s nh n th c, quan h xã h i, ….

Vi c xây d ng t p 1ng ngha (synset) cho ng t c/ng g"p nhi u khó kh n h n so v i danh t vì khó xác nh t 1ng ngh a. Ta th#y trong ti ng Anh có m t s ng t 1ng ngha, nh : begin – commence (b t u), end – terminate (k t thúc), buy – purchase (mua), hide – conceal (gi#u), … nh ng th c ch#t vi c dùng l n l n các ng t 1ng ngha này không ph i lúc nào c/ng úng. Ví d!: ng i ta th ng nói “Where have you hidden Dad’s slippers?” (Anh gi#u dép c$a Dad âu?) ch không nói là “Where have you concealed Dad’s slippers?”.

Vi c bi u di-n ng ngha và t. ch c ng t là i u khó kh n nh#t so v i các t lo i khác. Có r#t nhi u cách ti p c n khác nhau bi u di-n ng ngha c$a ng t , ch$ y u là phân rã ng ngh a ng t thành d ng này hay d ng khác. Sau ây là m t s cách phân gi i ng ngha ng t .

tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc

4.2.1. S# phân gi i ng% ngh!a c a ng t":

H u h t các cách ti p c n i v i ng ngha ng t là c g ng phân gi i ng ngha ng t thành m t s h u h n các thành ph n ý ni m – ng ngha ph. quát (universal semantic – conceptial components), hay còn g i là ý ni m nguyên thu4, nguyên t , s kh i, v t nguyên t%, danh t ánh d#u (noun marker), ví d!: ng t “kill” (gi t) = {CAUSE TO BECOME NOT ALIVE} (gây ra s d n n không s ng). Cách ti p c n này ã nh n c nhi u ý ki n khác nhau, có ng i 1ng tình (Katz,

Một phần của tài liệu TÌM KIẾM NGỮ NGHĨA ỨNG DỤNG TRÊN LĨNH VỰC EDOC (Trang 140 -140 )

×