Thông tin tài liệu
I HC QUăC GIA TH NH PHă H CH MINH I HC KHOA HC Tĩ NHI N TH NH PHă H˙ CH MINH XÛ L NG˘N NGÚ TÜ NHI N ç ¡n mỉn håc • t i: WORD SIMILARITY - Semantics TP Hỗ Ch Minh, thĂng nôm 2021 MệC LƯC Mưc lưc Giỵi thi»u 1.1 Mºt sŁ ành ngh¾a 1.2 Ph⁄m vi • t i 1.3 Ùng döng Mºt sŁ ph÷ìng ph¡p thỉng dưng t‰nh to¡n tữỡng ỗng gia t 2.1 Phữỡng phĂp dỹa trản ỵ in Thesaurus-based metho 2.1.1 T le 2.1.2 T (I 2.1.3 T 2.1.4 Ăn 2.2 Phữỡng phĂp phƠn tĂn (Distributional method) 2.2.1 G 2.2.2 2.2.3 Ănh giĂ chung vã cĂc phữỡng phĂp tnh tữỡng ỗng gia t DANHS CHHNHV Danh s¡ch h…nh v‡ Mºt phƒn cıa h» ph¥n cĐp ỵ in WordNet biu din mt s khĂi niằm v kho£ng c¡ch giœa c¡c kh¡i ni»m Mºt phƒn ca hằ phƠn cĐp ỵ in WordNet biu din mt sŁ kh¡i ni»m v c¡c gi¡ trà x¡c su§t cıa tłng kh¡i ni»m Vector ỗng xuĐt hiằn ca t "cell" Hai º o Manhattan v Euclidean 2 1.1 MáT Să PHìèNG PH P TH˘NG DƯNG TRONG T NH TO N ¸ TìèNG NG GIA Tỉ Giợi thiằu Mt s nh nghắa ã Sỹ ỗng nghắa (Synonymy): quan hằ nh phƠn cho bit t cõ ỗng nghắa hay khổng ã Sỹ tữỡng ỗng (Similarity): mt nh nghắa thoĂng hỡn ca ỗng nghắa, phĂt biu rng t tữỡng ỗng nu chúng cõ chung nhiãu c im vã nghắa, khổng cn phÊi l t ỗng nghắa tuyằt i V dư: Trong ti‚ng Anh, x†t ngh¾a cıa tł bank : ã Nghắa thứ nhĐt tữỡng ỗng vợi nghắa ca tł fund , nh÷ng khỉng nâi r‹ng tł bank t÷ìng ỗng vợi t fund ã Nghắa thứ tữỡng ỗng vợi nghắa ca t slope , khổng nõi rng t bank tữỡng ỗng vợi t slope 1.2 Phm vi •ti Ph⁄m vi • t i n y s‡ t‰nh toĂn sỹ tữỡng ỗng vã mt ng nghắa gia t: ã CĐp : t ã Bnh diằn: Ng nghắa 1.3 Ùng döng Ùng döng cıa vi»c t‰nh to¡n sü tữỡng ỗng gia t mt s b i to¡n: • Dàch m¡y (Machine Translation) • Nh“n bi‚t ⁄o vôn (Plagiarism Detection) ã PhƠn loi vôn bÊn (Document Clustering) ã TrÊ lới cƠu họi (Question Answering) ã ChĐm im b i lu“n tü ºng (Automatic Essay Grading) Mºt sŁ ph÷ìng ph¡p thỉng dưng t‰nh to¡n º t÷ìng ỗng gia t 2.1 Phữỡng phĂp dỹa trản ỵ i”n Thesaurus-based method) C¡c thu“t to¡n n y t‰nh to¡n sỹ tữỡng ỗng gia t dỹa trản cĂc ỵ in trỹc tuyn (nhữ WordNet hay MeSH) CĂc ỵ in n y ữổc cĐu trúc theo dng phƠn cĐp nghắa i tł tŒng qu¡t ‚n cư th‚ M¸T Să PHìèNG PH P THNG DệNG TRONG T NH TO N TìèNG NG GIA Tỉ Phữỡng phĂp n y ch yu tnh toĂn tữỡng ỗng gia t dỹa trản sỹ phƠn cĐp thữổng v v h v ỵ in Mt t A ữổc gồi l h⁄ cıa tł B (hyponym) ngh¾a cıa B tŒng qu¡t hìn A Khi â, B ÷ỉc gåi l th÷ỉng (hypernym) cıa A V‰ dư: car (xe hìi) l h⁄ cıa vehicle (ph÷ìng ti»n), v vehicle (ph÷ìng tiằn) l thữổng v ca car (xe hỡi) Tuy nhiản, ỵ in WordNet, ch cõ th tnh toĂn tữỡng ỗng gia t cõ loi tł (v‰ dö: danh tł v danh tł, ºng tł v ºng tł) 2.1.1 Thu“t to¡n 1: T‰nh to¡n º tữỡng ỗng dỹa trản d i ữớng i (Path-length based Similarity) ị tững: nghắa (sense) hay khĂi niằm (concept) c ng gn trản hằ phƠn cĐp ỵ in (thesaurus hierarchy) th chúng c ng tữỡng ỗng vã ng nghắa Nõi cĂch khĂc, nghắa/khĂi niằm cõ khoÊng cĂch c ng ngn trản hằ phƠn cĐp ỵ in th chúng c ng tữỡng ỗng vã ng nghắa KhoÊng cĂch gia khĂi niằm (concept) ữổc tnh bng tng s cnh gia chúng trản hằ phƠn cĐp ỵ in nhữ cổng thức dữợi Ơy: pathlen(c1; c2) = s cnh nm trản ữớng i ngn nhĐt ni khĂi niằm c 1; c2 Mức tữỡng ỗng gia kh¡i ni»m ho°c ngh¾a c1; c2: simpath(c1; c2) = logpathlen(c1; c2) Mức tữỡng ỗng gia t w1 v w2 cõ giĂ tr bng mức tữỡng ỗng lợn nhĐt s cĂc mức tữỡng ỗng ca cĂc cp nghắa (sense) l c i v cj, vợi ci l mºt ngh¾a cıa w1 v cj l mºt ngh¾a cıa w2: wordsim(w ; w ) = max ci2senses(w1);cj2senses(w2) sim(c ; c ) V‰ dö: Hnh 1: Mt phn ca hằ phƠn cĐp ỵ in WordNet bi”u di„n mºt sŁ kh¡i ni»m v kho£ng c¡ch giœa c¡c kh¡i ni»m Tł h…nh ta t‰nh c¡ch giœa c¡c kh¡i ni»m nickel , coin v ÷ỉc kho£ng money : MáT Să PHìèNG PH P THNG DệNG TRONG T NH TO N TìèNG NG GIA TØ pathlen( nickel ; coin ) = pathlen( nickel ; money ) = — ¥y ta ch¿ x†t mºt kh¡i ni»m cıa c¡c tł nickel , coin v money nản tữỡng ỗng gia cp t ( nickel v coin ) v ( nickel v money ) l : wordsim( nickel ; coin ) = sim( nickel ; coin ) = log1 = wordsim( nickel ; money ) = sim( nickel ; money ) = log5 = 0:69 Düa v o k‚t qu£ tr¶n câ th kt lun rng t nickel cõ tữỡng ỗng vỵi coin cao hìn so vỵi money Nh“n x†t: Ph÷ìng ph¡p n y ngƒm gi£ ành r‹ng c¡c c⁄nh ni cĂc nút trản hằ phƠn cĐp ỵ in cõ d i nhữ Tuy nhiản iãu n y khỉng óng thüc t‚ v… c¡c c⁄nh nŁi c¡c khĂi niằm nm cĐp bc c ng sƠu trản hằ phƠn cĐp s cõ d i ngn hỡn c¡c kh¡i ni»m n‹m ð c§p b“c cao hìn V‰ dö, h…nh 1, kho£ng c¡ch giœa nickel v money câ v· ng›n hìn so vỵi kho£ng c¡ch giœa nickel v standard v standard mang ỵ nghắa tru tữổng hỡn Do â cƒn mºt c¡ch ti‚p c“n kh¡c câ kh£ n«ng bi”u di„n º d i cıa c¡c c⁄nh mºt c¡ch ºc l“p v ch ‰nh x¡c hìn 2.1.2 Thu“t toĂn 2: Tnh toĂn tữỡng ỗng dỹa trản ni dung thỉng tin (Information Content Word Similarity) 2.1.2.1 ành ngh¾a cĂc yu t liản quan ã P(c) l xĂc suĐt mt t ữổc chồn ngÔu nhiản kho ng li»u (corpus) l mºt instance cıa kh¡i ni»m c tr¶n hằ phƠn cĐp ỵ in ã XĂc suĐt ca khĂi ni»m gŁc (root): P (c) = 1, v… t§t c£ c¡c tł •u l nh¡nh cıa root C¡c kh¡i niằm nm cĐp bc c ng sƠu trản hằ phƠn cĐp ỵ in s cõ xĂc suĐt c ng thĐp ã Mỉi khĂi niằm c trản hằ phƠn cĐp ỵ cõ mt giĂ tr xĂc suĐt P(c) v ữổc t‰nh b‹ng c i”n s‡ tŒng sŁ l÷ỉng c¡c tł l kh¡i ni»m chia cho tŒng sŁ tł kho ng liằu ữổc ca biu din trản ỵ in: P P (c) = w2words(c) count(w) N Trong â: words(c): t“p hỉp t§t c£ c¡c tł l kh¡i ni»m cıa c N: tŒng sŁ tł kho ngœ li»u ữổc biu din trản ỵ in V dử: MáT Să PHìèNG PH P THNG DệNG TRONG T NH TO N TìèNG NG GIA Tỉ Hnh 2: Mt phn ca hằ phƠn cĐp ỵ in WordNet biu di„n mºt sŁ kh¡i ni»m v c¡c gi¡ trà x¡c suĐt ca tng khĂi niằm Dỹa trản hnh 2, hổp tĐt cÊ cĂc t thuc vã khĂi niằm geological-formation , tức l words( geological-formation ) gỗm cõ: hill, ridge, grotto, coast, natural elevation, cave, shore • Nºi dung thỉng tin (information content IC) cıa mºt kh¡i ni»m c ÷ỉc t‰nh b‹ng cỉng thøc sau: IC(c) = logP (c) • Nót cha chung gƒn nh§t (Least Common Subsumer LCS) cıa kh¡i ni»m c v c2: LCS(c1; c2) = thữổng v gn nhĐt cac1 v c2 V dử: Dỹa trản hnh ta thĐy: LCS( hill , coast ) = geological-formation LCS( hill , shore ) = shore 2.1.2.2 CĂc phữỡng phĂp tnh toĂn tữỡng ỗng dỹa trản nºi dung thỉng tin (1) Ph÷ìng ph¡p Resnik (1995): T‰nh toĂn tữỡng ỗng gia t dỹa trản thổng tin chung giœa chóng tł câ c ng nhi•u thổng tin chung th chúng c ng tữỡng ỗng vã nghắa Resnik  ã xuĐt cĂch ữợc lữổng thổng tin chung giœa kh¡i ni»m c v c2 düa tr¶n nºi dung thỉng tin cıa nót cha chung gƒn nh§t cıa chóng b‹ng cỉng thøc sau: simresnik(c1; c2) = log P (LCS(c1; c2)) (2) Ph÷ìng ph¡p Dekang Lin (1998): Dekang Lin ¢ mð rºng gi£ thuy‚t cıa Resnik bng cĂch ch rng mức tữỡng ỗng gia Łi t÷ỉng A v B khỉng ch¿ l l÷ỉng thỉng tin chung giœa A v B m cỈn l sü kh¡c bi»t giœa chóng Nâi c¡ch kh¡c, A v B c ng cõ nhiãu lữổng thổng tin chung th chúng c ng tữỡng ỗng; v A v B c ng câ nhi•u thỉng tin kh¡c th… chóng c ng t tữỡng ỗng Ni dung thổng tin chung gia A v B ữổc tnh bng: MáT Să PH×ÌNG PH P TH˘NG DƯNG TRONG T NH TO N ¸ T×ÌNG ˙NG GIÚA TØ IC(common(A; B)) Nºi dung thỉng tin kh¡c bi»t giœa A v B ÷ỉc t‰nh bng: IC(description(A; B)) IC(common(A; B)) õ, description(A; B) gỗm t§t c£ nhœng thỉng tin cıa A v B Sü tữỡng ỗng gia A v B ữổc tnh bng cổng thøc: simlin(A; B) = Tł cæng thøc n y câ th” nh“n x†t r‹ng nºi dung thæng tin chung giœa A v B c ng nhi•u, tøc IC(common(A,B)) c ng lợn, th A v B c ng tữỡng ỗng p dưng c¡ch ti‚p c“n tr¶n v o vi»c t‰nh toĂn tữỡng ỗng dỹa trản ỵ in, D.Lin [2] ữa cổng thức tnh tữỡng ỗng gia kh¡i ni»m c1 v c2 nh÷ sau: sim (c ; c )= lin V‰ dö: T‰nh log P (LCS(c ;c )) log P (c1)+log P (c2) tữỡng ỗng gia hill v coast dỹa v o h…nh nh÷ sau: sim ("hill"; "coast") = lin log P (LCS("hill"; "coast")) log P ("hill") + log P ("coast") log P ("geological-formation") = = log P (text"hill") + log P (text"coast") log 0:00176 0:59 log 0:0000189 + 0:0000216 (3) Ph÷ìng ph¡p kho£ng c¡ch Jiang-Conrath (1997): So sĂnh tữỡng ỗng dỹa trản khoÊng cĂch tnh b‹ng cæng thøc: distJC (c1; c2) = log P (LCS(c1; c2)) (log P (c1) + log P (c2)) Kho£ng c¡ch n y câ th” ÷ỉc bi‚n Œi th nh tữỡng ỗng bng cĂch lĐy giĂ tr nghch Êo Phữỡng phĂp n y  ữổc chứng minh vã hiằu quÊ tt hỡn cĂc phữỡng phĂp dỹa trản ỵ in  trnh b y trữợc õ 2.1.3 Thut toĂn 3: Tnh toĂn tữỡng ỗng dỹa trản t in (Dictionary-based) Phữỡng phĂp n y sò dửng b giÊi (glosses) ca t in thay v hằ phƠn cĐp (hierarchy ) ca ỵ in ị tững: nghắa hay khĂi ni»m câ c ng nhi•u tł giŁng nºi dung giÊi th chúng c ng tữỡng ỗng vã ngh¾a Møc º trịng (overlap) cıa chó gi£i ÷ỉc t‰nh b‹ng tŒng cıa c¡c gi¡ trà n , vỵi n l º d i cıa mØi cưm tł chung V‰ dö: Ta câ kh¡i ni»m drawing paper v decal v chó gi£i cıa chóng: • drawing paper: paper that is specially prepared for use in drafting MáT Să PHìèNG PH P THNG DệNG TRONG T NH TO N TìèNG NG GIA Tỉ • decal: the art of transfering designs from specially prepared paper to a wood or glass or metal surface chó gi£i cıa kh¡i ni»m n y câ c¡c cöm tł chung l paper (n=1) v specially prepared (n=2) Do â, møc º trịng cıa chó gi£i drawing paper v decal l + = tnh toĂn mức tữỡng ỗng gia kh¡i ni»m, ph÷ìng ph¡p n y khỉng ch¿ xem x†t møc º trịng giœa chó gi£i cıa kh¡i ni»m n y, m cỈn giœa c¡c chó gi£i cıa cĂc mi liản hằ WordNet khĂc (v dử nhữ gi£i cıa c¡c th÷ỉng (hypernym), h⁄ (hyponym), v.v ) V‰ dö, n‚u ch¿ x†t c¡c h⁄ th… mức tữỡng ỗng gia khĂi niằm A v B ÷ỉc t‰nh b‹ng cỉng thøc: similarity(A; B) = overlap(gloss(A); gloss(B)) + overlap(gloss(hypo(A)); gloss(hypo(B))) + overlap(gloss(A); gloss(hypo(B))) + overlap(gloss(hypo(A)); gloss(B)) â, gloss(hypo(A)) l chó gi£i ÷ỉc gºp tł chó gi£i cıa t§t c£ h⁄ cıa A Cỉng thøc tng quĂt cho mức tữỡng ỗng gia khĂi ni»m c1; c2 l : P simeLesk(c1; c2) = r;q2RELS overlap(gloss(r(c1)); gloss(q(c2))) vợi, RELS l hổp cĂc mi liản hằ WordNet ang xt 2.1.4 Ănh giĂ chung vã phữỡng phĂp dỹa trản ỵ in Ăp dửng phữỡng phĂp n y cn phÊi sò dửng ỵ in, v th ph÷ìng ph¡p n y th‰ch hỉp cho c¡c ngỉn ngœ cõ nhiãu nguỗn ỵ in (v dử ting Anh cõ þ i”n c¡c tł thỉng th÷íng nh÷ WordNet v þ in vã y hồc nhữ MeSH) Tuy nhiản, phữỡng phĂp n y khỉng hi»u qu£ mºt l¾nh vüc cư th” v khổng nguỗn t i nguyản ỵ in giÊi quyt vĐn ã n y, ta s sò dửng phữỡng phĂp phƠn tĂn (Distributional method) ữổc trnh b y phn tip theo 2.2 Phữỡng phĂp phƠn tĂn (Distributional method) phn trữợc,  nõi vã phữỡng phĂp tnh toĂn sỹ tữỡng ỗng gia nghắa hai t bĐt k mt ỵ in bng cĂch quan sĂt qua cƠy phƠn cĐp ỵ in (thesaurus hierarchy) Tuy nhiản phữỡng phĂp n y tiãm 'n mt s vĐn ã nhữ sau: ã Chúng ta khổng cõ b ỵ in cho måi ngỉn ngœ • Cho dị ngỉn ngœ â cõ b ỵ in riảng th thữớng viằc thiu t, °c bi»t l nhœng tł mỵi câ hay nhœng tł n‹m c¡c mi•n °c bi»t (domain-specific) cơng l mºt nhng vĐn ã ca phữỡng phĂp n y ã N‚u hai tł m chóng ta so s¡nh n‹m ð hai tł lo⁄i kh¡c (v‰ dö danh tł v ºng tł) th… â cơng l mºt thß th¡ch dũng phữỡng phĂp dỹa trản ỵ in bi v chúng nm phƠn cĐp khĂc MáT Să PH×ÌNG PH P TH˘NG DƯNG TRONG T NH TO N ¸ T×ÌNG ˙NG GIÚA TØ V… nhœng l‰ â m nhu cƒu ph¡t tri”n mºt ph÷ìng ph¡p m cõ th tỹ ng trch xuĐt ữổc t ỗng nghắa v c¡c quan h» tł kh¡c tł kho ngœ (corpora) ÷ỉc °t ra, v ph÷ìng ph¡p m chóng ta ang nhc n õ chnh l phữỡng phĂp phƠn tĂn (distributional method) 2.2.1 Giợi thiằu vã giÊi thut phƠn tĂn ị tững ca giÊi thut phƠn tĂn õ chnh l nghắa ca mt t cõ liản hằ vợi phƠn phi cıa c¡c tł xu§t hi»n xung quanh nâ Chóng ta xem xt mt v dử sau Ơy: ã Cổ gĂi i n trữớng bng xxxxxxx ã Tổi mợi mua mt chic xxxxxxx mợi ã Ngữới thổ ang sòa mt chic xxxxxxx bà häng Ngœ c£nh m tł xxxxxxx xu§t hi»n giúp liản tững n mt nhng loi ph÷ìng ti»n giao thỉngthỉng, dịng ” di chuy”n Ph÷ìng ph¡p ph¥n t¡n gií ¥y l cŁ g›ng bi”u di„n mºt vector c trững ng cÊnh t xxxxxxx xuĐt hiằn b‹ng c¡ch t…m sü trịng l°p vỵi c¡c tł câ nghắa tữỡng tỹ nhữ l : xe p, xe mĂy, xe i»n, Chóng ta câ th” bi”u di„n tł w b‹ng mºt vector °c tr÷ng b‹ng c¡ch nh÷ sau: • N‚u chóng ta câ mºt vector °c tr÷ng fi ch¿ chøa trà binary (0 ho°c 1) Gi£ sß bº tł vüng chóng ta câ N tł, th… vector fi s cõ N phn tò tữỡng ứng vợi cĂc t v 1, v2, v3, , vN • Khi w cõ xuĐt hiằn nhữ l mt h ng xõm lƠn c“n cıa tł vi th… lóc â fi nh“n gi¡ tr l v trữớng hổp ngữổc li ã Tâm l⁄i, chóng ta câ th” bi”u di„n ngh¾a cıa mºt tł w b‹ng mºt vector °c tr÷ng câ d⁄ng nh÷ sau: w~ = (f1, f2, f3, , fN ) X†t v‰ dư ð tr¶n, n‚u tł w = xe ⁄p, v = i, v2 = mua, v3 = bay, v4 = sòa th vector ỗng xuĐt hiằn (co-occurrence vector) cho tł w tł kho ngœ li»u ð v dử nhữ trản s l : w~ = (1, 1, 0, 1) GiÊi thut phƠn tĂn gỗm cõ ba bữợc chnh õ chnh l : Thut ng ỗng xuĐt hiằn (co-occurrence) ữổc nh nghắa nhữ th n o (câ th” xem x†t l h ng xâm l¥n c“n ữổc hay khổng) CĂc thut ng ỗng xuĐt hiằn n y ÷ỉc ¡nh trång sŁ nh÷ th‚ n o (câ th” nh“n gi¡ trà binary, tƒn su§t hay l‰ thuy‚t mutual information) º o kho£ng c¡ch vector n o s ữổc sò dửng (cõ th xem xt o Cosine, Euclidean ) 1, 2.2.2 MáT Să PH×ÌNG PH P TH˘NG DƯNG TRONG T NH TO N TìèNG NG GIA Tỉ nh nghắa vector ỗng xuĐt hiằn ca mt t v dử trữợc  • c“p, chóng ta ¢ nh›c ‚n mºt tł w xuĐt hiằn nhữ l mt h ng xõm lƠn cn cıa mºt tł vi v vỵi mºt bº tł vüng gỗm N t, mỉi t w s gỗm N c tr÷ng M°c dị vi»c lo⁄i bä c¡c stop words nh÷ l mt nhng cĂc bữợc xò l phÊi thỹc hiằn xò l ngổn ng tỹ nhiản, nhiản kch thữợc b t vỹng cặn rĐt lợn, iãu n y dÔn n vector c trững ca w s rĐt thữa v khổng hiằu quÊ V vy, thay v sò dưng t§t c£ c¡c tł bº tł vüng th… theo thuy‚t Hindle (1990) ta s‡ chån mºt sŁ tł m chóng xu§t hi»n quan h» ngœ ph¡p ho°c câ sü phö thuºc v o tł w Theo thuy‚t Hindle, nhœng danh tł n o câ còng quan h» ngœ ph¡p vỵi cịng mºt ºng tł th… câ th” cõ khÊ nông tữỡng tỹ V dử t cỡm, chĂo, bún, ph thữớng i vợi ng t ôn Mc khĂc, vợi mỉi t cõ th cõ nhiãu mi quan h» phư thuºc vỵi c¡c tł kh¡c, chóng ta s sò dửng khĂi niằm mợi, õ chnh l khổng gian c trững (feature space) Vợi mỉi c trững bƠy gií s‡ l mºt c°p tł v quan h» tł, v… v“y thay v… mºt vector câ N °c tr÷ng, bƠy giớ ta s cõ mt vector gỗm NxR c tr÷ng, â R l sŁ l÷ỉng quan h» câ th cõ o lữớng sỹ liản kt vợi ng cÊnh phn trản,  thÊo lun vã nh nghắa ca vector ng cÊnh c trững, v s chiãu cıa mºt vector ngœ c£nh cıa mºt tł — phƒn n y, chóng ta s‡ th£o lu“n v• gi¡ trà m cĂc c trững n y nản mang l g Nhng giĂ tr n y ữổc nhc tợi nhữ l trồng s hay l sỹ o lữớng mi liản hằ giœa tł ‰ch w v vector °c tr÷ng f Quan sĂt hnh dữợi Ơy, tĂc giÊ sò dửng tn suĐt xuĐt hiằn nhữ l mt o cho sỹ liản kt: Hnh 3: Vector ỗng xuĐt hiằn ca t "cell" BƠy giớ, s nh nghắa mt s thut ng tnh toĂn xĂc suĐt o liản kt Vợi t ch w, mỉi phn tò ỗng xuĐt hiằn l mồt c trững f, bao gỗm mi liản hằ r v mºt tł w’, chóng ta câ th” vi‚t l⁄i l : f = (r, w’) X¡c su§t cıa °c tr÷ng f bi‚t tł ‰ch w l P(f|w), v mt ữợc lữổng maximum likelihood ca nõ õ l : P (fjw) = count(f;w) count(w) V… v“y, n‚u chóng ta nh nghắa mt xĂc suĐt ỡn giÊn nhữ l mºt º o li¶n k‚t th… câ th” bi„u di„n l : assocprob(f; w) = P (fjw) 10 M¸T Să PHìèNG PH P THNG DệNG TRONG T NH TO N TìèNG NG GIA Tỉ Tuy nhiản, vợi mºt x¡c su§t ìn gi£n s‡ khỉng ho⁄t ºng hi»u qu£ c¡c tr÷íng hỉp phøc t⁄p Chóng ta s‡ xem xt thảm mt s cĂc o khĂc nhữ sau: Mutual information, Church and Hanks (1989, 1990) Mutual information gia hai bin ngÔu nhiản X, Y l : P P I(X; Y ) = x Pointwise mutual information (Fano, 1961) Pointwise mutual information s o lữớng tn suĐt xÊy hai sü ki»n x v y nh÷ th‚ n o, ữổc so sĂnh vợi cĂi m k vång tr÷íng hỉp chóng ºc l“p I(x; y) = log P (x;y) P (x)P (y) Chóng ta ¡p dửng l thuyt n y v o vector ỗng xuĐt hi»n b‹ng c¡ch ành ngh¾a Pointwise mutual P (w;f) information giœa tł ‰ch w v mºt °c tr÷ng f nh÷ sau: assocP MI (f; w) = log2 P (w)P (f) M°c kh¡c, f l mºt tŒ hæp cıa hai bi‚n r v w’, v… v“y ta câ bi‚n th” cıa Lin (1998a), khai tri”n P(f) nh÷ sau: assoc (f; w) = log Lin P (w;f) P (w)P (rjw)P (w0jw) t-test, Curran and Moens (2002), Curran (2003) Mºt nhœng º o th nh cỉng nh§t cho b i to¡n word similarity l sß dưng º o t-test T-test s‡ i t‰nh to¡n sü sai kh¡c giœa trung b…nh quan s¡t v trung b…nh k… vång, chu'n ho¡ b‹ng ph÷ìng sai Gi¡ trà t c ng cao th… kh£ n«ng chóng ta b¡c bä gi£ thi‚t H0 r‹ng trung b…nh quan s¡t v trung b…nh k… vång l giŁng t = x q s N Khi ¡p döng v o mŁi li¶n k‚t giœa c¡c tł, gi£ thi‚t H l P(w)P(f) Khi â k‚t qu£ cıa t-test l : assoct 2.2.3 test(w; f) = P (w;f p hai tł ºc l“p, v… v“y P(w, f) = P (w)P (f) P (f)P (w) ành ngh¾a sü giŁng ca hai vec-tỡ Sau xƠy dỹng mi tữỡng quan giœa tł ang x†t w vỵi c¡c tł xung quanh, phƒn n y chóng ta x†t ‚n sü giŁng gia hai t w v v vợi tnh chĐt tøc so s¡nh sü giŁng cıa tł düa v o mi liản hằ ca chúng vợi mt b t nhĐt nh w w Vợi ti b t v fi l trång sŁ cıa mŁi t÷ìng quan cıa w hay v Łi vỵi tł t i ” x¡c ành sü giŁng cıa w v v, ta câ th” dịng hai º o ìn gi£n nh§t l Manhattan v Euclidean ~ Hnh dữợi s cho thĐy tữ tững vã mt hnh hồc ca cĂc o i vợi vec-tỡ v 11 ~a b MáT Să PHìèNG PH P TH˘NG DƯNG TRONG T NH TO N ¸ T×ÌNG ˙NG GIÚA TØ H…nh 4: Hai º o Manhattan v Euclidean M°c dị Manhattan v Euclidean cho th§y trüc quan tŁt v• sü kh¡c cıa hai vec-tì, nhiản hai o n y rĐt t ÷ỉc ÷ỉc v… sü nh⁄y c£m cıa chóng Łi vỵi gi¡ trà lỵn hìn so vỵi c¡c gi¡ trà cıa phn cặn li V dử vã vĐn ã n y ữổc minh hồa nhữ sau: ôn xỡi Xt bÊng trản º o Ecuclidean cıa tł xìi v «n s‡ l 100.66 nh÷ng n‚u thay Œi bi‚n cìm cıa hai tł trản ln lữổt tr th nh 13 v 12 th gi¡ trà º o s‡ l 11.58 Câ th” th§y Ênh hững ca bin giĂ tr lợn n giĂ trà º o V… v“y, c¡c º o sau ¥y ữổc sò dửng rng rÂi hỡn Ta cõ th nh nghắa o sò dửng tch vổ hữợng ca i sŁ tuy‚n t‰nh nnh÷ sau: simdot_product (~v; w~) = ~v X n w~ = vi wi i Tuy nhi¶n, tŁc thỹc hiằn php tnh tch vổ hữợng ca hai vec-tì phư thuºc v o chi•u d i v gi¡ trà tłng th nh phƒn cıa mºt vec-tì M vec-tỡ c trững ca li cõ th rĐt thữa v cõ th gỗm cĂc giĂ tr rĐt lợn (mc dũ ch s PMI  ữổc chu'n hõa) V v“y ta sß dưng º o cosine s‡ tŁt hìn i•u ch¿nh sim dot_product chu'n hâa c¡c vec-tì b‹ng vi»c chia cho º d i cıa chóng simcosine (~v; w~) = V… chuy”n th nh c¡c vec-tì ìn và, ta s trĂnh ữổc sỹ nhy cÊm xÊy vợi giĂ trà lỵn c¡c gi¡ trà cıa º o tł -1 ‚n Vỵi gi¡ trà -1, hai vec-tì s‡ ngữổc hữợng nhau; vợi giĂ tr 0, hai vectỡ s vng gâc (bi”u giœa chóng khỉng câ i”m g… giŁng nhau); vỵi gi¡ trà 1, hai vec-tì cịng chi•u (bi”u cho sü giŁng ho n to n giœ hai vec-tì) Trong thüc dưng, c¡c gi¡ trà th÷íng s‡ d÷ìng c¡c trång sŁ assoc(f i) thữớng dữỡng 12 MáT Să PHìèNG PH P THNG DệNG TRONG T NH TO N TìèNG NG GIA Tỉ Ngo i hỗi quy thổng tin, ta cõ o Jaccard ban u ữổc sò dửng cho vec-tỡ nh phƠn Sau õ, ữổc m rng dịng cho trång sŁ mŁi t÷ìng quan assoc (f i) nhữ dữợi Ơy: PN simJaccard (~v; w~) = min(vi; wi) i PN i max(vi; wi) Sß dưng h m Ơy l php tnh s lữổng cĂc c trững trịng l°p (bði v… mºt hai vec-tì câ gi¡ trà cho °c tr÷ng th… k‚t qu£ cơng l 0) H m max mÔu ữổc xem nhữ l nh¥n tŁ chu'n hâa Ngo i ra, º o Dice cơng gƒn giŁng º o Jaccard giœ tß s mÔu s l tng cĂc phn tò khĂc khỉng cıa hai vec-tì simDice (~v; w~) = Sau cịng l mt phữỡng phĂp dỹa trản xĂc suĐt cõ iãu kiằn P (f; w) ị tững chnh ca phữỡng phĂp l n‚u tł w v tł v giŁng th… m rng theo xĂc suĐt iãu kiằn ca chúng phÊi giŁng tøc P (f; w) v P (f; v) C¡c ti‚p c“n ìn gi£n ” so s¡nh hai º o n y l to¡n tß Kullback-Leibler: D(P jjQ) = X P (x) log x P (x) Q(x) Câ th” thĐy trản cổng thức, toĂn tò n y khổng th x¡c ành Q(x) = m i•u n y r§t d„ x£y words similariy, v… c¡c vec-tì thữớng rĐt thữa Mt sỹ thay th cõ th khc phửc iãu n y l toĂn tò Jenson-Shannon: JS(P jjQ) = D(P jj Vit li flng thức trản vợi b i to¡n cıa ta simJS(w~jj~v) = D(w~jj 13 NH GI CHUNG V C C PH×ÌNG PH P T NH ¸ T×ÌNG ˙NG GIÚA TØ assocprob(w; f) assocP MI (w; f) assocLin(w; f) assoct test(w; f) simcosine (~v; w~) simJaccard (~v; w~) simDice (~v; w~) simJS(w~jj~v) = PN min(v ;w ) i i PN i i = D(w~jj (v +w ) i i w~ + ~v ) + D(~vjj w~ + ~v B£ng 1: B£ng tâm t›t c¡c cæng thøc trång sŁ v º ) o Ănh giĂ chung vã cĂc phữỡng phĂp tnh tữỡng ỗng gia t Cõ cĂch Ănh giĂ: • ¡nh gi¡ tü nhi¶n (Instrinic Evaluation): ¡nh gi¡ b‹ng c¡ch so s¡nh k‚t qu£ tł thu“t to¡n vỵi k‚t qu£ tł ng÷íi Nâi c¡ch kh¡c l so s¡nh sü t÷ìng quan giœa k‚t qu£ t‰nh to¡n møc º tữỡng ỗng gia t ca mt thut toĂn vợi mức tữỡng ỗng gia t õ ngữới ữa ã Ănh giĂ khĂch quan (Extrinsic Evaluation): ữa kt quÊ tnh toĂn mức tữỡng ỗng gia tł cıa mºt thu“t to¡n v o c¡c øng dưng ” ki”m tra xem øng dưng ÷ỉc c£i thi»n nh÷ th‚ n o Mºt sŁ øng dưng phŒ bi‚n: Word-sense disambiguation (WSD) Nh“n di»n lØi dòng tł (Malapropisms/Spelling error detection) Ch§m i”m b i lu“n (Essay grading) Tr£ líi c¥u häi tr›c nghi»m tł vüng b i thi TOEFL V dử: Vợi cƠu họi: Levied is closest in meaning to which of these following words: imposed/believed/requested/correlated? , ta s tnh tữỡng ỗng gia cĂc cp t (levied, imposed ), (levied, believed ), (levied, requested ), (levied, correlated) tm t cõ tữỡng ỗng cao nhĐt vỵi tł levied N‚u k‚t qu£ t‰nh to¡n trịng khợp vợi Ăp Ăn ca cƠu họi ( Ăp Ăn l tł imposed ), th… thu“t to¡n â hi»u qu£ 14 ... h…nh v‡ Mºt phƒn cıa h» phƠn cĐp ỵ in WordNet biu din mt s khĂi ni»m v kho£ng c¡ch giœa c¡c kh¡i ni»m Mºt phn ca hằ phƠn cĐp ỵ in WordNet biu din mºt sŁ kh¡i ni»m v... ỵ in WordNet, ch cõ th tnh toĂn tữỡng ỗng gia t cõ lo⁄i tł (v‰ dö: danh tł v danh tł, ºng tł v ºng tł) 2.1.1 Thu“t to¡n 1: T‰nh to¡n tữỡng ỗng dỹa trản d i ữớng i (Path-length based Similarity) ... ci l mt nghắa ca w1 v cj l mºt ngh¾a cıa w2: wordsim(w ; w ) = max ci2senses(w1);cj2senses(w2) sim(c ; c ) V‰ dử: Hnh 1: Mt phn ca hằ phƠn cĐp ỵ i”n WordNet bi”u di„n mºt sŁ kh¡i ni»m v kho£ng
Ngày đăng: 17/12/2022, 05:02
Xem thêm: