(TIỂU LUẬN) xử lí NGÔN NGỮ tự NHIÊN đồ án môn học đề tài WORD SIMILARITY semantics

21 8 0
(TIỂU LUẬN) xử lí NGÔN NGỮ tự NHIÊN đồ án môn học đề tài WORD SIMILARITY   semantics

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

I HC QUăC GIA TH NH PHă H CH MINH I HC KHOA HC Tĩ NHI N TH NH PHă H˙ CH MINH XÛ L NG˘N NGÚ TÜ NHI N ç ¡n mỉn håc • t i: WORD SIMILARITY - Semantics TP Hỗ Ch Minh, thĂng nôm 2021 MệC LƯC Mưc lưc Giỵi thi»u 1.1 Mºt sŁ ành ngh¾a 1.2 Ph⁄m vi • t i 1.3 Ùng döng Mºt sŁ ph÷ìng ph¡p thỉng dưng t‰nh to¡n tữỡng ỗng gia t 2.1 Phữỡng phĂp dỹa trản ỵ in Thesaurus-based metho 2.1.1 T le 2.1.2 T (I 2.1.3 T 2.1.4 Ăn 2.2 Phữỡng phĂp phƠn tĂn (Distributional method) 2.2.1 G 2.2.2 2.2.3 Ănh giĂ chung vã cĂc phữỡng phĂp tnh tữỡng ỗng gia t DANHS CHHNHV Danh s¡ch h…nh v‡ Mºt phƒn cıa h» ph¥n cĐp ỵ in WordNet biu din mt s khĂi niằm v kho£ng c¡ch giœa c¡c kh¡i ni»m Mºt phƒn ca hằ phƠn cĐp ỵ in WordNet biu din mt sŁ kh¡i ni»m v c¡c gi¡ trà x¡c su§t cıa tłng kh¡i ni»m Vector ỗng xuĐt hiằn ca t "cell" Hai º o Manhattan v Euclidean 2 1.1 MáT Să PHìèNG PH P TH˘NG DƯNG TRONG T NH TO N ¸ TìèNG NG GIA Tỉ Giợi thiằu Mt s nh nghắa ã Sỹ ỗng nghắa (Synonymy): quan hằ nh phƠn cho bit t cõ ỗng nghắa hay khổng ã Sỹ tữỡng ỗng (Similarity): mt nh nghắa thoĂng hỡn ca ỗng nghắa, phĂt biu rng t tữỡng ỗng nu chúng cõ chung nhiãu c im vã nghắa, khổng cn phÊi l t ỗng nghắa tuyằt i V dư: Trong ti‚ng Anh, x†t ngh¾a cıa tł bank : ã Nghắa thứ nhĐt tữỡng ỗng vợi nghắa ca tł fund , nh÷ng khỉng nâi r‹ng tł bank t÷ìng ỗng vợi t fund ã Nghắa thứ tữỡng ỗng vợi nghắa ca t slope , khổng nõi rng t bank tữỡng ỗng vợi t slope 1.2 Phm vi •ti Ph⁄m vi • t i n y s‡ t‰nh toĂn sỹ tữỡng ỗng vã mt ng nghắa gia t: ã CĐp : t ã Bnh diằn: Ng nghắa 1.3 Ùng döng Ùng döng cıa vi»c t‰nh to¡n sü tữỡng ỗng gia t mt s b i to¡n: • Dàch m¡y (Machine Translation) • Nh“n bi‚t ⁄o vôn (Plagiarism Detection) ã PhƠn loi vôn bÊn (Document Clustering) ã TrÊ lới cƠu họi (Question Answering) ã ChĐm im b i lu“n tü ºng (Automatic Essay Grading) Mºt sŁ ph÷ìng ph¡p thỉng dưng t‰nh to¡n º t÷ìng ỗng gia t 2.1 Phữỡng phĂp dỹa trản ỵ i”n Thesaurus-based method) C¡c thu“t to¡n n y t‰nh to¡n sỹ tữỡng ỗng gia t dỹa trản cĂc ỵ in trỹc tuyn (nhữ WordNet hay MeSH) CĂc ỵ in n y ữổc cĐu trúc theo dng phƠn cĐp nghắa i tł tŒng qu¡t ‚n cư th‚ M¸T Să PHìèNG PH P THNG DệNG TRONG T NH TO N TìèNG NG GIA Tỉ Phữỡng phĂp n y ch yu tnh toĂn tữỡng ỗng gia t dỹa trản sỹ phƠn cĐp thữổng v v h v ỵ in Mt t A ữổc gồi l h⁄ cıa tł B (hyponym) ngh¾a cıa B tŒng qu¡t hìn A Khi â, B ÷ỉc gåi l th÷ỉng (hypernym) cıa A V‰ dư: car (xe hìi) l h⁄ cıa vehicle (ph÷ìng ti»n), v vehicle (ph÷ìng tiằn) l thữổng v ca car (xe hỡi) Tuy nhiản, ỵ in WordNet, ch cõ th tnh toĂn tữỡng ỗng gia t cõ loi tł (v‰ dö: danh tł v danh tł, ºng tł v ºng tł) 2.1.1 Thu“t to¡n 1: T‰nh to¡n º tữỡng ỗng dỹa trản d i ữớng i (Path-length based Similarity) ị tững: nghắa (sense) hay khĂi niằm (concept) c ng gn trản hằ phƠn cĐp ỵ in (thesaurus hierarchy) th chúng c ng tữỡng ỗng vã ng nghắa Nõi cĂch khĂc, nghắa/khĂi niằm cõ khoÊng cĂch c ng ngn trản hằ phƠn cĐp ỵ in th chúng c ng tữỡng ỗng vã ng nghắa KhoÊng cĂch gia khĂi niằm (concept) ữổc tnh bng tng s cnh gia chúng trản hằ phƠn cĐp ỵ in nhữ cổng thức dữợi Ơy: pathlen(c1; c2) = s cnh nm trản ữớng i ngn nhĐt ni khĂi niằm c 1; c2 Mức tữỡng ỗng gia kh¡i ni»m ho°c ngh¾a c1; c2: simpath(c1; c2) = logpathlen(c1; c2) Mức tữỡng ỗng gia t w1 v w2 cõ giĂ tr bng mức tữỡng ỗng lợn nhĐt s cĂc mức tữỡng ỗng ca cĂc cp nghắa (sense) l c i v cj, vợi ci l mºt ngh¾a cıa w1 v cj l mºt ngh¾a cıa w2: wordsim(w ; w ) = max ci2senses(w1);cj2senses(w2) sim(c ; c ) V‰ dö: Hnh 1: Mt phn ca hằ phƠn cĐp ỵ in WordNet bi”u di„n mºt sŁ kh¡i ni»m v kho£ng c¡ch giœa c¡c kh¡i ni»m Tł h…nh ta t‰nh c¡ch giœa c¡c kh¡i ni»m nickel , coin v ÷ỉc kho£ng money : MáT Să PHìèNG PH P THNG DệNG TRONG T NH TO N TìèNG NG GIA TØ pathlen( nickel ; coin ) = pathlen( nickel ; money ) = — ¥y ta ch¿ x†t mºt kh¡i ni»m cıa c¡c tł nickel , coin v money nản tữỡng ỗng gia cp t ( nickel v coin ) v ( nickel v money ) l : wordsim( nickel ; coin ) = sim( nickel ; coin ) = log1 = wordsim( nickel ; money ) = sim( nickel ; money ) = log5 = 0:69 Düa v o k‚t qu£ tr¶n câ th kt lun rng t nickel cõ tữỡng ỗng vỵi coin cao hìn so vỵi money Nh“n x†t: Ph÷ìng ph¡p n y ngƒm gi£ ành r‹ng c¡c c⁄nh ni cĂc nút trản hằ phƠn cĐp ỵ in cõ d i nhữ Tuy nhiản iãu n y khỉng óng thüc t‚ v… c¡c c⁄nh nŁi c¡c khĂi niằm nm cĐp bc c ng sƠu trản hằ phƠn cĐp s cõ d i ngn hỡn c¡c kh¡i ni»m n‹m ð c§p b“c cao hìn V‰ dö, h…nh 1, kho£ng c¡ch giœa nickel v money câ v· ng›n hìn so vỵi kho£ng c¡ch giœa nickel v standard v standard mang ỵ nghắa tru tữổng hỡn Do â cƒn mºt c¡ch ti‚p c“n kh¡c câ kh£ n«ng bi”u di„n º d i cıa c¡c c⁄nh mºt c¡ch ºc l“p v ch ‰nh x¡c hìn 2.1.2 Thu“t toĂn 2: Tnh toĂn tữỡng ỗng dỹa trản ni dung thỉng tin (Information Content Word Similarity) 2.1.2.1 ành ngh¾a cĂc yu t liản quan ã P(c) l xĂc suĐt mt t ữổc chồn ngÔu nhiản kho ng li»u (corpus) l mºt instance cıa kh¡i ni»m c tr¶n hằ phƠn cĐp ỵ in ã XĂc suĐt ca khĂi ni»m gŁc (root): P (c) = 1, v… t§t c£ c¡c tł •u l nh¡nh cıa root C¡c kh¡i niằm nm cĐp bc c ng sƠu trản hằ phƠn cĐp ỵ in s cõ xĂc suĐt c ng thĐp ã Mỉi khĂi niằm c trản hằ phƠn cĐp ỵ cõ mt giĂ tr xĂc suĐt P(c) v ữổc t‰nh b‹ng c i”n s‡ tŒng sŁ l÷ỉng c¡c tł l kh¡i ni»m chia cho tŒng sŁ tł kho ng liằu ữổc ca biu din trản ỵ in: P P (c) = w2words(c) count(w) N Trong â: words(c): t“p hỉp t§t c£ c¡c tł l kh¡i ni»m cıa c N: tŒng sŁ tł kho ngœ li»u ữổc biu din trản ỵ in V dử: MáT Să PHìèNG PH P THNG DệNG TRONG T NH TO N TìèNG NG GIA Tỉ Hnh 2: Mt phn ca hằ phƠn cĐp ỵ in WordNet biu di„n mºt sŁ kh¡i ni»m v c¡c gi¡ trà x¡c suĐt ca tng khĂi niằm Dỹa trản hnh 2, hổp tĐt cÊ cĂc t thuc vã khĂi niằm geological-formation , tức l words( geological-formation ) gỗm cõ: hill, ridge, grotto, coast, natural elevation, cave, shore • Nºi dung thỉng tin (information content IC) cıa mºt kh¡i ni»m c ÷ỉc t‰nh b‹ng cỉng thøc sau: IC(c) = logP (c) • Nót cha chung gƒn nh§t (Least Common Subsumer LCS) cıa kh¡i ni»m c v c2: LCS(c1; c2) = thữổng v gn nhĐt cac1 v c2 V dử: Dỹa trản hnh ta thĐy: LCS( hill , coast ) = geological-formation LCS( hill , shore ) = shore 2.1.2.2 CĂc phữỡng phĂp tnh toĂn tữỡng ỗng dỹa trản nºi dung thỉng tin (1) Ph÷ìng ph¡p Resnik (1995): T‰nh toĂn tữỡng ỗng gia t dỹa trản thổng tin chung giœa chóng tł câ c ng nhi•u thổng tin chung th chúng c ng tữỡng ỗng vã nghắa Resnik  ã xuĐt cĂch ữợc lữổng thổng tin chung giœa kh¡i ni»m c v c2 düa tr¶n nºi dung thỉng tin cıa nót cha chung gƒn nh§t cıa chóng b‹ng cỉng thøc sau: simresnik(c1; c2) = log P (LCS(c1; c2)) (2) Ph÷ìng ph¡p Dekang Lin (1998): Dekang Lin ¢ mð rºng gi£ thuy‚t cıa Resnik bng cĂch ch rng mức tữỡng ỗng gia Łi t÷ỉng A v B khỉng ch¿ l l÷ỉng thỉng tin chung giœa A v B m cỈn l sü kh¡c bi»t giœa chóng Nâi c¡ch kh¡c, A v B c ng cõ nhiãu lữổng thổng tin chung th chúng c ng tữỡng ỗng; v A v B c ng câ nhi•u thỉng tin kh¡c th… chóng c ng t tữỡng ỗng Ni dung thổng tin chung gia A v B ữổc tnh bng: MáT Să PH×ÌNG PH P TH˘NG DƯNG TRONG T NH TO N ¸ T×ÌNG ˙NG GIÚA TØ IC(common(A; B)) Nºi dung thỉng tin kh¡c bi»t giœa A v B ÷ỉc t‰nh bng: IC(description(A; B)) IC(common(A; B)) õ, description(A; B) gỗm t§t c£ nhœng thỉng tin cıa A v B Sü tữỡng ỗng gia A v B ữổc tnh bng cổng thøc: simlin(A; B) = Tł cæng thøc n y câ th” nh“n x†t r‹ng nºi dung thæng tin chung giœa A v B c ng nhi•u, tøc IC(common(A,B)) c ng lợn, th A v B c ng tữỡng ỗng p dưng c¡ch ti‚p c“n tr¶n v o vi»c t‰nh toĂn tữỡng ỗng dỹa trản ỵ in, D.Lin [2] ữa cổng thức tnh tữỡng ỗng gia kh¡i ni»m c1 v c2 nh÷ sau: sim (c ; c )= lin V‰ dö: T‰nh log P (LCS(c ;c )) log P (c1)+log P (c2) tữỡng ỗng gia hill v coast dỹa v o h…nh nh÷ sau: sim ("hill"; "coast") = lin log P (LCS("hill"; "coast")) log P ("hill") + log P ("coast") log P ("geological-formation") = = log P (text"hill") + log P (text"coast") log 0:00176 0:59 log 0:0000189 + 0:0000216 (3) Ph÷ìng ph¡p kho£ng c¡ch Jiang-Conrath (1997): So sĂnh tữỡng ỗng dỹa trản khoÊng cĂch tnh b‹ng cæng thøc: distJC (c1; c2) = log P (LCS(c1; c2)) (log P (c1) + log P (c2)) Kho£ng c¡ch n y câ th” ÷ỉc bi‚n Œi th nh tữỡng ỗng bng cĂch lĐy giĂ tr nghch Êo Phữỡng phĂp n y  ữổc chứng minh vã hiằu quÊ tt hỡn cĂc phữỡng phĂp dỹa trản ỵ in  trnh b y trữợc õ 2.1.3 Thut toĂn 3: Tnh toĂn tữỡng ỗng dỹa trản t in (Dictionary-based) Phữỡng phĂp n y sò dửng b giÊi (glosses) ca t in thay v hằ phƠn cĐp (hierarchy ) ca ỵ in ị tững: nghắa hay khĂi ni»m câ c ng nhi•u tł giŁng nºi dung giÊi th chúng c ng tữỡng ỗng vã ngh¾a Møc º trịng (overlap) cıa chó gi£i ÷ỉc t‰nh b‹ng tŒng cıa c¡c gi¡ trà n , vỵi n l º d i cıa mØi cưm tł chung V‰ dö: Ta câ kh¡i ni»m drawing paper v decal v chó gi£i cıa chóng: • drawing paper: paper that is specially prepared for use in drafting MáT Să PHìèNG PH P THNG DệNG TRONG T NH TO N TìèNG NG GIA Tỉ • decal: the art of transfering designs from specially prepared paper to a wood or glass or metal surface chó gi£i cıa kh¡i ni»m n y câ c¡c cöm tł chung l paper (n=1) v specially prepared (n=2) Do â, møc º trịng cıa chó gi£i drawing paper v decal l + = tnh toĂn mức tữỡng ỗng gia kh¡i ni»m, ph÷ìng ph¡p n y khỉng ch¿ xem x†t møc º trịng giœa chó gi£i cıa kh¡i ni»m n y, m cỈn giœa c¡c chó gi£i cıa cĂc mi liản hằ WordNet khĂc (v dử nhữ gi£i cıa c¡c th÷ỉng (hypernym), h⁄ (hyponym), v.v ) V‰ dö, n‚u ch¿ x†t c¡c h⁄ th… mức tữỡng ỗng gia khĂi niằm A v B ÷ỉc t‰nh b‹ng cỉng thøc: similarity(A; B) = overlap(gloss(A); gloss(B)) + overlap(gloss(hypo(A)); gloss(hypo(B))) + overlap(gloss(A); gloss(hypo(B))) + overlap(gloss(hypo(A)); gloss(B)) â, gloss(hypo(A)) l chó gi£i ÷ỉc gºp tł chó gi£i cıa t§t c£ h⁄ cıa A Cỉng thøc tng quĂt cho mức tữỡng ỗng gia khĂi ni»m c1; c2 l : P simeLesk(c1; c2) = r;q2RELS overlap(gloss(r(c1)); gloss(q(c2))) vợi, RELS l hổp cĂc mi liản hằ WordNet ang xt 2.1.4 Ănh giĂ chung vã phữỡng phĂp dỹa trản ỵ in Ăp dửng phữỡng phĂp n y cn phÊi sò dửng ỵ in, v th ph÷ìng ph¡p n y th‰ch hỉp cho c¡c ngỉn ngœ cõ nhiãu nguỗn ỵ in (v dử ting Anh cõ þ i”n c¡c tł thỉng th÷íng nh÷ WordNet v þ in vã y hồc nhữ MeSH) Tuy nhiản, phữỡng phĂp n y khỉng hi»u qu£ mºt l¾nh vüc cư th” v khổng nguỗn t i nguyản ỵ in giÊi quyt vĐn ã n y, ta s sò dửng phữỡng phĂp phƠn tĂn (Distributional method) ữổc trnh b y phn tip theo 2.2 Phữỡng phĂp phƠn tĂn (Distributional method) phn trữợc,  nõi vã phữỡng phĂp tnh toĂn sỹ tữỡng ỗng gia nghắa hai t bĐt k mt ỵ in bng cĂch quan sĂt qua cƠy phƠn cĐp ỵ in (thesaurus hierarchy) Tuy nhiản phữỡng phĂp n y tiãm 'n mt s vĐn ã nhữ sau: ã Chúng ta khổng cõ b ỵ in cho måi ngỉn ngœ • Cho dị ngỉn ngœ â cõ b ỵ in riảng th thữớng viằc thiu t, °c bi»t l nhœng tł mỵi câ hay nhœng tł n‹m c¡c mi•n °c bi»t (domain-specific) cơng l mºt nhng vĐn ã ca phữỡng phĂp n y ã N‚u hai tł m chóng ta so s¡nh n‹m ð hai tł lo⁄i kh¡c (v‰ dö danh tł v ºng tł) th… â cơng l mºt thß th¡ch dũng phữỡng phĂp dỹa trản ỵ in bi v chúng nm phƠn cĐp khĂc MáT Să PH×ÌNG PH P TH˘NG DƯNG TRONG T NH TO N ¸ T×ÌNG ˙NG GIÚA TØ V… nhœng l‰ â m nhu cƒu ph¡t tri”n mºt ph÷ìng ph¡p m cõ th tỹ ng trch xuĐt ữổc t ỗng nghắa v c¡c quan h» tł kh¡c tł kho ngœ (corpora) ÷ỉc °t ra, v ph÷ìng ph¡p m chóng ta ang nhc n õ chnh l phữỡng phĂp phƠn tĂn (distributional method) 2.2.1 Giợi thiằu vã giÊi thut phƠn tĂn ị tững ca giÊi thut phƠn tĂn õ chnh l nghắa ca mt t cõ liản hằ vợi phƠn phi cıa c¡c tł xu§t hi»n xung quanh nâ Chóng ta xem xt mt v dử sau Ơy: ã Cổ gĂi i n trữớng bng xxxxxxx ã Tổi mợi mua mt chic xxxxxxx mợi ã Ngữới thổ ang sòa mt chic xxxxxxx bà häng Ngœ c£nh m tł xxxxxxx xu§t hi»n giúp liản tững n mt nhng loi ph÷ìng ti»n giao thỉngthỉng, dịng ” di chuy”n Ph÷ìng ph¡p ph¥n t¡n gií ¥y l cŁ g›ng bi”u di„n mºt vector c trững ng cÊnh t xxxxxxx xuĐt hiằn b‹ng c¡ch t…m sü trịng l°p vỵi c¡c tł câ nghắa tữỡng tỹ nhữ l : xe p, xe mĂy, xe i»n, Chóng ta câ th” bi”u di„n tł w b‹ng mºt vector °c tr÷ng b‹ng c¡ch nh÷ sau: • N‚u chóng ta câ mºt vector °c tr÷ng fi ch¿ chøa trà binary (0 ho°c 1) Gi£ sß bº tł vüng chóng ta câ N tł, th… vector fi s cõ N phn tò tữỡng ứng vợi cĂc t v 1, v2, v3, , vN • Khi w cõ xuĐt hiằn nhữ l mt h ng xõm lƠn c“n cıa tł vi th… lóc â fi nh“n gi¡ tr l v trữớng hổp ngữổc li ã Tâm l⁄i, chóng ta câ th” bi”u di„n ngh¾a cıa mºt tł w b‹ng mºt vector °c tr÷ng câ d⁄ng nh÷ sau: w~ = (f1, f2, f3, , fN ) X†t v‰ dư ð tr¶n, n‚u tł w = xe ⁄p, v = i, v2 = mua, v3 = bay, v4 = sòa th vector ỗng xuĐt hiằn (co-occurrence vector) cho tł w tł kho ngœ li»u ð v dử nhữ trản s l : w~ = (1, 1, 0, 1) GiÊi thut phƠn tĂn gỗm cõ ba bữợc chnh õ chnh l : Thut ng ỗng xuĐt hiằn (co-occurrence) ữổc nh nghắa nhữ th n o (câ th” xem x†t l h ng xâm l¥n c“n ữổc hay khổng) CĂc thut ng ỗng xuĐt hiằn n y ÷ỉc ¡nh trång sŁ nh÷ th‚ n o (câ th” nh“n gi¡ trà binary, tƒn su§t hay l‰ thuy‚t mutual information) º o kho£ng c¡ch vector n o s ữổc sò dửng (cõ th xem xt o Cosine, Euclidean ) 1, 2.2.2 MáT Să PH×ÌNG PH P TH˘NG DƯNG TRONG T NH TO N TìèNG NG GIA Tỉ nh nghắa vector ỗng xuĐt hiằn ca mt t v dử trữợc  • c“p, chóng ta ¢ nh›c ‚n mºt tł w xuĐt hiằn nhữ l mt h ng xõm lƠn cn cıa mºt tł vi v vỵi mºt bº tł vüng gỗm N t, mỉi t w s gỗm N c tr÷ng M°c dị vi»c lo⁄i bä c¡c stop words nh÷ l mt nhng cĂc bữợc xò l phÊi thỹc hiằn xò l ngổn ng tỹ nhiản, nhiản kch thữợc b t vỹng cặn rĐt lợn, iãu n y dÔn n vector c trững ca w s rĐt thữa v khổng hiằu quÊ V vy, thay v sò dưng t§t c£ c¡c tł bº tł vüng th… theo thuy‚t Hindle (1990) ta s‡ chån mºt sŁ tł m chóng xu§t hi»n quan h» ngœ ph¡p ho°c câ sü phö thuºc v o tł w Theo thuy‚t Hindle, nhœng danh tł n o câ còng quan h» ngœ ph¡p vỵi cịng mºt ºng tł th… câ th” cõ khÊ nông tữỡng tỹ V dử t cỡm, chĂo, bún, ph thữớng i vợi ng t ôn Mc khĂc, vợi mỉi t cõ th cõ nhiãu mi quan h» phư thuºc vỵi c¡c tł kh¡c, chóng ta s sò dửng khĂi niằm mợi, õ chnh l khổng gian c trững (feature space) Vợi mỉi c trững bƠy gií s‡ l mºt c°p tł v quan h» tł, v… v“y thay v… mºt vector câ N °c tr÷ng, bƠy giớ ta s cõ mt vector gỗm NxR c tr÷ng, â R l sŁ l÷ỉng quan h» câ th cõ o lữớng sỹ liản kt vợi ng cÊnh phn trản,  thÊo lun vã nh nghắa ca vector ng cÊnh c trững, v s chiãu cıa mºt vector ngœ c£nh cıa mºt tł — phƒn n y, chóng ta s‡ th£o lu“n v• gi¡ trà m cĂc c trững n y nản mang l g Nhng giĂ tr n y ữổc nhc tợi nhữ l trồng s hay l sỹ o lữớng mi liản hằ giœa tł ‰ch w v vector °c tr÷ng f Quan sĂt hnh dữợi Ơy, tĂc giÊ sò dửng tn suĐt xuĐt hiằn nhữ l mt o cho sỹ liản kt: Hnh 3: Vector ỗng xuĐt hiằn ca t "cell" BƠy giớ, s nh nghắa mt s thut ng tnh toĂn xĂc suĐt o liản kt Vợi t ch w, mỉi phn tò ỗng xuĐt hiằn l mồt c trững f, bao gỗm mi liản hằ r v mºt tł w’, chóng ta câ th” vi‚t l⁄i l : f = (r, w’) X¡c su§t cıa °c tr÷ng f bi‚t tł ‰ch w l P(f|w), v mt ữợc lữổng maximum likelihood ca nõ õ l : P (fjw) = count(f;w) count(w) V… v“y, n‚u chóng ta nh nghắa mt xĂc suĐt ỡn giÊn nhữ l mºt º o li¶n k‚t th… câ th” bi„u di„n l : assocprob(f; w) = P (fjw) 10 M¸T Să PHìèNG PH P THNG DệNG TRONG T NH TO N TìèNG NG GIA Tỉ Tuy nhiản, vợi mºt x¡c su§t ìn gi£n s‡ khỉng ho⁄t ºng hi»u qu£ c¡c tr÷íng hỉp phøc t⁄p Chóng ta s‡ xem xt thảm mt s cĂc o khĂc nhữ sau: Mutual information, Church and Hanks (1989, 1990) Mutual information gia hai bin ngÔu nhiản X, Y l : P P I(X; Y ) = x Pointwise mutual information (Fano, 1961) Pointwise mutual information s o lữớng tn suĐt xÊy hai sü ki»n x v y nh÷ th‚ n o, ữổc so sĂnh vợi cĂi m k vång tr÷íng hỉp chóng ºc l“p I(x; y) = log P (x;y) P (x)P (y) Chóng ta ¡p dửng l thuyt n y v o vector ỗng xuĐt hi»n b‹ng c¡ch ành ngh¾a Pointwise mutual P (w;f) information giœa tł ‰ch w v mºt °c tr÷ng f nh÷ sau: assocP MI (f; w) = log2 P (w)P (f) M°c kh¡c, f l mºt tŒ hæp cıa hai bi‚n r v w’, v… v“y ta câ bi‚n th” cıa Lin (1998a), khai tri”n P(f) nh÷ sau: assoc (f; w) = log Lin P (w;f) P (w)P (rjw)P (w0jw) t-test, Curran and Moens (2002), Curran (2003) Mºt nhœng º o th nh cỉng nh§t cho b i to¡n word similarity l sß dưng º o t-test T-test s‡ i t‰nh to¡n sü sai kh¡c giœa trung b…nh quan s¡t v trung b…nh k… vång, chu'n ho¡ b‹ng ph÷ìng sai Gi¡ trà t c ng cao th… kh£ n«ng chóng ta b¡c bä gi£ thi‚t H0 r‹ng trung b…nh quan s¡t v trung b…nh k… vång l giŁng t = x q s N Khi ¡p döng v o mŁi li¶n k‚t giœa c¡c tł, gi£ thi‚t H l P(w)P(f) Khi â k‚t qu£ cıa t-test l : assoct 2.2.3 test(w; f) = P (w;f p hai tł ºc l“p, v… v“y P(w, f) = P (w)P (f) P (f)P (w) ành ngh¾a sü giŁng ca hai vec-tỡ Sau xƠy dỹng mi tữỡng quan giœa tł ang x†t w vỵi c¡c tł xung quanh, phƒn n y chóng ta x†t ‚n sü giŁng gia hai t w v v vợi tnh chĐt tøc so s¡nh sü giŁng cıa tł düa v o mi liản hằ ca chúng vợi mt b t nhĐt nh w w Vợi ti b t v fi l trång sŁ cıa mŁi t÷ìng quan cıa w hay v Łi vỵi tł t i ” x¡c ành sü giŁng cıa w v v, ta câ th” dịng hai º o ìn gi£n nh§t l Manhattan v Euclidean ~ Hnh dữợi s cho thĐy tữ tững vã mt hnh hồc ca cĂc o i vợi vec-tỡ v 11 ~a b MáT Să PHìèNG PH P TH˘NG DƯNG TRONG T NH TO N ¸ T×ÌNG ˙NG GIÚA TØ H…nh 4: Hai º o Manhattan v Euclidean M°c dị Manhattan v Euclidean cho th§y trüc quan tŁt v• sü kh¡c cıa hai vec-tì, nhiản hai o n y rĐt t ÷ỉc ÷ỉc v… sü nh⁄y c£m cıa chóng Łi vỵi gi¡ trà lỵn hìn so vỵi c¡c gi¡ trà cıa phn cặn li V dử vã vĐn ã n y ữổc minh hồa nhữ sau: ôn xỡi Xt bÊng trản º o Ecuclidean cıa tł xìi v «n s‡ l 100.66 nh÷ng n‚u thay Œi bi‚n cìm cıa hai tł trản ln lữổt tr th nh 13 v 12 th gi¡ trà º o s‡ l 11.58 Câ th” th§y Ênh hững ca bin giĂ tr lợn n giĂ trà º o V… v“y, c¡c º o sau ¥y ữổc sò dửng rng rÂi hỡn Ta cõ th nh nghắa o sò dửng tch vổ hữợng ca i sŁ tuy‚n t‰nh nnh÷ sau: simdot_product (~v; w~) = ~v X n w~ = vi wi i Tuy nhi¶n, tŁc thỹc hiằn php tnh tch vổ hữợng ca hai vec-tì phư thuºc v o chi•u d i v gi¡ trà tłng th nh phƒn cıa mºt vec-tì M vec-tỡ c trững ca li cõ th rĐt thữa v cõ th gỗm cĂc giĂ tr rĐt lợn (mc dũ ch s PMI  ữổc chu'n hõa) V v“y ta sß dưng º o cosine s‡ tŁt hìn i•u ch¿nh sim dot_product chu'n hâa c¡c vec-tì b‹ng vi»c chia cho º d i cıa chóng simcosine (~v; w~) = V… chuy”n th nh c¡c vec-tì ìn và, ta s trĂnh ữổc sỹ nhy cÊm xÊy vợi giĂ trà lỵn c¡c gi¡ trà cıa º o tł -1 ‚n Vỵi gi¡ trà -1, hai vec-tì s‡ ngữổc hữợng nhau; vợi giĂ tr 0, hai vectỡ s vng gâc (bi”u giœa chóng khỉng câ i”m g… giŁng nhau); vỵi gi¡ trà 1, hai vec-tì cịng chi•u (bi”u cho sü giŁng ho n to n giœ hai vec-tì) Trong thüc dưng, c¡c gi¡ trà th÷íng s‡ d÷ìng c¡c trång sŁ assoc(f i) thữớng dữỡng 12 MáT Să PHìèNG PH P THNG DệNG TRONG T NH TO N TìèNG NG GIA Tỉ Ngo i hỗi quy thổng tin, ta cõ o Jaccard ban u ữổc sò dửng cho vec-tỡ nh phƠn Sau õ, ữổc m rng dịng cho trång sŁ mŁi t÷ìng quan assoc (f i) nhữ dữợi Ơy: PN simJaccard (~v; w~) = min(vi; wi) i PN i max(vi; wi) Sß dưng h m Ơy l php tnh s lữổng cĂc c trững trịng l°p (bði v… mºt hai vec-tì câ gi¡ trà cho °c tr÷ng th… k‚t qu£ cơng l 0) H m max mÔu ữổc xem nhữ l nh¥n tŁ chu'n hâa Ngo i ra, º o Dice cơng gƒn giŁng º o Jaccard giœ tß s mÔu s l tng cĂc phn tò khĂc khỉng cıa hai vec-tì simDice (~v; w~) = Sau cịng l mt phữỡng phĂp dỹa trản xĂc suĐt cõ iãu kiằn P (f; w) ị tững chnh ca phữỡng phĂp l n‚u tł w v tł v giŁng th… m rng theo xĂc suĐt iãu kiằn ca chúng phÊi giŁng tøc P (f; w) v P (f; v) C¡c ti‚p c“n ìn gi£n ” so s¡nh hai º o n y l to¡n tß Kullback-Leibler: D(P jjQ) = X P (x) log x P (x) Q(x) Câ th” thĐy trản cổng thức, toĂn tò n y khổng th x¡c ành Q(x) = m i•u n y r§t d„ x£y words similariy, v… c¡c vec-tì thữớng rĐt thữa Mt sỹ thay th cõ th khc phửc iãu n y l toĂn tò Jenson-Shannon: JS(P jjQ) = D(P jj Vit li flng thức trản vợi b i to¡n cıa ta simJS(w~jj~v) = D(w~jj 13 NH GI CHUNG V C C PH×ÌNG PH P T NH ¸ T×ÌNG ˙NG GIÚA TØ assocprob(w; f) assocP MI (w; f) assocLin(w; f) assoct test(w; f) simcosine (~v; w~) simJaccard (~v; w~) simDice (~v; w~) simJS(w~jj~v) = PN min(v ;w ) i i PN i i = D(w~jj (v +w ) i i w~ + ~v ) + D(~vjj w~ + ~v B£ng 1: B£ng tâm t›t c¡c cæng thøc trång sŁ v º ) o Ănh giĂ chung vã cĂc phữỡng phĂp tnh tữỡng ỗng gia t Cõ cĂch Ănh giĂ: • ¡nh gi¡ tü nhi¶n (Instrinic Evaluation): ¡nh gi¡ b‹ng c¡ch so s¡nh k‚t qu£ tł thu“t to¡n vỵi k‚t qu£ tł ng÷íi Nâi c¡ch kh¡c l so s¡nh sü t÷ìng quan giœa k‚t qu£ t‰nh to¡n møc º tữỡng ỗng gia t ca mt thut toĂn vợi mức tữỡng ỗng gia t õ ngữới ữa ã Ănh giĂ khĂch quan (Extrinsic Evaluation): ữa kt quÊ tnh toĂn mức tữỡng ỗng gia tł cıa mºt thu“t to¡n v o c¡c øng dưng ” ki”m tra xem øng dưng ÷ỉc c£i thi»n nh÷ th‚ n o Mºt sŁ øng dưng phŒ bi‚n: Word-sense disambiguation (WSD) Nh“n di»n lØi dòng tł (Malapropisms/Spelling error detection) Ch§m i”m b i lu“n (Essay grading) Tr£ líi c¥u häi tr›c nghi»m tł vüng b i thi TOEFL V dử: Vợi cƠu họi: Levied is closest in meaning to which of these following words: imposed/believed/requested/correlated? , ta s tnh tữỡng ỗng gia cĂc cp t (levied, imposed ), (levied, believed ), (levied, requested ), (levied, correlated) tm t cõ tữỡng ỗng cao nhĐt vỵi tł levied N‚u k‚t qu£ t‰nh to¡n trịng khợp vợi Ăp Ăn ca cƠu họi ( Ăp Ăn l tł imposed ), th… thu“t to¡n â hi»u qu£ 14 ... h…nh v‡ Mºt phƒn cıa h» phƠn cĐp ỵ in WordNet biu din mt s khĂi ni»m v kho£ng c¡ch giœa c¡c kh¡i ni»m Mºt phn ca hằ phƠn cĐp ỵ in WordNet biu din mºt sŁ kh¡i ni»m v... ỵ in WordNet, ch cõ th tnh toĂn tữỡng ỗng gia t cõ lo⁄i tł (v‰ dö: danh tł v danh tł, ºng tł v ºng tł) 2.1.1 Thu“t to¡n 1: T‰nh to¡n tữỡng ỗng dỹa trản d i ữớng i (Path-length based Similarity) ... ci l mt nghắa ca w1 v cj l mºt ngh¾a cıa w2: wordsim(w ; w ) = max ci2senses(w1);cj2senses(w2) sim(c ; c ) V‰ dử: Hnh 1: Mt phn ca hằ phƠn cĐp ỵ i”n WordNet bi”u di„n mºt sŁ kh¡i ni»m v kho£ng

Ngày đăng: 17/12/2022, 05:02

Tài liệu cùng người dùng

Tài liệu liên quan