XỬ lí NGÔN NGỮ tự NHIÊN đồ án môn học đề tài WORD SIMILARITY semantics

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH ĐẠI HỌC KHOA HỌC TỰ NHIÊN THÀNH PHỐ HỒ CHÍ MINH XỬ LÍ NGƠN NGỮ TỰ NHIÊN Đồ án mơn học Đề tài: WORD SIMILARITY - Semantics Giảng viên hướng dẫn: Sinh viên thực hiện: PGS-TS Đinh Điền Phạm Quỳnh Thi Phan Quang Khánh Lê Thị Thúy Hằng TP Hồ Chí Minh, tháng năm 2021 20C29037 20C29026 20C29020 MỤC LỤC Mục lục Giới 1.1 1.2 1.3 thiệu Một số định nghĩa Phạm vi đề tài Ứng dụng 3 3 Một số phương pháp thơng dụng tính tốn độ tương đồng từ 2.1 Phương pháp dựa ý điển Thesaurus-based method) 2.1.1 Thuật tốn 1: Tính tốn độ tương đồng dựa độ dài đường (Pathlength based Similarity) 2.1.2 Thuật tốn 2: Tính tốn độ tương đồng dựa nội dung thông tin (Information Content Word Similarity) 2.1.3 Thuật tốn 3: Tính tốn độ tương đồng dựa từ điển (Dictionary-based) 2.1.4 Đánh giá chung phương pháp dựa ý điển 2.2 Phương pháp phân tán (Distributional method) 2.2.1 Giới thiệu giải thuật phân tán 2.2.2 Định nghĩa vector đồng xuất từ 10 2.2.3 Định nghĩa giống hai vec-tơ 11 Đánh giá chung phương pháp tính độ tương đồng từ 14 DANH SÁCH HÌNH VẼ Danh sách hình vẽ Một phần hệ phân cấp ý điển WordNet biểu diễn số khái niệm khoảng cách khái niệm Một phần hệ phân cấp ý điển WordNet biểu diễn số khái niệm giá trị xác suất khái niệm Vector đồng xuất từ "cell" Hai độ đo Manhattan Euclidean 10 12 MỘT SỐ PHƯƠNG PHÁP THƠNG DỤNG TRONG TÍNH TỐN ĐỘ TƯƠNG ĐỒNG GIỮA TỪ Giới thiệu 1.1 Một số định nghĩa • Sự đồng nghĩa (Synonymy): quan hệ nhị phân cho biết từ có đồng nghĩa hay khơng • Sự tương đồng (Similarity): định nghĩa thoáng đồng nghĩa, phát biểu từ tương đồng chúng có chung nhiều đặc điểm nghĩa, không cần phải từ đồng nghĩa tuyệt đối Ví dụ: Trong tiếng Anh, xét nghĩa từ “bank”: • Nghĩa thứ tương đồng với nghĩa từ “fund”, khơng nói từ “bank” tương đồng với từ “fund” • Nghĩa thứ tương đồng với nghĩa từ “slope”, khơng nói từ “bank” tương đồng với từ “slope” 1.2 Phạm vi đề tài Phạm vi đề tài tính tốn tương đồng mặt ngữ nghĩa từ: • Cấp độ: từ • Bình diện: Ngữ nghĩa 1.3 Ứng dụng Ứng dụng việc tính tốn tương đồng từ số tốn: • Dịch máy (Machine Translation) • Nhận biết đạo văn (Plagiarism Detection) • Phân loại văn (Document Clustering) • Trả lời câu hỏi (Question Answering) • Chấm điểm luận tự động (Automatic Essay Grading) 2.1 Một số phương pháp thông dụng tính tốn độ tương đồng từ Phương pháp dựa ý điển Thesaurus-based method) Các thuật tốn tính tốn tương đồng từ dựa ý điển trực tuyến (như WordNet hay MeSH) Các ý điển cấu trúc theo dạng phân cấp nghĩa từ tổng quát đến cụ MỘT SỐ PHƯƠNG PHÁP THƠNG DỤNG TRONG TÍNH TOÁN ĐỘ TƯƠNG ĐỒNG GIỮA TỪ Phương pháp chủ yếu tính tốn độ tương đồng từ dựa phân cấp thượng vị hạ vị ý điển Một từ A gọi hạ vị từ B (hyponym) nghĩa B tổng quát A Khi đó, B gọi thượng vị (hypernym) A Ví dụ: “car” (xe hơi) hạ vị “vehicle” (phương tiện), “vehicle” (phương tiện) thượng vị “car” (xe hơi) Tuy nhiên, ý điển WordNet, tính tốn độ tương đồng từ có loại từ (ví dụ: danh từ danh từ, động từ động từ) 2.1.1 Thuật tốn 1: Tính tốn độ tương đồng dựa độ dài đường (Path-length based Similarity) Ý tưởng: nghĩa (sense) hay khái niệm (concept) gần hệ phân cấp ý điển (thesaurus hierarchy) chúng tương đồng ngữ nghĩa Nói cách khác, nghĩa/khái niệm có khoảng cách ngắn hệ phân cấp ý điển chúng tương đồng ngữ nghĩa Khoảng cách khái niệm (concept) tính tổng số cạnh chúng hệ phân cấp ý điển công thức đây: pathlen(c1 , c2 ) = số cạnh nằm đường ngắn nối khái niệm c1 , c2 Mức độ tương đồng khái niệm nghĩa c1 , c2 : simpath (c1 , c2 ) = −logpathlen(c1 , c2 ) Mức độ tương đồng từ w1 w2 có giá trị mức độ tương đồng lớn số mức độ tương đồng cặp nghĩa (sense) ci cj , với ci nghĩa w1 cj nghĩa w2 : wordsim(w1 , w2 ) = maxci ∈senses(w1 ),cj ∈senses(w2 ) sim(c1 , c2 ) Ví dụ: Hình 1: Một phần hệ phân cấp ý điển WordNet biểu diễn số khái niệm khoảng cách khái niệm Từ hình ta tính khoảng cách khái niệm “nickel”, “coin” “money”: MỘT SỐ PHƯƠNG PHÁP THÔNG DỤNG TRONG TÍNH TỐN ĐỘ TƯƠNG ĐỒNG GIỮA TỪ pathlen(“nickel”, “coin”) = pathlen(“nickel”, “money”) = Ở ta xét khái niệm từ “nickel”, “coin” “money” nên độ tương đồng cặp từ (“nickel” “coin”) (“nickel” “money”) là: wordsim(“nickel”, “coin”) = sim(“nickel”, “coin”) = −log1 = wordsim(“nickel”, “money”) = sim(“nickel”, “money”) = −log5 = −0.69 Dựa vào kết kết luận từ “nickel” có độ tương đồng với “coin” cao so với “money” Nhận xét: Phương pháp ngầm giả định cạnh nối nút hệ phân cấp ý điển có độ dài Tuy nhiên điều khơng thực tế cạnh nối khái niệm nằm cấp bậc sâu hệ phân cấp có độ dài ngắn khái niệm nằm cấp bậc cao Ví dụ, hình 1, khoảng cách “nickel” “money” ngắn so với khoảng cách “nickel” “standard” “standard” mang ý nghĩa trừu tượng Do cần cách tiếp cận khác có khả biểu diễn độ dài cạnh cách độc lập xác 2.1.2 Thuật tốn 2: Tính tốn độ tương đồng dựa nội dung thông tin (Information Content Word Similarity) 2.1.2.1 Định nghĩa yếu tố liên quan • P(c) xác suất để từ chọn ngẫu nhiên kho ngữ liệu (corpus) instance khái niệm c hệ phân cấp ý điển • Xác suất “khái niệm gốc” (root): P (c) = 1, tất từ nhánh root Các khái niệm nằm cấp bậc sâu hệ phân cấp ý điển có xác suất thấp • Mỗi khái niệm c hệ phân cấp ý điển có giá trị xác suất P(c) tính tổng số lượng từ khái niệm c chia cho tổng số từ kho ngữ liệu biểu diễn ý điển: P (c) = w∈words(c) count(w) N Trong đó: words(c): tập hợp tất từ khái niệm c N : tổng số từ kho ngữ liệu biểu diễn ý điển Ví dụ: MỘT SỐ PHƯƠNG PHÁP THÔNG DỤNG TRONG TÍNH TỐN ĐỘ TƯƠNG ĐỒNG GIỮA TỪ Hình 2: Một phần hệ phân cấp ý điển WordNet biểu diễn số khái niệm giá trị xác suất khái niệm Dựa hình 2, tập hợp tất từ thuộc khái niệm “geological-formation”, tức words(“geological-formation”) gồm có: hill, ridge, grotto, coast, natural elevation, cave, shore • Nội dung thơng tin (information content – IC) khái niệm c tính cơng thức sau: IC(c) = −logP (c) • Nút cha chung gần (Least Common Subsumer – LCS) khái niệm c1 c2 : LCS(c1 , c2 ) = thượng vị gần củac1 c2 Ví dụ: Dựa hình ta thấy: LCS(“hill”, “coast”) = “geological-formation” LCS(“hill”, “shore”) = “shore” 2.1.2.2 Các phương pháp tính tốn độ tương đồng dựa nội dung thông tin (1) Phương pháp Resnik (1995): Tính tốn độ tương đồng từ dựa thông tin chung chúng từ có nhiều thơng tin chung chúng tương đồng nghĩa Resnik đề xuất cách ước lượng thông tin chung khái niệm c1 c2 dựa nội dung thông tin nút cha chung gần chúng công thức sau: simresnik (c1 , c2 ) = − log P (LCS(c1 , c2 )) (2) Phương pháp Dekang Lin (1998): Dekang Lin mở rộng giả thuyết Resnik cách mức độ tương đồng đối tượng A B không lượng thông tin chung A B mà khác biệt chúng Nói cách khác, A B có nhiều lượng thơng tin chung chúng tương đồng; A B có nhiều thơng tin khác chúng tương đồng Nội dung thơng tin chung A B tính bằng: MỘT SỐ PHƯƠNG PHÁP THƠNG DỤNG TRONG TÍNH TOÁN ĐỘ TƯƠNG ĐỒNG GIỮA TỪ IC(common(A, B)) Nội dung thông tin khác biệt A B tính bằng: IC(description(A, B)) − IC(common(A, B)) đó, description(A, B) gồm tất thông tin A B Sự tương đồng A B tính công thức: simlin (A, B) = IC(common(A,B) IC(description(A,B)) = log P (common(A,B) log P (description(A,B)) Từ công thức nhận xét nội dung thơng tin chung A B nhiều, tức IC(common(A,B)) lớn, A B tương đồng Áp dụng cách tiếp cận vào việc tính tốn độ tương đồng dựa ý điển, D.Lin [2] đưa công thức tính độ tương đồng khái niệm c1 c2 sau: simlin (c1 , c2 ) = 2∗log P (LCS(c1 ,c2 )) log P (c1 )+log P (c2 ) Ví dụ: Tính độ tương đồng “hill” “coast” dựa vào sau: ∗ log P (LCS(”hill”, ”coast”)) log P (”hill”) + log P (”coast”) ∗ log P ("geological-formation") = log P (text”hill”) + log P (text”coast”) ∗ log 0.00176 = ≈ 0.59 log 0.0000189 + 0.0000216 simlin (”hill”, ”coast”) = (3) Phương pháp khoảng cách Jiang-Conrath (1997): So sánh độ tương đồng dựa khoảng cách tính cơng thức: distJC (c1 , c2 ) = ∗ log P (LCS(c1 , c2 )) − (log P (c1 ) + log P (c2 )) Khoảng cách biến đổi thành độ tương đồng cách lấy giá trị nghịch đảo Phương pháp chứng minh hiệu tốt phương pháp dựa ý điển trình bày trước 2.1.3 Thuật tốn 3: Tính tốn độ tương đồng dựa từ điển (Dictionary-based) Phương pháp sử dụng giải (glosses) từ điển thay hệ phân cấp (hierarchy ) ý điển Ý tưởng: nghĩa hay khái niệm có nhiều từ giống nội dung giải chúng tương đồng nghĩa Mức độ trùng (overlap) giải tính tổng giá trị n2 , với n độ dài cụm từ chung Ví dụ: Ta có khái niệm “drawing paper” “decal” giải chúng: • drawing paper: “paper that is specially prepared for use in drafting” MỘT SỐ PHƯƠNG PHÁP THƠNG DỤNG TRONG TÍNH TỐN ĐỘ TƯƠNG ĐỒNG GIỮA TỪ • decal: “the art of transfering designs from specially prepared paper to a wood or glass or metal surface” giải khái niệm có cụm từ chung “paper” (n=1) “specially prepared” (n=2) Do đó, mức độ trùng giải “drawing paper” “decal” + 22 = Để tính tốn mức độ tương đồng khái niệm, phương pháp không xem xét mức độ trùng giải khái niệm này, mà giải mối liên hệ WordNet khác (ví dụ giải thượng vị (hypernym), hạ vị (hyponym), v.v ) Ví dụ, xét hạ vị mức độ tương đồng khái niệm A B tính cơng thức: similarity(A, B) = overlap(gloss(A), gloss(B)) + overlap(gloss(hypo(A)), gloss(hypo(B))) + overlap(gloss(A), gloss(hypo(B))) + overlap(gloss(hypo(A)), gloss(B)) đó, gloss(hypo(A)) giải gộp từ giải tất hạ vị A Công thức tổng quát cho mức độ tương đồng khái niệm c1 , c2 là: simeLesk (c1 , c2 ) = r,q∈RELS overlap(gloss(r(c1 )), gloss(q(c2 ))) với, RELS tập hợp mối liên hệ WordNet xét 2.1.4 Đánh giá chung phương pháp dựa ý điển Để áp dụng phương pháp cần phải sử dụng ý điển, phương pháp thích hợp cho ngơn ngữ có nhiều nguồn ý điển (ví dụ tiếng Anh có ý điển từ thông thường WordNet ý điển y học MeSH) Tuy nhiên, phương pháp khơng hiệu lĩnh vực cụ thể không đủ nguồn tài nguyên ý điển Để giải vấn đề này, ta sử dụng phương pháp phân tán (Distributional method ) trình bày phần 2.2 Phương pháp phân tán (Distributional method) Ở phần trước, nói phương pháp tính tốn tương đồng nghĩa hai từ ý điển cách quan sát qua phân cấp ý điển (thesaurus hierarchy) Tuy nhiên phương pháp tiềm ẩn số vấn đề sau: • Chúng ta khơng có ý điển cho ngơn ngữ • Cho dù ngơn ngữ có ý điển riêng thường việc thiếu từ, đặc biệt từ có hay từ nằm miền đặc biệt (domain-specific) vấn đề phương pháp • Nếu hai từ mà so sánh nằm hai từ loại khác (ví dụ danh từ động từ) thử thách dùng phương pháp dựa ý điển chúng nằm phân cấp khác MỘT SỐ PHƯƠNG PHÁP THÔNG DỤNG TRONG TÍNH TỐN ĐỘ TƯƠNG ĐỒNG GIỮA TỪ Vì lí mà nhu cầu phát triển phương pháp mà tự động trích xuất từ đồng nghĩa quan hệ từ khác từ kho ngữ (corpora) đặt ra, phương pháp mà nhắc đến phương pháp phân tán (distributional method) 2.2.1 Giới thiệu giải thuật phân tán Ý tưởng giải thuật phân tán nghĩa từ có liên hệ với phân phối từ xuất xung quanh Chúng ta xem xét ví dụ sau đây: • Cơ gái đến trường xxxxxxx • Tơi mua xxxxxxx • Người thợ sửa xxxxxxx bị hỏng Ngữ cảnh mà từ xxxxxxx xuất giúp liên tưởng đến loại phương tiện giao thôngthông, dùng để di chuyển Phương pháp phân tán cố gắng biểu diễn vector đặc trưng ngữ cảnh từ xxxxxxx xuất cách tìm trùng lặp với từ có nghĩa tương tự là: xe đạp, xe máy, xe điện, Chúng ta biểu diễn từ w vector đặc trưng cách sau: • Nếu có vector đặc trưng fi chứa trị binary (0 1) Giả sử từ vựng có N từ, vector fi có N phần tử tương ứng với từ v1 , v2 , v3 , , vN • Khi w có xuất hàng xóm lân cận từ vi lúc fi nhận giá trị 1, trường hợp ngược lại • Tóm lại, biểu diễn nghĩa từ w vector đặc trưng có dạng sau: w = (f1 , f2 , f3 , , fN ) Xét ví dụ trên, từ w = xe đạp, v1 = đi, v2 = mua, v3 = bay, v4 = sửa vector đồng xuất (co-occurrence vector) cho từ w từ kho ngữ liệu ví dụ là: w = (1, 1, 0, 1) Giải thuật phân tán gồm có ba bước là: Thuật ngữ đồng xuất (co-occurrence) định nghĩa (có thể xem xét hàng xóm lân cận hay không) Các thuật ngữ đồng xuất đánh trọng số (có thể nhận giá trị binary, tần suất hay lí thuyết mutual information) Độ đo khoảng cách vector sử dụng (có thể xem xét độ đo Cosine, Euclidean ) MỘT SỐ PHƯƠNG PHÁP THÔNG DỤNG TRONG TÍNH TỐN ĐỘ TƯƠNG ĐỒNG GIỮA TỪ 2.2.2 Định nghĩa vector đồng xuất từ Ở ví dụ trước đề cập, nhắc đến từ w xuất hàng xóm lân cận từ vi với từ vựng gồm N từ, từ w gồm N đặc trưng Mặc dù việc loại bỏ stop words bước xử lí phải thực xử lí ngơn ngữ tự nhiên, nhiên kích thước từ vựng cịn lớn, điều dẫn đến vector đặc trưng w thưa khơng hiệu Vì vậy, thay sử dụng tất từ từ vựng theo thuyết Hindle (1990) ta chọn số từ mà chúng xuất quan hệ ngữ pháp có phụ thuộc vào từ w Theo thuyết Hindle, danh từ có quan hệ ngữ pháp với động từ có khả tương tự Ví dụ từ cơm, cháo, bún, phở thường với động từ ăn Mặc khác, với từ có nhiều mối quan hệ phụ thuộc với từ khác, sử dụng khái niệm mới, khơng gian đặc trưng (feature space) Với đặc trưng cặp từ quan hệ từ, thay vector có N đặc trưng, ta có vector gồm NxR đặc trưng, R số lượng quan hệ có Đo lường liên kết với ngữ cảnh Ở phần trên, thảo luận định nghĩa vector ngữ cảnh đặc trưng, số chiều vector ngữ cảnh từ Ở phần này, thảo luận giá trị mà đặc trưng nên mang Những giá trị nhắc tới trọng số đo lường mối liên hệ từ đích w vector đặc trưng f Quan sát hình đây, tác giả sử dụng tần suất xuất độ đo cho liên kết: Hình 3: Vector đồng xuất từ "cell" Bây giờ, định nghĩa số thuật ngữ để tính tốn xác suất độ đo liên kết Với từ đích w, phần tử đồng xuất mọt đặc trưng f, bao gồm mối liên hệ r từ w’, viết lại là: f = (r, w’) Xác suất đặc trưng f biết từ đích w P(f|w), ước lượng maximum likelihood là: P (f |w) = count(f,w) count(w) Vì vậy, định nghĩa xác suất đơn giản độ đo liên kết biễu diễn là: assocprob (f, w) = P (f |w) 10 MỘT SỐ PHƯƠNG PHÁP THƠNG DỤNG TRONG TÍNH TỐN ĐỘ TƯƠNG ĐỒNG GIỮA TỪ Tuy nhiên, với xác suất đơn giản không hoạt động hiệu trường hợp phức tạp Chúng ta xem xét thêm số độ đo khác sau: Mutual information, Church and Hanks (1989, 1990) Mutual information hai biến ngẫu nhiên X, Y là: I(X, Y ) = x y (x,y) P (x, y)log2 PP(x)P (y) Pointwise mutual information (Fano, 1961) Pointwise mutual information đo lường tần suất xảy hai kiện x y nào, so sánh với mà kì vọng trường hợp chúng độc lập (x,y) I(x, y) = log2 PP(x)P (y) Chúng ta áp dụng lí thuyết vào vector đồng xuất cách định nghĩa Pointwise mutual (w,f ) information từ đích w đặc trưng f sau: assocP M I (f, w) = log2 PP(w)P (f ) Mặc khác, f tổ hợp hai biến r w’, ta có biến thể Lin (1998a), khai triển P(f) sau: (w,f ) assocLin (f, w) = log2 P (w)PP(r|w)P (w |w) t-test, Curran and Moens (2002), Curran (2003) Một độ đo thành cơng cho tốn word similarity sử dụng độ đo t-test T-test tính tốn sai khác trung bình quan sát trung bình kì vọng, chuẩn hố phương sai Giá trị t cao khả bác bỏ giả thiết H0 trung bình quan sát trung bình kì vọng giống t = x−µ s2 N Khi áp dụng vào mối liên kết từ, giả thiết H0 hai từ độc lập, P(w, f) = P(w)P(f) Khi kết t-test là: assoct−test (w, f ) = 2.2.3 P (w,f −P (w)P (f ) √ P (f )P (w) Định nghĩa giống hai vec-tơ Sau xây dựng mối tương quan từ xét w với từ xung quanh, phần xét đến giống hai từ w v với tính chất tức so sánh giống từ dựa vào mối liên hệ chúng với từ định w w t1 assoc(f1 ) assoc(f1 ) t2 assoc(f2 ) assoc(f2 ) t3 assoc(f3 ) assoc(f3 ) t4 assoc(fn ) assoc(fn ) Với ti ∈ từ Σ fi trọng số mối tương quan w hay v từ ti Để xác định giống w v, ta dùng hai độ đo đơn giản Manhattan Euclidean Hình bên cho thấy tư tưởng mặt hình học độ đo vec-tơ a b 11 MỘT SỐ PHƯƠNG PHÁP THÔNG DỤNG TRONG TÍNH TỐN ĐỘ TƯƠNG ĐỒNG GIỮA TỪ Hình 4: Hai độ đo Manhattan Euclidean Mặc dù Manhattan Euclidean cho thấy trực quan tốt khác hai vec-tơ, nhiên hai độ đo được nhạy cảm chúng giá trị lớn so với giá trị phần cịn lại Ví dụ vấn đề minh họa sau: ăn xơi cơm 1300 1200 quýt nước 10 thuốc cam Xét bảng độ đo Ecuclidean từ xơi ăn 100.66 thay đổi biến cơm hai từ trở thành 13 12 giá trị độ đo 11.58 Có thể thấy độ ảnh hưởng biến giá trị lớn đến giá trị độ đo Vì vậy, độ đo sau sử dụng rộng rãi Ta định nghĩa độ đo sử dụng tích vơ hướng đại số tuyến tính nnhư sau: n simdot_product (v, w) = v • w = vi × wi i Tuy nhiên, tốc độ thực phép tính tích vơ hướng hai vec-tơ phụ thuộc vào chiều dài giá trị thành phần vec-tơ Mà vec-tơ đặc trưng lại thưa gồm giá trị lớn (mặc dù số PMI chuẩn hóa) Vì ta sử dụng độ đo cosine tốt điều chỉnh simdot_product chuẩn hóa vec-tơ việc chia cho độ dài chúng simcosine (v, w) = v w • = |v| |w| n i n i vi × wi vi2 n i wi2 Vì chuyển thành vec-tơ đơn vị, ta tránh nhạy cảm xảy với giá trị lớn giá trị độ đo từ -1 đến Với giá trị -1, hai vec-tơ ngược hướng nhau; với giá trị 0, hai vec-tơ vng góc (biểu thị chúng khơng có điểm giống nhau); với giá trị 1, hai vec-tơ chiều (biểu thị cho giống hoàn toàn giữ hai vec-tơ) Trong thực dụng, giá trị thường dương trọng số assoc(fi ) thường dương 12 MỘT SỐ PHƯƠNG PHÁP THƠNG DỤNG TRONG TÍNH TỐN ĐỘ TƯƠNG ĐỒNG GIỮA TỪ Ngồi hồi quy thơng tin, ta có độ đo Jaccard ban đầu sử dụng cho vec-tơ nhị phân Sau đó, mở rộng dùng cho trọng số mối tương quan assoc (fi ) đây: simJaccard (v, w) = N i min(vi , wi ) N i max(vi , wi ) Sử dụng hàm phép tính số lượng đặc trưng trùng lặp (bởi hai vec-tơ có giá trị cho đặc trưng kết 0) Hàm max mẫu xem nhân tố chuẩn hóa Ngồi ra, độ đo Dice gần giống độ đo Jaccard giữ tử số mẫu số tổng phần tử khác không hai vec-tơ simDice (v, w) = 2× N i min(vi , wi ) N i (vi + wi ) Sau phương pháp dựa xác suất có điều kiện P (f, w) Ý tưởng phương pháp từ w từ v giống mở rộng theo xác suất điều kiện chúng phải giống tức P (f, w) P (f, v) Các tiếp cận đơn giản để so sánh hai độ đo toán tử Kullback-Leibler: D(P ||Q) = P (x) log x P (x) Q(x) Có thể thấy cơng thức, tốn tử xác định Q(x) = mà điều dễ xảy words similariy, vec-tơ thường thưa Một thay khắc phục điều toán tử Jenson-Shannon: JS(P ||Q) = D(P || P +Q P +Q ) + D(Q|| ) 2 Viết lại đẳng thức với toán ta simJS (w||v) = D(w|| w+v w+v ) + D(v|| ) 2 13 ĐÁNH GIÁ CHUNG VỀ CÁC PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG GIỮA TỪ = P (f |w) P (w, f ) assocP M I (w, f ) = log2 P (w)P (f ) P (w, f ) assocLin (w, f ) = log2 P (w)P (r|w)P (w |w) P (w, f ) − P (w)P (f ) assoct−test (w, f ) = P (f )P (w) assocprob (w, f ) simcosine (v, w) = v |v| simJaccard (v, w) = 2ì ã w |w| =√ N i min(vi ,wi ) N i max(vi ,wi ) N i min(vi ,wi ) N i (vi +wi ) simDice (v, w) = simJS (w||v) = D(w|| n i n i vi ×wi n vi2 i √ wi2 w+v w+v ) + D(v|| ) 2 Bảng 1: Bảng tóm tắt cơng thức trọng số độ đo Đánh giá chung phương pháp tính độ tương đồng từ Có cách đánh giá: • Đánh giá tự nhiên (Instrinic Evaluation): đánh giá cách so sánh kết từ thuật tốn với kết từ người Nói cách khác so sánh tương quan kết tính toán mức độ tương đồng từ thuật toán với mức độ tương đồng từ người đưa • Đánh giá khách quan (Extrinsic Evaluation): đưa kết tính tốn mức độ tương đồng từ thuật toán vào ứng dụng để kiểm tra xem ứng dụng cải thiện Một số ứng dụng phổ biến: – Word-sense disambiguation (WSD) – Nhận diện lỗi dùng từ (Malapropisms/Spelling error detection) – Chấm điểm luận (Essay grading) – Trả lời câu hỏi trắc nghiệm từ vựng thi TOEFL Ví dụ: Với câu hỏi: “Levied is closest in meaning to which of these following words: imposed/believed/requested/correlated?”, ta tính độ tương đồng cặp từ (levied, imposed ), (levied, believed ), (levied, requested ), (levied, correlated ) để tìm từ có độ tương đồng cao với từ “levied” Nếu kết tính toán trùng khớp với đáp án câu hỏi (đáp án từ “imposed”), thuật tốn hiệu 14 ... “bank” tương đồng với từ “slope” 1.2 Phạm vi đề tài Phạm vi đề tài tính tốn tương đồng mặt ngữ nghĩa từ: • Cấp độ: từ • Bình diện: Ngữ nghĩa 1.3 Ứng dụng Ứng dụng việc tính tốn tương đồng từ số... đo Đánh giá chung phương pháp tính độ tương đồng từ Có cách đánh giá: • Đánh giá tự nhiên (Instrinic Evaluation): đánh giá cách so sánh kết từ thuật tốn với kết từ người Nói cách khác so sánh... từ vựng gồm N từ, từ w gồm N đặc trưng Mặc dù việc loại bỏ stop words bước xử lí phải thực xử lí ngơn ngữ tự nhiên, nhiên kích thước từ vựng lớn, điều dẫn đến vector đặc trưng w thưa khơng hiệu

Định dạng
Số trang	15
Dung lượng	438,7 KB