Đánh giá độ tương tự ngữ nghĩa giữa các văn bản được sử dụng trong nhiều ứng dụng như tìm kiếm thông tin, tóm tắt văn bản,và dịch máy. Với văn bản tiếng Việt, một trong các hướng tiếp cận là dựa trên việc so khớp từ bởi vì đơn giản, và dễ cài đặt. Bài viết trình bày việc tích hợp mô hình Word2Vec vào phương pháp trên nhằm bổ sung việc đánh giá ngữ nghĩa của các từ trong văn bản.
Nghiên cứu khoa học công nghệ PHƯƠNG PHÁP ĐÁNH GIÁ ĐỘ TƯƠNG TỰ NGỮ NGHĨA GIỮA CÁC VĂN BẢN TIẾNG VIỆT DỰA TRÊN MƠ HÌNH WORD2VEC Ngơ Hữu Phúc1*, Phạm Văn Lai2, Vi Bảo Ngọc1, Nguyễn Chí Cơng1, Nguyễn Mạnh Trường3 Tóm tắt: Đánh giá độ tương tự ngữ nghĩa văn sử dụng nhiều ứng dụng tìm kiếm thơng tin, tóm tắt văn bản,và dịch máy Với văn tiếng Việt, hướng tiếp cận dựa việc so khớp từ đơn giản, dễ cài đặt Gần đây, phương pháp đánh giá phát triển dựa việc so khớp từ khoảng cách Levenshtein xâu Tuy nhiên, phương pháp chưa quan tâm đến tượng từ đồng nghĩa Trong báo này, chúng tơi tích hợp mơ hình Word2Vec vào phương pháp nhằm bổ sung việc đánh giá ngữ nghĩa từ văn Kết thử nghiệm cho thấy độ xác trung bình phương pháp đề xuất nâng từ 47.37% lên 79.07% Từ khóa: Xử lý ngôn ngữ tự nghiên; Học sâu; Độ tương tự ngữ nghĩa; Mơ hình vector từ ĐẶT VẤN ĐỀ Đánh giá độ tương tự ngữ nghĩa văn đóng vai trị quan trọng phát triển ứng dụng xử lý ngôn ngữ tự nhiên như: mô hình vector tốn tìm kiếm thơng tin, phân lớp văn bản, dịch máy tự động, đánh giá tính chặt chẽ văn bản, … Trong số trường hợp, phương pháp đánh giá độ tương tự hai đoạn văn sử dụng việc so khớp từ đơn giản, dựa số đơn vị từ vựng xuất hai đoạn văn đầu vào Một số cải tiến với phương pháp đơn giản đề xuất để nâng cao hiệu đánh giá: xem xét đến gốc từ (stemming), loại bỏ từ dừng, gán nhãn từ loại (part-of-speech tagging), so khớp tập dài nhất, … Tuy nhiên, sử dụng độ tương tự từ vựng lúc xác định độ tương tự ngữ nghĩa văn Trong có nhiều phương pháp đánh giá độ tương tự ngữ nghĩa từ với từ, dựa sở tri thức (knowledge-based), dựa kho ngữ liệu (corpus-based) Các độ đo áp dụng thành cơng số tốn xử lý ngơn ngữ phát từ dùng sai nghĩa, nhận dạng từ đồng nghĩa, … Từ đó, số nghiên cứu đưa phương pháp đánh giá độ tương tự ngữ nghĩa văn dựa việc khai thác thông tin có từ độ tương tự ngữ nghĩa từ thành phần văn [6, 9, 12] Đối với văn tiếng Việt, mơ hình tính độ tương tự văn thường dựa quan hệ ngữ nghĩa từ Một số mơ hình dựa từ điển đồng nghĩa WordNet dành cho tiếng Anh [1], WordNet cho tiếng Việt hồn thiện chưa cơng bố Do đó, phương pháp dựa WordNet phụ thuộc vào việc dịch Anh – Việt Một số phương pháp khác đề xuất thay WordNet phương pháp phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analysis - LSA), hay phân tích chủ đề ẩn (Latent Dirichlet Allocation – LDA), sử dụng mạng ngữ nghĩa Wikipedia [3] Bên cạnh đó, nhóm tác giả H N Phát, H H Hạnh Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 11 - 2018 103 Công nghệ thông tin P C Vinh [2] đề xuất phương pháp đánh giá độ tương tự hai văn dựa việc so khớp từ khoảng cách Levenshtein xâu Tuy nhiên, phương pháp khẳng định độ tương tự ngữ nghĩa văn chưa quan tâm đến tượng đồng nghĩa từ Trong năm gần đây, nhóm nhà nghiên cứu dẫn đầu Tomas Mikolov Google đưa mơ hình Word2Vec dựa kỹ thuật học sâu (Deep Learning) [7,8] Mơ hình Word2Vec khơng địi hỏi khối lượng tính tốn nhiều LDA giữ mối quan hệ tuyến tính từ với so với mơ hình LSA Trong [8], Mikolov việc kết hợp mơ hình SkipGram với giải thuật học sâu đem lại kết tốt mơ hình LSA Mơ hình Word2Vec biểu diễn từ thơng qua vector thực, từ tính độ tương tự mặt ngữ nghĩa từ từ (từ đồng nghĩa) thông qua độ đo Cosine vector từ tương ứng Do vậy, nghiên cứu này, chúng tơi sử dụng mơ hình vector từ Word2Vec, để đánh giá độ tương từ từ với từ, sau kết hợp với độ đo đề xuất [2] để đưa phương pháp nhằm đánh giá độ tương tự ngữ nghĩa văn tiếng Việt PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG TỰ GIỮA CÂU 2.1 Khoảng Levenshtein ứng dụng toán so khớp Khoảng cách Levenshtein [11] thể khác biệt xâu kí tự Khoảng cách sử dụng việc tính tốn giống khác xâu, chương trình kiểm tra lỗi tả Winword Spellchecker Dựa khoảng cách Levenshtein, độ đo để xác định tương tự từ vựng câu đề xuất sau [2]: giả sử, muốn tính tốn tương tự từ vựng câu s t, ta thực bước sau: - - Bước 1: Thực thao tác tách từ với câu s, t Sau đưa từ vào hai túi từ tương ứng Bước 2: Loại bỏ cặp từ giống hai túi từ Bước 3: Nếu hai túi rỗng, khoảng cách hai câu đầu vào Ngược lại, từ lại hai túi kết nối thành hai xâu s’ t’, sau tính khoảng cách Levenshtein xâu s’ t’ Bước 4: Độ tương tự từ vựng câu s t xác định sau: Lexical_Similarity( s , t ) Levenshtein_distance s ', t ' max_len s , t (1) Trong Levenshtein_distance khoảng cách Levenshtein xâu s’ t’, max_len độ dài câu dài câu s t Ví dụ: Tính độ tương tự từ vựng câu: s = “Tôi đồng_ý với ý_kiến trên” ; t = “Tơi nhất_trí với ý_kiến trên” 104 N H Phúc, …, N M Tường, “Phương pháp đánh giá … dựa mơ hình Word2Vec.” Nghiên cứu khoa học cơng nghệ Tách câu s, t thành từ, đưa chúng vào túi từ: bag_of_words(s) = {“Tôi”, “đồng_ý”, “với”, “ý_kiến”, “trên”} bag_of_words(t) = {“Tơi”, “nhất_trí”, “với”, “ý_kiến”, “trên”} Loại bỏ từ “Tôi”, “với”, “ý_kiến”, “trên” khỏi hai túi từ, ta thu được: bags_of_words(s) = {“đồng_ý”}; bags_of_words(t) = {“nhất_trí”} Nối từ cịn lại túi từ thành xâu, sau tính khoảng cách Levenshtein xâu kết sau: Levenshtein_distance "®ång_ý","nhÊt trÝ" Như vậy, tương tự câu s t là: Lexical_Similarity( s , t ) Levenshtein_distance s', t' max_len s, t 1 0.7586 29 Với kết trên, thấy, hai câu có nghĩa nhau, nhiên khoảng cách cịn nhỏ Đề xuất cải tiến trình bầy mục phần để khắc phục nhược điểm 2.2 Mơ hình vector từ Word2Vec Trong tốn xử lý ngơn ngữ tự nhiên, từ thường mã hóa vector số (hay cịn gọi one-hot vector) có kích thước kích thước tự điển, từ xuất vị trí từ điển thành phần tương ứng vector ngược lại Cách biểu diễn đơn giản, dễ hiểu nhiên có nhược điểm: thứ biểu diễn thu thưa, thứ hai với cách biểu diễn mối quan hệ ngữ nghĩa từ Khắc phục nhược điểm này, số phương pháp học máy tạo cách biểu diễn tốt hơn, biểu diễn từ phân tán (distributed word representation) sử dụng mơ hình Word2Vec Có mơ hình Word2Vec [7,8] đề xuất: mơ hình CBOW (Contiuous Bag of Word) mơ hình Skip – Gram Trong mơ hình, cửa sổ dịch chuyển ngữ liệu bước mạng huấn luyện với từ nằm cửa sổ (cịn gọi ngữ cảnh từ) Mơ hình CBOW huấn luyện để dự báo từ xuất trung tâm ngữ cảnh dựa vào từ xung quanh, cịn mơ hình Skip – Gram huấn luyện để dự báo ngữ cảnh xung quanh từ Sau mạng neuron huấn luyện xong, vector thể phép biến đổi tuyến tính lớp ẩn vector biểu diễn từ trung tâm Trong tốn liên quan đến ngữ nghĩa từ, mơ hình Skip – Gram đánh giá phù hợp [12] Do vậy, nghiên cứu này, sử dụng mơ hình Skip – Gram Mơ hình Skip-Gram: Hình thể mơ hình mạng Skip-Gram Trong đó: V kích thước từ điển; N kích thước lớp ẩn (đồng thời kích thước vector từ thu sau huấn luyện); Đầu vào từ vựng thứ k từ điển, ký hiệu wk , mã hóa dạng one – hot vector xV 1 ; WV N Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 11 - 2018 105 Công nghệ thông tin ' ma trận trọng số lớp đầu vào lớp ẩn; WV N ma trận trọng số lớp ẩn lớp đầu ra; C số từ ngữ cảnh từ đầu vào Q trình học: • T Trọng số lớp ẩn tính theo cơng thức: h x W Wk : vw k • Đầu node thứ j từ thứ c lớp tính thơng qua hàm softmax sau: p w j wo , c | wk yc , j exp uc , j (2) V exp u i i 1 đó: w j từ thứ j từ điển; wo , c từ xuất vị trí c ngữ cảnh; ' ' Do kênh lớp có chung trọng số nên uc , j u j vw h với vw hàng j j ' thứ j ma trận WV N • * Ký hiệu jc vị trí từ wo , c từ điển; t c , j 1 j jc* , * 0 j jc tc , j đầu mong muốn kênh c Do vậy, hàm lỗi lớp tính sau: ec , j yc , j tc , j • 106 ' Cập nhật ma trận trọng số WV N , WV N theo công thức sau: N H Phúc, …, N M Tường, “Phương pháp đánh giá … dựa mơ hình Word2Vec.” Nghiên cứu khoa học công nghệ V C '(new) wij '( old ) wij ( new ) ec , j hi ; wij c 1 ( old ) wij C ec , j w ij x j ' (3) j 1 c 1 tham số huấn luyện • Quá trình huấn luyện dừng vượt số lần lặp cho trước, sai số (lỗi) đủ nhỏ 2.3 Độ tương tự văn dựa vào mơ hình Word2Vec Với mơ hình Word2Vec, dựa vào độ đo Cosine vector, ta lựa chọn nhiều từ tương tự với từ cho (độ đo Cosine lớn, độ tương tự lớn) Tuy nhiên nghiên cứu này, lấy từ có khoảng cách Cosine lớn ngưỡng xác định, ngưỡng lựa chọn thông qua thử nghiệm trình bày mục Ta gọi từ gần gũi (thường từ đồng nghĩa) với từ cho Khi có tập từ gần gũi, ta cải tiến thuật toán đo độ tương tự từ vựng câu để thu độ tương tự ngữ nghĩa câu, cụ thể sau: - Bước 1: Thực thao tác tách từ với câu s, t Sau đưa từ vào hai túi từ tương ứng - Bước 2: Loại bỏ cặp từ giống hai túi từ - Bước 3: Loại bỏ cặp từ gần gũi hai túi từ - Bước 3: Nếu hai túi rỗng, khoảng cách hai câu đầu vào Ngược lại, từ lại hai túi kết nối thành hai xâu s’ t’ tính khoảng cách Levenshtein xâu - Bước 4: Độ tương tự ngữ nghĩa câu s t xác định sau: Semantic _Similarity( s , t ) Levenshtein_distance s ', t ' max_len s, t (4) Trong Levenshtein_distance khoảng cách Levenshtein xâu s’ t’, max_len độ dài câu dài câu s t Ví dụ: Tính độ tương tự từ vựng câu: s = “Tôi đồng_ý với ý_kiến trên” t = “Tơi nhất_trí với ý_kiến trên” Tách câu s, t thành từ, đưa chúng vào túi từ: bag_of_words(s) = {“Tơi”, “đồng_ý”, “với”, “ý_kiến”, “trên”} bag_of_words(t) = {“Tơi”, “nhất_trí”, “với”, “ý_kiến”, “trên”} Loại bỏ cặp từ giống khỏi túi từ Ngoài ra, cặp từ “đồng_ý” “nhất_trí” có khoảng cách cosine 0.67 nên ta loại thêm từ khỏi túi từ Sau loại ta có túi sau: bags_of_words(s) = {“”}; bags_of_words(t) = {“”} Như vậy, độ tương tự câu s t là: Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 11 - 2018 107 Công nghệ thông tin Semantic_Similarity( s, t ) Levenshtein_distance "","" max_len s, t 1 1 29 Như câu tương tự với hệ số tương tự cao Kết cho thấy với việc sử dụng mơ hình Word2Vec để xác định từ gần gũi, độ đo Sematic_Simlarity phản ánh độ tương tự mặt ngữ nghĩa câu THỬ NGHIỆM VÀ ĐÁNH GIÁ Các thử nghiệm tiến hành cài đặt chạy thử nghiệm máy Laptop Core i5 tốc độ 1.6 Ghz, Gb Ram Với mô hình Word2Vec, độ tương tự hai từ dựa vào độ đo Cosine vector, độ đo Cosine lớn, độ tương tự lớn Tuy nhiên, chưa có nghiên cứu từ đồng nghĩa có khoảng cách Cosine bao nhiêu, chúng tơi tiến hành thử nghiệm nhằm tìm giá trị ngưỡng phù hợp để xác định từ gần gũi (đồng nghĩa) Hai từ coi gần gũi khoảng cách Cosine từ lớn giá trị ngưỡng Trong thử nghiệm, để thu vector từ, sử dụng mơ hình huấn luyện cơng bố http://streetcodevn.com/, mơ hình sử dụng thư viện Deeplearning4j Java Sau đó, chúng tơi huấn luyện bổ sung với ngữ liệu thu từ văn kiện Đại hội Đảng, báo lao động, báo nhân dân, … Dữ liệu tiếng Việt đầu vào xử lý tách câu tách từ lần lượt, sử dụng công cụ vnSentDetector vnTokenizer nhóm Lê Hồng Phương đồng nghiệp xây dựng[ 4,5] Thử nghiệm Xác định ngưỡng tương tự từ với từ Trong thử nghiệm này, chúng tơi lấy 300 từ từ điển, sau với từ, sử dụng ngưỡng 0.4, 0.5, 0.6 để xác định từ gần gũi với từ cho Kết thể Bảng Bảng Thử nghiệm độ tương tự từ với từ Word2Vec Ngưỡng = 0.4 Ngưỡng = 0.5 Ngưỡng = 0.6 SL từ SL SL từ SL từ SL từ SL từ gần gũi Tỉ lệ từ Tỉ lệ Tỉ lệ sai gần gũi gần gũi sai TB thu sai sai sai % sai % TB TB TB TB TB 46.62 18.05 2.12 11.75 8.45 0.46 2.57 39.11 36.46 % % % Từ kết ta nhận thấy: Với ngưỡng 0.4, với từ thu trung bình khoảng 39 từ xem đồng nghĩa, nhiên xem xét cụ thể mặt ngữ nghĩa có tỉ lệ sai lên đến 46.62% Tương tự với ngưỡng 0.5 0.6 tỉ lệ sai 11.75% 2.57% Với ngưỡng 0.6, tỉ lệ sai nhỏ nhiên số từ đồng nghĩa 108 N H Phúc, …, N M Tường, “Phương pháp đánh giá … dựa mơ hình Word2Vec.” Nghiên cứu khoa học cơng nghệ tìm đáng kể, khoảng từ, với Tiếng Việt có nhiều từ đồng nghĩa Do vậy, chọn ngưỡng 0.5 có số lượng từ vừa đủ, trung bình với từ ta tìm 18 từ đồng nghĩa vài tỉ lệ sai vào khoảng 11.75% Thử nghiệm Xác định ngưỡng tương tự câu với câu Cũng tương tự việc xác định từ đồng nghĩa, để xác định câu đồng nghĩa ta cần xác định ngưỡng độ đo Trong thử nghiệm này, để xác định ngưỡng phù hợp với độ đo, chúng tơi tiến hành tính độ tương tự 150 cặp câu đồng nghĩa, với độ đo: Lexical_Similarity đề xuất [2], độ đo Semantic_Similarity chúng tơi đề xuất Độ tương tự trung bình 150 cặp câu tương ứng với độ đo Lexical_Similarity Semantic_Similarity 0.4144 0.672 Do vậy, thử nghiệm tiếp theo, để xác định độ tương tự câu, sử dụng ngưỡng 0.4 cho độ đo Lexical_Similarity ngưỡng 0.6 cho độ đo Semantic_Similarity Thử nghiệm Tìm câu đồng nghĩa với câu cho trước văn Nghiên cứu sử dụng để hỗ trợ trình tổng hợp ý kiến hội nghị, sau xác định ngưỡng với độ đo, tiến hành thử nghiệm tìm câu đồng nghĩa với câu cho trước văn gồm n câu (so khớp – n) Bài tốn tổng hợp ý kiến hội nghị phát biểu ngắn gọn sau: họp có nhiều chủ đề, với chủ đề có n ý kiến phát biểu, ý kiến có m thư kí ghi chép lại Người tổng hợp biên có văn tổng hợp từ m thư ký Như số lượng nội dung trùng lặp nhiều, trùng lặp tồn phần nội dung diễn đạt theo cách khác hình thức lẫn ngữ nghĩa Người tổng hợp biên muốn thực công việc cách nhanh chóng cần phát loại bỏ ý kiến trùng lặp nội dung hình thức để đưa đánh giá chung Do văn thử nghiệm coi văn tổng hợp từ m thư ký, với nội dung có m cách diễn đạt khác nhau, tương ứng với m câu đồng nghĩa xuất văn Bảng bảng thể kết tìm kiếm sử dụng độ đo Lexical_Similarity Sematic_Similarity Bảng Thử nghiệm so khớp – n với độ đo Lexical_Similarity STT n m Đúng Sai Thiếu Tỉ lệ Tỉ lệ sai Tỉ lệ thiếu 10 1 50.00% 25.00% 25.00% 50 2 42.86% 28.57% 28.57% 100 20 45.00% 15.00% 40.00% 200 45 22 15 48.89% 17.78% 33.33% Tổng 360 76 36 14 26 47.37% 18.42% 34.21% Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 11 - 2018 109 Công nghệ thông tin Bảng Thử nghiệm so khớp – n với độ đo Semantic_Similarity 1-n STT n m Đúng Sai Thiếu Tỉ lệ Tỉ lệ sai Tỉ lệ thiếu 10 75.00% 25.00% 0.00% 50 85.71% 14.29% 0.00% 100 20 16 80.00% 15.00% 5.00% 200 45 34 75.56% 15.56% 8.89% Tổng 360 60 47 79.07% 17.46% 3.47% Kết thu cho thấy độ đo đề xuất Semantic_Similarity cho nâng độ xác trung bình từ 47.37% lên 79.07% KẾT LUẬN Với việc xác định tập từ đồng nghĩa dựa khoảng cách Cosine vector mã hóa từ xác định mơ hình Word2Vec, chúng tơi đề xuất phương pháp đo độ tương tự ngữ nghĩa hai văn tiếng Việt Kết thử nghiệm cho thấy độ đo thu kết tốt tỏ phù hợp áp dụng vào toán tổng hợp văn Trong thử nghiệm với toán tổng hợp văn tiếng Việt, kết đạt 75% chấp nhận điều kiện thực tế Phương pháp đề xuất không xét đến từ loại, áp dụng ứng dụng xử lý ngôn ngữ tự nhiên khác cần thêm nghiên cứu TÀI LIỆU THAM KHẢO [1] D T Long, T T Tùng, T T Dũng, Phương pháp đánh giá độ tương tự văn Tiếng Việt, Tạp chí Khoa học Viện Đại học Mở Hà Nội, 2017 [2] H N Phát, H H Hạnh P C Vinh, Thuật toán so khớp Ontology, FAIR, 2015 [3] Hien Nguyen, Phuc Duong, Vinh Vo, Vietnamese Sentence Similarity Based on Concepts, 13th IFIP International Conference on Computer Information Systems and Industrial Management (CISIM), Nov 2014 [4] L H Phuong and H T Vinh, A Maximum Entropy Approach to Sentence Boundary Detection of Vietnamese Texts, IEEE International Conference on Research, Innovation and Vision for the Future RIVF 2008, Vietnam, 2008 [5] L H Phuong, N.T.M Huyen, Roussanaly A., H T Vinh, A Hybrid Approach to Word Segmentation of Vietnamese Texts In: Martín-Vide C., Otto F., Fernau H (eds) Language and Automata Theory and Applications LATA 2008 Lecture Notes in Computer Science, vol 5196 Springer, Heidelberg, 2008 [6] Landauer, T K., Foltz, P and Laham, D., Introduction to latent semantic analysis Discourse Processes 25, 1998 110 N H Phúc, …, N M Tường, “Phương pháp đánh giá … dựa mơ hình Word2Vec.” Nghiên cứu khoa học cơng nghệ [7] Mikolov, T., Chen, K., Corrado, G., and Dean, J., Efficient estimation of word representations in vector space, arXiv preprint arXiv:1301.3781, 2013 [8] Mikolov, T., Sutskever, I., Chen, K., Corrado, G S., and Dean, J., Distributed representations of words and phrases and their compositionality, In Advances in Neural Information Processing Systems, 2013, 3111-3119 [9] Rada Mihalcea, CourtneyCorley, Carlo Strapparava, Corpus-based and Knowledge-based Measures of Text Semantic Similarity, American Association for Artificial Intelligence, 2006, 775-780 [10] Voorhees, E Using WordNet to disambiguate word senses for text retrieval Proceedings of the 16th international ACM SIGIR conference, 1993 [11] V I Levenshtein, Binary codes capable of correcting deletions, insertions, and reversals, Soviet Physics Doklady10, 1966, 707–710 [12] Xin Rong, Word2Vec Parameter Learning Explained, Journal of Computing Research Repository, 2014 [13] Yuhua Li, David McLean, Zuhair A Bandar, James D O’Shea, and Keeley Crockett, Sentence Similarity Based on Semantic Nets and Corpus Statistics, IEEE transactions on knowledge and data engineering, Vol 18, No 8, 2006 ABSTRACT A NEW METHOD FOR EVALUATING SEMANTIC SIMILARITY OF VIETNAMESE TEXTS BASED ON WORD2VEC MODEL Evaluation of semantic similarity has been used in many applications such as information retrieval, text summarization, and machine translation Some methods for evaluating semantic similarity of Vietnamese are based on word matching because of simplify and easy implementation Recently, there was a proposed measure of text similarity by combining the word matching and Levenshtein distance of two strings However, this method does not consider synonyms This paper presents a novel method for measuring the semantic similarity of Vietnamese texts by integrating Word2Vec model into the above method The novelty of proposed methods is the compensation of the semantic similarity evaluation by the Word2Vec model The results show that the proposed measure outperforms, and it increases the average accuracy from 47.37% to 78.83% Keywords: Natural Language Processing; Deep Learning; Sematic Similarity; Word2Vec Nhận ngày 27 tháng năm 2018 Hoàn thiện ngày 27 tháng năm 2018 Chấp nhận đăng ngày 05 tháng 11 năm 2018 Địa chỉ: Học viện Kỹ thuật quân ; Viện Công nghệ Thông tin/ Viện KH – CNQS; Cục 75, Tổng cục * Email: laipv1984@gmail.com Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 11 - 2018 111 ... đề xuất phương pháp đánh giá độ tương tự hai văn dựa việc so khớp từ khoảng cách Levenshtein xâu Tuy nhiên, phương pháp khẳng định độ tương tự ngữ nghĩa văn chưa quan tâm đến tượng đồng nghĩa từ... từ tương ứng Do vậy, nghiên cứu này, sử dụng mơ hình vector từ Word2Vec, để đánh giá độ tương từ từ với từ, sau kết hợp với độ đo đề xuất [2] để đưa phương pháp nhằm đánh giá độ tương tự ngữ nghĩa. .. (lỗi) đủ nhỏ 2.3 Độ tương tự văn dựa vào mơ hình Word2Vec Với mơ hình Word2Vec, dựa vào độ đo Cosine vector, ta lựa chọn nhiều từ tương tự với từ cho (độ đo Cosine lớn, độ tương tự lớn) Tuy nhiên