Đo độ tương tự ngữ nghĩa của cặp ngôn ngữ Anh-Việt theo mô hình phân phối ngữ nghĩa song ngữ

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	7
Dung lượng	494,95 KB

Nội dung

Bài viết trình bày một số kỹ thuật đo độ tương tự ngữ nghĩa song ngữ theo tiếp cận nhúng từ song ngữ; Đề xuất một mô hình mạng nơron xây dựng không gian vector biểu diễn ngữ nghĩa song ngữ; xây dựng bộ dữ liệu chuẩn cho bài toán đo độ tương tự ngữ nghĩa song ngữ Việt-Anh.

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI Nghiên cứu ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/8/2018 DOI: 10.15625/vap.2018.00021 ĐO ĐỘ TƯƠNG TỰ NGỮ NGHĨA CỦA CẶP NGÔN NGỮ ANH-VIỆT THEO MƠ HÌNH PHÂN PHỐI NGỮ NGHĨA SONG NGỮ Bùi Văn Tân1, Nguyễn Phương Thái2, Đinh Khắc Quý2 Trường Đại học Kinh tế Kỹ thuật Công nghiệp Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội TÓM TẮT: Đo lường độ tương tự ngữ nghĩa từ toán nghiên cứu cốt lõi có nhiều ứng dụng xử lý ngơn ngữ tự nhiên Những nghiên cứu công bố gần thường giải toán cho đơn ngữ Gần đây, chứng kiến gia tăng không ngừng số lượng ứng dụng xử lý tự nhiên đa ngôn ngữ, đặt yêu cầu cần có kỹ thuật đo lường độ tương tự ngữ nghĩa song ngữ cách hiệu Trong viết này, chúng tơi trình bày số kỹ thuật đo độ tương tự ngữ nghĩa song ngữ theo tiếp cận nhúng từ song ngữ; đề xuất mơ hình mạng nơron xây dựng khơng gian vector biểu diễn ngữ nghĩa song ngữ; xây dựng liệu chuẩn cho toán đo độ tương tự ngữ nghĩa song ngữ Việt-Anh Cuối cùng, thực nghiệm đánh giá kỹ thuật liệu xây dựng Từ khóa: Xử lý ngơn ngữ tự nhiên, độ tương tự ngữ nghĩa song ngữ, nhúng từ song ngữ I GIỚI THIỆU Sự tương đồng ngữ nghĩa từ (word similarity) đóng vai trị trung tâm cách thức người xử lý tri thức tiêu chí để phân loại đối tượng, xây dựng khái niệm, biểu diễn tổng quát trừu tượng Do đó, word similarity đóng vai trị then chốt nhiều tác vụ xử lý ngơn ngữ tự nhiên (NLP) truy vấn thông tin (infomation retrieval); mơ hình ngơn ngữ (language modeling); phân cụm văn (document clustering); phát kế thừa văn (recognizing textual entailment)… Đo lường độ tương tự ngữ nghĩa cách hiệu thách thức cốt lõi xử lý tài liệu văn phi cấu trúc lĩnh vực xử lý liệu lớn (Big Data) Phần lớn kỹ thuật đề xuất cho toán word similarity cho đơn ngữ, chúng thực đo độ tương tự ngữ nghĩa cặp từ ngôn ngữ Sự phát triển ứng dụng xử lý đa ngôn ngữ (multilingual) đặt yêu cầu đo lường độ tương tự ngữ nghĩa cặp từ song ngữ (Cross-Lingual Words Similarity- CLWS) Hiện nay, CLWS tốn quan trọng có ứng dụng số tác vụ xử lý ngôn ngữ tự nhiên dịch máy (machine translation), tìm kiếm thơng tin (information retrival) khai phá liệu (data minning) [6] Các kỹ thuật word similarity lượng giá mức độ giống hai từ, hay định lượng khoảng cách nhận thức hai khái niệm với quan tâm loại chúng (ví dụ, từ ‘trâu’ tương tự với từ ‘bị’ hai gia súc ăn cỏ người ni dưỡng) chức chúng (ví dụ, từ ‘xe máy’ có độ tương tự lớn với từ ‘xe đạp’ hai phương tiện mà người dùng để di chuyển) Ngược lại, kỹ thuật đo mức độ liên quan ngữ nghĩa (word relatedness) quan tâm đến nhiều loại quan hệ khác từ, ví dụ từ “ơ tơ” có liên quan ngữ nghĩa với từ “xăng” chúng không tương tự với nghĩa, “ơ tơ” “xăng” không chia sẻ kiểu hay chức chung, nhiên chúng có mối quan hệ chung, “xăng” nhiên liệu dùng cho “ô tô” Khái niệm tương tự (similarity) liên quan (relatedness) không loại trừ, độc lập với word similarity trường hợp đặc biệt word relatedness Nội dung viết cấu trúc sau: phần II trình bày số kỹ thuật CLWS dựa kỹ thuật nhúng từ song ngữ (cross-lingual word embeddings); phần III, đề xuất mơ hình mạng nơron xây dựng khơng gian vector biểu diễn ngữ nghĩa song ngữ; phần IV, đề xuất liệu đánh giá kỹ thuật CLWS cho cặp ngơn ngữ ViệtAnh; phần V, trình bày thực nghiệm cặp ngơn ngữ Việt-Anh; cuối phần phân tích, kết luận II MỘT SỐ KỸ THUẬT CLWS DỰA TRÊN NHÚNG TỪ SONG NGỮ Những kỹ thuật đề xuất cho tốn CLWS chia thành ba nhóm chính: thứ nhất, dựa Cơ sở tri thức (Knowledge-based), khai thác tri thức tự động từ từ điển điện tử (Machine - Readable Dictionaries) từ điển đồng nghĩa, mạng từ (WordNet); thứ hai, dựa kho ngữ liệu (Corpus-based) Thứ ba, dựa nhúng từ song ngữ (cross-lingual word embeddings), nghiên cứu công bố gần cho thấy, hướng tiệp cận đặc biệt hiệu cho toán CLWS Trong viết này, chúng tơi trình bày số kỹ thuật CLWS cho cặp ngôn ngữ Anh-Việt theo hướng cross-lingual word embeddings A Monolingual Embedding Models Những năm gần đây, phương pháp nhúng từ đơn ngữ hay word embeddings (Mikolov et al., 2013a; Pennington et al., 2014) nhận quan tâm đặc biệt lĩnh vực NLP Một số kỹ thuật nhúng từ lấy cảm hứng từ mơ hình ngơn ngữ dựa mạng nơron nhân tạo (Neural Network Language Models) Các mơ hình ngơn ngữ mạng nơron chuẩn đoán từ ngữ cảnh dựa từ cung cấp Về trực giác, từ có nghĩa tương tự thường xuất gần văn Các mơ hình mạng nơron học nhúng từ bắt đầu việc khởi tạo vector biểu 162 ĐO ĐỘ TƯƠNG TỰ NGỮA NGHĨA CỦA CẶP NGÔN NGỮ ANH - VIỆT THEO MƠ HÌNH PHÂN PHỐI NGỮ NGHĨA… diễn từ cách ngẫu nhiên, sau lặp lặp lại việc luyện mạng, tạo cho vector từ nhúng gần với vector biểu diễn từ lân cận, khác vector biểu diễn từ mà không xuất lân cận Tiêu biểu số kỹ thuật cho word2vec T Mikolov cộng đề xuất (Mikolov et al., 2013a) Cũng giống mơ hình ngơn ngữ mạng nơron, mơ hình Word2Vec học nhúng từ cách huấn luyện mạng nơron để dự đoán từ lân cận, với hai kiến trúc Skip-gram Continuous bag of words (CBOW) Trong đó, kiến trúc Skip-gram (Hình 1) dự đốn (predict) từ lân cận cửa sổ ngữ cảnh (context window) cách cực đại hóa trung bình logarit xác suất có điều kiện (cơng thức 1) T c   log p( wt  i | wt ) T t 1 j  c (1) (1) Trong {wi :i  T } toàn tập huấn luyện, wt từ trung tâm wt  j từ cửa sổ ngữ cảnh Xác suất có điều kiện định nghĩa hàm softmax (công thức 2) T p( w j | wI )  exp(vw vwI ) O T  exp(v'w' j vwI ) (2) (2) Trong đó, vw v'w vector biểu diễn từ w , vw hàng ma trận trọng số W lớp đầu vào (input) lớp ẩn (hidden), v'w cột ma trận trọng số W ' lớp ẩn lớp (output) mạng Ta gọi vw vector đầu vào (input vector) v'w vector đầu (output vector) từ w Hình Kiến trúc Skip-gram Hình Kiến trúc Continuous bag of words Một ưu điểm lớn kỹ thuật word2vec cần huấn luyện với ngữ liệu thô Khi sử dụng kho ngữ liệu lớn, tập từ vựng đầy đủ, tính độ tương tự cặp từ Bên cạnh đó, vector biểu diễn từ tạo sau huấn luyện, khả đo độ tương tự ngữ nghĩa cịn sử dụng nhiều tác vụ xử lý ngôn ngữ khác Nhược điểm kỹ thuật khơng phân biệt rõ tính tương tự tính liên quan cặp từ B Cross-Lingual Word Embedding Models Cross-lingual word embeddings (CLWE) mơ hình biểu diễn từ cho phép biểu diễn ngữ nghĩa từ ngữ cảnh đa ngơn ngữ, đóng vai trị tác vụ chuyển đổi tài nguyên ngôn ngữ (cross-lingual transfer knowledge) phát triển ứng dụng NLP cho ngơn ngữ có tài nguyên (low-resource languages) Gần đây, chứng kiến gia tăng không ngừng số lượng ứng dụng NLP liệu đa ngôn ngữ, ứng dụng địi hỏi cần có mơ hình CLWE hiệu Các mơ hình CLWE tạo khơng gian vector biểu diễn từ đa ngôn ngữ kết nối khơng gian vector biểu diễn từ đơn ngữ Mơ hình Translation Matrix: Mikolov cộng đề xuất năm 2013 (Mikolov et al., 2013b) dựa tiếp cận xây dựng ánh xạ tuyến tính (Mapping-based approaches) Nghiên cứu cho thấy, có tương đồng quan hệ hình học khơng gian vector biểu diễn từ từ ngơn ngữ khác Ví dụ, số từ thuộc chủ đề động vật tiếng Anh biểu diễn tập hợp điểm tiếng Tây Ban Nha (Hình 3) Điều cho thấy rằng, chuyển đổi khơng gian vector biểu diễn từ ngôn ngữ nguồn s tới khơng gian vectors biểu diễn từ ngơn ngữ đích t thơng qua việc học ánh xạ tuyến tính ma trận chuyển (transformation matrix) W Họ sử dụng 5000 cặp từ song ngữ phổ biến hai ngơn ngữ nguồn đích Sau học ma trận W sử dụng thuật toán giảm gradient để cực tiểu hóa hàm lỗi bình phương nhỏ (mean squared error, MSE) Bùi B Văn Tân, Nguyễn N Phương Thái, Đinh Khắắc Quý 163 n MSE   || Wxis  xit ||2 (3) i 1 (3) Trong đ Xs Xt hai không giaan vector biểu diễn từ mồi m ngônn ngữ nguồn vvà ngôn ngữ đích đ Trong nghiên n cứu củủa (Xing et al , 2015) chhỉ rằng, kết học ma trận t tối ưu W* cải thiiện đáng kể nế ếu bổ sung ràng r buộc trựcc giao cho m ma trận W (W.WT = I) Tron ng trường hợp p này, việc tìm m W* quy vềề giải toán n trực giao Procrustes P Lờ ời giải tối ưu đạt đư ược thơng qua phép phân tích ma trận singular valuue decomposition (SVD) (cơng thức 4) W *  arg miin || WX S  X t ||F UV T (4) W Od (R ) (4) Với U V T  SVD( X S X T ) Mơ hìn nh Bilingual B Bag-of-Wordss (BilBOWA): Gouws v cộng đề xuất năm 20115 (Gouws et al., 2015), mơ m hình BilBO OWA khơng ddùng liệu từ gióng hàng từ (word align nments), làà mở rộngg skip-gram m negative sampling s (SGN NS) để học CL LWE Thay vìì dùng liệu u cặp từ song ngữ n ggióng hàng, mơơ hình giả ải thiết từ câu c nguồn gióng vvới từ câu đích d mơ hhình gióng hààng thống nhấ ất (uniform alignment a moddel) Do đó, m mơ hình thhuộc nhóm dự ựa liệu gióng hàng mức câu (Senntence-Level Alignment Methods) M Hình Mơ p giống tương quan hình học từ thuộ ộc chủ đề độngg vật tiếngg Anh Tây Ban Nha [3]) Thay vìì cực tiểu hóa khoảng cách từ gióng hàng g, mơ hình nàyy cực tiểu hóaa khoảng cách trung bình g biểu diễn d từ troong câu đượ ợc gióng hàng g Hàm mục tiêêu BiBOW WA xác định công thức  BILBBOWA  || m 1 n s t  x j || (5 )  xi  m wis sent s n w tj sent t (5) Trong đ xis xjt làà vector em mbeddings củaa từ wis wjt cââu sents senntt ngôn ngữ s t Sử S dụng SGNS S hàm m mục tiêu cho nhhúng từ đơn ngữ, BilBOWA A cực tiểu hàm m lỗi trongg công thức t s J  LsSGNS  LtSGNS   BIILBOWA (6) (6) Hình Mơ M hình BilBOW WA [2] 164 ĐO ĐỘ Đ TƯƠNG TỰ Ự NGỮA NGHĨA A CỦA CẶP NG GÔN NGỮ ANH H - VIỆT THEO O MƠ HÌNH PH HÂN PHỐI NGỮ Ữ NGHĨA… Mơ hìn nh BiSkip: đư ược đề xuất bở ởi Luong cộng (L Luong et al., 22015), mô hìnhh sử dụng g SGNS để dự d đốn ngữ cảnh c (contextss) từ cảả ngôn ngữ ng guồn đích Khác với tiếpp cận BilB BOWA, BiSkip sử dụng SGNS S để dự đoán đ mục tiêu song ngữ ữ Mơ hình nàày tối ưu u theo hàm mấất mát sauu: t s J  LsSGGNS  LtSGNS  LsSGNS  LtSGNS NS (7 ) (7) III MƠ HÌN NH MẠNG NƠRON N Trong nghiên n cứu nàày, đđề xuất mơ m hình mạng nơron gồm baa lớp để học m ánh xạ yến tính từ khơng k gian veector nhúng từ tiếng Việt vàào không gian n vector từ tiếng Annh Kiến trúc ccủa mạng nơron đề xuất trrong nghiên cứu c m minh họa hình 5, gồm ba b lớp: lớp đầầu vào (input llayer) lớp ẩẩn (hidden layer) có kích th hước d, lớpp đầu (outpuut layer) có kíích thước k Đầu Đ vào nhận xv vector eembedding củaa từ tiếng Việt, đầu vector v ye biểu diễn cho từ trrong tiếng Anhh tương ứng với v từ tiếng Viiệt gióóng hàng Cácc trọng số lớp input v hidden đượ ợc biểu diễn bằằng ma trận d hàng k cột (W Wdxk), trọn ng số lớpp hidden lớớp output c biểu diễn b ma trận k hàng d cột (W Wkxd) H Hình Kiến trú úc mạng nơron đề xuất Cho cặpp từ troong t cặp từ V Việt-Anh thuộcc tập huấn luy yện, xv vectoor biểu diễn từ v tiếng Việt, lớp hidden h lớp output tíính sau: h  Re LU ( xt W ) (8) (8) ye  h.W ' (9) (9) húng sử Kiến trúúc mạng đượcc định nghĩa vvà tham số mô tảả giả mã thuuật toán Ch dụng d hàm lỗi Mean M Squaredd Error (MSE)) thuật toán n tối ưu Adam Thuậ ật toán 1: thuậ ật toán huấn luyện l mạng 10 11 12 13 14 15 16 x= WE_V V # word embedding e Vieetnamese y= WE_E E # word embedding Eng glish N # numbber of loops model = torch.nn.Sequ uential( torch.nnn.Linear(D_in n, H), torch.nn.R ReLU(), torch.nn.L Linear(H, D_ _out)) loss_fn = torch.nn.MSE ELoss(size_av verage=False)) learning rate = 1e-5 optimizerr = torch.optim m.Adam(modell.parameters()), lr=learninng_rate) for t in raange(N): y_predd = model(x) loss = loss_fn(y_preed, y) modell.zero_grad() loss.baackward() optim mizer.step() IV XÂ ÂY DỰNG B BỘ DỮ LIỆU TƯƠNG TỰ Ự NGỮ NGHĨĨA SONG NG GỮ Bộ liệu kiểm tra độ tương tự ngữ nghĩa so ong ngữ từ t (cross-linguual semantic word similarity dataset) đóng đ vai trị làà cơng cụ để đđánh giá kkỹ thuật CLW WS Mặc dù vậậy, có nghiêên cứu CLW WS cho tiếng Việt công c bố Theoo tra cứu củủa đđối với ngh hiên cứu xử lý ngôn ngữ ữ tự nhiên tínhh đến thời điểm tại, chưa c có nghiênn cứu cơnng bố liệu đánh giá cho to ốn Do đđó, tthực nghiên cứu xây x dựng d liệu đánh ggiá kỹ thuuật CLWS cho o cặp ngôn ng gữ Việt-Anh ( English-Vietnnamese Wordss Smilarity Dataset D - EVW WSD) Bùi Văn Tân, Nguyễn Phương Thái, Đinh Khắc Quý 165 Word similarity thừa nhận rộng rãi việc lượng giá mơ hình khơng gian vector ngữ nghĩa (semantic vector space models) nói riêng kỹ thuật biểu diễn ngữ nghĩa nói chung (semantic representation techniques) Một vấn đề cốt lõi đánh giá kỹ thuật word similarity khơng có phép đo xác tuyệt đối cho kỹ thuật Tính tương tự đánh giá thang đo đồng thuận người Do đó, tương tự ngữ nghĩa thay đổi theo ngữ cảnh, tảng văn hóa, nhận thức chủ quan người theo thời gian A Lựa chọn cặp từ song ngữ Tham khảo liệu tương tự ngữ nghĩa song ngữ cho cặp ngôn ngữ Anh-Pháp công bố SemEval2017 Multilingual and Cross-lingual Semantic Word Similarity (Camacho-Collados et al., 2017) liệu Vsim400 Kim Anh Nguyen công công bố (Nguyen et al., 2018) Chúng tiến hành xây dựng liệu VEsim400 với 400 cặp từ Việt-Anh để đánh giá kỹ thuật CLWS cho cặp ngôn ngữ Các cặp từ Anh-Việt chọn lựa dựa nguyên tắc: - Là từ sử dụng phổ biến, có tần số xuất cao kho ngữ liệu đơn ngữ - Hạn chế dùng từ đa nghĩa - Các từ cặp từ loại thuộc ba từ loại danh từ, tính từ động từ - Đối với từ tiếng Việt, ưu tiên chọn từ Việt, từ đơn âm tiết (so với đa âm tiết) - Bộ liệu gồm 400 cặp từ, 200 cặp danh từ, 100 cặp động từ 100 cặp tính từ Bảng Một số cặp từ Việt-Anh liệu Từ dog Từ chó Độ tương tự 9.00 fly dog Từ bay Từ Độ tương tự 9.10 dê 4.50 fly bầu_trời 6.87 cat mèo 9.00 hear nghe 9.10 language ngôn_ngữ 9.70 locate định_vị 8.20 language sách 7.52 reply trả_lời 9.00 language điện_thoại 2.45 smile cười 8.80 bird gà_trống 6.36 search tìm_kiếm 9.40 bird chim 9.20 sing hát 9.20 signature chữ_ký 9.45 happy hạnh_phúc 9.35 pillow gối 8.55 happy buồn 1.25 pillow giường 7.20 intelligent giỏi 9.10 fill lấp_đầy 7.90 intelligent ngu_dốt 1.75 B Đánh giá độ tương đồng ngữ nghĩa cặp từ Bộ liệu chia thành bốn tập rời nhau, tập gồm 100 cặp từ Việt-Anh Mỗi tập 15 sinh viên chuyên ngành công nghệ thông tin đánh giá độ tương tự, người có kiến thức ngơn ngữ, có trình độ tiếng Anh mức Việc đánh giá cá nhân diễn độc lập Để thuận lợi cho người đánh giá, cung cấp cho họ dịch sang tiếng Việt từ tiếng Anh liệu Thang đo độ đánh giá từ tới 10 Sau nhận kết đánh giá từ 15 người, tổng hợp kết đánh giá Cuối cùng, độ tương đồng ngữ nghĩa cặp từ Việt-Anh giá trị trung bình 15 người đánh giá độc lập V THỰC NGHIỆM Trong nghiên cứu này, tiến hành hai thực nghiệm: (1-NN) mơ hình mạng nơron đề xuất để học ánh xạ tuyến tính từ không gian vector nhúng từ tiếng Việt vào không gian vector từ tiếng Anh; (2-SVD) sử dụng phân tích ma trận SVD1 để tính ma trận chuyển W* Để tạo mơ hình nhúng từ đơn ngữ cho tiếng Việt với mơ hình skip gram negative sampling, sử dụng corpus gồm 21 triệu câu với khoảng 560 triệu token, sử dụng công cụ vnTokenizer để tách từ Đối với nhúng từ tiếng Anh, sử dụng corpus BWLMB2 Các vector nhúng có số chiều 300, thuật toán huấn luyện loại bỏ từ xuất 50 lần corpus, kích thước cửa sổ context https://docs.scipy.org/doc/numpy-1.14.0 https://code.google.com/archive/p/1-billion-word-language-modeling-benchmark/ 166 ĐO ĐỘ Đ TƯƠNG TỰ Ự NGỮA NGHĨA A CỦA CẶP NG GÔN NGỮ ANH H - VIỆT THEO O MÔ HÌNH PH HÂN PHỐI NGỮ Ữ NGHĨA… 5, số mẫu neegative (negattive samples) 10 Chúng sử dụng 10 000 cặp từ Annh-Việt phổ b iến lựa chọn c từ Từ điển đ Anh-Việtt, Việt Anh3, từ trích từ hai khơng gian nhúng từ đơn đ ngữ hai m ma trận ggióng hàng hình Mạng nơron n trình bàày phần III cài đặt sử dụng PyTorch h, mạng đđược huấn luyyện để cực tiểu hóa hàm -5 lỗi MSE sử dụụng thuật toán tối ưu Adam Tốc độ học α=10 α , số chiềều vector d=3000, số nút ẩn kk=150 Hình 66 Sơ đồ tạo maa trận word emb bedding gióng hhàng Để tínhh độ tương tự ggiữa cặp từ ừ, sử dụng độ đo khoảng cách ccosine     u v cos ine( u , v )    (10) | u || v | (10) Bảng Độ ộ tương tự ngữ ữ nghĩa số ố cặp từ đo kỹ thuuật nhúng từ soong ngữ Từ ừ1 dog dog cat languaage languaage languaage bird bird signatuure pillow pillow fill … Từ chó dê mèoo ngơơn_ngữ sáchh điệnn_thoại gà_ttrống chim m chữ ữ_ký gối giườ ờng lấp đầy VEsim400 9.00 4.50 9.00 9.70 7.52 2.45 6.36 9.20 9.45 8.55 7.20 7.90 Độ tươngg quan Pearso on Độ tươngg quan Spearm man SVD 9.33 3.40 8.22 9.85 3.20 2.10 2.80 5.60 4.90 8.89 2.10 3.20 NN 8.56 3.55 8.43 8.86 5.75 1.87 4.73 6.40 5.80 7.60 5.50 6.45 0.564 0.603 0.5922 0.6144 Hình 77 Kết thực nghiệm với liệu VEsim m400 Bảng trình bày kếtt đo độ tư ương tự ngữ ng ghĩa số cặp từ củaa liệu V VEsim400, biể ểu đồ hình h biểu diễễn trực quan hhiệu lư ược đồ cải tiến đề xuất Kết K thực nnghiệm cho thhấy mạng g nơron chúng c đề xuất có khả nănng sinh khơơng gian vecto or biểu diễn từ song ngữ tốtt cho tác vvụ đo lường độ đ tương tự ngữ n nghĩa, so với v hướng tiếpp cận sử dụngg phân tích maa trận SVD https://github.coom/ Bùi Văn Tân, Nguyễn Phương Thái, Đinh Khắc Quý 167 VI KẾT LUẬN Trong viết này, chúng tơi trình bày số hướng tiếp cận cho tốn CLWS, đề xuất mơ hình mạng nơron nhân tạo xây dựng khơng gian vector biểu diễn ngữ nghĩa song ngữ Đặc biệt, đề xuất liệu VEsim400 để đánh giá kỹ thuật CLWS cho cặp ngôn ngữ Việt-Anh Trên sở nghiên cứu thực nghiệm tiến hành, chúng tơi tiếp tục nghiên cứu tốn đo lường độ tương tự ngữ nghĩa song ngữ dựa cross-lingual embeddings VII LỜI CẢM ƠN Bài viết nhận hỗ trợ đề tài nghiên cứu khoa học “Xây dựng hệ thống dịch tự động hỗ trợ việc dịch tài liệu tiếng Việt tiếng Nhật nhằm giúp nhà quản lý doanh nghiệp Hà Nội tiếp cận làm việc hiệu với thị trường Nhật Bản”, biết ơn hỗ trợ phương tiện, tài liệu kinh phí khn khổ đề tài nghiên cứu Chúng biết ơn cán phản biện kín nhận xét hữu ích họ, giúp chúng tơi hồn thiện viết TÀI LIỆU THAM KHẢO [1] José Camacho-Collados, Mohammad Taher Pilehvar, Nigel Collier, and Roberto Navigli Semeval-2017 task 2: Multilingual and cross-lingual semantic word similarity InSteven Bethard, Marine Carpuat, Marianna Apidianaki, Saif M Mohammad, Daniel M.Cer, and David Jurgens, editors, SemEval@ACL, pages 15-26 Association for Computational Linguistics, 2017 [2] Stephan Gouws, Yoshua Bengio, and Greg Corrado Bilbowa: Fast bilingual distributed representations without word alignments In Francis R Bach and David M Blei, editors, ICML, volume 37 of JMLR Workshop and Conference Proceedings, pages 748-756 JMLR.org, 2015 [3] Thang Luong, Hieu Pham, and Christopher D Manning Bilingual word representations with monolingual quality in mind In VS@ HLT-NAACL, pages 151-159, 2015 [4] Tomas Mikolov, Quoc V Le, and Ilya Sutskever Exploiting similarities among languages for machine translation CoRR, abs/1309.4168, 2013a [5] Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S Corrado, and Jeffrey Dean Distributed representations of words and phrases and their compositionality In Christopher J C Burges, Léon Bottou, Zoubin Ghahramani, and Kilian Q Weinberger, editors, NIPS, pages 3111-3119, 2013b [6] Kim Anh Nguyen, Sabine Schulte im Walde, and Ngoc Thang Vu Introducing two vietnamese datasets for evaluating semantic models of (dis-)similarity and relatedness In Marilyn A Walker, Heng Ji, and Amanda Stent, editors, NAACL-HLT (2), pages 199-205 Association for Computational Linguistics, 2018 ISBN 978-1-94808729-2 [7] Jeffrey Pennington, Richard Socher, and Christopher D Manning Glove: Global vectors for word representation In EMNLP, volume 14, pages 1532-1543, 2014 [8] Yangyang Wu, Siying Wu, and Duansheng Chen Chinese-english bilingual word semantic similarity based on chinese wordnet JSW, 10(1):20-31, 2015 [9] Chao Xing, Dong Wang, Chao Liu, and Yiye Lin Normalized word embedding and orthogonal transform for bilingual word translation In Rada Mihalcea, Joyce Yue Chai, and Anoop Sarkar, editors, HLT-NAACL, pages 1006-1011 The Association for Computational Linguistics, 2015 ISBN 978-1941643-49-5 CROSS-LINGUAL SEMANTIC SIMILARITY VIA CROSS-LINGUAL EMBEDDINGS Bui Van Tan, Nguyen Phuong Thai, Dinh Khach Quy ABSTRACT: measuring semantic similarity between words is a core issue because important applications in natural language processing Former study on this problem almost to solve on monolingual Recently, there has been an increase in multilingual natural language processing applications that require there are powerful cross-lingual word semantic similarity methods In this paper, we present cross-lingual semantic word similarity methods based on cross-lingual word embedding We proposed a neural network model for constructing a cross-lingual word embeddings space Construct a benchmark dataset for evaluating these methods on Vietnamese-English; the last, which is experimental on the proposed dataset ...162 ĐO ĐỘ TƯƠNG TỰ NGỮA NGHĨA CỦA CẶP NGÔN NGỮ ANH - VIỆT THEO MƠ HÌNH PHÂN PHỐI NGỮ NGHĨA… diễn từ cách ngẫu nhiên, sau lặp lặp lại việc luyện...  LtSGNS   BIILBOWA (6) (6) Hình Mơ M hình BilBOW WA [2] 164 ĐO ĐỘ Đ TƯƠNG TỰ Ự NGỮA NGHĨA A CỦA CẶP NG GÔN NGỮ ANH H - VIỆT THEO O MƠ HÌNH PH HÂN PHỐI NGỮ Ữ NGHĨA… Mơ hìn nh BiSkip: đư ược... https://code.google.com/archive/p/1-billion-word-language-modeling-benchmark/ 166 ĐO ĐỘ Đ TƯƠNG TỰ Ự NGỮA NGHĨA A CỦA CẶP NG GÔN NGỮ ANH H - VIỆT THEO O MƠ HÌNH PH HÂN PHỐI NGỮ Ữ NGHĨA… 5, số mẫu neegative (negattive samples) 10 Chúng sử dụng 10 000 cặp từ Annh-Việt

Ngày đăng: 30/09/2021, 15:34