Bài viết đề xuất sử dụng mô hình đồ thị để xác định tương đồng ngữ nghĩa xuyên ngữ Anh-Việt. Bên cạnh đó, chúng tôi cũng áp dụng bổ sung các phương pháp như điều chỉnh gán nhãn từ loại giữa văn bản tiếng Việt và văn bản tiếng Anh, bổ sung danh sách từ tiếng Việt đồng nghĩa, kết hợp các lớp đồ thị khác nhau.
Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR); Huế, ngày 07-08/6/2019 DOI: 10.15625/vap.2019.00071 XÁC ĐỊNH TƯƠNG ĐỒNG XUYÊN NGỮ ANH - VIỆT SỬ DỤNG MÔ HÌNH ĐỒ THỊ Lê Thành Nguyên, Trần Gia Trọng Nhân, Trần Công Hậu, Đinh Điền Trường Đại học Khoa học Tự Nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh lethanhnguyen.vn@gmail.com, 1553023@student.hcmus.edu.vn, 1553010@student.hcmus.edu.vn, ddien@fit.hcmus.edu.vn TĨM TẮT: Bài tốn xác định tương đồng ngữ nghĩa văn tốn đóng vai trị quan trọng, ảnh hưởng đến chất lượng nhiều toán xử lý ngơn ngữ tự nhiên truy vấn thơng tin, tóm tắt văn bản, phát đạo văn, Đặc biệt thời đại nay, với phát triển cơng cụ dịch tự động, tốn xác định tương đồng ngữ nghĩa văn phải xem xét đến trường hợp cặp văn thuộc ngôn ngữ khác Trong báo này, chúng tơi đề xuất sử dụng mơ hình đồ thị để xác định tương đồng ngữ nghĩa xuyên ngữ Anh- Việt Bên cạnh đó, chúng tơi áp dụng bổ sung phương pháp điều chỉnh gán nhãn từ loại văn tiếng Việt văn tiếng Anh, bổ sung danh sách từ tiếng Việt đồng nghĩa, kết hợp lớp đồ thị khác Kết thực nghiệm cho thấy việc sử dụng phương pháp giúp nâng độ xác mơ hình từ 71,9% lên 76,3% Từ khóa: tương đồng, xuyên ngữ, đồ thị, Tiếng Việt I GIỚI THIỆU Hiện nay, toán tìm kiếm phát tương đồng ngữ nghĩa văn đóng vai trị quan trọng nhiều tốn xử lý ngơn ngữ tự nhiên đánh giá chất lượng dịch máy, phát đạo văn, tóm tắt văn bản, tìm kiếm văn xun ngữ, Ví dụ hai câu sau xem tương đồng với nhau: - Câu tiếng Việt: Nếu đặt hàng bây giờ, khơng biết tơi nhận sản phẩm - Câu tiếng Anh: If I order now, I wonder when I can receive the product Trong đó, hai câu sau xem khơng tương đồng khác mặt ý nghĩa: - Câu tiếng Việt: Nếu đặt hàng bây giờ, tơi nhận sản phẩm - Câu tiếng Anh: If I go now, I wonder when I can see the doctor Việc tìm kiếm phát tương đồng thực cách thủ công, nhiên cách nhiều thời gian công sức, đặc biệt việc phát tương đồng hai văn sử dụng ngơn ngữ khác Do đó, việc áp dụng máy học cách thức phù hợp giúp giải toán so sánh tương đồng ngữ nghĩa xuyên ngữ văn Anh - Việt Mặc dù có nhiều nghiên cứu toán phát tương đồng ngữ nghĩa văn xuyên ngữ, nhiên, theo hiểu biết cá nhân, chưa có nhiều nghiên cứu cặp ngôn ngữ Anh - Việt Trong báo này, sử dụng hướng tiếp cận đồ thị tri thức để tìm kiếm phát tương đồng văn tiếng Anh văn tiếng Việt Ưu điểm phương pháp đồ thị tri thức việc biểu diễn ngữ cảnh, liên hệ khái niệm có văn xét để so sánh hai văn cách tường tận Phần cịn lại báo trình bày sau Mục II giới thiệu nghiên cứu liên quan toán phát tương đồng ngữ nghĩa văn xuyên ngữ Chúng giới thiệu phương pháp đề xuất mục III, trình bày kết đánh giá mục IV Và cuối cùng, mục V, trình bày phần kết luận hướng phát triển tương lai II CÁC NGHIÊN CỨU LIÊN QUAN Nghiên cứu Potthast [1] phân loại phương so sánh độ tương đồng ngữ nghĩa xuyên ngữ theo năm mơ Bảng Nhóm mơ hình dựa cấu trúc với phương pháp có phương pháp CL-CNG [2] làm đại diện Ý tưởng phương pháp so sánh cặp câu sử dụng n-gram trích xuất từ từ liên tiếp câu Phương pháp không đạt hiệu cao cặp ngôn ngữ khác cấu trúc cú pháp khơng nhóm ngơn ngữ, nên khơng áp dụng hiệu cho cặp ngôn ngữ Anh - Việt Bên cạnh đó, phương pháp CL-CTS [3] đại diện cho nhóm mơ hình dựa tự điển, có ý tưởng biểu diễn văn dạng véctơ khái niệm tiến hành so sánh độ tương đồng hai văn dựa hai véctơ chúng Lê Thành Nguyên, Trần Gia Trọng Nhân, Trần Công Hậu, Đinh Điền 553 Với nhóm mơ hình dựa kho ngữ liệu song song, phương pháp CL-ASA [4] phát triển dựa công nghệ dịch máy thống kê Với hai văn d d’ thuộc hai ngôn ngữ khác L L’, phương pháp tính tốn xác suất từ d dịch từ d’ dựa cặp kho ngữ liệu song song thuộc hai ngôn ngữ L L’ Từ xác suất cặp từ dịch nhau, tính tốn xác suất hai văn d d’ dịch Mơ hình phụ thuộc nhiều vào chất lượng kho ngữ liệu mơ hình Length hiệu cao với cặp câu dịch chuyên gia hay dịch tự động Bảng Các mô hình so sánh độ tương đồng ngữ nghĩa xuyên ngữ Tên nhóm mơ hình Phƣơng pháp đại diện Mơ hình dựa cấu trúc (Syntax-based model) Mơ hình dựa tự điển (Dictionary-based model) Mơ hình dựa kho ngữ liệu song song (Parallel corpus- based model) Mơ hình dựa kho ngữ liệu so sánh (Comparable corpus- based model) Mơ hình dựa dịch tự động (Machine translation- based model) Phương pháp CL-CNG (McNamee Mayfield, 2004) Phương pháp CL-CTS (Gupta, 2012) Phương pháp CL-ASA (Pinto, 2009) Phương pháp CL-KGA (M Franco-Salvador, 2015) Phương pháp dịch phân tích đơn ngữ (Barrón-Cedeno, 2012) Phương pháp CL-KGA [5] đại diện cho nhóm mơ hình dựa kho ngữ liệu so sánh, thực dựa việc xây dựng đồ thị tri thức cho văn tảng mạng BabelNet [6] (một từ điển bách khoa tồn thư đa ngơn ngữ, tài trợ Hội đồng Nghiên cứu Châu Âu (ERC)) so sánh đồ thị tri thức với Hình Ví dụ khả phát tương đồng phương pháp CL-KGA tương quan với phương pháp CL-ASA CL-CNG [7] Phương pháp có độ xác cao phương pháp khác CL-CNG, CL-ASA, CL-ESA [8] (so sánh kho ngữ liệu PAN-11, cặp ngôn ngữ Tây Ban Nha - Anh), nhiên việc xây dựng đồ thị tốn nhiều thời gian Do phương pháp tiến hành chuyển văn dạng đồ thị tri thức để so sánh, nên mô hình hồn tồn áp dụng cặp ngơn ngữ Anh - Việt Cuối nhóm mơ hình dựa dịch tự động với Phương pháp dịch phân tích đơn ngữ (T+MA) [9] làm đại diện Ý tưởng phương pháp dịch văn ngôn ngữ khác môt ngôn ngữ chung sử dụng Google Translate [10] thay từ từ gần dịch [11], sau tiến hành so sánh dịch văn ngơn ngữ chung Nghiên cứu Barron-Cedeno [12] Muhr [11] khuyến 554 CROSS-LINGUAL SEMANTIC SIMILARITY DETECTION BETWEEN VIETNAMESE AND ENGLISH TEXTS… nghị nên sử dụng phương pháp túi từ (bag of words) giai đoạn so sánh Độ xác phương pháp phụ thuộc nhiều vào độ xác công cụ dịch tự động sử dụng III PHƢƠNG PHÁP ĐỀ XUẤT Ý tưởng phương pháp đề xuất sử dụng mơ hình so sánh tương đồng ngữ nghĩa xuyên ngữ văn dựa đồ thị tri thức CL-KGA, đồng thời áp dụng giải thuật cải tiến điều chỉnh gán nhãn từ loại văn tiếng Việt văn tiếng Anh, bổ sung danh sách từ tiếng Việt đồng nghĩa, kết hợp lớp đồ thị khác Đồ thị tri thức áp dụng cho văn mơ hình biểu diễn tri thức văn dạng đồ thị Trong đỉnh khái niệm tương ứng với từ văn bản, cạnh mối quan hệ đỉnh đồ thị Dựa vào đó, đồ thị tri thức trình bày cách trực quan dễ hiểu khái niệm mối liên hệ chúng A So sánh tương đồng ngữ nghĩa xuyên ngữ văn dựa đồ thị tri thức (CL-KGA) Phương pháp so sánh tương đồng ngữ nghĩa xuyên ngữ văn dựa đồ thị tri thức bao gồm 02 giai đoạn: - Giai đoạn 1: Xây dựng đồ thị tri thức cho văn - Giai đoạn 2: So sánh hai đồ thị tri thức xây dựng Cụ thể cách thức thực hai giai đoạn sau: Xây dựng đồ thị tri thức cho văn bản: Mỗi văn xây dựng thành đồ thị tri thức cách thực theo bốn bước sau: Hình Các bước xây dựng đồ thị tri thức cho văn a) Bước 1: Tiền xử lý Trong bước tiền xử lý này, văn tách từ (đối với văn tiếng Việt), loại bỏ hư từ (stopword), gán nhãn từ loại loại bỏ từ không gán nhãn Danh từ (N), Tính từ (Adj), Động từ (V) Trạng từ (Adv) Ví dụ cặp câu Anh - Việt sau đây: - Câu tiếng Anh: This is the text with plagiarism - Câu tiếng Việt: Đây văn đạo văn Sau tiền xử lý, thu tập hợp từ kèm từ loại câu sau: - Câu tiếng Anh: text\N plagiarism\N - Câu tiếng Việt: văn_bản\N đạo_văn\Adj b) Bước 2: Xây dựng đồ thị bao gồm đỉnh ban đầu Sau có danh sách từ kèm từ loại văn đầu vào, sử dụng BabelNet để lấy tập từ đồng nghĩa (synset) chứa từ với từ loại tương ứng Những synset ban đầu đóng vai trị đỉnh ban đầu đồ thị Lê Thành Nguyên, Trần Gia Trọng Nhân, Trần Công Hậu, Đinh Điền 555 c) Bước 3: Xây dựng đồ thị hoàn chỉnh Với đỉnh ban đầu có bước 2, tiến hành tìm đường nối cặp đỉnh Trong BabelNet, hai synset có mối quan hệ ngữ nghĩa với có cạnh nối với Sử dụng tính chất này, cặp đỉnh xem nối với tìm thấy đường nối hai đỉnh (đường nối hai synset BabelNet) khoảng cách hai đỉnh tối đa (tối đa có hai synset trung gian hai synset so sánh) Sau tìm tất đường nối đỉnh văn bản, tiến hành thêm đỉnh cạnh trung gian vừa tìm vào đồ thị ban đầu, thu đồ thị hồn chỉnh Ví dụ đồ thị hồn chỉnh thu câu “văn đạo văn” “text plagiarism” sau: Hình Đồ thị hồn chỉnh tạo từ câu “văn đạo văn” Hình Đồ thị hoàn chỉnh tạo từ câu “text plagiarism” d) Bước 4: Tính trọng đỉnh cạnh đồ thị Tại bước này, tiến hành tính trọng tất đỉnh cạnh có đồ thị Trọng đỉnh tính số lượng cạnh nối ngồi (outdegree) từ đỉnh Cịn để tính trọng cạnh có đồ thị, sử dụng phương pháp biểu diễn phân tán khái niệm theo bước sau: - Xây dựng véctơ từ cách sử dụng mơ hình skip-gram [13] - Tạo véctơ thích synset, gọi gloss véctơ Do tính đa ngơn ngữ synset BabelNet nên cần lấy thích tiếng Anh synset để tạo gloss véctơ Để tạo gloss véctơ, áp dụng mơ hình SenVec (Doc2Vec) [14] với đầu vào word véctơ xây dựng từ bước trước - Tạo véctơ synset: synset có nhiều thích nên để có véctơ synset cần tính trung bình cộng tất gloss véctơ mà synset có Sau áp dụng cách tạo véctơ synset có véctơ biểu diễn cho synset đỉnh đồ thị - Tính trọng cạnh nối hai đỉnh đồ thị: áp dụng phương pháp tính so sánh cosine hai véctơ đỉnh: Độ tương đồng (v, v’) = ‖ ⃗ ⃗ ⃗ ‖ ‖⃗ ‖ với véctơ đỉnh v, véctơ đỉnh v’ 556 CROSS-LINGUAL SEMANTIC SIMILARITY DETECTION BETWEEN VIETNAMESE AND ENGLISH TEXTS… So sánh hai đồ thị tri thức xây dựng: Sau tiến hành xây dựng đồ thị tri thức G cho văn tiếng Anh G’ cho văn tiếng Việt, tiến hành so sánh hai đồ thị tri thức xây dựng sau: Đầu tiên, tính tốn độ tương đồng đỉnh hai đồ thị G G’ cách sử dụng phương pháp so sánh Dice coefficient: ∑ ∑ ∑ Trong đó: w(c) trọng đỉnh c; V(G) tập đỉnh đồ thị G, V(G’) tập đỉnh đồ thị G’; V(G) ∩ V(G’) tập đỉnh chung hai đồ thị G G’ Sau đó, tính tốn độ tương đồng cạnh hai đồ thị G G’ cách sử dụng phương pháp so sánh Dice coefficient: ∑ ∑ Trong đó: ∑ - w(r) trọng cạnh r - E(G) tập cạnh đồ thị G, E(G’) tập cạnh đồ thị G’ - E(G) ∩ E(G’) tập cạnh chung có hai đồ thị G G’ Cuối cùng, tính tốn độ tương đồng hai đồ thị G G’ dựa độ tương đồng đỉnh Sc(G, G’) độ tương đồng cạnh Sr(G,G’): Trong đó, a b hệ số tương quan đỉnh cạnh, với a+b=1 Để xác định xem văn tiếng Anh văn tiếng Việt có tương đồng ngữ nghĩa với hay khơng, sử dụng ngưỡng T [0,1] Khi đó, văn tiếng Anh văn tiếng Việt tương đồng với >T ngược lại văn tiếng Anh văn tiếng Việt không tương đồng với B Phương pháp cải tiến Điều chỉnh gán nhãn từ loại văn tiếng Việt văn tiếng Anh Thực tế trình xử lý cặp văn Anh - Việt cho thấy rằng, có trường hợp từ câu tiếng Việt từ câu tiếng Anh diễn tả ý nghĩa nhau, nhiên trình tiền xử lí có trường hợp hai từ lại gán nhãn từ loại khác nhau, điều ảnh hưởng đến kết so sánh tương đồng, từ với từ loại khác nhau, BabelNet trả tập synset khác ứng với từ loại Ý tưởng phương pháp trình truy vấn synset, hai từ cho danh sách synset BabelNet giúp nâng cao độ xác tốn xác định tương đồng văn Anh - Việt Ví dụ từ khỏe_mạnh câu tiếng Việt từ health câu tiếng Anh gán nhãn từ loại khác nhau, nhiên dễ dàng nhận thấy hai từ biểu đạt ý nghĩa giống Câu tiếng Việt: Tôi/Pp cũng/R đã/R cố_gắng/Vv để/Cm được/Vv an_tồn/Aa nhất/R có_thể/Aa ,/PU vì/Cp nó/Pp là/Vc một/Nq phần/Nn của/Cm sự/Nc khỏe_mạnh/Aa /PU Câu tiếng Anh: I/PRP also/RB tried/VBD to/TO be/VB the/DT safest/JJS person/NN I/PRP could/MD be/VB ,/, because/IN that/DT 's/VBZ a/DT part/NN of/IN health/NN / Để thực điều này, áp dụng phương pháp liên kết từ tương ứng với văn tiếng Anh văn tiếng Việt, sau cập nhật từ loại từ văn Việt theo từ loại từ tương ứng với chúng văn tiếng Anh Phương pháp bao gồm bước sau đây: Bước 1: Tiền xử lý hai văn đầu vào tiếng Anh E tiếng Việt V, loại bỏ từ dừng (stopword) Bước 2: Với từ hai văn Anh Việt, sử dụng BabelNet để truy vấn tất synset có chứa từ Bước 3: Với cặp từ văn tiếng Anh từ văn tiếng Việt, sử dụng độ đo Dice coefficient để tính độ tương đồng từ Bước 4: Với từ tiếng Việt, chọn từ tiếng Anh có độ tương đồng cao lớn để liên kết lại với hai từ khác từ loại thực cập nhật lại từ loại từ tiếng Việt theo từ loại từ tiếng Anh Cụ thể thuật toán sau: Lê Thành Nguyên, Trần Gia Trọng Nhân, Trần Công Hậu, Đinh Điền 557 SWE = Danh sách từ E \ stopword SWV = Danh sách từ V \ stopword Với từ WE SWE { Độ tương đồng lớn M = Với từ WV SWV { SE = { synset BabelNet có chứa từ WE } SV = { synset BabelNet có chứa từ WV } | Độ tương đồng(WV, WE) = | | | | | Nếu Độ tương đồng(WV, WE) > Độ tương đồng lớn M { Độ tương đồng lớn M = Độ tương đồng(WV, WE) } } Nếu Độ tương đồng lớn M > { Cập nhật lại từ loại từ tiếng Việt theo từ loại từ tiếng Anh } } Bổ sung danh sách từ tiếng Việt đồng nghĩa Số liệu Bảng cho thấy BabelNet, số lượng từ loại tiếng Việt so với số lượng từ loại tiếng Anh Điều dẫn đến việc trình xử lý văn bản, có nhiều từ tiếng Việt khơng có BabelNet, điều làm giảm chất lượng thuật toán áp dụng Bảng Số lượng từ loại tiếng Anh tiếng Việt BabelNet 3.7 Từ loại Danh từ Động từ Tính từ Trạng từ Tiếng Anh 11.638.669 29.738 85.912 14.886 Tiếng Việt 3.038.992 931 839 371 Để nâng cao số lượng từ tiếng Việt BabelNet, sử dụng danh sách từ đồng nghĩa vi.wiktionary.org viet.wordnet.vn [15] Để truy vấn BabelNet synset từ tiếng Việt khơng có BabelNet, thực theo bước sau: - Bước 1: Tìm kiếm tất từ đồng nghĩa với từ tiếng Việt danh sách từ đồng nghĩa - Bước 2: Truy vấn BabelNet synset chứa từ có bước - Bước 3: Các synset thu synset từ tiếng Việt khơng có BabelNet Cụ thể thuật toán cho hàm truy vấn synset từ BabelNet từ tiếng Việt sau: Đầu vào: từ tiếng Việt WV SWV = { danh sách từ đồng nghĩa với WV danh sách từ đồng nghĩa } SB = {} Với từ W'V SWV { BabelSynset = { synset BabelNet có chứa từ W'V } SB = SB BabelSynset } Đầu ra: SB danh sách synset BabelNet có chứa từ WV 558 CROSS-LINGUAL SEMANTIC SIMILARITY DETECTION BETWEEN VIETNAMESE AND ENGLISH TEXTS… Kết hợp lớp đồ thị khác Để cải tiến mơ hình phát tương đồng ngữ nghĩa văn Anh - Việt, tách đồ thị tri thức thành nhiều đồ thị con, sau kết hợp kết tính tốn tương đồng đồ thị theo hàm số Linear Regression để có kết tương đồng cuối Cụ thể bước thực sau: - Bước 1: Đồ thị ban đầu G tách thành bốn đồ thị khác nhau: (1) đồ thị G1 chứa danh từ động từ, (2) đồ thị G2 chứa danh từ tính từ, (3) đồ thị G3 chứa động từ trạng từ, (4) đồ thị G4 chứa tất từ loại - Bước 2: Tính toán Sgi(G,G’) đồ thị i - Bước 3: Tính tốn Sg(G,G’) = f(Sg1(G,G’), Sg2(G,G’), Sg3(G,G’), Sg4(G,G’)), f hàm số Linear Regression - Bước 4: Để xác định xem văn tiếng Anh văn tiếng Việt có tương đồng ngữ nghĩa với hay khơng, sử dụng ngưỡng T [0,1] Khi đó, văn tiếng Anh văn tiếng Việt tương đồng với Sg(G,G’) > T ngược lại văn tiếng Anh văn tiếng Việt không tương đồng với G => Sg(G,G’) = f( G1 Sg1(G,G’) G2 Sg2(G,G’) G3 Sg3(G,G’) G4 Sg4(G,G’) ) Hình Mơ hình Kết hợp lớp đồ thị khác IV ĐÁNH GIÁ KẾT QUẢ A Dữ liệu huấn luyện Để đánh giá chất lượng phương pháp đề xuất, xây dựng kho ngữ liệu gồm 1000 cặp câu Anh Việt, 500 cặp câu tương đồng 500 cặp câu không tương đồng Để thực điều này, sử dụng kho ngữ liệu dịch Anh - Việt kiểm tra tay, rút trích ngẫu nhiên 500 cặp câu tương đồng Sau đó, chúng tơi ghép cặp ngẫu nhiên câu tiếng Anh câu tiếng Việt, có tiến hành kiểm tra lại tay để xây dựng 500 cặp câu không tương đồng Trong 1000 cặp câu Anh - Việt xây dựng, sử dụng 900 cặp câu để huấn luyện 100 cặp câu để đánh giá mơ hình B Đánh giá kết Áp dụng phương pháp CL-KGA chưa cải tiến liệu huấn luyện cho thấy, bảng 3, độ xác đạt 71,9% Sau áp dụng cải tiến gán nhãn từ loại bổ sung từ đồng nghĩa, độ xác tăng lên mức 76,3% Bảng Kết độ xác phương pháp Phƣơng pháp Phương pháp CL-KGA chưa cải tiến Phương pháp CL-KGA cải tiến gán nhãn từ loại bổ sung từ đồng nghĩa Phương pháp CL-KGA cải tiến gán nhãn từ loại, bổ sung từ đồng nghĩa kết hợp lớp đồ thị khác Độ xác 71,9% 76,2% 76,3% Chúng tiếp tục tiến hành phân lớp đồ thị thành bốn đồ thị khác nhau, đồng thời tính tốn Sgi(G,G’) cho đồ thị i, đó: - Sg1(G,G’) tương ứng với độ tương đồng đồ thị chứa danh từ động từ; - Sg2(G,G’) tương ứng với đồ thị chứa danh từ tính từ; - Sg3(G,G’) tương ứng với đồ thị chứa động từ trạng từ; - Sg4(G,G’) tương ứng với đồ thị chứa tất từ loại Sau chúng tơi sử dụng phần mềm Weka [16] để tính tốn trọng số cho hàm số Linear Regression, kết thu hàm số sau: Lê Thành Nguyên, Trần Gia Trọng Nhân, Trần Công Hậu, Đinh Điền 559 Sg(G,G’) =- 0,9675 x Sg2(G,G’) + 2,4289 * Sg4(G,G’) + 0,4033 Điều cho thấy, đồ thị chứa động từ trạng từ khơng có ý nghĩa với việc tính tốn độ tương đồng chung hai văn tiếng Anh tiếng Việt Kết thu áp dụng phương pháp CL-KGA cải tiến gán nhãn từ loại, bổ sung từ đồng nghĩa kết hợp lớp đồ thị khác cho thấy độ xác đạt 76,3% Những kết cho thấy rằng, việc áp dụng phương pháp cải tiến cập nhật gán nhãn từ loại, bổ sung từ đồng nghĩa kết hợp lớp đồ thị khác giúp nâng cao độ xác phương pháp CL-KGA Phương pháp tiềm để kết hợp với phương pháp học sâu đồ thị để tạo phương pháp lai Tuy nhiên, nghiên cứu hạn chế việc đánh giá tính xác phương pháp cập nhật nhãn từ loại, tìm phương pháp hiệu để bổ sung từ tiếng Việt BabelNet V KẾT LUẬN Bài toán xác định tương đồng ngữ nghĩa xuyên ngữ toán có vai trị quan trọng tốn xử lý ngơn ngữ tự nhiên khác tìm kiếm văn xuyên ngữ, kiểm tra chất lượng mơ hình dịch tự động, tóm tắt văn bản, phát đạo văn, Tuy nhiên, theo hiểu biết cá nhân, chưa có nhiều nghiên cứu mơ hình xác định tương đồng ngữ nghĩa xun ngữ Anh - Việt, đặc biệt việc áp dụng mơ hình đồ thị tri thức cho tốn Trong nghiên cứu này, áp dụng phương pháp so sánh tương đồng xuyên ngữ dựa đồ thị tri thức, đồng thời áp dụng phương pháp cải tiến cập nhật gán nhãn từ loại, bổ sung từ đồng nghĩa kết hợp lớp đồ thị khác giúp nâng cao độ xác phương pháp so sánh tương đồng xuyên ngữ dựa đồ thị tri thức Kết cho thấy rằng, việc áp dụng phương pháp cải tiến giúp nâng cao độ xác phương pháp từ 74% lên 75,9% Việc nghiên cứu phương pháp so sánh tương đồng dựa đồ thị tri thức có nhiều tiềm để phát triển, kết hợp với mơ hình học sâu đồ thị để tạo mơ hình lai, giúp nâng cao độ xác tốn phát tương đồng ngữ nghĩa xuyên ngữ Anh - Việt TÀI LIỆU THAM KHẢO [1] Potthast, M., Barron-Cedeno, A., Stein, B., and Rosso, P (2011) Cross-Language Plagiarism Detection In Language Ressources and Evaluation, volume 45, pages 45–62 [2] Mcnamee, P and Mayfield, J (2004) Character N-Gram Tokenization for European Language Text Retrieval In Information Retrieval Proceedings, volume 7, pages 73–97 Kluwer Academic Publishers [3] Gupta, P., Barron-Cedeno, A., and Rosso, P (2012) Cross-language High Similarity Search using a Conceptual Thesaurus In Information Access Evaluation Multilinguality, Multimodality, and Visual Analytics, pages 67–75 Springer Berlin Heidelberg [4] Pinto, D., Civera, J., Juan, A., Rosso, P., and Barron-Cedéno, A (2009) A Statistical Approach to Crosslingual Natural Language Tasks In CEUR Workshop Proceedings, volume 64 of Journal of Algorithms, pages 51–60 [5] M Franco-Salvador, P Rosso, and M Montes-y-Gómez (2015) A Systematic Study of Knowledge Graph Analysis for Cross-language Plagiarism Detection In: Information Processing & Management, vol 52(4), pp 550570 [6] R Navigli and S Ponzetto (2012) BabelNet: The Automatic Construction, Evaluation and Application of a WideCoverage Multilingual Semantic Network Artificial Intelligence, 193, Elsevier, 2012, pp 217-250 [7] Mcnamee, P and Mayfield, J (2004) Character N-Gram Tokenization for European Language Text Retrieval In Information Retrieval Proceedings, volume 7, pages 73–97 Kluwer Academic Publishers [8] Gabrilovich, E and Markovitch, S (2007) Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis In Proceedings of the 20th International Joint Conference on Artifical Intelligence (IJCAI’07), pages 1606–1611 [9] Barron-Cedéno, A (2012) On the Mono- and Cross-Language Detection of Text Re-Use and Plagiarism In PhD thesis, Valencia, Spain [10] Kent, C K and Salim, N., “Web Based Cross Language Plagiarism Detection,” Second International Conference on Computational Intelligence, Modelling and Simulation (CIMSiM), 2010, pp 199–204 [11] Muhr, M., Kern, R., Zechner, M., and Granitzer, M., “External and Intrinsic Plagiarism Detection Using a CrossLingual Retrieval and Segmentation System,” Lab Report for PAN at CLEF 2010, 2010 [12] Barron-Cedeno, A., Rosso, P., Agirre, E., and Labaka, G., “Plagiarism Detection across Distant Language Pairs,” Proceedings of the 23rd International Conference on Computational Linguistics (COLING’10), 2010, pp 37–45 560 CROSS-LINGUAL SEMANTIC SIMILARITY DETECTION BETWEEN VIETNAMESE AND ENGLISH TEXTS… [13] Bojanowski, Piotr and Grave, Edouard and Joulin, Armand and Mikolov, Tomas, “Enriching Word Véctơs with Subword Information,” Journal of Transactions of the Association for Computational Linguistics, Vol 5, 2017, pp 135-146 [14] Quoc Le, Tomas Mikolov, “Distributed Representations of Sentences and Documents,” Proceedings of the 31 st International Conference on Machine Learning, Beijing, China, 2014 JMLR: W&CP volume 32 [15] https://github.com/zeloru/vietnamese-wordnet [16] Eibe Frank, Mark A Hall, and Ian H Witten (2016) The WEKA Workbench Online Appendix for "Data Mining: Practical Machine Learning Tools and Techniques", Morgan Kaufmann, Fourth Edition, 2016 CROSS-LINGUAL SEMANTIC SIMILARITY DETECTION BETWEEN VIETNAMESE AND ENGLISH TEXTS USING THE KNOWLEDGE GRAPH Le Thanh Nguyen, Tran Gia Trong Nhan, Tran Cong Hau, Dinh Dien SUMMARY: The textual semantic similarity detection task is one of the problems which play a very important role, affects the quality of many Natural Language Processing problems such as information query, text summary, plagiarism detection, etc Especially in nowaday world, with the development of machine translation tools, the task of detecting textual semantic similarity need to consider the cross-lingual case also In this paper, we will propose a method that uses the knowledge graph model to detect cross-lingual semantic similarity between English-Vietnamese texts Besides, we also propose additional methods such as adjusting part of speech tag between Vietnamese text and English text, adding list of Vietnamese synonyms, combining different classes of graphs The result shows that using above mentioned methods help to increase the accuracy of the model from 71.9% to 76.3% Keywords: similar, cross-language, graph, Vietnamese ... mơ hình xác định tương đồng ngữ nghĩa xuyên ngữ Anh - Việt, đặc biệt việc áp dụng mơ hình đồ thị tri thức cho tốn Trong nghiên cứu này, chúng tơi áp dụng phương pháp so sánh tương đồng xuyên ngữ. .. sánh tương đồng ngữ nghĩa xuyên ngữ văn dựa đồ thị tri thức (CL-KGA) Phương pháp so sánh tương đồng ngữ nghĩa xuyên ngữ văn dựa đồ thị tri thức bao gồm 02 giai đoạn: - Giai đoạn 1: Xây dựng đồ thị. .. TEXTS… Kết hợp lớp đồ thị khác Để cải tiến mơ hình phát tương đồng ngữ nghĩa văn Anh - Việt, tách đồ thị tri thức thành nhiều đồ thị con, sau kết hợp kết tính tốn tương đồng đồ thị theo hàm số Linear