TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 1(74).2014.QUYỂN II GIẢI PHÁP XÂY DỰNG KHO NGỮ LIỆU ĐA NGỮ VIỆT - Ê ĐÊ GÁN NHÃN THEO NGỮ CẢNH SOLUTIONS TO BUILDING THE VIET - EDE MUTILINGUAL CORPUS WITH THE CONTEXTUAL LABEL Hoàng Thị Mỹ Lệ1 , Phan Huy Khánh2 Trường Cao đẳng Công nghệ, Đại học Đà Nẵng; Email: kquynhdn@yahoo.com Trường Đại học Bách khoa, Đại học Đà Nẵng; Email: khanhph29@gmail.com Tóm tắt – Trong lĩnh vực xử lý ngôn ngữ tự nhiên (XLNNTN), kho ngữ liệu đa ngữ tài nguyên cần thiết Chất lượng kho ngữ liệu đa ngữ đóng vai trị định đến chất lượng đầu hệ dịch Hệ dịch không cho kết tốt kho ngữ liệu đa ngữ sử dụng q trình huấn luyện có chất lượng khơng tốt cho dù áp dụng phương pháp học máy tiên tiến Hiện chưa có kho ngữ liệu song ngữ Việt-ÊĐê với phông chữ Unicode cơng bố thức cho phép cộng đồng nghiên cứu chia sử dụng để nghiên cứu Từ đó, báo đề xuất giải pháp xây dựng kho ngữ liệu đa ngữ Việt-ÊĐê với phông chữ Unicode có xử lý nhập nhằng từ đa ngữ nghĩa, cách gán nhãn theo ngữ cảnh thuộc lĩnh vực giáo dục giáo dục chăn nuôi, trồng trọt, bảo vệ rừng, chăm sóc sức khoẻ, cho đồng bào dân tộc thiểu số Việt Nam Abstract – In the natural language processing (NLP), the multilingual corpus is a necessary resource The quality of multilingual corpus plays a decisive role in the output quality of the translational system The translational system will not produce a good output, if the the quality of multilingual corpus in the training process is not good, though the most advanced machine learning methods are applied Currently, there is no Vietnamese-EDe multilingual corpus using Unicode fonts, which has been officially announced and allows the research community to share and use for research purposes For this reason, the propose of this paper is to develop a solution to building a Vietnamese-EDe multilingual corpus using the Unicode font which can process the ambiguity and multi - meaning words by labeling each word with the context in the educational field such as education in animal husbandry, cultivation, forest preservation, health care, etc for the ethnic minorities (EM) in Vietnam Từ khóa – Kho ngữ liệu đa ngữ; dân tộc thiểu số; ÊĐê; unicode; tách từ Key words – multilingual corpus; the ethnic minorities; Ede; unicode; word segmentation Đặt vấn đề học máy tiên tiến Bên cạnh việc khử nhập nhằng tốn khơng thể khơng kể đến dịch máy Cho đến chưa có kho ngữ liệu đa ngữ Việt-ÊĐê với phông chữ Unicode cơng bố thức cho phép cộng đồng nghiên cứu chia sẻ sử dụng cho mục tiêu nghiên cứu Trong số 55 dân tộc Việt Nam có 26 dân tộc có chữ viết Một điều dễ nhận thấy, với tiếng phổ thông (tiếng Việt), tiếng dân tộc thiểu số (DTTS) chứng tỏ vai trị lĩnh vực hoạt động vùng đồng bào DTTS, việc gìn giữ phát triển văn hố dân tộc, xây dựng sống Đảng Nhà nước đưa nhiều chủ chương sách nhằm bảo tồn phát huy văn hóa dân tộc thiểu số Hiện nay, Đài Tiếng nói Việt Nam hầu hết Đài Phát Truyền hình (PT&TH) địa phương nước có chương trình PT&TH tiếng dân tộc, Đài PT&TH tiếng ÊĐê tỉnh Đăk Lăk Những nội dung PT&TH nhằm giúp đồng bào dân tộc có thêm vốn hiểu biết, kinh nghiệm phát triển kinh tế, chăn nuôi, trồng trọt, bảo vệ rừng, khống sản, chăm sóc sức khoẻ, bảo tồn phát huy giá trị văn hoá mình, giữ vững an ninh biên giới, nắm bắt tình hình khí hậu, thời tiết, thổ nhưỡng, Tuy nhiên, việc đào tạo cán bộ, nhân viên, lĩnh vực PT&TH, am hiểu văn hóa tiếng DTTS nói chung tiếng ÊĐê nói riêng, gặp nhiều khó khăn Quy trình sản xuất chương trình phát từ tiếng Việt sang tiếng ÊĐê cịn thủ cơng, tốn nhiều thời gian cơng sức Vì cần có hỗ trợ lĩnh vực Công nghệ Thông tin công việc dịch tự động văn từ tiếng Việt sang tiếng ÊĐê Trong xử lý ngôn ngữ tự nhiên, thấy chất lượng máy dịch tự động không cho kết tốt kho ngữ liệu sử dụng q trình huấn luyện có chất lượng khơng tốt cho dù áp dụng phương pháp 38 Xuất phát từ vấn đề nêu, báo đề xuất giải pháp phát triển công cụ xây dựng kho ngữ liệu đa ngữ Việt-ÊĐê với phơng chữ Unicode có xử lý nhập nhằng từ đa ngữ nghĩa, giải pháp gán nhãn theo ngữ cảnh thuộc lĩnh vực giáo dục giáo dục chăn nuôi, trồng trọt, bảo vệ rừng, chăm sóc sức khoẻ, cho đồng bào DTTS Việt Nam Kho ngữ liệu 2.1 Giới thiệu kho ngữ liệu Việc xây dựng ngân hàng liệu để chứa hình ảnh, âm thanh, tiếng nói, văn bản, số liệu, bảng biểu, lược đồ, có từ lâu, gọi chung sở liệu Với liệu chất liệu ngơn ngữ thường tổ chức thành loại riêng, gọi kho ngữ liệu (corpus) hay kho văn Một tập hợp gồm nhiều kho ngữ liệu gọi Corpora Các kho liệu nhiều nhà nghiên cứu biết đến kho ngữ liệu quốc tế Anh quốc (ICE: International Corpus of English), kho ngữ liệu quốc gia Anh quốc (BNC: British National Corpus), kho ngữ liệu quốc gia Hoa Kỳ (ANC: American National Corpus), v.v Đến tháng năm 2012 Sketch Engine có 130 kho ngữ liệu có kho ngữ liệu BNC, đặc biệt kho ngữ liệu tiếng Việt (VietnameseWaC) [5] Kho ngữ liệu với thứ tiếng đơn lẻ gọi kho ngữ liệu đơn ngữ, với nhiều thứ tiếng gọi kho ngữ liệu Hoàng Thị Mỹ Lệ, Phan Huy Khánh đa ngữ Các kho ngữ liệu đa ngữ định dạng đặc thù để so sánh cạnh gọi kho ngữ liệu song song có gióng hàng Để kho ngữ liệu trở nên hữu ích cho việc nghiên cứu ngơn ngữ, đặc biệt việc biên soạn từ điển, văn thường làm giàu thêm việc giải thông tin tri thức Chẳng hạn, từ cụm từ giải thông tin từ loại gọi gắn nhãn từ loại Các cụm từ câu phân tách gắn nhãn gọi phân đoạn cụm từ Với ngôn ngữ đơn lập tiếng Việt, ranh giới từ không xác định rõ ràng hình thức, nên ngữ liệu thường phải trải qua trình xác định đơn vị từ gắn nhãn khu biệt gọi phân đoạn từ [5] Một số kho ngữ liệu có cấp độ cấu trúc sâu phân tích hiệu lực Đặc biệt, kho ngữ liệu phân tích ngữ pháp gán nhãn cú pháp đầy đủ Kho ngữ liệu gọi Treebank, thường có dung lượng nhỏ chứa khoảng đến triệu từ, cơng việc phân tích ngữ pháp gắn nhãn cú pháp chủ yếu làm tay, địi hỏi độ xác cao nên nhiều cơng sức kinh phí Các cấp độ khác ngơn ngữ giải bao gồm hình thái, ngữ nghĩa ngữ dụng 2.2 Xây dựng kho ngữ liệu song song Xây dựng kho liệu song ngữ song song gồm hai bước là: xây dựng nguồn tài liệu song song gióng hàng tài liệu song song [2][3] Xây dựng nguồn tài liệu song song Chọn nguồn tài liệu phù hợp với lĩnh vực xác định trước bao phủ nhiều lĩnh vực khác 2.3 Các kho ngữ liệu song ngữ tiếng Việt-tiếng DTTS - Bộ từ điển điện tử Việt-ÊĐê Cơ quan thường trú Đài Tiếng nói Việt Nam khu vực Tây Nguyên thực năm 2007 - Từ điển điện tử phương ngữ Gia Rai-Việt đề tài khoa học sở Thông tin-Truyền thông tỉnh Gia Lai - Từ điển điện tử Mnông-Việt Mơnông-Việt sở khoa học công nghệ Đăk Nông - Kho ngữ vựng song ngữ Việt-Cơ Tu Cơ Tu-Việt ThS.Nguyễn Trọng Tùng - Kho ngữ vựng từ vựng đa ngữ Việt-Anh-ÊĐê ThS Nguyễn Thị Tuyết - Kho ngữ vựng song ngữ Việt-Mường ThS Huỳnh Nguyễn Ái Nhân - Từ điển Hrê-Việt Việt-Hrê ThS Võ Đình Tá - Kho ngữ vựng song ngữ Việt-ÊĐê ThS Phan Thị Thu Nhân Nhìn chung việc xây dựng kho ngữ liệu tiếng DTTS dừng lại số kết nghiên cứu số trường Đại học, đề tài tốt nghiệp Đại học, Thạc sĩ, mang tính chất tìm hiểu, chưa hệ thống định hướng rõ ràng Với tiếng ÊĐê, nguồn ngữ liệu có dạng từ điển Việt-ÊĐê giấy viết, từ điển ÊĐê-Việt dạng tập tin văn Với tiếng DTTS có kí tự khơng có tiếng Việt, tác giả khơng dùng chung phơng chữ Unicode có hỗ trợ tiếng Việt mà hầu hết xây dựng phông chữ gõ riêng để sử dụng Nhập vào máy tính từ tài liệu giấy mua Giải pháp phát triển công cụ xây dựng kho ngữ liệu kho ngữ liệu song ngữ điện tử sách song ngữ, báo chí đa ngữ Việt-ÊĐê song ngữ, Thu thập liệu song ngữ từ Internet Hiện nguồn tài liệu song ngữ Việt-ÊĐê chủ yếu 3.1 Tiêu chí xây dựng kho ngữ liệu song ngữ Việt-Êđê có từ điển Việt-ÊĐê giấy, tài liệu điện tử Kho ngữ liệu song ngữ song song Việt-ÊĐê chúng giảng tiếng ÊĐê tự điển ÊĐê-Việt tập tin PDF tơi xây dựng theo tiêu chí sau: tải lên mạng phục vụ cho việc học tiếng ÊĐê - Lĩnh vực kho ngữ liệu liên quan đến lĩnh vực giáo Gióng hàng tài liệu song song dục trồng trọt, chăn nuôi, bảo vệ rừng, y tế, để phổ Các tài liệu song ngữ kho ngữ liệu song ngữ có biến kiến thức cần thiết sống thực tế thể mức sau: ngày cho đồng bào DTTS - Các từ kho ngữ liệu có nghĩa biểu diễn - Mức tài liệu: Các tài liệu kho ngữ liệu gióng hàng đơi một, tài liệu dịch tài liệu tài liệu khoa học - Tài liệu xây dựng kho ngữ liệu truy cập - Mức đoạn: Các đoạn hai tài liệu hai ngôn mạng chọn tài liệu liên quan đến lĩnh vực giáo dục ngữ gióng hàng, đoạn dịch sống thực tế ngày cho đồng bào DTTS đoạn khoảng thời gian gần - Mức câu: Các tài liệu song ngữ gióng hàng - Kho ngữ liệu song ngữ Việt-ÊĐê thực mức câu gióng hàng theo mức từ hay cụm từ có nghĩa - Mức ngữ: Các ngữ cặp câu gióng hàng tiếng Việt chọn theo lĩnh vực gióng hàng theo đôi mức từ hay cụm từ tiếng ÊĐê, có gán nhãn theo lĩnh - Mức từ hay cụm từ: Các từ hay cụm từ câu vực từ hay cụm từ dùng gióng hàng đơi - Trong kho ngữ liệu chúng tơi có gán nhãn theo Trong báo xây dựng kho ngữ liệu đa ngữ cảnh tần suất xuất từ có nghĩa tài ngữ Việt-ÊĐê với mức từ có nghĩa tiếng Việt liệu liên quan đến lĩnh vực Qua đó, việc gióng hàng gióng hàng theo từ tiếng ÊĐê có gán nhãn theo từ tiếng Việt với tiếng ÊĐê trọng vào lĩnh vực tần lĩnh vực suất xuất từ tài liệu 39 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 1(74).2014.QUYỂN II - Kho ngữ liệu song ngữ Việt-ÊĐê lưu trữ máy tính với phơng chữ Unicode có hỗ trợ tiếng Việt Đây vấn đề mà kho ngữ liệu tiếng DTTS trước chưa đề cập đến 3.2 Xây dựng kho ngữ liệu Việt-ÊĐê với công cụ MVECCL Trên sở kho ngữ liệu tiếng Việt tách từ chia sẻ mạng [4], với công cụ MVECCL (Make Viet-Ede Corpus Context Label) tạo kho ngữ liệu Việt-ÊĐê theo tiêu chí đặt khn mẫu định, nội dung thuộc lĩnh vực, ngôn từ cụ thể, rõ ràng, nhập nhằng Để góp phần nâng cao chất lượng kho ngữ liệu 1, chọn giải pháp tách từ MVECCL lọc từ khơng có kho ngữ liệu cho phép người sử dụng lựa chọn để cập nhật vào kho ngữ liệu Giải pháp xây dựng kho ngữ liệu đa ngữ Việt-ÊĐê gán nhãn theo ngữ cảnh thể qua Hình 3.2.1 Chuẩn bị liệu cho MVECCL Kho ngữ liệu tiếng Việt tách từ [4] dạng tập tin văn bản, chuyển thành kho ngữ liệu dạng bảng (đặt tên kho ngữ liệu 1) Kho ngữ liệu ÊĐê-Việt dạng tập tin văn chia mạng với mục đích dùng để học tiếng ÊĐê [6], chuyển thành kho ngữ liệu dạng bảng (đặt tên kho ngữ liệu 2) Những tài liệu liên quan đến lĩnh vực giáo dục sống thực tế ngày cho đồng bào DTTS Ví dụ tài liệu liên quan đến giáo dục trồng trọt Internet, chọn viết kỹ thuật trồng cà phê, cao su, ca cao, 3.2.2 Hoạt động công cụ MVECCL Hình 1: Hoạt động MVECCL 3.2.3 Kho ngữ liệu Việt-ÊĐê từ MVECCL Kho ngữ liệu tiếng Việt sau tương tác với MVECCL qua tài liệu theo ngữ cảnh tạo nên kho ngữ liệu tiếng Việt gán nhãn theo ngữ cảnh tần suất xuất từ theo ngữ cảnh Cũng với MVECCL, kho ngữ liệu bổ sung thêm từ kho ngữ liệu chưa có gióng hàng từ ÊĐê tương ứng Cấu trúc kho ngữ liệu đa ngữ Việt-ÊĐê thể Bảng Tài liệu qua công cụ xử lý sau: Đầu tiên MVECCL tiến hành tách từ tài liệu đưa vào, phương pháp tách từ áp dụng cho MVECCL CHÍngữ KHOA HỌC VÀ CÔNG NGH phương pháp so khớp cực đại (Maximum Matching) dựa Bảng 1: CấuTẠP trúc kho liệu Việt-ÊĐê vào kho ngữ liệu Chúng chọn phương pháp kế thừa kho ngữ liệu tiếng Việt tách từ Trong trình tách từ MVECCL thực gán nhãn lĩnh vực cho từ tách theo ngữ cảnh tài liệu chọn, gán tần suất xuất từ theo lĩnh vực Với phương pháp gán nhãn theo ngữ cảnh tần suất xuất vào kho ngữ liệu giúp người sử dụng chọn lựa từ thích hợp thực việc gióng hàng Tiếp theo cơng việc gióng hàng theo từ (từ tiếng Việt gán nhán gióng hàng với từ tiếng ÊĐê) Cơng việc thực bán thủ công, với MVECCL người sử dụng chọn để gióng hàng tự động từ ÊĐê với từ tiếng Việt có kho ngữ liệu Việc cập nhật gióng hàng tự động phải có can thiệp người sử dụng để chọn từ tiếng ÊĐê gióng hàng thích hợp Cơng việc góp phần giải vấn đề đa nghĩa từ tiếng Việt tiếng ÊĐê Cịn với từ tiếng Việt khơng có kho ngữ liệu 2, người sử dụng phải tiến hành cập nhật thủ công dựa vào sách từ điển Việt-ÊĐê [1][7][8] Để xử lý nhập nhằng, chọn giải pháp tách từ với tài liệu ngữ cảnh hạn chế tài liệu 3.3.3.3 KếtKết thử thửnghiệm nghiệm thuộc lĩnh vực chuyên ngành cụ thể, với câu Với kholiệu ngữ Với kếtkết quảquả bướcbước đầu, đầu, từ khotừngữ đơnliệu ngữđơn từ đơn giản, nhập nhằng, khơng có tính trừu tượng Ví dụ ngữ tiếng Việt gồm 31248 từ có nghĩa, chúng tơi tài liệu kỹ thuật trồng loại cây, phương pháp tiếng Việt gồm 31248 từ có nghĩa, chúng tơi xây dựngxây dựng cụ MVECCL để ngữ tạo liệu khođangữ đa ngữ bộ côngcông cụ MVECCL để tạo kho ngữ liệu Việt-ÊĐê chăn nuôi gia súc, gia cầm, thông báo cảnh báo cháy rừng, Việt-ÊĐê nhãn lĩnh vực, gán nhãngán lĩnhđược vực, tần suất xuất hiệntần suất gióngxuất hànghiện Đây loại tài liệu tương đối đặc biệt Nó tuân theo 40 gióng hàng từ ÊĐê tương ứng với lĩnh vực vào kho ngữ liệu Bảng trình bày kết thực tách từ ngữ tiếng Việt gồm 31248 từ có nghĩa, chúng tơi xây dựng cơng cụ MVECCL để tạo kho ngữ liệu đa ngữ Việt-ÊĐê gán nhãn lĩnh vực, tần suất xuất từ ÊĐê với lĩnh vựcứng vào với kho lĩnh ngữ vực liệu vào Bảng gióngtương hàngứng từ ÊĐê tương kho trình bày kết thực tách từ tài liệu theo ngữ liệu Bảng trình bày kết thực tách từ ngữ cảnh tương vàocảnh kho ngữ liệutác đểvào thực gánliệu nhãn tài liệu theotácngữ tương kho ngữ để tần suất xuất qua MVECCL thực gán nhãn tần suất xuất qua MVECCL Bảng 2:Thống Thống kê kê số số từ từ tách theo Bảng theo ngữ ngữ cảnh cảnhtừ từMVECCL MVECCL nhãn VớiVới khokho ngữngữ liệuliệu khi gángán nhãn theotheo ngữngữ cảnhcảnh và tần suất xuất từ, MVECCL thực tần suất xuất từ, MVECCL thực gióng gióng hàng hàng từ với ÊĐê kếtcủa hợp sử người sử dụng từ ÊĐê sựvới kết hợp người dụng Hình giao cơng cụ kho tạo ngữ kho liệu ngữ Hình là2 giao diệndiện của công cụ tạo liệu Việt-ÊĐê gán nhãn theo ngữ cảnh Việt-ÊĐê gán nhãn theo ngữ cảnh liệu Hoàng Thị Mỹ Lệ, Phan Huy Khánh Giải pháp xây dựng kho ngữ liệu đa ngữ Việt-ÊĐê gán áp nhãn theo cảnhpháp mang giảiViệc pháp dụng cácngữ phương họctính máythực tiêntiễn, tiến góp phần tạo nên kho ngữ liệu đa ngữ Việt-ÊĐê khử nhập nhằng từ đa ngữ toán với phông cứuđặt trước không kể đến chữ trongUnicode dịch máy.mà Vớicác giảinghiên pháp ra, chưa thực Giải pháp góp phần vào báo thực đạt số kết quả: toán xử lý nhập nhằng từ đa nghĩa kho ngữ Tương tác với kho ngữ liệu đơn ngữ tiếng Việt để liệu đa ngữ tạo kho ngữ liệu đa ngữ Việt-ÊĐê với phông chữ Đây kết nghiên cứu bước đầu, Unicode tiếp tụcngữ nghiên vàsuất phátxuất triểnhiện theovới hướng: Gán nhãn theo cảnh cứu tần Chia MVECCL mạng, để chuyên gia từ kho ngữ liệu đa ngữ Việt-ÊĐê ngôn ngữ ÊĐê thể ngữ kiểmliệu tra,tiếng đánhViệt giá cập nhậtcócác Bổ sung vàocókho từ chưa từ ÊĐê kho ngữ ngữcủa Việt-ÊĐê góptrong phần nâng cao liệu chất đa lượng kho ngữtạo liệu.kho ngữ liệu Việt-ÊĐê chấtkho lượng Giải pháp xâycódựng ngữcao liệu đa ngữ Việt-ÊĐê gán triển mang MVECCL cho cácvì giải ngơnpháp ngữnàyDTTS nhãn theoPhát ngữ cảnh tính thực tiễn, khác góp phần tạo nên kho ngữ liệu đa ngữ Việt-ÊĐê với phông chữ Unicode cứu trước chưa Qua mà báonghiên này, chúng tơi muốn gửithực gắmhiện thơng Giải góp phần toán lý nhập điệppháp đếnnày cáccũng chuyên gia ngơn ngữvào DTTS góp xử phần chung nhằng từthiện đa nghĩa trongliệu khođangữ đa ngữ tay hoàn kho ngữ ngữliệu tiếng Việt Đây kết nghiên cứu bước đầu, chúng KHẢO: tiếp tục nghiênTÀI cứu LIỆU phátTHAM triển theo hướng: [1] ĐoànsẽVăn Phúc, Ngữ tiếng để ÊĐê, Khoagia họcvềXã Chia MVECCL trênâmmạng, cácNxb chun hội, TP Chícó Minh, 1997 tra, đánh giá cập nhật ngôn ngữHồ ÊĐê thể kiểm [2] Hồ từQuốc Đặng Lương ÊĐêBảo, trongĐinh kho Điền, ngữ liệu đa Bác ngữ Văn, Việt-ÊĐê tạoVỹ Minh kỹ thuật đề lượng tài nhánh kho ngữBáo liệu cáo Việt-ÊĐê có chất cao SP.74, 2008, http://www.jaist.ac.jp/~bao/VLSPtext2 Phát triển MVECCL cho ngôn ngữ DTTS khác /March2008/SP7.4_Baocaokythuat2008thang3.pdf Qua báo này, muốn gửi gắm thông điệp [3] Hồ Tú Bảo, Lương Chi Mai, Xử lý tiếng Việt công đến cácnghệ chun gia ngơn ngữ DTTS thơng góp phần chung taytin, hoàn thiện kho ngữ liệu đa ngữ tiếng Việt http://www.jaist.ac.jp/~bao/Writings/VLSPwhitepaper%2 0-%20Final.pdf liệu tham khảo Natural Language Lưu Tuấn Tài Anh, Vietnamese Processing, 2012, http://viet.jnlp.org/dongdu [1] Đoàn Văn Phúc, Ngữ âm tiếng ÊĐê, Nxb Khoa học Xã hội, TP Hồ [5]Chí Vũ Xuân Minh, 1997.Lương, Xây dựng kho ngữ liệu áp dụng cho [2] Hồ phân Quốc tích, Bảo, Đinh xử líĐiền, ngơnĐặngngữBácvàVăn, biênLương soạnVỹ từ Minh, cáo kỹ thuật đề tài nhánh SP.74, 2008, điển,Báo http://www.vietlex.com/xu-li-ngon-ngu/123http://www.jaist.ac.jp/ bao/VLSPtext-/March2008/SP7.4_Baocaoky Xay_dung_kho_ngu_lieu_ap_dung_cho_phan_tich,_xu_li thuat2008thang3.pdf _ngon_ngu_va_bien_soan_tu_dien#_ftn4 [3] Hồ Tú Bảo, Lương Chi Mai, Xử lý tiếng Việt công nghệ thông [6]tin, http://www.jaist.ac.jp/ Thư viện giáo bao/Writings/VLSPwhitepaper án điện tử, Tự điển ÊĐê-Việt [4] Lưuhttp://giaoan.violet.vn/present/show?entry_id=9339030 Tuấn Anh, Vietnamese Natural Language Processing, 2012, [7]http://viet.jnlp.org/dongdu Viện ngôn ngữ học - Sở giáo dục Đào tạo Dăk Lăk, Tự [4] Hình Giao diện cơng cụ MVECCL Hình 2: Giao diện cơng cụ MVECCL Kết luận Kết luận Kho4 ngữ liệu đa ngữ nguồn tài nguyên cần thiết lĩnh vực xử lý tự nhiên Các kho ngữ liệu đa ngữ sử dụng cho nhiều toán khác như: tìm kiếm thơng tin xun ngữ, dịch máy, Kết toán phụ thuộc nhiều vào độ lớn chất lượng kho ngữ liệu đa ngữ sử dụng Chất lượng máy dịch tự động không cho kết tốt kho ngữ liệu sử dụng trình huấn luyện có chất lượng khơng tốt cho dù [5] Vũ Xuân Lương, Xây dựng kho ngữ liệu áp dụng cho phân tích, xử lí ngơn ngữ biên soạn từ điển, http://www.vietlex.com/xu-li-ngon-ngu/123-Xay_dung_kho_ngu_ lieu_ap_dung_cho_phan_tich,_xu_li_ ngon_ngu_va_bien_soan_tu_ dien#_ftn4 [6] Thư viện giáo án điện tử, Tự điển ÊĐê-Việt http://giaoan.violet vn/present/show?entry_id=9339030 [7] Viện ngôn ngữ học - Sở giáo dục Đào tạo Dăk Lăk, Tự điển Việt-ÊĐê (tập 1), Nhà xuất Giáo dục, 1993 [8] Viện ngôn ngữ học - Sở giáo dục Đào tạo Dăk Lăk, Tự điển Việt-ÊĐê (tập 2), Nhà xuất Giáo dục, 1993 (BBT nhận bài: 13/01/2014, phản biện xong: 30/01/2014) 41 ... từ chưa từ ÊĐê kho ngữ ngữcủa Việt- ÊĐê góptrong phần nâng cao liệu chất đa lượng kho ngữtạo liệu .kho ngữ liệu Việt- ÊĐê chấtkho lượng Giải pháp xâyc? ?dựng ngữcao liệu đa ngữ Việt- ÊĐê gán triển mang... Khánh Giải pháp xây dựng kho ngữ liệu đa ngữ Việt- ÊĐê gán áp nhãn theo cảnhpháp mang giảiViệc pháp dụng cácngữ phương họctính máythực tiêntiễn, tiến góp phần tạo nên kho ngữ liệu đa ngữ Việt- ÊĐê... 3.2.3 Kho ngữ liệu Việt- ÊĐê từ MVECCL Kho ngữ liệu tiếng Việt sau tương tác với MVECCL qua tài liệu theo ngữ cảnh tạo nên kho ngữ liệu tiếng Việt gán nhãn theo ngữ cảnh tần suất xuất từ theo ngữ cảnh