TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG SỐ 12(73) 2013, Quyển 2 110 MỞ RỘNG KHO NGỮ LIỆU DỊCH TỰ ĐỘNG THEO HƯỚNG NGỮ NGHĨA SEMANTIC ORIENTED EXTENSION FOR MACHINE TRANSLATION CORPORA Đặng Đại T[.]
TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 12(73).2013, Quyển MỞ RỘNG KHO NGỮ LIỆU DỊCH TỰ ĐỘNG THEO HƯỚNG NGỮ NGHĨA SEMANTIC ORIENTED EXTENSION FOR MACHINE TRANSLATION CORPORA Đặng Đại Thọ, Huỳnh Công Pháp Trường Cao đẳng Công nghệ Thông tin, Đại học Đà Nẵng Email: ddtho.dt@gmail.com, hcphap@gmail.com TÓM TẮT Kho ngữ liệu tài nguyên ngôn ngữ cần thiết để phát triển cải tiến hệ thống dịch tự động Hiện tồn tạị nhiều kho ngữ liệu dùng cho dịch tự động Tuy nhiên, việc khai thác chúng nhiều hạn chế Nguyên nhân kho ngữ liệu dịch tự động chủ yếu tồn dạng văn có liên kết dạng liệu khác âm thanh, hình ảnh, đồ thị,… mà chưa tổ chức dạng ngữ nghĩa Vì thế, báo này, đề xuất mở rộng kho ngữ liệu dịch tự động theo hướng ngữ nghĩa cách thêm tầng ngữ nghĩa vào kho ngữ liệu nhằm nâng cao hiệu hệ thống khai thác dịch tự động Từ khóa: kho ngữ liệu; dịch tự động; ngữ nghĩa; hệ thống khai thác; mở rộng kho ngữ liệu ABSTRACT Corpora play a crucial role in the development and improvement of automatic translation systems There are currently many corpora used in the machine translation (MT) domain However, exploiting and using these corpora are still challenging and limited because of some reasons, of which the main reason is that most corpora are in terms of raw texts or linked to other different kinds of data such as audio, images, graphs But they are not organized into semantic layers Therefore, in this paper, we want to propose an idea of extending and enlarging corpora by adding to them a semantic layer so that the performance of corpus exploitation systems will be much improved Key words: corpus; machine translation; semantic; exploitation system; corpus extension Đặt vấn đề Dữ liệu dịch tự động, gọi kho ngữ liệu (corpus), tài nguyên ngôn ngữ cần thiết để phát triển cải tiến hệ thống dịch tự động Hiện có nhiều phương pháp phát triển hệ thống dịch tự động: dịch theo kinh nghiệm, dịch thống kê, dịch dựa vào tập mẫu, dịch chuyên gia,… Trong đó, loại hệ thống dịch tự động sử dụng loại kho ngữ kho liệu khác Chẳng hạn, loại hệ thống dịch tự động thống kê sử dụng kho ngữ liệu lớn, liên kết mức từ (word alignment); loại hệ thống dịch dựa vào tập mẫu sử dụng kho ngữ liệu có liên kết mức câu (sentence alignment) mức đoạn (paragraph alignement); loại hệ thống dịch chuyên gia sử dụng kho ngữ liệu làm giàu nhiều loại thông tin khác âm thanh, ngôn ngữ trung gian (như IF, UNL,…) hình ảnh [2] 110 Bất hệ thống dịch tự động hay hệ thống khai thác kho ngữ liệu thuộc loại có q trình tìm kiếm so khớp “phần tử” kho ngữ liệu với đầu vào để suy luận sinh đầu tương ứng Chẳng hạn, hệ thống dịch tự động dựa vào tập mẫu sử dụng kho ngữ liệu song song.Với câu đầu vào hệ thống tìm kiếm so khớp với tập liệu nguồn kho ngữ liệu để tìm câu ngơn ngữ đích liên kết với câu nguồn mà khớp với đầu vào hệ thống Tương tự vậy, hệ tìm kiếm, hệ hỏi đáp, từ điển… phải bao hàm trình Điều cho thấy q trình so khớp đầu vào với kho ngữ liệu (cơ sở liệu) hệ thống khai thác quan trọng, định hiệu tính thơng minh hệ thống Chính mà ngày nay, hệ thống khai thác kho ngữ liệu người ta nghiên cứu, xây dựng nhiều thuật tốn tìm kiếm, so khớp thơng minh đầu vào, liệu kho ngữ liệu hệ thống Tuy nhiên, gần tất TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 12(73).2013, Quyển hệ thống dừng lại mức so khớp dạng chuỗi ký tự dạng văn thuật tốn tính khoảng cách, tính xác suất, tính tần suất ký tự… Điều hạn chế nhiều việc khai thác hiệu kho ngữ liệu Nguyên nhân kho ngữ liệu chủ yếu tồn dạng văn có liên kết dạng liệu khác âm thanh, hình ảnh, đồ thị,… mà chưa tổ chức dạng ngữ nghĩa thực, thông tin URL nguồn gốc liệu Cấu trúc vật lý kho ngữ liệu mô tả sau: Trong báo này, đề xuất mở rộng kho ngữ liệu dịch tự động theo hướng ngữ nghĩa cách thêm tầng ngữ nghĩa vào kho ngữ liệu Tầng ngữ nghĩa đơn giản tầng liệu mô tả thêm liệu nguồn kho ngữ liệu thích, từ đồng nghĩa, trái nghĩa… phức tạp đến mức thực thể từ cụm từ kho ngữ liệu mô tả lớp tập lớp ontology Hình Cấu trúc ngữ liệu JRC-ACQUIS Để có nhìn rõ thực trạng kho ngữ liệu nay, phần đầu báo giới thiệu số kho ngữ liệu phổ biến dùng dịch tự động nay, giới thiệu số dạng đơn giản ngữ nghĩa định nghĩa kho ngữ liệu phần cuối đề xuất thêm tầng ngữ nghĩa vào kho ngữ liệu JRC - ACQUIS L1-L2 L1.XML Kho ngữ liệu JRC-ACQUIS liên kết mức đoạn cặp ngôn ngữ, đoạn ngắn, thường chứa câu, chí phần câu 2.2 Kho ngữ liệu EUROPARL EUROPARL kho ngữ liệu song song phổ biến nay, xây dựng nhằm phục vụ cho việc nghiên cứu phát triển hệ thống dịch tự động Kho ngữ liệu song song xây dựng từ phát biểu họp Quốc hội châu Âu, gồm 11 ngôn ngữ thức nước thành viên Liên minh châu Âu Phiên 5.0, gồm 50 triệu từ cho ngôn ngữ [3] EUROPARL Các kho ngữ liệu phổ biến Dưới số kho ngữ liệu dịch tự động phổ biến Mặc dù kho ngữ liệu làm giàu thông tin dạng khác văn bảnnhưng chưa tổ chức theo dạng ngữ nghĩa 7.[1] 2.1 Kho ngữ liệu JRC-ACQUIS JRC-ACQUIS kho ngữ liệu song song đa ngôn ngữ, xây dựng từ văn pháp lý Liên minh châu Âu Phiên 3.0 gồm 22 ngôn ngữ với khoảng 23.000 tài liệu cho ngôn ngữ Kho ngữ liệu cấu trúc gồm nhiều thư mục chứa cặp ngôn ngữ liên kết với Mỗi thư mục gồm tệp dạng XML, tệp nhóm theo ngơn ngữ, theo định dạng TEI Trong đó, tệp XML theo định dạng TEI chứa tiêu đề cho biết thông tin ngôn ngữ tài liệu L2.XML L1-L2 L1.TXT L2.TXT Hình Cấu trúc ngữ liệu EUROPARL Cấu trúc vật lý (Hình 2) kho ngữ liệu tương tự kho ngữ liệu JRC-ACQUIS, gồm nhiều thư mục chứa đựng cặp ngôn ngữ liên kết với Tuy nhiên, thư mục gồm tệp dạng TXT có cấu trúc gồm nhiều đoạn có liên kết với Kho ngữ liệu liên kết mức đoạn, tiếng Anh xem ngôn ngữ gốc liên kết với 10 ngôn ngữ lại Việc liên kết thực thuật toán Church and Gale 2.3 Kho ngữ liệu ERIM Kho ngữ liệu ERIM xây dựng từ dự án ERIM nhằm phát triển môi trường cho phép 111 TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 12(73).2013, Quyển phiên dịch thông qua intranet hay extranet [1] Môi trường hỗ trợ nhiều phương tiện giao tiếp khác âm thanh, văn hình ảnh Đến nay, kho ngữ liệu ERIM có khoảng 600 phút hội thoại Pháp - Trung Quốc, 630 phút Pháp - Việt, 150 phút Pháp - Hindu 540 phút Pháp - Tamil ERIM WAV WAV Như trình bày phần trên, kho ngữ liệu có cấu trúc định dạng khác phân loại kho ngữ liệu theo loại, dựa vào mức độ thông tin làm giàu kho ngữ liệu, là: kho ngữ liệu thô (kho ngữ liệu văn bản) kho ngữ liệu làm giàu Đối với kho ngữ liệu làm giàu, tìm thấy loại liệu làm giàu phổ biến sau: Dialog XML Các loại định dạng liệu làm giàu kho ngữ liệu TXT TXT Hình Cấu trúc ngữ liệu ERIM Tương tự hai kho ngữ liệu trên, cấu trúc vật lý kho ngữ liệu ERIM (Hình 3) gồm nhiều thư mục Mỗi thư mục chứa nhiều tệp tin định dạng khác TXT, XML, WAV (âm thanh) Mỗi thư mục biểu diễn đoạn hội thoại, tệp WAV chứa âm câu thoại, tệp TXT chứa đựng câu thoại dạng văn XML mô tả thông tin câu thoại độ dài, người nói,… 2.4 Kho ngữ liệu EOLSS/UNL Kho ngữ liệu EOLSS/UNL gồm có 6600 viết (khoảng 250.000 trang) ngôn ngữ thuộc UNESCO tiếng Anh, tiếng Pháp, tiếng Arập, tiếng Nhật, tiếng Tây Ban Nha tiếng Nga [1] 3.1 Gán nhãn từ loại Một phương pháp khai thác hiệu kho ngữ liệu phân tích ngơn ngữ kho ngữ liệu cách phân loại từ thành lớp từ loại dựa vào ngữ cảnh từ kho ngữ liệu Mỗi từ loại tương ứng với hình thái vai trò ngữ pháp định Để thể chức ngữ pháp từ, người ta sử dụng nhãn từ loại: danh từ, tính từ, động từ,… Ví dụ câu “I want to book a book”, từ “book” có hai nhãn từ loại động từ danh từ Công việc gán nhãn từ loại cho văn xác định từ loại từ phạm vi văn Danh sách từ loại có ngơn ngữ gọi nhãn từ loại (POStagset) ngôn ngữ [9] Câu “Explosives found on Hampstead Heath” lưu trữ kho ngữ liệu BNC corpus sau: EOLSS/UNL Document HTML UNL Hình Cấu trúc ngữ liệu EOLSS/UNL Cấu trúc vật lý kho ngữ liệu (Hình 4) tương tự kho ngữ liệu phân tích gồm nhiều thư mục, thư mục biểu diễn tài liệu định dạng HTML UNL Mỗi đoạn tệp HTML liên kết với đoạn tệp UNL tương ứng 112 Explosives found on Hampstead Health Trong s câu, w từ, NN2 danh từ số nhiều, VVD động từ khứ, PRP giới từ, NP0 danh từ riêng, PUN dấu chấm câu [6] Mô hình gán nhãn từ loại Hình TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 12(73).2013, Quyển Văn phân đoạn từ Tập luật nhận diện POS Gán nhãn Văn gán nhãn từ loại Hình Mơ hình gán nhãn từ loại Hình Gán nhãn cú pháp 3.2 Gán nhãn ranh giới ngữ Hạn chế kho ngữ liệu Một phương pháp khác liên quan đến làm giàu thơng tin cho kho ngữ liệu gán nhãn ranh giới ngữ, thực sau gán nhãn thích từ loại Nó mơ tả mối quan hệ cú pháp đơn vị từ vựng cấu trúc cú pháp khác nhau: cụm danh từ, cụm động từ, cụm tính từ,…[9] Như trình bày trên, kho ngữ liệu làm giàu định dạng liệu khác hình ảnh, âm thanh, đồ thị… chí đơn vị từ kho ngữ liệu gán nhãn từ loại ranh giới ngữ… Tuy nhiên, thông tin làm giàu cho kho ngữ liệu chưa thật đầy đủ phép khai thác hiệu kho ngữ liệu Các hạn chế kho ngữ liệu thấy sau: Chẳng hạn, câu “Corpus annotation is the practice of adding interpretative linguistic information to a corpus” gán nhãn ranh giới ngữ sau: [NP (NN Corpus) (NN annotation) ] (VBZ is) [NP (DT the) (NN practice) ] (IN of) (VBG adding) [NP (JJ interpretative) (JJ linguistic) (NN information) ] [PP (TO to) [NP (DT a) (NN corpus) ] Trong S câu, NP cụm danh từ, VP cụm động từ, ADJP cụm tính từ [7] 3.3 Gán nhãn cú pháp Gán nhãn cú pháp nhằm mục đích phân tích câu thành thành phần văn phạm có liên quan với thể thành cú pháp [5] 4.1 Hạn chế mặt ngữ nghĩa Vấn đề ngữ nghĩa kho ngữ liệu cịn mức độ đơn giản, khối giải thông tin Chú giải phần giải thích thơng tin đặc thù làm rõ nghĩa cho văn kho ngữ liệu giải bên ngồi ngơn ngữ (ví dụ, giải tác giả: tên, tuổi, giới tính, năm sinh… văn bản: tác giả, tên văn bản, năm nơi xuất bản, thể loại, phong cách ngôn ngữ…); giải cấu trúc (ví dụ, chương, đoạn, câu, hình thái từ…); giải cho ngôn ngữ văn từ vựng, cú pháp Thực tế kho ngữ liệu chưa giúp cho việc giải nhập nhằng ngữ nghĩa hiệu Nhận diện ranh giới từ ngôn ngữ biến hình (tiếng Pháp, tiếng Nga, tiếng Anh) kho ngữ liệu giải tốt Tuy nhiên, ngôn ngữ đơn lập (tiếng Việt, tiếng Hoa, tiếng Lào,…) đến nhiều hạn chế Nguyên nhân ngôn ngữ biến hình, ranh giới từ xác định 113 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 12(73).2013, Quyển chủ yếu dựa vào khoảng trắng hay dấu câu Cịn ngơn ngữ đơn lập, từ vựng chủ yếu từ ghép khoảng trắng khơng phải ln ln ranh giới xác [9] Chẳng hạn, tiếng Anh, câu “He is a doctor” phân định ranh giới dễ dàng “He / is / a /doctor” Còn câu tương ứng tiếng Việt “Anh bác sĩ” phân định ranh giới từ theo khoảng trắng trở thành “Anh / / / bác / sĩ” Ở đây, “bác sĩ” từ ghép bị chia thành hai từ đơn “bác” “sĩ”, cách phân định sai Cách phân định ranh giới câu phải “Anh / / bác sĩ” Từ loại yếu tố quan trọng việc xác định nghĩa xác từ xếp từ thành câu hoàn chỉnh dịch tự động Cho đến nay, ngôn ngữ đơn lập, việc xác định từ loại gặp nhiều khó khăn Trong đó, việc nhập nhằng ranh giới từ góp phần gây nhập nhằng từ loại Ví dụ, câu tiếng Việt “Ơng già nhanh q!” phân định ranh giới “/Ông/ già /nhanh / !” có nghĩa tiếng Anh tương ứng “The man becomes old so fast !” Còn phân định ranh giới “Ông già / / nhanh /quá !” tương ứng “The old man goes so fast !” Từ trên, thấy với giải ngữ nghĩa kho ngữ liệu nay, hệ thống khai thác chưa thể giải hiệu vấn đề nhập nhằng ranh giới từ từ loại Bất ngôn ngữ có từ đa nghĩa Chẳng hạn tiếng Việt, từ “ăn” câu “Tôi ăn sáng”, “Nó ăn cướp”, “Phanh khơng ăn”, “Một đơ-la Mỹ ăn 20 ngàn đồng Việt Nam”, “Tàu thủy ăn hàng” vừa có nét nghĩa giống khác Với kho ngữ liệu nay, hệ thống khai thác khó dịch từ đa nghĩa theo nghĩa nhóm nghĩa Bởi việc chọn lựa nghĩa phù hợp câu vấn đề khó khăn, cần phải hiểu mối quan hệ từ với ngữ cảnh xung quanh để nhận biết nghĩa xác từ Ngoài ra, việc nhập nhằng ngữ nghĩa mức cấu trúc, mức liên câu mức văn 114 4.2 Hạn chế hệ thống giải ngữ nghĩa [9] Chúng ta thấy, từ mang nhiều nghĩa khác nhau, ngữ cảnh cụ thể mang nghĩa định Chẳng hạn tiếng Anh, danh từ “bank” “ngân hàng”, “bờ sông”, “dãy” Để dễ phân biệt nghĩa từ vựng khác nhau, người ta tiến hành gán nhãn ngữ nghĩa tất từ kho ngữ liệu Có nghĩa phân chia tồn ý nghĩa từ vựng thành hệ thống ý niệm Chẳng hạn, với danh từ “bank” nói trên, nghĩa tương ứng chúng “ngân hàng” thuộc ý niệm “công trình xây dựng nhân tạo”; “bờ sơng” thuộc ý niệm “cơng trình thiên tạo”; “dãy” thuộc ý niệm “sự xếp tổ chức” Tuy nhiên, chưa có hệ thống nhãn ngữ nghĩa giúp cho việc giải nhập nhằng ngữ nghĩa từ cách ổn thỏa Cụ thể sau: Hệ thống LLOCE xếp mục từ thành chủ đề, chủ đề chia thành nhiều nhóm, nhóm chia thành nhiều lớp, lớp gồm mục từ có quan hệ ngữ nghĩa với (đồng nghĩa, gần nghĩa,…) Hệ thống gồm cấp nên lớp khó tìm mối quan hệ với Hệ thống LDOCE trọng đến danh từ Bên cạnh phân chia lớp ngữ nghĩa q thơ (chỉ 32 lớp) nên khử nhập nhằng cho từ lớp khác nghĩa Hệ thống WordNet hệ thống ý niệm có quan hệ nhiều mặt với nhau, tạo thành mạng lưới phức tạp Nó phân cấp chi tiết lớp cịn có nhiều kiểu quan hệ khác Tuy vậy, khơng có phân biệt nggun tắc từ đồng nghĩa đa nghĩa Hệ thống CoreLex xây dựng từ lớp WordNet Tuy nhiên, dành cho danh từ mà thơi Đề xuất theo hướng ngữ nghĩa Như trình bày phần trên, hạn chế kho ngữ liệu dùng dịch tự động thấy khơng kích cỡ kho ngữ liệu mà thơng tin làm giàu cho kho TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 12(73).2013, Quyển ngữ liệu Các loại định dạng thông tin phổ biến làm giàu cho kho ngữ liệu hình ảnh, âm thanh, loại đồ thị,… chưa thật đầy đủ để giúp cho hệ thống khai thác sử dụng hiệu kho ngữ liệu Do đó, vấn đề cần đặt cần phải mở rộng kho ngữ liệu theo hướng ngữ nghĩa Khi đó, kho ngữ liệu mơ tả đầy đủ thông tin Việc mô tả thông tin cho kho ngữ liệu không dừng lại mức chung kho ngữ liệu mô tả thông tin phần header kho (như tên kho, ngơn ngữ, tác giả, kích thước, lĩnh vực,…) mà thực thể kho ngữ liệu đoạn, câu chí cụm từ, từ mô tả thông tin rõ ràng Hay nói cách khác, việc mở rộng kho ngữ liệu theo hướng ngữ nghĩa việc xây dựng thêm tầng ngữ nghĩa cho kho ngữ liệu Khi đó, thực thể kho ngữ liệu gắn kết với tầng ngữ nghĩa Ở mức độ đơn giản, tầng ngữ nghĩa bao gồm thích, từ/cụm từ đồng nghĩa, từ/cụm từ trái nghĩa… Ở mức độ phức tạp, tầng ngữ nghĩa xây dựng thành mạng lưới ontology, ontology gồm tập hợp lớp thuộc lĩnh vực hẹp đó, định nghĩa cụ thể cho thực thể kho ngữ liệu Vấn đề đặt làm cách để xây dựng tầng ngữ nghĩa cho kho ngữ liệu cách bán tự động, tức xây dựng chương trình tự xác định thực thể kho ngữ liệu thuộc lớp xây dựng sẵn, tự trích rút giá trị để xây dựng thuộc tính cho lớp Các bước xây dựng tầng ngữ nghĩa cho kho ngữ liệu sau: Bước 1: Với kho ngữ liệu, định nghĩacác loại lớp dựa vào ngữ cảnh kho (lĩnh vực kho) mối quan hệ chúng Chẳng hạn, với kho ngữ liệu thuộc lĩnh vực y tế có lớp Bác sĩ, Bệnh nhân, Thuốc,… Bước 2: Xây dựng thuộc tính cho lớp định nghĩa bước Bước 3: Vơi thực thể kho ngữ liệu, nhận biết thực thể thuộc lớp định nghĩa theo ngữ cảnh Ở bước này, cơng việc thực việc phân lớp từ, cụm từ Ví dụ, cụm từ “Hồ Chí Minh”, tùy theo trường hợp mà thuộc lớp Danh nhân, lớp Người, lớp Thành phố, lớp Đường phố,… Bước 4: Với thực thể xác định phân loại theo lớp, tiến hành xây dựng thơng tin cho thực thể dạng gán giá trị cho thuộc tính đối tượng thực thể xác định Bàn luận Các kho ngữ liệu dùng dịch tự động có kích thước tương đối lớn nhiều làm giàu số định dạng thông tin khác Tuy nhiên, gần chưa có kho ngữ liệu làm giàu hay mở rộng theo hướng ngữ nghĩa Điều gây nên hạn chế lớn việc khai thác hiệu kho ngữ liệu Các kho ngữ liệu cho phép hệ thống tìm kiếm so khớp dựa vào thuật toán so sánh chuỗi Vấn đề mà báo đề cập cần mở rộng kho ngữ liệu theo hướng ngữ nghĩa nhằm cho phép hệ thống tìm kiếm so khớp hiệu xác Tuy nhiên, vấn đề phát sinh kích thước kho ngữ liệu tăng lên đáng kể kho ngữ liệu thêm tầng ngữ nghĩa Vấn đề kéo theo tốc độ xử lý tìm kiếm hệ thống bị ảnh hưởng lớn, cần phải xây dựng thuật toán tối ưu nhằm tăng tốc độ so khớp tìm kiếm cho hệ thống Kết luận Các kho ngữ liệu có vai trị quan trọng lĩnh vực xử lý ngôn ngữ tự nhiên dịch tự động Do đó, tồn nhiều kho ngữ liệu xây dựng nhà phát triển tổ chức khác Tuy nhiên, kho ngữ liệu lại có cấu trúc định dạng khác nhau, đa số tồn dạng văn có liên kết với số định dạng liệu Chính thế, việc khai thác sử dụng kho ngữ liệu chưa thật hiệu gặp khơng khó khăn Để khai thác sử dụng kho ngữ liệu cách hiệu quả, đề xuất ý tưởng mở rộng kho ngữ liệu theo hướng ngữ nghĩa nhiều cấu độ khác nhau: cấp độ đơn 115 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 12(73).2013, Quyển giản, ngữ nghĩa xây dựng bao gồm thích, từ/ cụm từ đồng nghĩa, từ/ cụm từ trái nghĩa; cấp độ phức tạp, tầng ngữ nghĩa xây dựng dạng mạng lưới ontology, ontology gồm tập hợp lớp thuộc lĩnh vực hẹp đó, định nghĩa cụ thể cho thực thể kho ngữ liệu Bài báo dừng lại mức đề xuất ý tưởng, việc triển khai thực nghiệm ý tưởng chắn thực thời gian tới Ý tưởng mở hướng nghiên cứu tiềm việc khai phá liệu từ kho ngữ liệu TÀI LIỆU THAM KHẢO [1] Huynh C-P (2010), Des suites de test pour la TA un système d’exploitation de corpus alignés de documents et métadocuments multilingues, multiannotés et multimédia, PhD thesis-National Polytechnic Institute of Grenoble, 228 p [2] Boitet C (2007), Corpus pour la TA: types, tailles, et problèmes associés, selon leur usage et le type de systốme, Revue franỗaise de linguistique appliquộe, Vol XII –2007, pp 25-38 [3] Koehn Ph (2005), Europarl: A Parallel Corpus for Statistical Machine Translation, In Proc of the 10th Machine Translation Summit, Phuket, Thaïlande, pp 79–86 [4] Mosleh H A., Tang E K (1999), Example-Based Machine Translation Based on the Synchronous SSTC Annotation Schema, Procceding of the Machine Translation Summit VII Singapore, pp 244-249 [5] KimJ-D (2003), The GENIA corpus – Linguistic and Semantic Annotation of Biomedical Literature, Tsujii Laboratory, University of Tokyo [6] McEnery T and Wilson A (2001), Corpus Linguistics, Edinburgh University Press [7] Matthew B-O.Corpus Mark-up, http://www.lexically.net/courses/sessions/markup/Corpus%20Mark-up.ppt [8] Đặng Đại Thọ, Huỳnh Công Pháp (2012), Giải pháp chuẩn hóa kho ngữ liệu dùng lĩnh vực dịch tự động, Tạp chí Khoa học Cơng nghệ, Đại học Đà Nẵng - Số (58), Quyển III, Trang 111-117 [9] Tổng quan xử lý ngôn ngữ http://www.mediafire.com/?thwbuuub32yq4zu tự nhiên dịch máy, (BBT nhận bài: 07/10/2013, phản biện xong: 22/10/2013) 116 ... lý kho ngữ liệu mô tả sau: Trong báo này, đề xuất mở rộng kho ngữ liệu dịch tự động theo hướng ngữ nghĩa cách thêm tầng ngữ nghĩa vào kho ngữ liệu Tầng ngữ nghĩa đơn giản tầng liệu mô tả thêm liệu. .. khác, việc mở rộng kho ngữ liệu theo hướng ngữ nghĩa việc xây dựng thêm tầng ngữ nghĩa cho kho ngữ liệu Khi đó, thực thể kho ngữ liệu gắn kết với tầng ngữ nghĩa Ở mức độ đơn giản, tầng ngữ nghĩa bao... loại kho ngữ liệu theo loại, dựa vào mức độ thông tin làm giàu kho ngữ liệu, là: kho ngữ liệu thơ (kho ngữ liệu văn bản) kho ngữ liệu làm giàu Đối với kho ngữ liệu làm giàu, tìm thấy loại liệu