Bài viết Dịch tự động việt K’ho sử dụng phương pháp dựa vào ví dụ mẫu trình bày tiếng Việt và tiếng dân tộc K’Ho cùng ngữ hệ Nam Á, nhưng lại thuộc nhóm ngôn ngữ khác nhau, nên phần chuyển ngữ thường được xử lý bằng cách sử dụng từ vựng, cụm từ và câu, thay vì bằng quy tắc cú pháp tổng quát,... Mời các bạn cùng tham khảo.
TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT Tập 6, Số 2, 2016 160–173 160 DỊCH TỰ ĐỘNG VIỆT- K’HO SỬ DỤNG PHƯƠNG PHÁP DỰA VÀO VÍ DỤ MẪU Nguyễn Minh Tuấna, Đinh Viết Tuấna* a Khoa Công nghệ Thông tin, Trường Đại học Đà Lạt, Lâm Đồng, Việt Nam Nhận ngày 04 tháng 01 năm 2016 Chỉnh sửa ngày 30 tháng 03 năm 2016 | Chấp nhận đăng ngày 31 tháng 03 năm 2016 Tóm tắt Một ứng dụng dịch tự động từ tiếng Việt sang tiếng dân tộc K’Ho trình bày Ứng dụng nhằm mục đích giới thiệu phương pháp dịch tự động dựa ví dụ mẫu (EBMT) Do tiếng Việt tiếng dân tộc K’Ho ngữ hệ Nam Á, lại thuộc nhóm ngơn ngữ khác nhau, nên phần chuyển ngữ thường xử lý cách sử dụng từ vựng, cụm từ câu, thay quy tắc cú pháp tổng quát Các nguyên tắc thiết kế ứng dụng mô tả chi tiết, với giao diện hệ thống Một số kết dịch tự động trình bày để minh họa cho khả ứng dụng phương pháp EBMT Từ khóa: EBMT; Dịch máy; Dịch tự động; Dịch tự động dựa vào ví dụ mẫu; MT GIỚI THIỆU Hiện nay, giới có khoảng 5650 ngôn ngữ khác [1], với số lượng ngôn ngữ lớn gây nhiều khó khăn việc trao đổi thơng tin Để trao đổi thông tin phải cần đến đội ngũ phiên dịch khổng lồ để dịch văn bản, tài liệu, lời nói từ tiếng sang tiếng khác Vì vậy, người nghĩ đến việc thiết kế hệ thống tự động việc dịch Hiện nay, khái niệm dịch tự động (dịch máy) nhiều tác giả lĩnh vực xử lý ngôn ngữ tự nhiên định nghĩa, có vài điểm khác biệt hầu hết tương đương với định nghĩa Pushpak Bhattacharyya, Indian Institute of Technology Bombay Mumbai [2] sau: * Tác giả liên hệ: Email: tuandv@dlu.edu.vn TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN] 161 “Dịch máy hay dịch tự động máy tính tiến trình dịch từ ngơn ngữ nguồn (ngơn ngữ tự nhiên) sang ngơn ngữ đích, có khơng có trợ giúp người Dịch máy thường thiết kế cho cặp ngôn ngữ đặc biệt hay cho nhiều hai ngôn ngữ” Theo “Kỹ thuật dịch tự động ứng dụng vào tài liệu hàng khơng” Trần Lâm Qn q trình xử lý tài liệu dịch tự động mô tả Hình [3] Đầu vào hệ dịch tự động thường văn viết ngơn ngữ nguồn q trình dịch chia thành hai giai đoạn: đầu tiên, văn phân tích thành thành phần, sau dịch thành văn dạng ngơn ngữ đích Kết dịch người hiệu chỉnh để trở thành dịch tốt Hiện nay, dịch tự động cịn nhiều khó khăn việc xử lý nhập nhằng ngơn ngữ q trình dịch tự động Các phương pháp thường dùng dịch tự động: Hình Quá trình xử lý tài liệu dịch tự động Dịch tự động dựa thống kê (Statistics Machine Translation - STMT) [4] phương pháp mà dịch tạo sở mô hình thống kê có tham số bắt nguồn từ việc phân tích cặp câu song ngữ Ý tưởng dịch tự động thống kê mang tính túy tốn học, cách TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN] 162 tiếp cận khơng địi hỏi phân tích sâu ngơn ngữ, q trình dịch thực dựa kết thống kê có từ kho ngữ liệu (corpus) Dịch dựa cụm từ (Phrase Based Machine Translation – PBMT) [1] phương pháp xác định nghĩa câu đích thực ghép từ hốn đổi vị trí từ theo cấu trúc cú pháp cụm từ Do thiếu thông tin ngữ cảnh xác định xác suất từ, nên nghĩa từ chọn nhiều lúc không với ngữ cảnh Đôi khi, nghĩa từ ngơn ngữ đích khơng đủ để diễn tả nghĩa từ ngôn ngữ nguồn ngược lại Dịch dựa luật (Rule Based Machine Translation – RBMT) [5] phương pháp dựa luật cú pháp, ngữ nghĩa từ điển đầy đủ thông tin, Câu dịch thường khơng đạt độ xác mong đợi lỗi mâu thuẫn luật tập luật không bao quát Dịch tự động dựa ví dụ (Example-Based Machine Translation - EBMT) [6] cách tiếp cận khơng địi hỏi phải có phân tích ngơn ngữ học cú pháp, ngữ nghĩa câu dịch dựa vào việc “so khớp” mẫu Việc “so khớp” mẫu dựa hoàn toàn vào kho ngữ liệu song ngữ để xác định mẫu gần nhất, sau hiệu chỉnh xuất thành phần dịch tương ứng mẫu Về mặt ngơn ngữ, tiếng K’Ho thuộc ngữ hệ Nam Á, nhóm ngôn ngữ Môn – Khmer [7] Vào đầu kỷ 20, ngôn ngữ K’Ho xây dựng hệ thống chữ Latin với mục đích truyền đạo, sau tiếng K’Ho cải tiến nhiều lần sử dụng phổ biến nhóm dân tộc thiểu số Lâm Đồng, Đăk Nông tỉnh Đông Nam Bộ [7] Đến nay, tiếng K’Ho giảng dạy số trường tiểu học vùng dân tộc thiểu số để phục vụ cho công tác quản lý, phát triển kinh tế - xã hội, giữ gìn an ninh quốc phịng địi hỏi đội ngũ cán cơng chức cơng tác vùng có đồng bào dân tộc thiểu số phải biết sử dụng tiếng dân tộc địa giao tiếp công tác theo qui định 163 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CƠNG NGHỆ THƠNG TIN] Nhằm góp phần ứng dụng khoa học công nghệ vào việc nghiên cứu ngôn ngữ đồng bào thiểu số cung cấp thông tin dự báo thời tiết cho đồng bào dân tộc K’Ho địa bàn tỉnh Lâm Đồng, đồng thời tin dự báo thời tiết mang lượng lớn thơng tin mang tính cập nhật, ứng dụng dịch tự động từ tiếng Việt sang tiếng K’Ho phạm vi tin dự báo thời tiết đài Phát truyền hình tỉnh Lâm Đồng xây dựng Do tiếng Việt tiếng K’Ho ngữ hệ Nam Á lại thuộc nhóm ngơn ngữ khác [7] nên phần chuyển ngữ thường xử lý cách sử dụng từ vựng, cụm từ câu, thay quy tắc cú pháp tổng quát; qua nghiên cứu tổng quan phương pháp phương pháp dịch tự động dựa ví dụ mẫu (EBMT) phương pháp phù hợp với yêu cầu mục tiêu đề tài Trong báo cáo này, phương pháp EBMT trình bày việc áp dụng để xây dựng hệ dịch tự động Việt - K’Ho Nội dung viết đề cập chi tiết phương pháp EBMT, nguyên tắc thiết kế ứng dụng số kết dịch tự động trình bày để minh họa cho khả ứng dụng phương pháp EBMT Cấu trúc viết tổ chức sau: Phần trình bày phương pháp EBMT Phần đề cập đến kết thực nghiệm Cuối phần kết luận hướng phát triển PHƯƠNG PHÁP EBMT Ý tưởng phương pháp EBMT giới thiệu lần Nagao dự án xây dựng hệ dịch tự động Nhật-Anh [8] Sơ đồ hệ EBMT, mà sau diễn giải thuật ngữ như: “Dịch suy diễn từ ví dụ” hay “Dịch nguyên lý tương tự” [8], mơ tả Hình Một hệ EBMT cụ thể Sumita đề xuất với tên gọi hệ dịch D3 (Dpmatch Driven transDucer) dựa so khớp quy hoạch động [9] Sở dĩ có tên vậy, pha “tìm kiếm” (Retrieve), hệ chọn từ kho ví dụ câu tương tự với câu đầu vào vào khoảng cách ngữ nghĩa chúng thông qua giải thuật so khớp quy hoạch động (DP-Matching Algorithm) hai dãy từ (word sequences) TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN] 164 Hình Sơ đồ hệ EBMT Hệ dịch D3 yêu cầu tập mẫu, gồm cặp câu song ngữ, trình dịch chúng phải biểu diễn dạng dãy từ (word sequence) Để dịch câu đầu vào, hệ thống tìm kiếm tập ngữ liệu cặp câu có phần ngơn ngữ nguồn tương tự với Khái niệm “tương tự” lượng hoá độ đo ngữ nghĩa gọi “edit-distance” Sau đó, với cặp câu vừa chọn ra, hệ thống so sánh phần ngơn ngữ nguồn với câu đầu vào, lọc thành phần khác chúng để tổng quát hoá câu ngữ liệu thành mẫu (patterns) Công đoạn cuối chọn mẫu phù hợp thực phép thay thành phần khác nói để có câu dịch cần tìm từ phần ngơn ngữ đích mẫu Hình biểu diễn mơ hình hệ dịch D3, giống hệ dịch ExampleBased tổng quát hệ dịch D3 sử dụng nguồn liệu sau: Kho liệu song ngữ (Bilingual Corpus): Tham gia vào giai đoạn “Tìm kiếm ngữ liệu tương tự”, kho liệu quan trọng Từ điển đồng nghĩa (Thesauri): Sử dụng hai giai đoạn “Tìm kiếm ngữ liệu tương tự” “Sản sinh mẫu” Từ điển song ngữ (Bilingual Dictionary): dùng giai đoạn “Sản sinh mẫu” “Thay thế” Trong khối Retrieval Adjustment bao gồm bước: TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN] 165 Tìm kiếm ngữ liệu tương tự (Retrieve) Chọn ngữ liệu phù hợp (Select) Sản sinh mẫu (Generate) Thay (Substitute) Hình Mơ hình hệ dịch D3 Giải thuật DP-Matching: Duyệt câu tập mẫu, sau sử dụng giải thuật tính khoảng cách (Distance) với câu đầu vào theo cơng thức (1): = ∑ (1) Trong đó: I, D số Insertion Deletion (số từ cần thêm vào xóa để thu input từ example) SEMDIST: khoảng cách mặt ngữ nghĩa dùng pha thay sau (SEMDIST từ giống 0) Linput, Lexample độ dài (số lượng từ câu hoàn chỉnh tách ra) TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CƠNG NGHỆ THƠNG TIN] 166 Ta xét ví dụ đơn giản sau với câu input example sau: - Hôm nắng nhiều (hôm | nắng | nhiều | quá) - Ngày nắng (ngày | nắng | | q) Với câu I=D=0, có hai cụm từ khác câu “nhiều” “ít” lúc từ điển đồng nghĩa sử dụng, đo khoảng cách (0Lexample)= m[0,j-1]+1 Sau phần tử hàng i cột j tính theo với công thức (với 1