1. Trang chủ
  2. » Tất cả

DO AN XÂY DỰNG CÔNG CỤ HỖ TRỢ DỊCH THUẬT

74 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 74
Dung lượng 2,3 MB

Nội dung

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN LÊ VĂN HIẾU XÂY DỰNG CÔNG CỤ HỖ TRỢ DỊCH THUẬT ANH-VIỆT DỰA TRÊN MÃ NGUỒN MỞ Ngành: KHOA HỌC MÁY TÍNH Mã sớ: 60.48.01.01 ĐỒ ÁN Thành phố Hồ Chí Minh - 2016 LỜI CẢM ƠN Để hồn thành chương trình cao học viết đề tài này, em nhận hướng dẫn, giúp đỡ góp ý nhiệt tình từ quý Thầy Cô trường Đại học Khoa học Tự nhiên TP HCM Trước hết, em xin chân thành cảm ơn đến quý Thầy Cô khoa Công nghệ Thông tin tận tình dạy bảo, truyền đạt cho em nhiều kiến thức quý báu suốt thời gian học tập Trường Em xin gửi lời biết ơn sâu sắc đến PGS.TS Thầy dành nhiều thời gian tâm huyết hướng dẫn nghiên cứu giúp em hoàn thành đề tài tốt nghiệp Tôi xin chân thành cảm ơn gia đình, bạn bè đồng nghiệp ln quan tâm động viên, ủng hộ giúp đỡ nhiều thời gian qua Mặc dù em có nhiều cố gắng để hoàn thiện đề tài, nhiên khơng thể tránh khỏi thiếu sót, mong nhận đóng góp q báu q Thầy Cơ bạn Xin chân thành cám ơn TP Hồ Chí Minh, tháng 12 năm 2016 Người thực Lê Văn Hiếu MỤC LỤC MỤC LỤC Danh mục kí hiệu, chữ viết tắt ý nghĩa Danh mục bảng .5 Danh mục hình vẽ Chương Tổng quan Chương Cơ sở lý thuyết 12 Chương Phương pháp thực 40 Chương Kết luận hướng phát triển .49 Tài liệu tham khảo .54 Phụ lục .56 Phục lục A: Bảng so sánh chức Trados OmegaT 56 Phụ lục B: Hướng dẫn sử dụng OmegaT kết nối OmegaT với Moses 63 Danh mục kí hiệu, chữ viết tắt và ý nghĩa Từ viết tắt CAT TM FMS TU S S’ T σ τ Ѳ CSDL Nghĩa tiếng Anh Computer-Aided Translation Translation Memory Fuzzy Match Scores Translation Unit Source segment New source segment Target segment Source sub-segment Target sub-segment Similarity threshold Database Nghĩa tiếng Việt Công cụ hỗ trợ dịch thuật Bộ nhớ dịch Điểm số so khớp mờ Đơn vị dịch thuật Câu nguồn Câu nguồn Câu đích Câu nguồn S Câu đích S Ngưỡng tương đồng Cơ sở liệu Danh mục bảng Danh mục hình vẽ Chương Tổng quan 1.1 Đặt vấn đề Hiện giới có khoảng 6,909 ngơn ngữ khác bao gồm ngơn ngữ nói ngơn ngữ viết [12], số lượng ngôn ngữ lớn gây nhiều khó khăn việc trao đổi thông tin như: dịch văn bản, tài liệu, lời nói từ ngơn ngữ sang ngơn ngữ khác Với khó khăn phải dùng đến đội ngũ phiên dịch khổng lồ Để khắc phục nhược điểm phải sử dụng đội ngũ phiên dịch lớn người nghĩ đến việc thiết kế mơ hình tự động cơng việc dịch, từ xuất máy tính điện tử người ta tiến hành nghiên cứu dịch máy, việc đưa mơ hình tự động cho việc dịch phát triển Trong lĩnh vực nghiên cứu xử lí ngơn ngữ tự nhiên ngồi dịch máy, người cịn nghiên cứu công cụ hỗ trợ cho dịch giả việc dịch thuật gọi Công cụ hỗ trợ dịch thuật (CAT: Computer-assisted translation) CAT dịch máy, mang tính chất hỗ trợ cho dịch giả, giúp cho công việc dịch thuật trở nên thuận tiện, nhanh chóng dễ dàng Trong cơng cụ phần mềm dịch thuật với trợ giúp máy tính, máy tính phân tích tự động văn nguồn thành “phân đoạn” (segment) lưu nhớ dạng song ngữ (tức có liên kết “phân đoạn” nguồn với phần dịch tương ứng) “Phân đoạn” cụm từ, ngữ, mệnh đề hay câu Khi ta dịch văn mới, máy tự động tìm kiếm nhớ “đoạn” dịch trước máy xuất kết dịch để người dịch không cần phải dịch lại Người dịch cần dịch thủ cơng phần chưa dịch trước máy lại tự cập nhật phần dịch thêm để hệ thống sử dụng cho lần sau Việc phân đoạn (segmentation) văn tìm kiếm đoạn thực theo công cụ giải thuật lĩnh vực xử lý ngôn ngữ tự nhiên (NLP: Natural Language Processing) Việc so sánh “phân đoạn” so khớp hoàn toàn so khớp mờ (fuzzy) cách “thông minh” (khi máy xét đến biến thể hình thái, ngữ pháp ngữ nghĩa) Máy ưu tiên chọn “đoạn” dài chọn phần dịch tương ứng có xác suất cao (vì có nhiều “đoạn” dịch theo cách khác tùy theo ngữ cảnh) [6] Với cách thức này, có kho ngữ liệu song ngữ có độ tương đồng cao (về từ vựng, thuật ngữ, cấu trúc, lĩnh vực, phong cách) với văn cần dịch (như: địa hóa tài liệu hướng dẫn sử dụng, hợp đồng, …) cơng sức dịch giảm đáng kể [14] Hầu hết cơng cụ hỗ trợ dịch thuật tìm kiếm đoạn tương đồng dựa so sánh hai đoạn chưa quan tâm đến ngữ nghĩa hai đoạn, cải tiến việc tìm kiếm, so sánh đoạn theo ngữ nghĩa cơng sức dịch giảm đáng kể 1.2 Lý chọn đề tài Hiện nay, ngày có nhiều hệ thống tự động dịch miễn phí mạng như: Systran, Google Translate, Vietgle, Vdict, … Những hệ thống cho phép dịch tự động văn với cặp ngơn ngữ chọn trước (ví dụ dịch từ tiếng Anh sang tiếng Việt) Dịch máy (Machine Translation) hoạt động chủ yếu dựa nguyên tắc phân tích ngữ liệu, hệ thống quy tắc ngôn ngữ lập trình, từ tái tạo mẫu hội thoại phù hợp với quy tắc từ vựng ngôn ngữ đích Cho đến đa số dịch máy phải qua giai đoạn chỉnh sửa người để trở thành dịch hoàn chỉnh Điều cho thấy dịch thuật yếu tố người khó thay CAT loại hình dịch thuật dịch giả sử dụng phần mềm máy tính thiết kế để hỗ trợ q trình dịch Bản dịch khơng phải sản phẩm máy tính hay lập trình viên mà sản phẩm người dịch Máy tính (chính xác phần mềm máy tính chuyên dụng) giúp hỗ trợ đẩy nhanh trình dịch tăng độ thống thuật ngữ nhờ nguyên lý làm việc thông minh CAT CAT hoạt động cách đoạn dịch lần đầu tiên, phần mềm ghi lại để lần sau gặp lại chi tiết gốc khác, phần mềm tự động tìm “bộ nhớ dịch” xem lần trước gốc dịch đưa kết Như vậy, “bộ nhớ dịch” (Translation Memory – TM) chứa nhiều “đoạn” tương đồng vậy, tức từ/cụm từ/câu/đoạn ngôn ngữ gốc dịch phù hợp (phù hợp hoàn toàn phù hợp phần) với xác suất gặp lại đoạn cao, tỷ lệ văn phần mềm tự động dịch tăng lên giúp tiết kiệm thời gian thống thuật ngữ Hơn việc dịch tiếng Anh tiếng Việt cần thiết khối lượng văn tiếng Anh tiếng Việt ngày lớn thời kỳ Việt Nam hội nhập sâu rộng với quốc tế điều dẫn đến việc công sức dịch giả bỏ để dịch văn nhiều Các công cụ CAT giảm cơng sức dịch giả phần nhờ vào chức “so khớp mờ” để liệt kê đơn vị dịch thuật phù hợp với câu dịch, dịch giả sẻ xem xét, lựa chọn đơn vị dịch thuật thích hợp để làm câu dịch Các đơn vị dịch thuật liệt kê cách tính độ tương đồng hai câu nguồn (ví dụ: câu dịch có chứa từ “giáo_viên”, đơn vị dịch thuật có chứa từ “giáo_viên” đơn vị dịch thuật coi tương đồng) ví dụ vừa nêu ta nhận thấy đơn vị dịch thuật có chứa từ “giáo_viên” xem tương đồng cịn đơn vị dịch thuật có chứa từ như: “thầy_giáo”, “cơ_giáo”,… có ý nghĩa tương đương không xem tương đồng đơn vị dịch thuật có chứa từ có khả tương đồng với câu dịch cao mặt ý nghĩa Chức so khớp mờ CAT chưa quan tâm mặt ngữ nghĩa, chức so khớp mờ cải tiến theo hướng so khớp mờ theo ngữ nghĩa góp phần làm giảm đáng kể cơng sức dịch giả trình dịch Để thực ý tưởng “so khớp mờ theo ngữ nghĩa” chọn đề tài “Xây dựng công cụ hỗ trợ dịch Anh – Việt dựa mã nguồn mở” 1.3 Mục tiêu đề tài Mục tiêu đề tài tìm hiểu, nghiên cứu “xây dựng chức so khớp mờ theo ngữ nghĩa” dựa công cụ hỗ trợ dịch thuật mã nguồn mở OmegaT Để thực mục tiêu trên, đề tài thực cơng việc sau: • Tìm hiểu Cơng cụ hỗ trợ dịch thuật • Nghiên cứu, tìm hiểu sử dụng phần mềm OmegaT • Nghiên cứu, khảo sát mã nguồn OmegaT • Xây dựng chức so khớp mờ theo ngữ nghĩa 1.4 Cấu trúc cuốn báo cáo 10 ... chương, Chương trình bày tổng quan đồ án Chương giới thiệu Máy dịch Công cụ hỗ trợ dịch thuật Chương trình bày phương pháp xây dựng công cụ hỗ trợ dịch thuật làm để xây dựng chức so khớp mờ theo ngữ... ban đầu Dịch máy: Ngoài Bộ nhớ dịch, Bảng thuật ngữ, CAT hỗ trợ kết nối với máy dịch như: Google Translate, Bing Translate, Moses … 2.3 Nguyên lý hoạt động công cụ hỗ trợ dịch thuật Công cụ hỗ. .. Hình 2.1 Sơ đồ hệ dịch máy 12 2.2 Giới thiệu công cụ hỗ trợ dịch thuật Cơng cụ hỗ trợ dịch thuật cịn gọi Computer-Aided Translation (CAT) loại hình dịch văn dịch tạo nhờ hỗ trợ phần mềm máy tính

Ngày đăng: 20/02/2022, 21:09

w