Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 22 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
22
Dung lượng
1,17 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ HỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN TUẤN ANH CHUYỂNNGỮTỰĐỘNGTỪTIẾNGVIỆTSANGTIẾNGNHẬT LUẬN VĂN THẠC SỸ Hà Nội - 2017 CHƢƠNG I GIỚI THIỆU Hiện có hàng nghìn ngơn ngữ tồn giới, ngơn ngữ có đặc trưng riêng bảng chữ cách phát âm Ngày có nhiều hệ thống tựđộng dịch miễn phí mạng như: systran, google translate, vietgle, vdict, … Những hệ thống cho phép dịch tựđộng văn với cặp ngơn ngữ chọn trước (ví dụ dịch từtiếng Anh sangtiếng Việt) Điều cho thấy phát triển dịch máy ngày tiến gần đến ngôn ngữtự nhiên người Vấn đề đặt dịch giả máy dịch việc dịch cặp ngơn ngữ có hệ thống bảng chữ cách phát âm khác dịch xác tên thuật ngữ kỹ thuật Những đối tượng phiên âm, thay âm xấp xỉ tương đương Việc dịch phiên âm cặp ngơn ngữ gọi Chuyểnngữ Thật khó để dịch tênriêng thuật ngữ kỹ thuật qua ngôn ngữ với bảng chữ cách phát âm khác Các từ thường chuyển ngữ, tức là, thay khoảng ngữ âm gần Ví dụ: "computer" tiếng Anh xuất dạng "konpyuutaa" TiếngNhật 1.1 Đặc điểm ngôn ngữtiếngViệttiếngNhật 1.1.1 Đặc điểm ngôn ngữtiếngViệtTiếngViệt thuộc ngôn ngữ đơn lập, tức âm tiết phát âm tách rời thể chữ viết Đặc điểm thể r rệt tất mặt ngữ âm, từ vựng, ngữ pháp Đặc điểm n ữ m Trong tiếngViệt có loại đơn vị đặc biệt gọi "tiếng" Về mặt ngữ âm, tiếng âm tiết cách viết tương đồng với phát âm Hệ thống âm vị tiếngViệt phong phú có tính cân đối Đặc điểm từ vựn Mỗi tiếng, nói chung, yếu tố có ngh a Tiếng đơn vị sở hệ thống đơn vị có ngh a tiếngViệtTừ tiếng, người ta tạo đơn vị từ vựng khác để định danh vật, tượng , chủ yếu nhờ phương thức ghép phương thức láy Việc tạo đơn vị từ vựng phương thức ghép chịu chi phối quy luật kết hợp ngữ ngh a, ví dụ: đất nước, máy bay, nhà lầu xe hơi, nhà tan c a nát Vốn từ vựng tối thiểu tiếngViệt phần lớn từ đơn tiết (một âm tiết, tiếng) 1.1.2 Đặc điểm n ôn n ữ tiến Nhật Hệ thốn chữ viết Người Nhật có bảng chữ đặc biệt ngữ âm gọi Katakana, s dụng chủ yếu để viếttên nước từ mượn Các ký hiệu katakana thể Bảng 1.1, với cách phát âm tiếngNhật chúng Hai ký hiệu hiển thị góc bên phải s dụng để kéo dài nguyên âm phụ âm tiếngNhật Bảng 1.1: Bảng chữ Katakana cách phát âm tiếngNhật N ữ m Âm tiết tiếngNhật giữ vị trí quan trọng, vừa đơn vị ngữ âm nhỏ vừa đơn vị phát âm Mỗi âm tiết thể chữ Kana (Hiragana Katakana) Số lượng âm tiết tiếngNhật khơng nhiều, có tất 112 dạng âm tiết Trong số này, có 21 dạng âm tiết xuất từ ngoại lai vay mượn, số lượng âm tiết s dụng thường xun thực tế TiếngNhật có tất nguyên âm: /a, i, u, e, o/ 12 phụ âm: /k, s, t, g, z, d, n, m, h, b, p, r/ số lượng so với ngơn ngữ khác Ngồi có hai âm đặc biệt âm mũi (N) âm ngắt (Q) Từ vựn Có thể khẳng định tiếngNhật ngơn ngữ có vốn từ vựng lớn vô phong phú Sự phong phú từ vựng tiếngNhật trước hết thể tính nhiều tầng lớp vốn từ vựng Nhóm từ mượn coi từ vay mượn từ ngôn ngữ khác mà chủ yếu tiếng Anh, Pháp, Đức, Tây Ban Nha, Bồ Đào Nha Để phân biệt với nhóm từ gốc Hán từ Nhật, nhóm từ mượn viết chữ Katakana, ví dụ như: tabako (thuốc lá), tenpura (món tẩm bột rán) 1.2 Bài toán dịch máy tiếp cận dịch dựa cụm từ ph n cấp 1.2.1 Khái niệm hệ dịch máy a Định n hĩa Dịch máy (machine translation system-MT) l nh vực ngơn ngữ học tính tốn nghiên cứu việc s dụng phần mềm để dịch văn phát biểu từ ngôn ngữsang ngôn ngữ khác b Vai trò dịch máy Hiện giới có khoảng 5650 ngơn ngữ khác nhau, với số lượng ngôn ngữ lớn gây nhiều khó khăn việc trao đổi thơng tin,.Với khó khăn người ta phải dùng đến đội ngũ phiên dịch khổng lồ, để dịch văn bản, tài liệu, lời nói từtiếng nước sangtiếng nước khác Để khắc phục nhược điểm người ngh đến việc thiết kế mơ hình tựđộng cơng việc dịch, từ xuất máy tính điện t người ta tiến hành nghiên cứu dịch máy c Sơ đồ tổn quan hệ dịch máy Phần dịch máy chuyển văn nguồn thành văn viết ngơn ngữ đích Và qua chỉnh để cuối thu văn tương đối hoàn chỉnh Dưới sơ đồ tổng quát hệ dịch máy: Hình 1.1: Sơ đồ tổng quan hệ dịch máy 1.2.2 Mơ hình dịch máy thốn kê a Khảo sát phƣơn pháp dịch máy thốn kê Dịch máy dựa phương pháp thống kê hướng phát triển đầy tiềm ưu điểm vượt trội so với phương pháp khác Thay xây dựng từ điển, quy luật chuyển đổi tay, hệ dịch tựđộng xây dựng từ điển, quy luật dựa kết thống kê có từ kho ngữ liệu Chính vậy, dịch máy dựa vào thống kê áp dụng cho cặp ngơn ngữ Mơ hình chung hệ dịch máy phương pháp thống kê sau: Hình 1.2: Mơ hình chung hệ dịch máy thống kê Việt – Nhật b Chu kì phát triển hệ thốn dịch thốn kê c Ƣu điểm phƣơn pháp dịch thốn kê 1.2.3 Tiếp cận dịch máy dựa cụm từ ph n cấp a Các n hiên cứu đƣợc bố Mơ hình dịch máy thốn kê dựa cụm từ Trong phương pháp dịch máy thống kê truyền thống dựa đơn vị từ, đơn vị dịch từ Số từ câu dịch khác phụ thuộc vào từ ghép, hình thái từ thành ngữ Tham số độ dài chuỗi từ dịch gọi độ hỗn loạn, tức số từ ngơn ngữ đích mà từ ngơn ngữ nguồn sinh Tuy nhiên với cặp ngôn ngữViệt – Nhật, hệ dịch phải đối mặt với khó khăn trình xếp trật tựtừtiếngViệt tương ứng dịch sang câu tiếngNhật Mơ hình dịch dựa đơn vị từ khơng cho kết tốt trường hợp kết nối nhiều-1 nhiều-nhiều với trật tựtừ câu tương ứng khác Khi đó, mơ hình dịch dựa đơn vị cụm từ phần đối phó với thiếu hụt mơ hình dựa từ Chúng ta phân rã cum từ thành cá đoạn nhỏ p(f|e) thành: ( ̅ ̅̅̅ ) ∏ ̅ ̅ Các cụm từ kỹ thuật thường không theo ngh a ngôn ngữ học mà cụm từ tìm thấy cách s dụng phương pháp thống kê để trích rút từ cặp câu Ví dụ: そこ quê hương は 誰 か の 母国 です Hình 1.3: Ví dụ gióng hàng từ Ở đây, cụm từ sinh dựa vào phương pháp thống kê áp dụng ngữ liệu học Trong “Introduction to Statistical Machine Translation”, 2004, Koehn mô tả cách khái quát trình dịch thống kê dựa cụm từ sau: Câu nguồn tách thành cụm từ Mỗi cụm từ dịch sang ngơn ngữ đích Các cụm từ dịch xếp lại theo thứ tự phù hợp b Tiếp cận dịch máy dựa đơn vị cụm từ ph n cấp Xem Hình 1.4 để minh hoạ phương pháp cho mơ hình dựa cụm từ truyền thống Cho ma trận gióng hàng từ cặp câu song ngữ, chúng tơi trích xuất tất cặp cụm từ phù hợp với gióng hàng Những cặp cụm từ quy tắc dịch mơ hình dựa cụm từ Có nhiều cách khác để ước lượng xác suất dịch cho chúng Ví dụ xác suất có điều kiện φ ( ̅| )̅ dựa tần số tương đối cặp câu ( ̅| )̅ cụm từ ̅ văn thể Hình 1.4: Trích xuất quy tắc dịch cụm từ truyền thống Tất cặp cụm từ dịch máy truyền thống tạo thành quy tắc cho ngữ pháp đồng Như thảo luận, quy tắc có ký tự kết thúc phía bên phải: ̅ ̅ Y 1.3 Vấn đề tên riên từ mƣợn tron dịch máy 1.3.1 Vấn đề tên riên Sự quan tâm đến việc chuyểnngữtựđộngtênriêng tăng lên năm gần nhờ có khả giúp chống gian lận chuyểnngữ (The Economist Technology Quarterly, 2007), trình chuyểnngữ cách chậm chạp tênriêng tránh bị truy vết quan thực thi pháp luật quan tình báo Hình 1.6: Ví dụ chuyểnngữtênriêngtiếng Nga - Anh Khả chuyểnngữtênriêng có ứng dụng dịch máy thống kê Các hệ thống dịch máy thống kê huấn luyện tập văn thể song song lớn, tập văn thể bao gồm vài triệu từ mà họ khơng hy vọng có phạm vi bao phủ hồn chỉnh, đặc biệt lớp từ có hiệu suất cao tênriêng 1.3.2 Từ mƣợn Theo thống kê, đến đầu năm 1990, số lượng từ mượn chiếm 13,5% vốn từ vựng tiếngNhật Hiện nay, từ mượn chiếm vị trí quan trọng đời sống ngôn ngữ người Nhật Bản Các từ liên quan đến l nh vực kinh tế, trị đời sống sinh hoạt hàng ngày tăng lên 1.4 Bài tốn luận văn iải Trong khóa luận trình bày vấn đề sau Đầu vào toán chuỗi tiếngViệt Nghiên cứu mơ hình dịch máy thống kê dựa cụm từ phân cấp, mơ hình ngơn ngữ giải mã để dịch chuỗi từtiếngViệtsangtiếngNhật S dụng mơ hình chuyểnngữ khơng giám sát x lý tênriêng mà mơ hình dịch khơng đưa kết Từ kết sau chuyểnngữ se cập nhật trở lại dịch ban đầu 1.5 Kết cấu luận văn Ngoài phần mở đầu phần tham khảo, luận văn tổ chức thành chương với nội dung sau: - Chương 1: Giới thiệu - Chương 2: Dịch máy thống kê dựa vào cụm từ phân cấp - Chương 3: Dịch tênriêngchuyểnngữ - Chương 4: Thực nghiệm đánh giá - Chương 5: Kết luận CHƢƠNG DỊCH MÁY THỐNG KÊ DỰA TRÊN CỤM TỪ PHÂN CẤP 2.1 N ữ pháp Mơ hình dựa văn phạm phi ngữ cảnh đồng 2.1.1 Văn phạm phi n ữ cảnh đồn Trong văn phạm phi ngữ cảnh đồng thành phần cấu trúc viết lại quy tắc với cặp gióng hàng phía bên phải: Trong X kí tự khơng kết thúc, γ α chuỗi kí tự kết thúc kí tự khơng kết thúcs, ~ đối xứng 1-1 biến cố kí tự khơng kết thúc γ biến cố kí tự khơng kết thúc α Ví dụ, ta có chuỗi tiếng Trung “Aozhou shi yu Beihan you bangjiao de shaoshu guojia zhiyi” chuyểnngữsangtiếng Anh “Australia is one of the few countries that have diplomatic relations with North Korea” Các cặp cụm theo phân cấp biểu diễn văn phạm phi ngữ cảnh đồng sau: [Aozhou] [shi] [yu Beihan] [you] [bangjiao] [de shaoshu guojia zhiyi] [.] [Australia] [has] [dipl rels.] [with North Korea] [is] [one of the few countries] [.] Trong biến mà s dụng số hộp để kiện không liên quan kết nối dấu “~” Các cặp cụm từ thơng thường thức hố sau: Thêm hai luật để hồn thiện ví dụ chúng ta: Một dẫn xuất văn phạm phi ngữ cảnh đồng bắt đầu cặp ký hiệu bắt đầu kết nối Tại bước, hai kết nối không liên kết viết lại cách s dụng hai thành phần quy tắc Khi biểu thị kết nối với số đóng hộp, phải liên tục ghi mục lục ký hiệu đưa từ ký hiệu có Hình 2.1: Ví dụ trích xuất văn phạm phi ngữ cảnh đồng 2.1.2 Quy tắc trích xuất Phần lớn ngữ pháp bao gồm quy tắc trích xuất tựđộng Q trình trích xuất bắt đầu tập ngữ liệu huấn luyện gióng hàng từ: ba (f, e, ~) f câu tiếng Việt, e câu tiếng Nhật, ~ quan hệ nhị phân (nhiều - nhiều) vị trí f vị trí e Các liên kết từ tạo cách chạy GIZA ++ (Och Ney 2000) ngữ liệu huấn luyện theo hai hướng tạo thành kết hợp hai gióng hàng từ Sau trích xuất từ cặp câu gióng hàng từ quy tắc phù hợp với gióng hàng Ví dụ: giả s ngữ liệu huấn luyện chứa đoạn sau: 30 duonianlai de youhao hezou 30 plus-year-past of friendly cooperation Friendly cooperation over the last 30 years 2.1.3 Các quy tắc khác Quy tắc keo (Glue rules) Quy tắc thực thể (Intity Rules) 2.2 Mô hình 2.2.1 Định n hĩa Theo Och Ney (2002), s dụng mơ hình tuyến tính tổng quát cho dẫn xuất D: ∏ Trong φi đặc trưng định ngh a dẫn xuất λi có trọng số Một đặc trưng mơ hình ngơn ngữ m-gram PLM (e); phần lại đặc trưng định ngh a kết hàm quy tắc s dụng dẫn xuất: ∏ Như viết lại P (D) sau: ∏ ∏ Các yếu tố khác ngồi yếu tố mơ hình ngơn ngữ đưa vào hình thức đặc biệt rõ ràng Một văn phạm phi ngữ cảnh đồng có trọng số văn phạm phi ngữ cảnh đồng với hàm gán trọng số cho quy tắc Hàm tạo hàm trọng số dẫn xuất: ∏ Nếu ta định ngh a ∏ mơ hình xác suất trở thành Rất dễ để viết thuật tốn lập trình động để tìm dịch có trọng số cao dịch tốt với văn phạm phi ngữ cảnh đồng có trọng số Do vấn đề khơng bao gồm mơ hình ngơn ngữ, điều quan trọng chất lượng dịch 2.2.2 Các đặc trƣn Các quy tắc trích từ tệp huấn luyện có tính sau: Các trọng số ước lượng chất lượng từ α dịch từ γ (Koehn, Och, Marcu 2003) Một điểm phạt exp(-1) quy tắc rút gọn, tương tự điểm phạt cụm từ Koehn (Koehn 2003), cho phép mơ hình học cách ưu tiên dẫn xuất dài ngắn Tiếp theo, có điểm phạt exp (-1) cho lớp khác quy tắc: Cho quy tắc keo, để mơ hình học ưu tiên cho cụm từ phân cấp chuỗi kết hợp cụm từ 10 Cho bốn loại quy tắc (số, ngày tháng, tên, dòng) chèn vào mô- đun dịch chuyên ngành, để mơ hình học độ tin cậy số 2.2.3 Huấn luyện 2.3 Giải mã Thuật toán 2.4 Đánh iá chất lƣợn dịch 11 CHƢƠNG DỊCH TÊNRIÊNG VÀ CHUYỂNNGỮ 3.1 Dịch tên riên 3.1.1 Giới thiệu Trong toán dịch máy thống kê, kết luận rằng: ngữ liệu huấn luyện hệ thống dịch máy dù lớn đến mức bao phủ hết tất từ ngôn ngữ Do đó, thay tìm cách cho hệ dịch có khả dịch tất từ ngôn ngữ để không phát sinh “từ không xác định”, xem từ không xác định phần hiển nhiên dịch máy tìm cách dịch lại khơng xác định để cải tiến chất lượng dịch máy chung Việc phân đoạn từ làm tăng chất lượng dịch chung lại xuất nhiều từ không xác định dịch đích ngữ liệu huấn luyện trường hợp từ vựng chưa phân đoạn từ Phần lớn từ không xác định dịch thống kê Việt-Nhật tênriêngTênriêng chia thành loại sau: tên người, tên tổ chức, tên địa danh biếu thức số (ngày, giờ, phần trăm, số, số điện thoại) 3.1.2 Phƣơn pháp tiếp cận mô-đun Sau th nghiệm ban đầu dòng này, xây dựng mơ hình động trình chuyển ngữ: Một cụm từtiếngViệtviết Một máy dịch/người dịch phát âm tiếngViệt Cách phát âm s a đổi để phù hợp với âm tiếngNhật Các âm chuyển đổi sang katakana Katakana viết Việc phân chia toán thành toán nhỏ May mắn thay, có kỹ thuật để phối hợp giải pháp cho toán nhỏ Khác với ngôn ngữ khác giới, phát âm cách viếttiếngViệt có tương đồng Do nghiên cứu toán 3, Các kỹ thuật dựa xác suất định lý Bayes 3.1.3 Các mơ hình xác suất Âm tiếngViệtsang âm tiếngNhật Automat hữu hạn trọng số học tựđộngtừ cặp chuỗi tiếngViệt - Nhật, ví dụ ((rượu nếp) (mochigome)) Chúng tơi tạo cặp cách thao tác giải thuật ngữtiếngViệt – katakana Chúng tơi sau áp dụng thuật tốn Ước lượng tối đa hóa (estimation-maximization (EM)) (Baum 1972; Dempster, Laird, and Rubin 1977) để tạo xác suất kí tự nối Thuật tốn EM chúng tơi diễn giải sau: Với cặp chuỗi tiếngViệt - Nhật, tính tất xếp có thành phần chúng Trong trường hợp chúng tôi, xếp vẽ kết nối âm tiếngViệt với nhiều âm tiếng Nhật, chẳng hạn tất âm tiếngNhật bao phủ khơng có đường qua Ví dụ, có cách để xếp cặp “Tuấn” “twuan”: 12 Trong trường hợp này, xắp xếp bên trái trực giác thích hợp Với cặp, gán trọng số với cách xếp chúng, tổng trọng số = Trong trường hợp trên, cách xếp đưa trọng số 0.5 Mỗi âm âm tiếng Việt, đếm thể kết nối khác chúng, quan sát thấy xếp tất cặp xếp đóng góp số lượng tương xứng với trọng số Với âm tiếng Việt, chuẩn hóa trọng số chuỗi tiếngNhật kết nối tới, tổng điểm = Tính lại điểm số liên kết liên kết tính với kết điểm số kết nối kí tự mà chứa Chuẩn hóa điểm liên kết điểm cho cặp xếp nên có tổng =1 Lặp lại bước 3-6 đến xác suất kí tự liên kết hội tụ Chúng tơi sau xây dựng trực tiếp mơ hình automat hữu hạn có trọng số từ xác suất kí tự liên kết: v A AO j a aa ao oo a P(j|v) 0.566 0.328 0.018 0.671 0.257 0.047 v j P(j|v) v j P(j|v) v B b bu 0.802 0.185 C k ku 0.671 0.257 D 0.598 0.304 CH ch d chi 0.277 0.189 0.169 H G g gu j d j z P(j|v) 0.535 0.329 0.032 h w 0.959 0.014 k 0.528 r 0.621 m 0.652 I K ku 0.238 L M ru 0.362 mu 0.207 ki 0.015 ng 0.743 t 0.462 th 0.418 N n 0.978 NG ngu 0.220 T to 0.305 TH t 0.303 u 0.023 ch 0.043 ch 0.043 Bảng 3.1: Ánh xạ số âm tiếngViệt (Viết hoa) với âm tiếngNhật (viết thường) sử dụng thật toán EM i e 0.908 0.071 13 Các âm tiếngViệt (trong chữ viết hoa) với xác suất liên kết với chuỗi âm tiếngNhật (chữ viết thường), học ước lượng tối đa hóa (EM) Chỉ có liên kết với xác suất điều kiện tốt 1% hiển thị, tổng số khơng = Chúng tơi xây dựng mơ hình cho phép âm tiếngViệt độc lập bị “rút đi” (ví dụ tạo âm tiếng Nhật) nhiên, mơ hình tính tốn tốn (nhiều xếp hơn) dẫn đến số lượng lớn giả thuyết thành phần automat Hơn nữa, việc không cho phép “nuốt”, chúng tơi tựđộng xóa hàng trăm cặp có khả gây hại từ tập huấn luyện chúng tơi Bởi khơng có xếp có thể, cặp bị bỏ qua thuật toán học, trường hợp phải giải việc tra từ điển cách Chú ý rằng, mơ hình dịch âm tiếngViệt mà không liên quan đến ngữ cảnh Chúng xây dựng mơ hình dựa vào ngữ cảnh, s dụng định mã hóa lại automat hữu hạn có trọng số Ví dụ, từ âm “T” tiếngViệt có khả (t o) (t) nhiên, mơ hình dựa ngữ cảnh khơng thuận lợi cho việc chuyểnngữ ngược chúng hữu ích cho việc chuyểnngữtừtiếngViệtsangtiếngNhật Lê Duân Chuỗi âm tiếng Việt: Chuỗi âm tiếng Nhật: Tổ yến Chuỗi âm tiếng Việt: Chuỗi âm tiếng Nhật: Hình 3.1: Gióng hàng từtiếngViệt – Nhật sử dụng thuật toán EM Âm tiếngNhậtsang Katakana Để liên kết chuỗi âm tiếngNhật “m o o t a a” với chuỗi âm katakana “ ”, thường xây dựng hai automat hữu hạn có trọng số Kết hợp nhau, chúng tạo automat tích hợp với 53 trạng thái 303 cung, tạo tóm tắt katakana chứa 81 kí tự, bao gồm dấu chấm phân cách (.) Automat kết hợp đơn giản nguyên âm dài tiếngNhật với kí tự aa, ii, uu, ee oo Automat thứ hai nối âm tiếngNhật với kí tự katakana Ý tưởng giảm bớt toàn phần âm tiết âm trước tạo kí tự katakana Ví dụ: 14 Đoạn cho thấy biến thể theo tả tiếng Nhật: âm nguyên âm dài oo thường viết với dấu nguyên âm dài viết với kí tự katakana lặp 3.2 Mơ hình chuyển n ữ khơn giám sát 3.2.1 Giới thiệu Mơ hình chuyểnngữ khơng giám sát đào tạo riêng rẽ nằm ngồi dòng chảy dịch máy, để thay tênriêngchuyểnngữ tốt bước tiền/hậu x lý giải mã thường s dụng 3.2.2 Khai phá chuyểnngữ Mơ hình khai phá chuyểnngữ tổng hợp hai mơ hình con: chuyểnngữ khơng chuyểnngữ Ý tưởng mơ hình chuyểnngữ định xác suất cao cho cặp chuyểnngữ so với xác suất định mơ hình khơng chuyểnngữ cho cặp giống Xem xét cặp từ (f, e), xác suất mơ hình phiên âm cho cặp từ định ngh a sau: ∑ ∏ Align (f,e) tập hợp tất chuỗi gióng hàng từ, a chuỗi gióng hàng ký tự gióng hàng Mơ hình khơng chuyểnngữ đề cập đến cặp từ khơng có mối quan hệ ký tự Nó mơ cách nhân kí tự nguồn đích mơ hình unigram: ∏ ∏ Mơ hình khai phá chuyểnngữ định ngh a phép nội suy mơ hình chuyểnngữ mơ hình khơng chuyểnngữ con: - λ xác suất không chuyểnngữ Mơ hình khơng chuyểnngữ khơng thay đổi q trình huấn luyện Chúng tơi tính tốn bước tiền x lý Mơ hình chuyểnngữ học cách gióng hàng từ cách s dụng thuật tốn EM 15 3.2.3 Mơ hình chuyểnngữ Bây có cặp từchuyểnngữ để học mơ hình chuyểnngữ Chúng phân đoạn tập ngữ liệu đào tạo thành ký tự tìm hiểu hệ thống dựa cụm từ cặp ký tự Mơ hình chuyểnngữ giả định từ nguồn đích tạo cách đơn điệu Do chúng tơi khơng s dụng mơ hình gióng hàng Chúng tơi s dụng tính dịch cụm từ (trực tiếp, chuyễnngữ truy hồi, tính trọng số), tính mơ hình ngơn ngữ (được xây dựng từ phía ngơn ngữ đích ngữ liệu để học khai phá), điểm phạt từ cụm từ 3.2.4 Tích hợp với dịch máy Chúng th nghiệm ba phương thức để tích hợp chuyển ngữ, mơ tả Phƣơn thức Liên quan đến việc thay tênriêng đầu với số lượng dịch tốt Thành công Phương thức phụ thuộc vào độ xác mơ hình chuyểnngữ Ngồi ra, bỏ qua bối cảnh dẫn tới việc chuyểnngữ khơng xác Ví dụ: từ dịch thành "Bill" sau "Clinton" "Bell" trước "Alexander Graham" Phƣơn thức Phƣơn thức 16 CHƢƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Chuẩn bị liệu đầu vào cho hệ dịch Dữ liệu đầu vào liệu song ngữViệt – Nhật: S dụng khoảng 40.000 cặp câu Việt – Nhật Để chuẩn bị liệu để đào tạo hệ thống chuyển ngữ, phải thực bước sau: Tokenisation: Tách từ cụm từ chuỗi Truecasing: Các từ ban đầu câu chuyển đổi sang phiên chắn chúng Điều giúp giảm thưa thớt liệu Cleaning: Các chuỗi dài chuỗi trống gỡ bỏ chúng gây vấn đề với dòng huấn luyện, r ràng câu sai lệch bị xóa 4.2 Cơn cụ tiền xử lý 4.2.1 Môi trường triển khai phần cứng 4.2.2 Bộ công cụ mã nguồn mở Moses 4.2.3 GIZA ++ 4.2.4 KenLM 4.2.5 Mert 4.2.6 BLEU 4.3 Tiến hành thực n hiệm 4.3.1 Dữ liệu đầu vào Dữ liệu huấn luyện Dữ liệu điều chỉnh tham số Dữ liệu đánh giá TiếngViệt 40000 câu training_seg_40k.clean.vn TiếngNhật 40000 câu training_seg_40k.clean.jp TiếngViệt 950 câu tuning_seg_950.clean.vn TiếngNhật 950 câu tuning_seg_950.clean.jp TiếngViệt 1000 câu testing_seg_1k.clean.vn TiếngNhật 1000 câu testing_seg_1k.clean.jp 4.3.2 Quá trình chuẩn bị liệu huấn luyện Chuẩn bị liệu - Tách từ cho file liệu đầu vào - Cắt câu dài cho tệp liệu huấn luyện - Chuyển chữ thường Huấn luyện mơ hình n ơn n ữ Huẩn luyện mơ hình dịch Huấn luyện tham số 17 4.3.3 Chạy thử 4.4 Đánh iá ph n tích kết theo cỡ liệu huấn luyện 4.4.1 Kết chƣa áp dụn mơ hình chuyển n ữ Ta thay đổi kích cỡ ngữ liệu huấn luyện 10.000, 20.000,…, 40.000 cặp câu, sau thực đánh giá chất lượng dịch dựa vào điểm BLEU Điểm BLEU cao chất lượng dịch tốt Hình 4.1: Kết đánh giá chất lượng dịch chưa tích hợp mơ hình chuyểnngữ Tiến ViệtTiếngNhật alleyne phải nhập_viện sau bị bắt alleyne で 逮捕 さ れ た 後 、 bị tức ngực nhập_viện tức さ れ なけれ ば なら なかっ た ngực た 。 liên_hợp_quốc nói tỷ_lệ t _vong liên_hợp_quốc この 国 で の 民間 人 dân_thường nước tăng vọt の 死亡 率 が vọt 上昇 し た と 言っ た 。 kể từ năm 1979 , có tất_cả bốn năm 年 、 1979 年 以来 、 全て が nóng nhiệt_độ trung_bình úc オーストラリア の 平均 より 暖かく nhiệt_độ た 。 vào tháng_một năm 2011 , mandela phải tháng_một に 病気 に điều_trị 研究所 vào viện điều_trị bệnh nhiễm_trùng は 、 2 0 1 1 年 、 mandela hơ_hấp cấp_tính nhiễm_trùng hơ_hấp cấp_tính た 。 220,000 người sơ_tán khỏi 220,000 camaguey 州 で 、 低 trũng khu_vực trũng thấp tỉnh camaguey , 地域 から 避難 し た 人 の 人 が 170,000 người sơ_tán 170,000 las_tunas 州 から 避難 し た khỏi tỉnh las_tunas 18 。 lối vào moscow dành cho xe siêu_trọng 車 の ため の モスクワ に アクセス bị hạn_chế đến tận 14 chiều する siêu_trọng 14 時間 の 午後 まで に 制限 さ れ た 。 Bảng 4.1: Một số kết dịch từtiếngViệtsangtiếngNhật chưa tích hợp mơ hình chuyểnngữ 4.4.2 Kết sau áp dụn mơ hình chuyển n ữ khơng giám sát Tương tự phần 4.4.1 thay đổi kích cỡ ngữ liệu huấn luyện 10.000, 20.000,…, 40.000 cặp câu, sau thực đánh giá chất lượng dịch dựa vào điểm BLEU Chúng kết hợp mơ hình chuyểnngữ khơng giám sát vào mơ hình dịch để chuyểntênriêng mà mơ hình dịch không dịch Chúng áp dụng phương thức chuyểnngữ cặp ngôn ngữtiếngViệt - Nhật cho thấy cải tiến từ điểm BLEU 12.54 tăng lên 12.73 Hình 4.2: Kết đánh giá chất lượng dịch tích hợp mơ hình chuyểnngữ khơng giám sát Tiến ViệtTiếngNhật đội_tuyển mỹ tuyên_bố chiến_đấu アメリカ チーム の 戦い は 個人 の giải cá_nhân シーズン の 中 で 述べ た 。 19,2 triệu đô_la úc mở rộng cho uỷ_ban thể_thao úc để chạy chương_trình cộng_đồng hoạt_động sau học họ năm 2012/2013 với tài_trợ tương_tự cho 2013/2014 オーストラリア の スポーツ 委員 会 拡大 さ れ た が 、 オーストラリア 19,2 万 ドル の 資金 援助 計画 実行 する ため に 、 彼ら の 活動 学ぶ 時間 後 に 2012/2013 年 19 に の を を の コミュニティ 2013/2014 に 類似 し た 。 tự_do ngôn_luận không_thể lý_do để 言論 の 自由 を 許可 する こと は cho_phép phim , họ nói でき ない 理由 は 、 この 映画 は 、 彼ら は 言っ た 。 tơi giữ quan_điểm mạnh có_thể mà 私 は 最も 強力 な 見解 を 保持 し nói điều trái với lợi_ích いる かも しれ ない と 述べ た が an_ninh đất_nước nước mỹ それ は この 国 の 安全 保障 さ れ bị đánh_bại iraq 水 が アメリカ の 利益 と は 対照 に は イラク で 破っ た 。 て 、 た 的 trận động_đất làm cho tổng_số この 地震 は 、 合計 350 人 が 負傷 người chết lên 30 số người bị_thương し 、 現在 の と は 30 人 が 死亡 し 350 た 。 Bảng 4.2: Một số kết dịch từtiếngViệtsangtiếngNhật tích hợp mơ hình chuyểnngữ khơng giám sát Tênriêng tiến ViệtTênriêngtiếngNhật thủy ngân 水銀 thừa thiên huế 天空の王子 lê hoàng nam ルプリンス nguyễn thị diệp グエンティディープ Bảng 4.3: Một số kết dịch tênriêngtiếngViệtsangtiếngNhật tích hợp mơ hình chuyểnngữ khơng giám sát 20 CHƢƠNG KẾT LUẬN Các công việc đạt luận văn: Tìm hiểu tổng quan hệ dịch máy đặc biệt dịch máy thống kê dựa vào cụm từ phân cấp Tìm hiểu tổng quan mơ hình chuyểnngữ khơng giám sát x lý tênriêng Tìm hiểu cơng cụ mã nguồn mở Moses Th nghiệm mơ hình chuyểnngữ không giám sát cho kết tương đối khả quan 21 TÀI LIỆU THAM KHẢO TiếngViệt [1] Nguyễn Văn Vinh (2005) “Xây dựng chương trình dịch tựđộng Anh-Việt phương pháp dịch thống kê” Luận văn Thạc s , Đại học Công nghệ, ĐHQGHN [2] Nguyễn Thị Việt Thanh, 2000, Ngữ pháp tiếngNhật Nxb Đại học Quốc gia Hà Nội Tiếng Anh [3] Al-Onaizan, Y and Knight, K (2001) Translating named entities using monolingual and bilingual resources Proceedings of the 40th Annual Meeting on Association for Computational Linguistics [4] D Chiang (2005), A Hierarchical Phrase-Based Model for Statistical Machine Translation, In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL'05) [5] Franz Joset Och and Hermann Ney (2002), Discriminative training and maximum entropy models for statistical machine translation, In Processdings of the 40th Anuual Meeting of the ACL, pages 295-302, Philadelphia, PA [6] Koehn, P (2004) Pharaoh: a beam search decoder for phrasebased 2004 [7] Chen, H., Yang, C., and Lin, Y (2003) Learning Formulation and Transformation Rules for Multilingual Named Entities Proceedings of ACL 2003 Workshop on Multilingual and Mixed-language Named Entity Recognition: Combining Statistical and Symbolic Models [8] Koehn, P., et al (2006) Moses: Open Source Toolkit for Statistical Machine Translation [9] Philipp Koehn, Franz Josef Och, Daniel Marcu (2003), “Statistical Phrase-Based Translation”, In proceedings of NAACL [10] Koehn (2010) Statistical Machine Translation [11] Dempster, A., Laird, N., and Rubin, D (1977) Maximum Likelihood from Incomplete Data via the EM Algorithm Journal of the Royal Statistical Society Series B (Methodological), 39(1):1–38 49 50 Bibliography Dijkstra, E (1959) A note on two problems in connexion with graphs Numerische Mathematik [12] http://translate.google.com [13] http://www.statmt.org/moses/ 22 ... dựa ngữ cảnh khơng thuận lợi cho việc chuyển ngữ ngược chúng hữu ích cho việc chuyển ngữ từ tiếng Việt sang tiếng Nhật Lê Duân Chuỗi âm tiếng Việt: Chuỗi âm tiếng Nhật: Tổ yến Chuỗi âm tiếng Việt: ... ngôn ngữ tiếng Việt tiếng Nhật 1.1.1 Đặc điểm ngôn ngữ tiếng Việt Tiếng Việt thuộc ngôn ngữ đơn lập, tức âm tiết phát âm tách rời thể chữ viết Đặc điểm thể r rệt tất mặt ngữ âm, từ vựng, ngữ pháp... hình chuyển ngữ không giám sát Tên riêng tiến Việt Tên riêng tiếng Nhật thủy ngân 水銀 thừa thiên huế 天空の王子 lê hoàng nam ルプリンス nguyễn thị diệp グエンティディープ Bảng 4.3: Một số kết dịch tên riêng tiếng Việt