Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 57 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
57
Dung lượng
567,82 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ HỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN TUẤN ANH CHUYỂN NGỮ TỰ ĐỘNG TỪ TIẾNG VIỆT SANG TIẾNG NHẬT LUẬN VĂN THẠC SỸ Hà Nội - 2017 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN TUẤN ANH CHUYỂN NGỮ TỰ ĐỘNG TỪ TIẾNG VIỆT SANG TIẾNG NHẬT Ngành : Công nghệ thông tin Chuyên ngành : Kỹ thuật phần mềm Mã số : 60480103 LUẬN VĂN THẠC SỸ NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN PHƢƠNG THÁI Hà Nội - 2017 LỜI CAM ĐOAN Tôi xin cam đoan kết nghiên cứu, thực nghiệm đƣợc trình bày luận văn thực dƣới hƣớng dẫn Phó giáo sƣ, Tiến sĩ Nguyễn Phƣơng Thái Tất tham khảo từ nghiên cứu liên quan đƣợc nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Trong luận văn, khơng có việc chép tài liệu, cơng trình nghiên cứu ngƣời khác mà không rõ tài liệu tham khảo TÁC GIẢ LUẬN VĂN Nguyễn Tuấn Anh LỜI CẢM ƠN Trƣớc tiên, xin gửi lời cảm ơn sâu sắc đến thầy giáo, Phó giáo sƣ, Tiến sĩ Nguyễn Phƣơng thái tận tình hƣớng dẫn tơi suốt q trình thực luận văn tốt nghiệp Tôi xin bày tỏ lời cảm ơn chân thành tới trƣờng Đại học Công Nghệ - ĐHQG Hà Nội thầy cô giáo giảng dạy, truyền thụ kiến thức thời gian qua Cuối cùng, tơi xin cảm ơn tất gia đình, bạn bè động viên giúp đỡ thời gian nghiên cứu đề tài Tuy có cố gắng định nhƣng thời gian trình độ có hạn nên luận văn cịn nhiều thiếu sót hạn chế Kính mong nhận đƣợc góp ý thầy cô bạn TÁC GIẢ LUẬN VĂN Nguyễn Tuấn Anh MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN Danh mục hình vẽ Danh mục bảng CHƢƠNG I GIỚI THIỆU 1.1 Đặc điểm ngôn ngữ tiếng Việt tiếng Nhật 1.1.1 Đặc điểm ngôn ngữ tiếng Việt [16] 1.1.2 Đặc điểm ngôn ngữ tiếng Nhật 1.2 Bài toán dịch máy tiếp cận dịch dựa cụm từ phân cấp .3 1.2.1 Khái niệm hệ dịch máy 1.2.2 Mơ hình dịch máy thống kê 1.2.3 Tiếp cận dịch máy dựa cụm từ phân cấp 1.2.4 Mơ hình ngơn ngữ 11 1.2.5 Giới thiệu dịch máy mạng nơ-ron 12 1.3 Vấn đề tên riêng từ mƣợn dịch máy 12 1.3.1 Vấn đề tên riêng 12 1.3.2 Từ mƣợn 13 1.4 Bài toán luận văn giải 14 1.5 Kết cấu luận văn 14 CHƢƠNG DỊCH MÁY THỐNG KÊ DỰA TRÊN CỤM TỪ PHÂN CẤP 15 2.1 Ngữ pháp 15 2.1.1 Văn phạm phi ngữ cảnh đồng 15 2.1.2 Quy tắc trích xuất 16 2.1.3 Các quy tắc khác 17 2.2 Mơ hình 18 2.2.1 Định nghĩa 18 2.2.2 Các đặc trƣng 19 2.2.3 Huấn luyện 19 2.3 Giải mã CHƢƠNG DỊCH TÊN RIÊNG VÀ CHUYỂN NGỮ 3.1 Dịch tên riêng 3.1.1 Giới thiệu 3.1.2 Một số nguyên tắc cần lƣu ý chuyển tên tiếng Việt sang Katakana [17] 3.1.3 Phƣơng pháp Kevin Night (1997) 3.1.4 Các mơ hình xác suất 3.2 Mơ hình chuyển ngữ không giám sát 3.2.1 Giới thiệu 3.2.2 Khai phá chuyển ngữ 3.2.3 Mơ hình chuyển ngữ 3.2.4 Tích hợp với dịch máy 3.2.5 Đánh giá chất lƣợng dịch CHƢƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Chuẩn bị liệu đầu vào cho hệ dịch 4.2 Công cụ tiền xử lý 4.2.1 Môi trƣờng triển khai phần cứng: 4.2.2 Bộ công cụ mã nguồn mở Moses 4.2.3 GIZA ++ 4.2.4 Mert 4.3 Tiến hành thực nghiệm 4.3.1 Dữ liệu đầu vào Dữ liệu đầu vào thu thập từ Ted Wiki: 4.3.2 Quá trình chuẩn bị liệu huấn luyện 4.4 Đánh giá phân tích kết theo cỡ liệu huấn luyện 4.4.1 Kết chƣa áp dụng mơ hình chuyển ngữ 4.4.2 Kết sau áp dụng mơ hình chuyển ngữ khơng giám sát CHƢƠNG KẾT LUẬN TÀI LIỆU THAM KHẢO Danh mục hình vẽ Hình 1.1: Sơ đồ tổng quan hệ dịch máy Hình 1.2: Mơ hình chung hệ dịch máy thống kê Việt – Nhật Hình 1.3: Ví dụ gióng hàng từ Hình 1.4: Trích xuất quy tắc dịch cụm từ truyền thống Hình 1.5: Trích xuất quy tắc dịch cụm từ phân cấp Hình 1.6: Ví dụ chuyển ngữ tên riêng tiếng Nga - Anh Hình 2.1: Ví dụ trích xuất văn phạm phi ngữ cảnh đồng Hình 2.2: Ví dụ trích xuất ngữ pháp: Chuỗi cụm từ ban đầu Hình 2.3: Các quy tắc suy luận cho phân tích cú pháp LM Hình 2.4: Phƣơng pháp tìm kiếm cho phân tích cú pháp LM Hình 3.1: Ví dụ gióng hàng kí tự Hình 3.2: Sơ đồ hệ dịch Hình 4.1: Kết đánh giá chất lƣợng dịch chƣa tích hợp mơ hình chuyển ngữ Hình 4.2: Kết đánh giá chất lƣợng dịch tích hợp mơ hình chuyển ngữ khơng giám sát Danh mục bảng Bảng 1.1: Bảng chữ Katakana cách phát âm tiếng Nhật Bảng 3.1: Nguyên tắc chuyển ngữ nguyên âm tiếng Việt sang tiếng Nhật Bảng 3.2: Ví dụ chuyển ngữ phụ âm tiếng Việt sang tiếng Nhật Bảng 3.3: Ánh xạ số âm tiếng Việt (Viết hoa) với âm tiếng Nhật (viết thƣờng) sử dụng thật toán EM Bảng 4.1: Một số kết dịch từ tiếng Việt sang tiếng Nhật chƣa tích hợp mơ hình chuyển ngữ Bảng 4.2: Một số kết dịch từ tiếng Việt sang tiếng Nhật tích mơ hình chuyển ngữ không giám sát Bảng 4.3: Một số kết chuyển ngữ tiếng Việt sang tiếng Nhật tích hợp mơ hình chuyển ngữ khơng giám sát Bảng 4.4: Một số kết chuyển ngữ sai từ tiếng Việt sang tiếng Nhật tích hợp mơ hình chuyển ngữ khơng giám sát CHƢƠNG I GIỚI THIỆU Hiện có hàng nghìn ngơn ngữ tồn giới, ngơn ngữ có đặc trƣng riêng bảng chữ cách phát âm Ngày có nhiều hệ thống tự động dịch miễn phí mạng nhƣ: systran, google translate, vietgle … Những hệ thống cho phép dịch tự động văn với cặp ngôn ngữ chọn trƣớc (ví dụ dịch từ tiếng Anh sang tiếng Việt) Điều cho thấy phát triển dịch máy ngày vào đời sống ngƣời, đƣợc ứng dụng rộng rãi Vấn đề đặt dịch giả máy dịch việc dịch cặp ngơn ngữ có hệ thống bảng chữ cách phát âm khác dịch xác tên riêng thuật ngữ kỹ thuật (các từ không xác định) Những đối tƣợng đƣợc phiên âm, thay âm xấp xỉ tƣơng đƣơng Việc dịch phiên âm cặp ngôn ngữ đƣợc gọi Chuyển ngữ Việc dịch từ khơng xác địnhlà vấn đề khó ngơn ngữ thƣờng khác bảng chữ cách phát âm Các từ thƣờng đƣợc chuyển ngữ, tức là, thay khoảng ngữ âm gần Ví dụ: "Nguyễn Thu Trang" tiếng Việt xuất dƣới dạng "グググググググググ" (Guen tuu chan) tiếng Nhật 1.1 Đặc điểm ngôn ngữ tiếng Việt tiếng Nhật [16] 1.1.1 Đặc điểm ngôn ngữ tiếng Việt Tiếng Viêṭthuôcc̣ ngôn ngƣƣ̃ đơn lâpc̣, tƣƣ́c làmỗi môṭâm tiết đƣơcc̣ phát âm tách rời vàđƣơcc̣ thểhiêṇ môṭchƣƣ̃viết Đặc điểm thể rõ rệt tất măṭngƣƣ̃âm, tƣƣ̀ vƣngc̣, ngƣƣ̃pháp Đặc điểm ngữ âm Trong tiếng Viêṭcómơṭloaịđơn vị đặc biệt gọi "tiếng" Vềmăṭngƣƣ̃âm , tiếng làmôṭâm tiết cách vi ết tƣơng đồng với phát âm Hê c̣thống âm vi tiếngc̣ Viêṭ phong phúvàcótinhƣ́ cân đối Đặc điểm từ vựng Mỗi tiếng, nói chung, yếu tố có nghĩa Tiếng làđơn vi cợ sởcủa c̣thống đơn vị có nghĩa tiếng Việt Tƣƣ̀ tiếng, ngƣời ta taọ đơn vi tƣc̣ƣ̀ vƣngc̣ khác để đinh danh sƣ c̣vâṭ, hiêṇ tƣơngc̣ , chủ yếu nhờ phƣơng thức ghép phƣơng thức láy Viêcc̣ tạo đơn vị từ vựng phƣơng thức ghép chịu chi phối quy luâṭkết hơpc̣ ngƣƣ̃nghiã, ví dụ: đất nƣớc, máy bay, nhà lầu xe hơi, nhà tan cửa nát Hiêṇ nay, làphƣơng thƣƣ́c chủyếu đểsản sinh đơn v ị từ vựng Theo phƣơng thƣƣ́c này, tiếng Viêṭtriêṭđểsƣƣ̉ dungc̣ yếu tốcấu taọ tƣƣ̀ Viêṭhay vay mƣơṇ tƣƣ̀ ngôn ngữ khác để tạo từ , ngƣƣ̃mới, ví dụ: tiếp thi,c̣karaoke , xa lơ tc̣ hơng tin , siêu liên kết văn bản, truy câpc̣ ngâũ nhiên, … Vốn tƣƣ̀ vƣngc̣ tối thiểu tiếng Viêṭphần lớn làcác tƣƣ̀ đơn tiết (môṭâm tiết , môṭtiếng) Sƣ lc̣ inh hoaṭtrong sƣƣ̉ dungc̣, viêcc̣ taọ tƣƣ̀ ngƣƣ̃mới môṭcách dê ƣ̃dàng tạo điều kiện thuận lợi ch o sƣ c̣phát triển vốn tƣƣ̀ , vƣƣ̀a phong phúvềsốlƣơngc̣ , vƣƣ̀a đa dạng hoạt động Cùng vật, hiêṇ tƣơngc̣, môṭhoaṭđôngc̣ hay môṭđăcc̣ trƣng , có nhiều tƣƣ̀ ngƣƣ̃khác biểu thi.c̣ 1.1.2 Đặc điểm ngôn ngữ tiếng Nhật Hệ thống chữ viết Ngƣời Nhật có bảng chữ đặc biệt ngữ âm đƣợc gọi Katakana, đƣợc sử dụng chủ yếu để viết tên nƣớc từ mƣợn Các ký hiệu katakana đƣợc thể Bảng1.1, với cách phát âm tiếng Nhật chúng Hai ký hiệu đƣợc hiển thị góc dƣới bên phải đƣợc sử dụng để kéo dài nguyên âm phụ âm tiếng Nhật Bảng 1.1: Bảng chữ Katakana cách phát âm tiếng Nhật [3] [17] Ngữ âm Âm tiết tiếng Nhật giữ vị trí quan trọng, vừa đơn vị ngữ âm nhỏ vừa đơn vị phát âm Mỗi âm tiết đƣợc thể chữ Kana (Hiragana Katakana) Tiếng Nhật có số lƣợng âm tiết khơng lớn, có tất 112 dạng âm tiết Trong số này, có 21 dạng âm tiết xuất từ đƣợc vay mƣợn từ nƣớc Nếu nhƣ tiếng Việt, có nhiều từ đƣợc cấu tạo âm tiết, âm tiết mang ý nghĩa định, VD: bàn, trà, bạn, đèn , tiếng Nhật, phần lớn từ đƣợc cấu tạo từ hai âm tiết trở lên âm tiết thƣờng không mang ý nghĩa VD: từ “hay” - “omoshiroi” có âm tiết /o/mo/shi/ro/i, khó tìm thấy ý nghĩa âm tiết Cũng có từ đƣợc cấu tạo âm tiết trƣờng hợp này, âm tiết mang ý nghĩa từ đó, VD: “ki” có nghĩa cây, “e” có nghĩa tranh, “te” có nghĩa tay nhƣng từ nhƣ chiếm số lƣợng nhỏ vốn từ vựng tiếng Nhật [15] Tiếng Nhật có tất nguyên âm: /a, i, u, e, o/ 12 phụ âm: /k, s, t, g, z, d, n, m, h, b, p, r/ số lƣợng so với ngơn ngữ khác Ngồi cịn có hai âm đặc biệt âm mũi (N) âm ngắt (Q) 33 để hạn chế việc sử dụng mơ hình định) Mert đƣợc sử dụng Moses để tối ƣu hóa hiệu 4.2.5 Vitk Công cụ phân tách từ Vitk tách từ văn gồm hai triệu âm tiết tiếng Việt 20 giây cụm ba máy tính (24 lõi, 24 GB RAM), cho độ xác khoảng 97% Bộ cơng cụ hƣớng đến khả xử lý liệu văn lớn Vì lý này, sử dụng Apache Spark làm tảng cốt lõi Apache Spark công cụ nhanh phổ biến cho xử lý liệu quy mơ lớn Có thể tải từ: https://github.com/phuonglh/vn.vitk 4.2.6 Mecab Tƣơng tự Vitk, Mecab công cụ phân tách từ cho tiếng Nhật, độ xác lên đến 99% Có thể tải từ:https://pypi.python.org/pypi/mecab-python3 4.3 Tiến hành thực nghiệm 4.3.1 Dữ liệu đầu vào Dữ liệu đầu vào thu thập từ Ted Wiki: 4.3.2 Quá trình chuẩn bị liệu huấn luyện Chuẩn bị liệu Tách từ cho file liệu đầu vào Cắt câu dài cho tệp liệu huấn luyện Chuyển chữ thƣờng Huấn luyện mơ hình ngơn ngữ Mơ hình ngơn ngữ đƣợc sử dụng để đảm bảo đầu trơi chảy Vì đƣợc xây dựng ngôn ngữ mục tiêu (tức tiếng Nhật trƣờng hợp này) Tài liệu KenLM cung cấp đầy đủ lời giải thích tùy chọn dịng lệnh, phạm vi luận văn xây dựng mơ hình ngơn ngữ 3-gram thích hợp Sau đó, nhị phân tập tin * arpa.en sử dụng KenLM để tải nhanh Huẩn luyện mơ hình dịch Cuối tới cơng việc – huấn luyện mơ hình dịch Để thực việc này, chúng tơi chạy gióng hàng từ (sử dụng GIZA ++) trích xuất cụm từ, tạo bảng xếp lại tạo tệp cấu hình Moses 34 Huấn luyện tham số mơ hình Đây phần chậm tiến trình Huấn luyện tham số địi hỏi số lƣợng nhỏ liệu song song, tách biệt với liệu huấn luyện, chúng tơi sử dụng lƣợng liệu song song gồm 950 cặp câu song ngữ Việt – Nhật 4.3.4 Chuyển ngữ từ không xác định Kết trình dịch máy theo phƣơng pháp thống kê tiếng Việt sang tiếng Nhật xuất dịch chứa từ không xác định có tên riêngmà mơ hình dịch khơng dịch đƣợc Các từ đƣợc chuyển ngữ Phƣơng thức mơ hình chuyển ngữ khơng giám sát Phƣơng pháp: Dùng mơ hình dịch máy thống kê dựa cụm từ để học mơ hình chuyển ngữ Dữ liệu huấn luyện cặp từ ngữ liệu huấn luyện, tách thành ký tự học hệ thống dịch cụm từ cặp ký tự Mơ hình chuyển ngữ giả sử thứ tự ký tự từ nguồn từ đích khơng thay đổi nên chúng tơi khơng sử dụng mơ hình xếp trật tự từ (reordering model) Vì vậy, sử dụng đặc trƣng là: đặc trƣng dịch dựa cụm từ (phrase-translation), mơ hình ngôn ngữ, điểm phạt từ cụm (word and phrase penalties) Trọng số đặc trƣng đƣợc đƣợc học từ 1000 cặp từ chuyển ngữ Dữ liệu huấn luyện mơ hình chuyển ngữ: Gồm 12.260 cặp từ đƣợc trích trọn từ liệu 40.000 cặp câu song ngữ Mô hình ngơn ngữ: 3-gram, huấn luyện từ 12.260 từ tiếng Nhật Để kiểm tra độ tốt mơ hình chuyển ngữ sau huấn luyện xong thực chuyển ngữ cho từ không xác định file kết dịch mơ hình dịch máy Số lƣợng từ khơng xác định mơ hình dịch máy dựa cụm từ phân cấp chiều Việt - Nhật (khơng dịch đƣợc) nhƣ sau: Tổng có: 2006 từ không xác định Số từ mang nghĩa: 1209 từ (60.3% tổng số từ không xác định) Số từ khơng có nghĩa (tên riêng): 797 từ (39.7% tổng số từ khơng xác định) 4.4 Đánh giá phân tích kết theo cỡ liệu huấn luyện 4.4.1 Kết chƣa áp dụng mơ hình chuyển ngữ Ta thay đổi kích cỡ ngữ liệu huấn luyện lần lƣợt 10.000, 20.000,…, 40.000 cặp câu, sau thực đánh giá chất lƣợng dịch dựa vào điểm BLEU Điểm BLEU cao chất lƣợng dịch tốt 35 Hình 4.1: Kết đánh giá chất lượng dịch chưa tích hợp mơ hình chuyển ngữ Tiếng Việt alleyne nhập_viện sau bị bắt bị tức ngực liên_hợp_quốc nói tỷ_lệ tử_vong dân_thƣờng nƣớc tăng vọt vào năm mandela phải viện điều_trị bệnh nhiễm_trùng hơ_hấp cấp_tính 220,000 đƣợc sơ_tán khỏi khu_vực trũng thấp camaguey , 170,000 ngƣời đƣợc sơ_tán khỏi las_tunas với vấn_đề ánh_sáng , hộ 36 gia_đình cũng bị nƣớc trạm bơm mosvodokanal cũng điện vị sự_cố cảnh_sát nói patkar chƣa bị bắt , nhƣng thơng_tin đầu_tiên đƣợc trình lên để chống lại cố_ý tự_tử Bảng 4.1: Một số kết dịch từ tiếng Việt sang tiếng Nhật chưa tích hợp mơ hình chuyển ngữ 4.4.2 Kết sau áp dụng mơ hình chuyển ngữ khơng giám sát Tƣơng tự phần 4.4.1 thay đổi kích cỡ ngữ liệu huấn luyện lần lƣợt 10.000, 20.000,…, 40.000 cặp câu, sau thực đánh giá chất lƣợng dịch dựa vào điểm BLEU Chúng kết hợp mơ hình chuyển ngữ khơng giám sát vào mơ hình dịch để chuyển từ không xác định mà mô hình dịch khơng dịch đƣợc Chúng tơi áp dụng phƣơng thức chuyển ngữ cặp ngôn ngữ tiếng Việt - Nhật cho thấy cải tiến từ điểm BLEU 12.54 tăng lên 12.73 Hình 4.2: Kết đánh giá chất lượng dịch tích hợp mơ hình chuyển ngữ không giám sát Tiếng Tiế 37 Việt đội_t uyển mỹ tuyên _bố thi_đấ u giải cá_nh ân ググググググググググググググググググググググググ 19,2 ググググググググググググググググググググググググ triệu đô_la úc 19,2 ググググググググググググググググググググググググ đƣợc mở rộng cho uỷ_ba n thể_th ao úc để chạy chƣơn g_trìn h cộng_ đồng hoạt_ động sau học 2012/2013 ググググググググ 2013/2014 グ 38 họ năm 2012/ 2013 với tài_tr ợ tƣơng _tự cho 2013/ 2014 sáng thứ năm xe_bu ýt điện xe_đi ện khu_v ực phía nam mosc ow chƣa hoạt_ động ググググググググググググググググググググググググ ググググググググググググググググググググググググ giữ ググググググググググググググググググググググググ quan_ điểm mạnh có_th ể mà ググググ 39 nói điều trái với lợi_íc h an_ni nh đất_n ƣớc nƣớc mỹ bị đánh_ bại iraq trận động_ đất làm cho tổng_ số ngƣời chết lên 30 ngƣời bị_th ƣơng 350 ググググググググ 350 グググググググググググ 30 số 40 Bảng 4.2: Một số kết dịch từ tiếng Việt sang tiếng Nhật tích hợp mơ hình chuyển ngữ khơng giám sát Đánh giá kết cũng cho thấy phận phiên âm cho chất lƣợng dịch tổng thể tốt so với chuyển ngữ Kevin Night Các dịch tên riêng xác phù hợp với nguyên tắc chuyển ngữ tên riêng Việt – Nhật đƣợc mô tả phần 3.1.1 3.1.2 Mơ hình chuyển ngữ khơng giám sát tích hợp với dịch máy thống kê dựa vào cụm từ đƣợc cung cấp cho cộng đồng nghiên cứu thông qua công cụ Moses Kết Áp dụng mơ hình chuyển ngữ: Tất từ: 231 / 2006 từ (12%) Từ mang nghĩa: 49 / 1209 từ (4.1%) Từ khơng có nghĩa (tên riêng): 182 / 797 từ (22.8 %) Mơ hình chuyển ngữ mục đích để dịch cho từ khơng có từ đối nghĩa ngơn ngữ đích, q trình chuyển ngữ dựa việc phiên âm từ ngơn ngữ nguồn sang ngơn ngữ đích nên dịch tốt cho từ khơng xác định có tên riêng, khơng tốt cho từ đối dịch Ví dụ chuyển ngữ đúng: Từ mang nghĩa Từ khơng có nghĩa (tên riêng) Bảng 4.3: Một số kết chuyển ngữđúng tiếng Việt sang tiếng Nhật tích hợp mơ hình chuyển ngữ khơng giám sát Ví dụ chuyển ngữ sai: Từ mang nghĩa 41 Từ khơng có nghĩa (tên riêng) Bảng 4.4: Một số kết chuyển ngữsai từ tiếng Việt sang tiếng Nhật tích hợp mơ hình chuyển ngữ không giám sát 42 CHƢƠNG KẾT LUẬN Luận văn hệ thống tự động chuyển ngữ khơng giám sát đƣợc xây dựng từ hệ thống dịch máy thống kê dựa cụm từ phân cấp có hiệu suất tƣơng đƣơng với hệ thống đại đƣợc thiết kế đặc biệt để dịch máy Vì việc xây dựng hệ thống khơng địi hỏi có thơng tin ngơn ngữ bổ sung nhƣ phát âm ràng buộc ngôn ngữ, nên hệ thống cho cặp ngôn ngữ đƣợc phát triển nhanh chóng rẻ tiền với đủ số lƣợng liệu Một cải tiến đáng kể điểm BLEU độ xác dịch đƣợc thực cách sử dụng mô hình chuyển ngữ khơng giám sát cặp từ không xác định tiếng Việt - Nhật đƣợc xây dựng liệu có thƣớc lớn (40.000 cặp) so với sử dụng thí nghiệm (10.000, 20.000, 30.000 cặp) Các công việc đạt đƣợc luận văn: • Tìm hiểu tổng quan hệ dịch máy đặc biệt dịch máy thống kê dựa vào cụm từ phân cấp • Tìm hiểu tổng quan mơ hình chuyển ngữ tên Kevin Night • Tìm hiểu phƣơng pháp tích hợp mơ hình chuyển ngữ khơng giám sát xử lý từ khơng xác định • Thực nghiệm mơ hình dịch máy thống kê dựa cụm từ phân cấp, mơ hình chuyển ngữ khơng giám sát đánh giá kết quảg giám sát cho kết tƣơng đối khả quan Với kết đạt đƣợc luận văn này, tƣơng lai hi vọng cải thiện đƣợc chất lƣợng dịch thời gian dịch máy ngôn ngữ Việt – Nhật từ không xác định cách cập nhật ngữ liệu đầu vào đủ lớn, giảm kích thƣớc bảng cụm từ, thay đổi vài tham số để trình huấn luyện mơ hình đƣợc tốt hơn, cải tiến số mơ hình đảo cụm… 43 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đào Ngọc Tú (2012), “Nghiên cứu vào dịch thống kê dựa vào cụm từ thử nghiệm với cặp ngôn ngữ Anh – Việt” Luận văn Thạc sỹ, Học viện Cơng nghệ Bƣu Viễn thơng [2] Nguyễn Văn Vinh (2005), “Xây dựng chƣơng trình dịch tự động Anh-Việt phƣơng pháp dịch thống kê” Luận văn Thạc sĩ, Đại học Công nghệ, Đại học Quốc gia Hà Nội [3] Hồ Hồng Hoa, Ngơ Phƣơng Lan, Trung tâm Nghiên cứu Tiếng Nhật Tiếng Anh [4] Dzmitry Bahdanau, KyungHyun Cho, Yoshua Bengio (2015) Neural Machine Translation by jointly learning to align and translate [5] Knight, K and Graehl, J (1997) Machine Transliteration Computational Linguistics, 24(4):599–612 [6] D Chiang (2005), A Hierarchical Phrase-Based Model for Statistical Machine Translation, In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL'05) [7] Franz Joset Och and Hermann Ney (2002), Discriminative training and maximum entropy models for statistical machine translation, In Processdings of the 40th Anuual Meeting of the ACL, pages 295-302, Philadelphia, PA [8] Koehn, P (2004) Pharaoh: a beam search decoder for phrasebased 2004 [9] Chen, H., Yang, C., and Lin, Y (2003) Learning Formulation and Transformation Rules for Multilingual Named Entities Proceedings of ACL 2003 Workshop on Multilingual and Mixed-language Named Entity Recognition: Combining Statistical and Symbolic Models [10] Koehn, P., et al (2006) Moses: Open Source Toolkit for Statistical Machine Translation [11] Philipp Koehn, Franz Josef Och, Daniel Marcu (2003), Statistical Phrase-Based Translation, In proceedings of NAACL [12] Koehn (2010) Statistical Machine Translation [13] Dempster, A., Laird, N., and Rubin, D (1977) Maximum Likelihood from Incomplete Data via the EM Algorithm Journal of the Royal Statistical Society Series B (Methodological), 39(1):1–38 49 50 Bibliography Dijkstra, E (1959) A note on two problems in connexion with graphs Numerische Mathematik [14]Al-Onaizan, Y and Knight, K (2001) Translating named entities using monolingual and bilingual resources Proceedings of the 40th Annual Meeting on Association for Computational Linguistics 44 [15] Nadir Durrani, Hassan Sajjad, Hieu Hoang, Philipp Koehn (2015) Integrating an Unsupervised Transliteration Model into Statistical Machine Translation Trang web [16] http://www.maxreading.com/sach-hay/dai-cuong-ve-tieng-viet/ [17]http://www.inas.gov.vn/403-mot-so-dac-diem-cua-tieng-nhat.html [18] http://translate.google.com [19] http://www.statmt.org/moses/ [20] https://github.com/phuonglh/vn.vitk [21] https://pypi.python.org/pypi/mecab-python3 ... hình chuyển ngữ khơng giám sát Bảng 4.3: Một số kết chuyển ngữ tiếng Việt sang tiếng Nhật tích hợp mơ hình chuyển ngữ không giám sát Bảng 4.4: Một số kết chuyển ngữ sai từ tiếng Việt sang tiếng Nhật. .. cách phát âm tiếng Nhật Bảng 3.1: Nguyên tắc chuyển ngữ nguyên âm tiếng Việt sang tiếng Nhật Bảng 3.2: Ví dụ chuyển ngữ phụ âm tiếng Việt sang tiếng Nhật Bảng 3.3: Ánh xạ số âm tiếng Việt (Viết... âm tiếng Nhật (viết thƣờng) sử dụng thật toán EM Bảng 4.1: Một số kết dịch từ tiếng Việt sang tiếng Nhật chƣa tích hợp mơ hình chuyển ngữ Bảng 4.2: Một số kết dịch từ tiếng Việt sang tiếng Nhật