ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN THỊ THU HUYỀN CHUYỂN NGỮ TỰ ĐỘNG TỪ TIẾNG NHẬT SANG TIẾNG VIỆT LUẬN VĂN THẠC SĨ Hà Nội – 2017 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN THỊ THU HUYỀN CHUYỂN NGỮ TỰ ĐỘNG TỪ TIẾNG NHẬT SANG TIẾNG VIỆT Ngành: Công nghệ Thông tin Chuyên ngành: Kỹ thuật Phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Phƣơng Thái Hà Nội - 2017 LỜI CAM ĐOAN Tôi xin cam đoan luận văn kết nghiên cứu tôi, đƣợc thực dƣới hƣớng dẫn PGS.TS Nguyễn Phƣơng Thái Các nội dung đƣợc trích dẫn từ nghiên cứu tác giả khác mà tơi trình bày luận văn đƣợc ghi rõ nguồn phần tài liệu tham khảo Người thực Trần Thị Thu Huyền LỜI CẢM ƠN Trƣớc hết, xin chân thành cảm ơn PGS.TS Nguyễn Phƣơng Thái, Thầy trực tiếp hƣớng dẫn, nhiệt tình hỗ trợ tạo điều kiện tốt cho thực luận văn Tôi xin gửi lời cảm ơn đến tất Thầy/Cô Khoa Công nghệ Thông tin, trƣờng Đại học Công nghệ, Đại học Quốc gia Hà Nội giảng dạy giúp đỡ tơi q trình học tập nghiên cứu trƣờng Cuối cùng, xin gửi lời cảm ơn tới ngƣời thân gia đình, bạn bè bên cạnh động viên, ủng hộ thời gian học Phần thực nghiệm luận văn sử dụng kho ngữ liệu song ngữ đề tài “Xây dựng hệ thống dịch tự động hỗ trợ việc dịch tài liệu tiếng Việt tiếng Nhật nhằm giúp nhà quản lý doanh nghiệp Hà Nội tiếp cận làm việc hiệu với thị trƣờng Nhật Bản” Do kinh nghiệm kiến thức cịn hạn chế, tơi mong Thầy/Cơ anh chị, bạn bè đóng góp thêm ý kiến q báu để tơi hồn thiện thêm luận văn Người thực Trần Thị Thu Huyền MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN BẢNG KÝ HIỆU CÁC CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ DANH MỤC BẢNG MỞ ĐẦU CHƢƠNG GIỚI THIỆU CHUNG 1.1.Đặc trƣng ngôn ngữ tiếng Việt, tiếng Nhật 1.1.1.Tiếng Việt 1.1.2.Tiếng Nhật 1.2.Bài toán dịch máy dịch thống kê dựa vào cụm từ 1.2.1.Bài toán dịch máy 1.2.2.Dịch máy thống kê 1.2.3.Thảo luận 1.3.Vấn đề tên riêng, từ mƣợn dịch máy 1.4.Bài toán dịch tên riêng, chuyển ngữ 1.4.1.Khái niệm chuyển ngữ 1.4.2.Phân biệt Chuyển ngữ (Transliteration) Biên dịch (Translation) 1.4.3.Ứng dụng Chuyển ngữ 1.4.4.Một số khó khăn toán Chuyển ngữ 1.4.5.Thuộc tính kỳ vọng q trình Chuyển ngữ CHƢƠNG DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ VÀ CHUYỂN NGỮ TỪ TIẾNG NHẬT SANG TIẾNG VIỆT 2.1 Dịch máy thống kê dựa vào cụm từ 2.1.1 Giới thiệu 2.1.2 Mục đích mơ hình dịch dựa cụm từ 2.1.3 Định nghĩa toán 2.1.4 Mơ hình dịch 2.1.5 Mơ hình ngơn ngữ 2.1.6 Giải mã 2.1.7 Tối ƣu hóa Đánh giá 2.2 Chuyển ngữ từ tiếng Nhật sang tiếng Việt CHƢƠNG THỬ NGHIỆM 3.1 Môi trƣờng triển khai 3.2 Dữ liệu 3.3 Công cụ cho hệ dịch máy 3.3.1 Moses 3.3.2 GIZA 3.3.3 KenLM 3.3.4 MERT (Minimum Error Rate Training) 3.4.Thiết lập mặc 3.5.Kết thực 3.5.1 Dữ liệu đầu vào 3.5.2 Quá trình xử lý liệu huấn luyện KẾT LUẬN TÀI LIỆU THAM KHẢO BẢNG KÝ HIỆU CÁC CHỮ VIẾT TẮT BLEU EM MLE MT NMT OCR RBMT SMT DANH MỤC CÁC HÌNH VẼ Hình 1.1 Bảng chữ Katakana Hình 1.2 Tam giác thể q trình dịch máy Hình 1.3 Mơ hình hóa tốn MT dựa phương pháp thống kê Hình 1.4 Các thành phần hệ dịch máy SMT Hình 1.5 Chuyển ngữ từ tiếng Nhật sang tiếng Việt tên riêng“Huyền” Hình 2.1 Ví dụ việc phân cụm từ cặp câu ngơn ngữ Nhật – Việt Hình 2.2 Sơ đồ dịch hệ thống MT sau tích hợp chuyển ngữ DANH MỤC BẢNG Bảng 1.1 Bảng âm vị nguyên âm Bảng 1.2 Bảng âm vị phụ âm Bảng 3.1 Kết chất lượng dịch tăng dần kích thước liệu huấn luyện Bảng 3.2 Một số ví dụ hệ thống dịch máy chưa tích hợp chuyển ngữ Bảng 3.3 Thống kê số lượng từ không xác địnhcủa hệ dịch máy dựa cụm từ Bảng 3.4 Thống kê kết chuyển ngữ cho từ không xác định từ hệ dịch máy MỞ ĐẦU Hiện có hàng nghìn ngơn ngữ tồn giới, ngơn ngữ có đặc trƣng riêng bảng chữ cách phát âm Một vấn đề đặt cho việc dịch cặp ngơn ngữ dịch xác tên riêng thuật ngữ kỹ thuật Đối với ngôn ngữ có hệ thống bảng chữ âm tƣơng tự (nhƣ tiếng Tây Ban Nha tiếng Anh) khơng phải vấn đề lớn nhƣng với ngơn ngữ có hệ thống chữ viết khác thách thức thơng dịch viên máy dịch Trƣớc có nhiều nghiên cứu việc Chuyển ngữ cặp ngôn ngữ khác nhƣ tiếng Anh – tiếng Nhật/Trung/Hàn/Nga/Ả rập, Urdu - Ấn Độ - tiếng Anh,… sử dụng mơ hình, phƣơng thức, cách tiếp cận khác Tuy nhiên, thời điểm chƣa có nghiên cứu Chuyển ngữ ngôn ngữ tiếng Nhật – tiếng Việt Từ đƣa cho tốn việc chuyển ngữ cặp ngơn ngữ Nhật – Việt đƣợc xây dựng phát triển dựa nghiên cứu trƣớc Vì vậy, tơi lựa chọn thực đề tài “Chuyển ngữ tự động từ tiếng Nhật sang tiếng Việt” Mục tiêu nghiên cứu chuyển phiên âm từ tiếng Nhật sang tiếng Việt để dịch từ tiếng Nhật có phiên âm tiếng Nhật tƣơng ứng với phiên âm tiếng Việt từ tiếng Việt việc dịch không dựa vào nghĩa từ mà dựa vào phiên âm từ Nghiên cứu tập trung việc chuyển ngữ tên riêng từ không xác định (unknown)giữa cặp ngôn ngữ 30 Ý tƣởng: Theo Koehn [8], ta sử dụng mơ hình chuyển ngữ khơng giám sát dựa thuật toán EM để tạo ngữ liệu chuyển ngữ từ liệu song ngữ xếp từ Từ sử dụng để huấn luyện mơ hình chuyển ngữ Koehn đƣa ba phƣơng pháp để tích hợp việc chuyển ngữ giải mã ta thực với hệ thống Moses Trong luận văn, áp dụng phƣơng pháp Thay từ OOV từ đƣợc chuyển ngữ có xác suất cao (1-best transliteration) giai đoạn hậu giải mã để tích hợp mơ hình chuyển ngữ khơng giám sát vào hệ thống SMT Nhƣ tơi nói từ trƣớc, khó khăn cho việc xây dựng hệ thống chuyển ngữ thiếu liệu từ cặp liệu huấn luyện cho chuyển ngữ Tuy nhiên, liệu song ngữ có số lƣợng phù hợp cặp từ đƣợc chuyển ngữ Việc khai thác mơ hìnhchuyển ngữ đƣợc sử dụng để trích xuất cặp từ nhƣ từ hệ thống song ngữ Phƣơng pháp chuyển ngữ không giám sát giúp khai thác cặp ngơn ngữ mà liệu huấn luyện có sẵn Các bƣớc thực chuyển ngữ: Khai phá chuyển ngữ Huấn luyện mơ hình chuyển ngữ Tích hợp mơ hình chuyển ngữ vào hệ thống dịch Sau đây, mô tả cụ thể việc triển khai bƣớc nhƣ sau Thứ nhất, Khai phá chuyển ngữ: Việc khai phá chuyển ngữ tìm cặp từ chuyển ngữ tính xác suất cho cặp từ Mơ hình khai phá gồm hai mơ hình mơ hình chuyển ngữ (transliteration model) mơ hình khơng chuyển ngữ (non-transliteration model) Trong đó, mơ hình chuyển ngữ đƣa cặp từ đƣợc chuyển ngữ có xác suất cao với mơ hình khơng chuyển ngữ Mơ hình khơng chuyển ngữ đƣa cặp từ khơng có quan hệ liên kết kí tự chúng Ta kí hiệu cặp từ hai ngôn ngữ (e, f) Mơ hình chuyển ngữ - Xác suất cặp từ là: ptm (e, f) = aA ( e , f ) j 1 với A(e, f) tập hợp tất chuỗi có từ ánh xạ kí tự; a chuỗi ánh xạ bất kỳ; qj kí tự chuỗi ánh xạ Mơ hình khơng chuyển ngữ - Xác suất cặp từ là: pntm(e, f) = p E (ei ) pF ( fi ) 31 - Mơ hình khơng thay đởi q trình huấn luyện liệu Mơ hình khai phá chuyển ngữ (transliteration mining model) Do ko biết trƣớc cặp từ chuyển ngữ liệu cặp từ nên ta tính điểm cặp từ theo cơng thức nội suy tuyến tính nhƣ sau: p (e, f ) (1 ) ptm (e, f ) pntm (e, f ) Với λ hệ số, có giá trị khoảng (0, 1) Có thể hiểu xác suất đƣợc tính cơng thức (2.12) giúp dung hịa xác suất đƣợc tính hai công thức (2.10) (2.11) cuối cùng, xác suất đƣợc đƣa từ công thức xác suất cho cặp từ Thứ hai, Huấn luyện mơ hình chuyển ngữ không giám sát Phƣơng pháp: Sử dụng mô hình SMT dựa cụm từ để học mơ hình chuyển ngữ Dữ liệu huấn luyện cặp từ, tách thành ký tự học hệ thống dịch cụm từ cặp ký tự Tôi chia ngữ liệu huấn luyện thành kí tự, thực phân cụm từ cho cặp kí tự Mơ hình chuyển ngữ giả sử thứ tự ký tự từ nguồn từ đích khơng thay đởi nên tơi khơng sử dụng mơ hình xếp trật tự từ Tôi sử dụng đặc trƣng là: cácđặc trƣng dịch dựa cụm từ (dịch trực tiếp, dịch đảo cụm từ đánh trọng số từ vựng), mơ hình ngơn ngữ (đƣợc xây dựng từ phía đích ngữ liệu chuyển ngữ đƣợc khai phá), điểm phạt từ cụm từ Các trọng số đƣợc điều chỉnh gồm 1000 cặp từ đƣợc chuyển ngữ Thứ ba, Tích hợp chuyển ngữ vào MT Thay từ OOV đầu từ đƣợc chuyển ngữ tốt Kết quảchỉ phụ thuộc vào độ xác mơ hình chuyển ngữ trình bày Ngoài ra, phƣơng pháp bỏ qua ngữ cảnh dẫn tới chuyển ngữ khơng xác Khi đó, sơ đồ dịch hệ thống MT là: 32 Câu nguồn j Tiền xử lý Giải mã Chuyển ngữ Câu đích v Hình 2.2 Sơ đồ dịch hệ thống MT sau tích hợp chuyển ngữ 33 CHƢƠNG THỬ NGHIỆM 3.1 Môi trƣờng triển khai - Phần cứng: Bộ xử lý Core i5 -3437U CPU 2.40GHz, RAM 4GB - Phần mềm: Hệ điều hành Ubuntu 16.04 64 bit 3.2 Dữ liệu Dữ liệu đầu vào liệu song ngữ Nhật – Việt, gồm gần 40000 cặp câu Nhật – Việt đƣợc thu thập từ nguồn Wiki, TED Tiền xử lý văn dùng công cụ tách từ để gộp từ vào thành cụm từ o Công cụ tách từ tiếng Nhật: Mecab https://pypi.python.org/pypi/mecab-python3 o Công cụ tách từ tiếng Việt: Vitk https://github.com/phuonglh/vn.vitk 3.3 Công cụ cho hệ dịch máy 3.3.1 Moses Theo Koehn [5], Moses cơng cụ MT mã nguồn mở.Nó thực giải mã dựa cụm từ bao gồm việc huấn luyện liệu đƣợc xây dựng trƣờng Đại học Edinburgh; sau đó, đƣợc phát triển hội thảo trƣờng Đại học Johns Hopkins Moses đƣợc sử dụng rộng rãi cộng đồng nghiên cứu phát triển Moses bao gồm đầy đủ thành phần để tiền xử lý liệu, huấn luyện mơ hình ngơn ngữ mơ hình dịch Nó bao gồm cơng cụ đánh giá cho mơ hình sử dụng huấn luyện với tối ƣu lỗi đánh giá kết dịch sửdụng điểm BLEU 3.3.2 GIZA GIZA++ chƣơng trình dùng để gióng hàng từ trình tự từ ngữ liệu song ngữ nhằm mục đích liên kết mơ hình phụ thuộc vào lớp từ Nó phƣơng pháp gióng hàng từ khơng giám sát tốt GIZA++ việc thực mơ hình dựa từ IBM, đƣợc phát triển hội thảo trƣờng Đại học Johns Hopkins sau đƣợc cải tiến Franz Och (2003) 3.3.3 KenLM Đánh giá mô hình ngơn ngữ với cải tiến Kneser-Ney Việc xây dựng dựa ổ đĩa: ta xác định số lƣợng RAM cần dùng thực xếp dựa ổ đĩa cần thiết 34 3.3.4 MERT (Minimum Error Rate Training) MERT việc điều chỉnh tham số với thƣớc đo lỗi cụ thể việc khai thác liệu Ta muốn điều chỉnh tham số để ta đạt đƣợc điểm BLEU tối ƣu điều chỉnh (turing set) MERT đƣợc dùng Moses để tối ƣu hóa hiệu hệ thống dịch 3.4 Thiết lập mặc định Các thông số liệu đƣợc thiết lập mặc định trình huấn luyện nhƣ sau: Độ dài cụm từ lớn nhất: Dữ liệu mơ hình ngơn ngữ: tất N-gram cho mơ hình ngơn ngữ: Các tham số mơ hình Distortion: 0.0775344 Language Model: 0.0775344 Translation Model: 0.110447, 0.053495, 0.0266803, 0.0686311 WordPenalty: -0.279847 PhrasePenalty: -0.306445 UnknownWordPenalty: 3.5 Kết thực nghiệm 3.5.1 Dữ liệu đầu vào Dữ liệu huấn luyện Dữ liệu điều chỉnh tham số Dữ liệu đánh giá Độ dài trung bình câu tiếng Nhật:39.3 từ Độ dài trung bình câu tiếng Việt:25.8 từ 3.5.2 Quá trình xử lý liệu huấn luyện 3.5.2.1 Xử lý liệu cho hệ thống MT Từ tệp tin liệu đầu vào, tiến hành tách từ việc sử dụng cơng cụ tách từ nói 35 3.5.2.2 Huấn luyện mơ hình ngơn ngữ Nhƣ trình bày nội dung trên, tơi sử dụng mơ hình ngơn ngữ trigram (3-gram)đƣợc huấn luyện từ 12481 từ tiếng Việt Tài liệu KenLM đƣa giải thích tùy chọn dịng lệnh Sau nhị phân tập tin * arpa.en sử dụng KenLM để tải nhanh 3.5.2.3 Huấn luyện mơ hình dịch Tơi thực huấn luyện thơng qua kích thƣớc tập liệu huấn luyện thay đổi tăng dần (với số lƣợng cặp câu Nhật – Việt tƣơng ứng lần lƣợt là: 5000, 10000, 15000, 20000, 30000 40000) Bảng 3.1 Kết chất lượng dịch tăng dần kích thước liệu huấn luyện Kích thƣớc liệu (số lƣợng cặp câu) 5000 10000 15000 20000 30000 40000 Nhìn vào bảng 3.1 trên, ta dễ dàng nhận thấy với kích thƣớc liệu lớn điểm BLEU caotƣơng ứng chất lƣợng dịch tốt Một số ví dụ dịch chƣa tích hợp chuyển ngữ: Bảng 3.2 Một số ví dụ hệ thống dịch máy chưa tích hợp chuyển ngữ STT Câu tiếng Nhật 食食食食食食食食食食食食食食食食 食食食食食食食食食食食食食食食食 食食食食食食食食食食食食食食食 食食食食食食食食食食食食食食食食 食食食食食食食食食食食食食食食食 食食食食食食食 食食食食食食食食食食食食食食 Google 食食食食食食食食食食食食食食食食 食食食食食食食食食食食食食食 食食食食食食食食食食食食食食食 20 食食食食食食食食食食 36 食食食食食食食食食食食食食食食食 食食食食食食食食食 vợ 食食食食食食食食食 Nhìn vào số câu đƣợc dịch từ hệ dịch máy nhƣ ví dụ ta thấy kết dịch hệ thống tồn số câu chứa từ khơng xác định hay chƣa đƣợc dịch Khi đó, tơi sử dụng mơ hình chuyển ngữ cho từ vào giai đoạn hậu giải mã hệ thống dịch.Kết đƣợc trình bày phần 3.5.2.4 Huấn luyện mơ hình chuyển ngữ Dữ liệu đƣợc trích xuất từ liệu gồm 40000 cặp câu song ngữ 12481 cặp từ dùng để huấn luyện cho mơ hình chuyển ngữ Số lƣợng cặp từ đƣợc lấy theocác công thức (3.1), (3.2) (3.3) chƣơng - Hệ số λ = 0.2 đƣợc lấy thực nghiệm Sau huấn luyện xong, thực chuyển ngữ cho từ không xác định gồm tên riêng (từ khơng có nghĩa) từ có nghĩa khác file kết dịch mơ hình dịch máy Đầu tiên, thống kê số lƣợng từ không xác định (không dịch đƣợc) nhƣ bảng 3.3 sau: Bảng 3.3 Thống kê số lượng từ không xác địnhcủa hệ dịch máy dựa cụm từ Từ không xác định Tên riêng Từ có nghĩa Tổng Từ bảng 3.3, ta thấy tổng số từ không xác định từ hệ dịch máy 523 từ, có 358 từ tên riêng 165 từ có nghĩa khác Sau thống kê tổng số lƣợng từ không xác định đƣợc bao gồm tên riêng từ có nghĩa, tơi áp dụng chuyển ngữ cho từ mơ hình chuyển ngữ khơng giám sát Kết chuyển ngữ đƣa từ đƣợc chuyển ngữ chuyển ngữ sai nhƣ bảng 3.4 sau: Bảng 3.4 Thống kê kết chuyển ngữ cho từ không xác định từ hệ dịch máy Từ khơng xác định Tên riêng Từ có nghĩa Tổng 37 Nhìn vào kết bảng 3.4, từ không xác định đƣợc từ hệ dịch máy đƣợc chuyển ngữ kết đầu thêm lƣợng từ đƣợc chuyển ngữ Trong đó: Từ tên riêng đƣợc chuyển ngữ đúng: 116 từ/708 từ tên riêng đƣợc chuyển ngữ, tƣơng ứng 16.38 % tổng số từ tên riêng đƣợc chuyển ngữ Từ có nghĩa khác đƣợc chuyển ngữ đúng: 38 từ/165 từ có nghĩa khác đƣợc chuyển ngữ, tƣơng ứng 23.03% tổng số từ có nghĩa đƣợc chuyển ngữ Tởng số từ đƣợc chuyển ngữ (gồm tên riêng từ có nghĩa khác): 154 từ/873 từ không xác định, tƣơng ứng 17.64% tổng số tất từ không xác định từ hệ dịch máy Đồng thời, thống kê đƣợc số lƣợng câu đƣợc dịch số kí tự đƣợc dịch hệ dịch máy trƣớc sau đƣợc tích hợp chuyển ngữ nhƣ sau: Số câu đƣợc dịch Số kí tự dịch Một số ví dụ việc chuyển ngữ: Chuyể n ngữ đúng: o Tên riêng: STT o Từ có nghĩa: STT 38 Chuy ển ngữ sai: o Tên riêng: STT o Từ có nghĩa: STT Khi đó, câu ngơn ngữ đích có thêm câu đƣợc dịch xác Một số ví dụ cho việc dịch tích hợp chuyển ngữ: STT Câu tiếng Nhật 食食食食食食ッッッッ食食食食 食食食食食食食食食食食食食食 食食食食食食食食食食食食食食 食食食食食 ッッッッッッッッッ食食食食食 食食食食食食食食食食食 ッッッッッッッッ食食食食食食 食食食食食食食食食食食食食食 食食食食食食食食食食食食食食 39 Nhƣ vậy, sau tích hợp mơ hình chuyển ngữ khơng giám sát vào hệ dịch máy điểm BLEU tăng từ 12.39 lên 12.57 Điểm BLEU tăng kết đƣợc tính thêm tỉ lệ chuyển ngữ cho từ không đƣợc dịch từ hệ dịch máy Do đó, chất lƣợng dịch hệ dịch máy xác Tuy nhiên, phần thực nghiệm luận văn, bị hạn chế số lƣợng liệu song ngữ Nhật – Việt nên điểm BLUE chƣa cao Trong tƣơng lai, để nâng cao chất lƣợng dịch nhƣ chuyển ngữ cần phát triển thêm liệu song ngữ 40 KẾT LUẬN Luận văn trình bày kiến thức toán chuyển ngữ, ứng dụng dịch máy thống kê; tìm hiểu mơ hình dịch máy thống kê dựa vào cụm từ; nghiên cứu phƣơng pháp chuyển ngữ không giám sát thử nghiệm cho cặp ngơn ngữ Nhật – Việt tích hợp chuyển ngữ khơng tích hợp chuyển ngữ vào dịch máy thống kê dựa vào cụm từ Từ đó, ta thấy việc đƣa chuyển ngữ vào toán dịch máy hoàn toàn hợp lý cần thiết để kết dịch xác tối ƣu Hƣớng nghiên cứu tiếp luận văn: Tiếp tục xây dựng thêm ngữ liệu song ngữ, nghiên cứu thêm phƣơng pháp chuyển ngữ không giám sát phƣơng pháp chuyển ngữ khác để chuyển ngữ cho tên riêng, từ khơng xác định khác Tích hợp chuyển ngữ vào giao đoạn giải mã để cải tiến chất lƣợng nhƣ hiệu hệ thống dịch máy 41 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Đào Ngọc Tú (2012), Nghiên cứu dịch thống kê dựa vào cụm từ thử nghiệm với cặp ngôn ngữ Anh – Việt,Tóm tắt Luận văn Thạc sĩ,Học viện Cơng nghệ Bƣu Viễn thơng, Hà Nội [2] VNLP – Nhóm xử lý ngơn ngữ tự nhiên cho tiếng Việt (2015), Hệ thống âm vị, http://vnlp.net/ti%E1%BA%BFng-vi%E1%BB%87t-c%C6%A1-b%E1%BA %A3n/h%E1%BB%87-th%E1%BB%91ng-am-v%E1%BB%8B/ [3] Lê Quang Hùng (2015), Khai phá tri thức song ngữ ứng dụng dịch máy Anh – Việt,Luận án Tiến sĩ Khoa học Máy tính, Đại học Quốc gia Hà Nội, Trƣờng Đại học Công nghệ, Hà Nội [4].Ngô Hƣơng Lan, Hồ Hoàng Hoa (2008),Một số đặc điểm tiếng Nhật, Tạp chí Nghiên cứu Đơng Bắc Á, Số 7, đăng ngày 30/10/2012, trang http://www.inas.gov.vn/403-mot-so-dac-diem-cua-tieng-nhat.html Tiếng Anh: [5] Philipp Koehn (2009), Statistical Machine Translation,School of Informatics, University of Edinburgh, Cambridge University Press [6] David Matthews (2007), Machine Transliteration of Proper Names, Master of Science, School of Informatics, University of Edinburgh [7] Kevin Knight, Jonathan Graehl (1998), Machine Transliteration,Computational Linguistics, Volume 24, Number 4, pp 599-612 [8] Hieu Hoang, Philipp Koehn (et.al, 2014),Integrating an Unsupervised Transliteration Model into Statistical Machine Translation,Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, pp.148–153, Gothenburg, Sweden, April 26-30 2014 © 2014 Association for Computational Linguistics [9] Sarvnaz Karimi, Falk Scholer, Andrew Turpin (2011), Machine Transliteration Survey, ACM Computing Surveys,Vol 43, No 3, pp 17:0 – 17:46, Article 17, Publication date: April 2011, DOI: 10.1145/1922649.1922654·Source: DBLP [10] Hoang Gia Ngo, Nancy F Chen, Sunil Sivadas, Bin Ma, Haizhou Li (2014), A Minimal-Resource Transliteration Framework for Vietnamese,Published in INTERSPEECH, Singapore [11] Philipp Koehn (2017), Statistical Machine Translation- Chapter 13: Neural Machine Translation, Center for Speech and Language Processing, Department of Computer Science, Johns Hopkins University [12] http://www.statmt.org/moses/ ... Nhật sang tiếng Việt? ?? Mục tiêu nghiên cứu chuyển phiên âm từ tiếng Nhật sang tiếng Việt để dịch từ tiếng Nhật có phiên âm tiếng Nhật tƣơng ứng với phiên âm tiếng Việt từ tiếng Việt việc dịch không... Nhật sang tiếng Việt nhƣ sau: 23 Hình 1.5 Chuyển ngữ từ tiếng Nhật sang tiếng Việt tên riêng“Huyền” Lƣu ý, trình ánh xạ chữ katakana tiếng Nhật tới phiên âm tiếng Nhật tới phiên âm tiếng Việt. .. cho dịch máy chuyển ngữ tự động Và cuối phần kết luận vấn đề đạt đƣợc định hƣớng nghiên cứu cho luận văn 26 CHƢƠNG DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ VÀ CHUYỂN NGỮ TỪ TIẾNG NHẬT SANG TIẾNG VIỆT 2.1