Mục tiêu nghiên cứu là chuyển phiên âm từ tiếng Nhật sang tiếng Việt để dịch những từ tiếng Nhật có phiên âm tiếng Nhật tương ứng với phiên âm tiếng Việt của từ tiếng Việt và việc dịch ở đây không dựa vào nghĩa của từ mà dựa vào phiên âm của từ đó. Nghiên cứu này tập trung về việc chuyển ngữ tên riêng và các từ không xác định (unknown) giữa cặp ngôn ngữ này.
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN THỊ THU HUYỀN CHUYỂN NGỮ TỰ ĐỘNG TỪ TIẾNG NHẬT SANG TIẾNG VIỆT Chuyên ngành: Kỹ thuật Phần mềm Mã số: 60480103 TÓM TẮT LUẬN VĂN THẠC SĨ Hà Nội – 2017 LỜI CAM ĐOAN Tôi xin cam đoan luận văn kết nghiên cứu tôi, đƣợc thực dƣới hƣớng dẫn PGS TS Nguyễn Phƣơng Thái Các nội dung đƣợc trích dẫn từ nghiên cứu tác giả khác mà tơi trình bày luận văn đƣợc ghi rõ nguồn phần tài liệu tham khảo Người thực Trần Thị Thu Huyền LỜI CẢM ƠN Trƣớc hết, xin chân thành cảm ơn PGS.TS Nguyễn Phƣơng Thái, Thầy trực tiếp hƣớng dẫn, nhiệt tình hỗ trợ tạo điều kiện tốt cho thực luận văn Tôi xin gửi lời cảm ơn đến tất Thầy/Cô Khoa Công nghệ Thông tin, trƣờng Đại học Công nghệ, Đại học Quốc gia Hà Nội giảng dạy giúp đỡ trình học tập nghiên cứu trƣờng Cuối cùng, xin gửi lời cảm ơn tới ngƣời thân gia đình, bạn bè ln bên cạnh động viên, ủng hộ thời gian học Phần thực nghiệm luận văn sử dụng kho ngữ liệu song ngữ đề tài “Xây dựng hệ thống dịch tự động hỗ trợ việc dịch tài liệu tiếng Việt tiếng Nhật nhằm giúp nhà quản lý doanh nghiệp Hà Nội tiếp cận làm việc hiệu với thị trƣờng Nhật Bản” Do kinh nghiệm kiến thức hạn chế, mong Thầy/Cô anh chị, bạn bè đóng góp thêm ý kiến q báu để tơi hồn thiện thêm luận văn Người thực Trần Thị Thu Huyền MỤC LỤC LỜI CAM ĐOAN……………………………………………… LỜI CẢM ƠN……………………………………………………2 BẢNG KÍ HIỆU CÁC CHỮ CÁI VIẾT TẮT……………………5 MỞ ĐẦU……………………………………………………… CHƢƠNG GIỚI THIỆU CHUNG…………………………… 1.1 Đặc trƣng ngôn ngữ tiếng Việt, tiếng Nhật 1.1.1 Tiếng Việt………………………………………… 1.1.2 Tiếng Nhật………………………………………… 1.2 Bài toán dịch máy dịch thống kê dựa vào cụm từ 1.2.1 Bài toán dịch máy………………………………… 1.2.2 Dịch máy thống kê……………………………… 1.2.3 Thảo luận………………………………………….10 1.3 Vấn đề tên riêng, từ mƣợn dịch máy 11 1.4 Bài toán dịch tên riêng, chuyển ngữ 11 1.4.1 Khái niệm chuyển ngữ…………………………… 11 1.4.2 Phân biệt Chuyển ngữ (Transliteration) Biên dịch (Translation)…………………………………………… 12 1.4.3 Ứng dụng Chuyển ngữ……………………… 12 1.4.4 Một số khó khăn tốn Chuyển ngữ……….12 1.4.5 Thuộc tính kỳ vọng q trình Chuyển ngữ… 12 CHƢƠNG DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ VÀ CHUYỂN NGỮ TỪ TIẾNG NHẬT SANG TIẾNG VIỆT 13 2.1 Dịch máy thống kê dựa vào cụm từ 13 2.1.1 Giới thiệu………………………………………….13 2.1.2 Mục đích mơ hình dịch dựa cụm từ………13 2.1.3 Định nghĩa toán 13 2.1.4 Mơ hình dịch…………………………………… 14 2.1.5 Mơ hình ngơn ngữ……………………………… 14 2.1.6 Giải mã……………………………………………14 2.1.7 Tối ƣu hóa Đánh giá………………………… 14 2.2 Chuyển ngữ từ tiếng Nhật sang tiếng Việt 15 CHƢƠNG THỬ NGHIỆM………………………………… 17 3.1 Môi trƣờng triển khai 17 3.2 Dữ liệu………………………………………………….17 3.3 Công cụ cho hệ dịch máy 17 3.3.1 Moses………………………………………………17 3.3.2 GIZA………………………………………………17 3.3.3 KenLM…………………………………………….17 3.3.4 MERT (Minimum Error Rate Training)………… 17 3.4 Thiết lập mặc định 17 3.5 Kết thực nghiệm 18 3.5.1 Dữ liệu đầu vào……………………………………18 3.5.2 Quá trình xử lý liệu huấn luyện…………….18 KẾT LUẬN…………………………………………………….23 TÀI LIỆU THAM KHẢO………………………………………24 BẢNG KÍ HIỆU CÁC CHỮ CÁI VIẾT TẮT BLEU BiLingual Evaluation Understudy Estimation Maximization EM MLE Maximum Likelihood Estimation Machine Translation MT NMT Neural Machine Translation OCR Optical Character Recognition RBMT Rule-based Machine Translation SMT Statistical Machine Translation Đánh giá dƣới dạng song ngữ Ƣớc lƣợng cực đại Ƣớc lƣợng khả cực đại Dịch máy Dịch máy mạng nơ ron Nhận dạng kí tự thị giác Dịch máy dựa nguyên tắc Dịch máy thống kê MỞ ĐẦU Hiện có hàng nghìn ngơn ngữ tồn giới, ngơn ngữ có đặc trƣng riêng bảng chữ cách phát âm Một vấn đề đặt cho việc dịch cặp ngơn ngữ dịch xác tên riêng thuật ngữ kỹ thuật Đối với ngơn ngữ có hệ thống bảng chữ âm tƣơng tự (nhƣ tiếng Tây Ban Nha tiếng Anh) khơng phải vấn đề lớn nhƣng với ngơn ngữ có hệ thống chữ viết khác thách thức thông dịch viên máy dịch Trƣớc có nhiều nghiên cứu việc Chuyển ngữ cặp ngôn ngữ khác nhƣ tiếng Anh – tiếng Nhật/Trung/Hàn/Nga/Ả rập, Urdu - Ấn Độ - tiếng Anh,… sử dụng mơ hình, phƣơng thức, cách tiếp cận khác Tuy nhiên, thời điểm chƣa có nghiên cứu Chuyển ngữ ngơn ngữ tiếng Nhật – tiếng Việt Từ đƣa cho toán việc chuyển ngữ cặp ngôn ngữ Nhật – Việt đƣợc xây dựng phát triển dựa nghiên cứu trƣớc Vì vậy, lựa chọn thực đề tài “Chuyển ngữ tự động từ tiếng Nhật sang tiếng Việt” Mục tiêu nghiên cứu chuyển phiên âm từ tiếng Nhật sang tiếng Việt để dịch từ tiếng Nhật có phiên âm tiếng Nhật tƣơng ứng với phiên âm tiếng Việt từ tiếng Việt việc dịch không dựa vào nghĩa từ mà dựa vào phiên âm từ Nghiên cứu tập trung việc chuyển ngữ tên riêng từ không xác định (unknown) cặp ngôn ngữ CHƢƠNG GIỚI THIỆU CHUNG 1.1 Đặc trƣng ngôn ngữ tiếng Việt, tiếng Nhật Âm ngơn ngữ (cịn gọi ngữ âm) toàn âm, thanh, kết hợp âm ngôn điệu mang ý nghĩa định, tạo thành cấu trúc ngữ âm ngôn ngữ 1.1.1 Tiếng Việt 1.1.1.1.Đặc điểm tiếng Việt Tiếng Việt thuộc ngôn ngữ đơn lập, tức tiếng (âm tiết đƣợc phát âm tách rời đƣợc thể chữ viết Đặc điểm thể r rệt tất mặt ngữ âm, từ vựng, ngữ pháp 1.1.1.2 Ngữ âm 1.1.1.2.1 Âm tố 1.1.1.2.2 Âm vị 1.1.1.2.3 Tiếng 1.1.1.2.4 Hình vị 1.1.1.3 Từ vựng Từ tiếng, ngƣời ta tạo đơn vị từ vựng khác để định danh vật, tƣợng , chủ yếu nhờ phƣơng thức gh p phƣơng thức láy 1.1.1.4 Ngữ pháp Trật tự chủ ngữ đứng trƣớc, vị ngữ đứng sau trật tự ph biến kết cấu câu tiếng Việt 1.1.2 Tiếng Nhật 1.1.2.1 Hệ thống bảng chữ tiếng Nhật Tiếng Nhật có bảng chữ hiragana, katakana chữ Hán (kanji Hệ thống bảng chữ đƣợc sử dụng linh hoạt, câu đƣợc kết hợp từ chữ bảng chữ Hình 1.1 Bảng chữ Katakana 1.1.2.2 Ngữ âm Âm tiết tiếng Nhật vừa đơn vị ngữ âm nhỏ vừa đơn vị phát âm Mỗi âm tiết đƣợc thể chữ Kana 1.1.2.3 Từ vựng Tiếng Nhật có vốn từ vựng lớn vô phong phú, gồm nhiều tầng lớp từ vựng chúng có khả kết hợp với tạo từ 1.1.2.4 Ngữ pháp Trong tiếng Nhật, động từ thƣờng đứng cuối câu 1.2 Bài toán dịch máy dịch thống kê dựa vào cụm từ 1.2.1 Bài toán dịch máy Ta hiểu MT việc dịch tự động, q trình mà phần mềm máy tính dịch văn từ ngơn ngữ (ngơn ngữ nguồn sang ngơn ngữ khác (ngơn ngữ đích Liên ngữ Câu nguồn Câu đích Hình 1.2 Tam giác thể trình dịch máy 1.2.2 Dịch máy thống kê Dịch máy dựa phƣơng pháp thống kê tìm câu v ngơn ngữ đích (“Tiếng Việt” phù hợp (có xác suất cao nhất) cho trƣớc câu j ngôn ngữ nguồn (“Tiếng Nhật” , biểu diễn theo công thức sau: v* = arg max p(v|j) (1.1) v Ngôn ngữ nguồn j Tiền xử lý v* = Tìm kiếm p(v|j) Hậu xử lý Ngơn ngữ đích v Hình 1.3 Mơ hình hóa tốn MT dựa phương pháp thống kê 11 - Trong SMT, dựa vào toán học để thực kết hợp tối ƣu nguồn trí thức - Việc phát triển hệ dịch dựa vào thống kê nhanh so với hệ dịch dựa vào luật - Tăng số lƣợng liệu huấn luyện đƣa dịch có chất lƣợng cao 1.3 Vấn đề tên riêng, từ mƣợn dịch máy Nhƣ thấy, vấn đề thƣờng xuyên gặp phải hệ thống dịch máy dịch tên riêng, thuật ngữ kỹ thuật hay từ mƣợn Đối với cặp ngôn ngữ khác hệ thống chữ viết nhƣ âm thách thức đặt cho hệ thống dịch máy nhƣ dịch giả 1.4 Bài toán dịch tên riêng, chuyển ngữ Từ việc dịch tên riêng trình ánh xạ chữ (hoặc kí tự) cặp ngơn ngữ đƣợc gọi chuyển ngữ 1.4.1 Khái niệm chuyển ngữ Chuyển ngữ tự động trình chuyển đ i tự động kịch từ từ ngơn ngữ nguồn sang ngơn ngữ đích, giữ cách phát âm [12] Ví dụ: Hình 1.5 Chuyển ngữ từ tiếng Nhật sang tiếng Việt tên riêng“Huyền” 12 1.4.2 Phân biệt Chuyển ngữ (Transliteration) Biên dịch (Translation) 1.4.3 Ứng dụng Chuyển ngữ 1.4.4 Một số khó khăn tốn Chuyển ngữ 1.4.5 Thuộc tính kỳ vọng q trình Chuyển ngữ Tóm lại, chƣơng này, tơi đề cập đến hệ thống dịch máy, dịch máy thống kê chuyển ngữ tên riêng từ không xác định cặp ngôn ngữ khác Trong luận văn này, sử dụng hệ thống mã nguồn mở Moses (Koehn cộng sự, 2007), SMT dựa cụm từ để thực thực nghiệm chuyển ngữ tên riêng từ tiếng Nhật sang tiếng Việt Luận văn đƣợc chia làm chƣơng với bố cục phần lại nhƣ sau: Chƣơng 2: Trình bày nội dung dịch máy thống kê dựa vào cụm từ mơ hình chuyển ngữ khơng giám sát Chƣơng 3: Trình bày nội dung, kết thực nghiệm cho dịch máy chuyển ngữ tự động Và cuối phần kết luận vấn đề đạt đƣợc định hƣớng nghiên cứu cho luận văn 13 CHƢƠNG DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ VÀ CHUYỂN NGỮ TỪ TIẾNG NHẬT SANG TIẾNG VIỆT 2.1 Dịch máy thống kê dựa vào cụm từ 2.1.1 Giới thiệu Cách tiếp cận thành công hệ dịch máy dịch dựa vào cụm từ, nghĩa sử dụng cụm từ làm đơn vị Ví dụ phân chia cụm từ: Hình 2.1 Ví dụ việc phân cụm từ tên riêng cặp ngơn ngữ Nhật – Việt 2.1.2 Mục đích mơ hình dịch dựa cụm từ Để khắc phục hạn chế phƣơng pháp SMT dựa từ Điều cho ph p hệ thống dịch cụm từ tránh tình trạng dịch word-by-word Vì có trƣờng hợp từ ngơn ngữ tiếng Việt có nhiều nghĩa ngôn ngữ tiếng Việt 2.1.3 Định nghĩa toán Nhiệm vụ hệ thống SMT mơ hình xác suất dịch p(v|j , câu ngôn ngữ nguồn j đƣợc dịch sang câu ngơn ngữ đích v Brown cộng [2] sử dụng luật Bayes để tính xác suất dịch câu ngôn ngữ nguồn j sang câu ngôn ngữ đích v nhƣ sau: (2.1) 14 Trong đó: p(v) mơ hình ngơn ngữ p(j|v) mơ hình dịch Mơ hình ngơn ngữ p(v đƣợc ƣớc lƣợng từ ngữ liệu ngơn ngữ đích (ngữ liệu đơn ngữ) mơ hình dịch p(j|v đƣợc ƣớc lƣợng từ ngữ liệu song ngữ từ cặp ngôn ngữ Nhật – Việt 2.1.4 Mơ hình dịch Mơ hình dịch (translation model giúp ƣớc lƣợng xác suất có điều kiện p(j|v) Xác suất đƣợc ƣớc lƣợng từ ngữ liệu song ngữ cặp ngơn ngữ nguồn – đích 2.1.5 Mơ hình ngơn ngữ Về mặt tốn học, mơ hình ngơn ngữ gán cho câu xác suất - khả xảy câu văn Mơ hình ngơn ngữ trigram thƣờng đƣợc sử dụng nhiều 2.1.6 Giải mã Nhiệm vụ thành phần tìm câu v ngơn ngữ đích cho tích p(j|v)p(v) công thức (2.1 đạt giá trị cực đại với câu đầu vào j ngôn ngữ nguồn 2.1.7 Tối ƣu hóa Đánh giá Điểm BLEU đánh giá T với dịch mẫu S đƣợc tính theo cơng thức (2.8) Trong đó, wn N lần lƣợt trọng số (t ng trọng số wn độ dài (tính theo đơn vị từ) n-gram đƣợc sử dụng: Với giá trị BP đƣợc tính theo cơng thức sau: Với giá trị BP đƣợc tính theo công thức sau: 15 2.2 Chuyển ngữ từ tiếng Nhật sang tiếng Việt Phần mơ tả mơ hình chuyển ngữ không giám sát cho từ chƣa đƣợc dịch hệ thống dịch máy Ý tƣởng: Theo Koehn [8], ta sử dụng mơ hình chuyển ngữ khơng giám sát dựa thuật toán EM để tạo ngữ liệu chuyển ngữ từ liệu song ngữ xếp từ Từ sử dụng để huấn luyện mơ hình chuyển ngữ Tơi áp dụng phƣơng pháp Thay từ OOV từ đƣợc chuyển ngữ có xác suất cao (1-best transliteration giai đoạn hậu giải mã để tích hợp mơ hình chuyển ngữ không giám sát vào hệ thống SMT Các bƣớc thực chuyển ngữ: Thứ nhất, Khai phá chuyển ngữ: Việc khai phá chuyển ngữ tìm cặp từ chuyển ngữ tính xác suất cho cặp từ Mơ hình khai phá gồm hai mơ hình mơ hình chuyển ngữ mơ hình khơng chuyển ngữ Ta kí hiệu cặp từ hai ngơn ngữ (e, f) Mơ hình chuyển ngữ (transliteration model) - Xác suất cặp từ là: với A(e, f) tập hợp tất chuỗi có từ ánh xạ kí tự; a chuỗi ánh xạ bất kỳ; qj kí tự chuỗi ánh xạ Mơ hình khơng chuyển ngữ (non-transliteration model) - Xác suất cặp từ là: 16 Mơ hình khai phá chuyển ngữ Do ko biết trƣớc cặp từ chuyển ngữ liệu cặp từ nên ta tính điểm cặp từ theo cơng thức nội suy tuyến tính nhƣ sau: Với λ hệ số, có giá trị khoảng (0, 1) Thứ hai, Huấn luyện mơ hình chuyển ngữ khơng giám sát Phƣơng pháp: Sử dụng mơ hình SMT dựa cụm từ để học mơ hình chuyển ngữ Dữ liệu huấn luyện cặp từ, tách thành ký tự học hệ thống dịch cụm từ cặp ký tự Thứ ba, Tích hợp chuyển ngữ vào MT Thay từ OOV đầu từ đƣợc chuyển ngữ tốt Kết phụ thuộc vào độ xác mơ hình chuyển ngữ trình bày Ngồi ra, phƣơng pháp bỏ qua ngữ cảnh dẫn tới chuyển ngữ khơng xác Khi đó, sơ đồ dịch hệ thống MT là: Câu nguồn j Tiền xử lý Giải mã Chuyển ngữ Câu đích v Hình 2.2 Sơ đồ dịch hệ thống MT sau tích hợp chuyển ngữ 17 CHƢƠNG THỬ NGHIỆM 3.1 Môi trƣờng triển khai - Phần cứng: Bộ xử lý Core i5 -3437U CPU 2.40GHz, RAM 4GB - Phần mềm: Hệ điều hành Ubuntu 16.04 64 bit 3.2 Dữ liệu Dữ liệu đầu vào liệu song ngữ Nhật – Việt, gồm gần 40000 cặp câu Nhật – Việt thu thập từ nguồn Wiki, TED Tiền xử lý văn dùng công cụ tách từ để gộp từ vào thành cụm từ o Công cụ tách từ tiếng Nhật: Mecab https://pypi.python.org/pypi/mecab-python3 o Công cụ tách từ tiếng Việt: Vitk https://github.com/phuonglh/vn.vitk 3.3 Công cụ cho hệ dịch máy 3.3.1 Moses 3.3.2 GIZA 3.3.3 KenLM 3.3.4 MERT (Minimum Error Rate Training) 3.4 Thiết lập mặc định Độ dài cụm từ lớn nhất: Dữ liệu mơ hình ngơn ngữ: tất N-gram cho mơ hình ngơn ngữ: Các tham số mơ hình Distortion: 0.0775344 Language Model: 0.0775344 Translation Model: 0.110447, 0.053495, 0.0266803, 0.0686311 18 WordPenalty: -0.279847 PhrasePenalty: -0.306445 UnknownWordPenalty: 3.5 Kết thực nghiệm 3.5.1 Dữ liệu đầu vào Ngôn ngữ Dữ liệu huấn luyện Số câu thực nghiệm Tiếng Nhật 40000 câu Tiếng Việt 40000 câu Dữ liệu điều chỉnh Tiếng Nhật 950 câu tham số Tiếng Việt 950 câu Dữ liệu đánh giá Tiếng Nhật 1000 câu Tiếng Việt 1000 câu Độ dài trung bình câu tiếng Nhật: 39.3 từ Độ dài trung bình câu tiếng Việt: 25.8 từ 3.5.2 Quá trình xử lý liệu huấn luyện 3.5.2.1 Xử lý liệu cho hệ thống MT 3.5.2.2 Huấn luyện mơ hình ngơn ngữ 3.5.2.3 Huấn luyện mơ hình dịch Bảng 3.1 Kết chất lượng dịch tăng dần kích thước liệu huấn luyện Kích thƣớc liệu (số lƣợng cặp câu) Điểm BLEU 5000 9.88 10000 10.02 15000 10.07 20000 11.02 30000 11.88 40000 12.39 19 Một số ví dụ dịch chƣa tích hợp chuyển ngữ: Bảng 3.2 Một số ví dụ hệ thống dịch máy chưa tích hợp chuyển ngữ STT Câu tiếng Nhật Câu tiếng Việt ウクライナのドネツク市 thành_phố ドネツク で炭坑の爆発で少なくと ukraine vụ n も80人が死亡し、20 mỏ có ít_nhất 80 ngƣời 人が行方不明だと報告さ chết , 20 ngƣời mất_tích れた。 đƣợc báo_cáo 組合 の 推定 に よる と theo ƣớc_tính 、 2 0 0 6 から 2 0 hiệp_hội , từ 2006 đến 0 7 年 に ほぼ 2 5 0 năm 2007 gần 250 thợ mỏ 人 の 鉱夫 が 事故 で 死 thiệt_mạng んだ。 vụ tai_nạn ウェブ 上 の 最大 の 検索 trang web lớn エンジン Google は いろ cơng_cụ tìm_kiếm いろ な サービス を通し google thông_qua て 毎日 2 億 以上 の 問 dịch_vụ nhiều hai 合わせ を 受ける 。 triệu ngày với phép_tính Nhìn vào số câu đƣợc dịch từ hệ dịch máy nhƣ ví dụ ta thấy kết dịch hệ thống tồn số câu chứa từ khơng xác định hay chƣa đƣợc dịch Khi đó, tơi sử dụng mơ hình chuyển ngữ cho từ vào giai đoạn hậu giải mã hệ thống dịch Kết đƣợc trình bày phần 20 3.5.2.4 Huấn luyện mơ hình chuyển ngữ - Dữ liệu đƣợc trích xuất từ liệu gồm 40000 cặp câu song ngữ 12481 cặp từ dùng để huấn luyện cho mơ hình chuyển ngữ Số lƣợng cặp từ đƣợc lấy theo công thức (3.1), (3.2) (3.3) chƣơng - Hệ số λ = 0.2 đƣợc lấy thực nghiệm - Sau huấn luyện xong, thực chuyển ngữ cho từ không xác định gồm tên riêng (từ nghĩa từ có nghĩa khác file kết dịch mơ hình dịch máy Bảng 3.3 Thống kê số lượng từ không xác định hệ dịch máy dựa cụm từ Từ không xác định Số lƣợng (từ) Tỉ lệ (%) Tên riêng 708 81.1 Từ có nghĩa 165 18.9 Tổng 873 100 Bảng 3.4 Thống kê kết chuyển ngữ cho từ không xác định từ hệ dịch máy Từ không Chuyển ngữ Tỉ lệ Chuyển ngữ Tỉ lệ sai xác định (số từ) (%) sai (số từ) (%) Tên riêng 116 16.38 592 83.62 Từ có nghĩa 38 23.03 127 76.97 Tổng 154 17.64 719 82.36 Đồng thời, thống kê đƣợc số lƣợng câu đƣợc dịch số kí tự đƣợc dịch hệ dịch máy trƣớc sau đƣợc tích hợp chuyển ngữ nhƣ sau: 21 Số câu đƣợc dịch Chƣa tích hợp Đã tích hợp chuyển ngữ chuyển ngữ 325/1000 (câu) 356/1000 (câu) 231895 245387 Số kí tự dịch Một số ví dụ việc chuyển ngữ: Chuyển ngữ đúng: o Tên riêng: STT Tên riêng tiếng Nhật Tên riêng tiếng Việt ドネツク donetsk ホア Hoa ティエップ Tiếp o Từ có nghĩa: STT Từ tiếng Nhật Từ tiếng Việt トウェンティ twente 取り壊さ phá_huỷ 切ら ệm Chuyển ngữ sai: o Tên riêng: STT Tên riêng tiếng Nhật Tên riêng tiếng Việt ビクトル・ヤヌコビッチ biktl_yanoucobiuc ライン line Từ có nghĩa: o STT Từ tiếng Nhật Từ tiếng Việt 乗っ取っ nganh 灯さ ang 運び込む ép Một số ví dụ cho việc dịch tích hợp chuyển ngữ: 22 STT Câu tiếng Nhật Câu tiếng Việt ウクライナ の ドネツク vụ n mỏ 市 で 炭坑 の 爆発 で 少 than giết chết ít_nhất なくとも 8 0 人 が 死 80 ngƣời thành_phố 亡 し 、 2 0 人 が 行 donetsk , ukraina , 方 不明 だ と 報告 さ れ 20 ngƣời đƣợc た。 báo_cáo mất_tích ジャスティン・ヤクと justin_yak vợ 彼の妻も死亡が確認さ ông れている。 xác_nhận chết đƣợc アジンホスメチル は 、 azinphos methyl 第 二 次 世界 大戦 中 に chất_độc 使用 さ れ た 神経 剤 に nguy_hiểm thần_kinh có 由来 する 危険 な 神経 nguồn_gốc từ chất_độc 毒 で ある 。 thần_kinh đƣợc sử_dụng thế_chiến thứ ii Nhƣ vậy, sau tơi tích hợp mơ hình chuyển ngữ khơng giám sát vào hệ dịch máy điểm BLEU tăng từ 12.39 lên 12.57 Điểm BLEU tăng kết đƣợc tính thêm tỉ lệ chuyển ngữ cho từ khơng đƣợc dịch từ hệ dịch máy Do đó, chất lƣợng dịch hệ dịch máy xác Tuy nhiên, phần thực nghiệm luận văn, bị hạn chế số lƣợng liệu song ngữ Nhật – Việt nên điểm BLUE chƣa cao Trong tƣơng lai, để nâng cao chất lƣợng dịch nhƣ chuyển ngữ cần phát triển thêm liệu song ngữ 23 KẾT LUẬN Luận văn trình bày kiến thức toán chuyển ngữ, ứng dụng dịch máy thống kê; tìm hiểu mơ hình dịch máy thống kê dựa vào cụm từ; nghiên cứu phƣơng pháp chuyển ngữ không giám sát thử nghiệm cho cặp ngôn ngữ Nhật – Việt tích hợp chuyển ngữ khơng tích hợp chuyển ngữ vào dịch máy thống kê dựa vào cụm từ Từ đó, ta thấy việc đƣa chuyển ngữ vào tốn dịch máy hoàn toàn hợp lý cần thiết để kết dịch xác tối ƣu Hƣớng nghiên cứu tiếp luận văn: - Tiếp tục xây dựng thêm ngữ liệu song ngữ, nghiên cứu thêm phƣơng pháp chuyển ngữ không giám sát phƣơng pháp chuyển ngữ khác để chuyển ngữ cho tên riêng, từ không xác định khác - Tích hợp chuyển ngữ vào giao đoạn giải mã để cải tiến chất lƣợng nhƣ hiệu hệ thống dịch máy 24 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Đào Ngọc Tú (2012), Nghiên cứu dịch thống kê dựa vào cụm từ thử nghiệm với cặp ngơn ngữ Anh – Việt, Tóm tắt Luận văn Thạc sĩ, Học viện Cơng nghệ Bƣu Viễn thơng, Hà Nội [2] VNLP – Nhóm xử lý ngơn ngữ tự nhiên cho tiếng Việt (2015), Hệ thống âm vị, http://vnlp.net/ti%E1%BA%BFng-vi%E1%BB%87t-c%C6%A1b%E1%BA%A3n/h%E1%BB%87-th%E1%BB%91ng-amv%E1%BB%8B/ [3] Lê Quang Hùng (2015), Khai phá tri thức song ngữ ứng dụng dịch máy Anh – Việt, Luận án Tiến sĩ Khoa học Máy tính, Đại học Quốc gia Hà Nội, Trƣờng Đại học Công nghệ, Hà Nội [4] Ngơ Hƣơng Lan, Hồ Hồng Hoa (2008), Một số đặc điểm tiếng Nhật, Tạp chí Nghiên cứu Đông Bắc Á, Số 7, đăng ngày 30/10/2012, trang http://www.inas.gov.vn/403-mot-so-dacdiem-cua-tieng-nhat.html Tiếng Anh: [5] Philipp Koehn (2009), Statistical Machine Translation, School of Informatics, University of Edinburgh, Cambridge University Press [6] David Matthews (2007), Machine Transliteration of Proper Names, Master of Science, School of Informatics, University of Edinburgh 25 [7] Kevin Knight, Jonathan Graehl (1998), Machine Transliteration, Computational Linguistics, Volume 24, Number 4, pp 599-612 [8] Hieu Hoang, Philipp Koehn (et.al, 2014), Integrating an Unsupervised Transliteration Model into Statistical Machine Translation, Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, pp 148–153, Gothenburg, Sweden, April 26-30 2014 © 2014 Association for Computational Linguistics [9] Sarvnaz Karimi, Falk Scholer, Andrew Turpin (2011), Machine Transliteration Survey, ACM Computing Surveys, Vol 43, No 3, pp 17:0 – 17:46, Article 17, Publication date: April 2011, DOI: 10.1145/1922649.1922654·Source: DBLP [10] Hoang Gia Ngo, Nancy F Chen, Sunil Sivadas, Bin Ma, Haizhou Li (2014), A Minimal-Resource Transliteration Framework for Vietnamese, Published in INTERSPEECH, Singapore [11] Philipp Koehn (2017), Statistical Machine Translation Chapter 13: Neural Machine Translation, Center for Speech and Language Processing, Department of Computer Science, Johns Hopkins University [12] http://www.statmt.org/moses/ ... riêng, chuyển ngữ Từ việc dịch tên riêng trình ánh xạ chữ (hoặc kí tự) cặp ngơn ngữ đƣợc gọi chuyển ngữ 1.4.1 Khái niệm chuyển ngữ Chuyển ngữ tự động trình chuyển đ i tự động kịch từ từ ngơn ngữ. .. phiên âm từ tiếng Nhật sang tiếng Việt để dịch từ tiếng Nhật có phiên âm tiếng Nhật tƣơng ứng với phiên âm tiếng Việt từ tiếng Việt việc dịch không dựa vào nghĩa từ mà dựa vào phiên âm từ Nghiên... việc chuyển ngữ cặp ngơn ngữ Nhật – Việt đƣợc xây dựng phát triển dựa nghiên cứu trƣớc Vì vậy, tơi lựa chọn thực đề tài ? ?Chuyển ngữ tự động từ tiếng Nhật sang tiếng Việt? ?? Mục tiêu nghiên cứu chuyển