ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN THỊ THU HUYỀN CHUYỂN NGỮ TỰ ĐỘNG TỪ TIẾNG NHẬT SANG TIẾNG VIỆT LUẬN VĂN THẠC SĨ Hà Nội – 2017 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN THỊ THU HUYỀN CHUYỂN NGỮ TỰ ĐỘNG TỪ TIẾNG NHẬT SANG TIẾNG VIỆT Ngành: Công nghệ Thông tin Chuyên ngành: Kỹ thuật Phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Phƣơng Thái Hà Nội - 2017 LỜI CAM ĐOAN Tôi xin cam đoan luận văn kết nghiên cứu tôi, đƣợc thực dƣới hƣớng dẫn PGS.TS Nguyễn Phƣơng Thái Các nội dung đƣợc trích dẫn từ nghiên cứu tác giả khác mà tơi trình bày luận văn đƣợc ghi rõ nguồn phần tài liệu tham khảo Người thực Trần Thị Thu Huyền LỜI CẢM ƠN Trƣớc hết, xin chân thành cảm ơn PGS.TS Nguyễn Phƣơng Thái, Thầy trực tiếp hƣớng dẫn, nhiệt tình hỗ trợ tạo điều kiện tốt cho thực luận văn Tôi xin gửi lời cảm ơn đến tất Thầy/Cô Khoa Công nghệ Thông tin, trƣờng Đại học Công nghệ, Đại học Quốc gia Hà Nội giảng dạy giúp đỡ tơi q trình học tập nghiên cứu trƣờng Cuối cùng, xin gửi lời cảm ơn tới ngƣời thân gia đình, bạn bè bên cạnh động viên, ủng hộ thời gian học Phần thực nghiệm luận văn sử dụng kho ngữ liệu song ngữ đề tài “Xây dựng hệ thống dịch tự động hỗ trợ việc dịch tài liệu tiếng Việt tiếng Nhật nhằm giúp nhà quản lý doanh nghiệp Hà Nội tiếp cận làm việc hiệu với thị trƣờng Nhật Bản” Do kinh nghiệm kiến thức cịn hạn chế, tơi mong Thầy/Cơ anh chị, bạn bè đóng góp thêm ý kiến q báu để tơi hồn thiện thêm luận văn Người thực Trần Thị Thu Huyền MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN BẢNG KÝ HIỆU CÁC CHỮ VIẾT TẮT .5 DANH MỤC CÁC HÌNH VẼ DANH MỤC BẢNG .7 MỞ ĐẦU CHƢƠNG GIỚI THIỆU CHUNG 1.1.Đặc trƣng ngôn ngữ tiếng Việt, tiếng Nhật 1.1.1.Tiếng Việt 1.1.2.Tiếng Nhật .12 1.2.Bài toán dịch máy dịch thống kê dựa vào cụm từ 16 1.2.1.Bài toán dịch máy 16 1.2.2.Dịch máy thống kê 19 1.2.3.Thảo luận .21 1.3.Vấn đề tên riêng, từ mƣợn dịch máy 22 1.4.Bài toán dịch tên riêng, chuyển ngữ 22 1.4.1.Khái niệm chuyển ngữ 22 1.4.2.Phân biệt Chuyển ngữ (Transliteration) Biên dịch (Translation) .23 1.4.3.Ứng dụng Chuyển ngữ 23 1.4.4.Một số khó khăn tốn Chuyển ngữ 24 1.4.5.Thuộc tính kỳ vọng trình Chuyển ngữ .25 CHƢƠNG DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ 26 VÀ CHUYỂN NGỮ TỪ TIẾNG NHẬT SANG TIẾNG VIỆT 26 2.1 Dịch máy thống kê dựa vào cụm từ 26 2.1.1 Giới thiệu 26 2.1.2 Mục đích mơ hình dịch dựa cụm từ .26 2.1.3 Định nghĩa toán 27 2.1.4 Mơ hình dịch 27 2.1.5 Mơ hình ngơn ngữ 28 2.1.6 Giải mã 28 2.1.7 Tối ƣu hóa Đánh giá 29 2.2 Chuyển ngữ từ tiếng Nhật sang tiếng Việt 29 CHƢƠNG THỬ NGHIỆM .33 3.1 Môi trƣờng triển khai 33 3.2 Dữ liệu 33 3.3 Công cụ cho hệ dịch máy 33 3.3.1 Moses 33 3.3.2 GIZA 33 3.3.3 KenLM 33 3.3.4 MERT (Minimum Error Rate Training) 34 3.4 Thiết lập mặc định 34 3.5 Kết thực nghiệm 34 3.5.1 Dữ liệu đầu vào 34 3.5.2 Quá trình xử lý liệu huấn luyện 34 KẾT LUẬN 40 TÀI LIỆU THAM KHẢO .41 BẢNG KÝ HIỆU CÁC CHỮ VIẾT TẮT BLEU EM MLE MT NMT OCR RBMT SMT BiLingual Evaluation Understudy Estimation Maximization Maximum Likelihood Estimation Machine Translation Neural MachineTranslation Optical Character Recognition Rule-based Machine Translation Statistical Machine Translation Đánh giá dƣới dạng song ngữ Ƣớc lƣợng cực đại Ƣớc lƣợng khả cực đại Dịch máy Dịch máy mạng nơ ron Nhận dạng kí tự thị giác Dịch máy dựa nguyên tắc Dịch máy thống kê DANH MỤC CÁC HÌNH VẼ Hình 1.1 Bảng chữ Katakana Hình 1.2 Tam giác thể trình dịch máy Hình 1.3 Mơ hình hóa tốn MT dựa phương pháp thống kê Hình 1.4 Các thành phần hệ dịch máy SMT Hình 1.5 Chuyển ngữ từ tiếng Nhật sang tiếng Việt tên riêng“Huyền” Hình 2.1 Ví dụ việc phân cụm từ cặp câu ngơn ngữ Nhật – Việt Hình 2.2 Sơ đồ dịch hệ thống MT sau tích hợp chuyển ngữ 13 17 19 20 23 26 32 DANH MỤC BẢNG Bảng 1.1 Bảng âm vị nguyên âm Bảng 1.2 Bảng âm vị phụ âm Bảng 3.1 Kết chất lượng dịch tăng dần kích thước liệu huấn luyện Bảng 3.2 Một số ví dụ hệ thống dịch máy chưa tích hợp chuyển ngữ Bảng 3.3 Thống kê số lượng từ không xác địnhcủa hệ dịch máy dựa cụm từ Bảng 3.4 Thống kê kết chuyển ngữ cho từ không xác định từ hệ dịch máy 10 11 35 35 36 36 MỞ ĐẦU Hiện có hàng nghìn ngơn ngữ tồn giới, ngơn ngữ có đặc trƣng riêng bảng chữ cách phát âm Một vấn đề đặt cho việc dịch cặp ngơn ngữ dịch xác tên riêng thuật ngữ kỹ thuật Đối với ngơn ngữ có hệ thống bảng chữ âm tƣơng tự (nhƣ tiếng Tây Ban Nha tiếng Anh) khơng phải vấn đề lớn nhƣng với ngơn ngữ có hệ thống chữ viết khác thách thức thông dịch viên máy dịch Trƣớc có nhiều nghiên cứu việc Chuyển ngữ cặp ngôn ngữ khác nhƣ tiếng Anh – tiếng Nhật/Trung/Hàn/Nga/Ả rập, Urdu - Ấn Độ - tiếng Anh,… sử dụng mơ hình, phƣơng thức, cách tiếp cận khác Tuy nhiên, thời điểm chƣa có nghiên cứu Chuyển ngữ ngôn ngữ tiếng Nhật – tiếng Việt Từ đƣa cho toán việc chuyển ngữ cặp ngôn ngữ Nhật – Việt đƣợc xây dựng phát triển dựa nghiên cứu trƣớc Vì vậy, tơi lựa chọn thực đề tài “Chuyển ngữ tự động từ tiếng Nhật sang tiếng Việt” Mục tiêu nghiên cứu chuyển phiên âm từ tiếng Nhật sang tiếng Việt để dịch từ tiếng Nhật có phiên âm tiếng Nhật tƣơng ứng với phiên âm tiếng Việt từ tiếng Việt việc dịch không dựa vào nghĩa từ mà dựa vào phiên âm từ Nghiên cứu tập trung việc chuyển ngữ tên riêng từ không xác định (unknown)giữa cặp ngôn ngữ 27 Giải pháp: Để khắc phục hạn chế trên, phƣơng pháp MT đƣợc phát triển SMT dựa cụm từ Điều cho phép hệ thống dịch cụm từ tránh tình trạng dịch word-by-word Vì có trƣờng hợp từ ngơn ngữ tiếng Việt có nhiều nghĩa ngơn ngữ tiếng Việt 2.1.3 Định nghĩa tốn Nhiệm vụ hệ thống SMT mơ hình xác suất dịch p(v|j), câu ngơn ngữ nguồn j đƣợc dịch sang câu ngơn ngữ đích v.Brown cộng [2] sử dụng luật Bayes để tính xác suất dịch câu ngơn ngữ nguồn j sang câu ngơn ngữ đích v nhƣ sau: v* = arg max p(v|j) v = arg max v p j | v p( v) p( j) (2.1) arg max p(j|v)p(v) v = Trong đó: p(v) mơ hìnhngơn ngữ vàp(j|v) mơ hình dịch Mơ hình ngơn ngữ p(v) đƣợc ƣớc lƣợng từ ngữ liệu ngôn ngữ đích (ngữ liệu đơn ngữ) mơ hình dịch p(j|v) đƣợc ƣớc lƣợng từ ngữ liệu song ngữ từ cặp ngơn ngữ Nhật – Việt 2.1.4 Mơ hình dịch Trong phƣơng pháp này, câu đầu vào đƣợc chia thành chuỗi cụm từ; cụm từ đƣợc ánh xạ 1-1 đến cụm từ câu đầu ra, đƣợc xếp lại thứ tự cụm từ Chất lƣợng dịch dịch thống kê dựa cụm từ phụ thuộc nhiều vào chất lƣợng bảng dịch cụm từ (phrase table) Để xây dựng bảng dịch cụm từ đầu tiên, tạo gióng hàng từ cặp câu ngữ liệu song ngữ, sau trích xuất cặp cụm từ phù hợp với gióng hàng từ Khi trích xuất cặp cụm từ, phải chọn cụm từ ngắn cụm từ dài, tất hữu ích Các cặp cụm từ đƣợc lƣu giữ lại bảng cụm từ với xác suất ( ji | vi ), đó: ji | vi count j | v count j | v j Theo Koehn [1], câu ngôn ngữ nguồn j đƣợc tách thành I cụm từ j1 , j2 , , jI Mỗi cụm từ ji j đƣợc dịch thành cụm từ vi tƣơng ứng v Quá trình đƣợc thực dựa vào phân phối xác suất ( ji | vi ) Ngoài ra, cụm từ vi đƣợc xếp lại theo thứ tự định dựa mơ hình chuyển đởi 28 d (starti endi 1 ) , với starti vị trí bắt đầu cụm từ ji endi-1 vị trí kết thúc cụm từ vi 1 Khi đó, xác suất dịch p(j|v) đƣợc tính theo cơng thức: p(j|v) = I ( fi | ei )d (starti endi1 ) (2.2) i 1 2.1.5 Mơ hình ngơn ngữ Các mơ hình ngơn ngữ n-gram sử dụng giả định Markov để phân tách xác suất câu thành tích xác suất từ câu, cho giới hạn số lƣợng từ đứng trƣớc Hay, mơ hình ngơn ngữ n-gram, ta muốn tính xác suất câu c = t1, t2, …, tn xác suất câu c đƣợc phân rã thành tích xác suất có điều kiện Sử dụng quy tắc dây chuyền (chain rule), xác suất câu p(c) đƣợc phân rã thành xác suất từ riêng lẻ p(t) p(t1, t2, …, tn) = p(t1)p(t2|t1)…p(tn| t1, t2, …, tn-1) (2.3) Để ƣớc lƣợng phân phối xác suất từ công thức (2.3), ta sử dụng xấp xỉ Markov, ta có xác suất xuất từ tn coi nhƣ phụ thuộc vào m từ đứng liền trƣớc nó: p(tn|t1, t2, , tn-1) p(tn|tn-m,…, tn-2, tn-1) (2.4) Thông thƣờng, ta chọn giá trị m dựa lƣợng liệu huấn luyện ta có Nhiều liệu huấn luyện cho phép chọn m lớn Mơ hình ngơn ngữ trigram thƣờng đƣợc sử dụng nhiều Với mơ hình trigram, ta xem xét hai từ đứng liền trƣớc (tức m = 2) để dự đoán từ thứ ba Điều đòi hỏi thu thập số liệu thống kê chuỗi gồm ba từ, nên đƣợc gọi 3-gram (trigram) Ngồi ra, mơ hình ngơn ngữ đƣợc ƣớc lƣợng với 2-gram (bigram), 1-gram (unigram),… Ở đây, ta ƣớc lƣợng xác suất trigram p(t3|t1, t2) Để thực công việc này, ta đếm số chuỗi t1, t2 theo sau từ t3 (ký hiệu count(t1, t2, t3)) số chuỗi t1, t2 đƣợc theo sau từ khác (ký hiệu t count (t1 , t2 , t ) ) ngữ liệu huấn luyện Theo MLE, ta tính: p(t3|t1, t2) = count t1 , t2 , t3 t count (t1, t2 , t ) (2.5) 2.1.6 Giải mã Nhiệm vụ thành phần tìm câu v ngơn ngữ đích cho tích p(j|v)p(v) cơng thức (2.1) đạt giá trị cực đại với câu đầu vào j ngôn ngữ nguồn Trƣớc dịch câu đầu vào ngôn ngữ nguồn, ban đầu ta tham khảo dịch tìm kiếm lựa chọn dịch thích hợp Trong q trình giải mã, ta lƣu lại dịch phần cấu trúc liệu gọi giả thuyết Bộ giải mã đƣa hình 29 thức mở rộng cho giả thuyết cách định cụm từ dịch Do tính tốn phức tạp giải mã (NP – đầy đủ), ta cần hạn chế không gian tìm kiếm Để thực việc này, ta tái tở hợp, dùng kỹ thuật quy hoạch động để loại bỏ giả thuyết không phần dịch tốt Giới hạn trật tự từ làm giảm tƣơng đối khơng gian tìm kiếm Do khơng gian tìm kiếm lớn nên giải mã thƣờng áp dụng thuật tốn tìm kiếm tối ƣu Thuật tốn đƣợc đƣa A*, kỹ thuật tìm kiếm tiêu chuẩn trí tuệ nhân tạo Thuật toán A* khái quát nhƣ sau: bƣớc mở rộng khơng gian tìm kiếm ta sử dụng hàm ƣớc lƣợng, đánh giá trọng số để kết tìm kiếm ln tốt tìm thấy 2.1.7 Tối ƣu hóa Đánh giá Nhƣ trình bày phần 1.2.2, phƣơng pháp đánh giá đƣợc đƣa BLEU Ở phần cụ thể cách thức Tổng quát, với MT T dịch mẫu S, trƣớc hết BLEU thống kê số lần tối thiểu cụm n-gram xuất cặp câu, sau chia cho tổng số cụm ngram T Tỉ lệ trùng khớp pn T S đƣợc tính theo cơng thức: pn tT n gramt Countclip (n gram) t 'T n gram 't ' Countclip (n gram ') (2.7) Trong đó, Countclip(n-gram) số lƣợng tối thiểu cụm n-gram có S Countclip(n-gram’) số lƣợng cụm n-gram’ có T Điểm BLEU đánh giá T với dịch mẫu S đƣợc tính theo cơng thức (2.8) đó, wn N lần lƣợt trọng số (tổng trọng số wn 1) độ dài (tính theo đơn vị từ) n-gram đƣợc sử dụng: N BLEU = BP * exp( wn log pn ) (2.8) n 1 Với giá trị BP đƣợc tính theo cơng thức sau: t > s BP 1 s /t t s e (2.9) Trong đó, t độ dài MTT s độ dài S Bản dịch có điểm BLEU cao độ trùng khớp MT dịch mẫu nhiều Nhƣ dịch xác 2.2 Chuyển ngữ từ tiếng Nhật sang tiếng Việt Phần mơ tả mơ hình chuyển ngữ khơng giám sát cho từchƣa đƣợc dịch (không xác định) hệ thống dịch máy 30 Ý tƣởng: Theo Koehn [8], ta sử dụng mơ hình chuyển ngữ khơng giám sát dựa thuật tốn EM để tạo ngữ liệu chuyển ngữ từ liệu song ngữ xếp từ Từ sử dụng để huấn luyện mơ hình chuyển ngữ Koehn đƣa ba phƣơng pháp để tích hợp việc chuyển ngữ giải mã ta thực với hệ thống Moses Trong luận văn, áp dụng phƣơng pháp Thay từ OOV từ đƣợc chuyển ngữ có xác suất cao (1-best transliteration) giai đoạn hậu giải mã để tích hợp mơ hình chuyển ngữ không giám sát vào hệ thống SMT Nhƣ nói từ trƣớc, khó khăn cho việc xây dựng hệ thống chuyển ngữ thiếu liệu từ cặp liệu huấn luyện cho chuyển ngữ Tuy nhiên, liệu song ngữ có số lƣợng phù hợp cặp từ đƣợc chuyển ngữ Việc khai thác mơ hìnhchuyển ngữ đƣợc sử dụng để trích xuất cặp từ nhƣ từ hệ thống song ngữ Phƣơng pháp chuyển ngữ không giám sát giúp khai thác cặp ngôn ngữ mà liệu huấn luyện có sẵn Các bƣớc thực chuyển ngữ: Khai phá chuyển ngữ Huấn luyện mô hình chuyển ngữ Tích hợp mơ hình chuyển ngữ vào hệ thống dịch Sau đây, mô tả cụ thể việc triển khai bƣớc nhƣ sau Thứ nhất, Khai phá chuyển ngữ: Việc khai phá chuyển ngữ tìm cặp từ chuyển ngữ tính xác suất cho cặp từ Mơ hình khai phá gồm hai mơ hình mơ hình chuyển ngữ (transliteration model) mơ hình khơng chuyển ngữ (non-transliteration model) Trong đó, mơ hình chuyển ngữ đƣa cặp từ đƣợc chuyển ngữ có xác suất cao với mơ hình khơng chuyển ngữ Mơ hình khơng chuyển ngữ đƣa cặp từ khơng có quan hệ liên kết kí tự chúng Ta kí hiệu cặp từ hai ngơn ngữ (e, f) Mơ hình chuyển ngữ - Xác suất cặp từ là: a p(q j ) ptm (e, f) = (2.10) aA( e , f ) j 1 với A(e, f) tập hợp tất chuỗi có từ ánh xạ kí tự; a chuỗi ánh xạ bất kỳ; qj kí tự chuỗi ánh xạ Mơ hình khơng chuyển ngữ - Xác suất cặp từ là: pntm(e, f) = |e| |f| i 1 i 1 pE (ei ) pF ( fi ) (2.11) 31 - Mơ hình khơng thay đởi q trình huấn luyện liệu Mơ hình khai phá chuyển ngữ (transliteration mining model) Do ko biết trƣớc cặp từ chuyển ngữ liệu cặp từ nên ta tính điểm cặp từ theo công thức nội suy tuyến tính nhƣ sau: p(e, f ) (1 ) ptm (e, f ) pntm (e, f ) (2.12) Với λ hệ số, có giá trị khoảng (0, 1) Có thể hiểu xác suất đƣợc tính cơng thức (2.12) giúp dung hịa xác suất đƣợc tính hai cơng thức (2.10) (2.11) cuối cùng, xác suất đƣợc đƣa từ công thức xác suất cho cặp từ Thứ hai, Huấn luyện mơ hình chuyển ngữ khơng giám sát Phƣơng pháp: Sử dụng mơ hình SMT dựa cụm từ để học mơ hình chuyển ngữ Dữ liệu huấn luyện cặp từ, tách thành ký tự học hệ thống dịch cụm từ cặp ký tự Tôi chia ngữ liệu huấn luyện thành kí tự, thực phân cụm từ cho cặp kí tự Mơ hình chuyển ngữ giả sử thứ tự ký tự từ nguồn từ đích không thay đổi nên không sử dụng mô hình xếp trật tự từ Tơi sử dụng đặc trƣng là: cácđặc trƣng dịch dựa cụm từ (dịch trực tiếp, dịch đảo cụm từ đánh trọng số từ vựng), mơ hình ngơn ngữ (đƣợc xây dựng từ phía đích ngữ liệu chuyển ngữ đƣợc khai phá), điểm phạt từ cụm từ Các trọng số đƣợc điều chỉnh gồm 1000 cặp từ đƣợc chuyển ngữ Thứ ba, Tích hợp chuyển ngữ vào MT Thay từ OOV đầu từ đƣợc chuyển ngữ tốt Kết quảchỉ phụ thuộc vào độ xác mơ hình chuyển ngữ trình bày Ngồi ra, phƣơng pháp bỏ qua ngữ cảnh dẫn tới chuyển ngữ khơng xác Khi đó, sơ đồ dịch hệ thống MT là: 32 Câu nguồn j Tiền xử lý Giải mã Chuyển ngữ Câu đích v Hình 2.2 Sơ đồ dịch hệ thống MT sau tích hợp chuyển ngữ 33 CHƢƠNG THỬ NGHIỆM 3.1 Môi trƣờng triển khai - Phần cứng: Bộ xử lý Core i5 -3437U CPU 2.40GHz, RAM 4GB - Phần mềm: Hệ điều hành Ubuntu 16.04 64 bit 3.2 Dữ liệu Dữ liệu đầu vào liệu song ngữ Nhật – Việt, gồm gần 40000 cặp câu Nhật – Việt đƣợc thu thập từ nguồn Wiki, TED Tiền xử lý văn dùng công cụ tách từ để gộp từ vào thành cụm từ o Công cụ tách từ tiếng Nhật: Mecab https://pypi.python.org/pypi/mecab-python3 o Công cụ tách từ tiếng Việt: Vitk https://github.com/phuonglh/vn.vitk 3.3 Công cụ cho hệ dịch máy 3.3.1 Moses Theo Koehn [5], Moses công cụ MT mã nguồn mở.Nó thực giải mã dựa cụm từ bao gồm việc huấn luyện liệu đƣợc xây dựng trƣờng Đại học Edinburgh; sau đó, đƣợc phát triển hội thảo trƣờng Đại học Johns Hopkins Moses đƣợc sử dụng rộng rãi cộng đồng nghiên cứu phát triển Moses bao gồm đầy đủ thành phần để tiền xử lý liệu, huấn luyện mơ hình ngơn ngữ mơ hình dịch Nó bao gồm cơng cụ đánh giá cho mơ hình sử dụng huấn luyện với tối ƣu lỗi đánh giá kết dịch sửdụng điểm BLEU 3.3.2 GIZA GIZA++ chƣơng trình dùng để gióng hàng từ trình tự từ ngữ liệu song ngữ nhằm mục đích liên kết mơ hình phụ thuộc vào lớp từ Nó phƣơng pháp gióng hàng từ khơng giám sát tốt GIZA++ việc thực mơ hình dựa từ IBM, đƣợc phát triển hội thảo trƣờng Đại học Johns Hopkins sau đƣợc cải tiến Franz Och (2003) 3.3.3 KenLM Đánh giá mơ hình ngơn ngữ với cải tiến Kneser-Ney Việc xây dựng dựa ổ đĩa: ta xác định số lƣợng RAM cần dùng thực xếp dựa ổ đĩa cần thiết 34 3.3.4 MERT (Minimum Error Rate Training) MERT việc điều chỉnh tham số với thƣớc đo lỗi cụ thể việc khai thác liệu Ta muốn điều chỉnh tham số để ta đạt đƣợc điểm BLEU tối ƣu điều chỉnh (turing set) MERT đƣợc dùng Moses để tối ƣu hóa hiệu hệ thống dịch 3.4 Thiết lập mặc định Các thông số liệu đƣợc thiết lập mặc định trình huấn luyện nhƣ sau: Độ dài cụm từ lớn nhất: Dữ liệu mơ hình ngơn ngữ: tất N-gram cho mơ hình ngơn ngữ: Các tham số mơ hình Distortion: 0.0775344 Language Model: 0.0775344 Translation Model: 0.110447, 0.053495, 0.0266803, 0.0686311 WordPenalty: -0.279847 PhrasePenalty: -0.306445 UnknownWordPenalty: 3.5 Kết thực nghiệm 3.5.1 Dữ liệu đầu vào Dữ liệu huấn luyện Dữ liệu điều chỉnh tham số Dữ liệu đánh giá Ngôn ngữ Tiếng Nhật Tiếng Việt Tiếng Nhật Tiếng Việt Tiếng Nhật Tiếng Việt Số câu thực nghiệm 40000 câu 40000 câu 950 câu 950 câu 1000 câu 1000 câu Độ dài trung bình câu tiếng Nhật:39.3 từ Độ dài trung bình câu tiếng Việt:25.8 từ 3.5.2 Quá trình xử lý liệu huấn luyện 3.5.2.1 Xử lý liệu cho hệ thống MT - Từ tệp tin liệu đầu vào, tiến hành tách từ việc sử dụng công cụ tách từ nói 35 3.5.2.2 Huấn luyện mơ hình ngơn ngữ Nhƣ trình bày nội dung trên, tơi sử dụng mơ hình ngơn ngữ trigram (3-gram)đƣợc huấn luyện từ 12481 từ tiếng Việt Tài liệu KenLM đƣa giải thích tùy chọn dịng lệnh Sau nhị phân tập tin * arpa.en sử dụng KenLM để tải nhanh 3.5.2.3 Huấn luyện mơ hình dịch Tơi thực huấn luyện thơng qua kích thƣớc tập liệu huấn luyện thay đổi tăng dần (với số lƣợng cặp câu Nhật – Việt tƣơng ứng lần lƣợt là: 5000, 10000, 15000, 20000, 30000 40000) Bảng 3.1 Kết chất lượng dịch tăng dần kích thước liệu huấn luyện Kích thƣớc liệu (số lƣợng cặp câu) 5000 10000 15000 20000 30000 40000 Điểm BLEU 9.88 10.02 10.07 11.02 11.88 12.39 Nhìn vào bảng 3.1 trên, ta dễ dàng nhận thấy với kích thƣớc liệu lớn điểm BLEU caotƣơng ứng chất lƣợng dịch tốt Một số ví dụ dịch chƣa tích hợp chuyển ngữ: Bảng 3.2 Một số ví dụ hệ thống dịch máy chưa tích hợp chuyển ngữ STT Câu tiếng Nhật Câu tiếng Việt ウクライナのドネツク市で炭坑の爆 thành_phố ドネツク 発で少なくとも80人が死亡し、2 ukraine vụ nổ mỏ có ít_nhất 80 ngƣời chết , 20 ngƣời mất_tích 0人が行方不明だと報告された。 đƣợc báo_cáo 組合の推定によると、2006から theo ƣớc_tính hiệp_hội , từ 2007年にほぼ250人の鉱夫が 2006 đến năm 2007 gần 250 thợ mỏ thiệt_mạng vụ tai_nạn 事故で死んだ。 trang web lớn cơng_cụ ウェブ上の最大の検索エンジン tìm_kiếm google thông_qua Google はいろいろなサービスを通して毎日 dịch_vụ nhiều hai triệu ngày với phép_tính 2億以上の問合わせを受ける。 爆弾が安全に信管を外される間、 20 人が自宅を避難した。 bom đƣợc tháo ngịi_nở an_tồn , có 20 ngƣời nhà đƣợc sơ_tán 36 ジャスティン・ヤクと彼の妻も死亡 ジャスティン・ヤク vợ ông đƣợc xác_nhận が確認されている。 thiệt_mạng Nhìn vào số câu đƣợc dịch từ hệ dịch máy nhƣ ví dụ ta thấy kết dịch hệ thống tồn số câu chứa từ không xác định hay chƣa đƣợc dịch Khi đó, tơi sử dụng mơ hình chuyển ngữ cho từ vào giai đoạn hậu giải mã hệ thống dịch.Kết đƣợc trình bày phần 3.5.2.4 Huấn luyện mơ hình chuyển ngữ - Dữ liệu đƣợc trích xuất từ liệu gồm 40000 cặp câu song ngữ 12481 cặp từ dùng để huấn luyện cho mơ hình chuyển ngữ Số lƣợng cặp từ đƣợc lấy theocác công thức (3.1), (3.2) (3.3) chƣơng - Hệ số λ = 0.2 đƣợc lấy thực nghiệm - Sau huấn luyện xong, thực chuyển ngữ cho từ không xác định gồm tên riêng (từ nghĩa) từ có nghĩa khác file kết dịch mơ hình dịch máy Đầu tiên, thống kê số lƣợng từ không xác định (không dịch đƣợc) nhƣ bảng 3.3 sau: Bảng 3.3 Thống kê số lượng từ không xác địnhcủa hệ dịch máy dựa cụm từ Từ không xác định Tên riêng Từ có nghĩa Tổng Số lƣợng (từ) 708 165 873 Tỉ lệ (%) 81.1 18.9 100 Từ bảng 3.3, ta thấy tổng số từ không xác định từ hệ dịch máy 523 từ, có 358 từ tên riêng 165 từ có nghĩa khác Sau thống kê tổng số lƣợng từ không xác định đƣợc bao gồm tên riêng từ có nghĩa, áp dụng chuyển ngữ cho từ mơ hình chuyển ngữ khơng giám sát Kết chuyển ngữ đƣa từ đƣợc chuyển ngữ chuyển ngữ sai nhƣ bảng 3.4 sau: Bảng 3.4 Thống kê kết chuyển ngữ cho từ không xác định từ hệ dịch máy Từ không xác định Tên riêng Từ có nghĩa Tổng Chuyển ngữ (số từ) 116 38 154 Tỉ lệ (%) 16.38 23.03 17.64 Chuyển ngữ sai(số từ) 592 127 719 Tỉ lệ sai (%) 83.62 76.97 82.36 37 Nhìn vào kết bảng 3.4, từ không xác định đƣợc từ hệ dịch máy đƣợc chuyển ngữ kết đầu thêm lƣợng từ đƣợc chuyển ngữ Trong đó: - Từ tên riêng đƣợc chuyển ngữ đúng: 116 từ/708 từ tên riêng đƣợc chuyển ngữ, tƣơng ứng 16.38 % tổng số từ tên riêng đƣợc chuyển ngữ - Từ có nghĩa khác đƣợc chuyển ngữ đúng: 38 từ/165 từ có nghĩa khác đƣợc chuyển ngữ, tƣơng ứng 23.03% tổng số từ có nghĩa đƣợc chuyển ngữ - Tởng số từ đƣợc chuyển ngữ (gồm tên riêng từ có nghĩa khác): 154 từ/873 từ không xác định, tƣơng ứng 17.64% tổng số tất từ không xác định từ hệ dịch máy Đồng thời, thống kê đƣợc số lƣợng câu đƣợc dịch số kí tự đƣợc dịch hệ dịch máy trƣớc sau đƣợc tích hợp chuyển ngữ nhƣ sau: Chƣa tích hợp Đã tích hợp chuyển ngữ chuyển ngữ Số câu đƣợc dịch 325/1000 (câu) 356/1000 (câu) Số kí tự dịch 231895 245387 Một số ví dụ việc chuyển ngữ: Chuyển ngữ đúng: o Tên riêng: STT Tên riêng tiếng Nhật ドネツク Tên riêng tiếng Việt donetsk ブレンダン・テイラー brendan_taylor アリゴテ aligote ホア Hoa ティエップ Tiếp o Từ có nghĩa: STT Từ tiếng Nhật 混ざっ Từ tiếng Việt n トウェンティ twente 成 đ 取り壊さ phá_huỷ 切ら ệm 38 Chuyển ngữ sai: o Tên riêng: STT Tên riêng tiếng Nhật ビクトル・ヤヌコビッチ Tên riêng tiếng Việt biktl_yanoucobiuc ライン line ツアン zan カイン caine ホウオン howon o Từ có nghĩa: STT Từ tiếng Nhật 乗っ取っ Từ tiếng Việt nganh 灯さ ang 運び込む ép 青白かっ mặn 取り乱し ởn Khi đó, câu ngơn ngữ đích có thêm câu đƣợc dịch xác Một số ví dụ cho việc dịch tích hợp chuyển ngữ: STT Câu tiếng Nhật Câu tiếng Việt ウクライナのドネツク市で炭坑 vụ nổ mỏ than giết の爆発で少なくとも80人が死 chết ít_nhất 80 ngƣời thành_phố 亡し、20人が行方不明だと報 donetsk , ukraina , 20 ngƣời đƣợc báo_cáo mất_tích 告された。 ジャスティン・ヤクと彼の妻も justin_yak vợ ông đƣợc xác_nhận chết 死亡が確認されている。 アジンホスメチルは、第二次世 界大戦中に使用された神経剤に 由来する危険な神経毒である。 azinphos methyl chất_độc thần_kinh nguy_hiểm có nguồn_gốc từ chất_độc thần_kinh đƣợc sử_dụng thế_chiến thứ ii 39 Nhƣ vậy, sau tơi tích hợp mơ hình chuyển ngữ khơng giám sát vào hệ dịch máy điểm BLEU tăng từ 12.39 lên 12.57 Điểm BLEU tăng kết đƣợc tính thêm tỉ lệ chuyển ngữ cho từ không đƣợc dịch từ hệ dịch máy Do đó, chất lƣợng dịch hệ dịch máy xác Tuy nhiên, phần thực nghiệm luận văn, bị hạn chế số lƣợng liệu song ngữ Nhật – Việt nên điểm BLUE chƣa cao Trong tƣơng lai, để nâng cao chất lƣợng dịch nhƣ chuyển ngữ cần phát triển thêm liệu song ngữ 40 KẾT LUẬN Luận văn trình bày kiến thức toán chuyển ngữ, ứng dụng dịch máy thống kê; tìm hiểu mơ hình dịch máy thống kê dựa vào cụm từ; nghiên cứu phƣơng pháp chuyển ngữ không giám sát thử nghiệm cho cặp ngôn ngữ Nhật – Việt tích hợp chuyển ngữ khơng tích hợp chuyển ngữ vào dịch máy thống kê dựa vào cụm từ Từ đó, ta thấy việc đƣa chuyển ngữ vào tốn dịch máy hồn tồn hợp lý cần thiết để kết dịch xác tối ƣu Hƣớng nghiên cứu tiếp luận văn: - Tiếp tục xây dựng thêm ngữ liệu song ngữ, nghiên cứu thêm phƣơng pháp chuyển ngữ không giám sát phƣơng pháp chuyển ngữ khác để chuyển ngữ cho tên riêng, từ không xác định khác - Tích hợp chuyển ngữ vào giao đoạn giải mã để cải tiến chất lƣợng nhƣ hiệu hệ thống dịch máy 41 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Đào Ngọc Tú (2012), Nghiên cứu dịch thống kê dựa vào cụm từ thử nghiệm với cặp ngơn ngữ Anh – Việt,Tóm tắt Luận văn Thạc sĩ,Học viện Cơng nghệ Bƣu Viễn thơng, Hà Nội [2] VNLP – Nhóm xử lý ngơn ngữ tự nhiên cho tiếng Việt (2015), Hệ thống âm vị, http://vnlp.net/ti%E1%BA%BFng-vi%E1%BB%87t-c%C6%A1b%E1%BA%A3n/h%E1%BB%87-th%E1%BB%91ng-am-v%E1%BB%8B/ [3] Lê Quang Hùng (2015), Khai phá tri thức song ngữ ứng dụng dịch máy Anh – Việt,Luận án Tiến sĩ Khoa học Máy tính, Đại học Quốc gia Hà Nội, Trƣờng Đại học Công nghệ, Hà Nội [4].Ngơ Hƣơng Lan, Hồ Hồng Hoa (2008),Một số đặc điểm tiếng Nhật, Tạp chí Nghiên cứu Đơng Bắc Á, Số 7, đăng ngày 30/10/2012, trang http://www.inas.gov.vn/403-mot-so-dac-diem-cua-tieng-nhat.html Tiếng Anh: [5] Philipp Koehn (2009), Statistical Machine Translation,School of Informatics, University of Edinburgh, Cambridge University Press [6] David Matthews (2007), Machine Transliteration of Proper Names, Master of Science, School of Informatics, University of Edinburgh [7] Kevin Knight, Jonathan Graehl (1998), Machine Transliteration,Computational Linguistics, Volume 24, Number 4, pp 599-612 [8] Hieu Hoang, Philipp Koehn (et.al, 2014),Integrating an Unsupervised Transliteration Model into Statistical Machine Translation,Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, pp.148–153, Gothenburg, Sweden, April 26-30 2014 © 2014 Association for Computational Linguistics [9] Sarvnaz Karimi, Falk Scholer, Andrew Turpin (2011), Machine Transliteration Survey, ACM Computing Surveys,Vol 43, No 3, pp 17:0 – 17:46, Article 17, Publication date: April 2011, DOI: 10.1145/1922649.1922654·Source: DBLP [10] Hoang Gia Ngo, Nancy F Chen, Sunil Sivadas, Bin Ma, Haizhou Li (2014), A Minimal-Resource Transliteration Framework for Vietnamese,Published in INTERSPEECH, Singapore [11] Philipp Koehn (2017), Statistical Machine Translation- Chapter 13: Neural Machine Translation, Center for Speech and Language Processing, Department of Computer Science, Johns Hopkins University [12] http://www.statmt.org/moses/