ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN THỊ THU HUYỀN CHUYỂN NGỮ TỰ ĐỘNG TỪ TIẾNG NHẬT SANG TIẾNG VIỆT LUẬN VĂN THẠC SĨ Hà Nội – 2017 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN THỊ THU HUYỀN CHUYỂN NGỮ TỰ ĐỘNG TỪ TIẾNG NHẬT SANG TIẾNG VIỆT Ngành: Công nghệ Thông tin Chuyên ngành: Kỹ thuật Phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Nguyễn Phương Thái Hà Nội - 2017 LỜI CAM ĐOAN Tôi xin cam đoan luận văn kết nghiên cứu tôi, thực hướng dẫn PGS TS Nguyễn Phương Thái Các nội dung trích dẫn từ nghiên cứu tác giả khác mà tơi trình bày luận văn ghi rõ nguồn phần tài liệu tham khảo Người thực Trần Thị Thu Huyền LỜI CẢM ƠN Trước hết, xin chân thành cảm ơn PGS TS Nguyễn Phương Thái, Thầy trực tiếp hướng dẫn, nhiệt tình hỗ trợ tạo điều kiện tốt cho thực luận văn Tôi xin gửi lời cảm ơn đến tất Thầy/Cô Khoa Công nghệ Thông tin, trường Đại học Công nghệ, Đại học Quốc gia Hà Nội giảng dạy giúp đỡ tơi q trình học tập nghiên cứu trường Cuối cùng, xin gửi lời cảm ơn tới người thân gia đình, bạn bè ln bên cạnh động viên, ủng hộ thời gian học Phần thực nghiệm luận văn sử dụng kho ngữ liệu song ngữ đề tài “Xây dựng hệ thống dịch tự động hỗ trợ việc dịch tài liệu tiếng Việt tiếng Nhật nhằm giúp nhà quản lý doanh nghiệp Hà Nội tiếp cận làm việc hiệu với thị trường Nhật Bản” Do kinh nghiệm kiến thức hạn chế, tơi mong Thầy/Cơ anh chị, bạn bè đóng góp thêm ý kiến q báu để tơi hồn thiện thêm luận văn Người thực Trần Thị Thu Huyền MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN BẢNG KÝ HIỆU CÁC CHỮ VIẾT TẮT .5 DANH MỤC CÁC HÌNH VẼ DANH MỤC BẢNG .7 MỞ ĐẦU CHƯƠNG GIỚI THIỆU CHUNG 1.1 Đặc trưng ngôn ngữ tiếng Việt, tiếng Nhật 1.1.1 Tiếng Việt .9 1.1.2 Tiếng Nhật 12 1.2 Bài toán dịch máy dịch thống kê dựa vào cụm từ 16 1.2.1 Bài toán dịch máy .16 1.2.2 Dịch máy thống kê .19 1.2.3 Thảo luận 21 1.3 Vấn đề tên riêng, từ mượn dịch máy 22 1.4 Bài toán dịch tên riêng, chuyển ngữ 22 1.4.1 Khái niệm chuyển ngữ 22 1.4.2 Phân biệt Chuyển ngữ (Transliteration) Biên dịch (Translation) 23 1.4.3 Ứng dụng Chuyển ngữ 23 1.4.4 Một số khó khăn toán Chuyển ngữ 24 1.4.5 Thuộc tính kỳ vọng q trình Chuyển ngữ 25 CHƯƠNG DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ 26 VÀ CHUYỂN NGỮ TỪ TIẾNG NHẬT SANG TIẾNG VIỆT 26 2.1 Dịch máy thống kê dựa vào cụm từ 26 2.1.1 Giới thiệu 26 2.1.2 Mục đích mơ hình dịch dựa cụm từ .26 2.1.3 Định nghĩa toán 27 2.1.4 Mơ hình dịch 27 2.1.5 Mơ hình ngơn ngữ 28 2.1.6 Giải mã 28 2.1.7 Tối ưu hóa Đánh giá 29 2.2 Chuyển ngữ từ tiếng Nhật sang tiếng Việt 29 CHƯƠNG THỬ NGHIỆM .33 3.1 Môi trường triển khai 33 3.2 Dữ liệu 33 3.3 Công cụ cho hệ dịch máy 33 3.3.1 Moses 33 3.3.2 GIZA 33 3.3.3 KenLM 33 3.3.4 MERT (Minimum Error Rate Training) 34 3.4 Thiết lập mặc định 34 3.5 Kết thực nghiệm 34 3.5.1 Dữ liệu đầu vào 34 3.5.2 Quá trình xử lý liệu huấn luyện 34 KẾT LUẬN 40 TÀI LIỆU THAM KHẢO .41 BẢNG KÝ HIỆU CÁC CHỮ VIẾT TẮT BLEU EM MLE MT NMT OCR RBMT SMT BiLingual Evaluation Understudy Estimation Maximization Maximum Likelihood Estimation Machine Translation Neural MachineTranslation Optical Character Recognition Rule-based Machine Translation Statistical Machine Translation Đánh giá dạng song ngữ Ước lượng cực đại Ước lượng khả cực đại Dịch máy Dịch máy mạng nơ ron Nhận dạng kí tự thị giác Dịch máy dựa nguyên tắc Dịch máy thống kê DANH MỤC CÁC HÌNH VẼ Hình 1.1 Bảng chữ Katakana Hình 1.2 Tam giác thể q trình dịch máy Hình 1.3 Mơ hình hóa tốn MT dựa phương pháp thống kê Hình 1.4 Các thành phần hệ dịch máy SMT Hình 1.5 Chuyển ngữ từ tiếng Nhật sang tiếng Việt tên riêng“Huyền” Hình 2.1 Ví dụ việc phân cụm từ cặp câu ngôn ngữ Nhật – Việt Hình 2.2 Sơ đồ dịch hệ thống MT sau tích hợp chuyển ngữ 13 17 19 20 23 26 32 DANH MỤC BẢNG Bảng 1.1 Bảng âm vị nguyên âm Bảng 1.2 Bảng âm vị phụ âm Bảng 3.1 Kết chất lượng dịch tăng dần kích thước liệu huấn luyện Bảng 3.2 Một số ví dụ hệ thống dịch máy chưa tích hợp chuyển ngữ Bảng 3.3 Thống kê số lượng từ không xác định hệ dịch máy dựa cụm từ Bảng 3.4 Thống kê kết chuyển ngữ cho từ không xác định từ hệ dịch máy 10 11 35 35 36 36 MỞ ĐẦU Hiện có hàng nghìn ngơn ngữ tồn giới, ngơn ngữ có đặc trưng riêng bảng chữ cách phát âm Một vấn đề đặt cho việc dịch cặp ngôn ngữ dịch xác tên riêng thuật ngữ kỹ thuật Đối với ngơn ngữ có hệ thống bảng chữ âm tương tự (như tiếng Tây Ban Nha tiếng Anh) khơng phải vấn đề lớn với ngơn ngữ có hệ thống chữ viết khác thách thức thông dịch viên máy dịch Trước có nhiều nghiên cứu việc Chuyển ngữ cặp ngôn ngữ khác tiếng Anh – tiếng Nhật/Trung/Hàn/Nga/Ả rập, Urdu - Ấn Độ - tiếng Anh,… sử dụng mơ hình, phương thức, cách tiếp cận khác Tuy nhiên, thời điểm chưa có nghiên cứu Chuyển ngữ ngôn ngữ tiếng Nhật – tiếng Việt Từ đưa cho tốn việc chuyển ngữ cặp ngôn ngữ Nhật – Việt xây dựng phát triển dựa nghiên cứu trước Vì vậy, tơi lựa chọn thực đề tài “Chuyển ngữ tự động từ tiếng Nhật sang tiếng Việt” Mục tiêu nghiên cứu chuyển phiên âm từ tiếng Nhật sang tiếng Việt để dịch từ tiếng Nhật có phiên âm tiếng Nhật tương ứng với phiên âm tiếng Việt từ tiếng Việt việc dịch không dựa vào nghĩa từ mà dựa vào phiên âm từ Nghiên cứu tập trung việc chuyển ngữ tên riêng từ không xác định (unknown) cặp ngôn ngữ d (starti endi1 ) , với starti vị trí bắt đầu cụm ji endi-1 vị trí kết thúc từ cụm từ v i 1 Khi đó, xác suất dịch p(j|v tính theo công thức: p(j|v) = I ( fi | ei )d (starti (2.2) endi 1 ) i 1 2.1.5 Mơ hình ngơn ngữ Các mơ hình ngơn ngữ n-gram sử dụng giả định Markov để phân tách xác suất câu thành tích xác suất từ câu, cho giới hạn số lượng từ đứng trước Hay, mơ hình ngơn ngữ n-gram, ta muốn tính xác suất câu c = t1, t2, …, tn xác suất câu c phân rã thành tích xác suất có điều kiện Sử dụng quy tắc dây chuyền (chain rule), xác suất câu p(c phân rã thành xác suất từ riêng lẻ p(t) p(t1, t2, …, tn) = p(t1)p(t2|t1 …p(tn| t1, t2, …, tn-1) (2.3) Để ước lượng phân phối xác suất từ công thức (2.3), ta sử dụng xấp xỉ Markov, ta có xác suất xuất từ tn coi phụ thuộc vào m từ đứng liền trước nó: p(tn|t1, t 2, , tn-1) p(tn|tn-m, …, tn-2, tn-1) (2.4) Thông thường, ta chọn giá trị m dựa lượng liệu huấn luyện ta có Nhiều liệu huấn luyện cho phép chọn m lớn Mơ hình ngơn ngữ trigram thường sử dụng nhiều Với mơ hình trigram, ta xem xét hai từ đứng liền trước (tức m = để dự đốn từ thứ ba Điều đòi hỏi thu thập số liệu thống kê chuỗi gồm ba từ, nên gọi 3-gram (trigram) Ngoài ra, mơ hình ngơn ngữ ước lượng với 2-gram (bigram), 1-gram (unigram ,… Ở đây, ta ước lượng xác suất trigram p(t3|t1, t2 Để thực công việc này, ta đếm số chuỗi t1, t2 theo sau từ t3 (ký hiệu count(t1, t2, t3)) số chuỗi t1, t2 theo sau từ khác (ký hiệu count(t1, t2 , t) ) ngữ liệu huấn luyện t Theo MLE, ta tính: p(t3|t1, t2) = count t1 , t2 , t3 t count (t1 , t2 , (2.5) t) 2.1.6 Giải mã Nhiệm vụ thành phần tìm câu v ngơn ngữ đích cho tích p(j|v)p(v) công thức (2.1 đạt giá trị cực đại với câu đầu vào j ngôn ngữ nguồn Trước dịch câu đầu vào ngôn ngữ nguồn, ban đầu ta tham khảo dịch tìm kiếm lựa chọn dịch thích hợp Trong q trình giải mã, ta lưu lại dịch phần cấu trúc liệu gọi giả thuyết Bộ giải mã đưa hình thức mở rộng cho giả thuyết cách định cụm từ dịch Do tính tốn phức tạp giải mã (NP – đầy đủ), ta cần hạn chế khơng gian tìm kiếm Để thực việc này, ta tái t hợp, dùng kỹ thuật quy hoạch động để loại bỏ giả thuyết không phần dịch tốt Giới hạn trật tự từ làm giảm tương đối khơng gian tìm kiếm Do khơng gian tìm kiếm lớn nên giải mã thường áp dụng thuật tốn tìm kiếm tối ưu Thuật toán đưa A , kỹ thuật tìm kiếm tiêu chuẩn trí tuệ nhân tạo Thuật tốn A khái qt sau: bước mở rộng khơng gian tìm kiếm ta sử dụng hàm ước lượng, đánh giá trọng số để kết tìm kiếm ln tốt tìm thấy 2.1.7 Tối ưu hóa Đánh giá Như trình bày phần 1.2.2, phương pháp đánh giá đưa BLEU Ở phần cụ thể cách thức T ng quát, với MT T dịch mẫu S, trước hết BLEU thống kê số lần tối thiểu cụm n-gram xuất cặp câu, sau chia cho t ng số cụm ngram T Tỉ lệ trùng khớp pn T S tính theo cơng thức: tT n gramt Countclip (n gram) pn t 'T n gram Countclip (n gram ') (2.7) 't ' Trong đó, Countclip(n-gram) số lượng tối thiểu cụm n-gram có S Countclip(n-gram’) số lượng cụm n-gram’ có T Điểm BLEU đánh giá T với dịch mẫu S tính theo cơng thức (2.8) đó, wn N trọng số (t ng trọng số wn độ dài (tính theo đơn vị từ) n-gram sử dụng: N BLEU = BP * exp( wn log pn n1 ) Với giá trị BP tính theo công thức sau: t > s BP 1s /t t s e (2.8) (2.9) Trong đó, t độ dài MT T s độ dài S Bản dịch có điểm BLEU cao độ trùng khớp MT dịch mẫu nhiều Như dịch xác 2.2 Chuyển ngữ từ tiếng Nhật sang tiếng Việt Phần mơ tả mơ hình chuyển ngữ khơng giám sát cho từ chưa dịch (không xác định) hệ thống dịch máy Ý tưởng: Theo Koehn [8], ta sử dụng mơ hình chuyển ngữ khơng giám sát dựa thuật toán EM để tạo ngữ liệu chuyển ngữ từ liệu song ngữ xếp từ Từ sử dụng để huấn luyện mơ hình chuyển ngữ Koehn đưa ba phương pháp để tích hợp việc chuyển ngữ giải mã ta thực với hệ thống Moses Trong luận văn, áp dụng phương pháp Thay từ OOV từ chuyển ngữ có xác suất cao (1-best transliteration giai đoạn hậu giải mã để tích hợp mơ hình chuyển ngữ khơng giám sát vào hệ thống SMT Như tơi nói từ trước, khó khăn cho việc xây dựng hệ thống chuyển ngữ thiếu liệu từ cặp liệu huấn luyện cho chuyển ngữ Tuy nhiên, liệu song ngữ có số lượng phù hợp cặp từ chuyển ngữ Việc khai thác mô hình chuyển ngữ sử dụng để trích xuất cặp từ từ hệ thống song ngữ Phương pháp chuyển ngữ không giám sát giúp khai thác cặp ngôn ngữ mà liệu huấn luyện có sẵn Các bước thực chuyển ngữ: Khai phá chuyển ngữ Huấn luyện mơ hình chuyển ngữ Tích hợp mơ hình chuyển ngữ vào hệ thống dịch Sau đây, mô tả cụ thể việc triển khai bước sau Thứ nhất, Khai phá chuyển ngữ: Việc khai phá chuyển ngữ tìm cặp từ chuyển ngữ tính xác suất cho cặp từ Mơ hình khai phá gồm hai mơ hình mơ hình chuyển ngữ (transliteration model) mơ hình khơng chuyển ngữ (non-transliteration model) Trong đó, mơ hình chuyển ngữ đưa cặp từ chuyển ngữ có xác suất cao với mơ hình khơng chuyển ngữ Mơ hình khơng chuyển ngữ đưa cặp từ khơng có quan hệ liên kết kí tự chúng Ta kí hiệu cặp từ hai ngơn ngữ (e, f) Mơ hình chuyển ngữ - Xác suất cặp từ là: a p(q j ) ptm (e, f) = (2.10) aA(e, f ) j 1 với A(e, f) tập hợp tất chuỗi có từ ánh xạ kí tự; a chuỗi ánh xạ bất kỳ; qj kí tự chuỗi ánh xạ Mơ hình khơng chuyển ngữ - Xác suất cặp từ là: |e| |f| pntm(e, f) = pE (ei ) pF ( fi ) i 1 i 1 (2.11) - Mơ hình khơng thay đ i trình huấn luyện liệu Mơ hình khai phá chuyển ngữ (transliteration mining model) Do ko biết trước cặp từ chuyển ngữ liệu cặp từ nên ta tính điểm cặp từ theo cơng thức nội suy tuyến tính sau: p(e, f ) (1 ) ptm (e, f ) (2.12) pntm (e, f ) Với λ hệ số, có giá trị khoảng (0, 1) Có thể hiểu xác suất tính cơng thức (2.12) giúp dung hòa xác suất tính hai cơng thức (2.10) (2.11) cuối cùng, xác suất đưa từ công thức xác suất cho cặp từ Thứ hai, Huấn luyện mơ hình chuyển ngữ khơng giám sát Phương pháp: Sử dụng mơ hình SMT dựa cụm từ để học mơ hình chuyển ngữ Dữ liệu huấn luyện cặp từ, tách thành ký tự học hệ thống dịch cụm từ cặp ký tự Tôi chia ngữ liệu huấn luyện thành kí tự, thực phân cụm từ cho cặp kí tự Mơ hình chuyển ngữ giả sử thứ tự ký tự từ nguồn từ đích khơng thay đ i nên tơi khơng sử dụng mơ hình xếp trật tự từ Tôi sử dụng đặc trưng là: đặc trưng dịch dựa cụm từ (dịch trực tiếp, dịch đảo cụm từ đánh trọng số từ vựng), mơ hình ngơn ngữ (được xây dựng từ phía đích ngữ liệu chuyển ngữ khai phá), điểm phạt từ cụm từ Các trọng số điều chỉnh gồm 1000 cặp từ chuyển ngữ Thứ ba, Tích hợp chuyển ngữ vào MT Thay từ OOV đầu từ chuyển ngữ tốt Kết phụ thuộc vào độ xác mơ hình chuyển ngữ trình bày Ngồi ra, phương pháp bỏ qua ngữ cảnh dẫn tới chuyển ngữ khơng xác Khi đó, sơ đồ dịch hệ thống MT là: Câu nguồn j Tiền xử lý Giải mã Chuyển ngữ Câu đích v Hình 2.2 Sơ đồ dịch hệ thống MT sau tích hợp chuyển ngữ CHƯƠNG THỬ NGHIỆM 3.1 Môi trường triển khai - Phần cứng: Bộ xử lý Core i5 -3437U CPU 2.40GHz, RAM 4GB - Phần mềm: Hệ điều hành Ubuntu 16.04 64 bit 3.2 Dữ liệu Dữ liệu đầu vào liệu song ngữ Nhật – Việt, gồm gần 40000 cặp câu Nhật – Việt thu thập từ nguồn Wiki, TED Tiền xử lý văn dùng công cụ tách từ để gộp từ vào thành cụm từ o Công cụ tách từ tiếng Nhật: Mecab https://pypi.python.org/pypi/mecab-python3 o Công cụ tách từ tiếng Việt: Vitk https://github.com/phuonglh/vn.vitk 3.3 Công cụ cho hệ dịch máy 3.3.1 Moses Theo Koehn [5], Moses cơng cụ MT mã nguồn mở Nó thực giải mã dựa cụm từ bao gồm việc huấn luyện liệu xây dựng trường Đại học Edinburgh; sau đó, phát triển hội thảo trường Đại học Johns Hopkins Moses sử dụng rộng rãi cộng đồng nghiên cứu phát triển Moses bao gồm đầy đủ thành phần để tiền xử lý liệu, huấn luyện mơ hình ngơn ngữ mơ hình dịch Nó bao gồm cơng cụ đánh giá cho mơ hình sử dụng huấn luyện với tối ưu lỗi đánh giá kết dịch sử dụng điểm BLEU 3.3.2 GIZA GIZA++ chương trình dùng để gióng hàng từ trình tự từ ngữ liệu song ngữ nhằm mục đích liên kết mơ hình phụ thuộc vào lớp từ Nó phương pháp gióng hàng từ khơng giám sát tốt GIZA++ việc thực mơ hình dựa từ IBM, phát triển hội thảo trường Đại học Johns Hopkins sau cải tiến Franz Och (2003) 3.3.3 KenLM Đánh giá mơ hình ngơn ngữ với cải tiến Kneser-Ney Việc xây dựng dựa đĩa: ta xác định số lượng RAM cần dùng thực xếp dựa đĩa cần thiết 3.3.4 MERT (Minimum Error Rate Training) MERT việc điều chỉnh tham số với thước đo lỗi cụ thể việc khai thác liệu Ta muốn điều chỉnh tham số để ta đạt điểm BLEU tối ưu điều chỉnh (turing set) MERT dùng Moses để tối ưu hóa hiệu hệ thống dịch 3.4 Thiết lập mặc định Các thông số liệu thiết lập mặc định trình huấn luyện sau: Độ dài cụm từ lớn nhất: Dữ liệu mơ hình ngơn ngữ: tất N-gram cho mơ hình ngơn ngữ: Các tham số mơ hình Distortion: 0.0775344 Language Model: 0.0775344 Translation Model: 0.110447, 0.053495, 0.0266803, 0.0686311 WordPenalty: -0.279847 PhrasePenalty: -0.306445 UnknownWordPenalty: 3.5 Kết thực nghiệm 3.5.1 Dữ liệu đầu vào Dữ liệu huấn luyện Dữ liệu điều chỉnh tham số Dữ liệu đánh giá Ngôn ngữ Tiếng Nhật Tiếng Việt Tiếng Nhật Tiếng Việt Tiếng Nhật Tiếng Việt Số câu thực nghiệm 40000 câu 40000 câu 950 câu 950 câu 1000 câu 1000 câu Độ dài trung bình câu tiếng Nhật: 39.3 từ Độ dài trung bình câu tiếng Việt: 25.8 từ 3.5.2 Quá trình xử lý liệu huấn luyện 3.5.2.1 Xử lý liệu cho hệ thống MT - Từ tệp tin liệu đầu vào, tiến hành tách từ việc sử dụng cơng cụ tách từ nói 3.5.2.2 Huấn luyện mơ hình ngơn ngữ Như trình bày nội dung trên, tơi sử dụng mơ hình ngơn ngữ trigram (3-gram) huấn luyện từ 12481 từ tiếng Việt Tài liệu KenLM đưa giải thích tùy chọn dòng lệnh Sau nhị phân tập tin * arpa.en sử dụng KenLM để tải nhanh 3.5.2.3 Huấn luyện mô hình dịch Tơi thực huấn luyện thơng qua kích thước tập liệu huấn luyện thay đ i tăng dần (với số lượng cặp câu Nhật – Việt tương ứng là: 5000, 10000, 15000, 20000, 30000 40000) Bảng 3.1 Kết chất lượng dịch tăng dần kích thước liệu huấn luyện Kích thước liệu (số lượng cặp câu) 5000 10000 15000 20000 30000 40000 Điểm BLEU 9.88 10.02 10.07 11.02 11.88 12.39 Nhìn vào bảng 3.1 trên, ta dễ dàng nhận thấy với kích thước liệu lớn điểm BLEU cao tương ứng chất lượng dịch tốt Một số ví dụ dịch chưa tích hợp chuyển ngữ: Bảng 3.2 Một số ví dụ hệ thống dịch máy chưa tích hợp chuyển ngữ STT Câu tiếng Nhật Câu tiếng Việt thành_phố ukraine vụ n mỏ có ít_nhất 80 người chết , 20 người mất_tích báo_cáo theo ước_tính hiệp_hội , từ 2006 đến năm 2007 gần 250 thợ mỏ thiệt_mạng vụ tai_nạn trang web lớn công_cụ Google tìm_kiếm google thông_qua dịch_vụ nhiều hai triệu ngày với phép_tính 20 bom tháo ngòi_n an_tồn , có 20 người nhà sơ_tán vợ ông xác_nhận thiệt_mạng Nhìn vào số câu dịch từ hệ dịch máy ví dụ ta thấy kết dịch hệ thống tồn số câu chứa từ không xác định hay chưa dịch Khi đó, tơi sử dụng mơ hình chuyển ngữ cho từ vào giai đoạn hậu giải mã hệ thống dịch Kết trình bày phần 3.5.2.4 Huấn luyện mơ hình chuyển ngữ - Dữ liệu trích xuất từ liệu gồm 40000 cặp câu song ngữ 12481 cặp từ dùng để huấn luyện cho mơ hình chuyển ngữ Số lượng cặp từ lấy theo công thức (3.1), (3.2) (3.3) chương - Hệ số λ = 0.2 lấy thực nghiệm - Sau huấn luyện xong, thực chuyển ngữ cho từ không xác định gồm tên riêng (từ khơng có nghĩa từ có nghĩa khác file kết dịch mơ hình dịch máy Đầu tiên, thống kê số lượng từ không xác định (không dịch bảng 3.3 sau: Bảng 3.3 Thống kê số lượng từ không xác định hệ dịch máy dựa cụm từ Từ không xác định Tên riêng Từ có nghĩa Tổng Số lượng (từ) 708 165 873 Tỉ lệ (%) 81.1 18.9 100 Từ bảng 3.3, ta thấy t ng số từ không xác định từ hệ dịch máy 523 từ, có 358 từ tên riêng 165 từ có nghĩa khác Sau thống kê t ng số lượng từ không xác định bao gồm tên riêng từ có nghĩa, tơi áp dụng chuyển ngữ cho từ mơ hình chuyển ngữ không giám sát Kết chuyển ngữ đưa từ chuyển ngữ chuyển ngữ sai bảng 3.4 sau: Bảng 3.4 Thống kê kết chuyển ngữ cho từ không xác định từ hệ dịch máy Từ không xác định Tên riêng Từ có nghĩa Tổng Chuyển ngữ (số từ) 116 38 154 Tỉ lệ (%) 16.38 23.03 17.64 Chuyển ngữ sai (số từ) 592 127 719 Tỉ lệ sai (%) 83.62 76.97 82.36 Nhìn vào kết bảng 3.4, từ không xác định từ hệ dịch máy chuyển ngữ kết đầu thêm lượng từ chuyển ngữ Trong đó: - Từ tên riêng chuyển ngữ đúng: 116 từ/708 từ tên riêng chuyển ngữ, tương ứng 16.38 % t ng số từ tên riêng chuyển ngữ - Từ có nghĩa khác chuyển ngữ đúng: 38 từ/165 từ có nghĩa khác chuyển ngữ, tương ứng 23.03% t ng số từ có nghĩa chuyển ngữ - T ng số từ chuyển ngữ (gồm tên riêng từ có nghĩa khác : 154 từ/873 từ không xác định, tương ứng 17.64% t ng số tất từ không xác định từ hệ dịch máy Đồng thời, thống kê số lượng câu dịch số kí tự dịch hệ dịch máy trước sau tích hợp chuyển ngữ sau: Chưa tích hợp Đã tích hợp chuyển ngữ chuyển ngữ Số câu dịch 325/1000 (câu) 356/1000 (câu) Số kí tự dịch 231895 245387 Một số ví dụ việc chuyển ngữ: Chuyển ngữ đúng: o Tên riêng: STT Tên riêng tiếng Nhật Tên riêng tiếng Việt donetsk brendan_taylor aligote Hoa Tiếp o Từ có nghĩa: STT Từ tiếng Nhật Từ tiếng Việt n twente đ phá_huỷ ệm Chuyển ngữ sai: o Tên riêng: STT Tên riêng tiếng Nhật Tên riêng tiếng Việt biktl_yanoucobiuc line zan caine howon o Từ có nghĩa: STT Từ tiếng Nhật Từ tiếng Việt nganh ang ép mặn n Khi đó, câu ngơn ngữ đích có thêm câu dịch xác Một số ví dụ cho việc dịch tích hợp chuyển ngữ: STT Câu tiếng Nhật Câu tiếng Việt vụ n mỏ than giết chết ít_nhất 80 người thành_phố donetsk , ukraina , 20 người báo_cáo mất_tích justin_yak vợ ông xác_nhận chết azinphos methyl chất_độc thần_kinh nguy_hiểm có nguồn_gốc từ chất_độc thần_kinh sử_dụng thế_chiến thứ ii Như vậy, sau tơi tích hợp mơ hình chuyển ngữ khơng giám sát vào hệ dịch máy điểm BLEU tăng từ 12.39 lên 12.57 Điểm BLEU tăng kết tính thêm tỉ lệ chuyển ngữ cho từ không dịch từ hệ dịch máy Do đó, chất lượng dịch hệ dịch máy xác Tuy nhiên, phần thực nghiệm luận văn, bị hạn chế số lượng liệu song ngữ Nhật – Việt nên điểm BLUE chưa cao Trong tương lai, để nâng cao chất lượng dịch chuyển ngữ cần phát triển thêm liệu song ngữ KẾT LUẬN Luận văn trình bày kiến thức tốn chuyển ngữ, ứng dụng dịch máy thống kê; tìm hiểu mơ hình dịch máy thống kê dựa vào cụm từ; nghiên cứu phương pháp chuyển ngữ không giám sát thử nghiệm cho cặp ngôn ngữ Nhật – Việt tích hợp chuyển ngữ khơng tích hợp chuyển ngữ vào dịch máy thống kê dựa vào cụm từ Từ đó, ta thấy việc đưa chuyển ngữ vào tốn dịch máy hồn tồn hợp lý cần thiết để kết dịch xác tối ưu Hướng nghiên cứu tiếp luận văn: - Tiếp tục xây dựng thêm ngữ liệu song ngữ, nghiên cứu thêm phương pháp chuyển ngữ không giám sát phương pháp chuyển ngữ khác để chuyển ngữ cho tên riêng, từ không xác định khác - Tích hợp chuyển ngữ vào giao đoạn giải mã để cải tiến chất lượng hiệu hệ thống dịch máy TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Đào Ngọc Tú (2012), Nghiên cứu dịch thống kê dựa vào cụm từ thử nghiệm với cặp ngơn ngữ Anh – Việt, Tóm tắt Luận văn Thạc sĩ, Học viện Cơng nghệ Bưu Viễn thơng, Hà Nội [2] VNLP – Nhóm xử lý ngơn ngữ tự nhiên cho tiếng Việt (2015), Hệ thống âm vị, http://vnlp.net/ti%E1%BA%BFng-vi%E1%BB%87t-c%C6%A1- b%E1%BA %A3n/h%E1%BB%87-th%E1%BB%91ng-am-v%E1%BB%8B/ [3] Lê Quang Hùng (2015), Khai phá tri thức song ngữ ứng dụng dịch máy Anh – Việt, Luận án Tiến sĩ Khoa học Máy tính, Đại học Quốc gia Hà Nội, Trường Đại học Công nghệ, Hà Nội [4] Ngô Hương Lan, Hồ Hoàng Hoa (2008), Một số đặc điểm tiếng Nhật, Tạp chí Nghiên cứu Đơng Bắc Á, Số 7, đăng ngày 30/10/2012, trang http://www.inas.gov.vn/403-mot-so-dac-diem-cua-tieng-nhat.html Tiếng Anh: [5] Philipp Koehn (2009), Statistical Machine Translation, School of Informatics, University of Edinburgh, Cambridge University Press [6] David Matthews (2007), Machine Transliteration of Proper Names, Master of Science, School of Informatics, University of Edinburgh [7] Kevin Knight, Jonathan Graehl (1998), Machine Transliteration, Computational Linguistics, Volume 24, Number 4, pp 599-612 [8] Hieu Hoang, Philipp Koehn (et.al, 2014), Integrating an Unsupervised Transliteration Model into Statistical Machine Translation, Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, pp 148–153, Gothenburg, Sweden, April 26-30 2014 © 2014 Association for Computational Linguistics [9] Sarvnaz Karimi, Falk Scholer, Andrew Turpin (2011), Machine Transliteration Survey, ACM Computing Surveys, Vol 43, No 3, pp 17:0 – 17:46, Article 17, Publication date: April 2011, DOI: 10.1145/1922649.1922654·Source: DBLP [10] Hoang Gia Ngo, Nancy F Chen, Sunil Sivadas, Bin Ma, Haizhou Li (2014), A Minimal-Resource Transliteration Framework for Vietnamese, Published in INTERSPEECH, Singapore [11] Philipp Koehn (2017), Statistical Machine Translation - Chapter 13: Neural Machine Translation, Center for Speech and Language Processing, Department of Computer Science, Johns Hopkins University [12] http://www.statmt.org/moses/ ... ngữ âm [8] Do vậy, Chuyển ngữ tự động trình chuyển đ i tự động kịch từ từ ngôn ngữ nguồn sang ngơn ngữ đích, giữ cách phát âm [12] Ví dụ việc chuyển ngữ tên riêng dựa phiên âm từ tiếng Nhật sang. .. nghiên cứu chuyển phiên âm từ tiếng Nhật sang tiếng Việt để dịch từ tiếng Nhật có phiên âm tiếng Nhật tương ứng với phiên âm tiếng Việt từ tiếng Việt việc dịch không dựa vào nghĩa từ mà dựa vào... Nhật – tiếng Việt Từ đưa cho toán việc chuyển ngữ cặp ngôn ngữ Nhật – Việt xây dựng phát triển dựa nghiên cứu trước Vì vậy, lựa chọn thực đề tài Chuyển ngữ tự động từ tiếng Nhật sang tiếng Việt