Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 52 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
52
Dung lượng
1,88 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ HỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN TUẤN ANH CHUYỂN NGỮ TỰ ĐỘNG TỪ TIẾNG VIỆT SANG TIẾNG NHẬT LUẬN VĂN THẠC SỸ Hà Nội - 2017 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN TUẤN ANH CHUYỂN NGỮ TỰ ĐỘNG TỪ TIẾNG VIỆT SANG TIẾNG NHẬT Ngành : Công nghệ thông tin Chuyên ngành : Kỹ thuật phần mềm Mã số : 60480103 LUẬN VĂN THẠC SỸ NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN PHƢƠNG THÁI Hà Nội - 2017 LỜI CAM ĐOAN Tôi xin cam đoan kết nghiên cứu, thực nghiệm đƣợc trình bày luận văn thực dƣới hƣớng dẫn Phó giáo sƣ, Tiến sĩ Nguyễn Phƣơng Thái Tất tham khảo từ nghiên cứu liên quan đƣợc nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Trong luận văn, khơng có việc chép tài liệu, cơng trình nghiên cứu ngƣời khác mà không rõ tài liệu tham khảo TÁC GIẢ LUẬN VĂN Nguyễn Tuấn Anh LỜI CẢM ƠN Trƣớc tiên, xin gửi lời cảm ơn sâu sắc đến thầy giáo, Phó giáo sƣ, Tiến sĩ Nguyễn Phƣơng thái tận tình hƣớng dẫn tơi suốt q trình thực luận văn tốt nghiệp Tôi xin bày tỏ lời cảm ơn chân thành tới trƣờng Đại học Công Nghệ - ĐHQG Hà Nội thầy cô giáo giảng dạy, truyền thụ kiến thức thời gian qua Cuối cùng, tơi xin cảm ơn tất gia đình, bạn bè động viên giúp đỡ thời gian nghiên cứu đề tài Tuy có cố gắng định nhƣng thời gian trình độ có hạn nên luận văn cịn nhiều thiếu sót hạn chế Kính mong nhận đƣợc góp ý thầy cô bạn TÁC GIẢ LUẬN VĂN Nguyễn Tuấn Anh MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN Danh mục hình vẽ Danh mục bảng CHƢƠNG I GIỚI THIỆU 1.1 Đặc điểm ngôn ngữ tiếng Việt tiếng Nhật 1.1.1 Đặc điểm ngôn ngữ tiếng Việt[16] 1.1.2 Đặc điểm ngôn ngữ tiếng Nhật 1.2 Bài toán dịch máy tiếp cận dịch dựa cụm từ phân cấp 1.2.1 Khái niệm hệ dịch máy 1.2.2 Mơ hình dịch máy thống kê 1.2.3 Tiếp cận dịch máy dựa cụm từ phân cấp 1.2.4 Mơ hình ngôn ngữ 11 1.2.5 Giới thiệu dịch máy mạng nơ-ron .12 1.3 Vấn đề tên riêng từ mƣợn dịch máy 12 1.3.1 Vấn đề tên riêng 12 1.3.2 Từ mƣợn .13 1.4 Bài toán luận văn giải 14 1.5 Kết cấu luận văn .14 CHƢƠNG DỊCH MÁY THỐNG KÊ DỰA TRÊN CỤM TỪ PHÂN CẤP 15 2.1 Ngữ pháp 15 2.1.1 Văn phạm phi ngữ cảnh đồng 15 2.1.2 Quy tắc trích xuất 16 2.1.3 Các quy tắc khác 17 2.2 Mô hình 18 2.2.1 Định nghĩa 18 2.2.2 Các đặc trƣng .19 2.2.3 Huấn luyện 19 2.3 Giải mã 20 CHƢƠNG DỊCH TÊN RIÊNG VÀ CHUYỂN NGỮ .23 3.1 Dịch tên riêng 23 3.1.1 Giới thiệu .23 3.1.2 Một số nguyên tắc cần lƣu ý chuyển tên tiếng Việt sang Katakana[17] 23 3.1.3 Phƣơng pháp Kevin Night (1997) 24 3.1.4 Các mơ hình xác suất 24 3.2 Mơ hình chuyển ngữ không giám sát .28 3.2.1 Giới thiệu .28 3.2.2 Khai phá chuyển ngữ 28 3.2.3 Mơ hình chuyển ngữ 29 3.2.4 Tích hợp với dịch máy 30 3.2.5 Đánh giá chất lƣợng dịch .31 CHƢƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 32 4.1 Chuẩn bị liệu đầu vào cho hệ dịch 32 4.2 Công cụ tiền xử lý 32 4.2.1 Môi trƣờng triển khai phần cứng: 32 4.2.2 Bộ công cụ mã nguồn mở Moses 32 4.2.3 GIZA ++ 32 4.2.4 Mert 32 4.3 Tiến hành thực nghiệm 33 4.3.1 Dữ liệu đầu vào 33 Dữ liệu đầu vào thu thập từ Ted Wiki: .33 4.3.2 Quá trình chuẩn bị liệu huấn luyện 33 4.4 Đánh giá phân tích kết theo cỡ liệu huấn luyện 34 4.4.1 Kết chƣa áp dụng mơ hình chuyển ngữ 34 4.4.2 Kết sau áp dụng mơ hình chuyển ngữ không giám sát 36 CHƢƠNG KẾT LUẬN .42 TÀI LIỆU THAM KHẢO .43 Danh mục hình vẽ Hình 1.1: Sơ đồ tổng quan hệ dịch máy Hình 1.2: Mơ hình chung hệ dịch máy thống kê Việt – Nhật Hình 1.3: Ví dụ gióng hàng từ Hình 1.4: Trích xuất quy tắc dịch cụm từ truyền thống Hình 1.5: Trích xuất quy tắc dịch cụm từ phân cấp Hình 1.6: Ví dụ chuyển ngữ tên riêng tiếng Nga - Anh Hình 2.1: Ví dụ trích xuất văn phạm phi ngữ cảnh đồng Hình 2.2: Ví dụ trích xuất ngữ pháp: Chuỗi cụm từ ban đầu Hình 2.3: Các quy tắc suy luận cho phân tích cú pháp LM Hình 2.4: Phƣơng pháp tìm kiếm cho phân tích cú pháp LM Hình 3.1: Ví dụ gióng hàng kí tự Hình 3.2: Sơ đồ hệ dịch Hình 4.1: Kết đánh giá chất lƣợng dịch chƣa tích hợp mơ hình chuyển ngữ Hình 4.2: Kết đánh giá chất lƣợng dịch tích hợp mơ hình chuyển ngữ khơng giám sát Danh mục bảng Bảng 1.1: Bảng chữ Katakana cách phát âm tiếng Nhật Bảng 3.1: Nguyên tắc chuyển ngữ nguyên âm tiếng Việt sang tiếng Nhật Bảng 3.2: Ví dụ chuyển ngữ phụ âm tiếng Việt sang tiếng Nhật Bảng 3.3: Ánh xạ số âm tiếng Việt (Viết hoa) với âm tiếng Nhật (viết thƣờng) sử dụng thật toán EM Bảng 4.1: Một số kết dịch từ tiếng Việt sang tiếng Nhật chƣa tích hợp mơ hình chuyển ngữ Bảng 4.2: Một số kết dịch từ tiếng Việt sang tiếng Nhật tích mơ hình chuyển ngữ khơng giám sát Bảng 4.3: Một số kết chuyển ngữ tiếng Việt sang tiếng Nhật tích hợp mơ hình chuyển ngữ khơng giám sát Bảng 4.4: Một số kết chuyển ngữ sai từ tiếng Việt sang tiếng Nhật tích hợp mơ hình chuyển ngữ không giám sát CHƢƠNG I GIỚI THIỆU Hiện có hàng nghìn ngơn ngữ tồn giới, ngơn ngữ có đặc trƣng riêng bảng chữ cách phát âm Ngày có nhiều hệ thống tự động dịch miễn phí mạng nhƣ: systran, google translate, vietgle … Những hệ thống cho phép dịch tự động văn với cặp ngơn ngữ chọn trƣớc (ví dụ dịch từ tiếng Anh sang tiếng Việt) Điều cho thấy phát triển dịch máy ngày vào đời sống ngƣời, đƣợc ứng dụng rộng rãi Vấn đề đặt dịch giả máy dịch việc dịch cặp ngơn ngữ có hệ thống bảng chữ cách phát âm khác dịch xác tên riêng thuật ngữ kỹ thuật (các từ không xác định) Những đối tƣợng đƣợc phiên âm, thay âm xấp xỉ tƣơng đƣơng Việc dịch phiên âm cặp ngơn ngữ đƣợc gọi Chuyển ngữ Việc dịch từ khơng xác địnhlà vấn đề khó ngôn ngữ thƣờng khác bảng chữ cách phát âm Các từ thƣờng đƣợc chuyển ngữ, tức là, thay khoảng ngữ âm gần Ví dụ: "Nguyễn Thu Trang" tiếng Việt xuất dƣới dạng "グエンテゥーチャン" (Guen tuu chan) tiếng Nhật 1.1 Đặc điểm ngôn ngữ tiếng Việt tiếng Nhật [16] 1.1.1 Đặc điểm ngôn ngữ tiếng Việt Tiế ng Viê ̣t thuô ̣c ngôn ngƣ̃ đơn lâ ̣p, tƣ́c là mô ̣t âm tiết đƣơ ̣c phát âm tách rời và đƣơ ̣c thể hiê ̣n mô ̣t chƣ̃ viế t Đặc điểm thể rõ rệt tất mă ̣t ngƣ̃ âm, tƣ̀ vƣ̣ng, ngƣ̃ pháp Đặc điểm ngữ âm Trong tiế ng Viê ̣t có mô ̣t loa ̣i đơn vị đặc biệt gọi "tiế ng" Về mă ̣t ngƣ̃ âm , mỗi tiế ng là mô ̣t âm tiế t cách vi ết tƣơng đồng với phát âm Hê ̣ thố ng âm vi ̣tiế ng Viê ̣t phong phú và có tính cân đố i Đặc điểm từ vựng Mỡi tiế ng, nói chung, yếu tố có nghĩa Tiế ng là đơn vi ̣cơ sở của ̣ thố ng đơn vị có nghĩa tiếng Việt Tƣ̀ tiế ng, ngƣời ta ta ̣o các đơn vi ̣tƣ̀ vƣ̣ng khác để đinh ̣ danh sƣ̣ vâ ̣t, hiê ̣n tƣơ ̣ng , chủ yếu nhờ phƣơng thức ghép phƣơng thức láy Viê ̣c tạo đơn vị từ vựng phƣơng thức ghép chịu chi phối quy luâ ̣t kế t hơ ̣p ngƣ̃ nghiã , ví dụ: đấ t nƣớc, máy bay, nhà lầu xe hơi, nhà tan cửa nát Hiê ̣n nay, là phƣơng thƣ́c chủ yế u để sản sinh các đơn v ị từ vựng Theo phƣơng thƣ́c này , tiế ng Viê ̣t triê ̣t để sƣ̉ du ̣ng các yế u tố cấ u ta ̣o tƣ̀ thuầ n Viê ̣t hay vay mƣơ ̣n tƣ̀ ngôn ngữ khác để tạo từ , ngƣ̃ mới, ví dụ: tiế p thi ,̣ karaoke , xa lô ̣ thông tin , siêu liên kế t văn bản , truy câ ̣p ngẫu nhiên, … Vố n tƣ̀ vƣ̣ng tố i thiể u của tiế ng Viê ̣t phầ n lớn là các tƣ̀ đơn tiế t (mô ̣t âm tiế t , mô ̣t tiế ng) Sƣ̣ linh hoa ̣t sƣ̉ du ̣ng, viê ̣c ta ̣o các tƣ̀ ngƣ̃ mới mô ̣t cách dễ dàng tạo điều kiện thuận lợi ch o sƣ̣ phát triể n vố n tƣ̀ , vƣ̀a phong phú về số lƣơ ̣ng , vƣ̀a đa dạng hoạt động Cùng vật, hiê ̣n tƣơ ̣ng, mô ̣t hoa ̣t đô ̣ng hay mơ ̣t đă ̣c trƣng , có nhiều tƣ̀ ngƣ̃ khác biể u thi ̣ 1.1.2 Đặc điểm ngôn ngữ tiếng Nhật Hệ thống chữ viết Ngƣời Nhật có bảng chữ đặc biệt ngữ âm đƣợc gọi Katakana, đƣợc sử dụng chủ yếu để viết tên nƣớc từ mƣợn Các ký hiệu katakana đƣợc thể Bảng1.1, với cách phát âm tiếng Nhật chúng Hai ký hiệu đƣợc hiển thị góc dƣới bên phải đƣợc sử dụng để kéo dài nguyên âm phụ âm tiếng Nhật Bảng 1.1: Bảng chữ Katakana cách phát âm tiếng Nhật[3] Ngữ âm[17] Âm tiết tiếng Nhật giữ vị trí quan trọng, vừa đơn vị ngữ âm nhỏ vừa đơn vị phát âm Mỗi âm tiết đƣợc thể chữ Kana (Hiragana Katakana) Tiếng Nhật có số lƣợng âm tiết khơng lớn, có tất 112 dạng âm tiết Trong số này, có 21 dạng âm tiết xuất từ đƣợc vay mƣợn từ nƣớc ngồi Nếu nhƣ tiếng Việt, có nhiều từ đƣợc cấu tạo âm tiết, âm tiết mang ý nghĩa định, VD: bàn, trà, bạn, đèn , tiếng Nhật, phần lớn từ đƣợc cấu tạo từ hai âm tiết trở lên âm tiết thƣờng không mang ý nghĩa VD: từ “hay” - “omoshiroi” có âm tiết /o/mo/shi/ro/i, khó tìm thấy ý nghĩa âm tiết Cũng có từ đƣợc cấu tạo âm tiết trƣờng hợp này, âm tiết mang ý nghĩa từ đó, VD: “ki” có nghĩa cây, “e” có nghĩa tranh, “te” có nghĩa tay nhƣng từ nhƣ chiếm số lƣợng nhỏ vốn từ vựng tiếng Nhật.[15] Tiếng Nhật có tất nguyên âm: /a, i, u, e, o/ 12 phụ âm: /k, s, t, g, z, d, n, m, h, b, p, r/ số lƣợng so với ngơn ngữ khác Ngồi cịn có hai âm đặc biệt âm mũi (N) âm ngắt (Q) 30 Tiếp theo kí tự đƣợc chuyển ngữ sang kí tự tiếng Nhật 𝑒𝑖 b a n バ ン グ g l a ラ d デ e s シ h ュ Hình 3.1: Ví dụ gióng hàng kí tự Kết hợp tất thành phần với đƣợc: |𝑒| 𝐼 𝜑(𝑓𝑖 |𝑒𝑖 )𝜆 𝜑 𝑒 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑒 𝑖=1 𝑝(𝑒𝑖 |𝑒1 … 𝑒𝑖−1 )𝜆 𝑖=1 3.2.4 Tích hợp với dịch máy Chúng tơi nghiên cứu ba phƣơng thức để tích hợp chuyển ngữ, đƣợc mô tả dƣới Phƣơng pháp Liên quan đến việc thay từ không xác định đầu với số lƣợng dịch tốt Thành công Phƣơng thức phụ thuộc vào độ xác mơ hình chuyển ngữ Hình 3.2 : Sơ đồ hệ dịch Ngồi ra, bỏ qua bối cảnh dẫn tới việc chuyển ngữ khơng xác Phƣơng pháp Cung cấp n dịch tốt cho giải mã đơn sử dụng mô hình ngơn ngữ đơn bảng chuyển ngữ cụm từ để tái ghi điểm chuyển ngữ Chúng chuyển tiếp tính mơ hình chuyển ngữ thứ tƣ đƣợc sử dụng hệ thống chuyển ngữ để xây dựng cụm từ chuyển ngữ Sử dụng thêm tính LM-OOV để tính số từ giả thuyết khơng đƣợc biết đến mơ hình ngơn ngữ Các phƣơng 31 pháp làm mịn nhƣ KneserNey quy định khối lƣợng xác suất đáng kể cho kiện khơng nhìn thấy, khiến giải mã thực lựa chọn chuyển ngữ khơng xác Phƣơng pháp Trong Phƣơng thức 3, cung cấp bảng chuyển ngữ cum từ trực tiếp vào giải mã cho phép xếp từ không xác định Chúng sử dụng tùy chọn đồ thị giải mã ngƣợc Moses, cho phép nhiều bảng cụm từ chuyển đổi mô hình ngƣợc Nhƣ Phƣơng thức 2, sử dụng tính LM-OOV Phƣơng thức 3.2.5 Đánh giá chất lƣợng dịch Đánh giá chất lƣợng dịch đƣợc thực thủ cơng ngƣời tự động Mỗi phƣơng pháp đánh giá có ƣu nhƣợc điểm riêng Q trình đánh giá thủ công cho điểm câu dịch dựa trơi chảy xác chúng Thế nhƣng cơng việc đánh giá thủ công lại tiêu tốn nhiều thời gian, đặc biệt cần so sánh nhiều mơ hình ngơn ngữ, nhiều hệ thống khác Tuy đánh giá tự động phản ánh đƣợc hết khía cạnh chất lƣợng dịch, nhƣng nhanh chóng cho ta biêt: chất lƣợng hệ dịch tầm Trong thực tế, điểm BLEU độ đo chất lƣợng dịch tự động phổ biến BLEU tính điểm cách đối chiếu kết dịch với tài liệu dịch tham khảo tài liệu nguồn Mặc dù điểm BLEU thƣờng không thực tƣơng quan với đánh giá thủ công loại hệ thống khác nhau, nhƣng xác để đánh giá hệ thống, hệ thống tƣơng tự Việc so sánh đƣợc thực thông qua thống kê trùng khớp từ hai dịch tính đến thứ tự chúng câu Điểm BLEU đƣợc tính cơng thức: 𝐵𝐿𝐸𝑈 = 𝐵𝑃 ∗ 𝑁 c > 𝑟 e(1−r/e) c ≤ r c: độ dài dịch máy r: độ dài lớn dịch mẫu N: Số lƣợng dịch mẫu với BP = - 𝑁 𝑙𝑜𝑔𝑝𝑖 𝑖=1 32 CHƢƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ Chƣơng thảo luận liệu dùng để huấn luyện kiểm tra mơ hình phiên âm tiếng Việt-Nhật, phần mềm Moses đƣợc sử dụng suốt dự án, số liệu dùng để đánh giá cuối cùng đƣa mơ tả thí nghiệm 4.1 Chuẩn bị liệu đầu vào cho hệ dịch Dữ liệu đầu vào liệu song ngữ Việt – Nhật: Sử dụng khoảng 40.000 cặp câu Việt – Nhật đƣợc thu thập, lọc nhiễu, gióng hàng từ Để chuẩn bị liệu để đào tạo hệ thống chuyển ngữ, phải thực bƣớc sau: Tách từ cụm từ chuỗi Các từ ban đầu câu đƣợc chuyển đổi sang phiên chắn chúng Điều giúp giảm thƣa thớt liệu Các chuỗi dài chuỗi trống đƣợc gỡ bỏ chúng gây vấn đề với dòng huấn luyện, rõ ràng câu sai lệch bị xóa 4.2.Cơng cụ tiền xử lý 4.2.1 Môi trƣờng triển khai phần cứng: Bộ xử lý Core2Duo T9300 2.5Ghz, RAM 2GB, HDD free 20GB Phần mềm: Hệ điều hành Ubuntu 12.04 32 bit 4.1.2 4.2.2.Bộ công cụ mã nguồn mở Moses Moses hệ dịch máy thống kê cho phép ngƣời dùng dễ dàng tạo mơ hình dịch cho cặp ngơn ngữ Nó bao gồm đầy đủ thành phần để tiền xử lý liệu, huấn luyện mô hình ngơn ngữ mơ hình dịch Nó bao gồm cơng cụ tuning cho mơ hình sử dụng huấn luyện với lỗi tối thiểu đánh giá kết dịch sử dụng điểm BLEU Có thể tải từ: http://www.statmt.org/moses/ 4.2.3 GIZA ++ GIZA ++ (Och and Ney, 2003) phần mở rộng chƣơng trình GIZA (một phần cơng cụ SMT EGYPT) Nhóm dịch máy thống kê phát triển hội thảo mùa hè năm 1999 Trung tâm Ngôn ngữ Xử lý Ngôn ngữ Trƣờng đại học Johns-Hopkins(CLSP / JHU) GIZA++ mở rộng hỗ trợ GIZA để đào tạo mơ hình IBM (Brown cộng sự., 1993) để mơ mơ hình Giza đƣợc sử dụng Moses để thực gióng hàng từ tập ngữ liệu huấn luyện song song 4.2.4Mert Việc triển khai Mert Ashish Venugopal cho dịch máy thống kê nhƣ mô tả Och (2003) vàVenugopal Vogel (2005) Nó bao gồm số cải tiến cho phƣơng thức đào tạo bao gồm điều kiện ban đầu ngẫu nhiên trật tự mẫu chuyển hoán (để giải chất tham lam thuật toán) mở rộng hạn chế phạm vi tham số động (để tăng tác động tƣơng đối tiềm chúng, 33 để hạn chế việc sử dụng mơ hình định) Mert đƣợc sử dụng Moses để tối ƣu hóa hiệu 4.2.5 Vitk Cơng cụ phân tách từ Vitk tách từ văn gồm hai triệu âm tiết tiếng Việt 20 giây cụm ba máy tính (24 lõi, 24 GB RAM), cho độ xác khoảng 97% Bộ cơng cụ hƣớng đến khả xử lý liệu văn lớn Vì lý này, sử dụng Apache Spark làm tảng cốt lõi Apache Spark công cụ nhanh phổ biến cho xử lý liệu quy mô lớn Có thể tải từ: https://github.com/phuonglh/vn.vitk 4.2.6 Mecab Tƣơng tự Vitk, Mecab công cụ phân tách từ cho tiếng Nhật, độ xác lên đến 99% Có thể tải từ:https://pypi.python.org/pypi/mecab-python3 4.3 Tiến hành thực nghiệm 4.3.1 Dữ liệu đầu vào Dữ liệu đầu vào thu thập từ Ted Wiki: Dữ liệu huấn luyện Dữ liệu điều chỉnh tham số Dữ liệu đánh giá Tiếng Việt 40000 câu Tiếng Nhật 40000 câu Tiếng Việt 950 câu Tiếng Nhật 950 câu Tiếng Việt 1000 câu Tiếng Nhật 1000 câu 4.3.2 Quá trình chuẩn bị liệu huấn luyện Chuẩn bị liệu Tách từ cho file liệu đầu vào Cắt câu dài cho tệp liệu huấn luyện Chuyển chữ thƣờng Huấn luyện mơ hình ngơn ngữ Mơ hình ngơn ngữ đƣợc sử dụng để đảm bảo đầu trơi chảy Vì đƣợc xây dựng ngôn ngữ mục tiêu (tức tiếng Nhật trƣờng hợp này) Tài liệu KenLM cung cấp đầy đủ lời giải thích tùy chọn dịng lệnh, phạm vi luận văn xây dựng mơ hình ngơn ngữ 3-gram thích hợp Sau đó, chúng tơi nhị phân tập tin * arpa.en sử dụng KenLM để tải nhanh Huẩn luyện mơ hình dịch Cuối cùng tới cơng việc – huấn luyện mơ hình dịch Để thực việc này, chúng tơi chạy gióng hàng từ (sử dụng GIZA ++) trích xuất cụm từ, tạo bảng xếp lại tạo tệp cấu hình Moses 34 Huấn luyện tham số mơ hình Đây phần chậm tiến trình Huấn luyện tham số đòi hỏi số lƣợng nhỏ liệu song song, tách biệt với liệu huấn luyện, sử dụng lƣợng liệu song song gồm 950 cặp câu song ngữ Việt – Nhật 4.3.4 Chuyển ngữ từ không xác định Kết trình dịch máy theo phƣơng pháp thống kê tiếng Việt sang tiếng Nhật xuất dịch chứa từ khơng xác định có tên riêngmà mơ hình dịch khơng dịch đƣợc Các từ đƣợc chuyển ngữ Phƣơng thức mô hình chuyển ngữ khơng giám sát Phƣơng pháp: Dùng mơ hình dịch máy thống kê dựa cụm từ để học mơ hình chuyển ngữ Dữ liệu huấn luyện cặp từ ngữ liệu huấn luyện, tách thành ký tự học hệ thống dịch cụm từ cặp ký tự Mơ hình chuyển ngữ giả sử thứ tự ký tự từ nguồn từ đích khơng thay đổi nên chúng tơi khơng sử dụng mơ hình xếp trật tự từ (reordering model) Vì vậy, chúng tơi sử dụng đặc trƣng là: đặc trƣng dịch dựa cụm từ (phrase-translation), mơ hình ngơn ngữ, điểm phạt từ cụm (word and phrase penalties) Trọng số đặc trƣng đƣợc đƣợc học từ 1000 cặp từ chuyển ngữ Dữ liệu huấn luyện mơ hình chuyển ngữ: Gồm 12.260 cặp từ đƣợc trích trọn từ liệu 40.000 cặp câu song ngữ Mơ hình ngơn ngữ: 3-gram, huấn luyện từ 12.260 từ tiếng Nhật Để kiểm tra độ tốt mơ hình chuyển ngữ sau huấn luyện xong thực chuyển ngữ cho từ không xác định file kết dịch mơ hình dịch máy Số lƣợng từ khơng xác định mơ hình dịch máy dựa cụm từ phân cấp chiều Việt - Nhật (không dịch đƣợc) nhƣ sau: Tổng có: 2006 từ khơng xác định Số từ mang nghĩa: 1209 từ (60.3% tổng số từ khơng xác định) Số từ khơng có nghĩa (tên riêng): 797 từ (39.7% tổng số từ không xác định) 4.4 Đánh giá phân tích kết theo cỡ liệu huấn luyện 4.4.1 Kết chƣa áp dụng mơ hình chuyển ngữ Ta thay đổi kích cỡ ngữ liệu huấn luyện lần lƣợt 10.000, 20.000,…, 40.000 cặp câu, sau thực đánh giá chất lƣợng dịch dựa vào điểm BLEU Điểm BLEU cao chất lƣợng dịch tốt 35 Hình 4.1: Kết đánh giá chất lượng dịch chưa tích hợp mơ hình chuyển ngữ Tiếng Việt alleyne phải nhập_viện sau bị bắt bị tức ngực liên_hợp_quốc nói tỷ_lệ tử_vong dân_thƣờng nƣớc tăng vọt vào tháng_một năm 2011 , mandela phải vào viện điều_trị bệnh nhiễm_trùng hơ_hấp cấp_tính 220,000 ngƣời đƣợc sơ_tán khỏi khu_vực trũng thấp tỉnh camaguey , 170,000 ngƣời đƣợc sơ_tán khỏi tỉnh las_tunas cùng với vấn_đề ánh_sáng , hộ Tiếng Nhật alleyne で逮捕された後、 nhập_viện されなければならなかった ngực た。 tức liên_hợp_quốc vọt この国での民間人の死亡率が 上昇したと言った。 tháng_một に病気に điều_trị 研究所は、2011年、 mandela nhiễm_trùng hơ_hấp cấp_tính た。 220,000 camaguey 地域から避難した人の人が 州から避難した。 州で、低 170,000 trũng las_tunas これらのと同じ光の問題でも、家族 hộ mosvodokanal でもポンプステーションから電力の国での事件を失った。 36 gia_đình bị nƣớc trạm bơm mosvodokanal điện vị sự_cố cảnh_sát nói 警察は、最初の報告は、逮捕されていたが、今 patkar patkar bây_giờ 情報は自殺を図って彼女と戦うために提出された。 chƣa bị bắt , nhƣng báo_cáo thơng_tin đầu_tiên đƣợc trình lên để chống lại cố_ý tự_tử Bảng 4.1: Một số kết dịch từ tiếng Việt sang tiếng Nhật chưa tích hợp mơ hình chuyển ngữ 4.4.2 Kết sau áp dụng mơ hình chuyển ngữ khơng giám sát Tƣơng tự phần 4.4.1 thay đổi kích cỡ ngữ liệu huấn luyện lần lƣợt 10.000, 20.000,…, 40.000 cặp câu, sau thực đánh giá chất lƣợng dịch dựa vào điểm BLEU Chúng kết hợp mơ hình chuyển ngữ khơng giám sát vào mơ hình dịch để chuyển từ khơng xác định mà mơ hình dịch khơng dịch đƣợc Chúng tơi áp dụng phƣơng thức chuyển ngữ cặp ngôn ngữ tiếng Việt - Nhật cho thấy cải tiến từ điểm BLEU 12.54 tăng lên 12.73 Hình 4.2: Kết đánh giá chất lượng dịch tích hợp mơ hình chuyển ngữ không giám sát Tiếng Tiếng Nhật 37 Việt đội_t uyển mỹ tuyên _bố thi_đấ u giải cá_nh ân 19,2 triệu đô_la úc đƣợc mở rộng cho uỷ_ba n thể_th ao úc để chạy chƣơn g_trìn h cộng_ đồng hoạt_ động sau học アメリカチームの戦いは個人のシーズンの中で述べた。 オーストラリアのスポーツ委員会に拡大されたが、オーストラリアの 19,2 万ドルの資金援助計画を実行するために、彼らの活動を学ぶ時間後に 2012/2013 年のコミュニティ 2013/2014 に類似した。 38 họ năm 2012/ 2013 với tài_tr ợ tƣơng _tự cho 2013/ 2014 sáng thứ năm xe_bu ýt điện xe_đi ện khu_v ực phía nam mosc ow chƣa hoạt_ động giữ quan_ điểm mạnh có_th ể mà バスは木曜日の朝、モスクワの南部地域の路面電車はまだ停電した。 私は最も強力な見解を保持しているかもしれないと述べたが、それは この国の安全保障された水がアメリカの利益とは対照的にはイラクで 破った。 39 nói điều trái với lợi_íc h an_ni nh đất_n ƣớc nƣớc mỹ bị đánh_ bại iraq trận この地震は、合計 350 人が負傷し、現在のとは 30 人が死亡した。 động_ đất làm cho tổng_ số ngƣời chết lên 30 số ngƣời bị_th ƣơng 350 40 Bảng 4.2: Một số kết dịch từ tiếng Việt sang tiếng Nhật tích hợp mơ hình chuyển ngữ khơng giám sát Đánh giá kết cho thấy phận phiên âm cho chất lƣợng dịch tổng thể tốt so với chuyển ngữ Kevin Night Các dịch tên riêng xác phù hợp với nguyên tắc chuyển ngữ tên riêng Việt – Nhật đƣợc mô tả phần 3.1.1 3.1.2 Mô hình chuyển ngữ khơng giám sát tích hợp với dịch máy thống kê dựa vào cụm từ đƣợc cung cấp cho cộng đồng nghiên cứu thông qua công cụ Moses Kết Áp dụng mơ hình chuyển ngữ: Tất từ: 231 / 2006 từ (12%) Từ mang nghĩa: 49 / 1209 từ (4.1%) Từ khơng có nghĩa (tên riêng): 182 / 797 từ (22.8 %) Mơ hình chuyển ngữ mục đích để dịch cho từ khơng có từ đối nghĩa ngơn ngữ đích, q trình chuyển ngữ dựa việc phiên âm từ ngôn ngữ nguồn sang ngơn ngữ đích nên dịch tốt cho từ khơng xác định có tên riêng, khơng tốt cho từ đối dịch Ví dụ chuyển ngữ đúng: Tiếng Việt Từ mang nghĩa Từ khơng có nghĩa (tên riêng) Tiếng Nhật đốitác パートナー tên lửa ミサイル killing キリン hộ アパート telegraph テレグラフ dubai ドバイ việt nam ベトナム lê リー băng cốc バンコク na uy ノルウェー Bảng 4.3: Một số kết chuyển ngữđúng tiếng Việt sang tiếng Nhật tích hợp mơ hình chuyển ngữ khơng giám sát Ví dụ chuyển ngữ sai: Tiếng Việt Từ mang nghĩa Tiếng Nhật chúc_mừng お祈り・マャングル hạnh_phúc フャ捧げる kỹ_thuật_viên デジ・トゥデイ・ヴィター 41 bản_quyền ポン・直接ン hiệu_ứng_nhà_kính ヒカット・ングリーンハウス mâm_xơi ムマ・ックスシェ Từ khơng có hạnh_nhân vƣơng_quốc_anh nghĩa (tên riêng) ấn_độ_dƣơng hoang_ngoc_khanh フャすばらしい ヴコーアンフ インド洋グ ホアング・ンゴク・クハンフ Bảng 4.4: Một số kết chuyển ngữsai từ tiếng Việt sang tiếng Nhật tích hợp mơ hình chuyển ngữ khơng giám sát 42 CHƢƠNG KẾT LUẬN Luận văn hệ thống tự động chuyển ngữ khơng giám sát đƣợc xây dựng từ hệ thống dịch máy thống kê dựa cụm từ phân cấp có hiệu suất tƣơng đƣơng với hệ thống đại đƣợc thiết kế đặc biệt để dịch máy Vì việc xây dựng hệ thống khơng địi hỏi có thơng tin ngơn ngữ bổ sung nhƣ phát âm ràng buộc ngôn ngữ, nên hệ thống cho cặp ngơn ngữ đƣợc phát triển nhanh chóng rẻ tiền với đủ số lƣợng liệu Một cải tiến đáng kể điểm BLEU độ xác dịch đƣợc thực cách sử dụng mơ hình chuyển ngữ không giám sát cặp từ không xác định tiếng Việt - Nhật đƣợc xây dựng liệu có thƣớc lớn (40.000 cặp) so với sử dụng thí nghiệm (10.000, 20.000, 30.000 cặp) Các cơng việc đạt đƣợc luận văn: Tìm hiểu tổng quan hệ dịch máy đặc biệt dịch máy thống kê dựa vào cụm từ phân cấp Tìm hiểu tổng quan mơ hình chuyển ngữ tên Kevin Night Tìm hiểu phƣơng pháp tích hợp mơ hình chuyển ngữ khơng giám sát xử lý từ khơng xác định Thực nghiệm mơ hình dịch máy thống kê dựa cụm từ phân cấp, mô hình chuyển ngữ khơng giám sát đánh giá kết quảg giám sát cho kết tƣơng đối khả quan Với kết đạt đƣợc luận văn này, tƣơng lai hi vọng cải thiện đƣợc chất lƣợng dịch thời gian dịch máy ngôn ngữ Việt – Nhật từ không xác định cách cập nhật ngữ liệu đầu vào đủ lớn, giảm kích thƣớc bảng cụm từ, thay đổi vài tham số để q trình huấn luyện mơ hình đƣợc tốt hơn, cải tiến số mơ hình đảo cụm… 43 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đào Ngọc Tú (2012), “Nghiên cứu vào dịch thống kê dựa vào cụm từ thử nghiệm với cặp ngôn ngữ Anh – Việt” Luận văn Thạc sỹ, Học viện Cơng nghệ Bƣu Viễn thơng [2] Nguyễn Văn Vinh (2005), “Xây dựng chƣơng trình dịch tự động Anh-Việt phƣơng pháp dịch thống kê” Luận văn Thạc sĩ, Đại học Công nghệ, Đại học Quốc gia Hà Nội [3] Hồ Hồng Hoa, Ngơ Phƣơng Lan, Trung tâm Nghiên cứu Tiếng Nhật Tiếng Anh [4] Dzmitry Bahdanau, KyungHyun Cho, Yoshua Bengio (2015) Neural Machine Translation by jointly learning to align and translate [5] Knight, K and Graehl, J (1997) Machine Transliteration Computational Linguistics, 24(4):599–612 [6] D Chiang (2005), A Hierarchical Phrase-Based Model for Statistical Machine Translation, In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL'05) [7] Franz Joset Och and Hermann Ney (2002), Discriminative training and maximum entropy models for statistical machine translation, In Processdings of the 40th Anuual Meeting of the ACL, pages 295-302, Philadelphia, PA [8] Koehn, P (2004) Pharaoh: a beam search decoder for phrasebased 2004 [9] Chen, H., Yang, C., and Lin, Y (2003) Learning Formulation and Transformation Rules for Multilingual Named Entities Proceedings of ACL 2003 Workshop on Multilingual and Mixed-language Named Entity Recognition: Combining Statistical and Symbolic Models [10] Koehn, P., et al (2006) Moses: Open Source Toolkit for Statistical Machine Translation [11] Philipp Koehn, Franz Josef Och, Daniel Marcu (2003), Statistical Phrase-Based Translation, In proceedings of NAACL [12] Koehn (2010) Statistical Machine Translation [13] Dempster, A., Laird, N., and Rubin, D (1977) Maximum Likelihood from Incomplete Data via the EM Algorithm Journal of the Royal Statistical Society Series B (Methodological), 39(1):1–38 49 50 Bibliography Dijkstra, E (1959) A note on two problems in connexion with graphs Numerische Mathematik [14]Al-Onaizan, Y and Knight, K (2001) Translating named entities using monolingual and bilingual resources Proceedings of the 40th Annual Meeting on Association for Computational Linguistics 44 [15] Nadir Durrani, Hassan Sajjad, Hieu Hoang, Philipp Koehn (2015) Integrating an Unsupervised Transliteration Model into Statistical Machine Translation Trang web [16] http://www.maxreading.com/sach-hay/dai-cuong-ve-tieng-viet/ [17]http://www.inas.gov.vn/403-mot-so-dac-diem-cua-tieng-nhat.html [18] http://translate.google.com [19] http://www.statmt.org/moses/ [20] https://github.com/phuonglh/vn.vitk [21] https://pypi.python.org/pypi/mecab-python3 ... hình chuyển ngữ không giám sát Bảng 4.3: Một số kết chuyển ngữ tiếng Việt sang tiếng Nhật tích hợp mơ hình chuyển ngữ khơng giám sát Bảng 4.4: Một số kết chuyển ngữ sai từ tiếng Việt sang tiếng Nhật. .. cách phát âm tiếng Nhật Bảng 3.1: Nguyên tắc chuyển ngữ nguyên âm tiếng Việt sang tiếng Nhật Bảng 3.2: Ví dụ chuyển ngữ phụ âm tiếng Việt sang tiếng Nhật Bảng 3.3: Ánh xạ số âm tiếng Việt (Viết... âm tiếng Nhật (viết thƣờng) sử dụng thật toán EM Bảng 4.1: Một số kết dịch từ tiếng Việt sang tiếng Nhật chƣa tích hợp mơ hình chuyển ngữ Bảng 4.2: Một số kết dịch từ tiếng Việt sang tiếng Nhật