Chuyển ngữ tự động tên riêng tư tiếng Việt sang tiếng Nhật (Luận văn thạc sĩ)Chuyển ngữ tự động tên riêng tư tiếng Việt sang tiếng Nhật (Luận văn thạc sĩ)Chuyển ngữ tự động tên riêng tư tiếng Việt sang tiếng Nhật (Luận văn thạc sĩ)Chuyển ngữ tự động tên riêng tư tiếng Việt sang tiếng Nhật (Luận văn thạc sĩ)Chuyển ngữ tự động tên riêng tư tiếng Việt sang tiếng Nhật (Luận văn thạc sĩ)Chuyển ngữ tự động tên riêng tư tiếng Việt sang tiếng Nhật (Luận văn thạc sĩ)Chuyển ngữ tự động tên riêng tư tiếng Việt sang tiếng Nhật (Luận văn thạc sĩ)Chuyển ngữ tự động tên riêng tư tiếng Việt sang tiếng Nhật (Luận văn thạc sĩ)Chuyển ngữ tự động tên riêng tư tiếng Việt sang tiếng Nhật (Luận văn thạc sĩ)Chuyển ngữ tự động tên riêng tư tiếng Việt sang tiếng Nhật (Luận văn thạc sĩ)
ĐẠI HỌC QUỐC GIA HÀ HỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN TUẤN ANH CHUYỂN NGỮ TỰ ĐỘNG TỪ TIẾNG VIỆT SANG TIẾNG NHẬT LUẬN VĂN THẠC SỸ Hà Nội - 2017 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN TUẤN ANH CHUYỂN NGỮ TỰ ĐỘNG TỪ TIẾNG VIỆT SANG TIẾNG NHẬT Ngành : Công nghệ thông tin Chuyên ngành : Kỹ thuật phần mềm Mã số : 60480103 LUẬN VĂN THẠC SỸ NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN PHƢƠNG THÁI Hà Nội - 2017 LỜI CAM ĐOAN Tôi xin cam đoan kết nghiên cứu, thực nghiệm đƣợc trình bày luận văn thực dƣới hƣớng dẫn Phó giáo sƣ, Tiến sĩ Nguyễn Phƣơng Thái Tất tham khảo từ nghiên cứu liên quan đƣợc nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Trong luận văn, khơng có việc chép tài liệu, cơng trình nghiên cứu ngƣời khác mà không rõ tài liệu tham khảo TÁC GIẢ LUẬN VĂN Nguyễn Tuấn Anh LỜI CẢM ƠN Trƣớc tiên, xin gửi lời cảm ơn sâu sắc đến thầy giáo, Phó giáo sƣ, Tiến sĩ Nguyễn Phƣơng thái tận tình hƣớng dẫn tơi suốt q trình thực luận văn tốt nghiệp Tôi xin bày tỏ lời cảm ơn chân thành tới trƣờng Đại học Công Nghệ - ĐHQG Hà Nội thầy cô giáo giảng dạy, truyền thụ kiến thức thời gian qua Cuối cùng, tơi xin cảm ơn tất gia đình, bạn bè động viên giúp đỡ thời gian nghiên cứu đề tài Tuy có cố gắng định nhƣng thời gian trình độ có hạn nên luận văn nhiều thiếu sót hạn chế Kính mong nhận đƣợc góp ý thầy cô bạn TÁC GIẢ LUẬN VĂN Nguyễn Tuấn Anh MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN Danh mục hình vẽ Danh mục bảng CHƢƠNG I GIỚI THIỆU 1.1 Đặc điểm ngôn ngữ tiếng Việt tiếng Nhật 1.1.1 Đặc điểm ngôn ngữ tiếng Việt[16] 1.1.2 Đặc điểm ngôn ngữ tiếng Nhật 1.2 Bài toán dịch máy tiếp cận dịch dựa cụm từ phân cấp 1.2.1 Khái niệm hệ dịch máy 1.2.2 Mơ hình dịch máy thống kê 1.2.3 Tiếp cận dịch máy dựa cụm từ phân cấp 1.2.4 Mô hình ngơn ngữ 11 1.2.5 Giới thiệu dịch máy mạng nơ-ron .12 1.3 Vấn đề tên riêng từ mƣợn dịch máy 12 1.3.1 Vấn đề tên riêng 12 1.3.2 Từ mƣợn .13 1.4 Bài toán luận văn giải 14 1.5 Kết cấu luận văn .14 CHƢƠNG DỊCH MÁY THỐNG KÊ DỰA TRÊN CỤM TỪ PHÂN CẤP 15 2.1 Ngữ pháp 15 2.1.1 Văn phạm phi ngữ cảnh đồng 15 2.1.2 Quy tắc trích xuất 16 2.1.3 Các quy tắc khác 17 2.2 Mơ hình 18 2.2.1 Định nghĩa 18 2.2.2 Các đặc trƣng .19 2.2.3 Huấn luyện 19 2.3 Giải mã 20 CHƢƠNG DỊCH TÊN RIÊNG VÀ CHUYỂN NGỮ .23 3.1 Dịch tên riêng 23 3.1.1 Giới thiệu .23 3.1.2 Một số nguyên tắc cần lƣu ý chuyển tên tiếng Việt sang Katakana[17] 23 3.1.3 Phƣơng pháp Kevin Night (1997) 24 3.1.4 Các mơ hình xác suất 24 3.2 Mơ hình chuyển ngữ không giám sát .28 3.2.1 Giới thiệu .28 3.2.2 Khai phá chuyển ngữ 28 3.2.3 Mô hình chuyển ngữ 29 3.2.4 Tích hợp với dịch máy 30 3.2.5 Đánh giá chất lƣợng dịch .31 CHƢƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 32 4.1 Chuẩn bị liệu đầu vào cho hệ dịch 32 4.2 Công cụ tiền xử lý 32 4.2.1 Môi trƣờng triển khai phần cứng: 32 4.2.2 Bộ công cụ mã nguồn mở Moses 32 4.2.3 GIZA ++ 32 4.2.4 Mert 32 4.3 Tiến hành thực nghiệm 33 4.3.1 Dữ liệu đầu vào 33 Dữ liệu đầu vào thu thập từ Ted Wiki: .33 4.3.2 Quá trình chuẩn bị liệu huấn luyện 33 4.4 Đánh giá phân tích kết theo cỡ liệu huấn luyện 34 4.4.1 Kết chƣa áp dụng mô hình chuyển ngữ 34 4.4.2 Kết sau áp dụng mơ hình chuyển ngữ không giám sát 36 CHƢƠNG KẾT LUẬN 39 TÀI LIỆU THAM KHẢO 40 Danh mục hình vẽ Hình 1.1: Sơ đồ tổng quan hệ dịch máy Hình 1.2: Mơ hình chung hệ dịch máy thống kê Việt – Nhật Hình 1.3: Ví dụ gióng hàng từ Hình 1.4: Trích xuất quy tắc dịch cụm từ truyền thống Hình 1.5: Trích xuất quy tắc dịch cụm từ phân cấp Hình 1.6: Ví dụ chuyển ngữ tên riêng tiếng Nga - Anh Hình 2.1: Ví dụ trích xuất văn phạm phi ngữ cảnh đồng Hình 2.2: Ví dụ trích xuất ngữ pháp: Chuỗi cụm từ ban đầu Hình 2.3: Các quy tắc suy luận cho phân tích cú pháp LM Hình 2.4: Phƣơng pháp tìm kiếm cho phân tích cú pháp LM Hình 3.1: Ví dụ gióng hàng kí tự Hình 3.2: Sơ đồ hệ dịch Hình 4.1: Kết đánh giá chất lƣợng dịch chƣa tích hợp mơ hình chuyển ngữ Hình 4.2: Kết đánh giá chất lƣợng dịch tích hợp mơ hình chuyển ngữ không giám sát Danh mục bảng Bảng 1.1: Bảng chữ Katakana cách phát âm tiếng Nhật Bảng 3.1: Nguyên tắc chuyển ngữ nguyên âm tiếng Việt sang tiếng Nhật Bảng 3.2: Ví dụ chuyển ngữ phụ âm tiếng Việt sang tiếng Nhật Bảng 3.3: Ánh xạ số âm tiếng Việt (Viết hoa) với âm tiếng Nhật (viết thƣờng) sử dụng thật toán EM Bảng 4.1: Một số kết dịch từ tiếng Việt sang tiếng Nhật chƣa tích hợp mơ hình chuyển ngữ Bảng 4.2: Một số kết dịch từ tiếng Việt sang tiếng Nhật tích mơ hình chuyển ngữ khơng giám sát Bảng 4.3: Một số kết chuyển ngữ tiếng Việt sang tiếng Nhật tích hợp mơ hình chuyển ngữ không giám sát Bảng 4.4: Một số kết chuyển ngữ sai từ tiếng Việt sang tiếng Nhật tích hợp mơ hình chuyển ngữ khơng giám sát CHƢƠNG I GIỚI THIỆU Hiện có hàng nghìn ngơn ngữ tồn giới, ngơn ngữ có đặc trƣng riêng bảng chữ cách phát âm Ngày có nhiều hệ thống tự động dịch miễn phí mạng nhƣ: systran, google translate, vietgle … Những hệ thống cho phép dịch tự động văn với cặp ngơn ngữ chọn trƣớc (ví dụ dịch từ tiếng Anh sang tiếng Việt) Điều cho thấy phát triển dịch máy ngày vào đời sống ngƣời, đƣợc ứng dụng rộng rãi Vấn đề đặt dịch giả máy dịch việc dịch cặp ngơn ngữ có hệ thống bảng chữ cách phát âm khác dịch xác tên riêng thuật ngữ kỹ thuật (các từ không xác định) Những đối tƣợng đƣợc phiên âm, thay âm xấp xỉ tƣơng đƣơng Việc dịch phiên âm cặp ngơn ngữ đƣợc gọi Chuyển ngữ Việc dịch từ không xác định vấn đề khó ngơn ngữ thƣờng khác bảng chữ cách phát âm Các từ thƣờng đƣợc chuyển ngữ, tức là, thay khoảng ngữ âm gần Ví dụ: "Nguyễn Thu Trang" tiếng Việt xuất dƣới dạng " グエン テゥー チャン" (Guen tuu chan) tiếng Nhật 1.1 Đặc điểm ngôn ngữ tiếng Việt tiếng Nhật [16] 1.1.1 Đặc điểm ngôn ngữ tiếng Việt Tiếng Việt thuộc ngôn ngữ đơn lập, tức âm tiết đƣợc phát âm tách rời đƣợc thể chữ viết Đặc điểm thể r rệt tất mặt ngữ âm, từ vựng, ngữ pháp Đặc điểm ngữ m Trong tiếng Việt có loại đơn vị đặc biệt gọi "tiếng" Về mặt ngữ âm, tiếng âm tiết cách viết tƣơng đồng với phát âm Hệ thống âm vị tiếng Việt phong phú có tính cân đối Đặc điểm từ vựng Mỗi tiếng, nói chung, yếu tố có nghĩa Tiếng đơn vị sở hệ thống đơn vị có nghĩa tiếng Việt Từ tiếng, ngƣời ta tạo đơn vị từ vựng khác để định danh vật, tƣợng , chủ yếu nhờ phƣơng thức ghép phƣơng thức láy Việc tạo đơn vị từ vựng phƣơng thức ghép chịu chi phối quy luật kết hợp ngữ nghĩa, ví dụ: đất nƣớc, máy bay, nhà lầu xe hơi, nhà tan cửa nát Hiện nay, phƣơng thức chủ yếu để sản sinh đơn vị từ vựng Theo phƣơng thức này, tiếng Việt triệt để sử dụng yếu tố cấu tạo từ Việt hay vay mƣợn từ ngôn ngữ khác để tạo từ, ngữ mới, ví dụ: tiếp thị, karaoke , xa lộ thông tin, siêu liên kết văn bản, truy cập ngẫu nhiên, … Vốn từ vựng tối thiểu tiếng Việt phần lớn từ đơn tiết (một âm tiết, tiếng) Sự linh hoạt sử dụng, việc tạo từ ngữ cách dễ dàng tạo điều kiện thuận lợi cho phát triển vốn từ, vừa phong phú số lƣợng, vừa đa dạng hoạt động C ng vật, tƣợng, hoạt động hay đặc trƣng, có nhiều từ ngữ khác biểu thị 1.1.2 Đặc điểm ngôn ngữ tiếng Nhật Hệ thống chữ viết Ngƣời Nhật có bảng chữ đặc biệt ngữ âm đƣợc gọi Katakana, đƣợc sử dụng chủ yếu để viết tên nƣớc từ mƣợn Các ký hiệu katakana đƣợc thể Bảng 1.1, với cách phát âm tiếng Nhật chúng Hai ký hiệu đƣợc hiển thị góc dƣới bên phải đƣợc sử dụng để kéo dài nguyên âm phụ âm tiếng Nhật Bảng 1.1: Bảng chữ Katakana cách phát âm tiếng Nhật [3] Ngữ m[17] Âm tiết tiếng Nhật giữ vị trí quan trọng, vừa đơn vị ngữ âm nhỏ vừa đơn vị phát âm Mỗi âm tiết đƣợc thể chữ Kana (Hiragana Katakana) Tiếng Nhật có số lƣợng âm tiết khơng lớn, có tất 112 dạng âm tiết Trong số này, có 21 dạng âm tiết xuất từ đƣợc vay mƣợn từ nƣớc ngồi Nếu nhƣ tiếng Việt, có nhiều từ đƣợc cấu tạo âm tiết, âm tiết mang ý nghĩa định, VD: bàn, trà, bạn, đèn , tiếng Nhật, phần lớn từ đƣợc cấu tạo từ hai âm tiết trở lên âm tiết thƣờng không mang ý nghĩa VD: từ “hay” - “omoshiroi” có âm tiết /o/mo/shi/ro/i, khó tìm thấy ý nghĩa âm tiết Cũng có từ đƣợc cấu tạo âm tiết trƣờng hợp này, âm tiết mang ý nghĩa từ đó, VD: “ki” có nghĩa cây, “e” có nghĩa tranh, “te” có nghĩa tay nhƣng từ nhƣ chiếm số lƣợng nhỏ vốn từ vựng tiếng Nhật.[15] ... cách phát âm tiếng Nhật Bảng 3.1: Nguyên tắc chuyển ngữ nguyên âm tiếng Việt sang tiếng Nhật Bảng 3.2: Ví dụ chuyển ngữ phụ âm tiếng Việt sang tiếng Nhật Bảng 3.3: Ánh xạ số âm tiếng Việt (Viết... hình chuyển ngữ khơng giám sát Bảng 4.3: Một số kết chuyển ngữ tiếng Việt sang tiếng Nhật tích hợp mơ hình chuyển ngữ khơng giám sát Bảng 4.4: Một số kết chuyển ngữ sai từ tiếng Việt sang tiếng Nhật. .. Thu Trang" tiếng Việt xuất dƣới dạng " グエン テゥー チャン" (Guen tuu chan) tiếng Nhật 1.1 Đặc điểm ngôn ngữ tiếng Việt tiếng Nhật [16] 1.1.1 Đặc điểm ngôn ngữ tiếng Việt Tiếng Việt thuộc ngôn ngữ đơn lập,