Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 49 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
49
Dung lượng
0,96 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ HỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN TUẤN ANH CHUYỂN NGỮ TỰ ĐỘNG TỪ TIẾNG VIỆT SANG TIẾNG NHẬT LUẬN VĂN THẠC SỸ Hà Nội - 2017 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN TUẤN ANH CHUYỂN NGỮ TỰ ĐỘNG TỪ TIẾNG VIỆT SANG TIẾNG NHẬT Ngành : Công nghệ thông tin Chuyên ngành : Kỹ thuật phần mềm Mã số : 60480103 LUẬN VĂN THẠC SỸ NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN PHƢƠNG THÁI Hà Nội - 2017 LỜI CAM ĐOAN Tôi xin cam đoan kết nghiên cứu, thực nghiệm đƣợc trình bày luận văn thực dƣới hƣớng dẫn Phó giáo sƣ, Tiến sĩ Nguyễn Phƣơng Thái Tất tham khảo từ nghiên cứu liên quan đƣợc nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Trong luận văn, khơng có việc chép tài liệu, cơng trình nghiên cứu ngƣời khác mà không rõ tài liệu tham khảo TÁC GIẢ LUẬN VĂN Nguyễn Tuấn Anh LỜI CẢM ƠN Trƣớc tiên, xin gửi lời cảm ơn sâu sắc đến thầy giáo, Phó giáo sƣ, Tiến sĩ Nguyễn Phƣơng thái tận tình hƣớng dẫn tơi suốt q trình thực luận văn tốt nghiệp Tôi xin bày tỏ lời cảm ơn chân thành tới trƣờng Đại học Công Nghệ - ĐHQG Hà Nội thầy cô giáo giảng dạy, truyền thụ kiến thức thời gian qua Cuối cùng, tơi xin cảm ơn tất gia đình, bạn bè động viên giúp đỡ thời gian nghiên cứu đề tài Tuy có cố gắng định nhƣng thời gian trình độ có hạn nên luận văn cịn nhiều thiếu sót hạn chế Kính mong nhận đƣợc góp ý thầy cô bạn TÁC GIẢ LUẬN VĂN Nguyễn Tuấn Anh MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN Danh mục hình vẽ Danh mục bảng CHƢƠNG I GIỚI THIỆU 1.1 Đặc điểm ngôn ngữ tiếng Việt tiếng Nhật 1.1.1 Đặc điểm ngôn ngữ tiếng Việt[16] 1.1.2 Đặc điểm ngôn ngữ tiếng Nhật 1.2 Bài toán dịch máy tiếp cận dịch dựa cụm từ phân cấp 1.2.1 Khái niệm hệ dịch máy 1.2.2 Mơ hình dịch máy thống kê 1.2.3 Tiếp cận dịch máy dựa cụm từ phân cấp 1.2.4 Mô hình ngơn ngữ 11 1.2.5 Giới thiệu dịch máy mạng nơ-ron .12 1.3 Vấn đề tên riêng từ mƣợn dịch máy 12 1.3.1 Vấn đề tên riêng 12 1.3.2 Từ mƣợn .13 1.4 Bài toán luận văn giải 14 1.5 Kết cấu luận văn .14 CHƢƠNG DỊCH MÁY THỐNG KÊ DỰA TRÊN CỤM TỪ PHÂN CẤP 15 2.1 Ngữ pháp 15 2.1.1 Văn phạm phi ngữ cảnh đồng 15 2.1.2 Quy tắc trích xuất 16 2.1.3 Các quy tắc khác 17 2.2 Mơ hình 18 2.2.1 Định nghĩa 18 2.2.2 Các đặc trƣng .19 2.2.3 Huấn luyện 19 2.3 Giải mã 20 CHƢƠNG DỊCH TÊN RIÊNG VÀ CHUYỂN NGỮ .23 3.1 Dịch tên riêng 23 3.1.1 Giới thiệu .23 3.1.2 Một số nguyên tắc cần lƣu ý chuyển tên tiếng Việt sang Katakana[17] 23 3.1.3 Phƣơng pháp Kevin Night (1997) 24 3.1.4 Các mơ hình xác suất 24 3.2 Mơ hình chuyển ngữ không giám sát .28 3.2.1 Giới thiệu .28 3.2.2 Khai phá chuyển ngữ 28 3.2.3 Mô hình chuyển ngữ 29 3.2.4 Tích hợp với dịch máy 30 3.2.5 Đánh giá chất lƣợng dịch .31 CHƢƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 32 4.1 Chuẩn bị liệu đầu vào cho hệ dịch 32 4.2 Công cụ tiền xử lý 32 4.2.1 Môi trƣờng triển khai phần cứng: 32 4.2.2 Bộ công cụ mã nguồn mở Moses 32 4.2.3 GIZA ++ 32 4.2.4 Mert 32 4.3 Tiến hành thực nghiệm 33 4.3.1 Dữ liệu đầu vào 33 Dữ liệu đầu vào thu thập từ Ted Wiki: .33 4.3.2 Quá trình chuẩn bị liệu huấn luyện 33 4.4 Đánh giá phân tích kết theo cỡ liệu huấn luyện 34 4.4.1 Kết chƣa áp dụng mô hình chuyển ngữ 34 4.4.2 Kết sau áp dụng mơ hình chuyển ngữ không giám sát 36 CHƢƠNG KẾT LUẬN 39 TÀI LIỆU THAM KHẢO 40 Danh mục hình vẽ Hình 1.1: Sơ đồ tổng quan hệ dịch máy Hình 1.2: Mơ hình chung hệ dịch máy thống kê Việt – Nhật Hình 1.3: Ví dụ gióng hàng từ Hình 1.4: Trích xuất quy tắc dịch cụm từ truyền thống Hình 1.5: Trích xuất quy tắc dịch cụm từ phân cấp Hình 1.6: Ví dụ chuyển ngữ tên riêng tiếng Nga - Anh Hình 2.1: Ví dụ trích xuất văn phạm phi ngữ cảnh đồng Hình 2.2: Ví dụ trích xuất ngữ pháp: Chuỗi cụm từ ban đầu Hình 2.3: Các quy tắc suy luận cho phân tích cú pháp LM Hình 2.4: Phƣơng pháp tìm kiếm cho phân tích cú pháp LM Hình 3.1: Ví dụ gióng hàng kí tự Hình 3.2: Sơ đồ hệ dịch Hình 4.1: Kết đánh giá chất lƣợng dịch chƣa tích hợp mơ hình chuyển ngữ Hình 4.2: Kết đánh giá chất lƣợng dịch tích hợp mơ hình chuyển ngữ không giám sát Danh mục bảng Bảng 1.1: Bảng chữ Katakana cách phát âm tiếng Nhật Bảng 3.1: Nguyên tắc chuyển ngữ nguyên âm tiếng Việt sang tiếng Nhật Bảng 3.2: Ví dụ chuyển ngữ phụ âm tiếng Việt sang tiếng Nhật Bảng 3.3: Ánh xạ số âm tiếng Việt (Viết hoa) với âm tiếng Nhật (viết thƣờng) sử dụng thật toán EM Bảng 4.1: Một số kết dịch từ tiếng Việt sang tiếng Nhật chƣa tích hợp mơ hình chuyển ngữ Bảng 4.2: Một số kết dịch từ tiếng Việt sang tiếng Nhật tích mơ hình chuyển ngữ khơng giám sát Bảng 4.3: Một số kết chuyển ngữ tiếng Việt sang tiếng Nhật tích hợp mơ hình chuyển ngữ không giám sát Bảng 4.4: Một số kết chuyển ngữ sai từ tiếng Việt sang tiếng Nhật tích hợp mơ hình chuyển ngữ khơng giám sát CHƢƠNG I GIỚI THIỆU Hiện có hàng nghìn ngơn ngữ tồn giới, ngơn ngữ có đặc trƣng riêng bảng chữ cách phát âm Ngày có nhiều hệ thống tự động dịch miễn phí mạng nhƣ: systran, google translate, vietgle … Những hệ thống cho phép dịch tự động văn với cặp ngơn ngữ chọn trƣớc (ví dụ dịch từ tiếng Anh sang tiếng Việt) Điều cho thấy phát triển dịch máy ngày vào đời sống ngƣời, đƣợc ứng dụng rộng rãi Vấn đề đặt dịch giả máy dịch việc dịch cặp ngơn ngữ có hệ thống bảng chữ cách phát âm khác dịch xác tên riêng thuật ngữ kỹ thuật (các từ không xác định) Những đối tƣợng đƣợc phiên âm, thay âm xấp xỉ tƣơng đƣơng Việc dịch phiên âm cặp ngơn ngữ đƣợc gọi Chuyển ngữ Việc dịch từ không xác định vấn đề khó ngơn ngữ thƣờng khác bảng chữ cách phát âm Các từ thƣờng đƣợc chuyển ngữ, tức là, thay khoảng ngữ âm gần Ví dụ: "Nguyễn Thu Trang" tiếng Việt xuất dƣới dạng " グエン テゥー チャン" (Guen tuu chan) tiếng Nhật 1.1 Đặc điểm ngôn ngữ tiếng Việt tiếng Nhật [16] 1.1.1 Đặc điểm ngôn ngữ tiếng Việt Tiếng Việt thuộc ngôn ngữ đơn lập, tức âm tiết đƣợc phát âm tách rời đƣợc thể chữ viết Đặc điểm thể r rệt tất mặt ngữ âm, từ vựng, ngữ pháp Đặc điểm ngữ m Trong tiếng Việt có loại đơn vị đặc biệt gọi "tiếng" Về mặt ngữ âm, tiếng âm tiết cách viết tƣơng đồng với phát âm Hệ thống âm vị tiếng Việt phong phú có tính cân đối Đặc điểm từ vựng Mỗi tiếng, nói chung, yếu tố có nghĩa Tiếng đơn vị sở hệ thống đơn vị có nghĩa tiếng Việt Từ tiếng, ngƣời ta tạo đơn vị từ vựng khác để định danh vật, tƣợng , chủ yếu nhờ phƣơng thức ghép phƣơng thức láy Việc tạo đơn vị từ vựng phƣơng thức ghép chịu chi phối quy luật kết hợp ngữ nghĩa, ví dụ: đất nƣớc, máy bay, nhà lầu xe hơi, nhà tan cửa nát Hiện nay, phƣơng thức chủ yếu để sản sinh đơn vị từ vựng Theo phƣơng thức này, tiếng Việt triệt để sử dụng yếu tố cấu tạo từ Việt hay vay mƣợn từ ngôn ngữ khác để tạo từ, ngữ mới, ví dụ: tiếp thị, karaoke , xa lộ thông tin, siêu liên kết văn bản, truy cập ngẫu nhiên, … Vốn từ vựng tối thiểu tiếng Việt phần lớn từ đơn tiết (một âm tiết, tiếng) Sự linh hoạt sử dụng, việc tạo từ ngữ cách dễ dàng tạo điều kiện thuận lợi cho phát triển vốn từ, vừa phong phú số lƣợng, vừa đa dạng hoạt động C ng vật, tƣợng, hoạt động hay đặc trƣng, có nhiều từ ngữ khác biểu thị 1.1.2 Đặc điểm ngôn ngữ tiếng Nhật Hệ thống chữ viết Ngƣời Nhật có bảng chữ đặc biệt ngữ âm đƣợc gọi Katakana, đƣợc sử dụng chủ yếu để viết tên nƣớc từ mƣợn Các ký hiệu katakana đƣợc thể Bảng 1.1, với cách phát âm tiếng Nhật chúng Hai ký hiệu đƣợc hiển thị góc dƣới bên phải đƣợc sử dụng để kéo dài nguyên âm phụ âm tiếng Nhật Bảng 1.1: Bảng chữ Katakana cách phát âm tiếng Nhật [3] Ngữ m[17] Âm tiết tiếng Nhật giữ vị trí quan trọng, vừa đơn vị ngữ âm nhỏ vừa đơn vị phát âm Mỗi âm tiết đƣợc thể chữ Kana (Hiragana Katakana) Tiếng Nhật có số lƣợng âm tiết khơng lớn, có tất 112 dạng âm tiết Trong số này, có 21 dạng âm tiết xuất từ đƣợc vay mƣợn từ nƣớc ngồi Nếu nhƣ tiếng Việt, có nhiều từ đƣợc cấu tạo âm tiết, âm tiết mang ý nghĩa định, VD: bàn, trà, bạn, đèn , tiếng Nhật, phần lớn từ đƣợc cấu tạo từ hai âm tiết trở lên âm tiết thƣờng không mang ý nghĩa VD: từ “hay” - “omoshiroi” có âm tiết /o/mo/shi/ro/i, khó tìm thấy ý nghĩa âm tiết Cũng có từ đƣợc cấu tạo âm tiết trƣờng hợp này, âm tiết mang ý nghĩa từ đó, VD: “ki” có nghĩa cây, “e” có nghĩa tranh, “te” có nghĩa tay nhƣng từ nhƣ chiếm số lƣợng nhỏ vốn từ vựng tiếng Nhật.[15] 27 có liên kết với xác suất điều kiện tốt 1% đƣợc hiển thị, tổng số khơng = Chúng tơi xây dựng mơ hình cho phép âm tiếng Việt độc lập bị rút (ví dụ tạo âm tiếng Nhật) Tuy nhiên, mơ hình tính tốn tốn (nhiều xếp hơn) dẫn đến số lƣợng lớn giả thuyết thành phần automat Hơn nữa, việc khơng cho phép “nuốt”, chúng tơi tự động xóa hàng trăm cặp có khả gây hại từ tập huấn luyện chúng tơi Bởi khơng có xếp có thể, nhƣ cặp bị bỏ qua thuật toán học, trƣờng hợp nhƣ phải đƣợc giải việc tra từ điển cách Chú ý rằng, mô hình chúng tơi dịch âm tiếng Việt mà không liên quan đến ngữ cảnh Chúng xây dựng mơ hình dựa vào ngữ cảnh, sử dụng định mã hóa lại nhƣ automat hữu hạn có trọng số Ví dụ, từ âm “T” tiếng Việt có khả (t) (t o) nhiên, mơ hình dựa ngữ cảnh không thuận lợi cho việc chuyển ngữ ngƣợc chúng hữu ích cho việc chuyển ngữ từ tiếng Việt sang tiếng Nhật Âm tiếng Nhật sang Katakana Để liên kết chuỗi âm tiếng Nhật nhƣ “m o o t a a” với chuỗi âm katakana nhƣ “ ”, chúng tơi thƣờng xây dựng hai automat hữu hạn có trọng số Kết hợp nhau, chúng tạo automat đƣợc tích hợp với 53 trạng thái 303 cung, tạo tóm tắt katakana chứa 81 kí tự, bao gồm dấu chấm phân cách (.) Automat kết hợp đơn giản nguyên âm dài tiếng Nhật với kí tự aa, ii, uu, ee oo Automat thứ hai nối âm tiếng Nhật với kí tự katakana Ý tƣởng giảm bớt toàn phần âm tiết âm trƣớc tạo kí tự katakana nào, ví dụ: Đoạn cho thấy biến thể theo tả tiếng Nhật: âm nguyên âm dài “oo” thƣờng đƣợc viết với dấu nguyên âm dài “ ” nhƣng đƣợc viết với kí tự katakana lặp “ ” Chúng tơi kết hợp việc phân tích ngữ liệu với hƣớng dẫn từ sách giáo khoa tiếng Nhật (Jorden and Chaplin 1976) để chuyển lên thành nhiều biến thể tả kí tự katakana thƣờng - Chuỗi âm “j i” thƣờng đƣợc viết “ - “g u a” thƣờng viết “ ” nhƣng “ ”, nhƣng “ ” ” 28 - “w o o” đƣợc viết nhiều cách “ katakana cách viết cũ đặc biệt cho “w o” - “y e” “ ”hoặc “ ”, với kí tự ” - “w i” “ ” “ ” - “n y e” chuỗi âm gặp, nhƣng đƣợc viết “ ” xuất - “t y u” gặp “ch y u”, nhƣng đƣợc sử dụng viết “ ” Sự biến đổi tả r ràng trƣờng hợp mà từ tiếng Việt nhƣ “công tắc điện” xuất đƣợc chuyển ngữ khác “ ” từ điển khác Xử lý biến thể nhƣ lớp tƣơng đƣơng cho phép học hỏi việc nối âm nói chung giải song ngữ tuân thủ quy ƣớc tả nhỏ gọn chúng tơi khơng làm, nhiên, tạo tất chuỗi katakana với mô hình này; 3.2 Mơ hình chuyển ngữ khơng giám sát Chúng tơi nghiên cứu ba phƣơng pháp để tích hợp mơ hình chuyển ngữ khơng giám sát vào hệ thống dịch máy thống kê Chúng tạo mơ hình phiên âm từ liệu song song sử dụng để dịch tên riêng Trong phƣơng pháp để tích hợp chuyển ngữ, chúng tơi quan sát thấy cải tiến từ điểm BLEU Chúng liệu chuyển ngữ đƣợc khai phá cung cấp bao phủ quy tắc chất lƣợng dịch tốt so với liệu chuyển ngữ theo phƣơng pháp Kevin Night 3.2.1 Giới thiệu Tất hệ thống dịch máy tồn vấn đề tên riêng, số lƣợng ngữ liệu đào tạo có sẵn Các tên riêng chủ yếu tên thực thể, thuật ngữ kỹ thuật từ nƣớc ngồi đƣợc dịch sang ngơn ngữ đích cách chuyển ngữ Nhiều nghiên cứu cải thiện dịch máy với chuyển ngữ tên thực thể tên riêng, nhƣ hữu ích cho việc dịch cặp ngơn ngữ liên quan chặt chẽ Nói chung, mơ hình chuyển ngữ khơng giám sát đƣợc đào tạo riêng rẽ nằm ngồi dòng chảy dịch máy, để thay tên riêng chuyển ngữ tốt bƣớc hậu xử lý giải mã thƣờng đƣợc sử dụng Trong luận văn này, chúng tơi sử dụng mơ hình chuyển ngữ khơng giám sát dựa thuật tốn EM để tạo phận phiên âm từ ngữ liệu song song đƣợc xếp Chúng nghiên cứu ba phƣơng pháp khác để tích hợp chuyển ngữ q trình giải mã, thực công cụ Moses 3.2.2 Khai phá chuyển ngữ Các khó khăn việc xây dựng hệ thống chuyển ngữ thiếu cặp huấn luyện song ngữ sẵn có Tuy nhiên, công cho liệu song song có chứa số lƣợng hợp lý cặp từ đƣợc chuyển ngữ Khai phá chuyển ngữ đƣợc sử dụng để trích xuất cặp từ nhƣ từ hệ thống song 29 song Hầu hết kỹ thuật trƣớc khai phá chuyển ngữ thƣờng sử dụng phƣơng pháp giám sát bán giám sát Điều hạn chế giải pháp khai phá cho cặp ngôn ngữ mà liệu đào tạo sẵn có Mơ hình Mơ hình khai phá chuyển ngữ tổng hợp hai công thức Ý tƣởng công thức thứ định xác suất cao cho cặp kí tự có quan hệ kí tự so với xác suất đƣợc định cơng thức thứ cho cặp kí tự khơng có mối quan hệ kí tự Xem xét cặp từ (f, e), xác suất mơ hình phiên âm cho cặp từ chuyển ngữ đƣợc định nghĩa nhƣ sau: ∈ ∑ ∏ Align (f,e) tập hợp tất chuỗi gióng hàng kí tự, a chuỗi gióng hàng gióng hàng kí tự Với cặp khơng có mối quan hệ ký tự Nó đƣợc mơ cách nhân kí tự nguồn đích mơ hình unigram: ∏ ∏ Mơ hình khai phá chuyển ngữ đƣợc định nghĩa phép nội suy hai công thức trên: λ λ - λ xác suất cơng thức Mơ hình khơng chuyển ngữ khơng thay đổi q trình huấn luyện Chúng tơi tính tốn bƣớc tiền xử lý Mơ hình chuyển ngữ học cách gióng hàng từ cách sử dụng thuật tốn EM 3.2.3 Mơ hình chuyển ngữ Bây có cặp từ chuyển ngữ để học mơ hình chuyển ngữ Chúng tơi phân đoạn tập ngữ liệu huấn luyện thành ký tự tìm hiểu hệ thống dựa cụm từ cặp ký tự Mơ hình chuyển ngữ giả định từ nguồn đích đƣợc tạo cách đơn điệu Do chúng tơi khơng sử dụng mơ hình xếp Chúng tơi sử dụng tính dịch cụm từ (trực tiếp, chuyễn ngữ truy hồi, tính trọng số), tính mơ hình ngơn ngữ (đƣợc xây dựng từ phía ngơn ngữ đích ngữ liệu huấn luyện), điểm phạt từ cụm từ Huấn luyện chuyển ngữ không xác định đƣợc chia nhỏ thành cụm kí tự I: Mơ hình chuyển ngữ giả sử thứ tự ký tự từ nguồn từ đích khơng thay đổi, chia xác suất p(f|e) thành: ( ̅ ̅̅̅ ) ∏ ̅ ̅ 30 Tiếp theo kí tự đƣợc chuyển ngữ sang kí tự tiếng Nhật b a n バ ン グ g l ラ a d デ e s シ h ュ Hình 3.1: Ví dụ gióng hàng kí tự Kết hợp tất thành phần với đƣợc: ̂ ∏ ̅ ̅ ∏ 3.2.4 Tích hợp với dịch máy Chúng tơi nghiên cứu ba phƣơng thức để tích hợp chuyển ngữ, đƣợc mô tả dƣới Phƣơng pháp Liên quan đến việc thay từ không xác định đầu với số lƣợng dịch tốt Thành công Phƣơng thức phụ thuộc vào độ xác mơ hình chuyển ngữ Hình 3.2 : Sơ đồ hệ dịch Ngồi ra, bỏ qua bối cảnh dẫn tới việc chuyển ngữ khơng xác Phƣơng pháp Cung cấp n dịch tốt cho giải mã đơn sử dụng mơ hình ngôn ngữ đơn bảng chuyển ngữ cụm từ để tái ghi điểm chuyển ngữ Chúng chuyển tiếp tính mơ hình chuyển ngữ thứ tƣ đƣợc sử dụng hệ thống chuyển ngữ để xây dựng cụm từ chuyển ngữ Sử dụng thêm tính LM-OOV để tính số từ giả thuyết khơng đƣợc biết đến mơ hình ngơn ngữ Các phƣơng 31 pháp làm mịn nhƣ KneserNey quy định khối lƣợng xác suất đáng kể cho kiện khơng nhìn thấy, khiến giải mã thực lựa chọn chuyển ngữ khơng xác Phƣơng pháp Trong Phƣơng thức 3, cung cấp bảng chuyển ngữ cum từ trực tiếp vào giải mã cho phép xếp từ không xác định Chúng sử dụng tùy chọn đồ thị giải mã ngƣợc Moses, cho phép nhiều bảng cụm từ chuyển đổi mơ hình ngƣợc Nhƣ Phƣơng thức 2, sử dụng tính LM-OOV Phƣơng thức 3.2.5 Đánh giá chất lƣợng dịch Đánh giá chất lƣợng dịch đƣợc thực thủ cơng ngƣời tự động Mỗi phƣơng pháp đánh giá có ƣu nhƣợc điểm riêng Q trình đánh giá thủ công cho điểm câu dịch dựa trôi chảy xác chúng Thế nhƣng cơng việc đánh giá thủ công lại tiêu tốn nhiều thời gian, đặc biệt cần so sánh nhiều mô hình ngơn ngữ, nhiều hệ thống khác Tuy đánh giá tự động phản ánh đƣợc hết khía cạnh chất lƣợng dịch, nhƣng nhanh chóng cho ta biêt: chất lƣợng hệ dịch tầm Trong thực tế, điểm BLEU độ đo chất lƣợng dịch tự động phổ biến BLEU tính điểm cách đối chiếu kết dịch với tài liệu dịch tham khảo tài liệu nguồn Mặc d điểm BLEU thƣờng không thực tƣơng quan với đánh giá thủ công loại hệ thống khác nhau, nhƣng xác để đánh giá hệ thống, hệ thống tƣơng tự Việc so sánh đƣợc thực thông qua thống kê trùng khớp từ hai dịch tính đến thứ tự chúng câu Điểm BLEU đƣợc tính công thức: ∑ với BP ={ - c: độ dài dịch máy r: độ dài lớn dịch mẫu N: Số lƣợng dịch mẫu 32 CHƢƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ Chƣơng thảo luận liệu d ng để huấn luyện kiểm tra mơ hình phiên âm tiếng Việt-Nhật, phần mềm Moses đƣợc sử dụng suốt dự án, số liệu d ng để đánh giá cuối c ng đƣa mơ tả thí nghiệm 4.1 Chuẩn bị liệu đầu vào cho hệ dịch Dữ liệu đầu vào liệu song ngữ Việt – Nhật: Sử dụng khoảng 40.000 cặp câu Việt – Nhật đƣợc thu thập, lọc nhiễu, gióng hàng từ Để chuẩn bị liệu để đào tạo hệ thống chuyển ngữ, phải thực bƣớc sau: Tách từ cụm từ chuỗi Các từ ban đầu câu đƣợc chuyển đổi sang phiên chắn chúng Điều giúp giảm thƣa thớt liệu Các chuỗi dài chuỗi trống đƣợc gỡ bỏ chúng gây vấn đề với dịng huấn luyện, r ràng câu sai lệch bị xóa 4.2 Cơng cụ tiền xử lý 4.2.1 Mơi trƣờng triển khai phần cứng: Bộ xử lý Core2Duo T9300 2.5Ghz, RAM 2GB, HDD free 20GB Phần mềm: Hệ điều hành Ubuntu 12.04 32 bit 4.1.2 4.2.2 Bộ công cụ mã nguồn mở Moses Moses hệ dịch máy thống kê cho phép ngƣời dùng dễ dàng tạo mơ hình dịch cho cặp ngơn ngữ Nó bao gồm đầy đủ thành phần để tiền xử lý liệu, huấn luyện mơ hình ngơn ngữ mơ hình dịch Nó bao gồm cơng cụ tuning cho mơ hình sử dụng huấn luyện với lỗi tối thiểu đánh giá kết dịch sử dụng điểm BLEU Có thể tải từ: http://www.statmt.org/moses/ 4.2.3 GIZA ++ GIZA ++ (Och and Ney, 2003) phần mở rộng chƣơng trình GIZA (một phần cơng cụ SMT EGYPT) Nhóm dịch máy thống kê phát triển hội thảo m a hè năm 1999 Trung tâm Ngôn ngữ Xử lý Ngôn ngữ Trƣờng đại học Johns-Hopkins(CLSP / JHU) GIZA++ mở rộng hỗ trợ GIZA để đào tạo mơ hình IBM (Brown cộng sự., 1993) để mơ mơ hình Giza đƣợc sử dụng Moses để thực gióng hàng từ tập ngữ liệu huấn luyện song song 4.2.4 Mert Việc triển khai Mert Ashish Venugopal cho dịch máy thống kê nhƣ mô tả Och (2003) vàVenugopal Vogel (2005) Nó bao gồm số cải tiến cho phƣơng thức đào tạo bao gồm điều kiện ban đầu ngẫu nhiên trật tự mẫu chuyển hoán (để giải chất tham lam thuật toán) mở rộng hạn chế phạm vi tham số động (để tăng tác động tƣơng đối tiềm chúng, 33 để hạn chế việc sử dụng mơ hình định) Mert đƣợc sử dụng Moses để tối ƣu hóa hiệu 4.2.5 Vitk Cơng cụ phân tách từ Vitk tách từ văn gồm hai triệu âm tiết tiếng Việt 20 giây cụm ba máy tính (24 l i, 24 GB RAM), cho độ xác khoảng 97% Bộ công cụ hƣớng đến khả xử lý liệu văn lớn Vì lý này, sử dụng Apache Spark làm tảng cốt l i Apache Spark công cụ nhanh phổ biến cho xử lý liệu quy mô lớn Có thể tải từ: https://github.com/phuonglh/vn.vitk 4.2.6 Mecab Tƣơng tự Vitk, Mecab công cụ phân tách từ cho tiếng Nhật, độ xác lên đến 99% Có thể tải từ: https://pypi.python.org/pypi/mecab-python3 4.3 Tiến hành thực nghiệm 4.3.1 Dữ liệu đầu vào Dữ liệu đầu vào thu thập từ Ted Wiki: Dữ liệu huấn luyện Dữ liệu điều chỉnh tham số Dữ liệu đánh giá Tiếng Việt 40000 câu Tiếng Nhật 40000 câu Tiếng Việt 950 câu Tiếng Nhật 950 câu Tiếng Việt 1000 câu Tiếng Nhật 1000 câu 4.3.2 Quá trình chuẩn bị liệu huấn luyện Chuẩn bị liệu Tách từ cho file liệu đầu vào Cắt câu dài cho tệp liệu huấn luyện Chuyển chữ thƣờng Huấn luyện mơ hình ngơn ngữ Mơ hình ngơn ngữ đƣợc sử dụng để đảm bảo đầu trơi chảy Vì đƣợc xây dựng ngôn ngữ mục tiêu (tức tiếng Nhật trƣờng hợp này) Tài liệu KenLM cung cấp đầy đủ lời giải thích t y chọn dịng lệnh, phạm vi luận văn xây dựng mô hình ngơn ngữ 3-gram thích hợp Sau đó, chúng tơi nhị phân tập tin * arpa.en sử dụng KenLM để tải nhanh Huẩn luyện mơ hình dịch Cuối c ng tới cơng việc – huấn luyện mơ hình dịch Để thực việc này, chúng tơi chạy gióng hàng từ (sử dụng GIZA ++) trích xuất cụm từ, tạo bảng xếp lại tạo tệp cấu hình Moses 34 Huấn luyện tham số mơ hình Đây phần chậm tiến trình Huấn luyện tham số địi hỏi số lƣợng nhỏ liệu song song, tách biệt với liệu huấn luyện, chúng tơi sử dụng lƣợng liệu song song gồm 950 cặp câu song ngữ Việt – Nhật 4.3.4 Chuyển ngữ từ không xác định Kết trình dịch máy theo phƣơng pháp thống kê tiếng Việt sang tiếng Nhật xuất dịch chứa từ không xác định có tên riêng mà mơ hình dịch khơng dịch đƣợc Các từ đƣợc chuyển ngữ Phƣơng thức mơ hình chuyển ngữ khơng giám sát Phƣơng pháp: D ng mơ hình dịch máy thống kê dựa cụm từ để học mơ hình chuyển ngữ Dữ liệu huấn luyện cặp từ ngữ liệu huấn luyện, tách thành ký tự học hệ thống dịch cụm từ cặp ký tự Mơ hình chuyển ngữ giả sử thứ tự ký tự từ nguồn từ đích không thay đổi nên không sử dụng mơ hình xếp trật tự từ (reordering model) Vì vậy, sử dụng đặc trƣng là: đặc trƣng dịch dựa cụm từ (phrase-translation), mơ hình ngơn ngữ, điểm phạt từ cụm (word and phrase penalties) Trọng số đặc trƣng đƣợc đƣợc học từ 1000 cặp từ chuyển ngữ Dữ liệu huấn luyện mơ hình chuyển ngữ: Gồm 12.260 cặp từ đƣợc trích trọn từ liệu 40.000 cặp câu song ngữ Mơ hình ngơn ngữ: 3-gram, huấn luyện từ 12.260 từ tiếng Nhật Để kiểm tra độ tốt mô hình chuyển ngữ sau huấn luyện xong chúng tơi thực chuyển ngữ cho từ không xác định file kết dịch mơ hình dịch máy Số lƣợng từ khơng xác định mơ hình dịch máy dựa cụm từ phân cấp chiều Việt - Nhật (khơng dịch đƣợc) nhƣ sau: Tổng có: 2006 từ không xác định Số từ mang nghĩa: 1209 từ (60.3% tổng số từ không xác định) Số từ khơng có nghĩa (tên riêng): 797 từ (39.7% tổng số từ không xác định) 4.4 Đánh giá ph n tích kết theo cỡ liệu huấn luyện 4.4.1 Kết chƣa áp dụng mơ hình chuyển ngữ Ta thay đổi kích cỡ ngữ liệu huấn luyện lần lƣợt 10.000, 20.000,…, 40.000 cặp câu, sau thực đánh giá chất lƣợng dịch dựa vào điểm BLEU Điểm BLEU cao chất lƣợng dịch tốt 35 Hình 4.1: Kết đánh giá chất lượng dịch chưa tích hợp mơ hình chuyển ngữ Tiếng Việt Tiếng Nhật alleyne で 逮捕 さ れ た 後 、 alleyne phải nhập_viện sau bị bắt nhập_viện tức さ れ なけれ ば なら bị tức ngực なかっ た ngực た 。 liên_hợp_quốc この 国 で の 民間 人 liên_hợp_quốc nói tỷ_lệ tử_vong の 死亡 率 が vọt 上昇 し た と 言っ dân_thƣờng nƣớc tăng vọt た。 vào tháng_một năm 2011 , mandela phải tháng_một に 病気 に điều_trị 研究所 vào viện điều_trị bệnh nhiễm_tr ng は 、 2 0 1 1 年 、 mandela hơ_hấp cấp_tính nhiễm_trùng hơ_hấp cấp_tính た 。 220,000 camaguey 州 で 、 低 trũng 地域 から 避難 し た 人 の 人 が 220,000 ngƣời đƣợc sơ_tán khỏi khu_vực trũng thấp tỉnh camaguey , 170,000 ngƣời đƣợc sơ_tán khỏi tỉnh las_tunas 170,000 las_tunas 州 から 避難 し た 。 c ng với vấn_đề ánh_sáng , hộ gia_đình bị nƣớc trạm bơm mosvodokanal điện vị sự_cố これら の と 同じ 光 の 問題 で も 、 家族 hộ mosvodokanal で も ポンプ ステーション から 電力 の 国 で の 事件 を 失っ た 。 cảnh_sát nói patkar bây_giờ chƣa bị bắt , nhƣng báo_cáo thơng_tin đầu_tiên đƣợc trình lên để chống lại cố_ý tự_tử 警察 は 、 最初 の 報告 は 、 逮捕 さ れ て い た が 、 今 patkar 情報 は 自殺 を 図っ て 彼女 と 戦う ため に 提出 さ れ た 。 Bảng 4.1: Một số kết dịch từ tiếng Việt sang tiếng Nhật chưa tích hợp mơ hình chuyển ngữ 36 4.4.2 Kết sau áp dụng mơ hình chuyển ngữ khơng giám sát Tƣơng tự phần 4.4.1 thay đổi kích cỡ ngữ liệu huấn luyện lần lƣợt 10.000, 20.000,…, 40.000 cặp câu, sau thực đánh giá chất lƣợng dịch dựa vào điểm BLEU Chúng kết hợp mô hình chuyển ngữ khơng giám sát vào mơ hình dịch để chuyển từ khơng xác định mà mơ hình dịch không dịch đƣợc Chúng áp dụng phƣơng thức chuyển ngữ cặp ngôn ngữ tiếng Việt - Nhật cho thấy cải tiến từ điểm BLEU 12.54 tăng lên 12.73 Hình 4.2: Kết đánh giá chất lượng dịch tích hợp mơ hình chuyển ngữ khơng giám sát Tiếng Việt Tiếng Nhật đội_tuyển mỹ tuyên_bố thi_đấu アメリカ チーム の 戦い は 個人 の giải cá_nhân シーズン の 中 で 述べ た 。 オーストラリア の スポーツ 委員 会 19,2 triệu đô_la úc đƣợc mở rộng cho uỷ_ban thể_thao úc để chạy chƣơng_trình cộng_đồng hoạt_động sau học họ năm 2012/2013 với tài_trợ tƣơng_tự cho 2013/2014 に 拡大 さ れ た が 、 オーストラリア の 19,2 万 ドル の 資金 援助 計画 を 実行 する ため に 、 彼ら の 活動 を 学ぶ 時間 後 に 2012/2013 年 の コミュニティ 2013/2014 に 類似 し た 。 sáng thứ năm xe_buýt điện xe_điện バス は 木曜日 の 朝 、 モスクワ の khu_vực phía nam moscow chƣa 南部 地域 の 路面 電車 は まだ 停電 hoạt_động した。 giữ quan_điểm mạnh có_thể mà 私 は 最も 強力 な 見解 を 保持 し て nói điều trái với lợi_ích いる かも しれ ない と 述べ た が 、 37 an_ninh đất_nƣớc nƣớc mỹ それ は この 国 の 安全 保障 さ れ た bị đánh_bại iraq 水 が アメリカ の 利益 と は 対照 的 に は イラク で 破っ た 。 trận động_đất làm cho tổng_số この 地震 は 、 合計 350 人 が 負傷 ngƣời chết lên 30 số ngƣời bị_thƣơng し 、 現在 の と は 30 人 が 死亡 し 350 た。 Bảng 4.2: Một số kết dịch từ tiếng Việt sang tiếng Nhật tích hợp mơ hình chuyển ngữ không giám sát Đánh giá kết cho thấy phận phiên âm cho chất lƣợng dịch tổng thể tốt so với chuyển ngữ Kevin Night Các dịch tên riêng xác ph hợp với nguyên tắc chuyển ngữ tên riêng Việt – Nhật đƣợc mô tả phần 3.1.1 3.1.2 Mơ hình chuyển ngữ khơng giám sát tích hợp với dịch máy thống kê dựa vào cụm từ đƣợc cung cấp cho cộng đồng nghiên cứu thông qua cơng cụ Moses Kết Áp dụng mơ hình chuyển ngữ: Tất từ: 231 / 2006 từ (12%) Từ mang nghĩa: 49 / 1209 từ (4.1%) Từ khơng có nghĩa (tên riêng): 182 / 797 từ (22.8 %) Mơ hình chuyển ngữ mục đích để dịch cho từ khơng có từ đối nghĩa ngơn ngữ đích, q trình chuyển ngữ dựa việc phiên âm từ ngôn ngữ nguồn sang ngơn ngữ đích nên dịch tốt cho từ khơng xác định có tên riêng, khơng tốt cho từ đối dịch Ví dụ chuyển ngữ đúng: Tiếng Việt Từ mang nghĩa Từ khơng có nghĩa (tên riêng) Tiếng Nhật đối tác パートナー tên lửa ミサイル killing キリン hộ アパート telegraph テレグラフ dubai ドバイ việt nam ベトナム lê リー băng cốc バンコク na uy ノルウェー 38 Bảng 4.3: Một số kết chuyển ngữ tiếng Việt sang tiếng Nhật tích hợp mơ hình chuyển ngữ khơng giám sát Ví dụ chuyển ngữ sai: Tiếng Việt Từ mang nghĩa Tiếng Nhật chúc_mừng お祈り・マャングル hạnh_phúc フャ捧げる kỹ_thuật_viên デジ・トゥデイ・ヴィター bản_quyền ポン・直接ン hiệu_ứng_nhà_kính ヒカット・ングリーンハウス mâm_xơi ムマ・ックスシェ Từ khơng có hạnh_nhân vƣơng_quốc_anh nghĩa (tên riêng) ấn_độ_dƣơng hoang_ngoc_khanh フャすばらしい ヴコーアンフ インド洋グ ホアング・ンゴク・クハンフ Bảng 4.4: Một số kết chuyển ngữ sai từ tiếng Việt sang tiếng Nhật tích hợp mơ hình chuyển ngữ khơng giám sát 39 CHƢƠNG KẾT LUẬN Luận văn hệ thống tự động chuyển ngữ khơng giám sát đƣợc xây dựng từ hệ thống dịch máy thống kê dựa cụm từ phân cấp có hiệu suất tƣơng đƣơng với hệ thống đại đƣợc thiết kế đặc biệt để dịch máy Vì việc xây dựng hệ thống khơng địi hỏi có thơng tin ngơn ngữ bổ sung nhƣ phát âm ràng buộc ngôn ngữ, nên hệ thống cho cặp ngôn ngữ đƣợc phát triển nhanh chóng rẻ tiền với đủ số lƣợng liệu Một cải tiến đáng kể điểm BLEU độ xác dịch đƣợc thực cách sử dụng mơ hình chuyển ngữ khơng giám sát cặp từ không xác định tiếng Việt - Nhật đƣợc xây dựng liệu có thƣớc lớn (40.000 cặp) so với sử dụng thí nghiệm (10.000, 20.000, 30.000 cặp) Các công việc đạt đƣợc luận văn: Tìm hiểu tổng quan hệ dịch máy đặc biệt dịch máy thống kê dựa vào cụm từ phân cấp Tìm hiểu tổng quan mơ hình chuyển ngữ tên Kevin Night Tìm hiểu phƣơng pháp tích hợp mơ hình chuyển ngữ khơng giám sát xử lý từ không xác định Thực nghiệm mơ hình dịch máy thống kê dựa cụm từ phân cấp, mơ hình chuyển ngữ khơng giám sát đánh giá kết quảg giám sát cho kết tƣơng đối khả quan Với kết đạt đƣợc luận văn này, tƣơng lai hi vọng cải thiện đƣợc chất lƣợng dịch thời gian dịch máy ngôn ngữ Việt – Nhật từ không xác định cách cập nhật ngữ liệu đầu vào đủ lớn, giảm kích thƣớc bảng cụm từ, thay đổi vài tham số để trình huấn luyện mơ hình đƣợc tốt hơn, cải tiến số mơ hình đảo cụm… 40 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đào Ngọc Tú (2012), “Nghiên cứu vào dịch thống kê dựa vào cụm từ thử nghiệm với cặp ngôn ngữ Anh – Việt” Luận văn Thạc sỹ, Học viện Cơng nghệ Bƣu Viễn thơng [2] Nguyễn Văn Vinh (2005), “Xây dựng chƣơng trình dịch tự động Anh-Việt phƣơng pháp dịch thống kê” Luận văn Thạc sĩ, Đại học Công nghệ, Đại học Quốc gia Hà Nội [3] Hồ Hồng Hoa, Ngơ Phƣơng Lan, Trung tâm Nghiên cứu Tiếng Nhật Tiếng Anh [4] Dzmitry Bahdanau, KyungHyun Cho, Yoshua Bengio (2015) Neural Machine Translation by jointly learning to align and translate [5] Knight, K and Graehl, J (1997) Machine Transliteration Computational Linguistics, 24(4):599–612 [6] D Chiang (2005), A Hierarchical Phrase-Based Model for Statistical Machine Translation, In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL'05) [7] Franz Joset Och and Hermann Ney (2002), Discriminative training and maximum entropy models for statistical machine translation, In Processdings of the 40th Anuual Meeting of the ACL, pages 295-302, Philadelphia, PA [8] Koehn, P (2004) Pharaoh: a beam search decoder for phrasebased 2004 [9] Chen, H., Yang, C., and Lin, Y (2003) Learning Formulation and Transformation Rules for Multilingual Named Entities Proceedings of ACL 2003 Workshop on Multilingual and Mixed-language Named Entity Recognition: Combining Statistical and Symbolic Models [10] Koehn, P., et al (2006) Moses: Open Source Toolkit for Statistical Machine Translation [11] Philipp Koehn, Franz Josef Och, Daniel Marcu (2003), Statistical Phrase-Based Translation, In proceedings of NAACL [12] Koehn (2010) Statistical Machine Translation [13] Dempster, A., Laird, N., and Rubin, D (1977) Maximum Likelihood from Incomplete Data via the EM Algorithm Journal of the Royal Statistical Society Series B (Methodological), 39(1):1–38 49 50 Bibliography Dijkstra, E (1959) A note on two problems in connexion with graphs Numerische Mathematik [14] Al-Onaizan, Y and Knight, K (2001) Translating named entities using monolingual and bilingual resources Proceedings of the 40th Annual Meeting on Association for Computational Linguistics 41 [15] Nadir Durrani, Hassan Sajjad, Hieu Hoang, Philipp Koehn (2015) Integrating an Unsupervised Transliteration Model into Statistical Machine Translation Trang web [16] http://www.maxreading.com/sach-hay/dai-cuong-ve-tieng-viet/ [17] http://www.inas.gov.vn/403-mot-so-dac-diem-cua-tieng-nhat.html [18] http://translate.google.com [19] http://www.statmt.org/moses/ [20] https://github.com/phuonglh/vn.vitk [21] https://pypi.python.org/pypi/mecab-python3 ... cách phát âm tiếng Nhật Bảng 3.1: Nguyên tắc chuyển ngữ nguyên âm tiếng Việt sang tiếng Nhật Bảng 3.2: Ví dụ chuyển ngữ phụ âm tiếng Việt sang tiếng Nhật Bảng 3.3: Ánh xạ số âm tiếng Việt (Viết... hình chuyển ngữ khơng giám sát Bảng 4.3: Một số kết chuyển ngữ tiếng Việt sang tiếng Nhật tích hợp mơ hình chuyển ngữ khơng giám sát Bảng 4.4: Một số kết chuyển ngữ sai từ tiếng Việt sang tiếng Nhật. .. đề tên riêng từ mƣợn dịch máy 1.3.1 Vấn đề tên riêng Sự quan tâm đến việc chuyển ngữ tự động tên riêng tăng lên năm gần nhờ có khả giúp chống gian lận chuyển ngữ, trình chuyển ngữ 13 tên riêng