Nghiên cứu về dịch thống kê dựa vào cụm từ và thử nghiệm với cặp ngôn ngữ anh việt (tt)

1 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - ĐÀO NGỌC TÚ NGHIÊN CỨU VỀ DỊCH THỐNG KÊ DỰA VÀO CỤM TỪ VÀ THỬ NGHIỆM VỚI CẶP NGÔN NGỮ ANH – VIỆT Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 Nghười hướng dẫn khoa học: TS Nguyễn Văn Vinh TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2012 GIỚI THIỆU Hiện nay, ngày có nhiều hệ thống tự động dịch miễn phí mạng như: systran, google translate, vietgle, vdict, … Những hệ thống cho phép dịch tự động văn với cặp ngơn ngữ chọn trước (ví dụ dịch từ tiếng Anh sang tiếng Việt) Điều cho thấy phát triển dịch máy ngày tiến gần đến ngôn ngữ tự nhiên người Cùng với lịch sử phát triển dịch máy, vào năm gần đây, dịch máy thống kê phát triển mạnh ứng dụng rộng rãi Hơn nữa, kết thực tế hệ thống dịch tốt Ngôn ngữ máy dịch ngày gần với ngôn ngữ người Ngoài với hệ thống dịch máy thống kê, sản phẩm ứng dụng ngày giúp người trao đổi thông tin dễ dàng hơn, tốc độ nhanh với nhiều ngôn ngữ Hiện nay, phương pháp dịch thống kê dựa cụm từ phương pháp cho kết dịch tốt Điều thể qua hệ dịch máy Google, Vietgle Hơn việc dịch tiếng Anh tiếng Việt cần thiết khối lượng văn tiếng Anh tiếng Việt ngày lớn thời kỳ Việt Nam hội nhập sâu rộng với quốc tế Chính lý đó, lựa chọn thực đề tài “Nghiên cứu dịch thống kê dựa vào cụm từ thử nghiệm với cặp ngôn ngữ Anh – Việt” 3 CHƯƠNG – TỔNG QUAN VỀ DỊCH MÁY 1.1 Khái niệm hệ dịch máy 1.1.1 Định nghĩa Các hệ dịch máy (machine translation system-MT) hệ thống sử dụng máy tính để dịch từ thứ tiếng (trong ngơn ngữ tự nhiên) sang vài thứ tiếng khác 1.1.2 Vai trò dịch máy Hiện giới có khoảng 5650 ngơn ngữ khác nhau, với số lượng ngôn ngữ lớn gây nhiều khó khăn việc trao đổi thơng tin,.Với khó khăn người ta phải dùng đến đội ngũ phiên dịch khổng lồ, để dịch văn bản, tài liệu, lời nói từ tiếng nước sang tiếng nước khác Để khắc phục nhược điểm người nghĩ đến việc thiết kế mơ hình tự động cơng việc dịch, từ xuất máy tính điện tử người ta tiến hành nghiên cứu dịch máy Cơng việc đưa mơ hình tự động cho việc dịch phát triển, chưa giải triệt để lớp ngôn ngữ tự nhiên Người ta tin việc xử lí ngơn ngữ tự nhiên có dịch máy giải pháp cho việc mở rộng cánh cửa đối thoại người-máy, lúc người khơng phải tiếp xúc với máy qua dòng lệnh cứng nhắc mà giao tiếp cách trực tiếp với máy 1.1.3 Sơ đồ tổng quan hệ dịch máy Đầu vào hệ dịch máy văn viết ngơn ngữ nguồn Văn thu từ hệ soạn thảo hay hệ nhận dạng chữ viết, lời nói Sau văn chỉnh sửa lại nhờ khối soạn thảo, kiểm tra tả, trước đưa vào máy dịch Phần dịch máy chuyển văn nguồn thành văn viết ngơn ngữ đích Và qua chỉnh để cuối thu văn tương đối hoàn chỉnh Dưới sơ đồ tổng quát hệ dịch máy: Hình 1.1: Sơ đồ tổng quan hệ dịch máy 1.2 Dịch máy thống kê gì? 1.2.1 Tổng quan dịch thống kê Mục tiêu dịch văn từ ngơn ngữ nguồn sang ngơn ngữ đích Chúng ta có câu văn ngơn ngữ nguồn (“Tiếng Anh”) e1I  e1 , , ei , mà dịch thành câu văn ngơn ngữ đích (“Tiếng Việt”) v1J  v1 , , v j , Trong tất câu có văn đích, chọn câu cho: V1J  arg max p(v1J | e1I ) (công thức 1.1) 1.2.1.1 Mô hình kênh nguồn Mơ hình kênh – nguồn tổng quát có khả áp dụng cho nhiều vấn đề khác nhận dạng tiếng nói, xử lý ảnh, …Về trực giác, kênh nguồn kênh truyền thơng mà thơng tin trun qua bị nhiễu khó nhận dạng thơng tin Giả sử T thơng tin đích ta nhận từ cuối kênh, nhiệm vụ phải đoán lại thông tin nguồn S truyền Sử dụng luật Bayes, có: p (e I | v J )  p (v J ) p (e I ) p (v J | e I  (công thức 1.2) Do cơng thức 1.1 tương ứng với: V  arg m ax p (v J | e I )  arg m ax p (v J )  p (e I | v J ) v v (công thức 1.3) Cách tiếp cận xem cách tiếp cận Kênh - Nguồn dịch máy thống kê “công thức dịch thống kê” Ở p (v J ) mơ hình ngơn ngữ ngơn ngữ đích, p(e I | v J ) mơ hình dịch 1.2.1.2 Cách tiếp cận Maximum mơ hình gióng hàng Xác suất p (e I | v J ) phân tích qua biến ẩn thêm vào Ta có: p (e1I | v1J )   p(e1I , a1I | v1J ) (công thức 1.4) a1I Trong p(e1I , a1I | v1J ) gọi mơ hình gióng hàng thống kê gióng hàng a1I gọi biến ẩn Gióng hàng xác định ánh xạ i → j = ai: Từ vị trí i câu nguồn tương ứng với vị trí j=ai câu đích Việc tìm kiếm thực dựa vào cực đại biểu thức sau:   V1J  arg m aJ x  p (v1J )   p(e1I , a1I | v1J  v1   a1I  (công thức 1.5) 1.2.1.3 Nhiệm vụ dịch thống kê Chúng ta phải giải vấn đề sau việc phát triển hệ thống dịch thống kê: Mơ hình: Chỉ cấu trúc phụ thuộc xác suất để mơ hình hóa xác suất dịch p(e I ) p(v J ) Huấn luyện: Huấn luyện tham số mơ hình mơ hình dịch thống kê sử dụng liệu huấn luyện: đơn ngữ, song ngữ Tiêu chuẩn huấn luyện chuẩn mơ hình dịch máy theo cách tiếp cận kênh-nguồn tiêu chuẩn hợp lý cực đại mà định nghĩa giá trị tham số tối ưu mà giá trị làm cực đại hàm hợp lý liệu song ngữ :  d  arg m a xp (v1J | e1I )  Phụ thuộc vào cấu trúc mơ hình, sử dụng tần suất quan hệ thuật toán tối ưu thuật toán EM xác định tham số ẩn mơ hình 6 Tìm kiếm: Thực phép tính agrmax theo cơng thức 1.2.1 cách hiệu Có nhiều thuật tốn để giải vấn đề tìm kiếm Ví dụ thuật tốn qui hoạch động, A*, giải mã ngăn xếp, tìm kiếm ăn tham, Tiền xử lý: Tìm bước biến đổi thích hợp cho ngơn ngữ nguồn ngơn ngữ đích để cải tiến q trình dịch Trong nhiệm vụ trên, tri thức ngôn ngữ cần thiết cho vần đề mơ hình tiền xử lý Những vấn đề khác vấn đề chủ yếu dựa vào tốn học tính tốn bao gồm việc phát triển hiệu thuật toán 1.2.1.4 Ưu điểm phương pháp dịch thống kê Cách tiếp cận thống kê có ưu điểm sau Dịch máy vấn đề định: Cho trước từ ngôn ngữ nguồn, phải định chọn từ ngôn ngữ đích Vì vậy, tạo cho cảm giác giải định lý định thống kê Điếu dẫn đến cách tiếp cận thống kê đề xuất Mối quan hệ đối tượng ngôn ngữ từ, cụm từ cấu trúc ngữ pháp thường yếu mơ hồ Để mô hình hóa phụ thuộc này, cần cơng thức hóa đưa phân phối xác suất mà giải với vấn đề phụ thuộc lẫn Để thực dịch máy, thiết phải kết hợp nhiều nguồn trí thức Trong dịch thống kê, dựa vào toán học để thực kết hợp tối ưu nguồn trí thức Trong dịch máy thống kê, trí thức dịch học cách tự động từ liệu huấn luyện Với kết vậy, việc phát triển hệ dịch dựa vào thống kê nhanh so với hệ dịch dựa vào luật Dịch máy thống kê phù hợp với ứng dụng nhúng mà dịch máy phần ứng dụng lớn Việc đưa khái niệm “chính xác” mối quan hệ ngữ pháp, ngữ nghĩa, văn phong khó khăn khơng nói khơng thể Vì vậy, việc hình thức hóa vấn đề xác tốt dựa vào giằng buộc luật mơ tả chúng Thay vào đó, cách tiếp cận thống kê, giả định mơ hình kiểm định thực nghiệm dựa vào liệu huấn luyện 1.2.1.5 Chu kì phát triển hệ thống dịch thống kê Chu kì dịch máy thống kê thể qua hình 1.3 Bước tập hợp liệu huấn luyện Ở đây, cần thu thập văn song ngữ, thực việc dóng hàng câu trích lọc cặp câu phù hợp Trong bước thứ hai, thực huấn luyện tự động hệ thống dịch máy Đầu bước hệ thống dịch máy có hiệu lực Tiếp theo hệ thống dịch máy kiểm tra việc phân tích lỗi thực Dựa vào kiến trúc hệ thống dịch máy thống kê, phân biệt kiểu lỗi khác nhau: lỗi tìm kiếm, lỗi mơ hình, lỗi huấn luyện, lỗi corpus huấn luyện lỗi tiền xử lý Mơ hình tốt hơn: Ở đây, mục tiêu phải phát triển mơ hình mà mơ hình mơ tả nhiều thuộc tính ngơn ngữ tự nhiên tham số tự ước lượng từ liệu huấn luyện Huấn luyện tốt hơn: Thuật toán huấn luyện thường dựa vào cách tiếp cận hợp lý cực đại Thơng thường, thuật tốn huấn luyện thường cho ta kết tốt ưu địa phương Do vậy, để làm tốt việc huấn luyện này, cần xây dựng thuật toán mà kêt tối ưu địa phương thường gần với tối ưu toàn cục Tìm kiếm tốt hơn: Lỗi tìm kiếm xuất thuật tốn tìm kiếm câu dịch câu nguồn Vấn đề tìm kiếm dịch máy thống kê NP-hồn thành Vì vậy, có cách tìm kiếm gần để tìm câu dịch Thuật tốn hiệu thuật toán mà cân chất lượng thời gian Nhiều liệu huấn luyện hơn: Chất lượng dịch tăng cỡ corpus lớn Quá trình học hệ thống dịch máy cho biết cỡ liệu huấn luyện để thu kết khả quan Tiền xử lý tốt hơn: Hiện tượng ngôn ngữ tự nhiên khác khó xử lý cách tiếp cận thống kê tiên tiến Do việc sử dụng cách tiếp cận thống kê tốt bước tiền xử lý, làm tốt số việc như: loại bỏ kí hiệu khơng phải văn bản, đưa từ dạng gốc nó, 1.3 Phân loại dịch máy thống kê 1.3.1 Dịch máy thống kê dựa vào từ (word-based) Trong dịch máy thống kê sở từ, đơn vị dịch từ ngôn ngữ tự nhiên Dịch máy thống kê sở từ không sử dụng rộng rãi ngày nay, thay vào dịch máy thống kê sở cụm từ Hầu hết hệ thống dựa cụm từ sử dụng Giza++ để gióng hàng câu, trích rút cặp câu song ngữ mơ hình ngơn ngữ Vì ưu Giza++, có số nỗ lực đưa áp dụng tính tốn phân tán trực tuyến cho phần mềm 1.3.2 Dịch máy thống kê dựa cụm từ (phrase-based) Dịch máy thống kê sở cụm từ có mục đích để giảm bớt hạn chế dịch máy thống kê sở từ cách dịch cụm từ, độ dài cụm từ nguồn cụm từ đích khác Các cụm từ kỹ thuật thường không theo nghĩa ngôn ngữ học mà cụm từ tìm thấy cách sử dụng phương pháp thống kê để trích rút từ cặp câu Ví dụ: She Cơ is a good giáo viên teacher giỏi 1.3.3 Dịch máy thông kê dựa cú pháp Dịch máy thống kê sở cú pháp dựa ý tưởng dịch đơn vị cú pháp (phân tích câu), từ đơn hay cụm từ (như dịch máy thống kê sở cụm từ) Ý tưởng xuất từ lâu, nhiên phiên thống kê ý tưởng hình thành có phân tích ngẫu nhiên mạnh mẽ năm 1990 1.3.4 Một số công cụ nhóm nghiên cứu Internet SMT Hiện có nhiều diễn đàn chia sẻ tài nguyên, công cụ mã nguồn mở hỗ trợ cho hệ dịch máy thống kê http://www.statmt.org trang web tiêu biểu giới thiệu đầy đủ tài liệu, hội thảo liên quan đến SMT, parallel corpus, mã nguồn liên quan tới dịch máy thống kê cập nhật cách thường xun CHƯƠNG – MƠ HÌNH DỊCH MÁY DỰA TRÊN CỤM TỪ 2.1 Giới thiệu mơ hình dịch máy dựa cụm từ Cách tiếp cận thành công hệ dịch máy dịch dựa vào cụm từ, nghĩa sử dụng cụm từ làm đơn vị nguyên tử Các cụm từ phương pháp không theo nghĩa ngơn ngữ học mà trình tự tiếp giáp nhiều từ câu Trong phương pháp này, câu đầu vào ngôn ngữ nguồn chia thành chuỗi cụm từ, cụm từ ánh xạ – cụm từ ngơn ngữ đích, thứ tự cụm từ ngơn ngữ đích xếp lại Thơng thường mơ hình cụm từ ước lượng từ tập từ song song với liên kết từ Tất cặp cụm từ phù hợp với liên kết từ trích xuất Xác suất đưa dựa số lượng tương đối xác suất dịch từ vựng 2.2 Kiến trúc mơ hình dịch dựa cụm t Ngôn ngữ nguồn Thuật toán tìm kiếm BEAM M * e  arg max  m hm (e, f ) e Mô hình ngôn ngữ h1 (e, f ) Mô hình dịch h2 (e, f ) m Ngôn ngữ dịch Các đặc trung dịch máy dựa trªn cơm tõ Hình 2.1: Kiến trúc mơ hình dịch dựa cụm từ Từ ngôn ngữ nguồn (Tiếng Anh) dựa vào thuật tốn tìm kiếm Beam (thuật tốn trình bày phần sau) dựa đặc trưng hệ dịch máy thống kê dựa cụm từ (mơ hình ngơn ngữ, mơ hình dịch, mơ hình đảo cụm,…) ngơn ngữ đích (Tiếng Việt) 2.2.1 Mơ hình log-linenear 2.2.1.1 Mục đích mơ hình dịch dựa cụm từ Hệ dịch thống kê dựa từ có khuyết điểm không lấy thông tin ngữ cảnh mà dựa phân tích thống kê từ Mơ hình dịch máy thống kê dựa cụm từ cải tiến chỗ thay xử lý từ xử lý cụm từ Điều cho phép hệ thống 10 dịch cụm từ tránh dịch word-by-word Vì đơi từ ngơn ngữ tiếng Việt có nhiều nghĩa ngơn ngữ tiếng Anh Cùng xem xét ví dụ đây: Câu đầu vào tiếng Đức tách thành cụm (với số lượng từ bất kỳ), sau cụm dịch sang cụm từ tiếng Anh Cuối cụm từ tiếng Anh xếp lại cho với ngữ pháp tiếng Anh Trong ví dụ trên, từ tiếng Đức ánh xạ sang từ tiếng Anh chia thành cặp cụm từ Những cụm từ tiếng Anh phải xếp lại để động từ đứng sau chủ ngữ Từ “natuerlich” tiếng Đức dịch xác sang tiếng anh “of course” Để làm điều này, có bảng dịch để ánh xạ cụm từ ánh xạ từ Bảng có dạng sau Translation Probability p(e|f) of course 0.5 naturally 0.3 of course , 0.15 , of course , 0.05 Ta thấy xác xuất p(e|f) để dịch từ “natuerlich” từ tiếng Đức sang nghĩa “of course” tiếng Anh cao 0.5 2.2.1.2 Định nghĩa toán học Đầu tiên, áp dụng quy tắc Bayes để chuyển đổi Ta gọi ebest kết dịch tốt với câu đầu f, ta định nghĩa sau: ebest = argmaxe p(e|f) = argmaxe p(f|e) pLM(e) (công thức 2.1) Đối với mơ hình cụm từ, ta phân tích p(f|e) thành: p ( f11 | e11 )    ( f i | ei )d ( start i  end i 1  1) i 1 (công thức 2.2) 11 Câu đầu vào f chia thành I cụm f i Lưu ý rằng, q trình phân đoạn khơng mơ hình hóa cách rõ ràng Điều có nghĩa phân đoạn Mỗi cụm từ f i ngôn ngữ nguồn dịch sang cụm từ ngơn ngữ đích ei Đảo cụm điều khiển “mơ hình đảo cụm dựa khoảng cách” Chúng ta xét việc đảo cụm liên quan đến cụm từ trước Ta định nghĩa starti vị trí từ cụm từ nguồn, cụm mà dịch sang cụm thứ i ngôn ngữ đích, endi vị trí kết thúc từ cụm từ nguồn Khoảng cách đảo cụm tính starti – endi-1 -1 Lưu ý rằng, mơ hình đảo cụm tương tự mơ hình đảo từ dịch máy thống kê dựa sở từ Chúng chí huấn luyện xác suất đảo dựa liệu, điều thường không thực mơ hình sở cụm từ 2.2.2 Mơ hình dịch Chất lượng dịch dịch thống kê dựa cụm từ phụ thuộc nhiều vào chất lượng bảng dịch cụm từ (phrase table) Để xây dựng bảng dịch cụm từ đầu tiên, tạo gióng hàng từ cặp câu ngữ liệu song ngữ, sau trích xuất cặp cụm từ phù hợp với gióng hàng từ Khi trích xuất cặp cụm từ, phải chọn cụm từ ngắn cụm từ dài, tất hữu ích Các cặp cụm từ lưu giữ lại bảng cụm từ với xác suất  ( f i | ei )  đó:  ( f i | ei )   count ( f | e)    count ( f | e) f  2.2.3 Mô hình ngơn ngữ Cách đơn giản để ngắt chuỗi kí tự thành thành phần nhỏ gọi chuỗi Mỗi chuỗi n-từ gọi n-gram Nếu chuỗi kí tự có nhiều n-gram hợp lệ ta kết luận chuỗi kí tự chuỗi hợp lệ Kí hiệu p(y|x) xác suất mà từ y theo sau từ x Chúng ta ước lượng xác suất dựa vào ngữ liệu (corpus) Trong cách dịch chúng ta, có tập hợp từ ta muốn lấy chúng theo thứ tự hợp lý Nhưng giả sử có nhiều tập hợp khác nhau, tương ứng tập nghĩa cách dịch từ tập hợp Chúng ta tìm thứ tự từ tốt tập hợp làm để chọn câu ngơn ngữ đích hợp lý Câu trả lời 12 sử dụng mơ hình n-gram, gán xác suất cho dãy từ hiểu Sau chọn dãy (xác suất cao nhất) Như vậy, ta coi tồn chủ đề gán xác suất cho câu gọi mơ hình ngơn ngữ Mơ hình ngơn ngữ khơng có ích cho thứ tự từ mà cịn có ích cho việc chọn nghĩa cách dịch khác 2.3 Giải mã 2.3.1 Đặt vấn đề Thuật toán giải mã vấn đề định dịch thống kê Sự thực chúng trực tiếp ảnh hưởng tới chất lượng tính hiệu Với thuật tốn giải mã không đáng tin cậy hiệu quả, hệ thống dịch thống kê bỏ qua câu dịch tốt ngơn ngữ đích câu nguồn dự đốn đầy đủ mơ hình mơ tả 2.3.2 Mơ tả thuật tốn Phần cịn lại hệ dịch máy thống kế chức tìm kiếm câu đích (giải mã) Chức giải mã từ câu nguồn E tìm câu cần dịch V cho tích hai xác suất mơ hình dịch mơ hình ngơn ngữ lớn nhất: V  arg m ax p (v J | e I )  arg m ax p (v J )  p (e I | v J ) v v Đây tốn tìm kiếm, q trình giải mã dạng tốn Thuật tốn tìm kiếm theo lựa chọn tốt lựa chọn nút n dựa theo hàm ước lượng f(n) Chức tìm kiếm hệ dịch máy thường sử dụng thuật toán A* phương pháp tìm kiếm theo chiến lược tìm kiếm theo lựa chọn tốt Trong thuật toán A* trạng thái mà lưu trữ để tìm kiếm gọi stack decoding, cấu trúc liệu đơn giản cho stack decoding sử dụng hàng đợi ưu tiên lưu trữ giả thuyết dịch với điểm đánh giá function STACK DECODING (source sentence) returns target sentence Initialize stack with a null hypothesis loop pop best hypothesis h off stack if h is a complete sentence return h for each possible expansion h’ of h assign a score to h’ Hình 2.3: Thuật toán giải mã A* cho dịch máy 13 Q trình tìm kiếm mơ tả sau Ban đầu trạng thái tìm kiếm ta rỗng Tiếp theo ta mở rộng nút cách nút cách từ từ câu tiếng Anh ta tìm từ tiếng Anh dịch từ từ Tiếp theo ta chọn nút có đánh giá tối ưu để tiếp tục mở rộng nút Quá trình tiếp tục đến tìm câu dịch thỏa mãn Đánh giá nút giựa theo hai giá trị giá trị giá trị tương lai Giá trị tổng xác xuất cụm từ dịch trong câu giả thiết tích xác suất mơ hình dịch, thay đổi vị trí mơ hình ngơn ngữ cos t (V | E )   (vi ei )  d (ai  bi1 )  p(V ) (công thức 2.3) iS Giá trị tương lai đánh giá chi phí từ lại câu Tiếng Anh chưa dịch dịch sang câu Tiếng Việt Khi kết hợp hai đánh giá lại ta tìm đường tối ưu để dịch câu Tiếng Việt Để giảm bớt khơng gian tìm kiếm tốn ta sử dụng thuật tốn beamsearch pruning Sau bước mở rộng, lưu lại n trạng thái có đánh giá tốt Sau giải thuật tìm kiếm beam sử dụng đa ngăn xếp: function BEAM SEARCH STACK DECODER (source sentence) returns target sentence initial hypothesisStack[0 nf] push initial null hypothesis on hypothesStack[0] for i to nf-1 for each hyp hypothesisStack[i] for each new_hyp that can be derived from hyp nf[new_hyp] number of foreign words covered by new_hyp add new_hyp to hypothesisStack[nf[new_hyp]] prune hypothesisStack[nf[new_hyp]] find best hypothesis best_hyp in hypothesisStack[nf] return best path that lead to best_hyp via backtrace 2.4 Đánh giá chất lượng dịch Đánh giá chất lượng hệ thống dịch thực thủ công người tự động Q trình đánh giá thủ cơng cho điểm cho câu dịch dựa trôi chảy xác chúng Thế cơng việc đánh giá thủ công lại tiêu tốn nhiều thời gian, đặc biệt cần so sánh nhiều mơ hình ngơn ngữ, nhiều hệ thống khác Mỗi phương pháp đánh giá có ưu nhược điểm riêng Tuy đánh giá tự động phản 14 ánh hết khía cạnh chất lượng dịch, nhanh chóng cho ta biêt: chất lượng hệ dịch tầm Trong thực tế, hai phương pháp sử dụng đồng thời, điểm BLEU độ đo chất lượng hệ dịch phổ biến BLEU tính điểm cách đối chiếu kết dịch với tài liệu dịch tham khảo tài liệu nguồn Mặc dù điểm BLEU thường không thực tương quan với đánh giá thủ công người với loại hệ thống khác nhau, xác để đánh giá hệ thống, hệ thống tương tự Chính vậy, khóa luận này, điểm BLEU sử dụng làm thước đo chất lượng dịch, từ so sánh loại mơ hình dịch tên riêng khác 15 CHƯƠNG – ÁP DỤNG MƠ HÌNH DỊCH DỰA VÀO CỤM TỪ CHO NGÔN NGỮ ANH – VIỆT 3.1 Phần mềm mã nguồn mở Moses Moses hệ dịch máy thống kê cho phép người dùng dễ dàng tạo mơ hình dịch cho cặp ngơn ngữ Moses cung cấp hai loại mơ hình dịch dựa cụm dựa Nó bao gồm đầy đủ thành phần để tiền xử lý liệu, huấn luyện mơ hình ngơn ngữ mơ hình dịch Nó bao gồm cơng cụ tuning cho mơ hình sử dụng huấn luyện với lỗi tối thiểu đánh giá kết dịch sử dụng điểm BLEU Moses sử dụng chuẩn công cụ ngồi cho số cơng việc để tránh trùng lặp, GIZA++ cho gióng hàng từ SRILM cho mơ hình hóa ngơn ngữ Moses sử dụng chuẩn cơng cụ ngồi với số cơng việc để tránh trùng lặp, GIZA++ cho gióng hàng từ SRILM cho mơ hình hóa ngơn ngữ Bộ cơng cụ lưu trữ phát triển sourceforge.net từ tạo Moses có cộng đồng nghiên cứu hoạt động (Tải tại: http://sourceforge.net/projects/mosesdecoder/) 3.2 Mô hình ngơn ngữ, mơ hình dịch q trình giải mã 3.2.1 Mơ hình ngơn ngữ Trước xây dựng mơ hình ngơn ngữ (language model), ngữ liệu đầu vào trình tệp tin đơn ngữ ngơn ngữ đích - tiếng Việt Ngữ liệu cần tiền xử lý (prepare data): phân tích từ tố, tắt chữ hoa đầu câu, tách từ cho file tiếng Việt Để làm việc ta sử dụng script: tokenizer.perl lowercase.perl Sau ngữ liệu tiền xử lý, ta xây dựng mơ hình ngơn ngữ (Build Language Model) Ta sử dụng script ngram-count SRILM để xây dựng mơ hình ngơn ngữ, mơ hình ngơn ngữ xây dựng ngơn ngữ đích (trong ví dụ ta xây dựng từ tệp corpus.vn) ví dụ: /path-to-srilm/bin/i686/ngram-count -order -interpolate kndiscount -text corpus.vn -lm corpus.lm.vn (trong corpus.vn tệp ngữ liệu đầu vào ngơn ngữ đích sau tiền xử lý, kết trình lưu lại vào file corpus.lm.vn) 3.2.2 Mơ hình dịch Sau q trình xây dựng mơ hình ngơn ngữ ta huấn luyện mơ hình dịch (Train Model), trình tạo bảng cụm từ (phrase table) 16 Để tạo bảng cụm từ ta sử dụng script train-model.perl phần mềm Moses, giai đoạn thủ tục huấn luyện (gióng hàng từ, gióng hàng cụm từ, học mơ hình dịch) gọi chương trình, ví dụ: /path-to-mosesdecoder/scripts/training/train-model.perl -bin-dir bin -external-bin-dir bin -scripts-root-dir bin -root-dir corpus corpus -f en -e -alignment grow-diag-final-and reordering msd-bidirectional-fe -lm 0:3:corpus.lm.vn:0 (trong corpus -f en -e tệp tin ngữ liệu đầu vào sau tiền xử lý corpus.lm.vn mô hình ngơn ngữ huấn luyện bước trên) 3.2.3 Huấn luyện cực tiểu sai số (MERT) Mơ hình dịch có số mơ hình thành phần (mơ hình ngơn ngữ, mơ hình đảo từ, phương pháp tính điểm cụm từ khác nhau, phạt từ) Việc xác định trọng số cho mơ hình thành phần khó thực tay (thử sai), lại quan trọng với việc tối ưu chất lượng dịch Quá trình tìm giá trị tối ưu trọng số Ta sử dụng script mert-moses.pl: mert-moses.pl corpus/tuning/input corpus/tuning/reference bin/moses model/moses.ini working-dir tuning/ rootdir scripts/ Câu lệnh tạo file moses.ini có chứa tham số tối ưu sau trình huấn luyện 3.3 Áp dụng với cặp ngôn ngữ Anh – Việt 3.3.1.Xây dựng ngữ liệu (corpus) Trong xử lý ngôn ngữ tự nhiên thống kê, corpus tài nguyên khơng thể thiếu Có nhiều loại corpus khác nhau, tùy thuộc vào toán phương pháp giải mà yêu cầu loại corpus thích hợp Để phát triển hệ thống dịch máy thống kê, cần có liệu để huấn luyện (học) Dữ liệu huấn luyện lớn tốt, nên trích lọc từ lĩnh vực dịch mà hệ thống dịch máy sử dụng Dữ liệu sử dụng dịch máy liệu thô song ngữ Bộ liệu huấn luyện thực thủ cơng nhiều công sức (chi phi đắt) Trong phần trình bày corpus phương pháp xây dựng corpus cách tự động 3.3.2 Phân đoạn từ corpus tiếng Việt (Segmentation) Bài toán phân đoạn từ tiếng Việt cho trước văn tiếng Việt, cần xác định văn ranh giới từ câu Nhưng khác với số tiếng nước tiếng Anh, tiếng Việt ranh giới từ nhiều trường hợp dấu 17 cách trống Ví dụ, câu nói “phân_đoạn từ tiếng_Việt bài_tốn quan_trọng”, thấy dấu cách trống dấu hiệu để nhận ranh giới từ Hiện có nhiều phương pháp phân đoạn từ tiếng Việt, là: - Phương pháp Maximum Matching - Phương pháp Transformation-based Learning (TBL) - Phương pháp dựa thống kê từ Internet thuật giải di truyền 3.3.3 Đánh giá theo liệu huấn luyện Đánh giá theo liệu huấn luyện việc ta thay đổi kích thước tập ngữ liệu đầu vào, việc thay đổi trình làm tăng giảm số câu (số dòng) cặp ngữ liệu đầu vào 3.3.4 Đánh giá theo mơ hình gióng hàng từ văn Cơng cụ dùng để gióng hàng từ phổ biến GIZA++ Ban đầu, ngữ liệu song ngữ Anh – Việt gióng hàng từ hai phía, từ tiếng Anh sang tiếng Việt từ tiếng Việt sang tiếng Anh Trong dịch máy thống kê, ngồi sử dụng GIZA++ để gióng hàng, người ta cịn sử dụng gióng hàng Cross-EMword Aligner (Berkerly) Cross-EMword Aligner phần mềm gióng mã nguồn mở dựa phương pháp gióng hàng Alignment by Agreement Phương pháp dựa quan sát, dự đoán phần giao mơ hình so với mơ hình riêng rẽ Sau dự đốn mơ hình thống nhất, thêm bước thứ ba “thỏa thuận” mơ hình 18 CHƯƠNG – THỬ NGHIỆM VÀ ĐÁNH GIÁ 4.1 Công cụ tiền xử lý cho hệ dịch 4.1.1 Môi trường triển khai Phần cứng: Bộ xử lý Core2Duo T9300 2.5Ghz, RAM 2GB, HDD free 20GB Phần mềm: Hệ điều hành Ubuntu 12.04 32 bit 4.1.2 Chuẩn bị liệu đầu vào cho hệ dịch Dữ liệu đầu vào liệu song ngữ Anh – Việt: Sử dụng gần 55.000 cặp câu Anh – Việt 4.1.3 Huấn luyện mơ hình dịch - Sử dụng công cụ mã nguồn mở Moses ( trình bày chương 3) - Sử dụng mơ hình ngơn ngữ SRILM - GIZA++ chương trình dùng để gióng hàng từ trình tự từ corpus song ngữ nhằm mục đích liên kết mơ hình phụ thuộc vào lớp từ 4.2 Kết thực nghiệm 4.2.1 Dữ liệu đầu vào Tên tệp tin thực nghiệm Dữ liệu huấn luyện Tiếng Anh 54642 câu 510445 từ 50001b_train.en Tiếng Việt 54642 câu 537141 từ 50001b_train.vn Dữ liệu điều chỉnh tham số Tiếng Anh 201 câu 2090 từ 50001_dev.en Tiếng Việt 201 câu 1942 từ 50001_dev.en Dữ liệu đánh giá Tiếng Anh 500 câu 4911 từ 50001_test.en Tiếng Việt 500 câu 4606 từ 50001_test.vn 4.2.2 Quá trình chuẩn bị liệu huấn luyện 4.2.2.1 Chuẩn bị liệu - Tách từ cho file liệu đầu vào - Cắt câu dài cho tệp liệu huấn luyện - Chuyển chữ thường 4.2.2.2 Xây dựng mơ hình ngơn ngữ 4.2.2.3 Huấn luyện mơ hình dịch 19 4.2.2.4 Tối ưu tham số 4.2.3 Chạy thử đánh giá kết dịch hệ thống 4.2.3.1 Chạy thử 4.2.3.2 Đánh giá kết dịch hệ thống 4.3 Đánh giá phân tích kết theo số tiêu chí cỡ liệu huấn luyện, chiều tăng độ dài cụm từ 4.3.1 Đánh giá phân tích kết theo cỡ liệu huấn luyện Ta thay đổi kích cỡ liệu huấn luyện 10.000, 20.000,…, 50.000 cặp câu, sau thực đánh giá chất lượng dịch dựa vào điểm BLEU Điểm BLEU cao chất lượng dịch tốt Đánh giá dựa liệu huấn luyện Điểm BLEU (%) 35 30 25 24.79 27.38 29.6 31.64 19.6 20 15 10 10.000s 20.000s 30.000s 40.000s 50.000s Số cặp câu Hình 4.1: Kết đánh giá chất lượng dịch theo cỡ liệu 4.3.1 Đánh giá phân tích kết theo chiều tăng độ dài cụm từ Ta tiến hành thử nghiệm thay đổi độ dài cụm từ lớn (max phrase lenghth) bảng phrase-table mơ hình dịch thống kê, thực nghiệm với độ dài lớn cụm từ (mặc định), 6, cụm Kết nhận độ dài cụm từ giảm chất lượng dịch xấu kích thước bảng phrase-table giảm theo độ dài cụm từ lớn giảm 20 Điểm BLEU (%) Đánh giá dựa độ dài lớn cụm từ 31.64 32 31.5 31 30.5 30 29.5 29 28.5 28 27.5 27 26.5 31.16 30.57 28.54 max_7 max_6 max_5 max_4 Độ dài lớn Hình 4.2: Kết đánh giá chất lượng dịch độ dài lớn cụm từ 4.4 Một số kết sau dịch từ tiếng Anh sang tiếng Việt Câu tiếng Anh Câu tiếng Việt i’d like to open a savings account anyway , it ' s too long muốn mở tài _ khoản tiết _ kiệm dù _ , thời _ gian dài _ trai muốn cảnh _ sát anh _ lớn _ lên nghe _ nói nhiều San Francisco bạn có thích bơi khơng ? họ xem _ xét phương _ pháp sau _ phân _ chia lãi lỗ hoá _ lỏng ( LPG ) kết _ hợp chủ _ yếu bao _ gồm propane ( C3H8 ) butane ( C4H10 ) từ _ khí đồng _ hành khai _ thác dầu _ thơ từ _ khí thiên _ nhiên sau _ qua nhà _ máy tách khí hay q _ trình tinh _ luyện _ nhà _ máy lọc _ dầu my sons wants to be a policeman when he grows up i’ve heard so much about San Francisco you enjoy swimming ? they are considering each of the following methods of allocating profits and losses the liquefied petroleum gas ( LPG ) is the combination mainly including propane ( C3H8 ) and butane ( C4H10 ) got from the gas during the exploitation of crude oil from the natural gas after it has been processed in the gas separating plant or during the process of refining at the refinery these projects will be decided by the government in the near future what happened ? then she gave me a picture and asked me to describe it potential translators must have a high level of aptitude for the creative use of language , or they are not likely to be outstanding in their profession dự _ án _ phủ _ định tương _ lai gần chuyện xảy _ ? sau _ _ đưa _ cho _ tranh u _ cầu tơi miêu _ tả người phiên _ dịch giỏi phải có trình _ độ cao việc sử _ dụng ngôn _ ngữ _ cách sáng _ tạo , họ không _ thể _ bật nghề 21 KẾT LUẬN Các cơng việc đạt luận văn - Tìm hiểu tổng quan hệ dịch máy đặc biệt dịch máy thống kê dựa vào cụm từ - Tìm hiểu công cụ mã nguồn mở Moses - Thử nghiệm mơ hình dịch máy cho kết tương đối khả quan Với kết đạt luận văn này, tương lai hi vọng cải thiện chất lượng dịch thời gian dịch cách cập nhật ngữ liệu đầu vào đủ lớn, giảm kích thước bảng cụm từ, thay đổi vài tham số để trình huấn luyện mơ hình tốt hơn, cải tiến số mơ hình đảo cụm… DANH MỤC TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Văn Vinh (2005) “Xây dựng chương trình dịch tự động Anh-Việt phương pháp dịch thống kê” Luận văn Thạc sĩ, Đại học Công nghệ, ĐHQGHN Tiếng Anh [2] Chris Callison-Burch, Miles Osborne and Philipp Koehn (2006), Re-evaluating the Role of Bleuin Machine Translation Research [3] D Chiang (2005), A Hierarchical Phrase-Based Model for Statistical Machine Translation, In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL'05) [4] Franz Joset Och and Hermann Ney (2002), Discriminative training and maximum entropy models for statistical machine translation, In Processdings of the 40th Anuual Meeting of the ACL, pages 295-302, Philadelphia, PA [5] Koehn, P (2004) Pharaoh: a beam search decoder for phrasebased 2004 [6] Koehn, P, H Hoang, A Birch, C Callison-Burch, M Federico, N Bertoldi, B Cowan, W Shen, C Moran, R Zens, C Dyer, O Bojar, A Constantin, E Herbst (2007), Moses: Open Source Toolkit for Statistical Machine Translation ACL 2007, Demonstration Session, Prague, Czech Republic [7] Koehn, P., et al (2006) Moses: Open Source Toolkit for Statistical Machine Translation [8] Philipp Koehn, Franz Josef Och, Daniel Marcu (2003), “Statistical Phrase-Based Translation”, In proceedings of NAACL [9] Papineni, Kishore, Salim Roukos, Todd Ward and Wei-Jing Zhu (2002), BLEU: a method for automatic evaluation of machine translation In Proceedings of the 40th Annual Meeting of the ACL, pages 311-318, Philadelphia, PA 22 [10] Zhifei Li, Chris Callison-Burch, Chris Dyer, Juri Ganitkevitch, Ann Irvine, Lane Schwartz, Wren N G Thornton, Ziyuan Wang, Jonathan Weese and Omar F Zaidan (2010), "Joshua 2.0: A Toolkit for Parsing-Based Machine Translationwith Syntax, Semirings, Discriminative Training and Other Goodies", In Proceedings of Workshop on Statistical Machine Translation [11] http://translate.google.com [12] http://systransoft.com [13] http://vietgle.vn/home/ [14] http://www.statmt.org/moses/ ... 1.3.2 Dịch máy thống kê dựa cụm từ (phrase-based) Dịch máy thống kê sở cụm từ có mục đích để giảm bớt hạn chế dịch máy thống kê sở từ cách dịch cụm từ, độ dài cụm từ nguồn cụm từ đích khác Các cụm. .. gốc nó, 1.3 Phân loại dịch máy thống kê 1.3.1 Dịch máy thống kê dựa vào từ (word-based) Trong dịch máy thống kê sở từ, đơn vị dịch từ ngôn ngữ tự nhiên Dịch máy thống kê sở từ không sử dụng rộng... thời kỳ Việt Nam hội nhập sâu rộng với quốc tế Chính lý đó, lựa chọn thực đề tài ? ?Nghiên cứu dịch thống kê dựa vào cụm từ thử nghiệm với cặp ngôn ngữ Anh – Việt? ?? 3 CHƯƠNG – TỔNG QUAN VỀ DỊCH MÁY

Định dạng
Số trang	22
Dung lượng	484,34 KB