Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 36 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
36
Dung lượng
0,9 MB
Nội dung
LOGO BÁO CÁO CHUYÊN ĐỀ TRƯỜNG ĐẠI HỌC DUY TÂN KHOA SAU ĐẠI HỌC DỊCH MÁY DỊCH MÁY VÀ MỘT SỐ MÔ HÌNH DỊCH MÁY CẢI TIẾN VÀ MỘT SỐ MÔ HÌNH DỊCH MÁY CẢI TIẾN Môn học: TOÁN TRONG CÔNG NGHỆ THÔNG TIN ĐÀ NẴNG, 11/2013 Nhóm: Hoàng Xuân Đăng Cường Lê Đình Phúc Trần Đình Hoàng Huy Lê Văn Tịnh NỘI DUNG TRÌNH BÀY 1 2 Tổng quan về dịch máy Mô hình dịch máy thống kê Khai thác sự tương tự giữa các ngôn ngữ trong dịch máy 2 1 3 NỘI DUNG TRÌNH BÀY 1 2 Tổng quan về dịch máy 2 1 Tổng quan về dịch máy Là một ứng dụng để chuyển tự động một văn bản từ ngôn ngữ này sang ngôn ngữ khác. Với khoảng 5650 ngôn ngữ và khối lượng tài liệu khổng lồ trên mạng Internet thì nhu cầu dịch tự động đang trở nên vô cùng bức thiết. Một hệ thống dịch máy có chất lượng tốt sẽ giúp tiết kiệm nhân lực, thời gian và tiền bạc đáng kể. Lịch sử dịch máy 1. Thời kì sơ khai: thế kỷ 17, nghiên cứu triết học 2. Những năm đầu tiên: Warren Weaver (1949), Georgetown-IBM (1954), 3. Những năm 1960, bản báo cáo ALPAC (chỉ ra sự tốn kém so với người) và những năm 70 (xuất hiện hệ thống giá rẻ và dược thương mại) 4. Những năm 1980 và đầu 1990: phát triển mạnh mẽ 5. Hiện nay: kết hợp tri thức, hình thái học, thống kê, Các loại hình dịch máy phổ biến Thứ nhất: sử dụng phương pháp tiếp cận dịch thuật trực tiếp. Hệ thống được thiết kế một cách cụ thể, chi tiết cho một cặp ngôn ngữ đặc biệt. Thứ hai: sử dụng phương pháp tiếp cận ngôn ngữ trung gian, là việc chuyển đổi các văn bản từ các nghĩa đại diện phổ biến đến nhiều hơn một ngôn ngữ. Thứ ba: cũng là phương pháp tiếp cận qua ngôn ngữ trung gian nhưng xét đến cấu trúc cú pháp cho cả văn bản nguồn và văn bản mục tiêu. Cấu trúc hệ thống dịch máy Một số kỹ thuật dịch máy Dịch máy dựa trên luật Áp dụng các tri thức ngôn ngữ của các cặp ngôn ngữ nguồn và ngôn ngữ đích do các nhà ngôn ngữ học xây dựng (rule – based machine translation) Dịch máy dựa trên ví dụ Không đòi hỏi phải có sự phân tích ngôn ngữ học, cú pháp, ngữ nghĩa vì mọi câu dịch đều dựa vào việc “so khớp” mẫu căn cứ kho ngữ liệu song ngữ. Dịch máy dựa trên thống kê Dịch máy dựa trên thống kê là hướng tiếp cận hoàn toàn dựa trên ngữ liệu nên nó có tính độc lập với ngôn ngữ. Những tham số thống kê thu được từ việc huấn luyện trên ngữ liệu song ngữ sẽ được sử dụng cho việc dịch ở lần sau NỘI DUNG TRÌNH BÀY 2 Mô hình dịch máy thống kê 2 Lịch sử dịch máy thống kê Được giới thiệu bởi Warren Weaver vào năm 1949, bao gồm cả những ý tưởng của việc áp dụng lý thuyết thông tin của Claude Shannon. Bị gián đoạn và bế tắc một thời gian Năm 1991, dịch máy thông kê được tái giới thiệu bởi các nhà nghiên cứu làm việc tại Trung tâm nghiên cứu Thomas J. Watson của IBM [...]... từ Mô hình dịch máy thống kê dựa trên ngữ cải tiến hơn ở chỗ thay vì xử lý trên từ thì xử lý trên ngữ Điều này cho phép hệ thống có thể dịch các cụm từ tránh được dịch word-by-word Mô hình dịch máy thống kê 2 Dịch máy thống kê dựa trên ngữ Mô hình dịch máy thống kê 2 Dịch máy thống kê dựa trên ngữ (Google Translate) Hình 2.2: Ví dụ về dịch thống kê dựa trên ngữ Mô hình dịch máy thống kê 3 Dịch máy. .. ngữ Với câu e cho trước, câu dịch v nào có xác suất p(v) cao hơn thì sẽ là câu dịch hợp lý hơn Mô hình này được huấn luyện dựa trên các cặp câu song ngữ - Bộ giải mã (Decoder): Tích hợp giữa mô hình dịch và mô hình ngôn ngữ để thực hiện quá trình dịch Mô hình dịch máy thống kê 1 Dịch máy thống kê dựa trên từ Mô hình dịch máy thống kê 2 Dịch máy thống kê dựa trên ngữ Hệ dịch thống kê dựa trên từ có...Lịch sử dịch máy thống kê (tt) Ngày nay nó là phương pháp dịch máy được nghiên cứu nhiều nhất Các hệ thống dịch thương mại sử dụng các luật chuyển đổi và các bộ từ vựng rất phong phú Một công cụ ứng dụng nổi tiếng đó là công cụ dịch song ngữ trên Google Mô hình dịch máy thống kê 1 Dịch máy thống kê dựa trên từ Mô hình dịch máy thống kê dựa trên từ được đưa ra bởi Brown vào năm 1990 Mô hình. .. thể dịch ra thành từ rỗng (NULL) Mô hình dịch máy thống kê 4 Dịch máy thống kê dựa trên cú pháp Mô hình cây cú pháp Mô hình dịch máy thống kê 4 Dịch máy thống kê dựa trên cú pháp Chuyển đổi dựa trên cây cú pháp của cả hai ngôn ngữ (tree-based transfer) - Câu nguồn và câu đích được phân tích ra thành cây cú pháp, thường là cây nhị phân để giảm độ phức tạp khi chuyển đổi trật tự Mô hình dịch máy. .. triển khai cho xác suất p(v|e): Mô hình dịch máy thống kê 1 Dịch máy thống kê dựa trên từ Hệ dịch máy thống kê gồm 3 phần: - Mô hình ngôn ngữ p(v) (language model): Phản ánh độ trôi chảy của câu dịch Các câu v đúng ngữ pháp và gần với cách nói tự nhiên trong ngôn ngữ đích sẽ có giá trị xác suất p(v) cao hơn Mô hình này được huấn luyện dựa trên ngữ liệu đơn ngữ - Mô hình dịch p(v) (translation model):... dịch máy Kết quả và khả năng ứng dụng Ví dụ dịch từ ngoài từ điển (tiếng Tây Ban Nha sang tiếng anh) Hiển thị 3 khả năng dịch sát nghĩa nhất Các từ trong ví dụ được chọn ngẫu nhiên Khai thác sự tương tự giữa các ngôn ngữ trong dịch máy Kết quả và khả năng ứng dụng Hiệu quả đáng ngạc nhiên Dịch các từ giữa tiếng Anh và Tây Ban Nha cho độ chính xác lên đến 90% Dịch các từ giữa tiếng Anh và. .. chuyển tân ngữ của câu tiếng Anh sang cuối câu trước khi dịch sang tiếng Đức - Dịch những từ chức năng (giới từ, mạo từ, ) tốt hơn - Có thể lấy thông tin về quan hệ cú pháp giữa các từ trong câu Chẳng hạn như chuyển đổi trật tự giữa chủ ngữ và tân ngữ - Có thể khai thác mô hình ngôn ngữ cú pháp: Mô hình dịch máy thống kê 4 Dịch máy thống kê dựa trên cú pháp Các nhược điểm của dịch máy thống kê dựa trên... Hiện trạng dịch máy thống kê Giới thiệu phương pháp Mô hình túi từ liên tục và Skip-gram Kết quả và khả năng ứng dụng Khai thác sự tương tự giữa các ngôn ngữ trong dịch máy Hiện trạng dịch máy thống kê Nền tảng: các từ điển và bảng cụm từ Đòi hỏi nhiều công sức của các chuyên gia ngôn ngữ Không dịch được các từ chưa tồn tại trong từ điển Khai thác sự tương tự giữa các ngôn ngữ trong dịch máy Giới... trong dịch máy Giới thiệu phương pháp Khai thác sự tương tự giữa các ngôn ngữ trong dịch máy Mô hình túi từ liên tục và Skip-gram Một mô hình ngôn ngữ để biểu diễn ngôn ngữ Đề xuất bởi Mikolov và các cộng sự năm 2013 (tác giả bài báo? ?) Đặc điểm Sử dụng kiến trúc mạng nơ ron đơn giản, hướng đến dự đoán các láng giềng của một từ Đơn giản Có thể thực hiện huấn luyện trên lượng dự liệu lớn (vài... pháp Mô hình này học xác suất chuyển đổi trật tự giữa các nút có nút con trong cây, xác suất chèn từ vào các nút và xác suất dịch các nút lá thành câu đích - Quá trình dịch: Với mỗi câu đầu vào, hệ dịch phân tích cú pháp Dựa vào bảng xác suất chuyển đổi trật tự, mô hình sẽ đổi trật tự giữa các nút Từ cây cú pháp mới, mô hình thêm các từ của ngôn ngữ đích dựa vào xác suất chèn từ Cuối cùng, hệ dịch . LOGO BÁO CÁO CHUYÊN ĐỀ TRƯỜNG ĐẠI HỌC DUY TÂN KHOA SAU ĐẠI HỌC DỊCH MÁY DỊCH MÁY VÀ MỘT SỐ MÔ HÌNH DỊCH MÁY CẢI TIẾN VÀ MỘT SỐ MÔ HÌNH DỊCH MÁY CẢI TIẾN Môn học: TOÁN TRONG CÔNG. nổi tiếng đó là công cụ dịch song ngữ trên Google. Mô hình dịch máy thống kê 1. Dịch máy thống kê dựa trên từ Mô hình dịch máy thống kê dựa trên từ được đưa ra bởi Brown vào năm 1990. Mô. ngôn ngữ để thực hiện quá trình dịch. Mô hình dịch máy thống kê 1. Dịch máy thống kê dựa trên từ Mô hình dịch máy thống kê 2. Dịch máy thống kê dựa trên ngữ Hệ dịch thống kê dựa trên từ có