Khai thác sự tương tự giữa các ngôn ngữ trong dịch máy

Một phần của tài liệu BÁO CÁO CHUYÊN ĐỀ DỊCH MÁY VÀ MỘT SỐ MÔ HÌNH DỊCH MÁY CẢI TIẾN (Trang 26 - 36)

- Câu nguồn và câu đích được phân tích ra thành cây cú pháp, thường là cây nhị phân để giảm độ phức tạp kh

Khai thác sự tương tự giữa các ngôn ngữ trong dịch máy

ngữ trong dịch máy

Hiện trạng dịch máy thống kê Giới thiệu phương pháp

Mô hình túi từ liên tục và Skip-gram Kết quả và khả năng ứng dụng

Khai thác sự tương tự giữa các ngôn ngữ trong dịch máy ngữ trong dịch máy

Hiện trạng dịch máy thống kê

Nền tảng: các từ điển và bảng cụm từ

 Đòi hỏi nhiều công sức của các chuyên gia ngôn ngữ  Không dịch được các từ chưa tồn tại trong từ điển

Khai thác sự tương tự giữa các ngôn ngữ trong dịch máy ngữ trong dịch máy

Giới thiệu phương pháp

Mục đích

Tự động hóa quá trình tạo các từ điển và bảng cụm từ

Cơ sở

Sử dụng biểu diễn phân tán các từ, cụm từ để suy luận các mục từ còn thiếu

Học phép chiếu tuyến tính giữa các không gian vec tơ biểu diễn các ngôn ngữ

Các bước thực hiện

Xây dựng các mô hình đơn ngữ của các ngôn ngữ dựa trên một lượng lớn dữ liệu

Sử dụng một từ điển song ngữ nhỏ để học phép chiều tuyến tính

Khai thác sự tương tự giữa các ngôn ngữ trong dịch máy ngữ trong dịch máy

Giới thiệu phương pháp

Các vec tơ biểu diễn số và động vật trong tiếng Anh và Tây Ban Nha

Có sự tương tự về sắp xếp hình học

Lí do: các khái niệm tương tự giữa các ngôn ngữ điều

xuất phát từ thế giới thực

Chó và mèo hay được nuôi trong gia đìnhMèo là động vật nhỏ hơn chó

Có sự sắp xếp hình học tương tự nhau trong các không gian vec

tơ là mấu chốt của phương pháp

Khai thác sự tương tự giữa các ngôn ngữ trong dịch máy ngữ trong dịch máy

Khai thác sự tương tự giữa các ngôn ngữ trong dịch máy ngữ trong dịch máy

Mô hình túi từ liên tục và Skip-gram

Một mô hình ngôn ngữ để biểu diễn ngôn ngữ

Đề xuất bởi Mikolov và các cộng sự năm 2013 (tác giả bài báo??)

Đặc điểm

Sử dụng kiến trúc mạng nơ ron đơn giản, hướng đến dự đoán các

láng giềng của một từ

Đơn giản

Có thể thực hiện huấn luyện trên lượng dự liệu lớn (vài tỉ từ trong vài giờ - billions words in hours)

Khai thác sự tương tự giữa các ngôn ngữ trong dịch máy ngữ trong dịch máy

Mô hình túi từ liên tục và Skip-gram

Túi từ liên tục: ngữ cảnh (các từ xung quanh) dùng để dự đoán từ ở giữa

Skip-gram: từ đầu vào sử dụng để dự đoán ngữ cảnh

Khai thác sự tương tự giữa các ngôn ngữ trong dịch máy ngữ trong dịch máy

Mô hình túi từ liên tục và Skip-gram

Sử dụng biểu diễn phân tán các từ, cụm từ để suy luận các

mục từ còn thiếu

Các từ tương tự nhau sẽ gần nhau khi biểu diễn trong không gian

vec tơ

Học phép chiếu tuyến tính giữa các không gian vec tơ biểu diễn các ngôn ngữ

Nhiều khái niệm tương tự có thể biểu diễn bằng phép chiếu tuyến

tính

Vec tơ biểu diễn “king” – “man” + “woman” gần vec tơ “queen”

“school”, “university” hoặc “river”, “lake” có vec tơ biểu diễn gần nhau

Khai thác sự tương tự giữa các ngôn ngữ trong dịch máy ngữ trong dịch máy

Kết quả và khả năng ứng dụng

Ví dụ dịch từ ngoài từ điển (tiếng Tây Ban Nha sang tiếng anh)

Hiển thị 3 khả năng dịch sát nghĩa

nhất

Các từ trong ví dụ được chọn ngẫu nhiên

Khai thác sự tương tự giữa các ngôn ngữ trong dịch máy ngữ trong dịch máy

Kết quả và khả năng ứng dụng

Hiệu quả đáng ngạc nhiên

Dịch các từ giữa tiếng Anh và Tây Ban Nha cho độ chính xác lên đến 90%

Dịch các từ giữa tiếng Anh và Tây Ban Nha, Séc, Việt Nam cũng cho

độ chính xác cao

Ứng dụng

Bổ sung, lọc từ điển, bảng cụm từ, là thành phần quan trọng trong dịch máy thống kê hiện tại

Một phần của tài liệu BÁO CÁO CHUYÊN ĐỀ DỊCH MÁY VÀ MỘT SỐ MÔ HÌNH DỊCH MÁY CẢI TIẾN (Trang 26 - 36)

Tải bản đầy đủ (PPT)

(36 trang)