- Câu nguồn và câu đích được phân tích ra thành cây cú pháp, thường là cây nhị phân để giảm độ phức tạp kh
Khai thác sự tương tự giữa các ngôn ngữ trong dịch máy
ngữ trong dịch máy
Hiện trạng dịch máy thống kê Giới thiệu phương pháp
Mô hình túi từ liên tục và Skip-gram Kết quả và khả năng ứng dụng
Khai thác sự tương tự giữa các ngôn ngữ trong dịch máy ngữ trong dịch máy
Hiện trạng dịch máy thống kê
Nền tảng: các từ điển và bảng cụm từ
Đòi hỏi nhiều công sức của các chuyên gia ngôn ngữ Không dịch được các từ chưa tồn tại trong từ điển
Khai thác sự tương tự giữa các ngôn ngữ trong dịch máy ngữ trong dịch máy
Giới thiệu phương pháp
Mục đích
Tự động hóa quá trình tạo các từ điển và bảng cụm từ
Cơ sở
Sử dụng biểu diễn phân tán các từ, cụm từ để suy luận các mục từ còn thiếu
Học phép chiếu tuyến tính giữa các không gian vec tơ biểu diễn các ngôn ngữ
Các bước thực hiện
Xây dựng các mô hình đơn ngữ của các ngôn ngữ dựa trên một lượng lớn dữ liệu
Sử dụng một từ điển song ngữ nhỏ để học phép chiều tuyến tính
Khai thác sự tương tự giữa các ngôn ngữ trong dịch máy ngữ trong dịch máy
Giới thiệu phương pháp
Các vec tơ biểu diễn số và động vật trong tiếng Anh và Tây Ban Nha
Có sự tương tự về sắp xếp hình học
Lí do: các khái niệm tương tự giữa các ngôn ngữ điều
xuất phát từ thế giới thực
Chó và mèo hay được nuôi trong gia đình Mèo là động vật nhỏ hơn chó
Có sự sắp xếp hình học tương tự nhau trong các không gian vec
tơ là mấu chốt của phương pháp
Khai thác sự tương tự giữa các ngôn ngữ trong dịch máy ngữ trong dịch máy
Khai thác sự tương tự giữa các ngôn ngữ trong dịch máy ngữ trong dịch máy
Mô hình túi từ liên tục và Skip-gram
Một mô hình ngôn ngữ để biểu diễn ngôn ngữ
Đề xuất bởi Mikolov và các cộng sự năm 2013 (tác giả bài báo??)
Đặc điểm
Sử dụng kiến trúc mạng nơ ron đơn giản, hướng đến dự đoán các
láng giềng của một từ
Đơn giản
Có thể thực hiện huấn luyện trên lượng dự liệu lớn (vài tỉ từ trong vài giờ - billions words in hours)
Khai thác sự tương tự giữa các ngôn ngữ trong dịch máy ngữ trong dịch máy
Mô hình túi từ liên tục và Skip-gram
Túi từ liên tục: ngữ cảnh (các từ xung quanh) dùng để dự đoán từ ở giữa
Skip-gram: từ đầu vào sử dụng để dự đoán ngữ cảnh
Khai thác sự tương tự giữa các ngôn ngữ trong dịch máy ngữ trong dịch máy
Mô hình túi từ liên tục và Skip-gram
Sử dụng biểu diễn phân tán các từ, cụm từ để suy luận các
mục từ còn thiếu
Các từ tương tự nhau sẽ gần nhau khi biểu diễn trong không gian
vec tơ
Học phép chiếu tuyến tính giữa các không gian vec tơ biểu diễn các ngôn ngữ
Nhiều khái niệm tương tự có thể biểu diễn bằng phép chiếu tuyến
tính
Vec tơ biểu diễn “king” – “man” + “woman” gần vec tơ “queen”
“school”, “university” hoặc “river”, “lake” có vec tơ biểu diễn gần nhau
Khai thác sự tương tự giữa các ngôn ngữ trong dịch máy ngữ trong dịch máy
Kết quả và khả năng ứng dụng
Ví dụ dịch từ ngoài từ điển (tiếng Tây Ban Nha sang tiếng anh)
Hiển thị 3 khả năng dịch sát nghĩa
nhất
Các từ trong ví dụ được chọn ngẫu nhiên
Khai thác sự tương tự giữa các ngôn ngữ trong dịch máy ngữ trong dịch máy
Kết quả và khả năng ứng dụng
Hiệu quả đáng ngạc nhiên
Dịch các từ giữa tiếng Anh và Tây Ban Nha cho độ chính xác lên đến 90%
Dịch các từ giữa tiếng Anh và Tây Ban Nha, Séc, Việt Nam cũng cho
độ chính xác cao
Ứng dụng
Bổ sung, lọc từ điển, bảng cụm từ, là thành phần quan trọng trong dịch máy thống kê hiện tại