1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu về machine translation

18 308 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 18
Dung lượng 0,96 MB

Nội dung

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ- ĐHQGHN KHOA CÔNG NGHỆ THÔNG TIN - - BÁO CÁO BÀI TẬP LỚN XỬ LÝ NGƠN NGỮ TỰ NHIÊN Đề tài: Tìm hiểu Machine Translation Thành viên: Mai Văn An Trần Tuấn Linh Trần Đồng Hưng Mục lục Giới thiệu 1.1 Định nghĩa dịch máy 1.2 Vai trò dịch máy 1.3 Lịch sử dịch máy Phân loại dịch máy 2.1 Vấn đề ngôn ngữ dịch máy: 2.2 Phương pháp dịch máy dựa sở luật 2.3 Phương pháp dịch máy dựa sở ví dụ 2.4 Phương pháp dịch máy thống kê (Statistical Machine Translation) 2.4.1 Phương pháp dịch máy thống kê dựa vào từ 2.4.2 Phương pháp dịch máy thống kê dựa sở cụm từ 10 2.4.3 Phương pháp dịch máy dựa thống kê cú pháp 10 Thuật toán dịch máy sử dụng mạng neuron (NMT) 10 3.1 Giới thiệu 10 3.2 Mơ hình NMT 12 3.3 Mơ hình NMT lai .14 3.3.1 Dịch máy dựa từ xương sống 15 3.3.2 Biểu diễn kí tự nguồn 15 3.3.3 Tạo ký tự đích .15 3.3.4 Ghép từ vào câu 16 Thí nghiệm kết luận .16 4.1 Dữ liệu 16 4.2 Kết 16 4.3 Kết Luận 17 Giới thiệu 1.1 Định nghĩa dịch máy Khái niệm dịch máy nhiều tác giả lĩnh vực xử lý ngôn ngữ tự nhiên (natural language processing) định nghĩa, có khác biệt đôi chút định nghĩa hầu hết tương đương định nghĩa đây: Một hệ dịch máy (Machine Translation System) hệ thống sử dụng máy tính để chuyển đổi câu văn viết ngôn ngữ tự nhiên thành dịch tương đương ngôn ngữ khác Ngôn ngữ văn cần dịch gọi văn nguồn,ngôn ngữ dịch gọi ngơn ngữ đích Đầu vào hệ dịch máy văn nguồn, đầu văn đích Kết văn đích hiệu đính để trở thành dịch tốt, gần với ngôn ngữ tự nhiên người 1.2 Vai trò dịch máy Từ xa xưa, người có nhu cầu hiểu tiếng khác (giao lưu hàng hóa từ thời xưa), ngày nay, nhu cầu trao đổi thông tin quốc gia, văn hóa, người với người làm cho việc dịch trở nên quan trọng Để giải vấn đề này, ban đầu người biết nhiều hai ngơn ngữ đóng vai trò thơng dịch, nhiên công việc dịch sử dụng sức người công việc thủ công, chất lượng cao suất thấp giá thành không rẻ Vào kỉ 20, mà cách mạng máy tính bùng nổ, việc tận dụng tài nguyên để ứng dụng vào dịch đề tài nhiều nhà khoa học nghiên cứu tận kết mang lại khả quan Dịch với trợ giúp máy tính tiến xa hơn, cách kết hợp dùng phần mềm có khả ví dụ tự động ghi lưu lại cấu trức ngữ pháp cách xếp từ định ngơn ngữ đích ngơn ngữ dịch Tóm lại, với phát triển mạnh mẽ khoa học công nghệ, khối lượng thông tin trao đổi người ngày nhiều Trong nhiều trường hợp người khơng cần đến chất lượng dịch cao sử dụng phiên dịch viên mà cần có dịch tạm đủ để cung cấp đủ nội dung mà khơng phải chờ đợi lâu Vì vậy, hệ dịch máy chất lượng tương đối đáp ứng tốt người phiên dịch giỏi Nếu xây dựng hệ dịch máy thành công, công cụ giúp người tiếp cận với kho tri thức viết ngôn ngữ khác giới 1.3 Lịch sử dịch máy Ngành dịch máy có q trình phát triển 50 năm, có giai đoạn khơng có thành tựu đáng kể dịch máy chuyên ngành phát triển khoa học máy tính với nhiều kết lý thuyết ứng dụng thực tế Có thể chia phát triển ngành dịch máy thành giai đoạn sau:  Giai đoạn 1930 – 1940 Từ kỉ 17 nhiều nhà nghiên cứu nỗ lực việc xây dựng cách biểu diễn chung cho ngôn ngữ Năm 1933, George Artsrouni thiết kế thiết bị lưu trữ tìm kiếm nhanh chóng cặp từ - giải nghĩa hai ngôn ngữ Đây xem từ điển số nhân loại Cũng năm người Nga Petr Smirnov-Troyanskii thiết kế thiết bị dịch gồm công đoạn: phân tích câu nguồn, chuyển đổi từ ngữ sinh câu đích Thiết kế Troyanskii ý tưởng cho nhiều loại máy dịch thiết kế sau  Giai đoạn 1940-1970 Vào giai đoạn này, máy tính phát minh ứng dụng thành cơng vào việc giải mật mã, nhiều người nghĩ đến khả ứng dụng máy tính vào việc phiên dịch với quan điểm coi việc dịch từ ngôn ngữ sang tiếng Anh việc giải mã văn tiêng Anh viết loại mật mã Khái niệm dịch máy hình thành chương trình dịch sử dụng phương pháp dịch từ sang từ hình thành kết hạn chế  Giai đoạn 1970-1990 Giai đoạn đánh dấu số thành công nghiên cứu lý thuyết xử lí ngơn ngữ tự nhiên sức mạnh máy tính tăng lên đáng kể nhiều trung tâm nghiên cứu bắt đầu tập trung vào lĩnh vực dịch máy đạt số thành công định Năm 1973, Yorick Wilks giới thiệu hệ thống dịch tự động Anh – Pháp cho kết tốt người Pháp đọc hiểu mà khơng cần đọc văn nguồn  Giai đoạn 1990-nay Đầu năm 1990, với phát triển mạnh mẽ Internet, nhu cầu trao đổi thông tin bùng nổ, cộng với tích lũy kiến thức mặt ngơn ngữ nhân loại, sức mạnh máy tính tăng mạnh thúc đẩy phát triển hệ thống dịch Dịch máy bước sang giai đoạn phát triển mới, đạt nhiều thành tựu đáng khích lệ Phân loại dịch máy 2.1 Vấn đề ngơn ngữ dịch máy: Có thể nói xử lý ngơn ngữ tự động máy tính vấn đề khó Công nghệ thông tin Những vấn đề gặp phải cho máy hiểu ngôn ngữ người, từ việc hiểu nghĩa từ hoàn cảnh cụ thể, đến hiểu nghĩa câu, văn Minh họa lại ví dụ Marvin Minsky (1992): xét từ “sợi dây” chẳng hạn Ngày không máy tính hiểu nghĩa từ người Chúng ta biết dùng sợi dây để kéo vật, đẩy vật sợi dây Ta gói hàng sợi dây, ăn sợi dây Chúng ta hàng trăm cách dùng khơng dùng sợi dây khơng máy tính thực việc Tiếng anh tiếng Việt hai ngôn ngữ hai quốc gia khác nhau, văn hóa khác Nên yếu tố khác tiếng Anh tiếng Việt khó khăn vấn đề xử lý ngữ nghĩa Hơn nữa, ngữ cảnh khác nhau, ý nghĩa từ khác Ví dụ như: ta viết “An old driver drives the car” nghĩa an old driver người tài xế già ta viết “I installed that old driver into this computer” cụm từ lại mang nghĩa hoàn toàn khác Tham chiếu sang tiếng việt, gặp nhập nhằng ngôn ngữ nhiều góc độ, điển ví dụ kinh điển sau: “Ơng già nhanh q” Chúng ta có cách hiểu: Cách 1: Ông già | | nhanh Cách 2: Ông | già | nhanh Cách 3: Ông già chết cách đột ngột Ta có bảng so sánh sơ ngữ pháp tiếng Việt tiếng Anh: 2.2 Phương pháp dịch máy dựa sở luật (Rule Based Machine Translation - RBMT) Các hệ thống dựa luật sử dụng tri thức ngôn ngữ thông tin cú pháp, ngữ nghĩa nên dịch hiệu Tuy nhiên máy tính khó phân tích cú pháp cho câu có ngữ nghĩa phức tạp, việc xây dựng tập luật cú pháp luật chuyển đổi bao quát trường hợp khó khăn đòi hỏi người thực phải có kiến thức sâu ngôn ngữ Dịch dựa sở luật thực phân tích cú pháp câu nhập vào sau áp dụng luật ngơn ngữ từ vựng (hay gọi luật chuyển đổi) để ánh xạ thông tin văn phạm từ ngôn ngữ sang ngơn ngữ khác Do đó, khơng thể giải trường hợp nhập nhằng ngữ nghĩa câu có cấu trúc nghĩa khác Kết hợp mức độ phân tích cú pháp phân giải ngữ nghĩa Hệ dịch chủ yế dựa vào phân tích cú pháp, phân giải ngữ nghĩa mức cần thiết để khử nhập nhằng nghĩa 2.3 Phương pháp dịch máy dựa sở ví dụ (Example Based Machine Translation – EBMT) Hướng dịch máy dựa mẫu ví dụ giới thiệu lần đầu Nagao vào năm 1984 nỗ lực xây dựng hệ dịch tự động Anh – Nhật Tư tưởng tiếp cận dịch ví dụ đơn giản: Để dịch câu sử dụng kết dịch câu khác gần giống vậy, sửa đổi đôi chút Hướng tiếp cận có nhiều ưu điểm:    Phương pháp áp dụng cho cặp ngơn ngữ nào, miễn hệ thống có tập ví dụ đủ lớn Các ngơn ngữ nguồn đích khơng cần phải khảo sát trước mặt từ vựng ngữ pháp Tập liệu phong phú, chất lượng dịch cao, ưu lớn so với số phương pháp khác, vài tiếp cận dịch bị giảm chất lượng tri thức dịch tăng lên Tuy nhiên có nhược điểm phụ thuộc vào chất lượng cặp ví dụ sử dụng để làm mẫu thuật toán đối chiếu mẫu thực chậm so với số cách tiếp cận khác 2.4 Phương pháp dịch máy thống kê (Statistical Machine Translation) Tiếp cận dịch máy dựa thống kê xuất vào cuối năm 1980, đề xuất trung tâm nghiên cứu IBM TJ Watson với hệ dịch máy Anh-Pháp Ý tưởng dịch máy thống kê đơn giản túy tốn học: thay xây dựng từ điển, quy luật chuyển đổi tay, hệ dịch tự động xây dựng từ điển, quy luật dựa thống kê Cách tiếp cận không đòi hỏi phân tích sâu ngơn ngữ, chúng thực hồn tồn tự động qt trình phân tích, chuyển đổi… Phương pháp dịch máy dựa thống kê chia thành loại sau: 2.4.1 Phương pháp dịch máy thống kê dựa vào từ (word-based SMT) Trong dịch máy thống kê sở từ, đơn vị dịch từ ngôn ngữ tự nhiên Dịch máy thống kê sở từ không sử dụng rộng rãi ngày nay, thay vào dịch máy thống kê sở cụm từ Hầu hết hệ thống dựa cụm từ sử dụng Giza++ để gióng hàng câu, trích rút cặp câu song ngữ mơ hình ngơn ngữ Vì ưu Giza++, có số nỗ lực đưa áp dụng tính tốn phân tán trực tuyến cho phần mềm 2.4.2 Phương pháp dịch máy thống kê dựa sở cụm từ (pharse-based SMT) Dịch máy thống kê sở cụm từ có mục đích để giảm bớt hạn chế dịch máy thống kê sở từ cách dịch cụm từ, độ dài cụm từ nguồn cụm từ đích khác Các cụm từ kỹ thuật thường không theo nghĩa ngôn ngữ học mà cụm từ tìm thấy cách sử dụng phương pháp thống kê để trích rút từ cặp câu 2.4.3 Phương pháp dịch máy dựa thống kê cú pháp (Syntax-based SMT) Dịch máy thống kê sở cú pháp dựa ý tưởng dịch đơn vị cú pháp (phân tích câu), từ đơn hay cụm từ (như dịch máy thống kê sở cụm từ) Ý tưởng xuất từ lâu, nhiên phiên thống kê ý tưởng hình thành có phân tích ngẫu nhiên mạnh mẽ năm 1990 Thuật toán dịch máy sử dụng mạng neuron (NMT) 3.1 Giới thiệu  Dịch máy dùng mạng neuron(NMT) kiến trúc đơn giản máy tính dịch ngơn ngữ ngôn ngữ khác NMT mạng neuron sâu huấn luyện từ đâu đến cuối với nhiều lợi ích đơn giản tổng quan hóa Mặc dù ( nghiên cứu phát triển từ năm 2014) NMT đạt kết đáng mong đợi việc dịch máy với nhiều cặp ngôn ngữ khác Tiếng Anh – Tiếng Pháp, Tiếng Anh – Tiếng Đức hay tiếng Anh – tiếng Séc …  NMT sử dụng nhiều phương pháp dịch cụm từ truyền thống gần đấy, NMT sử dụng từ giới hạn coi từ khác ký tự Những ký tự thích với thơng tin thơng tin định vị, từ liên quan, xác suất để theo dõi xếp từ câu Sau đó, thơng tin tra từ điển thông số dùng để thay kí hiệu  Mặc dù đơn giản phương pháp NMT tồn nhiều vấn đề như: - Đơn ngữ: Các từ coi thực thể độc lập NMT học từ phổ biến “distinct” lại khơng thể học từ lại có liên quan đến từ “distinctiveness” - Đa ngữ: Những ngơn ngữ có bảng chữ khác khơng thể ngây thơ ghi nhớ từ dịch bề mặt tiếng hán hay tiếng nôm…  Để giải vấn đề này, kiến trúc lai cho NMT sử dụng ( hybrid NMT) NMT lai dịch hầu hết sử dụng NMT mức độ từ ( word level) gợi ý từ sử dụng thành phần ký tự cần thiết Hình 1: Mơ hình NMT lai  Trong hình trên, việc dịch dùng NMT dựa vào từ dùng với hầu hết từ cần dịch, với từ “cute” “joli”, chúng xử lý riêng biệt Về phía nguồn (source), từ “cute” dịch sử dụng mạng neuron hồi quy sâu ( deep recurrent neutral network) hoạt động mức độ ký tự Về phía đích ( target) , NMT có mơ hình riêng để hồi phục hình thức bề mặt, tức đưa từ thành “joli” Các thành phần học từ đầu đến cuối nên có xác cao  Mơ hình NMT lai có nhiều lợi ích: - Mơ hình nhanh dễ huấn luyện so với mơ hình dịch dựa kí tự - Khơng cung cấp từ khơng biết mơ hình dịch dựa từ 3.2 Mơ hình NMT  NMT có mục đích trực tiếp mơ hình xác suất có điều kiện p(y|x) để dịch câu nguồn: x1, x2, …, xn thành câu đích: y1,y2,…,ym NMT đạt cách sử dụng framework mã hóa – giải mã Mơ hình mã hóa tính biểu diễn s câu nguồn Dựa biểu diễn này, mơ hình giải mã tạo dịch, từ mục tiêu vào thời điểm đó, phân tích log xác suất có điều kiện:  Mơ hình mạng neuron tái phát (RNN) sử dụng mơ hình NMT Tuy nhiên có vài thay đổi so với mơ hình mạng neuron tái phát truyền thống: - Kiến trúc: từ chiều thành hai chiều: dựa ý tưởng output thời điểm t không phụ thuộc vào thành phần trước mà phụ thuộc vào thành phần tương lai Ví dụ, để dự đoán từ bị thiếu (missing word) chuỗi, ta cần quan sát từ bên trái bên phải xung quanh từ Mơ hình gồm hai RNNs nạp chồng lên Trong đó, hidden state tính tốn dựa hai thành phần bên trái bên phải mạng - RNN hai chiều sâu: tương tự RNNs hai chiều , điểm khác mơ hình gồm nhiều tầng RNN chiều thời điểm Mơ hình cho phép thực tính tốn nâng cao đòi hỏi tập liệu phải đủ lớn - Loại RNN: sử dụng mạng có độ dài trí nhớ ngắn dài(LTSM – long short-term memory network): mơ hình có cấu trúc tương tự RNNs có cách tính tốn khác với hidden state Memory LTSM s gọi cells (hạt nhân) Ta xem hộp đen nhận thông tin đầu vào gồm trạng thái ẩn( hidden state) s(t-1) giá trị x(t) Bên hạt nhân này, chúng định thông tin cần lưu lại thông tin cần xóa đi, nhờ mà mơ hình lưu trữ thơng tin dài hạn  Đối với tầng tái phát bên LSTM, với h(t) trạng thái ẩn (hidden state) thời điểm thứ t, NMT tính xác suất giải mã tự đích y(t) là:  Đối với cặp câu song song, huấn luyện mô hình cách tối giản hóa mơ hình entropy bên dưới: Cơ chế ý (Attention Mechanism): chế dùng để xếp lại trật tự từ để thành câu hoàn chỉnh Ban đầu, chế sử dụng trạng thái mã hóa cuối để tính giải mã Sau đó, Một chế nhớ truy cập ngẫu nhiên cho NMT để đối phó với câu dài Tiếp đó, chức để tính điểm khác nhau, dùng để so sánh trạng thái đích nguồn chiến lược khác để đặt “chú ý” Trong tất mơ hình, sử dụng chế “chú ý” toàn diện mẫu song tuyến (bilinear) cho chức đánh giá điểm chế “chú ý” Hình 2: Cơ chế “chú ý” Cơ chế “chú ý” gồm bước: a Vector ngữ cảnh – trạng thái ẩn h(t) so sánh riêng với trạng thái ẩn nguồn s để học vector liên kết, thứ dùng để tính vector ngữ cảnh c(t) trọng lượng trung bình s b trạng thái ẩn “chú ý” – vector ngữ cảnh c(t) dùng để lấy trạng thái ẩn “chú ý”: Vector sau thay vector h(t) việc dự đốn từ 3.3 Mơ hình NMT lai Mơ hình NMT lai tác động đến từ ký tự để đạt hiệu tốt Điểm đặc trưng thuật toán sử dụng NMT theo mức độ từ để làm cho thuật toán nhanh dễ để huấn luyện Thành phần ký tự dùng để tăng khả dịch cho hệ thống dịch dựa từ với khả tính tốn từ từ kí tự để phục hồi lại từ từ kí hiệu 3.3.1 Dịch máy dựa từ xương sống Phần lõi NMT lai hệ thống mã hóa – giải mã sâu LSTM dịch từ riêng biệt NMT có từ điển từ với |V| để tần suất xuất từ Những từ nằm ngồi từ điển coi từ hiếm, dịch từ dùng với kí hiệu NMT lai dịch NMT dựa từ ngoại trừ trường hợp có kí hiệu 3.3.2 Biểu diễn kí tự nguồn Trong NMT dựa từ thơng thường, từ từ điển, từ nhúng vào câu đầu vào phần mã hóa Điều khó khăn giá trị thông tin từ nguồn Để chỉnh sửa điều này, mơ hình LSTM sâu dùng kí tự từ Ví dụ hình 1, chạy mơ hình LSTM sâu dựa kí tự qua chữ ‘c’,’u’,’t’,’e’ ‘_’ (biểu tượng viền) Trạng thái ẩn cuối lớp dùng giá trị biểu diễn cho từ 3.3.3 Tạo ký tự đích  Thơng thường NMT dựa từ cho phép tạo câu kết Sau có bước hậu xử lý để xử lý từ chưa biết đến cách tận dụng thơng tin lấy từ tính tốn bên thực tìm kiếm đơn giản từ điển Khi phương pháp làm việc, chịu nhiều vấn đề việc không đồng bảng chữ từ điển nguồn đích xếp tạo nhiều từ khác  Để giải vấn đề này, có LSTM sâu riêng để dịch từ mức ký tự Chúng ta huấn luyện hệ thống để NMT dựa từ cung cấp từ , gợi ý giải mã để lấy từ cần tìm Mơ hình huấn luyện là: Tại đây, J(w) mát thông thường NMT mức độ từ Trong ví dụ hình tổng phủ định log likelihood tạo {“un”,””,”chat”} J( c) tương ứng với việc mát phải chịu giải mã mức ký tự dự đoán ký tự 3.3.4 Ghép từ vào câu Sử dụng chế “chú ý” để ghép từ vào thành câu Thí nghiệm kết luận Sử dụng liệu tiếng Anh – tiếng Séc với 3000 câu năm 2013 tập phát triển, liệu 2656 câu năm 2015 tập kiểm tra 4.1 Dữ liệu Sử đụng dịch ngôn ngữ tiếng Anh – tiếng Séc 4.2 Kết Đã so sánh với nhiều hệ thống mạnh khác, bao gồm hệ thông thắng WMT 2015, thức huấn luyện với nhiều lượng liệu lớn (52.6 triệu câu song song 393 triệu câu đơn ngữ) Trái lại, NMT dùng khoảng 15.8 triệu câu song song lại đạt kết tốt Trong hình 2, với phương thức tiếp cận dựa từ, mơ hình NMT đơn vượt so với mơ hình tốt nhât với 1.8 điểm liệu nhỏ ( 50K từ so với 200K từ) 4.3 Kết Luận Trong ta mô tả sơ qua kiến trúc lai kết hợp mơ hình dịch máy dựa từ ký tự Dịch máy dựa từ huấn luyện nhanh có chất lượng dịch cao, nhiên, mơ hình dịch dựa ký tự giúp đạt mở rộng từ ngữ dịch, đặc biệt từ Việc kết hợp phương pháp giúp cải tiến việc dịch đạt kết cao so với thuật toán dịch máy dùng mạng neuron dựa từ thơng thường thuật tốn dịch máy khơng sử dụng mạng neuron Tài liệu tham khảo: Minh-Thang Luong and Christopher D.Manning, 2016, Achieving OpenVocabulary Neural Machine Translation with Hybrid Word-Character Models Luận văn Tìm hiểu kỹ thuật dịch máy ứng dụng vào tài liệu hàng không Trần Lâm Quân Wikipedia Machine Translation ... OpenVocabulary Neural Machine Translation with Hybrid Word-Character Models Luận văn Tìm hiểu kỹ thuật dịch máy ứng dụng vào tài liệu hàng không Trần Lâm Quân Wikipedia Machine Translation ... cho máy hiểu ngôn ngữ người, từ việc hiểu nghĩa từ hoàn cảnh cụ thể, đến hiểu nghĩa câu, văn Minh họa lại ví dụ Marvin Minsky (1992): xét từ “sợi dây” chẳng hạn Ngày khơng máy tính hiểu nghĩa... 2.3 Phương pháp dịch máy dựa sở ví dụ 2.4 Phương pháp dịch máy thống kê (Statistical Machine Translation) 2.4.1 Phương pháp dịch máy thống kê dựa vào từ 2.4.2 Phương pháp

Ngày đăng: 25/02/2019, 22:15

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w