Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 146 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
146
Dung lượng
6,47 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ——————— TRẦN HỒNG VIỆT CẢI TIẾN CHẤT LƯỢNG DỊCH MÁY THỐNG KÊ ANH-VIỆT DỰA VÀO ĐẢO TRẬT TỰ TỪ THEO CÂY CÚ PHÁP PHỤ THUỘC LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Hà Nội - 2019 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ——————— TRẦN HỒNG VIỆT CẢI TIẾN CHẤT LƯỢNG DỊCH MÁY THỐNG KÊ ANH-VIỆT DỰA VÀO ĐẢO TRẬT TỰ TỪ THEO CÂY CÚ PHÁP PHỤ THUỘC Chuyên ngành: Khoa học máy tính Mã số: 48 01 01 01 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Văn Vinh PGS.TS Nguyễn Lê Minh Hà Nội - 2019 Lời cam đoan Tôi xin cam đoan luận án kết nghiên cứu tôi, thực hướng dẫn TS Nguyễn Văn Vinh PGS.TS Nguyễn Lê Minh Các nội dung trích dẫn từ nghiên cứu tác giả khác trình bày luận án ghi rõ nguồn phần tài liệu tham khảo Trần Hồng Việt TÓM TẮT Đảo trật tự từ vấn đề quan trọng dịch máy liên quan đến việc làm để sinh thứ tự từ (cụm từ) xác ngơn ngữ đích Trong hệ dịch máy thống kê dựa cụm từ (Phrase-Based Statistical Machine Translation - PBSMT)(Koehn cộng sự, 2003; Och Ney, 2004) [59, 89], việc đảo cụm từ đơn giản chất lượng chưa cao Bên cạnh đó, ngơn ngữ có nhiều đặc điểm khác (đặc biệt khác thứ tự từ ngôn ngữ) dẫn tới mô hình hóa xác q trình dịch [89] Nhiều hướng nghiên cứu giải vấn đề xếp lại trật tự từ bên hệ thống dịch máy thống kê dựa cụm từ Một số nghiên cứu theo hướng tiếp cận tiền xử lý cho vấn đề xếp lại trật tự từ cho kết tốt, đảm bảo cân chất lượng dịch thời gian giải mã qua thực tiền xử lý trình xếp lại Với ưu điểm cấu trúc cú pháp phụ thuộc: kết nối tất từ câu với khả nắm bắt phụ thuộc từ xa với cấu trúc phụ thuộc địa phương tương ứng chặt chẽ với ngữ nghĩa, luận án tập trung nghiên cứu đề tài: "Cải tiến chất lượng dịch máy thống kê Anh-Việt dựa vào đảo trật tự từ theo cú pháp phụ thuộc" Luận án tập trung giải tồn nêu thơng qua tốn: xếp lại từ câu cần dịch ngôn ngữ nguồn theo thứ tự gần với câu dịch ngơn ngữ đích Các đề xuất thực bước tiền xử lý sử dụng cú pháp phụ thuộc ngôn ngữ nguồn để đưa vào hệ dịch thống kê dựa cụm từ nhằm cải tiến chất lượng dịch máy Kết dịch từ tiếng Anh sang tiếng Việt với liệu IWSLT 2015 hệ thống tốt hai hệ thống dịch phổ biến NMT PBSMT Đóng góp luận án cụ thể sau: • Thứ nhất, luận án đề xuất luật đảo trật tự từ thủ công từ việc lựa chọn đặc trưng ngôn ngữ cú pháp phụ thuộc Từ áp dụng phương pháp đảo trật tự từ để nâng cao chất lượng hệ thống dịch máy Anh-Việt • Thứ hai, luận án đề xuất phương pháp xây dựng luật đảo trật tự từ tự động Chúng coi việc xây dựng luật đảo trật tự từ vấn đề học máy việc dự đốn xác vị trí thành phần luật để đốn thứ tự câu ngơn ngữ nguồn tương ứng với thứ tự câu ngôn ngữ đích Với hai đề xuất gồm: – Khai thác đặc trưng ngôn ngữ đề xuất phương pháp sử dụng phân lớp để giải toán đảo trật tự từ Cụ thể xác định thứ tự phân lớp quan hệ cụm cha-con phân tích phụ thuộc biểu diễn câu đầu vào – Bằng việc khai thác quan hệ cặp từ phân tích phụ thuộc ưu điểm việc biểu diễn dạng word embedding, luận án đề xuất phương pháp sử dụng mạng nơ-ron để giải toán đảo trật tự từ câu nguồn theo thứ tự từ câu đích trước đưa vào hệ dịch để nâng cao chất lượng dịch • Thứ ba, luận án đưa phân tích ảnh hưởng lỗi phân tích cú pháp đến chất lượng dịch qua việc áp dụng luật đảo trật tự từ câu nguồn Các phân tích mang lại lợi ích cho việc cải tiến phương pháp đảo trật tự từ dựa cú pháp phát triển việc phân tích cú pháp phụ thuộc, đặc biệt với ngơn ngữ tiếng Việt Từ khóa: dịch máy, dịch máy thống kê, tiền xử lý cú pháp, cú pháp phụ thuộc, dịch máy thống kê dựa cụm từ Mục lục Lời cảm ơn Danh mục chữ viết tắt Danh sách hình vẽ 10 Danh sách bảng 13 Lời mở đầu 16 Tổng quan vấn đề liên quan luận án 22 1.1 Tổng quan dịch máy 22 1.2 Dịch máy thống kê 25 1.2.1 Cơ sở toán học 25 1.2.2 Cấu trúc hệ thống dịch máy 27 1.3 Dịch máy mạng nơ-ron 29 1.4 Phân tích cú pháp phụ thuộc 31 1.5 Vấn đề đảo trật tự từ dịch máy 35 1.5.1 Sự khác thứ tự từ ngôn ngữ 35 1.5.2 Đảo trật tự từ dịch máy 36 1.6 Bài toán đảo trật tự từ mơ hình dịch máy dựa cụm từ 37 1.6.1 Mơ hình dịch máy dựa cụm từ 37 1.6.2 Bài toán đảo trật từ tự dựa tiền xử lý 39 1.7 1.8 Các nghiên cứu liên quan 43 1.7.1 Sử dụng luật thủ công cho vấn đề tiền xử lý 44 1.7.2 Sử dụng luật tự động cho vấn đề tiền xử lý 45 Kết luận chương 46 Phương pháp dựa vào luật thủ cơng cho tốn đảo trật tự từ dịch máy thống kê 2.1 48 Phương pháp tiền xử lý cho toán đảo trật tự từ dịch máy 48 2.2 Các nghiên cứu liên quan 50 2.3 Tiền xử lý cú pháp phụ thuộc cho dịch máy thống kê 52 2.3.1 Phân tích tượng ngơn ngữ vấn đề xếp lại 52 2.3.2 Luật chuyển đổi trật tự từ 55 2.3.3 Tập luật đảo trật tự từ thủ công 57 2.3.4 Tập liệu cài đặt thực nghiệm 59 2.3.5 Kết thực nghiệm 62 Kết luận chương 63 2.4 Phương pháp sử dụng luật trích xuất tự động phân lớp quan hệ 65 3.1 Tiền xử lý dựa phân lớp cho dịch máy dựa cụm từ 65 3.1.1 Vấn đề tiền xử lý dựa phân lớp 66 3.1.2 Đặc trưng 69 3.1.3 Mô hình phân lớp 70 Thực nghiệm 73 3.2.1 Tập liệu cấu hình thực nghiệm 73 3.2.2 Kết thực nghiệm 74 Kết luận chương 76 3.2 3.3 Phương pháp sử dụng mạng nơ-ron kết hợp thông tin ngữ cảnh 79 4.1 Thông tin ngữ cảnh từ word embedding 79 4.2 Mơ hình đảo dựa mạng nơ-ron sử dụng cú pháp phụ 4.3 thuộc cho dịch máy thống kê 81 4.2.1 Đặc trưng cho phân lớp huấn luyện mơ hình 82 4.2.2 Khung làm việc cho đảo trật tự từ 87 Thực nghiệm phương pháp sử dụng mạng nơ-ron kết hợp thông tin ngữ cảnh 90 4.4 Phân tích thảo luận 93 4.5 Kết luận chương 94 Ảnh hưởng cú pháp phụ thuộc đến chất lượng dịch máy Anh-Việt 96 5.1 Giới thiệu 96 5.2 Phân tích cú pháp phụ thuộc 97 5.2.1 Bài tốn phân tích cú pháp phụ thuộc 98 5.2.2 Định dạng liệu theo chuẩn CoNLL 98 5.2.3 Sử dụng tập nhãn cho cú pháp phụ thuộc 100 5.3 Ảnh hưởng lỗi phân tích cú pháp phụ thuộc tới chất lượng dịch máy 102 5.3.1 Phương pháp phân tích lỗi 102 5.3.2 Đánh giá 104 5.3.3 Phân tích nguyên nhân gây lỗi đảo trật tự từ 108 5.4 Đánh giá kết dịch độ xác cú pháp phụ thuộc 110 5.5 Kết luận chương 112 Kết luận 114 Danh mục cơng trình khoa học tác giả liên quan đến luận án117 Tài liệu tham khảo 119 LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc đến TS Nguyễn Văn Vinh PGS.TS Nguyễn Lê Minh, hai Thầy trực tiếp hướng dẫn, bảo tận tình, ln hỗ trợ tạo điều kiện tốt cho tơi q trình học tập nghiên cứu Tôi xin gửi lời cảm ơn đến Thầy/Cô giáo Khoa Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, đặc biệt Thầy/Cô giáo Bộ môn Khoa học máy tính, người trực tiếp giảng dạy giúp đỡ tơi q trình học tập nghiên cứu trường Tôi xin gửi cảm ơn đến GS.TS Nguyễn Thanh Thủy, PGS TS Lê Sỹ Vinh, PGS.TS Nguyễn Phương Thái, PGS.TS Phan Xuân Hiếu, TS Trần Quốc Long, TS Bùi Ngọc Thăng (Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội), PGS.TS Lê Thanh Hương (Trường Đại học Bách khoa Hà Nội), TS Nguyễn Thị Minh Huyền (Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội), TS Ngô Xuân Bách (Học viện Cơng nghệ Bưu Viễn thơng), TS Nguyễn Việt Anh (Viện Công nghệ thông tin, Viện Hàn lâm Khoa học Cơng nghệ Việt Nam) Thầy/Cơ có góp ý chỉnh sửa để tơi hồn thiện luận án Tôi xin gửi lời cảm ơn đến tất anh, chị, em bạn bè đồng nghiệp Bộ mơn Khoa học máy tính (Khoa Cơng nghệ thơng tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội) giúp đỡ thời gian làm nghiên cứu sinh Cuối cùng, xin gửi lời cảm ơn đến tất thành viên gia đình ln ủng hộ, chia sẻ, động viên khích lệ học tập, nghiên cứu ... TRẦN HỒNG VIỆT CẢI TIẾN CHẤT LƯỢNG DỊCH MÁY THỐNG KÊ ANH- VIỆT DỰA VÀO ĐẢO TRẬT TỰ TỪ THEO CÂY CÚ PHÁP PHỤ THUỘC Chuyên ngành: Khoa học máy tính Mã số: 48 01 01 01 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH... cú pháp phụ thuộc ngôn ngữ nguồn để đưa vào hệ dịch thống kê dựa cụm từ nhằm cải tiến chất lượng dịch máy Kết dịch từ tiếng Anh sang tiếng Việt với liệu IWSLT 2015 hệ thống tốt hai hệ thống dịch. .. lượng dịch máy thống kê Anh- Việt dựa vào đảo trật tự từ theo cú pháp phụ thuộc" Mục tiêu luận án • Nghiên cứu đề xuất phương pháp giải toán đảo cụm từ 18 dịch máy thống kê dựa vào cụm theo hướng