1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu xây dựng tài nguyên song ngữ anh việt ứng dụng cho dịch máy theo miền

158 22 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 158
Dung lượng 2,93 MB

Nội dung

Trong thời gian gần đây, tình hình về bệnh dịch và sự xuất hiện các loại bệnh mới ngày một nhiều, dẫn đến nhu cầu tìm hiểu và tra cứu các văn bản thuộc miền y tế ngày càng cao. Do đó hệ dịch AnhViệt có chất lượng trong lĩnh vực y tế để hỗ trợ nhu cầu này đang trở nên cần thiết. Vì vậy việc khai phá dữ liệu để xây dựng kho ngữ liệu song ngữ miền y tế cần được quan tâm. Từ những lý do nêu trên, luận án nghiên cứu xây dựng kho ngữ liệu song ngữ ViệtAnh theo miền cho các hệ thống dịch máy và miền dữ liệu được ưu tiên xây dựng là du lịch và y tế.

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN ——————— NGUYỄN TIẾN HÀ NGHIÊN CỨU XÂY DỰNG TÀI NGUYÊN SONG NGỮ VIỆT-ANH ỨNG DỤNG CHO DỊCH MÁY THEO MIỀN LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội - 2020 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN ——————— NGUYỄN TIẾN HÀ NGHIÊN CỨU XÂY DỰNG TÀI NGUYÊN SONG NGỮ VIỆT-ANH ỨNG DỤNG CHO DỊCH MÁY THEO MIỀN Chuyên ngành: Cơ sở toán học cho tin học Mã số: 9460117.02 LUẬN ÁN TIẾN SĨ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Thị Minh Huyền PGS.TS Nguyễn Hữu Ngự Hà Nội - 2020 LỜI CAM ĐOAN Tôi xin cam đoan nội dung trình bày luận án kết nghiên cứu tôi, thực hướng dẫn TS Nguyễn Thị Minh Huyền PGS TS Nguyễn Hữu Ngự Các nội dung trích dẫn từ nghiên cứu tác giả khác trình bày luận án ghi rõ nguồn phần tài liệu tham khảo Nguyễn Tiến Hà LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc đến TS Nguyễn Thị Minh Huyền PGS.TS Nguyễn Hữu Ngự trực tiếp hướng dẫn, bảo tận tình, ln hỗ trợ tạo điều kiện tốt cho tơi q trình học tập nghiên cứu Tôi xin gửi lời cảm ơn đến thầy/cô giáo Khoa Toán - Cơ - Tin học, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, đặc biệt thầy/cô giáo Bộ môn Tin học, người trực tiếp giảng dạy giúp đỡ tơi q trình học tập nghiên cứu trường Tôi xin gửi cảm ơn đến TS Nguyễn Văn Vinh, PGS TS Nguyễn Phương Thái, PGS TS Phan Xuân Hiếu Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội; TS Trần Thị Oanh khoa Quốc tế, Đại học Quốc gia Hà Nội; PGS TS Lê Thanh Hương, TS Đỗ Thị Ngọc Diệp Trường Đại học Bách khoa Hà Nội; PGS TS Đỗ Trung Tuấn, TS Đỗ Thanh Hà, TS Lê Hồng Phương, PGS TS Lê Trọng Vĩnh, TS Nguyễn Thị Bích Thủy, TS Vũ Tiến Dũng Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, thầy/cơ có góp ý chỉnh sửa để tơi hồn thiện luận án Tôi xin gửi lời cảm ơn đến tất anh, chị, em Bộ mơn Tin học, Khoa TốnCơ-Tin học, Trường đại học khoa học Tự nhiên, Đại học Quốc gia Hà Nội Bộ mơn Khoa học máy tính, Khoa Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội giúp đỡ thời gian làm nghiên cứu sinh Cuối cùng, xin gửi lời cảm ơn đến tất thành viên gia đình, bạn bè, đồng nghiệp nơi công tác ủng hộ, chia sẻ, động viên khích lệ tơi học tập, nghiên cứu Mục lục Danh mục chữ viết tắt Mở đầu Tổng quan dịch máy tài nguyên ngôn ngữ 1.1 1.2 15 Tổng quan dịch máy 15 1.1.1 Lịch sử dịch máy 16 1.1.2 Kiến trúc hệ thống dịch máy 19 1.1.3 Các phương pháp dịch máy 22 1.1.4 Các hệ thống dịch máy sử dụng để thực nghiệm 30 1.1.5 Đánh giá hệ thống dịch máy 32 Tài nguyên ngôn ngữ cho hệ thống dịch máy 35 1.2.1 Tài nguyên đa ngữ cho dịch máy 35 1.2.2 Tài nguyên song ngữ Việt-Anh 38 1.3 Thích ứng miền dịch máy 41 1.4 Các công cụ tiền xử lý văn 43 1.5 Kết luận chương 45 Xây dựng kho ngữ liệu song ngữ Việt - Anh dóng hàng mức câu theo miền 2.1 47 Xây dựng kho ngữ liệu song ngữ Việt-Anh theo miền 48 2.1.1 Phương pháp thu thập ngữ liệu song ngữ dóng hàng câu 48 2.1.2 2.2 2.3 Xây dựng kho ngữ liệu song ngữ Việt - Anh miền du lịch 49 Dóng hàng văn song ngữ Việt-Anh 52 2.2.1 Phương pháp dóng hàng văn song ngữ mức câu 52 2.2.2 Cải tiến công cụ dóng hàng câu XAlign 54 Ứng dụng kho ngữ liệu du lịch song ngữ Việt-Anh cho hệ thống dịch máy 64 2.4 2.3.1 Kết thực nghiệm 65 2.3.2 Một số lỗi hệ thống dịch 68 Kết luận chương 70 Xây dựng kho ngữ liệu từ, cụm từ song ngữ Việt-Anh 3.1 72 Xây dựng tự động kho từ vựng song ngữ Việt - Anh 73 3.1.1 Xây dựng kho từ vựng song ngữ 73 3.1.2 Phương pháp xây dựng tự động từ vựng song ngữ Việt-Anh 77 3.1.3 Phương pháp xây dựng tự động từ vựng song ngữ ViệtAnh miền du lịch 79 3.1.4 3.2 Thực nghiệm kết 84 Trích rút thuật ngữ song ngữ Việt-Anh từ văn đơn ngữ tiếng Việt dựa vào tập luật 88 3.2.1 Các cơng trình nghiên cứu có liên quan 90 3.2.2 Phương pháp trích rút thuật ngữ song ngữ Việt-Anh từ văn đơn ngữ tiếng Việt 93 3.2.3 3.3 Thực nghiệm 104 Kết luận chương 106 Khai thác kho ngữ liệu song ngữ Việt-Anh cho dịch máy 4.1 108 Tiền xử lý liệu huấn luyện dịch máy nơ-ron 108 4.1.1 Phương pháp tiền xử lý câu dài dịch máy nơ-ron 110 4.2 4.1.2 Phương pháp trích rút cụm từ ExtPhrase 112 4.1.3 Thực nghiệm kết 115 Phương pháp sinh tự động giải tiếng Việt cho hình ảnh 119 4.2.1 Các cơng trình có liên quan đến sinh giải cho ảnh 119 4.2.2 Đề xuất quy trình xây dựng hệ thống sinh giải tiếng Việt cho ảnh 121 4.3 Kết luận chương 128 Kết luận 131 Danh mục cơng trình khoa học tác giả liên quan đến luận án 133 Tài liệu tham khảo 135 Danh mục chữ viết tắt ALPAC Automatic Language Processing Advisory Committee (Hội đồng cố vấn xử lý ngôn ngữ tự động) BiTES Bilingual Term Extraction System (Hệ thống trích rút thuật ngữ song ngữ) BLEU BiLingual Evaluation Understudy (Chỉ số đánh giá chất lượng dịch song ngữ) CNN Convolutional Neural Network (Mạng nơ-ron tích chập) DTW Dynamic Time Warping (Thuật toán chỉnh thời gian động) GRU Gated Recurrent Unit (Đơn vị hồi quy cổng) LSTM Long Short Term Memory (Bộ nhớ dài ngắn hạn) MI Mutual Information (Thông tin tương hỗ) NLP Natural Language Processing (Xử lý ngôn ngữ tự nhiên) NMT Neural Machine Translation (Dịch máy mạng nơ-ron) OPUS The open parallel corpus (Kho ngữ liệu song song mở) PBSMT Phrase-Based Statistical Machine Translation (Dịch máy dựa cụm từ) PER Position-independent word Error Rate (Tỷ lệ lỗi từ độc lập vị trí) RNN Recurrent Neural Network (Mạng nơ-ron hồi quy) SMT Statistical Machine Translation (Dịch máy thống kê) SALM Suffix Array tool kit for empirical Language Manipulations (Công cụ lọc bảng cụm từ Moses) TER Translation Error Rate (Tỷ lệ lỗi dịch) TV Television (Truyền hình) VLSP Vietnamese Language Speech Processing (Xử lý ngơn ngữ tiếng nói tiếng Việt) WER Word Error Rate (Tỷ lệ lỗi từ) Danh sách hình vẽ 1.1 Tam giác Vauquois 20 1.2 Mơ hình dịch trực tiếp 21 1.3 Mơ hình dịch qua ngơn ngữ trung gian 1.4 Mơ hình dịch máy thống kê 24 1.5 Cấu trúc hệ thống dịch máy dựa mạng nơ-ron 27 1.6 Cấu trúc hệ thống dịch máy MOSES 30 3.1 Phương pháp xây dựng tự động từ vựng Việt-Anh 77 3.2 Phương pháp xây dựng tự động từ điển Việt-Anh miền du lịch 82 3.3 Mơ hình trích rút thuật ngữ song ngữ Việt-Anh từ văn tiếng Việt 3.4 22 94 Mơ hình áp dụng luật để lựa chọn ứng viên thuật ngữ song ngữ Việt-Anh 98 4.1 Mơ hình ý toàn cục 111 4.2 Mô hình ý cục 111 4.3 Mơ hình tiền xử lý câu dài 30 từ huấn luyện hệ thống dịch máy 113 4.4 Điểm BLEU hệ thống theo độ dài từ tiếng Việt coi câu tiếng Việt dài 118 4.5 Mơ hình giải tiếng Việt cho ảnh 123 4.6 So sánh chất lượng dịch máy với Google 125 ... 45 Xây dựng kho ngữ liệu song ngữ Việt - Anh dóng hàng mức câu theo miền 2.1 47 Xây dựng kho ngữ liệu song ngữ Việt -Anh theo miền 48 2.1.1 Phương pháp thu thập ngữ liệu song ngữ dóng... KHOA HỌC TỰ NHIÊN ——————— NGUYỄN TIẾN HÀ NGHIÊN CỨU XÂY DỰNG TÀI NGUYÊN SONG NGỮ VIỆT -ANH ỨNG DỤNG CHO DỊCH MÁY THEO MIỀN Chuyên ngành: Cơ sở toán học cho tin học Mã số: 9460117.02 LUẬN ÁN TIẾN... Xây dựng kho ngữ liệu từ, cụm từ song ngữ Việt -Anh 3.1 72 Xây dựng tự động kho từ vựng song ngữ Việt - Anh 73 3.1.1 Xây dựng kho từ vựng song ngữ 73 3.1.2 Phương pháp xây

Ngày đăng: 24/12/2020, 10:05

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w