CHƯƠNG 2 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN
2.3. Các cơng trình nghiên cứu liên quan đến đề tài
Neural Machine Translation: A Review – Trong bài báo này, truy nguyên
nguồn gốc của các kiến trúc NMT hiện đại với các từ và các câu embedding và các ví dụ trước đây của chúng mang bộ mã hóa-giải mã. Bài báo kết thúc với một cuộc khảo sát về các xu hướng gần đây trong lĩnh vực này.
Neural Machine Translation Between Vietnamese And English: An Empirical Study – Bài báo này nêu bật những nỗ lực của tác giả trong việc cải thiện
các bản dịch tiếng Anh-Việt theo hai hướng: (1) Xây dựng kho văn bản tiếng Việt - tiếng Anh mở lớn nhất cho đến nay và (2) Các thử nghiệm mở rộng với các mơ hình neural mới nhất để đạt được điểm BLEU cao nhất. Các thí nghiệm của tác giả cung cấp các ví dụ thực tế về việc sử dụng hiệu quả các mơ hình dịch máy thần kinh khác nhau với các cặp ngơn ngữ có dữ liệu ít.
VnCoreNLP: A Vietnamese Natural Language Processing Toolkit: Bài báo trình
bày một bộ cơng cụ nhanh và dễ sử dụng, cụ thể là VnCoreNLP, một bộ xứ lý Java NLP cho tiếng Việt. VnCoreNLP hỗ trợ các tác vụ xử lý ngôn ngữ tự nhiên (NLP) chính bao gồm phân đoạn từ, gắn thẻ lời nói (POS), nhận dạng thực thể có tên (NER) và phân tích cú pháp phụ thuộc và đạt được kết quả hiện đại (SOTA) cho các kết quả này nhiệm vụ.
cảm xúc ở cấp độ câu và xây dựng một hệ thống dựa trên quy tắc bằng cách sử dụng khung Gate. Kết quả thử nghiệm trên một loạt các đánh giá sản phẩm máy tính là rất hứa hẹn
Recurrent Neural Network based Language Model.
Trong bài báo này, nhóm tác giả trình bày phương pháp hiện thực mơ hình ngơn ngữ dựa trên mạng neural hồi quy (Recurrent neural network) ở cấp độ kí tự. Các kết quả thử nghiệm trên tập dữ liệu NIST RT05 cho thấy kết quả vượt trội hơn nhiều so với các mơ hình n-gram tiêu chuẩn, ngoại trừ độ phức tạp hơi cao của mơ hình này.
A New Approach To Accent Restoration Of Vietnamese Texts Using Dynamic Programming Combined With Co-Occurrence Graph
Nhóm tác giả đưa ra một phương pháp mới cho đánh dấu văn bản tiếng Việt. Đầu tiên tác giả xây dựng một mơ hình ngơn ngữ cho tiếng Việt như một cơ sở dữ liệu về các xác suất của từ vựng trong câu. Sau đó dựng bản đồ translate để giảm khơng gian tìm kiếm. Sau cùng dùng thuật tốn quy hoạch động để tìm lời giải mang lại xác suất từ vựng cao nhất. Theo tác giả, độ chính xác trung bình của phương pháp này đạt đến 93% – 94%.
Vietnamese Text Accent Restoration With Statistical Machine Translation
Trong bài báo này, nhóm tác giả đề xuất phương pháp kết hợp giữa n-gram và từ điển cụm từ cho bài toán bỏ dấu cho tiếng Việt. Phương pháp này xem việc dự đoán dấu cho câu như bài tốn dịch máy thống kê với ngơn ngữ nguồn là văn bản tiếng Việt không dấu, cịn ngơn ngữ đích là văn bản đã có dấu tương ứng. Tác giả cải thiện chất lượng mơ hình bằng cách áp dụng một số kỹ thuật như thêm từ điển, thay đổi thứ tự mơ hình ngơn ngữ và tuning mơ hình