Câu tiếng Anh Câu tham chiếu tiếng Việt Câu được dịch Let’s meet at 8:00 PM. Mình gặp nhau lúc 8 giờ
tối nay nhé.
Hãy gặp nhau lúc 8 giờ sáng.
It’s been keeping me awake at night.
Tôi lo đến thức trắng cả đêm.
Nó đã được giữ tơi tỉnh táo vào ban đêm.
I’ve been worried sick about my mom.
Tôi lo cho mẹ tôi đến phát bệnh.
Tôi đã lo lắng bệnh về mẹ tôi.
I can't help thinking of the future.
Tôi không thể không nghĩ về tương lai.
Tôi không thể suy nghĩ về tương lai.
I’m browned off with this place.
Tôi phát chán nơi này. Tôi bị cuốn hút với nơi này.
Thực hiện một số khảo sát trên các hệ thống dịch tự động hiện nay, có thể thấy khi dịch từ tiếng Anh sang tiếng Việt, có nhiều câu đã bị dịch sai nghĩa như ở Bảng 1.9.
Đối với các câu hội thoại, các hệ thống thường dịch theo nghĩa đen mà khơng dịch đúng các cụm từ có nghĩa bóng, thành ngữ, vì vậy nội dung trở nên vơ nghĩa:
Câu 1 Câu 2
Câu nguồn: I feel blue. Doing nothing is doing ill.
Câu tham chiếu: Tôi thấy buồn. Nhàn cư vi bất thiện.
Câu dịch (Google): Tôi cảm thấy buồn. Khơng làm gì cả đang bị ốm.
Câu dịch (Microsoft): Tôi cảm thấy màu xanh. Khơng làm gì là làm kém.
Đối với các văn bản chuyên ngành, chẳng hạn trong lĩnh vực văn bản quy phạm pháp luật, nhiều thuật ngữ chuyên ngành là những từ quan trọng bị dịch sai, làm cho bản dịch trở nên khó hiểu. Ví dụ:
Câu nguồn (bản gốc từ Hiệp định TPP):
disputing Party means a complaining Party or a responding Party; Panel means a panel established pursuant to Article 28.7 (Establishment of a Panel);
Câu tham chiếu: Bên tranh chấp là Bên nguyên đơn hoặc Bên bị đơn; Ban hội thẩm là ban được thành lập căn cứ theo Điều 28.7 (Thành lập
Ban hội thẩm);
Câu dịch
(Google):
Bên tranh chấp có nghĩa là một Bên khiếu nại hoặc một Bên đáp
ứng; Ban Hội thẩm là ủy ban được thành lập theo Điều 28.7
Câu dịch (Microsoft):
bên đảng có nghĩa là một bên khiếu nại hoặc một bên responding; Bảng điều khiển có nghĩa là một bảng điều khiển
được thành lập theo quy định bài 28.7 (thành lập một bảng điều khiển);
Để có các số liệu cụ thể làm luận cứ phân tích, đánh giá về chất lượng của các hệ thống dịch, luận án sẽ triển khai và thực hiện quy trình đánh giá đối với một số hệ thống thông dụng nhất ở cặp ngơn ngữ Anh – Việt, trình bày ở Chương 2.
1.5. Kết luận Chương 1
Chương 1 trình bày tổng quan về bài tốn dịch tự động, các phương pháp sử dụng trong các bộ máy dịch, kho ngữ liệu phục vụ huấn luyện và xây dựng mơ hình dịch và các phương pháp đánh giá chất lượng của hệ thống dịch. Nội dung của chương cũng trình bày các nghiên cứu liên quan đến vấn đề xây dựng và cải tiến chất lượng hệ thống dịch tự động tiếng Việt.
Từ các nghiên cứu trên, có thể thấy rằng bài toán dịch tự động tiếng Việt là một trong những hướng nghiên cứu được quan tâm trong những năm vừa qua bởi tính cấp thiết của dịch tự động và những ứng dụng thực tiễn mà các hệ thống dịch mang lại. Có nhiều nhóm nghiên cứu đã đề xuất các giải pháp khác nhau về cải tiến mơ hình dịch cũng như cải tiến kho ngữ liệu, tuy nhiên đến nay chất lượng thực tế của các hệ thống dịch tự động tiếng Việt vẫn còn nhiều hạn chế. Các câu dịch chưa thể áp dụng ngay mà cần có sự kiểm chứng và xử lý, chỉnh sửa.
GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG DỊCH TỰ ĐỘNG
TIẾNG VIỆT 2.1. Giới thiệu
Trong học máy nói chung và bài tốn dịch tự động nói riêng, các thuật tốn được áp dụng để tiếp nhận tri thức từ kho dữ liệu đầu vào đã có, từ đó xây dựng nên các mơ hình dịch (model). Như vậy, mơ hình dịch là kết quả của quá trình huấn luyện của các thuật tốn, biểu diễn các số liệu thống kê, các quy tắc, luật đã được tối ưu sau quá trình này. Từ một mơ hình dịch đã được huấn luyện, chúng ta đưa vào các câu nguồn để mơ hình dự đốn kết quả đầu ra là các câu đích cần dịch. Chính vì vậy, mơ hình dịch đóng vai trị quyết định ảnh hưởng đến chất lượng của hệ thống dịch.
Hình 2.1. Hai yếu tố then chốt của hệ thống dịch tự động: Dữ liệu và Phương pháp dịch
Như biểu diễn ở Hình 2.1, có thể thấy rằng xây dựng một mơ hình dịch tốt và tạo nên hệ thống dịch có chất lượng, cần có hai yếu tố then chốt là nguồn dữ liệu và phương pháp dịch:
- Nguồn dữ liệu sử dụng cho bộ máy dịch thuật phải đáp ứng:
Mơ hình dịch tự động Cặp câu mẫu Luật ngữ pháp Thống kê ngôn ngữ Từ điển Tiếp nhận tri thức Xử lý thông tin Học & ghi nhớ Khởi tạo quy tắc/luật, mơ hình dịch Dữ liệu CHẤT LƯỢNG Phương pháp dịch TỐI ƯU Hệ thống dịch CHẤT LƯỢNG
o Có chất lượng tốt, nghĩa là dữ liệu phải chính xác, ngữ nghĩa khơng nhập nhằng, có phân tích cú pháp, xác định ranh giới từ, xác định danh từ riêng…
o Có số lượng lớn, nghĩa là có đầy đủ các luật về ngữ pháp, có số lượng các cặp câu song ngữ lớn, bao phủ tất cả các lĩnh vực, có đầy đủ các từ, cụm từ trong ngôn ngữ tự nhiên.
- Phương pháp dịch hiệu quả, phù hợp với ngôn ngữ, triệt tiêu tối đa sự nhập nhằng về ngữ nghĩa, có thể hiểu được nội dung của cả câu đầu vào cần dịch để cho kết quả chính xác nhất và phù hợp với ngữ cảnh.
Vì vậy, với bài toán cải tiến chất lượng của hệ thống dịch tự động nói chung và đối với tiếng Việt nói riêng, luận án sẽ tập trung phân tích thực trạng và đề xuất các giải pháp ở hai khía cạnh quan trọng nhất ảnh hưởng đến kết quả dịch là cải tiến chất lượng của kho ngữ liệu sử dụng trong mơ hình dịch và áp dụng phương pháp dịch phù hợp đối với tiếng Việt để có thể tạo ra mơ hình dịch tốt nhất. Ngồi ra, luận án cũng tiến hành tổ chức đánh giá các hệ thống dịch đang được sử dụng rộng rãi hiện nay để có các số liệu cụ thể về chất lượng dịch tự động tiếng Việt.
2.2. Đánh giá chất lượng các hệ thống dịch tự động tiếng Việt
Mặc dù đã có nhiều hệ thống hỗ trợ dịch tiếng Việt được sử dụng rộng rãi, tuy nhiên mỗi hệ thống có những đặc điểm riêng và cho kết quả dịch khác nhau ở các lĩnh vực khác nhau. Hiện nay vẫn chưa có các chiến dịch đánh giá bài bản để đưa ra các số liệu khoa học minh chứng cho chất lượng các hệ thống dịch tự động tiếng Việt. Vì vậy, để có số liệu đánh giá chi tiết hơn về chất lượng của các hệ thống dịch tự động trực tuyến giữa cặp ngôn ngữ tiếng Anh – tiếng Việt đang được người dùng sử dụng phổ biến, nghiên cứu sinh đã thực hiện quá trình đánh giá trên một số bộ dữ liệu. Quá trình đánh giá này được thực hiện năm 2017, sử dụng kết quả dịch của hai hệ thống dịch trực tuyến thông dụng nhất là Google Translate và Microsoft Translator. Quy trình tổng quát các bước tổ chức đánh giá mơ tả ở Hình 2.2.
Hình 2.2. Quy trình tổ chức đánh giá chất lượng dịch tiếng Việt
Tổ chức đánh giá
Chuẩn bị dữ liệu: Các nghiên cứu liên quan đến đánh giá chất lượng dịch tự động tiếng Việt chưa có các bộ dữ liệu đặc trưng để đánh giá. Vì vậy, nghiên cứu sinh chọn lọc và sử dụng 4 bộ dữ liệu song ngữ Anh – Việt phục vụ cho việc đánh giá. Các bộ dữ liệu được lựa chọn trên tiêu chí đại diện cho các lĩnh vực khác nhau, bao gồm cả hội thoại thông dụng hàng ngày và lĩnh vực chuyên ngành. Dữ liệu này được thu thập từ các trang nguồn có độ tin cậy, đồng thời được kiểm tra, chỉnh sửa thủ công để đảm bảo các bản dịch đạt chất lượng tốt, bao gồm: (1) tst2013: dữ liệu song ngữ phục vụ cho các tác vụ kiểm thử tại Hội thảo IWSLT’15 (http://workshop2015. iwslt.org); (2) 1000-cau: tuyển tập 1.000 câu giao tiếp tiếng Anh thông dụng được cung cấp bởi website dạy tiếng Anh (hellochao.vn). Đối với lĩnh vực chuyên ngành, nghiên cứu sinh sử dụng: (3) tpp-tomtat: bản tóm tắt và (4) tpp-chuong28: chương 28 của Hiệp định đối tác xuyên Thái Bình Dương được cung cấp bởi Thư viện Pháp luật (thuvienphapluat.vn). Chi tiết dữ liệu được cung cấp ở Bảng 2.1.