Câu tiếng Anh Câu tham chiếu tiếng Việt Câu được dịch Let’s meet at 8:00 PM. Mình gặp nhau lúc 8 giờ
tối nay nhé.
Hãy gặp nhau lúc 8 giờ sáng.
It’s been keeping me awake at night.
Tơi lo đến thức trắng cả đêm.
Nó đã được giữ tôi tỉnh táo vào ban đêm.
Thực hiện một số khảo sát trên các hệ thống dịch tự động hiện nay, có thể thấy khi dịch từ tiếng Anh sang tiếng Việt, có nhiều câu đã bị dịch sai nghĩa như ở Bảng 1.9.
Đối với các câu hội thoại, các hệ thống thường dịch theo nghĩa đen mà không dịch đúng các cụm từ có nghĩa bóng, thành ngữ, vì vậy nội dung trở nên vô nghĩa:
Câu 1 Câu 2
Câu nguồn: Câu tham chiếu: Câu dịch (Google): Câu dịch (Microsoft):
I feel blue. Tôi thấy buồn. Tôi cảm thấy buồn. Tôi cảm thấy màu xanh.
Doing nothing is doing ill. Nhàn cư vi bất thiện.
Khơng làm gì cả đang bị ốm. Khơng làm gì là làm kém.
Đối với các văn bản chuyên ngành, chẳng hạn trong lĩnh vực văn bản quy phạm pháp luật, nhiều thuật ngữ chuyên ngành là những từ quan trọng bị dịch sai, làm cho bản dịch trở nên khó hiểu. Ví dụ:
Câu nguồn disputing Party means a complaining Party or a responding (bản gốc từ Hiệp Party; Panel means a panel established pursuant to Article 28.7 định TPP): (Establishment of a Panel);
Câu tham chiếu: Bên tranh chấp là Bên nguyên đơn hoặc Bên bị đơn; Ban hội
thẩm là ban được thành lập căn cứ theo Điều 28.7 (Thành lập
Ban hội thẩm); Câu
(Google):
dịch Bên tranh chấp có nghĩa là một Bên khi ếu nại hoặc một Bên đáp
ứng; Ban Hội thẩm là ủy ban được thành lập theo Điều 28.7
(Thành lập Ban Hội thẩm); I’ve been worried sick
about my mom.
Tôi lo cho mẹ tôi đến phát bệnh.
Tôi đã lo lắng bệnh về mẹ tôi.
I can't help thinking of the future.
Tôi không thể không nghĩ về tương lai.
Tôi không thể suy nghĩ về tương lai.
I’m browned off with this place.
Tôi phát chán nơi này. Tôi bị cuốn hút với nơi này.
Câu dịch bên đảng có nghĩa là một bên khi ếu nại hoặc một bên
(Microsoft): responding; B ảng điều khiển có nghĩa là một b ảng điều khiển
được thành lập theo quy định bài 28.7 (thành lập một bảng điều khiển);
Để có các số liệu cụ thể làm luận cứ phân tích, đánh giá về chất lượng của các hệ thống dịch, luận án sẽ triển khai và thực hiện quy trình đánh giá đối với một số hệ thống thơng dụng nhất ở cặp ngơn ngữ Anh – Việt, trình bày ở Chương 2.
1.5. Kết luận Chương 1
Chương 1 trình bày tổng quan về bài toán dịch tự động, các phương pháp sử dụng trong các bộ máy dịch, kho ngữ liệu phục vụ huấn luyện và xây dựng mơ hình dịch và các phương pháp đánh giá chất lượng của hệ thống dịch. Nội dung của chương cũng trình bày các nghiên cứu liên quan đến vấn đề xây dựng và cải tiến chất lượng hệ thống dịch tự động tiếng Việt.
Từ các nghiên cứu trên, có thể thấy rằng bài tốn dịch tự động tiếng Việt là một trong những hướng nghiên cứu được quan tâm trong những năm vừa qua bởi tính cấp thiết của dịch tự động và những ứng dụng thực tiễn mà các hệ thống dịch mang lại. Có nhiều nhóm nghiên cứu đã đề xuất các giải pháp khác nhau về cải tiến mơ hình dịch cũng như cải tiến kho ngữ liệu, tuy nhiên đến nay chất lượng thực tế của các hệ thống dịch tự động tiếng Việt vẫn còn nhiều hạn chế. Các câu dịch chưa thể áp dụng ngay mà cần có sự kiểm chứng và xử lý, chỉnh sửa.
GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT
2.1. Giới thiệu
Trong học máy nói chung và bài tốn dịch tự động nói riêng, các thuật tốn được áp dụng để tiếp nhận tri thức từ kho dữ liệu đầu vào đã có, từ đó xây dựng nên các mơ hình dịch (model). Như vậy, mơ hình dịch là kết quả của q trình huấn luyện của các thuật tốn, biểu diễn các số liệu thống kê, các quy tắc, luật đã được tối ưu sau q trình này. Từ một mơ hình dịch đã được huấn luyện, chúng ta đưa vào các câu nguồn để mơ hình dự đốn kết quả đầu ra là các câu đích cần dịch. Chính vì vậy, mơ hình dịch đóng vai trị quyết định ảnh hưởng đến chất lượng của hệ thống dịch.
Từ điển Cặp câu mẫu Luật ngữ pháp Thống kê ngôn ngữ Dữ liệu CHẤT LƯỢNG Tiếp nhận tri thức Xử lý thông tin Học & ghi nhớ Khởi tạo quy tắc/luật, mơ hình dịch Phương pháp dịch TỐI ƯU Mơ hình dịch tự động Hệ thống dịch CHẤT LƯỢNG
Hình 2.1. Hai yếu tố then chốt của hệ thống dịch tự động: Dữ liệu và Phương pháp dịch
Như biểu diễn ở Hình 2.1, có thể thấy rằng xây dựng một mơ hình dịch tốt và tạo nên hệ thống dịch có chất lượng, cần có hai yếu tố then chốt là nguồn dữ liệu và phương pháp dịch:
o Có chất lượng tốt, nghĩa là dữ liệu phải chính xác, ngữ nghĩa khơng
nhập nhằng, có phân tích cú pháp, xác định ranh giới từ, xác định danh từ riêng…
o Có số lượng lớn, nghĩa là có đầy đủ các luật về ngữ pháp, có số lượng
các cặp câu song ngữ lớn, bao phủ tất cả các lĩnh vực, có đầy đủ các từ, cụm từ trong ngơn ngữ tự nhiên.
- Phương pháp dịch hiệu quả, phù hợp với ngôn ngữ, triệt tiêu tối đa sự nhập nhằng về ngữ nghĩa, có thể hiểu được nội dung của cả câu đầu vào cần dịch để cho kết quả chính xác nhất và phù hợp với ngữ cảnh.
Vì vậy, với bài tốn cải tiến chất lượng của hệ thống dịch tự động nói chung và đối với tiếng Việt nói riêng, luận án sẽ tập trung phân tích thực trạng và đề xuất các giải pháp ở hai khía cạnh quan trọng nhất ảnh hưởng đến kết quả dịch là cải tiến chất lượng của kho ngữ liệu sử dụng trong mơ hình dịch và áp dụng phương pháp dịch phù hợp đối với tiếng Việt để có thể tạo ra mơ hình dịch tốt nhất. Ngồi ra, luận án cũng tiến hành tổ chức đánh giá các hệ thống dịch đang được sử dụng rộng rãi hiện nay để có các số liệu cụ thể về chất lượng dịch tự động tiếng Việt.
2.2. Đánh giá chất lượng các hệ thống dịch tự động tiếng Việt
Mặc dù đã có nhiều hệ thống hỗ trợ dịch tiếng Việt được sử dụng rộng rãi, tuy nhiên mỗi hệ thống có những đặc điểm riêng và cho kết quả dịch khác nhau ở các lĩnh vực khác nhau. Hiện nay vẫn chưa có các chiến dịch đánh giá bài bản để đưa ra các số liệu khoa học minh chứng cho chất lượng các hệ thống dịch tự động tiếng Việt.
Vì vậy, để có số liệu đánh giá chi tiết hơn về chất lượng của các hệ thống dịch tự động trực tuyến giữa cặp ngôn ngữ tiếng Anh – tiếng Việt đang được người dùng sử dụng phổ biến, nghiên cứu sinh đã thực hiện quá trình đánh giá trên một số bộ dữ liệu. Quá trình đánh giá này được thực hiện năm 2017, sử dụng kết quả dịch của hai hệ thống dịch trực tuyến thông dụng nhất là Google Translate và Microsoft
Câu nguồn Gọi API lấy kết quảdịch từ Google, Microsoft Kết quả dịch Chuẩn bị dữ liệu đánh giá
Câu tham chiếu
Tổ chức Đánh giá Chủ quan Khách quan Con người Phần mềm Điểm số BLUE/NIST
Hình 2.2. Quy trình tổ chức đánh giá chất lượng dịch tiếng Việt
Tổ chức đánh giá
Chuẩn bị dữ liệu: Các nghiên cứu liên quan đến đánh giá chất lượng dịch tự động tiếng Việt chưa có các bộ dữ liệu đặc trưng để đánh giá. Vì vậy, nghiên cứu sinh chọn lọc và sử dụng 4 bộ dữ liệu song ngữ Anh – Việt phục vụ cho việc đánh giá. Các bộ dữ liệu được lựa chọn trên tiêu chí đại diện cho các lĩnh vực khác nhau, bao gồm cả hội thoại thông dụng hàng ngày và lĩnh vực chuyên ngành. Dữ liệu này được thu thập từ các trang nguồn có độ tin cậy, đồng thời được kiểm tra, chỉnh sửa thủ công để đảm bảo các bản dịch đạt chất lượng tốt, bao gồm: (1) tst2013: dữ liệu song ngữ phục vụ cho các tác vụ kiểm thử tại Hội thảo IWSLT’15 (http://workshop2015. iwslt.org); (2) 1000-cau: tuyển tập 1.000 câu giao tiếp tiếng Anh thông dụng được cung cấp bởi website dạy tiếng Anh (hellochao.vn). Đối với lĩnh vực chuyên ngành, nghiên cứu sinh sử dụng: (3) tpp-tomtat: bản tóm tắt và (4) tpp-chuong28: chương 28 của Hiệp định đối tác xuyên Thái Bình Dương được cung cấp bởi Thư viện Pháp luật (thuvienphapluat.vn). Chi tiết dữ liệu được cung cấp ở Bảng 2.1.