Đánh giá chất lượng các hệ thống dịch tự động tiến- 123docz.net

6 .Đóng góp chính của luận án

2.2. Đánh giá chất lượng các hệ thống dịch tự động tiếng Việt

Mặc dù đã có nhiều hệ thống hỗ trợ dịch tiếng Việt được sử dụng rộng rãi, tuy nhiên mỗi hệ thống có những đặc điểm riêng và cho kết quả dịch khác nhau ở các lĩnh vực khác nhau. Hiện nay vẫn chưa có các chiến dịch đánh giá bài bản để đưa ra các số liệu khoa học minh chứng cho chất lượng các hệ thống dịch tự động tiếng Việt.

Vì vậy, để có số liệu đánh giá chi tiết hơn về chất lượng của các hệ thống dịch tự động trực tuyến giữa cặp ngôn ngữ tiếng Anh – tiếng Việt đang được người dùng sử dụng phổ biến, nghiên cứu sinh đã thực hiện quá trình đánh giá trên một số bộ dữ liệu. Quá trình đánh giá này được thực hiện năm 2017, sử dụng kết quả dịch của hai hệ thống dịch trực tuyến thông dụng nhất là Google Translate và Microsoft Translator. Quy trình tổng quát các bước tổ chức đánh giá mơ tả ở Hình 2.2.

Câu nguồn

55 Gọi API lấy kết quả

r o s o f t Chuẩn bị dữ liệu đánh giá

Câu tham chiếu

Kết quả dịch

Tổ chức Đánh giá

Chủ quan Con người Điểm số

Khách quan Phần mềm BLUE/NIST

Hình 2.2. Quy trình tổ chức đánh giá chất lượng dịch tiếng Việt

Tổ chức đánh giá

Chuẩn bị dữ liệu: Các nghiên cứu liên quan đến đánh giá chất lượng dịch tự động tiếng Việt chưa có các bộ dữ liệu đặc trưng để đánh giá. Vì vậy, nghiên cứu sinh chọn lọc và sử dụng 4 bộ dữ liệu song ngữ Anh – Việt phục vụ cho việc đánh giá. Các bộ dữ liệu được lựa chọn trên tiêu chí đại diện cho các lĩnh vực khác nhau, bao gồm cả hội thoại thông dụng hàng ngày và lĩnh vực chuyên ngành. Dữ liệu này được thu thập từ các trang nguồn có độ tin cậy, đồng thời được kiểm tra, chỉnh sửa thủ công để đảm bảo các bản dịch đạt chất lượng tốt, bao gồm: (1) tst2013: dữ liệu song ngữ phục vụ cho các tác vụ kiểm thử tại Hội thảo IWSLT’15 (http://workshop2015. iwslt.org); (2) 1000-cau: tuyển tập 1.000 câu giao tiếp tiếng Anh thông dụng được cung cấp bởi website dạy tiếng Anh (hellochao.vn). Đối với lĩnh vực chuyên ngành, nghiên cứu sinh sử dụng: (3) tpp-tomtat: bản tóm tắt và (4) tpp-chuong28: chương 28 của Hiệp định đối tác xuyên Thái Bình Dương được cung cấp bởi Thư viện Pháp luật (thuvienphapluat.vn). Chi tiết dữ liệu được cung cấp ở Bảng 2.1.

Bảng 2.1. Thông tin về dữ liệu phục vụ đánh giá

Dữ liệu đánh giá tst2013

56 1000-cau

tpp-tomtat tpp-chuong28

2.2.1.1. Đánh giá theo phương pháp khách quan

Xử lý dữ liệu: dữ liệu đánh giá được tách câu, kiểm tra để đảm bảo các câu đều được dịch theo từng cặp câu, thực hiện các bước tiền xử lý cần thiết như loại bỏ một số ký tự đặc biệt, chuyển về bảng mã Unicode tiêu chuẩn trước khi tiến hành đánh giá.

Nhận kết quả dịch: các câu tiếng Anh của từng tập dữ liệu được dịch sang tiếng Việt thông qua các hàm API của hệ thống Google và Microsoft, sử dụng công cụ do nghiên cứu sinh xây dựng và tương tự, các câu tiếng Việt sẽ được dịch sang tiếng Anh.

Hình 2.3. Chương trình hỗ trợ trích xuất kết quả dịch từ các hệ thống

Đánh giá: để đánh giá kết quả dịch, nghiên cứu sử dụng các chỉ số BLEU, NIST là các chỉ số thông dụng phản ánh sự tương đồng giữa bản dịch của máy tính và bản dịch tham khảo từ bộ dữ liệu song ngữ. Các chỉ số này thường được sử dụng trong các nghiên cứu liên quan đến đánh giá chất lượng dịch máy như đã trình bày ở Chương 1. Ngồi ra chỉ số WER cũng được quan sát để xem xét tỷ lệ các từ lỗi so với bản dịch tham khảo. NCS sử dụng hệ thống Asiya [46] để do các chỉ số nêu trên

giữa bản dịch và bản tham chiếu lần lượt cho bản dịch từ tiếng Việt sang tiếng Anh và tiếng Anh sang tiếng Việt. Kết quả thu được ở Bảng 2.2.

Bảng 2.2. Đánh giá kết quả dịch từ tiếng Anh sang tiếng Việt

Dữ liệu đánh giá tst2013

1000-cau tpp-tomtat tpp-chuong28

Bảng 2.3. Đánh giá kết quả dịch từ tiếng Việt sang tiếng Anh

Dữ liệu đánh giá tst2013

1000-cau tpp-tomtat tpp-chuong28

Qua các số liệu này, có thể thấy chất lượng các bản dịch tương đối tốt so với các hệ thống đã được xây dựng trong những nghiên cứu trước đây, tuy nhiên còn rất thấp so với các đánh giá chất lượng dịch các cặp câu thông dụng như tiếng Anh – tiếng Pháp hoặc một số ngôn ngữ khác. Hệ thống dịch của Google đều mang lại điểm số tốt hơn hệ thống dịch của Microsoft trong tất cả các tập dữ liệu. Chất lượng dịch từ tiếng Anh sang tiếng Việt tốt hơn dịch từ tiếng Việt sang tiếng Anh ở cả hai hệ thống. Bên cạnh đó, xem xét cụ thể các bản dịch, có thể thấy:

- Chiều dài trung bình của bản dịch gần tương đồng với bản tham khảo (tỷ lệ chiều dài trung bình của bản dịch so với chiều dài trung bình của bản tham chiếu ở kết quả của Google là 0,99 và của Microsoft là 1,04), có thể thấy được các hệ thống

này dịch được khá đầy đủ các từ có trong câu nguồn. Tuy nhiên hệ thống dịch của Microsoft chưa nhận ra được một số từ và vẫn giữ nguyên tiếng Anh (hoặc tiếng Việt), chứng tỏ kho ngữ liệu sử dụng để dịch vẫn chưa đầy đủ.

- Ở các câu hội thoại ngắn, các chỉ số BLEU nhận được khá thấp. Nguyên nhân là do sự nhập nhằng trong ngữ nghĩa tiếng Việt và ở các hội thoại ngắn thì có nhiều cách dùng các từ hoàn toàn khác nhau để thể hiện cùng một nội dung, chẳng hạn đối với các đại từ nhân xưng nên bản dịch khó trùng khớp với câu tham khảo, mặc dù trong một số trường hợp hệ thống cho kết quả dịch chính xác. Ví dụ: bản tham khảo là “Bạn khỏe không?”, trong khi bản dịch là “Anh khỏe không?” hoặc “Anh thế nào?”

đã làm cho chỉ số đo được không phản ánh đúng kết quả. Nghiên cứu đã sử dụng các chỉ số BLEU có làm mịn (như BLEU-1) [47] nhưng kết quả khơng cải thiện. Bên cạnh đó, trong các câu hội thoại ngắn thường sử dụng một số cụm từ nghĩa bóng, thành ngữ, trong khi kết quả dịch thường theo nghĩa đen nên không đúng.

- Đối với các câu trong lĩnh vực văn bản hành chính, mặc dù các câu có chiều dài lớn nhưng chất lượng nhận được khá tốt khi đánh giá. Lý do là các câu trong lĩnh vực văn bản hành chính thường có văn phạm và ngữ pháp đơn giản, rõ ràng, không nhập nhằng về mặt ngữ nghĩa. Tuy nhiên xem xét thực tế kết quả dịch, nhiều thuật ngữ chuyên ngành bị dịch sai. Như vậy trong bản dịch có nhiều từ (thơng dụng) được dịch đúng, nhưng những từ quan trọng (chuyên ngành) lại dịch sai, làm cho bản dịch trở nên khó hiểu.

Như vậy, các chỉ số BLEU, NIST, WER đã phản ánh độ tương đồng của bản dịch do các hệ thống dịch máy cung cấp khi so sánh với một bản dịch tham khảo, tuy nhiên trong nhiều trường hợp các chỉ số này vẫn chưa cung cấp được thực trạng về chất lượng của các bản dịch.

2.2.1.2. Đánh giá theo phương pháp chủ quan

Để nghiên cứu chi tiết hơn về chất lượng của các hệ thống dịch hiện nay, NCS thực hiện quá trình đánh giá kết quả nhờ sự hỗ trợ của con người. Bài kiểm tra này là một bảng hỏi tương tự như các bài đánh giá chủ quan được đề xuất tại [19]. Trong phương pháp đánh giá chủ quan với sự trợ giúp của con người thường sử dụng 2 thang đo là mức độ đầy đủ thông tin (adequacy) và mức độ trôi chảy của bản dịch (fluency).

Các thang đo này được được đánh giá ở 5 cấp độ từ thấp đến cao. Mức độ đầy đủ thể hiện bản dịch có mang lại đầy đủ các thơng tin có trong câu nguồn khơng, gồm: (5) Có tất cả thơng tin, (4) Có hầu như đầy đủ thơng tin, (3) Có nhiều thơng tin, (2) Có một ít thơng tin, (1) Hồn tồn khơng. Mức độ trơi chảy thể hiện bản dịch có tự nhiên và trơi chảy như ngơn ngữ đích khơng, gồm: (5) Hồn tồn trơi chảy, (4) Khá trôi chảy, (3) Không được tự nhiên, (2) Không trôi chảy, (1) Không thể hiểu được.

Để đơn giản và với mục đích minh họa thêm cho các số liệu ở trên, luận án chỉ tiến hành đánh giá đối với các cặp câu song ngữ tiếng Anh - tiếng Việt của bộ dữ liệu “câu hội thoại thông dụng”. Bài đánh giá sử dụng các bản dịch từ tiếng Anh sang tiếng Việt của hai hệ thống dịch nói trên. Người tham gia chỉ được cung cấp câu tiếng Việt đã được dịch và phải trả lời câu hỏi “(1) Bạn có hiểu ý câu này nói gì khơng?”, bỏ qua mọi quy tắc về ngữ pháp, sự trôi chảy, và người tham gia phải cố gắng để hiểu được, giống như đang giao tiếp với một người mới học tiếng Việt. Sau đó, nếu trả lời là “Hiểu” thì người tham gia sẽ được xem câu tham chiếu (câu tiếng Việt đã dịch đúng) và trả lời câu hỏi “(2) Bạn có hiểu đúng ý khơng?”. Cuối cùng, người tham gia sẽ trả lời thêm một câu hỏi khác là “(3) Người Việt có nói như vậy khơng?” với mục đích kiểm tra xem các bản dịch có được trơi chảy, tự nhiên và có thể dùng được trong thực tế khơng. Hệ thống câu hỏi như vậy giúp cho người tham gia thực hiện đơn giản, nhưng chính xác, không gặp rắc rối khi cho điểm ở nhiều mức khác nhau, đồng thời kết quả nhận được rõ ràng, dễ hình dùng khi đề cập đến mức độ hồn thiện của bản dịch để áp dụng vào thực tế. Kết quả thể hiện ở Bảng 2.4.

Đánh giá kết quả dịch tiếng Anh sang tiếng Việt bằng phương pháp chủ quan do con người thực hiện

Bảng 2.4. Kết quả đánh giá bằng phương pháp chủ quan

Google Microsoft

Hình 2.4. Biểu đồ so sánh kết quả đánh giá bằng phương pháp chủ quan

Như vậy, để dùng được trong giao tiếp thơng thường, chỉ có 516 câu (đối với Google) và 308 câu (đối với Microsoft), chiếm tỷ lệ là 52% và 30%. Một số câu còn làm cho người đọc hiểu sai ý nghĩa như ở Bảng 1.9.

Nhận xét, đánh giá

Qua các đánh giá ở trên, có thể thấy rằng mặc dù các hệ thống dịch tự động hiện nay đã được ứng dụng rất rộng rãi, nhưng để sử dụng được kết quả dịch cần phải tiếp tục có nhiều cải tiến, đặc biệt đối với dịch tiếng Việt. Chất lượng các hệ thống dịch tiếng Việt chưa tốt bởi một số nguyên nhân:

- Phương pháp dịch chưa phù hợp: các mơ hình dịch thống kê hoặc dịch dựa trên mạng nơ ron có nhiều ưu điểm, nhưng muốn áp dụng hiệu quả đối với dịch tiếng Việt cần có thêm các đánh giá và nghiên cứu bổ sung. Tiếng Việt khác với một số ngôn ngữ khác, mỗi từ bao gồm nhiều âm tiết, trong khi các hệ thống đều làm việc trên đơn vị từ đơn lẻ, vì vậy sẽ làm giảm hiệu quả của các mơ hình dịch này. Các cơng cụ xử lý dành cho tiếng Việt đã được nghiên cứu và áp dụng như công cụ tách từ vnTokenizer, Đơng Du, cơng cụ phân tích cú pháp, cơng cụ gán nhãn từ loại VietTagger, tuy nhiên vẫn còn một số hạn chế. Các hệ thống dịch hiện nay đang xem xét câu nguồn để tái tạo câu đích mà chưa đặt văn bản dịch vào ngữ cảnh nên nhiều câu dịch không phù hợp khi áp dụng vào thực tế. Bên cạnh đó, sự nhập nhằng về ngữ nghĩa trong tiếng Việt là một vấn đề cần nghiên cứu và có giải pháp xử lý để có được

ý nghĩa rõ ràng ở các văn bản tiếng Việt trước khi được hệ thống dịch.

- Kho ngữ liệu chưa đầy đủ: các kho ngữ liệu sử dụng để huấn luyện cho các hệ thống dịch tự động chưa đầy đủ, vì vậy một số từ các hệ thống chưa nhận diện được. Đặc biệt trong các lĩnh vực chuyên ngành hẹp, như lĩnh vực y tế, kỹ thuật, văn

bản hành chính… các khái niệm quan trọng nhưng các hệ thống vẫn chưa dịch đúng làm cho bản dịch trở nên khó hiểu.

Đề xuất giải pháp đánh giá chất lượng dựa trên q trình hiệu đính bản dịch

2.2.3.1. Một số tồn tại đối với các phương pháp đánh giá chất lượng bản dịch

Đánh giá chất lượng các hệ thống dịch tự động bằng các phương pháp và số đo nêu trên đã được nghiên cứu và áp dụng rộng rãi. Tuy nhiên trong một số trường hợp vẫn cịn có những hạn chế khi tổ chức đánh giá.

- Trong cả phương pháp đánh giá chủ quan và khách quan, cần phải có kho ngữ liệu song ngữ mới có thể tổ chức đánh giá. Việc thu thập kho ngữ liệu trong các chủ đề thơng dụng có thể thực hiện được, tuy nhiên đối với các lĩnh vực chuyên ngành hẹp, các dữ liệu song ngữ khó có thể thu thập được đầy đủ và tổng quan. Chẳng hạn trong lĩnh vực y học, các thông tin liên quan đến một số loại cây thuốc nam thường chỉ được viết dưới dạng tiếng Việt, hầu như khơng có tài liệu bằng tiếng Anh. Vì vậy, sử dụng các phương pháp so khớp không thể đánh giá đầy đủ chất lượng hệ thống dịch, vì kho ngữ liệu dùng để đánh giá khơng bao quát.

- Kết quả đánh giá khơng khách quan vì chỉ so sánh bản dịch của máy tính với tập dữ liệu giả định là những câu dịch tham chiếu có sẵn trong kho ngữ liệu. Trong thực tế, một câu ở ngơn ngữ này có thể có nhiều cách dịch khác nhau ở ngôn ngữ

khác tùy theo ngữ cảnh. Ví dụ lấy một cặp câu từ kho ngữ liệu song ngữ tiếng Anh – tiếng Việt đã được thu thập ở trên để đưa vào kho ngữ liệu đánh giá dịch:

Câu nguồn:

I've visited a few times before; it's a beautiful city.

Câu tham chiếu (bản dịch):

Tơi đã đến thăm vài lần trước đây; đó là một thành phố xinh đẹp.

Hệ thống Google Translate sẽ dịch câu nguồn thành:

Đây là một kết quả dịch chính xác, kể cả nội dung và sự trôi chảy. Tuy nhiên khi đánh giá kết quả dịch bằng các chỉ số trên thì chất lượng khá thấp: BLEU = 70, TER = 0.1, NIST = 3.8

- Đối với đánh giá chủ quan do con người trực tiếp thực hiện: tốn chi phí về

thời gian và nhân lực để thực hiện quá trình đánh giá. Việc đánh giá bằng các tiêu chí ước lượng nên kết quả khơng cụ thể. Ngồi ra không tận dụng được kết quả phục vụ cho nâng cao chất lượng của hệ thống dịch.

- Nhiều hệ thống cho phép người dùng tham gia chỉnh sửa kết quả dịch để cải thiện chất lượng hệ thống dịch như hệ thống Google Translate, quá trình chỉnh sửa của con người chưa được đo lường cụ thể để đánh giá chi phí về thời gian và sức lao động của con người sử dụng khi hoàn thiện bản dịch.

2.2.3.2. Đề xuất chỉ số đánh giá chất lượng

Hiện nay các hệ thống dịch tự động chưa thể cho các kết quả dịch hồn tồn chính xác để có thể sử dụng ngay, mà cần có q trình can thiệp của con người thơng qua q trình hiệu đính để hồn thiện bản dịch, bao gồm việc kiểm tra từ ngữ, ngữ pháp, chính tả, tên riêng, thuật ngữ chuyên ngành… mà hệ thống dịch chưa xử lý chính xác. Vì vậy việc đo chi phí về thời gian, cơng sức lao động của con người để hoàn thiện bản dịch là điều cần thiết và thể hiện được chất lượng và hiệu quả của hệ thống dịch. Một hệ thống dịch tự động tốt thì con người bỏ ra ít thời gian và công sức để chỉnh sửa hơn. Tuy nhiên các phương pháp đánh giá nêu trên mới chỉ so sánh mức độ tương đương giữa bản dịch máy và bản dịch tham chiếu chứ chưa đo được chi phí thời gian và sức lao động. Bên cạnh đó, q trình hiệu đính cũng giúp xây dựng kho ngữ liệu phục vụ đánh giá và nâng cao chất lượng hệ thống dịch.

Từ các phân tích trên, luận án đề xuất sử dụng thêm một số chỉ số để đo chi phí của con người khi tham gia chỉnh sửa từ bản dịch của máy tính sang bản dịch

Đánh giá chất lượng các hệ thống dịch tự động tiếng Việt

Xây dựng kho ngữ liệu