Nghiên cứu giải pháp đánh giá chất lượng dịch tự động tiếng việt

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG  BÁO CÁO TÓM TẮT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP BỘ NGHIÊN CỨU GIẢI PHÁP ĐÁNH GIÁ CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT Mã số: B2016-DNA-48-TT Chủ nhiệm đề tài: ThS Nguyễn Văn Bình ĐÀ NẴNG - 2019 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG  BÁO CÁO TÓM TẮT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP BỘ Mã số: B2016-DNA-48-TT ĐỀ TÀI NGHIÊN CỨU GIẢI PHÁP ĐÁNH GIÁ CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT Chủ nhiệm đề tài: ThS Nguyễn Văn Bình Cán tham gia : PGS.TS Huỳnh Cơng Pháp KS Võ Văn Nam Xác nhận quan chủ trì đề tài Chủ nhiệm đề tài Nguyễn Văn Bình ĐÀ NẴNG - 2019 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG DANH SÁCH THÀNH VIÊN THAM GIA - Tên đề tài: NGHIÊN CỨU GIẢI PHÁP ĐÁNH GIÁ CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT - Mã số STT : B2016-DNA-48-TT Họ tên Trách nhiệm ThS Nguyễn Văn Bình Chủ nhiệm đề tài PGS.TS Huỳnh Công Pháp Thành viên KS Võ Văn Nam Thành viên MỤC LỤC MỞ ĐẦU Chương NGHIÊN CỨU TỔNG QUAN 1.1 Tổng quan hệ thống dịch tự động 1.2 Các phương pháp đánh giá chất lượng hệ thống dịch 1.2.1 Phương pháp đánh giá chủ quan 1.2.2 Phương pháp đánh giá khách quan (đánh giá tự động) 1.3 Các nghiên cứu liên quan đến đánh giá chất lượng dịch tự động tiếng Việt Chương TỔ CHỨC ĐÁNH GIÁ CHẤT LƯỢNG CÁC HỆ THỐNG DỊCH TỰ ĐỘNG TIẾNG VIỆT 2.1 Các hệ thống dịch 2.2 Tổ chức đánh giá 2.3 Nhận xét, đánh giá 10 Chương 11 ĐỀ XUẤT GIẢI PHÁP ĐÁNH GIÁ CHẤT LƯỢNG 11 3.1 Một số tồn 11 3.2 Đề xuất giải pháp đánh giá kết hợp q trình hiệu đính dịch 11 3.2.1 Vấn đề xây dựng kho ngữ liệu phục vụ đánh giá 11 3.2.2 Giải pháp đánh giá chất lượng dịch 11 3.2.3 Giải pháp kết hợp hiệu đính dịch máy đánh giá chất lượng 13 3.2.4 Thực nghiệm 13 Kết luận 16 DANH MỤC BẢNG BIỂU Bảng 1.1 Bảng thang đo tương ứng với mức độ đầy đủ trôi chảy Bảng 2.1 Thông tin liệu phục vụ đánh giá Bảng 2.2 Đánh giá kết dịch từ tiếng Anh sang tiếng Việt Bảng 2.3 Đánh giá kết dịch từ tiếng Việt sang tiếng Anh Bảng 2.4 Kết đánh giá phương pháp chủ quan 10 Bảng 3.1 Trung bình số liệu 14 Bảng 3.2 Kết sau hiệu chỉnh dịch .14 DANH MỤC HÌNH Hình 1.1 Cấu trúc mơ hình dịch tự động Hình 2.2 Chương trình hỗ trợ trích xuất kết dịch từ hệ thống Hình 3.1 Chương trình tính số Tpe Ope thơng qua q trình hiệu đính 13 Hình 3.2 Sơ đồ quy trình kết hợp hậu xử lý với đánh giá chất lượng hệ thống dịch 13 Hình 3.3 Sự tương đồng Tpe, Ope ED, WER 15 Hình 3.4 Chỉ số BLEU, NIST trước sau hiệu chỉnh .15 DANH MỤC CÁC TỪ VIẾT TẮT Thuật ngữ Tiếng Anh ALPAC Automatic Language Processing Advisory Committee Ủy ban cố vấn xử lý ngôn ngữ tự động BLEU BiLingual Evaluation Understudy Chỉ số đánh giá chất lượng dịch BLEU HTER Human Translation Error Rate Chỉ số lỗi dịch người NIST National Institute of Standards and Technology Chỉ số đánh giá chất lượng dịch NIST TER Translation Edit Rate Chỉ số đo lỗi dịch WER Word Error Rate Chỉ số tỉ lệ lỗi theo từ Workshop on Statistical Hội thảo dịch máy thống Machine Translation kê WMT Tiếng Việt BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG THÔNG TIN KẾT QUẢ NGHIÊN CỨU Thông tin chung: - Tên đề tài: NGHIÊN CỨU GIẢI PHÁP ĐÁNH GIÁ CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT - Mã số : B2016-DNA-48-TT - Chủ nhiệm: ThS Nguyễn Văn Bình - Thành viên tham gia: PGS.TS Huỳnh Công Pháp, KS Võ Văn Nam - Cơ quan chủ trì: Đại học Đà Nẵng - Thời gian thực hiện: 24 tháng Mục tiêu: Mục tiêu đề tài nhằm tổ chức đánh giá chất lượng hệ thống dịch tự động sử dụng phổ biến Mục tiêu cụ thể:  Xây dựng công cụ hỗ trợ đánh giá chất lượng dịch tự động tiếng Việt để giúp trình đánh giá nhanh chóng khách quan  Tổ chức đánh giá phân tích kết nhằm nêu lên hạn chế hệ thống dịch hoạt động Tính sáng tạo: Đề tài có số đóng góp đáng kể lĩnh vực nghiên cứu xử lý ngôn ngữ tự nhiên dịch máy, có số tính sáng tạo, cụ thể:  Đánh giá tổng quan chất lượng hệ thống dịch tự động đưa số đề xuất chung nhằm cải tiến chất lượng hệ thống dịch  Đề xuất số số để đánh giá chất lượng hệ thống dịch sở thừa kế q trình hiệu đính dịch, đồng thời tạo kho ngữ liệu phục vụ cho hệ thống dịch  Xây dựng công cụ hỗ trợ đánh giá chất lượng dịch tự động tiếng Việt để giúp q trình đánh giá nhanh chóng khách quan Tóm tắt kết nghiên cứu: Kết đạt đạt đăng ký so với nội dung thuyết minh, cụ thể khuôn khổ đề tài có tổng cộng 01 báo khoa học cơng bố; hỗ trợ thực đề tài 01 nghiên cứu sinh 01 học viên cao học bảo vệ thành công; xây dựng công cụ hỗ trợ đánh trích rút liệu hệ thống dịch hỗ trợ đánh giá chất lượng; đề xuất quy trình đánh giá chất lượng hệ thống dịch tự động; đề xuất số đánh giá chất lượng hệ thống dịch kết hợp q trình hiệu đính dịch máy Tên sản phẩm:  Sản phẩm khoa học: Bài báo: “Cải tiến chất lượng dịch máy kết hợp giải pháp xây dựng kho ngữ liệu phục vụ đánh giá chất lượng hệ thống dịch tự động tiếng Việt” Tác giả: Huỳnh Cơng Pháp; Nguyễn Văn Bình Tạp chí: Khoa học Cơng nghệ Đại học Đà Nẵng, ISSN: 18591531, số 05(114)/2017, trang 46-51 Quy trình đánh giá chất lượng dịch tự động tiếng Việt sang ngơn ngữ khác (Phụ lục đính kèm)  Sản phẩm đào tạo: - Hỗ trợ thực 01 đề tài nghiên cứu sinh (Nguyễn Văn Bình) - Hướng dẫn thành cơng 01 Thạc sỹ (Nguyễn Đình Quang Minh, Khóa K34 Khoa học máy tính Trường Đại học Bách khoa ĐHĐN)  Sản phẩm ứng dụng: - Công cụ phần mềm hỗ trợ đánh giá chất lượng dịch tự động tiếng Việt sang ngôn ngữ khác  Sản phẩm khác: - Báo cáo tổng kết Hiệu quả, phương thức chuyển giao kết nghiên cứu khả áp dụng: Đề tài có ý nghĩa khoa học có tính ứng dụng cao lĩnh vực dịch tự động tiếng Việt Kết đề tài ứng dụng thực tiễn lĩnh vực nghiên cứu dịch tự động Ngày 20 tháng 03 năm 2019 Chủ nhiệm đề tài Cơ quan Chủ trì Nguyễn Văn Bình - Làm để đánh giá hệ thống dịch đưa giải pháp nhằm nâng cao chất lượng hệ thống dịch Hiện nay, có nhiều phương pháp độ đo khác để đánh giá chất lượng dịch tự động, nhóm thành hai loại đánh giá chủ quan (subjective evaluation) đánh giá khách quan (objective evaluation) Đánh giá chủ quan người trực tiếp thực hiện, dựa việc đánh giá thang điểm cho tiêu chí xây dựng sẵn: đánh giá tính xác, đầy đủ thông tin đánh giá trôi chảy câu dịch Cách đánh giá chủ quan cho kết tin cậy tốn nhiều thời gian chi phí, có phụ thuộc vào khả người đánh giá Đánh giá khách quan sử dụng chương trình thay cho người để đánh giá Các chương trình so khớp đo tỉ lệ lỗi kết từ hệ thống dịch với câu dịch tham khảo có sẵn, sử dụng thang đo BLEU, NIST, WER, TER… Nội dung nghiên cứu đề tài tập trung ba phần chính: - Nghiên cứu phương pháp đánh giá chất lượng hệ thống dịch tự động phổ biến - Xây dựng chiến dịch đánh giá chất lượng số hệ thống dịch Anh – Việt phổ biến thực đánh giá, phân tích kết - Đề xuất giải pháp kết hợp đánh giá chất lượng hệ thống dịch tự động với trình cải tiến chất lượng dịch máy xây dựng kho ngữ liệu phục vụ đánh giá chất lượng hệ thống dịch tự động tiếng Anh – tiếng Việt CHƯƠNG NGHIÊN CỨU TỔNG QUAN 1.1 Tổng quan hệ thống dịch tự động Một hệ dịch tự động (hay gọi dịch máy) hệ thống sử dụng máy tính để chuyển đổi văn viết ngôn ngữ tự nhiên thành dịch tương đương ngôn ngữ khác Hình 1.1 Cấu trúc mơ hình dịch tự động Hiện có nhiều phương pháp dịch nghiên cứu ứng dụng hệ thống dịch để dịch hàng trăm ngôn ngữ khác Những mơ hình dịch mang lại hiệu cao kể đến phương pháp dịch dựa ví dụ, phương pháp dịch dựa luật, phương pháp dịch thống kê phương pháp dịch sử dụng mạng rơ ron 1.2 Các phương pháp đánh giá chất lượng hệ thống dịch 1.2.1 Phương pháp đánh giá chủ quan a Đánh giá tính trơi chảy tính đầy đủ sử dụng thang điểm Hai số thông số đánh giá thông dụng phương pháp chủ quan người thực tính trơi chảy (fluency) tính đầy đủ (adequacy) Đánh giá tính trơi chảy u cầu người đánh giá phải người nói thơng thạo ngơn ngữ cần đánh giá, thực việc đánh giá xem kết dịch có trơi chảy hay khơng, kết có xác với câu nguồn không Kịch đơn giản để thực đánh giá chất lượng dịch máy sau: Dữ liệu đầu vào: - Bản dịch máy tính tạo - Văn ngơn ngữ nguồn (source language) - Bản dịch xác dùng để tham khảo (reference translation) Nhiệm vụ: - Đánh giá chất lượng dịch máy tính tạo Để cụ thể hóa việc đánh giá chất lượng theo phương pháp chủ quan, thông thường người ta sử dụng thang đo tính đầy đủ tính trơi chảy Bảng 1.1 Bảng thang đo tương ứng với mức độ đầy đủ trơi chảy Adequacy (Tính đầy đủ thơng tin) Fluency (Tính trơi chảy) all meaning flawless English most meaning good English much meaning little meaning non-native English disfluent English none incomprehensible b Đánh giá hình thức xếp hạng Phương pháp đánh giá hình thức xếp hạng giới thiệu WMT 2007 nhằm khắc phục số hạn chế đánh giá số tính đầy đủ tính trơi chảy Phương pháp thay thang điểm đánh giá tương quan dịch thông qua việc xếp hạng Đối với phương pháp này, người đánh giá nhận dịch tham chiếu xác (reference translation) dịch máy cần đánh giá Người đánh giá thực việc xếp hạng dịch từ tốt đến tệ c Đánh giá thông qua hiệu đính dịch Hiệu đính dịch trình chỉnh sửa dịch máy thành dịch xác Thay trực tiếp đánh giá số chất lượng cách tương đối hay tuyệt đối, phương pháp đánh giá thơng qua hiệu đính dịch thực đo đạc số lượng tối thiểu công việc cần thiết để chỉnh sửa dịch máy thành dịch xác Một số thông dụng áp dụng phương pháp HTER (human-targeted translation edit rate), phương pháp đánh giá bán tự động vừa dựa sử chỉnh sửa chủ quan người, vừa sử dụng cơng thức để tính tốn tự động Phương pháp đánh giá chủ quan có nhược điểm sau: - Chi phí cao - Khơng thể tái sử dụng - Tốc độ chậm - Kết mang tính chủ quan 1.2.2 Phương pháp đánh giá khách quan (đánh giá tự động) Các số đánh giá tự động BLEU, NIST, METEOR, WER, PER, GTM, TER, CDER… nghiên cứu phát triển để cải thiện nhược điểm phương pháp đánh giá chủ quan chi phí cao, khơng thể tái sử dụng, kết mang tính chủ quan, tốc độ thực chậm…, đồng thời hướng đến trình tự động điều chỉnh tham số đánh giá phù hợp Những số đề xuất dựa trình tự động so sánh kết dịch với dịch tham chiếu chuyên gia thực hiện, thông thường cách xem xét trùng khớp thông qua n-gram a Chỉ số WER (Word Error Rate) b Chỉ số MWER (Multi-Reference WER) c Chỉ số PER (Position-independent Error Rate) d Chỉ số TER (Translation Error Rate) e Chỉ số BLEU BLEU phương pháp dùng để đánh giá chất lượng dịch đề xuất bới IBM hội nghị ACL Philadelphie vào tháng 7-2001 Ý tưởng phương pháp so sánh kết dịch tự động máy với dịch chuẩn dùng làm đối chiếu Việc so sánh thực thông qua việc thống kê trùng khớp từ hai dịch có tính đến thứ tự chúng câu (phương pháp n-grams theo từ) [11] Công thức để tính điểm BLEU sau [22]: Trong đó, pn điểm số “Precision” phản ánh tỷ lệ trùng khớp n-gram dịch so với tham chiếu wn trọng số tương ứng với chiều dài n-gram BP (brevity penalty) trọng số xác định chiều dài dịch chiều dài tham chiếu f Chỉ số NIST Phương pháp NIST [29] phát triển phương pháp BLEU có khác biệt quan điểm đánh giá việc chọn lựa n-grams thông tin n-gram sử dụng để phục vụ việc đánh giá Cơng thức để tính điểm NIST sau [12]:   inf( w1 wn )    L    w1 wn  score    exp log min  tra ,1    Lref   log( pi )  i 1       w1 wn  Dtra   N Những trọng số thông tin sử dụng để tính tốn ngrams tập tất các dịch tham khảo theo phương trình sau: N  inf( w1 w n )  log    N2  N1 = số lượng tương ứng từ w1…wn-1 N2 = số lượng tương ứng từ w1…wn  hệ số chọn 0.5 số lượng từ dịch máy nhỏ 2/3 số lượng từ dịch tham khảo, ngược lại =1 N=5 Ltra: số lượng từ dịch máy, Lref: số lượng từ dịch tham khảo 1.3 Các nghiên cứu liên quan đến đánh giá chất lượng dịch tự động tiếng Việt Đã có nhiều nghiên cứu tác giả nước lĩnh vực dịch tự động liên quan đến tiếng Việt nhằm đánh giá chất lượng hệ thống mơ hình dịch nay, đồng thời đề xuất xây dựng số hệ thống dịch sử dụng phương pháp dịch khác CHƯƠNG TỔ CHỨC ĐÁNH GIÁ CHẤT LƯỢNG CÁC HỆ THỐNG DỊCH TỰ ĐỘNG TIẾNG VIỆT Hiện nay, tiếng Việt hỗ trợ hệ thống dịch Google, Microsoft, Lạc Việt số hệ thống khác 2.1 Các hệ thống dịch - EVTran: nghiên cứu phát triển từ năm 1989 - Cồ Việt: Công ty Cổ phần Tin học Lạc Việt - Google Translation: công cụ dịch thuật trực tuyến Google cung cấp - Bing Translator: Dịch vụ dịch tự động Microsoft hỗ trợ dịch 60 ngôn ngữ khác 2.2 Tổ chức đánh giá Chuẩn bị liệu: tác giả sử dụng liệu song ngữ Anh – Việt phục vụ cho việc đánh giá Các liệu cung cấp sẵn thu thập từ trang web, bao gồm: (1) tst2013 – liệu song ngữ phục vụ cho tác vụ kiểm thử IWSLT’15; (2) 1000-cau – tuyển tập 1.000 câu giao tiếp tiếng Anh thông dụng cung cấp website dạy tiếng Anh Đối với lĩnh vực chuyên ngành, tác giả sử dụng: (3) tpp-tomtat – tóm tắt (4) tpp-chuong28 – chương 28 Hiệp định đối tác xuyên Thái Bình Dương Chi tiết liệu cung cấp Bảng 2.1 Bảng 2.1 Thông tin liệu phục vụ đánh giá Dữ liệu đánh Số lượng Chiều dài trung Chiều dài trung giá câu bình(tiếng Anh) bình (t Việt) tst2013 1.268 18.5 24.1 1000-cau 984 5.7 4.9 tpp-tomtat 265 33.4 41.4 tpp-chuong28 210 82.9 130.1 Xử lý liệu: liệu đánh giá tác giả kiểm tra để đảm bảo câu dịch theo cặp câu, loại bỏ số ký tự đặc biệt, chuyển bảng mã Unicode tiêu chuẩn trước tiến hành đánh giá Nhận kết dịch: câu tiếng Anh tập liệu dịch sang tiếng Việt thông qua hàm API hệ thống Google Microsoft, sử dụng cơng cụ nhóm tác giả xây dựng Hình 2.2 Chương trình hỗ trợ trích xuất kết dịch từ hệ thống Bảng 2.2 Đánh giá kết dịch từ tiếng Anh sang tiếng Việt Google Microsoft Dữ liệu đánh giá Loại BLEU NIST WER BLEU NIST WER tst2013 en-vi 0.32 7.54 0.51 0.27 6.82 0.58 1000-cau en-vi 0.06 2.88 0.75 0.04 2.53 0.82 tpp-tomtat en-vi 0.42 8.29 0.46 0.40 7.90 0.51 tpp-chuong28 en-vi 0.44 7.29 0.47 0.33 6.11 0.58 Bảng 2.3 Đánh giá kết dịch từ tiếng Việt sang tiếng Anh Google Microsoft Dữ liệu đánh giá Loại BLEU NIST WER BLEU NIST WER tst2013 vi-en 0.32 7.61 0.47 0.26 6.54 0.56 1000-cau vi-en 0.29 5.59 0.49 0.21 4.55 0.59 tpp-tomtat vi-en 0.30 6.73 0.55 0.23 5.67 0.66 tpp-chuong28 vi-en 0.39 6.84 0.48 0.29 5.56 0.58 Qua số liệu này, thấy chất lượng dịch tương đối tốt, nhiên thấp so với đánh giá chất lượng dịch cặp câu thông dụng tiếng Anh – tiếng Pháp số ngôn ngữ khác Hệ thống dịch Google mang lại điểm số tốt hệ thống dịch Microsoft tất tập liệu Chất lượng dịch từ tiếng Anh sang tiếng Việt tốt dịch từ tiếng Việt sang tiếng Anh hai hệ thống Đánh giá kết dịch tiếng Anh sang tiếng Việt phương pháp chủ quan người thực thể bảng sau Bảng 2.4 Kết đánh giá phương pháp chủ quan Số lượng (1) Có (2) Hiểu (3) Dùng câu hiểu Google 984 789 687 516 Microsoft 984 517 458 308 Như vậy, để dùng giao tiếp thơng thường, có 516 câu (đối với Google) 308 câu (đối với Microsoft), chiếm tỷ lệ 52% 30% Một số câu làm cho người đọc hiểu sai ý nghĩa Bảng 2.5 2.3 Nhận xét, đánh giá Qua đánh giá trên, thấy hệ thống dịch tự động ứng dụng rộng rãi, để sử dụng kết dịch cần phải tiếp tục có nhiều cải tiến, đặc biệt dịch tiếng Việt Chất lượng hệ thống dịch tiếng Việt chưa tốt số nguyên nhân: - Phương pháp dịch chưa phù hợp: mơ hình dịch thống kê dịch dựa mạng nơ ron có nhiều ưu điểm, muốn áp dụng hiệu dịch tiếng Việt cần có thêm đánh giá nghiên cứu bổ sung - Kho ngữ liệu chưa đầy đủ: kho ngữ liệu sử dụng để huấn luyện cho hệ thống dịch tự động chưa đầy đủ, số từ hệ thống chưa nhận diện Đặc biệt lĩnh vực chuyên ngành hẹp, lĩnh vực y tế, kỹ thuật, văn hành chính… 10 CHƯƠNG ĐỀ XUẤT GIẢI PHÁP ĐÁNH GIÁ CHẤT LƯỢNG 3.1 Một số tồn Đánh giá chất lượng hệ thống dịch tự động phương pháp số đo nêu nghiên cứu áp dụng rộng rãi Tuy nhiên số trường hợp có hạn chế tổ chức đánh giá - Trong phương pháp đánh giá chủ quan khách quan, cần phải có kho ngữ liệu song ngữ tổ chức đánh giá - Kết đánh giá khơng khách quan so sánh dịch máy tính với tập liệu giả định câu dịch tham chiếu có sẵn kho ngữ liệu Trong thực tế, câu ngơn ngữ có nhiều cách dịch khác ngôn ngữ khác tùy theo ngữ cảnh - Đối với đánh giá chủ quan người trực tiếp thực hiện: tốn chi phí thời gian nhân lực để thực trình đánh giá - Nhiều hệ thống cho phép người dùng tham gia chỉnh sửa kết dịch để cải thiện chất lượng hệ thống dịch 3.2 Đề xuất giải pháp đánh giá kết hợp q trình hiệu đính dịch 3.2.1 Vấn đề xây dựng kho ngữ liệu phục vụ đánh giá Để phục vụ cho nghiên cứu lĩnh vực dịch tự động tiếng Việt, thường sử dụng kho ngữ liệu song ngữ, chẳng hạn kho ngữ liệu bao gồm cặp câu tiếng Anh – tiếng Việt Q trình hiệu đính dịch máy tạo văn song ngữ có giá trị, nhiên chưa đề cập nhữ phương pháp để xây dựng kho ngữ liệu song ngữ 3.2.2 Giải pháp đánh giá chất lượng dịch 11 Từ phân tích trên, tác giả đề xuất sử dụng thêm số số để chi phí người tham gia chỉnh sửa từ dịch máy tính sang dịch hồn chỉnh Chỉ số thời gian: đo thời gian cần thiết để người chỉnh sửa kết dịch từ hệ thống dịch tự động thành dịch Tpe = T/N T: Thời gian sửa dịch tính từ người dùng chọn chức “Sửa dịch” người dùng xác nhận “Gửi kết quả” N: Số lượng ký tự dịch xác sau người dùng chỉnh sửa xong, khơng tính đến ký tự trống (khoảng trắng, tab, ký tự xuống dòng) dấu câu Chỉ số thao tác: đo số lượng ký tự cần thay đổi để sửa kết dịch thành dịch Ope = (D + I) / N Trong đó: (D + I) số lượng ký tự mà người dùng thay đổi, bao gồm thao tác xóa, thêm, sửa để hiệu chỉnh dịch D: số lượng ký tự bị người dùng xóa I: số lượng ký tự người dùng thêm Mỗi thao tác ghi đè tính thao tác xóa thao tác thêm N: Số lượng ký tự dịch xác sau người dùng chỉnh sửa xong, khơng tính đến ký tự trống (khoảng trắng, tab, ký tự xuống dòng) dấu câu 12 Hình 3.1 Chương trình tính số Tpe Ope thơng qua q trình hiệu đính 3.2.3 Giải pháp kết hợp hiệu đính dịch máy đánh giá chất lượng Hình 3.2 Sơ đồ quy trình kết hợp hậu xử lý với đánh giá chất lượng hệ thống dịch 3.2.4 Thực nghiệm 13 Để triển khai thực nghiệm q trình hiệu đính dịch máy kết hợp đánh giá chất lượng dịch xây dựng kho ngữ liệu, nhóm tác giả xây dựng ngữ cảnh sau: Lấy 500 câu song ngữ tiếng Anh – tiếng Việt từ đoạn hội thoại dịch tài liệu học tiếng Anh chủ đề thông dụng “Cuộc sống hàng ngày” Dữ liệu chia thành để thực nghiệm - Xây dựng chương trình sử dụng dịch vụ cung cấp hệ thống dịch Google, Microsoft để tự động gửi câu nguồn tiếng Anh (E) lấy dịch tiếng Việt (V1) từ hệ thống dịch Dùng dịch kho ngữ liệu (V) để làm câu tham chiếu, đo số đánh giá (D1) theo thuật toán Edit Distance (ED), Word Error Rate (WER), BLEU, NIST để so sánh tương đồng hai câu V V1 Kết thu Bảng 3.1 Bảng 3.1 Trung bình số liệu BLEU NIST ED WER Test 0.242 1.563 6.739 0.886 Test 0.542 2.876 5.684 0.561 Test 0.292 1.972 7.000 0.814 Test 0.273 2.450 9.286 0.757 Test 0.380 2.546 8.067 0.634 - Xây dựng hệ thống cho phép người dùng hiệu chỉnh dịch Quá trình tự động đo thời gian đếm số lượng thao tác mà người dùng thực để hiệu chỉnh Từ tính tốn số Tpe Ope để đánh giá chất lượng dịch Bản dịch hiệu chỉnh (V2) đưa vào kho ngữ liệu để làm câu tham chiếu Test Test Bảng 3.2 Kết sau hiệu chỉnh dịch Tpe Ope BLEU NIST ED 0.649 1.385 0.553 2.304 3.913 0.211 0.717 0.789 3.281 1.632 14 WER 0.403 0.142 Test Test Test Tpe 0.199 0.506 0.550 Ope 0.945 1.250 1.265 BLEU 0.849 0.631 0.677 NIST 3.006 3.170 3.130 ED 1.071 3.500 4.133 WER 0.102 0.301 0.257 Từ kết này, thấy tương đồng số Tpe, Ope với số Edit Distance Word Error Rate thông qua đồ thị Hình 3.3 Hình 3.3 Sự tương đồng Tpe, Ope ED, WER Khi so sánh kết dịch với câu tham chiếu thu từ trình hiệu chỉnh, số BLEU NIST tốt (Hình 7) việc đánh giá khơng phụ thuộc vào dịch có sẵn, thể tính khách quan đánh giá kết hệ thống dịch Hình 3.4 Chỉ số BLEU, NIST trước sau hiệu chỉnh 15 KẾT LUẬN Chất lượng dịch tự động tiếng Việt thấp cần tiếp tục đầu tư nghiên cứu để cải tiến hai vấn đề quan trọng phương pháp dịch kho ngữ liệu Thơng qua q trình đánh giá chất lượng dịch, xác định tính hiệu mơ hình dịch áp dụng tiếng Việt, tìm nguyên nhân để cải tiến chất lượng hệ thống dịch - Phương pháp dịch chưa phù hợp: mơ hình dịch thống kê dịch dựa mạng nơ ron có nhiều ưu điểm, muốn áp dụng hiệu dịch tiếng Việt cần có thêm đánh giá nghiên cứu bổ sung, đồng thời cần đặt văn dịch vào ngữ cảnh kết dịch xác Bên cạnh đó, nhập nhằng ngữ nghĩa tiếng Việt vấn đề cần nghiên cứu có giải pháp xử lý để có ý nghĩa rõ ràng văn tiếng Việt trước hệ thống dịch - Kho ngữ liệu chưa đầy đủ: kho ngữ liệu sử dụng để huấn luyện cho hệ thống dịch tự động chưa đầy đủ, số từ hệ thống chưa nhận diện Đặc biệt lĩnh vực chuyên ngành hẹp, lĩnh vực y tế, kỹ thuật, văn hành chính… khái niệm quan trọng hệ thống chưa dịch làm cho dịch trở nên khó hiểu Chính vậy, để cải tiến chất lượng dịch tự động tiếng Việt, cần có giải pháp toàn diện nhằm tối ưu phương pháp dịch phù hợp với ngôn ngữ, tổng hợp hợp nâng cao chất lượng số lượng kho ngữ liệu 16 ... khách quan (đánh giá tự động) 1.3 Các nghiên cứu liên quan đến đánh giá chất lượng dịch tự động tiếng Việt Chương TỔ CHỨC ĐÁNH GIÁ CHẤT LƯỢNG CÁC HỆ THỐNG DỊCH TỰ ĐỘNG TIẾNG VIỆT ... xuất giải pháp kết hợp đánh giá chất lượng hệ thống dịch tự động với trình cải tiến chất lượng dịch máy xây dựng kho ngữ liệu phục vụ đánh giá chất lượng hệ thống dịch tự động tiếng Anh – tiếng Việt. .. phần chính: - Nghiên cứu phương pháp đánh giá chất lượng hệ thống dịch tự động phổ biến - Xây dựng chiến dịch đánh giá chất lượng số hệ thống dịch Anh – Việt phổ biến thực đánh giá, phân tích

Định dạng
Số trang	29
Dung lượng	4,81 MB