Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
1,1 MB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN VĂN BÌNH NGHIÊN CỨU GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 9480101 TĨM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng - 2021 Cơng trình hoàn thành TRƯỜNG ĐẠI HỌC BÁCH KHOA Người hướng dẫn khoa học: PGS.TS Huỳnh Công Pháp GS Vincent Berment Phản biện 1: ……………………………………………… Phản biện 2: ……………………………………………… Phản biện 3: ……………………………………………… Luận án bảo vệ trước Hội đồng chấm luận án cấp Trường, Trường Đại học Bách khoa Vào hồi … … ngày … tháng … năm 2021 Có thể tìm hiểu luận án tại: - Thư viện quốc gia Việt Nam - Trung tâm Thông tin - Học liệu & Truyền thông, Đại học Đà Nẵng MỞ ĐẦU Đặt vấn đề Nhu cầu trao đổi thông tin quốc gia, văn hóa, người xã hội đại ngày tăng làm cho việc dịch thuật trở nên quan trọng cần thiết Dịch thuật sử dụng người công việc thủ công, chất lượng cao tốc độ chậm, suất thấp giá thành cao mà tái sử dụng Dịch tự động máy tính cho kết dịch tốt mang lại hiệu với chi phí bỏ ít, dịch nhanh với khối lượng tài liệu lớn thuộc lĩnh vực chuyên môn khác Khi hệ dịch máy trở thành công cụ giúp người tiếp cận kho tri thức khổng lồ viết ngôn ngữ khác Khi sử dụng hệ thống dịch tự động, người dùng quan tâm đến chất lượng dịch Tuy nhiên chất lượng dịch tự động cặp ngơn ngữ phổ biến thấp, kể dịch từ tiếng Việt sang tiếng Anh ngôn ngữ khác, nên kết dịch chủ yếu để tham khảo, nắm đại ý văn Trong số trường hợp, dịch làm cho người đọc hiểu sai nội dung phần tồn nội dung văn Các hệ thống dịch tự động sử dụng rộng rãi cần có nhiều cải tiến mang lại kết dịch có chất lượng Chính vậy, cần thiết phải có đánh giá mặt khoa học để có số liệu cụ thể minh chứng cho chất lượng hệ thống dịch tiếng Việt, từ phân tích đề xuất giải pháp nhằm nâng cao chất lượng dịch tự động tiếng Việt Nhằm góp phần giải vấn đề nêu trên, nghiên cứu sinh chọn đề tài “Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt” làm nội dung nghiên cứu luận án Tiến sĩ kỹ thuật Mục tiêu nghiên cứu Mục tiêu chung: đề xuất giải pháp cụ thể nhằm cải tiến chất lượng hệ thống dịch tiếng Việt, cụ thể với cặp ngôn ngữ Việt – Anh Các mục tiêu cụ thể gồm: - Đánh giá thực trạng hệ thống dịch tự động tiếng Việt hoạt động nay; - Đề xuất giải pháp nhằm nâng cao chất lượng hệ thống dịch cặp ngôn ngữ Anh – Việt; - Xây dựng hệ thống dịch tự động Anh – Việt lĩnh vực cụ thể văn quy phạm pháp luật Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu luận án gồm: - Các phương pháp đánh giá chất lượng hệ thống dịch tự động - Kho ngữ liệu phương pháp dịch tự động - Các hệ thống dịch tự động tiếng Việt hoạt động Phạm vi nghiên cứu luận án: - Tập trung nghiên cứu, đánh giá hệ thống dịch tự động phổ biến nay, đề xuất giải pháp cải tiến chất lượng dịch tự động cặp ngôn ngữ tiếng Việt – tiếng Anh - Xây dựng ứng dụng thực nghiệm dịch tự động từ tiếng Anh sang tiếng Việt ngược lại lĩnh vực hẹp lĩnh vực văn quy phạm pháp luật - Triển khai ứng dụng tảng website nhằm thuận tiện truy cập người dùng Phương pháp nghiên cứu - Phương pháp lý thuyết phương pháp thực nghiệm Bố cục luận án Luận án tổ chức thành ba chương mở đầu, kết luận: Chương Tổng quan dịch tự động chất lượng dịch tự động tiếng Việt Chương trình bày tổng quan vấn đề triển khai nghiên cứu luận án, bao gồm phương pháp dịch, kho ngữ liệu, phương pháp đánh giá chất lượng tổng quan nghiên cứu tổng quan vấn đề cải tiến chất lượng dịch tự động Chương Giải pháp cải tiến chất lượng dịch tự động tiếng Việt Đánh giá chất lượng số hệ thống dịch tự động Anh - Việt phổ biến Đề xuất số giải pháp nhằm cải tiến chất lượng kho ngữ liệu tiếng Việt giải pháp áp dụng mơ hình dịch mạng nơ ron cho cặp ngôn ngữ Anh – Việt Đề xuất giải pháp để triển khai hệ thống dịch ngữ nghĩa dựa ngữ cảnh Chương Thực nghiệm đánh giá kết Triển khai bước thực nghiệm xây dựng kho ngữ liệu lớn xây dựng mơ hình dịch máy mạng nơ ron cho cặp ngơn ngữ Anh – Việt Đóng góp luận án Luận án có 05 đóng góp sau liên quan đến giải pháp cải tiến chất lượng dịch tự động tiếng Việt: (1) Triển khai chiến dịch đánh giá chất lượng hệ thống dịch tự động tiếng Việt hoạt động cách đầy đủ chi tiết Đề xuất giải pháp đánh giá chất lượng hệ thống dịch thơng qua q trình hậu xử lý (2) Đề xuất giải pháp cải tiến chất lượng dịch tiếng Việt thông qua cải tiến kho ngữ liệu Các giải pháp cụ thể mở rộng hợp kho ngữ liệu; giải pháp xây dựng kho ngữ liệu lớn; giải pháp xác định danh từ riêng; giải pháp xác định giới hạn từ ghép (3) Đề xuất giải pháp cải tiến chất lượng dịch tiếng Việt phương pháp dịch trí tuệ nhân tạo, áp dụng mơ hình học máy mạng nơ ron Đây xem giải pháp mới, tốt thời điểm nghiên cứu (năm 2017) để cải tiến chất lượng dịch tự động tiếng Việt (4) Đề xuất giải pháp để xây dựng hệ thống dịch tự động hướng ngữ nghĩa theo ngữ cảnh thơng qua cải tiến mơ hình dịch mạng nơ ron kết hợp với kho ngữ liệu lớn làm giàu ngữ nghĩa (5) Đóng góp mặt thực nghiệm sản phẩm thực tế: xây dựng hệ thống dịch tự động Anh –Việt VIKI Translator, cho kết thử nghiệm dịch tiếng Việt lĩnh vực hẹp (văn quy phạm pháp luật) đạt chất lượng tốt TỔNG QUAN VỀ DỊCH TỰ ĐỘNG VÀ CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT HIỆN NAY 1.1 Giới thiệu Theo định nghĩa từ điển Cambridge, dịch tự động hay gọi dịch máy (tiếng Anh: machine translation, thường viết tắt tiếng Anh là: MT) q trình chuyển đổi văn từ ngơn ngữ sang ngơn ngữ khác máy tính Trong nghiên cứu lĩnh vực dịch tự động, văn đầu vào cần dịch gọi văn nguồn văn máy tính dịch gọi văn đích Bộ máy dịch tự động chương trình máy tính có nhiệm vụ tiếp nhận văn ngơn ngữ nguồn, sau thuật tốn để đưa dự đốn kết dịch ngơn ngữ đích Các thuật tốn toán dịch tự động hoạt động sở tổng hợp xử lý tri thức từ ngôn ngữ tự nhiên, chẳng hạn thông qua từ điển, cặp câu dịch mẫu; luật ngữ pháp; thống kê từ ngữ, mơ hình ngơn ngữ… 1.2 Nghiên cứu tổng quan dịch tự động, kho ngữ liệu, phương pháp cải tiến đánh giá chất lượng dịch tự động Các phương pháp dịch tự động 1.2.1.1 Dịch tự động dựa ví dụ Phương pháp dịch máy dựa ví dụ (EBMT: ExampleBased Machine Translation) đề xuất lần vào năm 1984 cơng trình, có ý tưởng sau: việc dịch câu đơn giản khơng cần dựa q trình phân tích sâu mặt ngơn ngữ, thay vào đó, phân tách câu đầu vào thành cụm từ rời rạc, sau dịch cụm từ sang ngơn ngữ khác, cuối cần ghép nối cụm từ lại với theo thứ tự để tạo thành câu dài hoàn chỉnh Việc dịch cụm từ rời rạc thực theo nguyên tắc dịch tương tự, sử dụng ví dụ mẫu để tham khảo Ba thành phần quan trọng phương pháp dịch dựa ví dụ là: phân tách cụm từ sở đối sánh từ liệu ví dụ thực tế, xác định văn dịch tương ứng kết hợp cụm từ để tạo thành văn đích 1.2.1.2 Dịch tự động phương pháp thống kê Dịch tự động dựa phương pháp thống kê (SMT Statistical Machine Translation) năm vừa qua hướng phát triển đầy tiềm ưu điểm vượt trội so với phương pháp khác Thay xây dựng từ điển, quy luật chuyển đổi tay, hệ dịch tự động xây dựng từ điển, quy luật dựa kết thống kê có từ kho ngữ liệu Chính vậy, dịch máy dựa vào thống kê có tính khả chuyển cao áp dụng cho cặp ngôn ngữ a Dịch máy thống kê sở từ b Dịch máy thống kê sở cụm từ c Dịch máy thống kê sở cú pháp Liên quan đến mã nguồn mở ứng dụng lĩnh vực dịch máy thống kê, bật xuất Moses (http://www.statmt.org/moses/), hệ thống nguồn mở phrase-based SMT hoàn chỉnh Kho ngữ liệu dịch tự động Kho ngữ liệu (corpus) hiểu tập hợp văn đơn ngữ, đa ngữ hay song ngữ Trong định nghĩa Từ điển Cambridge, kho ngữ liệu tập hợp tài nguyên dạng văn giọng nói Kho ngữ liệu song ngữ tập hợp liệu gồm cặp văn dịch tương ứng 1.2.2.1 Các kho ngữ liệu Đã có nhiều kho ngữ liệu quốc tế nghiên cứu cơng bố có số lượng ngơn ngữ khối lượng liệu tương đối lớn EuroParl (11 ngôn ngữ, 34-55 triệu từ), JRC-Acquis (22 ngôn ngữ, 1122 triệu từ), XinHua News (2 ngôn ngữ, 12-14 triệu từ), EuroMatrix (9 ngôn ngữ lấy nguồn từ kỷ yếu Quốc hội Châu Âu từ năm 1996–2006), Canadian Hansard (song ngữ Anh-Pháp, 2.8 triệu cặp câu), WaCky (hơn tỷ từ thu thập từ Internet) … Ngoài ra, có số kho ngữ liệu song ngữ lớn như: Tên kho ngữ liệu Wikipedia OpenSubtitles TED2013 EUbookshop Số ngôn ngữ 21 62 15 48 Độ lớn liệu 25,90M 3,35G 3,81M 173,20M 1.2.2.2 Cấu trúc kho ngữ liệu song ngữ Kho ngữ liệu song ngữ chứa văn hai ngơn ngữ khác nhau, ngồi nội dung cịn có thơng tin xử lý gióng hàng, gán nhãn từ… - Phần liệu nguyên thủy/thô (primary data) : Thông tin văn bản, thông tin cấu trúc nội dung - Phần giải ngôn ngữ học - Thông tin gióng hàng Đánh giá chất lượng hệ thống dịch tự động Đánh giá chất lượng hệ thống dịch tự động hoạt động nhằm xác định mức độ hồn thiện dịch máy tính đưa so sánh chất lượng dịch hệ thống dịch tự động khác 1.2.3.1 Phương pháp đánh giá chủ quan Đánh giá chủ quan người trực tiếp thực hiện, dựa việc đánh giá thang điểm cho tiêu chí xây dựng sẵn Cách đánh giá chủ quan cho kết tin cậy tốn nhiều thời gian chi phí, có phụ thuộc vào khả người đánh giá a Đánh giá tính trơi chảy tính đầy đủ sử dụng thang điểm Hai số thông số đánh giá thông dụng phương pháp chủ quan người thực tính trơi chảy (fluency) tính đầy đủ (adequacy) Adequacy (Tính đầy đủ thơng tin) all meaning most meaning much meaning little meaning none Fluency (Tính trơi chảy) flawless English good English non-native English disfluent English incomprehensible b Đánh giá hình thức xếp hạng c Đánh giá thơng qua hiệu đính dịch 1.2.3.2 Phương pháp đánh giá khách quan (đánh giá tự động) Đánh giá khách quan sử dụng chương trình thay cho người để đánh giá Các chương trình so khớp đo tỉ lệ lỗi kết từ hệ thống dịch với câu dịch tham khảo có sẵn a Chỉ số WER (Word Error Rate) b Chỉ số MWER (Multi-Reference WER) c Chỉ số PER (Position-independent Error Rate) d Chỉ số TER (Translation Error Rate) e Chỉ số BLEU f Chỉ số NIST 1.3 10 Các nghiên cứu liên quan đến xây dựng cải tiến chất lượng dịch tự động tiếng Việt Nghiên cứu xây dựng hệ thống dịch đánh giá chất lượng dịch - Nghiên cứu xây dựng hệ thống dịch Anh – Việt sử dụng mã nguồn MOSES tảng dịch thống kê Nhóm tác giả sử dụng liệu huấn luyện, kiểm thử IWSLT 2015 đánh giá kết số BLEU - Nghiên cứu xây dựng kho ngữ liệu gồm 880.000 cặp câu song ngữ Anh – Việt 11 triệu câu tiếng Việt, sau sử dụng mơ hình dịch thống kê mã nguồn MOSES để xây dựng hệ thống dịch Anh – Việt Kết hệ thống dịch đánh giá so sánh với kết dịch Google Microsoft - Nghiên cứu xây dựng hệ thống dịch sử dụng mạng nơ ron tập liệu đánh giá IWSLT 2015 số ngơn ngữ phổ biến, có cặp ngơn ngữ Anh – Việt - Nghiên cứu tiếp cận xây dựng hệ thống dịch thông qua ngôn ngữ trung gian để xây dựng hệ thống dịch cặp ngôn ngữ Séc – Việt, sử dụng tiếng Anh làm ngôn ngữ trung gian Nghiên cứu xây dựng cải tiến kho ngữ liệu tiếng Việt Để giải tốn xử lý ngơn ngữ tiếng Việt, có dịch máy, nhiều nhóm nghiên cứu xây dựng kho ngữ liệu dành riêng cho tiếng Việt, đồng thời đưa giải pháp để nâng cao chất lượng kho ngữ liệu - Kho ngữ liệu tiếng Việt Vietlex chứa khoảng 80.000.000; Đề tài KC01.01/06-10, nhánh đề tài "Xử lí văn tiếng Việt" tiến hành nghiên cứu xây dựng kho ngữ liệu tiếng Việt kho ngữ liệu song ngữ Anh – Việt; Trung tâm Ngôn ngữ học Tính tốn – ĐH Khoa học Tự nhiên – TP.HCM thực xây dựng kho ngữ liệu tiếng Việt (tên VTB VCor) VTB có 201.594 câu, 5.501.225 lượt từ, ngữ liệu VCor có 17.095.994 câu (42 lĩnh vực) 12 GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT 2.1 Giới thiệu Mơ hình dịch kết trình huấn luyện thuật toán, biểu diễn số liệu thống kê, quy tắc, luật tối ưu sau trình Từ mơ hình dịch huấn luyện, đưa vào câu nguồn để mơ hình dự đốn kết đầu câu đích cần dịch Chính vậy, mơ hình dịch đóng vai trò định ảnh hưởng đến chất lượng hệ thống dịch Như biểu diễn trên, thấy xây dựng mơ hình dịch tốt tạo nên hệ thống dịch có chất lượng, cần có hai yếu tố then chốt nguồn liệu phương pháp dịch: 2.2 - Nguồn liệu phải có chất lượng tốt số lượng lớn - Phương pháp dịch hiệu quả, phù hợp với ngôn ngữ, triệt tiêu tối đa nhập nhằng ngữ nghĩa Đánh giá chất lượng hệ thống dịch tự động tiếng Việt Quá trình đánh giá thực năm 2017, sử dụng kết dịch hai hệ thống Google Translate Microsoft Translator 13 Tổ chức đánh giá 2.2.1.1 Đánh giá theo phương pháp khách quan Các câu tiếng Anh tập liệu dịch sang tiếng Việt thông qua hàm API hệ thống Google Microsoft, sử dụng cơng cụ nhóm tác giả xây dựng Kết thu bảng sau Dữ liệu đánh giá tst2013 1000-cau tpp-tomtat tpp-chuong28 Loại en-vi en-vi en-vi en-vi BLEU 32 06 42 44 Google NIST WER 7.54 0.51 2.88 0.75 8.29 0.46 7.29 0.47 Microsoft BLEU NIST 27 6.82 04 2.53 40 7.90 33 6.11 WER 0.58 0.82 0.51 0.58 2.2.1.2 Đánh giá theo phương pháp chủ quan Kết cho thấy liệu hội thoại, có 516 câu (đối với Google) 308 câu (đối với Microsoft), chiếm tỷ lệ 52% 30% Một số câu làm cho người đọc hiểu sai ý nghĩa Nhận xét, đánh giá Chất lượng hệ thống dịch tiếng Việt chưa tốt số nguyên nhân: Phương pháp dịch chưa phù hợp Kho ngữ liệu chưa đầy đủ Đề xuất giải pháp đánh giá chất lượng dựa q trình hiệu đính dịch 2.2.3.1 Một số tồn phương pháp đánh giá chất lượng dịch Đánh giá chất lượng hệ thống dịch tự động phương pháp số đo nêu nghiên cứu áp dụng rộng rãi, nhiên số trường hợp cịn có hạn chế 2.2.3.2 Đề xuất số đánh giá chất lượng Chỉ số thời gian: Tpe = T/N Chỉ số thao tác: Ope = (D + I) / N 14 2.2.3.3 Giải pháp kết hợp hiệu đính dịch máy đánh giá chất lượng Đề xuất kết hợp hoạt động hiệu đính dịch máy với đánh giá chất lượng, giúp giảm chi phí nâng cao độ xác 2.2.3.4 Thực nghiệm Kết thực nghiệm cho thấy tương đồng số Tpe, Ope với số Edit Distance Word Error Rate 2.3 Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào kho ngữ liệu lớn Tổng quan Các kho ngữ liệu tồn cách rời rạc, có cấu trúc định dạng khác nhau, dẫn đến việc sử dụng khai thác chúng khó khăn Có nhiều kho ngữ liệu xây dựng phục vụ, chia cho việc nghiên cứu xử lý tiếng Việt Các nghiên cứu liên quan cải tiến chất lượng kho ngữ liệu 2.3.2.1 Tổng quan tình hình nghiên cứu mở rộng kho ngữ liệu theo khía cạnh khối lượng - Mở rộng kho ngữ liệu theo hướng ngôn ngữ - Mở rộng theo hướng xây dựng bổ sung liệu 2.3.2.2 Tổng quan tình hình nghiên cứu mở rộng kho ngữ liệu khía cạnh chất lượng Giải pháp nâng cao chất lượng kho ngữ liệu 2.3.3.1 Mở rộng khối lượng kho ngữ liệu Nghiên cứu đề xuất kho ngữ liệu gồm hai phần: Phần tiêu đề (header) chứa thông tin ngữ liệu, ngôn ngữ Phần thân (body) chứa thông tin loại tài liệu: , ,…Mỗi tài liệu chứa mô tả cấu trúc phân cấp nó: chương, trang, mục,… mơ tả phân đoạn: (, , ) a) Hợp kho ngữ liệu 15 Thuật toán đề xuất để hợp hai kho ngữ liệu R1 R2, chứa liệu thuộc ngôn ngữ L1 L2: o Hợp liệu o Hợp định dạng cấu trúc kho ngữ liệu Nghiên cứu xây dựng công cụ chuyển đổi kho ngữ liệu tồn để xây dựng kho ngữ liệu với cấu trúc định dạng chuẩn đề xuất b) Mở rộng ngôn ngữ kho ngữ liệu c) Thêm liệu vào kho ngữ liệu 2.3.3.2 Cải tiến chất lượng kho ngữ liệu a) Cải tiến thông qua trình hậu xử lý Đề xuất nghiên cứu xây dựng hệ thống hỗ trợ cho trình hậu xử lý, cho phép nạp kho ngữ liệu lớn hiển thị liệu cách trực quan để kiểm tra cải tiến liệu Ngoài ra, hệ thống cần phải hoạt động môi trường cộng tác, cho phép nhiều người dùng tham gia cải tiến liệu b) Xây dựng kho ngữ liệu làm giàu ngữ nghĩa Bước 1: Định nghĩa loại lớp dựa vào ngữ cảnh Bước 2: Xây dựng thuộc tính cho lớp định nghĩa 16 Bước 3: Nhận biết thực thể thuộc lớp định nghĩa Bước 4: Xây dựng thông tin cho thực thể c) Nhận dạng phân loại thử thể danh từ riêng Luận án đề xuất giải pháp kết hợp thuật tốn Maximum Matching phân tích mối quan hệ thành tố văn bản, gồm bước tách từ nhận diện danh từ riêng: d) Giải pháp xác định ranh giới từ tiếng Việt Đề xuất giải pháp tính điểm từ đơn âm tiết đứng cạnh để dự đốn từ có phải từ ghép hay khơng: , = − ( )× ( ) Trong đó, score(wiwj) điểm hai từ đứng cạnh nhau; count(wiwj) số lần xuất cụm từ wiwj, count(wi) số lần xuất từ wi, δ hệ số để loại trừ cụm từ xuất tần suất thấp Đánh giá vai trò kho ngữ liệu Nghiên cứu triển khai thực nghiệm xây dựng hệ thống dịch với kho ngữ liệu có độ lớn khác nhau, cho thấy với số lượng liệu lớn chất lượng dịch tốt 2.4 Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào mơ hình máy học mạng nơ ron Tổng quan Có nhiều cơng trình nghiên cứu giải pháp cải tiến chất lượng mơ hình dịch thống kê thời gian vừa qua, nhiên kết tổ chức đánh giá cho thấy có chất lượng cịn thấp Giải pháp cải tiến chất lượng dịch tiếng Việt mô hình học máy mạng nơ ron NMT thường mạng nơ ron kích thước lớn được huấn luyện, lưu trữ véc tơ biểu diễn thông tin liên kết từ ngữ cảnh, có khả dịch tốt câu văn dài 17 Mơ hình RNN bao gồm trạng thái ẩn (hidden state) h cho kết đầu y nhận chuỗi đầu vào x = (x1, x2, … xT) Tại thời điểm t, trạng thái ẩn h mơ hình RNN cập nhật theo cơng thức: h = f(h,xt), f hàm kích hoạt phi tuyến Từ liệu huấn luyện đầu vào, mạng RNN học xác suất phân bố chuỗi dự đoán từ chuỗi đưa vào 2.4.2.1 Các bước xây dựng hệ thống dịch NMT a Biểu diễn liệu đầu vào b Xây dựng mã hóa (Encoder) c Xây dựng giải mã (Decoder) Kết xây dựng hệ thống dịch Nghiên cứu tiến hành ứng dụng phương pháp dịch thông kê phương pháp dịch sử dụng mạng nơ ron để triển khai huấn luyện mơ hình dịch, sử dụng mã nguồn Moses OpenNMT, kết sau: OpenNMT Moses BLEU 25,4 23,8 NIST 5,61 5,10 18 Số liệu cho thấy, tập liệu đầu vào, mơ hình dịch sử dụng mạng nơ ron cho kết tốt mơ hình dịch thống kê thông qua điểm đánh giá BLEU NIST Đề xuất giải pháp xây dựng hệ thống dịch ngữ nghĩa Luận án đề xuất mở rộng mơ hình dịch mạng nơ ron giải pháp sử dụng nhớ dịch phần tiền xử lý sử dụng kho ngữ liệu ontology để làm giàu ngữ nghĩa dịch biểu diễn đầy đủ thông tin dịch máy phần hậu xử lý Để kết nối chức hệ thống dịch, cần thực hiện: Xây dựng hệ thống dịch mô hình học máy sử dụng mạng nơ ron: thực theo đề xuất mục 2.4.2 Tìm phân tách khái niệm từ văn dịch: thực theo giải pháp đề xuất mục 2.3.4 Liên kết khái niệm kho ngữ liệu làm giàu Xây dựng kho ngữ liệu làm giàu ngữ nghĩa Xây dựng giao diện trực quan để thể ngữ nghĩa 2.5 Kết luận Chương Qua thực nghiệm cho thấy, đề xuất cải tiến kho liệu cải tiến phương pháp dịch góp phần làm tăng chất lượng mơ hình dịch tự đồng kho so sánh với mơ hình dịch thống kê số hệ thống khác 19 THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 3.1 Giới thiệu Với giải pháp cải tiến kho ngữ liệu cải tiến mơ hình dịch đề xuất Chương 2, luận án tiến hành tổng hợp để thực nghiệm xây dựng hệ thống dịch chuyên ngành lĩnh vực văn quy phạm pháp luật đánh giá kết Hệ thống triển khai thử nghiệm cho người dùng để ghi nhận đánh giá người dùng bên cạnh số đánh giá chất lượng khác Quy trình sau: 3.2 Xây dựng kho ngữ liệu Quy trình bước triển khai Quá trình xây dựng kho ngữ liệu: Xây dựng kho ngữ liệu song ngữ số lượng lớn (1) Tìm kiếm nguồn tài nguyên phù hợp: Các trang web cung cấp văn quy phạm pháp luật, tài liệu học tập, tài liệu khoa học, tài liệu học tiếng Anh cung cấp môi trường Internet, trang web từ điển, trang web cung cấp mẫu câu song ngữ, trang web xem phim song ngữ Anh – Việt, trang web tin tức có cung cấp dịch ngôn ngữ khác nhau…, tài liệu Việt 20 hóa phần mềm mã nguồn mở, ứng dụng web, bao gồm dịch chức năng, hướng dẫn sử dụng, điều khoản sử đụng… (2) Thực bước tiền xử lý liệu Kết trình xây dựng kho ngữ liệu thu 1.479.000 cặp câu song ngữ Anh – Việt, có 460.000 cặp câu song ngữ lĩnh vực văn quy phạm phát luật Lĩnh vực Văn quy phạm pháp luật Hội thoại Lĩnh vực khác Số lượng câu Chiều dài câu Chiều dài câu tiếng Anh (từ) tiếng Việt (từ) 460.000 25,8 31,2 180.000 839.000 7,2 18,5 8,4 24,1 (3) Chuẩn hóa làm cho liệu xác cách xác định ranh giới từ tiếng Việt xác định danh từ riêng Xây dựng công cụ hỗ trợ mở rộng ngôn ngữ ngữ nghĩa Xây dựng môi trường làm việc cộng tác cho phép gọi hệ thống dịch tự động để mở rộng ngôn ngữ cho kho ngữ liệu, thu thập liệu song song từ website đa ngữ cho phép cải tiến liệu thông qua chức hậu xử lý Xây dựng kho ngữ liệu ontology Bước 1: Định nghĩa lớp dựa vào ngữ cảnh hay lĩnh vực kho nhằm xây dựng ontology: Xác định domain; Liệt kê, định nghĩa khái niệm; Xác định lớp, phân cấp lớp 21 Có tổng cộng 179 lớp, có 14 lớp 165 lớp Hình minh họa số lớp cấu trúc phân cấp chúng Bước 2: Xây dựng thuộc tính cho lớp định nghĩa Bước 3: Nhận diện từ cụ thể kho ngữ liệu thể lớp định nghĩa Việc nhận biết từ thuộc lớp dựa vào ngữ cảnh Bước 4: Xây dựng giá trị cho thuộc tính thể thực thể nhận diện 3.3 Kết thực nghiệm xây dựng ứng dụng dịch Anh – Việt lĩnh vực văn pháp luật (VIKI Translator) Quy trình bước triển khai Xây dựng hệ thống dịch tiếng Anh – tiếng Việt lĩnh vực văn hành chính, pháp luật sử dụng mơ hình mạng nơ ron kết hợp kho ngữ liệu lớn thu thập Q trình triển khai xây dựng mơ hình dịch thực bước sau: 22 Tổ chức huấn luyện mô hình dịch điều chỉnh tham số mơ hình Thiết kế mạng nơ ron: Nghiên cứu sử dụng mã nguồn mở OpenNMT thiết kế mạng nơ ron thành phần hệ dịch để huấn luyện mô hình dịch Huấn luyện mơ hình dịch: Số lớp ẩn của mạng nơ ron số nút lớp: enc_layers = 2, dec_layers = 2, rnn_size = 500 Kích thước từ vựng: src_vocab_size = 50.000, tgt_vocab_size = 50.000 Tại vòng lặp lên end_epoch = 21, tham số biểu diễn chất lượng mơ hình (perplexity) đạt 4,80 dịch từ Anh sang Việt 4,66 dịch từ Việt sang Anh Xây dựng mô đun hệ thống dịch Xây dựng thành phần hệ thống dịch kết nối với máy dịch tự động Hệ thống dịch VIKI Translator hoạt động tảng web, kết nối trực tiếp đến máy chủ cài đặt mô đun dịch theo cách thức sau: 3.4 Đánh giá kết Kết thực nghiệm Sử dụng liệu mô tả Chương để đánh giá chất lượng hệ thống Kết nhận điểm BLEU 29 Sử dụng tập liệu nói trên, thực nghiệm đối chiếu với hệ thống dịch Anh – Việt tương tự hệ thống dịch văn Cồ Việt, cho kết điểm BLEU 27 hệ thống EVTran đạt 11 BLEU NIST WER Hệ thống VIKI Translator Hệ thống Cồ Việt Hệ thống Evtran 23 29,1 27,1 11,3 5,78 5,62 3,32 0,63 0,68 0,93 Qua so sánh thấy rằng, cách sử dụng kho ngữ liệu số lượng lớn, chất lượng tốt, hệ thống dịch dựa mơ hình mạng nơ ron mà nghiên cứu xây dựng cho kết tốt Bên cạnh đó, nhờ kho ngữ liệu tập trung vào lĩnh vực văn pháp luật thu thập nên hệ thống dịch dịch phần lớn thuật ngữ liên quan đến lĩnh vực này, số hệ thống khác có tượng dịch sai cụm từ quan trọng Đánh giá người dùng Hệ thống dịch VIKI Translator triển khai từ tháng 11 năm 2017 đến nay, cung cấp cho người sử dụng chức dịch trực tuyến từ tiếng Anh sang tiếng Việt tiếng Việt sang tiếng Anh thông qua môi trường Internet địa chỉ: https://vikitranslator.com Giao diện hệ thống VIKI Translator hình Tổng hợp số kết đạt qua trình triển khai thực nghiệm hệ thống: o Tổng số lượt truy cập sử dụng ứng dụng tất tảng: 1.500.000 người dùng o Số lượt truy cập website hàng tháng: gần 70.000 người 24 o Lượt tải ứng dụng Windows: 30.000 lượt o Tổng số viết giới thiệu, hướng dẫn sử dụng từ website khác: 30 o Tổng số liên kết từ website khác trỏ đến VIKI Translator (backlink): 582.561 backlink Biểu đồ số lượng người sử dụng hàng tháng Thống kê tổng số người dùng 3.5 Kết luận Chương Nội dung Chương trình bày bước thực nghiệm triển khai xây dựng hệ thống dịch tự động Anh – Việt sở tổng hợp giải pháp cải tiến mặt kho ngữ liệu phương pháp dịch đề xuất chương trước Hệ thống VIKI Translator xây dựng cho kết vượt trội so với hệ thống dịch tiếng Việt qua số liệu đánh giá cụ thể điểm BLEU, NIST WER Hệ thống dịch Anh – Việt triển khai thực tế gần năm có 1,5 triệu lượt sử dụng, nhận đánh giá tích cực từ phía người dùng Qua cho thấy giải pháp cải tiến mà nghiên cứu đề xuất góp phần xây dựng hệ thống dịch có chất lượng tốt, phù hợp để triển khai tiếp tục nghiên cứu phát triển cho toán dịch tự động tiếng Việt 25 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Luận án triển khai nghiên cứu yếu tố quan trọng ảnh hưởng đến chất lượng kết hệ thống dịch tự động tiếng Việt kho ngữ liệu phương pháp dịch, từ đề xuất giải pháp cụ thể nhằm cải tiến chất lượng hệ thống dịch tiếng Việt Các nội dung nghiên cứu cụ thể sau: - Nghiên cứu phương pháp đánh giá chất lượng dịch máy, triển khai đánh giá tổng quát chi tiết chất lượng hệ thống dịch tiếng Việt hoạt động nay, cung cấp số liệu làm sở để phân tích, so sánh hệ thống dịch chất lượng dịch lĩnh vực khác hệ thống so sánh với chất lượng hệ thống dịch ngôn ngữ khác Trên sở đưa nhìn tổng thể chất lượng hệ thống dịch tiếng Việt có Nghiên cứu đề xuất phương pháp số đo để tính tốn chất lượng kết dịch q trình người dùng hiệu đính dịch máy Phương pháp đảm bảo tính xác, đồng thời tiết kiệm nguồn lực tổ chức đánh giá - Nghiên cứu kho ngữ liệu phục vụ cho dịch tự động tiếng Việt đề xuất giải pháp nhằm cải tiến chất lượng kho ngữ liệu Các giải pháp cải tiến khía cạnh cải tiến chất lượng số lượng, bao gồm giải pháp mở rộng hợp kho ngữ liệu; giải pháp xây dựng kho ngữ liệu lớn; giải pháp xác định danh từ riêng cách kết hợp thuật toán Maximum Matching phân tích mối quan hệ thành tố văn bản; giải pháp xác định giới hạn từ ghép tiếng Việt từ mơ hình phân phối từ cụm từ văn Trên sở nghiên cứu tiến hành xây dựng mô đun phần mềm để mô giải pháp đề xuất thử nghiệm cho kết tốt Từ giải pháp hợp mở rộng kho ngữ liệu nêu trên, nghiên cứu triển khai thu thập kho ngữ liệu có số lượng lớn, chất lượng tốt gồm 1.479.000 cặp câu song ngữ Anh – Việt để phục vụ cho hệ thống dịch tự động tiếng Việt 26 - Nghiên cứu phương pháp dịch tự động đề xuất giải pháp ứng dụng mơ hình học máy mạng nơ ron vào toán dịch tự động tiếng Việt nhằm nâng cao chất lượng hệ thống dịch Nghiên cứu tổ chức cài đặt huấn luyện mơ hình dịch thống kê dịch sử dụng mạng nơ ron so sánh kết mơ hình dịch này, qua cho thấy phù hợp mơ hình dịch sử dụng mạng nơ ron toán dịch tự động tiếng Việt Nghiên cứu đề xuất mơ hình hệ thống dịch tự động hướng ngữ nghĩa, thơng qua hệ thống dịch cung cấp đầy đủ ngữ nghĩa theo ngữ cảnh văn cần dịch giúp cho người đọc hiểu toàn vẹn nội dung văn - Xây dựng triển khai hệ thống dịch tự động Anh – Việt có tên gọi VIKI Translator, cung cấp cho người dùng thông qua môi trường Internet Hệ thống dịch sản phẩm ứng dụng giải pháp đề xuất nghiên cứu, xây dựng có sở đánh giá lại tính hiệu giải pháp cải tiến chất lượng dịch tiếng Việt Hệ thống có triệu lượt sử dụng đánh giá tích cực từ phía người dùng Hướng phát triển Để hồn thiện giải pháp hệ thống dịch tự động tiếng Việt giúp hệ thống đạt chất lượng tốt hơn, thời gian tới nghiên cứu sinh tiếp tục tập trung nghiên cứu nội dung sau đây: - Tiếp tục nghiên cứu, cải tiến phương pháp dịch sử dụng mạng nơ ron nhằm đạt hiệu cao - Xây dựng kho ngữ liệu phong phú nhiều phương pháp khác nhau, đồng thời mô tả ngữ nghĩa liệu kết hợp phân tích ngữ nghĩa phương pháp dịch - Mở rộng xây dựng kho ngữ liệu lĩnh vực khác triển khai đánh giá, phân tích so sánh - Đánh giá yếu tố ngữ cảnh toàn văn để làm tham số đầu vào cho hệ thống dịch, từ nâng cao chất lượng kết dịch ... tổng quan nghiên cứu tổng quan vấn đề cải tiến chất lượng dịch tự động 5 Chương Giải pháp cải tiến chất lượng dịch tự động tiếng Việt Đánh giá chất lượng số hệ thống dịch tự động Anh - Việt phổ... thống dịch tự động phổ biến nay, đề xuất giải pháp cải tiến chất lượng dịch tự động cặp ngôn ngữ tiếng Việt – tiếng Anh - Xây dựng ứng dụng thực nghiệm dịch tự động từ tiếng Anh sang tiếng Việt. .. cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt? ?? làm nội dung nghiên cứu luận án Tiến sĩ kỹ thuật Mục tiêu nghiên cứu Mục tiêu chung: đề xuất giải pháp cụ thể nhằm cải tiến chất lượng