1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt

26 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 864,2 KB

Nội dung

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN VĂN BÌNH D cD ho NGHIÊN CỨU GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT g an aN Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 9480101 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng - 2022 Cơng trình hồn thành TRƯỜNG ĐẠI HỌC BÁCH KHOA Người hướng dẫn khoa học: PGS.TS Huỳnh Công Pháp GS Vincent Berment ho D aN cD Phản biện 1: PGS.TS Huỳnh Xuân Hiệp Phản biện 2: GS.TS Nguyễn Thanh Thủy Phản biện 3: PGS.TS Lê Mạnh Thạnh g an Luận án bảo vệ Hội đồng chấm luận án cấp Trường, họp Trường Đại học Bách khoa vào ngày 12 tháng 03 năm 2022 Có thể tìm hiểu luận án tại: - Trung tâm Học liệu Truyền thông, Trường Đại học Bách Khoa - Trung tâm Thông tin – Học liệu Truyền Thông, Đại học Đà Nẵng - Thư viện Quốc gia Việt Nam MỞ ĐẦU Đặt vấn đề D Nhu cầu trao đổi thông tin quốc gia, văn hóa, người xã hội đại ngày tăng làm cho việc dịch thuật trở nên quan trọng cần thiết Dịch thuật sử dụng người công việc thủ công, chất lượng cao tốc độ chậm, suất thấp giá thành cao mà tái sử dụng Dịch tự động máy tính cho kết dịch tốt mang lại hiệu với chi phí bỏ ít, dịch nhanh với khối lượng tài liệu lớn thuộc lĩnh vực chun mơn khác Khi hệ dịch máy trở thành công cụ giúp người tiếp cận kho tri thức khổng lồ viết ngôn ngữ khác aN cD ho Khi sử dụng hệ thống dịch tự động, người dùng quan tâm đến chất lượng dịch Tuy nhiên chất lượng dịch tự động cặp ngôn ngữ phổ biến thấp, kể dịch từ tiếng Việt sang tiếng Anh ngôn ngữ khác, nên kết dịch chủ yếu để tham khảo, nắm đại ý văn Trong số trường hợp, dịch làm cho người đọc hiểu sai nội dung phần tồn nội dung văn Các hệ thống dịch tự động sử dụng rộng rãi cần có nhiều cải tiến mang lại kết dịch có chất lượng g an Chính vậy, cần thiết phải có đánh giá mặt khoa học để có số liệu cụ thể minh chứng cho chất lượng hệ thống dịch tiếng Việt, từ phân tích đề xuất giải pháp nhằm nâng cao chất lượng dịch tự động tiếng Việt Nhằm góp phần giải vấn đề nêu trên, nghiên cứu sinh chọn đề tài “Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt” làm nội dung nghiên cứu luận án Tiến sĩ kỹ thuật Mục tiêu nghiên cứu Mục tiêu chung: đề xuất giải pháp cụ thể nhằm cải tiến chất lượng hệ thống dịch tiếng Việt, cụ thể với cặp ngôn ngữ Việt – Anh Các mục tiêu cụ thể gồm: - Đánh giá thực trạng hệ thống dịch tự động tiếng Việt hoạt động nay; - Đề xuất giải pháp nhằm nâng cao chất lượng hệ thống dịch cặp ngôn ngữ Anh – Việt; - Xây dựng hệ thống dịch tự động Anh – Việt lĩnh vực cụ thể văn quy phạm pháp luật Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu luận án gồm: - Các phương pháp đánh giá chất lượng hệ thống dịch tự động D - Kho ngữ liệu phương pháp dịch tự động - Các hệ thống dịch tự động tiếng Việt hoạt động Phạm vi nghiên cứu luận án: cD ho - Tập trung nghiên cứu, đánh giá hệ thống dịch tự động phổ biến nay, đề xuất giải pháp cải tiến chất lượng dịch tự động cặp ngôn ngữ tiếng Việt – tiếng Anh aN - Xây dựng ứng dụng thực nghiệm dịch tự động từ tiếng Anh sang tiếng Việt ngược lại lĩnh vực hẹp lĩnh vực văn quy phạm pháp luật Phương pháp nghiên cứu g an - Triển khai ứng dụng tảng website nhằm thuận tiện truy cập người dùng - Phương pháp lý thuyết phương pháp thực nghiệm Bố cục luận án Luận án tổ chức thành ba chương mở đầu, kết luận: Chương Tổng quan dịch tự động chất lượng dịch tự động tiếng Việt Chương trình bày tổng quan vấn đề triển khai nghiên cứu luận án, bao gồm phương pháp dịch, kho ngữ liệu, phương pháp đánh giá chất lượng tổng quan nghiên cứu tổng quan vấn đề cải tiến chất lượng dịch tự động Chương Giải pháp cải tiến chất lượng dịch tự động tiếng Việt Đánh giá chất lượng số hệ thống dịch tự động Anh - Việt phổ biến Đề xuất số giải pháp nhằm cải tiến chất lượng kho ngữ liệu tiếng Việt giải pháp áp dụng mơ hình dịch mạng nơ ron cho cặp ngôn ngữ Anh – Việt Đề xuất giải pháp để triển khai hệ thống dịch ngữ nghĩa dựa ngữ cảnh Chương Thực nghiệm đánh giá kết Triển khai bước thực nghiệm xây dựng kho ngữ liệu lớn xây dựng mơ hình dịch máy mạng nơ ron cho cặp ngôn ngữ Anh – Việt Đóng góp luận án D Luận án có 05 đóng góp sau liên quan đến giải pháp cải tiến chất lượng dịch tự động tiếng Việt: cD ho (1) Triển khai chiến dịch đánh giá chất lượng hệ thống dịch tự động tiếng Việt hoạt động cách đầy đủ chi tiết Đề xuất giải pháp đánh giá chất lượng hệ thống dịch thơng qua q trình hậu xử lý aN (2) Đề xuất giải pháp cải tiến chất lượng dịch tiếng Việt thông qua cải tiến kho ngữ liệu Các giải pháp cụ thể mở rộng hợp kho ngữ liệu; giải pháp xây dựng kho ngữ liệu lớn; giải pháp xác định danh từ riêng; giải pháp xác định giới hạn từ ghép g an (3) Đề xuất giải pháp cải tiến chất lượng dịch tiếng Việt phương pháp dịch trí tuệ nhân tạo, áp dụng mơ hình học máy mạng nơ ron Đây xem giải pháp mới, tốt thời điểm nghiên cứu (năm 2017) để cải tiến chất lượng dịch tự động tiếng Việt (4) Đề xuất giải pháp để xây dựng hệ thống dịch tự động hướng ngữ nghĩa theo ngữ cảnh thông qua cải tiến mơ hình dịch mạng nơ ron kết hợp với kho ngữ liệu lớn làm giàu ngữ nghĩa (5) Đóng góp mặt thực nghiệm sản phẩm thực tế: xây dựng hệ thống dịch tự động Anh –Việt VIKI Translator, cho kết thử nghiệm dịch tiếng Việt lĩnh vực hẹp (văn quy phạm pháp luật) đạt chất lượng tốt TỔNG QUAN VỀ DỊCH TỰ ĐỘNG VÀ CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT HIỆN NAY 1.1 Giới thiệu Theo định nghĩa từ điển Cambridge, dịch tự động hay gọi dịch máy (tiếng Anh: machine translation, thường viết tắt tiếng Anh là: MT) trình chuyển đổi văn từ ngôn ngữ sang ngôn ngữ khác máy tính Trong nghiên cứu lĩnh vực dịch tự động, văn đầu vào cần dịch gọi văn nguồn văn máy tính dịch gọi văn đích aN cD ho D g an Bộ máy dịch tự động chương trình máy tính có nhiệm vụ tiếp nhận văn ngơn ngữ nguồn, sau thuật tốn để đưa dự đốn kết dịch ngơn ngữ đích Các thuật tốn toán dịch tự động hoạt động sở tổng hợp xử lý tri thức từ ngôn ngữ tự nhiên, chẳng hạn thông qua từ điển, cặp câu dịch mẫu; luật ngữ pháp; thống kê từ ngữ, mơ hình ngơn ngữ… 1.2 Nghiên cứu tổng quan dịch tự động, kho ngữ liệu, phương pháp cải tiến đánh giá chất lượng dịch tự động Các phương pháp dịch tự động 1.2.1.1 Dịch tự động dựa ví dụ Phương pháp dịch máy dựa ví dụ (EBMT: ExampleBased Machine Translation) đề xuất lần vào năm 1984 cơng trình, có ý tưởng sau: việc dịch câu đơn giản khơng cần dựa q trình phân tích sâu mặt ngơn ngữ, thay vào đó, phân tách câu đầu vào thành cụm từ rời rạc, sau dịch cụm từ sang ngơn ngữ khác, cuối cần ghép nối cụm từ lại với theo thứ tự để tạo thành câu dài hoàn chỉnh Việc dịch cụm từ rời rạc thực theo nguyên tắc dịch tương tự, sử dụng ví dụ mẫu để tham khảo Ba thành phần quan trọng phương pháp dịch dựa ví dụ là: phân tách cụm từ sở đối sánh từ liệu ví dụ thực tế, xác định văn dịch tương ứng kết hợp cụm từ để tạo thành văn đích D 1.2.1.2 Dịch tự động phương pháp thống kê aN cD ho Dịch tự động dựa phương pháp thống kê (SMT Statistical Machine Translation) năm vừa qua hướng phát triển đầy tiềm ưu điểm vượt trội so với phương pháp khác Thay xây dựng từ điển, quy luật chuyển đổi tay, hệ dịch tự động xây dựng từ điển, quy luật dựa kết thống kê có từ kho ngữ liệu Chính vậy, dịch máy dựa vào thống kê có tính khả chuyển cao áp dụng cho cặp ngôn ngữ a Dịch máy thống kê sở từ an b Dịch máy thống kê sở cụm từ c Dịch máy thống kê sở cú pháp g Liên quan đến mã nguồn mở ứng dụng lĩnh vực dịch máy thống kê, bật xuất Moses (http://www.statmt.org/moses/), hệ thống nguồn mở phrase-based SMT hoàn chỉnh Kho ngữ liệu dịch tự động Kho ngữ liệu (corpus) hiểu tập hợp văn đơn ngữ, đa ngữ hay song ngữ Trong định nghĩa Từ điển Cambridge, kho ngữ liệu tập hợp tài nguyên dạng văn giọng nói Kho ngữ liệu song ngữ tập hợp liệu gồm cặp văn dịch tương ứng 1.2.2.1 Các kho ngữ liệu Đã có nhiều kho ngữ liệu quốc tế nghiên cứu công bố có số lượng ngơn ngữ khối lượng liệu tương đối lớn EuroParl (11 ngôn ngữ, 34-55 triệu từ), JRC-Acquis (22 ngôn ngữ, 1122 triệu từ), XinHua News (2 ngôn ngữ, 12-14 triệu từ), EuroMatrix (9 ngôn ngữ lấy nguồn từ kỷ yếu Quốc hội Châu Âu từ năm 1996–2006), Canadian Hansard (song ngữ Anh-Pháp, 2.8 triệu cặp câu), WaCky (hơn tỷ từ thu thập từ Internet) … Ngồi ra, có số kho ngữ liệu song ngữ lớn như: ho D Tên kho ngữ liệu Wikipedia OpenSubtitles TED2013 EUbookshop Số ngôn ngữ 21 62 15 48 Độ lớn liệu 25,90M 3,35G 3,81M 173,20M 1.2.2.2 Cấu trúc kho ngữ liệu song ngữ aN cD Kho ngữ liệu song ngữ chứa văn hai ngôn ngữ khác nhau, ngồi nội dung cịn có thơng tin xử lý gióng hàng, gán nhãn từ… Phần liệu nguyên thủy/thô (primary data) : Thông tin văn bản, thông tin cấu trúc nội dung - Phần giải ngôn ngữ học - Thơng tin gióng hàng g an - Đánh giá chất lượng hệ thống dịch tự động Đánh giá chất lượng hệ thống dịch tự động hoạt động nhằm xác định mức độ hoàn thiện dịch máy tính đưa so sánh chất lượng dịch hệ thống dịch tự động khác 1.2.3.1 Phương pháp đánh giá chủ quan Đánh giá chủ quan người trực tiếp thực hiện, dựa việc đánh giá thang điểm cho tiêu chí xây dựng sẵn Cách đánh giá chủ quan cho kết tin cậy tốn nhiều thời gian chi phí, có phụ thuộc vào khả người đánh giá a Đánh giá tính trơi chảy tính đầy đủ sử dụng thang điểm Hai số thông số đánh giá thông dụng phương pháp chủ quan người thực tính trơi chảy (fluency) tính đầy đủ (adequacy) Adequacy (Tính đầy đủ thông tin) all meaning most meaning much meaning little meaning none Fluency (Tính trơi chảy) D flawless English good English non-native English disfluent English incomprehensible b Đánh giá hình thức xếp hạng ho c Đánh giá thơng qua hiệu đính dịch 1.2.3.2 Phương pháp đánh giá khách quan (đánh giá tự động) aN cD Đánh giá khách quan sử dụng chương trình thay cho người để đánh giá Các chương trình so khớp đo tỉ lệ lỗi kết từ hệ thống dịch với câu dịch tham khảo có sẵn a Chỉ số WER (Word Error Rate) b Chỉ số MWER (Multi-Reference WER) an c Chỉ số PER (Position-independent Error Rate) d Chỉ số TER (Translation Error Rate) f Chỉ số NIST g e Chỉ số BLEU 1.3 Các nghiên cứu liên quan đến xây dựng cải tiến chất lượng dịch tự động tiếng Việt Nghiên cứu xây dựng hệ thống dịch đánh giá chất lượng dịch - Nghiên cứu xây dựng hệ thống dịch Anh – Việt sử dụng mã nguồn MOSES tảng dịch thống kê Nhóm tác giả sử dụng liệu huấn luyện, kiểm thử IWSLT 2015 đánh giá kết số BLEU D - Nghiên cứu xây dựng kho ngữ liệu gồm 880.000 cặp câu song ngữ Anh – Việt 11 triệu câu tiếng Việt, sau sử dụng mơ hình dịch thống kê mã nguồn MOSES để xây dựng hệ thống dịch Anh – Việt Kết hệ thống dịch đánh giá so sánh với kết dịch Google Microsoft cD ho - Nghiên cứu xây dựng hệ thống dịch sử dụng mạng nơ ron tập liệu đánh giá IWSLT 2015 số ngơn ngữ phổ biến, có cặp ngôn ngữ Anh – Việt aN - Nghiên cứu tiếp cận xây dựng hệ thống dịch thông qua ngôn ngữ trung gian để xây dựng hệ thống dịch cặp ngôn ngữ Séc – Việt, sử dụng tiếng Anh làm ngôn ngữ trung gian Nghiên cứu xây dựng cải tiến kho ngữ liệu tiếng Việt g an Để giải tốn xử lý ngơn ngữ tiếng Việt, có dịch máy, nhiều nhóm nghiên cứu xây dựng kho ngữ liệu dành riêng cho tiếng Việt, đồng thời đưa giải pháp để nâng cao chất lượng kho ngữ liệu - Kho ngữ liệu tiếng Việt Vietlex chứa khoảng 80.000.000; Đề tài KC01.01/06-10, nhánh đề tài "Xử lí văn tiếng Việt" tiến hành nghiên cứu xây dựng kho ngữ liệu tiếng Việt kho ngữ liệu song ngữ Anh – Việt; Trung tâm Ngơn ngữ học Tính tốn – ĐH Khoa học Tự nhiên – TP.HCM thực xây dựng kho ngữ liệu tiếng Việt (tên VTB VCor) VTB có 201.594 câu, 5.501.225 lượt từ, ngữ liệu VCor có 17.095.994 câu (42 lĩnh vực) 10 GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT 2.1 Giới thiệu Mơ hình dịch kết q trình huấn luyện thuật tốn, biểu diễn số liệu thống kê, quy tắc, luật tối ưu sau trình Từ mơ hình dịch huấn luyện, đưa vào câu nguồn để mơ hình dự đốn kết đầu câu đích cần dịch Chính vậy, mơ hình dịch đóng vai trị định ảnh hưởng đến chất lượng hệ thống dịch an aN cD ho D g Như biểu diễn trên, thấy xây dựng mơ hình dịch tốt tạo nên hệ thống dịch có chất lượng, cần có hai yếu tố then chốt nguồn liệu phương pháp dịch: 2.2 - Nguồn liệu phải có chất lượng tốt số lượng lớn - Phương pháp dịch hiệu quả, phù hợp với ngôn ngữ, triệt tiêu tối đa nhập nhằng ngữ nghĩa Đánh giá chất lượng hệ thống dịch tự động tiếng Việt Quá trình đánh giá thực năm 2017, sử dụng kết dịch hai hệ thống Google Translate Microsoft Translator 11 Tổ chức đánh giá 2.2.1.1 Đánh giá theo phương pháp khách quan Các câu tiếng Anh tập liệu dịch sang tiếng Việt thông qua hàm API hệ thống Google Microsoft, sử dụng công cụ nhóm tác giả xây dựng Kết thu bảng sau Dữ liệu đánh giá tst2013 1000-cau tpp-tomtat tpp-chuong28 Loại en-vi en-vi en-vi en-vi BLEU 32 06 42 44 Google NIST WER 7.54 0.51 2.88 0.75 8.29 0.46 7.29 0.47 BLEU 27 04 40 33 Microsoft NIST 6.82 2.53 7.90 6.11 WER 0.58 0.82 0.51 0.58 D 2.2.1.2 Đánh giá theo phương pháp chủ quan ho Kết cho thấy liệu hội thoại, có 516 câu (đối với Google) 308 câu (đối với Microsoft), chiếm tỷ lệ 52% 30% Một số câu làm cho người đọc hiểu sai ý nghĩa Nhận xét, đánh giá cD aN Chất lượng hệ thống dịch tiếng Việt chưa tốt số nguyên nhân: Phương pháp dịch chưa phù hợp Kho ngữ liệu chưa đầy đủ an Đề xuất giải pháp đánh giá chất lượng dựa trình hiệu đính dịch g 2.2.3.1 Một số tồn phương pháp đánh giá chất lượng dịch Đánh giá chất lượng hệ thống dịch tự động phương pháp số đo nêu nghiên cứu áp dụng rộng rãi, nhiên số trường hợp cịn có hạn chế 2.2.3.2 Đề xuất số đánh giá chất lượng Chỉ số thời gian: Tpe = T/N Chỉ số thao tác: Ope = (D + I) / N 12 2.2.3.3 Giải pháp kết hợp hiệu đính dịch máy đánh giá chất lượng Đề xuất kết hợp hoạt động hiệu đính dịch máy với đánh giá chất lượng, giúp giảm chi phí nâng cao độ xác 2.2.3.4 Thực nghiệm Kết thực nghiệm cho thấy tương đồng số Tpe, Ope với số Edit Distance Word Error Rate 2.3 Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào kho ngữ liệu lớn Tổng quan D ho Các kho ngữ liệu tồn cách rời rạc, có cấu trúc định dạng khác nhau, dẫn đến việc sử dụng khai thác chúng khó khăn Có nhiều kho ngữ liệu xây dựng phục vụ, chia cho việc nghiên cứu xử lý tiếng Việt Các nghiên cứu liên quan cải tiến chất lượng kho ngữ liệu cD 2.3.2.1 Tổng quan tình hình nghiên cứu mở rộng kho ngữ liệu theo khía cạnh khối lượng aN - Mở rộng kho ngữ liệu theo hướng ngôn ngữ - Mở rộng theo hướng xây dựng bổ sung liệu an 2.3.2.2 Tổng quan tình hình nghiên cứu mở rộng kho ngữ liệu khía cạnh chất lượng 2.3.3.1 Mở rộng khối lượng kho ngữ liệu g Giải pháp nâng cao chất lượng kho ngữ liệu Nghiên cứu đề xuất kho ngữ liệu gồm hai phần: Phần tiêu đề (header) chứa thông tin ngữ liệu, ngôn ngữ Phần thân (body) chứa thông tin loại tài liệu: , ,…Mỗi tài liệu chứa mô tả cấu trúc phân cấp nó: chương, trang, mục,… mơ tả phân đoạn: (, , ) a) Hợp kho ngữ liệu 13 Thuật toán đề xuất để hợp hai kho ngữ liệu R1 R2, chứa liệu thuộc ngôn ngữ L1 L2: ho D o Hợp liệu cD o Hợp định dạng cấu trúc kho ngữ liệu aN Nghiên cứu xây dựng công cụ chuyển đổi kho ngữ liệu tồn để xây dựng kho ngữ liệu với cấu trúc định dạng chuẩn đề xuất c) Thêm liệu vào kho ngữ liệu 2.3.3.2 Cải tiến chất lượng kho ngữ liệu a) Cải tiến thơng qua q trình hậu xử lý g an b) Mở rộng ngôn ngữ kho ngữ liệu Đề xuất nghiên cứu xây dựng hệ thống hỗ trợ cho trình hậu xử lý, cho phép nạp kho ngữ liệu lớn hiển thị liệu cách trực quan để kiểm tra cải tiến liệu Ngoài ra, hệ thống cần phải hoạt động môi trường cộng tác, cho phép nhiều người dùng tham gia cải tiến liệu b) Xây dựng kho ngữ liệu làm giàu ngữ nghĩa Bước 1: Định nghĩa loại lớp dựa vào ngữ cảnh Bước 2: Xây dựng thuộc tính cho lớp định nghĩa 14 Bước 3: Nhận biết thực thể thuộc lớp định nghĩa Bước 4: Xây dựng thông tin cho thực thể c) Nhận dạng phân loại thử thể danh từ riêng Luận án đề xuất giải pháp kết hợp thuật toán Maximum Matching phân tích mối quan hệ thành tố văn bản, gồm bước tách từ nhận diện danh từ riêng: d) Giải pháp xác định ranh giới từ tiếng Việt Đề xuất giải pháp tính điểm từ đơn âm tiết đứng cạnh để dự đốn từ có phải từ ghép hay không: D 𝑠𝑐𝑜𝑟𝑒(𝑤𝑖 , 𝑤𝑗 ) = 𝑐𝑜𝑢𝑛𝑡(𝑤𝑖 𝑤𝑗 ) − 𝛿 𝑐𝑜𝑢𝑛𝑡(𝑤𝑖 ) × 𝑐𝑜𝑢𝑛𝑡(𝑤𝑗 ) ho Trong đó, score(wiwj) điểm hai từ đứng cạnh nhau; count(wiwj) số lần xuất cụm từ wiwj, count(wi) số lần xuất từ wi, δ hệ số để loại trừ cụm từ xuất tần suất thấp cD Đánh giá vai trò kho ngữ liệu 2.4 aN Nghiên cứu triển khai thực nghiệm xây dựng hệ thống dịch với kho ngữ liệu có độ lớn khác nhau, cho thấy với số lượng liệu lớn chất lượng dịch tốt Tổng quan an Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào mơ hình máy học mạng nơ ron g Có nhiều cơng trình nghiên cứu giải pháp cải tiến chất lượng mơ hình dịch thống kê thời gian vừa qua, nhiên kết tổ chức đánh giá cho thấy có chất lượng cịn thấp Giải pháp cải tiến chất lượng dịch tiếng Việt mơ hình học máy mạng nơ ron NMT thường mạng nơ ron kích thước lớn được huấn luyện, lưu trữ véc tơ biểu diễn thông tin liên kết từ ngữ cảnh, có khả dịch tốt câu văn dài 15 Mơ hình RNN bao gồm trạng thái ẩn (hidden state) h cho kết đầu y nhận chuỗi đầu vào x = (x1, x2, … xT) Tại thời điểm t, trạng thái ẩn h mơ hình RNN cập nhật theo cơng thức: h = f(h,xt), f hàm kích hoạt phi tuyến D Từ liệu huấn luyện đầu vào, mạng RNN học xác suất phân bố chuỗi dự đoán từ chuỗi đưa vào 2.4.2.1 Các bước xây dựng hệ thống dịch NMT ho a Biểu diễn liệu đầu vào b Xây dựng mã hóa (Encoder) an aN cD c Xây dựng giải mã (Decoder) g Kết xây dựng hệ thống dịch Nghiên cứu tiến hành ứng dụng phương pháp dịch thông kê phương pháp dịch sử dụng mạng nơ ron để triển khai huấn luyện mơ hình dịch, sử dụng mã nguồn Moses OpenNMT, kết sau: OpenNMT Moses BLEU 25,4 23,8 NIST 5,61 5,10 Số liệu cho thấy, tập liệu đầu vào, mơ hình dịch sử dụng mạng nơ ron cho kết tốt mơ hình dịch thống kê thông qua điểm đánh giá BLEU NIST 16 Đề xuất giải pháp xây dựng hệ thống dịch ngữ nghĩa Luận án đề xuất mở rộng mơ hình dịch mạng nơ ron giải pháp sử dụng nhớ dịch phần tiền xử lý sử dụng kho ngữ liệu ontology để làm giàu ngữ nghĩa dịch biểu diễn đầy đủ thông tin dịch máy phần hậu xử lý ho D 2.5 Kết luận Chương g an aN cD Để kết nối chức hệ thống dịch, cần thực hiện: Xây dựng hệ thống dịch mơ hình học máy sử dụng mạng nơ ron: thực theo đề xuất mục 2.4.2 Tìm phân tách khái niệm từ văn dịch: thực theo giải pháp đề xuất mục 2.3.4 Liên kết khái niệm kho ngữ liệu làm giàu Xây dựng kho ngữ liệu làm giàu ngữ nghĩa Xây dựng giao diện trực quan để thể ngữ nghĩa Qua thực nghiệm cho thấy, đề xuất cải tiến kho liệu cải tiến phương pháp dịch góp phần làm tăng chất lượng mơ hình dịch tự đồng kho so sánh với mơ hình dịch thống kê số hệ thống khác 17 THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 3.1 Giới thiệu Với giải pháp cải tiến kho ngữ liệu cải tiến mơ hình dịch đề xuất Chương 2, luận án tiến hành tổng hợp để thực nghiệm xây dựng hệ thống dịch chuyên ngành lĩnh vực văn quy phạm pháp luật đánh giá kết Hệ thống triển khai thử nghiệm cho người dùng để ghi nhận đánh giá người dùng bên cạnh số đánh giá chất lượng khác Quy trình sau: cD ho D 3.2 Xây dựng kho ngữ liệu Quy trình bước triển khai aN Quá trình xây dựng kho ngữ liệu: g an Xây dựng kho ngữ liệu song ngữ số lượng lớn (1) Tìm kiếm nguồn tài nguyên phù hợp: Các trang web cung cấp văn quy phạm pháp luật, tài liệu học tập, tài liệu khoa học, tài liệu học tiếng Anh cung cấp môi trường Internet, trang web từ điển, trang web cung cấp mẫu câu song ngữ, trang web xem phim song ngữ Anh – Việt, trang web tin tức có cung cấp dịch ngơn ngữ khác nhau…, tài liệu Việt 18 hóa phần mềm mã nguồn mở, ứng dụng web, bao gồm dịch chức năng, hướng dẫn sử dụng, điều khoản sử đụng… (2) Thực bước tiền xử lý liệu Kết trình xây dựng kho ngữ liệu thu 1.479.000 cặp câu song ngữ Anh – Việt, có 460.000 cặp câu song ngữ lĩnh vực văn quy phạm phát luật Số lượng câu Lĩnh vực 460.000 25,8 31,2 180.000 839.000 7,2 18,5 8,4 24,1 D Văn quy phạm pháp luật Hội thoại Lĩnh vực khác Chiều dài câu Chiều dài câu tiếng Anh (từ) tiếng Việt (từ) ho (3) Chuẩn hóa làm cho liệu xác cách xác định ranh giới từ tiếng Việt xác định danh từ riêng Xây dựng công cụ hỗ trợ mở rộng ngôn ngữ ngữ nghĩa cD g an aN Xây dựng môi trường làm việc cộng tác cho phép gọi hệ thống dịch tự động để mở rộng ngôn ngữ cho kho ngữ liệu, thu thập liệu song song từ website đa ngữ cho phép cải tiến liệu thông qua chức hậu xử lý Xây dựng kho ngữ liệu ontology Bước 1: Định nghĩa lớp dựa vào ngữ cảnh hay lĩnh vực kho nhằm xây dựng ontology: Xác định domain; Liệt kê, định nghĩa khái niệm; Xác định lớp, phân cấp lớp 19 Có tổng cộng 179 lớp, có 14 lớp 165 lớp Hình minh họa số lớp cấu trúc phân cấp chúng D Bước 2: Xây dựng thuộc tính cho lớp định nghĩa ho Bước 3: Nhận diện từ cụ thể kho ngữ liệu thể lớp định nghĩa Việc nhận biết từ thuộc lớp dựa vào ngữ cảnh cD Bước 4: Xây dựng giá trị cho thuộc tính thể thực thể nhận diện Kết thực nghiệm xây dựng ứng dụng dịch Anh – Việt lĩnh vực văn pháp luật (VIKI Translator) Quy trình bước triển khai an aN 3.3 g Xây dựng hệ thống dịch tiếng Anh – tiếng Việt lĩnh vực văn hành chính, pháp luật sử dụng mơ hình mạng nơ ron kết hợp kho ngữ liệu lớn thu thập Quá trình triển khai xây dựng mơ hình dịch thực bước sau: 20 Tổ chức huấn luyện mơ hình dịch điều chỉnh tham số mơ hình Thiết kế mạng nơ ron: Nghiên cứu sử dụng mã nguồn mở OpenNMT thiết kế mạng nơ ron thành phần hệ dịch để huấn luyện mơ hình dịch D Huấn luyện mơ hình dịch: Số lớp ẩn của mạng nơ ron số nút lớp: enc_layers = 2, dec_layers = 2, rnn_size = 500 Kích thước từ vựng: src_vocab_size = 50.000, tgt_vocab_size = 50.000 Tại vòng lặp lên end_epoch = 21, tham số biểu diễn chất lượng mơ hình (perplexity) đạt 4,80 dịch từ Anh sang Việt 4,66 dịch từ Việt sang Anh Xây dựng mô đun hệ thống dịch 3.4 Đánh giá kết g an aN cD ho Xây dựng thành phần hệ thống dịch kết nối với máy dịch tự động Hệ thống dịch VIKI Translator hoạt động tảng web, kết nối trực tiếp đến máy chủ cài đặt mô đun dịch theo cách thức sau: Kết thực nghiệm Sử dụng liệu mô tả Chương để đánh giá chất lượng hệ thống Kết nhận điểm BLEU 29 Sử dụng tập liệu nói trên, thực nghiệm đối chiếu với hệ thống dịch Anh – Việt tương tự hệ thống dịch văn Cồ Việt, cho kết điểm BLEU 27 hệ thống EVTran đạt 11 21 Hệ thống VIKI Translator Hệ thống Cồ Việt Hệ thống Evtran BLEU 29,1 27,1 11,3 NIST 5,78 5,62 3,32 WER 0,63 0,68 0,93 D Qua so sánh thấy rằng, cách sử dụng kho ngữ liệu số lượng lớn, chất lượng tốt, hệ thống dịch dựa mơ hình mạng nơ ron mà nghiên cứu xây dựng cho kết tốt Bên cạnh đó, nhờ kho ngữ liệu tập trung vào lĩnh vực văn pháp luật thu thập nên hệ thống dịch dịch phần lớn thuật ngữ liên quan đến lĩnh vực này, số hệ thống khác có tượng dịch sai cụm từ quan trọng Đánh giá người dùng g an aN cD ho Hệ thống dịch VIKI Translator triển khai từ tháng 11 năm 2017 đến nay, cung cấp cho người sử dụng chức dịch trực tuyến từ tiếng Anh sang tiếng Việt tiếng Việt sang tiếng Anh thông qua môi trường Internet địa chỉ: https://vikitranslator.com Giao diện hệ thống VIKI Translator hình Tổng hợp số kết đạt qua trình triển khai thực nghiệm hệ thống: o Tổng số lượt truy cập sử dụng ứng dụng tất tảng: gần 2.000.000 người dùng 22 o Số lượt truy cập website hàng tháng: gần 70.000 người o Lượt tải ứng dụng Windows: 40.000 lượt o Tổng số viết giới thiệu, hướng dẫn sử dụng từ website khác: 30 o Tổng số liên kết từ website khác trỏ đến VIKI Translator (backlink): 582.561 backlink D cD ho Biểu đồ số lượng người sử dụng hàng tháng Thống kê tổng số người dùng 3.5 Kết luận Chương aN g an Nội dung Chương trình bày bước thực nghiệm triển khai xây dựng hệ thống dịch tự động Anh – Việt sở tổng hợp giải pháp cải tiến mặt kho ngữ liệu phương pháp dịch đề xuất chương trước Hệ thống VIKI Translator xây dựng cho kết vượt trội so với hệ thống dịch tiếng Việt qua số liệu đánh giá cụ thể điểm BLEU, NIST WER Hệ thống dịch Anh – Việt triển khai thực tế gần năm có 1,5 triệu lượt sử dụng, nhận đánh giá tích cực từ phía người dùng Qua cho thấy giải pháp cải tiến mà nghiên cứu đề xuất góp phần xây dựng hệ thống dịch có chất lượng tốt, phù hợp để triển khai tiếp tục nghiên cứu phát triển cho toán dịch tự động tiếng Việt 23 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Luận án triển khai nghiên cứu yếu tố quan trọng ảnh hưởng đến chất lượng kết hệ thống dịch tự động tiếng Việt kho ngữ liệu phương pháp dịch, từ đề xuất giải pháp cụ thể nhằm cải tiến chất lượng hệ thống dịch tiếng Việt Các nội dung nghiên cứu cụ thể sau: cD ho D - Nghiên cứu phương pháp đánh giá chất lượng dịch máy, triển khai đánh giá tổng quát chi tiết chất lượng hệ thống dịch tiếng Việt hoạt động nay, cung cấp số liệu làm sở để phân tích, so sánh hệ thống dịch chất lượng dịch lĩnh vực khác hệ thống so sánh với chất lượng hệ thống dịch ngôn ngữ khác Trên sở đưa nhìn tổng thể chất lượng hệ thống dịch tiếng Việt có Nghiên cứu đề xuất phương pháp số đo để tính tốn chất lượng kết dịch q trình người dùng hiệu đính dịch máy Phương pháp đảm bảo tính xác, đồng thời tiết kiệm nguồn lực tổ chức đánh giá g an aN - Nghiên cứu kho ngữ liệu phục vụ cho dịch tự động tiếng Việt đề xuất giải pháp nhằm cải tiến chất lượng kho ngữ liệu Các giải pháp cải tiến khía cạnh cải tiến chất lượng số lượng, bao gồm giải pháp mở rộng hợp kho ngữ liệu; giải pháp xây dựng kho ngữ liệu lớn; giải pháp xác định danh từ riêng cách kết hợp thuật toán Maximum Matching phân tích mối quan hệ thành tố văn bản; giải pháp xác định giới hạn từ ghép tiếng Việt từ mơ hình phân phối từ cụm từ văn Trên sở nghiên cứu tiến hành xây dựng mô đun phần mềm để mô giải pháp đề xuất thử nghiệm cho kết tốt Từ giải pháp hợp mở rộng kho ngữ liệu nêu trên, nghiên cứu triển khai thu thập kho ngữ liệu có số lượng lớn, chất lượng tốt gồm 1.479.000 cặp câu song ngữ Anh – Việt để phục vụ cho hệ thống dịch tự động tiếng Việt 24 - Nghiên cứu phương pháp dịch tự động đề xuất giải pháp ứng dụng mơ hình học máy mạng nơ ron vào toán dịch tự động tiếng Việt nhằm nâng cao chất lượng hệ thống dịch Nghiên cứu tổ chức cài đặt huấn luyện mô hình dịch thống kê dịch sử dụng mạng nơ ron so sánh kết mơ hình dịch này, qua cho thấy phù hợp mơ hình dịch sử dụng mạng nơ ron toán dịch tự động tiếng Việt Nghiên cứu đề xuất mơ hình hệ thống dịch tự động hướng ngữ nghĩa, thơng qua hệ thống dịch cung cấp đầy đủ ngữ nghĩa theo ngữ cảnh văn cần dịch giúp cho người đọc hiểu toàn vẹn nội dung văn cD ho D - Xây dựng triển khai hệ thống dịch tự động Anh – Việt có tên gọi VIKI Translator, cung cấp cho người dùng thông qua môi trường Internet Hệ thống dịch sản phẩm ứng dụng giải pháp đề xuất nghiên cứu, xây dựng có sở đánh giá lại tính hiệu giải pháp cải tiến chất lượng dịch tiếng Việt Hệ thống có triệu lượt sử dụng đánh giá tích cực từ phía người dùng Hướng phát triển an aN Để hoàn thiện giải pháp hệ thống dịch tự động tiếng Việt giúp hệ thống đạt chất lượng tốt hơn, thời gian tới nghiên cứu sinh tiếp tục tập trung nghiên cứu nội dung sau đây: g - Tiếp tục nghiên cứu, cải tiến phương pháp dịch sử dụng mạng nơ ron nhằm đạt hiệu cao - Xây dựng kho ngữ liệu phong phú nhiều phương pháp khác nhau, đồng thời mô tả ngữ nghĩa liệu kết hợp phân tích ngữ nghĩa phương pháp dịch - Mở rộng xây dựng kho ngữ liệu lĩnh vực khác triển khai đánh giá, phân tích so sánh - Đánh giá yếu tố ngữ cảnh toàn văn để làm tham số đầu vào cho hệ thống dịch, từ nâng cao chất lượng kết dịch ... tổng quan nghiên cứu tổng quan vấn đề cải tiến chất lượng dịch tự động 3 Chương Giải pháp cải tiến chất lượng dịch tự động tiếng Việt Đánh giá chất lượng số hệ thống dịch tự động Anh - Việt phổ... thống dịch tiếng Việt, từ phân tích đề xuất giải pháp nhằm nâng cao chất lượng dịch tự động tiếng Việt Nhằm góp phần giải vấn đề nêu trên, nghiên cứu sinh chọn đề tài ? ?Nghiên cứu giải pháp cải tiến. .. phổ biến nay, đề xuất giải pháp cải tiến chất lượng dịch tự động cặp ngôn ngữ tiếng Việt – tiếng Anh aN - Xây dựng ứng dụng thực nghiệm dịch tự động từ tiếng Anh sang tiếng Việt ngược lại lĩnh

Ngày đăng: 01/10/2022, 16:22

HÌNH ẢNH LIÊN QUAN

Mô hình dịch là kết quả của quá trình huấn luyện của các thuật toán, biểu diễn các số liệu thống kê, các quy tắc, luật đã được tối ưu  sau q trình này - Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt
h ình dịch là kết quả của quá trình huấn luyện của các thuật toán, biểu diễn các số liệu thống kê, các quy tắc, luật đã được tối ưu sau q trình này (Trang 12)
Số liệu trên cho thấy, cùng một tập dữ liệu đầu vào, mơ hình dịch sử dụng mạng nơ ron cho kết quả tốt hơn mơ hình dịch thống kê  thông qua điểm đánh giá BLEU và NIST - Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt
li ệu trên cho thấy, cùng một tập dữ liệu đầu vào, mơ hình dịch sử dụng mạng nơ ron cho kết quả tốt hơn mơ hình dịch thống kê thông qua điểm đánh giá BLEU và NIST (Trang 17)
Mơ hình RNN bao gồm các trạng thái ẩn (hidden state) h và cho kết quả đầu ra y khi nhận được chuỗi đầu vào x = (x1, x2, … xT) - Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt
h ình RNN bao gồm các trạng thái ẩn (hidden state) h và cho kết quả đầu ra y khi nhận được chuỗi đầu vào x = (x1, x2, … xT) (Trang 17)
Luận án đề xuất mở rộng mơ hình dịch mạng nơ ron bằng giải pháp sử dụng bộ nhớ dịch ở phần tiền xử lý và sử dụng kho ngữ liệu  ontology để làm giàu ngữ nghĩa của bản dịch và biểu diễn đầy đủ nhất  thông tin của bản dịch máy ở phần hậu xử lý - Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt
u ận án đề xuất mở rộng mơ hình dịch mạng nơ ron bằng giải pháp sử dụng bộ nhớ dịch ở phần tiền xử lý và sử dụng kho ngữ liệu ontology để làm giàu ngữ nghĩa của bản dịch và biểu diễn đầy đủ nhất thông tin của bản dịch máy ở phần hậu xử lý (Trang 18)
Với các giải pháp cải tiến kho ngữ liệu và cải tiến mô hình dịch đã được đề xuất ở Chương 2, luận án tiến hành tổng hợp để thực  nghiệm xây dựng một hệ thống dịch chuyên ngành trong lĩnh vực văn  bản quy phạm pháp luật và đánh giá kết quả - Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt
i các giải pháp cải tiến kho ngữ liệu và cải tiến mô hình dịch đã được đề xuất ở Chương 2, luận án tiến hành tổng hợp để thực nghiệm xây dựng một hệ thống dịch chuyên ngành trong lĩnh vực văn bản quy phạm pháp luật và đánh giá kết quả (Trang 19)
Tổ chức huấn luyện mơ hình dịch và điều chỉnh tham số mơ hình  - Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt
ch ức huấn luyện mơ hình dịch và điều chỉnh tham số mơ hình (Trang 22)
w