1. Trang chủ
  2. » Luận Văn - Báo Cáo

LUẬN án TIẾN sĩ kỹ THUẬT NGHIÊN cứu GIẢI PHÁP cải TIẾN CHẤT LƯỢNG DỊCH tự ĐỘNG TIẾNG VIỆT

158 15 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Giải Pháp Cải Tiến Chất Lượng Dịch Tự Động Tiếng Việt
Tác giả Nguyễn Văn Bình
Người hướng dẫn PGS.TS. Huỳnh Công Pháp, GS. Vincent Berment
Trường học Đại học Đà Nẵng
Chuyên ngành Khoa học máy tính
Thể loại luận án
Năm xuất bản 2021
Thành phố Đà Nẵng
Định dạng
Số trang 158
Dung lượng 5,24 MB

Cấu trúc

  • Đà Nẵng, 12/2021

  • Đà Nẵng, 12/2021

  • LỜI CAM ĐOAN

  • MỤC LỤC

  • DANH MỤC CÁC TỪ VIẾT TẮT

  • DANH MỤC BẢNG BIỂU

  • DANH MỤC HÌNH VẼ

  • MỞ ĐẦU

  • 1. Đặt vấn đề

  • 2. Mục tiêu nghiên cứu

  • 3. Đối tượng và phạm vi nghiên cứu

  • 4. Phương pháp nghiên cứu

  • 5. Bố cục của luận án

  • 6. Đóng góp chính của luận án

  • TỔNG QUAN VỀ DỊCH TỰ ĐỘNG VÀ CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT HIỆN NAY

  • 1.1. Giới thiệu

  • 1.2. Nghiên cứu tổng quan về dịch tự động, kho ngữ liệu, các phương pháp cải tiến và đánh giá chất lượng dịch tự động

    • Các phương pháp dịch tự động

    • Kho ngữ liệu trong dịch tự động

    • Đánh giá chất lượng hệ thống dịch tự động

  • 1.3. Các nghiên cứu liên quan đến xây dựng và cải tiến chất lượng dịch tự động tiếng Việt

    • Nghiên cứu xây dựng hệ thống dịch và đánh giá chất lượng dịch

    • Nghiên cứu xây dựng và cải tiến kho ngữ liệu tiếng Việt

  • 1.4. Thực trạng chất lượng dịch tự động tiếng Việt

  • 1.5. Kết luận Chương 1

  • GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT

  • 2.1. Giới thiệu

  • 2.2. Đánh giá chất lượng các hệ thống dịch tự động tiếng Việt

    • Tổ chức đánh giá

    • Nhận xét, đánh giá

    • Đề xuất giải pháp đánh giá chất lượng dựa trên quá trình hiệu đính bản dịch

  • 2.3. Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào kho ngữ liệu lớn

    • Tổng quan

    • Các nghiên cứu liên quan đến cải tiến chất lượng kho ngữ liệu

    • Giải pháp nâng cao chất lượng kho ngữ liệu

    • Đánh giá vai trò của kho ngữ liệu đối với kết quả hệ thống dịch

  • 2.4. Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào mô hình máy học mạng nơ ron

    • Tổng quan

    • Giải pháp cải tiến chất lượng dịch tiếng Việt bằng mô hình học máy mạng nơ ron

    • Kết quả xây dựng hệ thống dịch

    • Giải pháp xây dựng hệ thống dịch ngữ nghĩa

  • 2.5. Kết luận Chương 2

  • HỆ THỐNG DỊCH TỰ ĐỘNG ANH-VIỆT VIKI TRANSLATOR

  • 3.1. Giới thiệu

  • 3.2. Xây dựng kho ngữ liệu

    • Quy trình các bước triển khai

    • Xây dựng kho ngữ liệu song ngữ số lượng lớn

    • Xây dựng công cụ hỗ trợ mở rộng ngôn ngữ và ngữ nghĩa

    • Xây dựng kho ngữ liệu ontology

  • 3.3. Kết quả thực nghiệm xây dựng ứng dụng dịch Anh – Việt lĩnh vực văn bản pháp luật (VIKI Translator)

    • Quy trình các bước triển khai

    • Tổ chức huấn luyện mô hình dịch và điều chỉnh tham số mô hình

    • Xây dựng các mô đun của hệ thống dịch

  • 3.4. Đánh giá kết quả

    • Kết quả thực nghiệm

    • Đánh giá của người dùng

  • 3.5. Kết luận Chương 3

  • KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

  • 1. Kết luận

  • 2. Hướng phát triển

  • DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ

  • TÀI LIỆU THAM KHẢO

Nội dung

Mục tiêu nghiên cứu 14

Mục tiêu chung của nghiên cứu là đề xuất được các giải pháp cụ thể nhằm cải tiến chất lượng của các hệ thống dịch tiếng Việt nói chung, trong đó phân tích cụ thể cho bài toán dịch tự động giữa cặp ngôn ngữ Việt – Anh Các mục tiêu cụ thể gồm:

- Đánh giá được thực trạng của các hệ thống dịch tự động tiếng Việt đang hoạt

- Đề xuất được các giải pháp nhằm nâng cao chất lượng của hệ thống dịch giữa cặp ngôn ngữ Anh – Việt;

- Xây dựng được hệ thống dịch tự động Anh – Việt trong lĩnh vực cụ thể là văn bản quy phạm pháp luật.

Phương pháp nghiên cứu 15

- Phương pháp lý thuyết: Nghiên cứu các tài liệu có liên quan đến các nội dung0 về đặc trưng của ngôn ngữ tiếng Việt, biểu diễn và lưu trữ văn bản bản, trích rút văn bản, phương pháp đánh giá, phương pháp xây dựng kho ngữ liệu, các phương pháp dịch máy, học máy sử dụng mạng nơ ron, xử lý dữ liệu.

- Phương pháp thực nghiệm: Trên cơ sở kết quả nghiên cứu liên quan, triển khai thực nghiệm đánh giá các hệ thống dịch tự động, triển khai xây dựng kho ngữ liệu lớn phục vụ hệ thống dịch, cải tiến chất lượng kho ngữ liệu, xây dựng và huấn luyện mô hình dịch cho cặp ngôn ngữ Anh – Việt.

Bố cục của luận án 15

Trên cơ sở các mục tiêu của nghiên cứu đã đề ra và giới hạn đối tượng, phạm vi nghiên cứu, nhằm đảm bảo tính hợp lý và trình tự nghiên cứu đã thực hiện trong thời gian triển khai nghiên cứu, luận án được tổ chức thành ba chương và phần mở đầu, kết luận, cụ thể như sau:

Chương 1 Tổng quan về dịch tự động và chất lượng dịch tự động tiếng Việt hiện nay Chương này trình bày tổng quan các vấn đề được triển khai nghiên cứu trong luận án, bao gồm các khái niệm cơ bản trong lĩnh vực dịch tự động, các phương pháp dịch, kho ngữ liệu dùng trong dịch tự động, các phương pháp đánh giá chất lượng hệ thống dịch và các nghiên cứu tổng quan của vấn đề cải tiến chất lượng dịch tự động Nội dung chương này cũng giới thiệu các hệ thống dịch tiếngViệt hiện nay

E 1 0 0 và đánh giá khái quát chất lượng của hệ thống, phân tích các khía cạnh cần nghiên cứu và tổ chức thực nghiệm nhằm cải tiến chất lượng của hệ thống dịch, tập trung đến vấn đề quan trọng nhất là cải tiến kho ngữ liệu và áp dụng phương pháp dịch phù hợp.

Chương 2 Giải pháp cải tiến chất lượng dịch tự động tiếng Việt Trên cơ sở các phương pháp đánh giá chất lượng hệ thống dịch tiếng Việt đã được nghiên cứu, bao gồm phương pháp đánh giá chủ quan và khách quan, Chương 2 trình bày quy trình đánh giá và xây dựng kịch bản đánh giá chất lượng của một số hệ thống dịch tự động Anh - Việt phổ biến nhất hiện nay Từ thực trạng chất lượng dịch nhận được luận án đề xuất một số giải pháp nhằm cải tiến chất lượng của các kho ngữ liệu tiếng Việt ở khía cạnh số lượng và chất lượng, sau đó triển khai thực nghiệm một số giải pháp cải tiến và tiến hành xây dựng kho ngữ liệu lớn phục vụ việc huấn luyện các mô hình dịch tiếng Việt chất lượng tốt Về phương pháp dịch, luận án đề xuất áp dụng mô hình dịch mạng nơ ron cho cặp ngôn ngữ Anh – Việt để ứng dụng những ưu điểm nổi bật của phương pháp học máy sử dụng mạng nơ ron Đồng thời, đề xuất giải pháp để triển khai hệ thống dịch ngữ nghĩa dựa trên ngữ cảnh, giúp cho các hệ thống dịch có thể cung cấp thêm nhiều tầng ngữ nghĩa cho người dùng để hiểu được toàn vẹn nội dung văn bản.

Chương 3 Thực nghiệm và đánh giá kết quả Từ các giải pháp đề xuất ở

Chương 2, nội dung Chương 3 triển khai các bước thực nghiệm xây dựng kho ngữ liệu lớn và xây dựng mô hình dịch máy mạng nơ ron cho cặp ngôn ngữ Anh – Việt,sau đó xây dựng hệ thống dịch lĩnh vực văn bản quy phạm pháp luật VIKITranslator và triển khai trên môi trường Internet để cung cấp dịch vụ cho người

E 10 dùng thực tế, qua đó đánh giá hiệu quả của hệ thống dịch và các phương pháp đã đề0 xuất.

Đóng góp chính của luận án 16

Giới thiệu 19

Theo định nghĩa của từ điển Cambridge, dịch tự động hay còn gọi là dịch máy (tiếng Anh: machine translation, thường được viết tắt trong tiếng Anh là: MT) là quá trình chuyển đổi văn bản từ ngôn ngữ này sang ngôn ngữ khác bằng máy tính.

Theo mô tả tại [4], thuật ngữ dịch tự động được dùng để chỉ các hệ thống máy tính chịu trách nhiệm tạo ra các bản dịch và tự động hóa toàn bộ quá trình dịch, có thể có hoặc không có sự hỗ trợ của con người Dịch tự động (MT) khác với phương pháp dịch CAT (Computer-Aided Translation), trong đó người dịch sẽ sử dụng một phần mềm máy tính để hỗ trợ cho việc dịch thuật nhằm tăng hiệu quả của quá trình dịch thuật và tiết kiệm thời gian.

Trong các nghiên cứu về lĩnh vực dịch tự động, văn bản đầu vào cần dịch được gọi là văn bản nguồn (được viết bằng ngôn ngữ nguồn) và văn bản đã được máy tính dịch gọi là văn bản đích (được viết bằng ngôn ngữ đích) Tổng quan về bài toán dịch tự động có thể mô tả trong Hình 1.1. Âm thanh

Chuyể n đổi sang âm thanh, hình ảnh, tín hiệu

Bộ máy dịch tự động

Hình 1.1 Tổng quan bài toán dịch tự động

Mục tiêu lý tưởng của các hệ thống dịch là tạo ra được các bản dịch chất lượng cao, có thể sử dụng và thay thế cho công việc dịch thuật thủ công của con người Tuy

Dữ liệu đầu dịch vào

E 1 0 0 nhiên, trên thực tế kết quả dịch cần phải được chỉnh sửa lại Quá trình chỉnh sửa kết quả dịch của các hệ thống dịch tự động được gọi là quá trình hiệu đính bản dịch (post- edited).

Xây dựng và ứng dụng các hệ thống dịch tự động là xu thế tất yếu hiện nay, vì các hệ thống này sẽ giúp cho việc dịch thuật giữa các ngôn ngữ trở nên dễ dàng, nhanh chóng và tiết kiệm Tính đến năm 2021, sau 15 năm triển khai, hệ thống Google Translate đã hỗ trợ dịch tự động 109 ngôn ngữ, cung cấp dịch vụ cho hàng triệu người sử dụng mỗi ngày Trong khi đó, Microsoft Translator cũng là hệ thống dịch tự động được nhiều người sử dụng và hỗ trợ 90 ngôn ngữ Một số sản phẩm phục vụ dịch tự động giữa tiếng Việt với các ngôn ngữ khác cũng được nghiên cứu như phần mềm EVTtran (EV-Shuttle), công cụ dịch văn bản của Lạc Việt, Vdict.

Bên cạnh tính năng dịch trực tiếp văn bản còn có nhiều dịch vụ cung cấp ứng dụng khác có sử dụng kết quả của hệ thống dịch: dịch toàn bộ trang web, dịch nội dung email, nhận dạng văn bản trên hình ảnh và dịch, nhận dạng giọng nói và dịch sang ngôn ngữ khác Nguyên tắc chung của các hệ thống này là xử lý dữ liệu đầu vào (hình ảnh, âm thanh, ký hiệu…) thành văn bản nguồn, sau đó gọi các hàm API của các hệ thống dịch để đưa văn bản nguồn vào và lấy kết quả dịch, từ đó chuyển đổi thành dữ liệu đầu ra phù hợp.

Như thể hiện ở Hình 1.1, dữ liệu đầu vào của một hệ thống dịch thuật thông thường biểu diễn ở dạng văn bản Các dữ liệu khác như hình ảnh, âm thanh… sẽ được nhận dạng và chuyển đổi sang dữ liệu văn bản trước khi đưa vào hệ thống dịch Tương tự, kết quả dịch là một văn bản và có thể sẽ được chuyển đổi sang các

E 1 0 định dạng khác (như âm thanh, lời nói) để hiển thị cho người dùng.0

Bộ máy dịch tự động là một chương trình máy tính có nhiệm vụ tiếp nhận văn bản ở ngôn ngữ nguồn, sau đó bằng các thuật toán của mình để đưa ra dự đoán kết quả dịch ở ngôn ngữ đích Các thuật toán ở bài toán dịch tự động hoạt động trên cơ sở tổng hợp và xử lý tri thức từ ngôn ngữ tự nhiên, chẳng hạn thông qua từ điển,các cặp câu dịch mẫu; các luật ngữ pháp; thống kê từ ngữ, mô hình ngôn ngữ…

Nghiên cứu tổng quan về dịch tự động, kho ngữ liệu, các phương pháp cải tiến và đánh giá chất lượng dịch tự động 21

Các phương pháp dịch tự động Ý tưởng về thiết kế các hệ thống dịch tự động để vượt qua các rào cản ngôn ngữ đã được đề cập từ thế kỷ 17 [4] Tuy nhiên, đến những năm 1930 mới bắt đầu có các bằng sáng chế và các nguyên mẫu đầu tiên mô tả về các hệ thống này Đến những năm 1950, các nhà khoa học đã bắt đầu nghiên cứu thành công những hệ thống có thể dịch những câu hoàn chỉnh giữa một số ngôn ngữ (như dịch từ tiếng Nga sang tiếng Anh) Từ năm 1980, dịch tự động bắt đầu phát triển nhanh chóng, các hệ thống dịch tự động mới xuất hiện và thương mại hóa, các nghiên cứu được mở rộng ở nhiều hướng tiếp cận khác nhau.

Trong quá trình phát triển của lĩnh vực dịch tự động, đã có nhiều phương pháp dịch được đề xuất và nghiên cứu Các phương pháp dịch được áp dụng rộng rãi và cho kết quả khả quan có thể kể đến là phương pháp dịch dựa trên ví dụ và phương pháp dịch thống kê.

1.2.1.1 Dịch tự động dựa trên ví dụ

E 1 0 Phương pháp dịch máy dựa trên ví dụ (EBMT: Example-Based Machine0 Translation) được đề xuất lần đầu tiên vào năm 1984 tại công trình [5] Phương pháp dịch này còn được tác giả gọi là phương pháp dịch tự động dựa trên suy luận từ các ví dụ, hay dịch máy theo nguyên lý tương tự, có ý tưởng chính như sau: việc dịch một câu đơn giản không cần dựa trên quá trình phân tích sâu về mặt ngôn ngữ, thay vào đó, chúng ta phân tách câu đầu vào thành các cụm từ rời rạc, sau đó dịch các cụm từ này sang ngôn ngữ khác, và cuối cùng chỉ cần ghép nối các cụm từ này lại với nhau theo một thứ tự đúng để tạo thành một câu dài hoàn chỉnh Việc dịch các cụm từ rời rạc sẽ được thực hiện theo nguyên tắc dịch tương tự, sử dụng các ví dụ mẫu để tham khảo.

Ba thành phần quan trọng của phương pháp dịch dựa trên ví dụ là: phân tách các cụm từ trên cơ sở đối sánh từ dữ liệu các ví dụ thực tế, xác định các văn bản dịch tương ứng và kết hợp các cụm từ để tạo thành văn bản đích.

Kết quả của phương pháp dịch này được minh họa theo Sato và Nagao tại [6] dưới đây, đã được chuyển sang tiếng Việt:

(1) He buys a book on international politics.

Anh ấy mua một quyển sổ tay. b I read a book on international politics.

Tôi đọc một quyển sách về chính trị quốc tế.

(3) Anh ấy mua một quyển sách về chính trị quốc tế.

Trong đó, (1) là câu nguồn cần dịch, (2) là các mẫu câu trong tập hợp dữ liệu ví dụ đã có sẵn, (3) là kết quả dịch (câu đích) Câu nguồn (1) được tách thành hai phân đoạn dựa trên các mẫu ví dụ tại (2a) và (2b) Sau đó ghép các bản dịch từ các câu ví dụ để thu được câu đích (3).

Mô hình tổng quát của phương pháp dịch dựa trên ví dụ thể hiện ở hình sau0

Hình 1.2 Mô hình tổng quát của phương pháp dịch dựa trên ví dụ

(1) Ở giai đoạn phân tích văn bản nguồn, phương pháp này thực hiện đối sánh các câu nguồn với tập câu ví dụ đã có sẵn để chọn các câu có chứa các cụm từ trong câu nguồn (2) Từ các cặp câu được chọn, thực hiện việc gióng hàng để tách các cụm từ tương ứng ở ngôn ngữ đích (3) Các cụm từ sau đó sẽ được ghép lại theo một cách phù hợp để tạo ra câu cần dịch (4) Trường hợp các câu đầu vào trùng khớp chính xác

E 1 0 0 với câu đã có sẵn trong dữ liệu thì không cần phải thực hiện các bước tách đoạn như ở trên mà lấy ngay câu đã dịch tương ứng.

Phương pháp dịch dựa trên ví dụ là một mô hình dịch trên nền tảng các kho dữ liệu, vì vậy độ chính xác của kết quả dịch phụ thuộc vào số mẫu ví dụ đã có sẵn. Với kho dữ liệu có số lượng các cặp câu ví dụ càng lớn thì chất lượng dịch đạt được càng tốt.

Tiếp cận dịch bằng ví dụ có nhiều ưu điểm:

• Phương pháp có thể áp dụng cho bất kỳ cặp ngôn ngữ nào, miễn là hệ thống có một tập các ví dụ đủ phong phú.

• Các ngôn ngữ nguồn và đích không cần phải được khảo sát trước về mặt từ vựng và ngữ pháp.

• Tập dữ liệu càng phong phú, chất lượng dịch càng cao Đây là ưu thế rất0 lớn so với một số phương pháp khác, một vài tiếp cận dịch có thể bị giảm chất lượng nếu tri thức dịch nhiều lên.

Tiếp cận dịch bằng ví dụ có điểm yếu đó là sự quá phụ thuộc vào chất lượng của các cặp ví dụ được sử dụng để làm mẫu và thuật toán đối sánh mẫu thực hiện khá chậm so với một số tiếp cận khác (vì chưa có thuật toán hiệu quả trong việc tìm kiếm sự xuất hiện của một đoạn văn bản trong toàn bộ tập mẫu).

Phương pháp dịch này phù hợp để dịch thuật đối với một số lĩnh vực hẹp, chiều dài các câu ngắn, ít có sự nhập nhằng ngữ nghĩa, chẳng hạn trong dự báo thời tiết, trong một số tài liệu kỹ thuật phù hợp.

1.2.1.2 Dịch tự động bằng phương pháp thống kê

Dịch tự động dựa trên phương pháp thống kê (SMT - Statistical Machine Translation) là một hướng phát triển đầy tiềm năng trong những năm vừa qua bởi những ưu điểm vượt trội so với các phương pháp khác [8] Thay vì xây dựng các từ điển, các quy luật chuyển đổi bằng tay, mô hình dịch thống kê tự động xây dựng các từ điển, các quy luật dựa trên kết quả thống kê có được từ các kho ngữ liệu Chính vì vậy, dịch máy dựa vào thống kê có thể áp dụng được cho bất kỳ cặp ngôn ngữ nào.

Dịch thống kê là phương pháp dịch máy, trong đó các bản dịch được tạo ra trên cơ sở thực hiện thống kê và phân tích các cặp câu song ngữ từ tập dữ liệu huấn luyện để tạo ra mô hình học máy [9] Chính vì vậy, phương pháp này khác biệt so với phương pháp dịch tự động dựa trên ví dụ hoặc một số các tiếp cận dựa trên luật đã được nghiên cứu trước đây.

Phương pháp dịch thống kê có thể được mô tả như sau: Câu đích được dịch theo phân bố xác suất p(e|f) trong đó e là ngôn ngữ đích dịch từ f là ngôn ngữ nguồn.

Phân phối xác suất p(e|f) trong mô hình ngôn ngữ thường được tiếp cận trực quan bằng cách áp dụng định lý Bayes:

- p(f|e) là xác suất để câu nguồn f là bản dịch của câu đích e (mô hình dịch)

-p(e) là xác suất chuỗi e thực sự xuất hiện trong ngôn ngữ đích (mô hình ngôn

Như vậy để giải quyết bài toán dịch thống

E 1 0 0 kê và tìm được xác suất xuất hiện của câu đích, cần thực hiện hai bài toán là tìm mô hình dịch và mô hình ngôn ngữ Câu dịch được chọn bằng cách tìm ra xác suất cao nhất theo công thức: ẽ = 𝑎𝑟𝑔 max 𝑝(𝑒| ) ƒ) ≈ 𝑝(ƒ|

Việc tìm kiếm trên câu đích trên tất cả các chuỗi có khả năng là bản dịch sẽ phát sinh vấn đề về hiệu suất của mô hình, cần phải áp dụng nhiều kỹ thuật để giới hạn không gian tìm kiếm nhưng vẫn đạt được chất lượng bản dịch máy.

Các nghiên cứu liên quan đến xây dựng và cải tiến chất lượng dịch tự động tiếng Việt 43

Cải tiến chất lượng dịch tự động được hiểu là thực hiện các hành động phù hợp để hệ thống dịch cho kết quả đạt chất lượng tốt hơn khi so sánh với kết quả của hệ thống dịch trước đó hoặc các hệ thống đã tồn tại Đã có nhiều nghiên cứu của các tác giả trong và ngoài nước trong lĩnh vực dịch tự động liên quan đến tiếng Việt, tập trung ở các khía cạnh: o Đánh giá chất lượng các hệ thống dịch tự động hiện nay o Xây dựng kho ngữ liệu phục vụ cho bài toán dịch tự động tiếng Việt, chủ yếu đối với cặp ngôn ngữ Anh-Việt, đồng thời đưa ra một số giải pháp để nâng cao chất lượng của các kho ngữ liệu o Xây dựng hệ thống dịch Anh – Việt sử dụng phương pháp dịch thống kê và một số phương pháp khác.

Nghiên cứu xây dựng hệ thống dịch và đánh giá chất lượng dịch

- Nghiên cứu tại [36] tiến hành xây dựng hệ thống dịch Anh – Việt sử dụng mã nguồn Moses trên nền tảng dịch thống kê Nhóm tác giả sử dụng bộ dữ liệu huấn luyện, kiểm thử của IWSLT 2015 và đánh giá kết quả bằng chỉ số BLEU, kết quả các lần đánh giá như sau:

Bảng 1.5 Đánh giá chất lượng dịch Anh – Việt từ hệ thống dịch dựa trên MOSES

STT Cặp ngôn ngữ Bài đánh giá Điểm BLEU

Trong bảng trên, BLEU là một chỉ số dùng để đánh giá chất lượng hệ thống dịch bằng cách so sánh kết quả bản dịch tự động bằng máy với một bản dịch chuẩn dùng làm bản đối chiếu Chỉ số BLEU có giá trị từ 0, và giá trị càng cao thì hệ thống dịch càng đạt chất lượng tốt.

- Nghiên cứu tại [8] tiến hành xây dựng kho ngữ liệu gồm 880.000 cặp câu song ngữ Anh – Việt và hơn 11 triệu câu tiếng Việt, sau đó sử dụng mô hình dịch thống kê và mã nguồn MOSES để xây dựng hệ thống dịch Anh – Việt Kết quả hệ thống dịch được đánh giá và so sánh với kết quả dịch của Google và Microsoft.

Bảng 1.6 So sánh kết quả dịch sử dụng MOSES và hệ thống Google, Microsoft

Dịch Anh – Việt (BLEU) Dịch Việt – Anh (BLEU)

- Nghiên cứu tại [37] tiến hành xây dựng hệ thống dịch sử dụng mạng nơ ron và tập dữ liệu đánh giá của IWSLT 2015 đối với một số ngôn ngữ ít phổ biến (low- resource language), trong đó có cặp ngôn ngữ Anh – Việt Kết quả điểm BLEU được thể hiện trong bảng dưới đây:

Bảng 1.7 Kết quả đánh giá trên tập dữ liệu TED tst2015 của IWSLT 2015

Hệ thống mới xây dựng 26,4

- Nghiên cứu tại [38] tiếp cận xây dựng hệ thống dịch thông qua ngôn ngữ trung gian để xây dựng hệ thống dịch giữa cặp ngôn ngữ Séc – Việt, sử dụng tiếng Anh làm ngôn ngữ trung gian Sử dụng bộ dữ liệu đánh giá của WMT 2013, tác giả thu được kết quả đánh giá như sau:

Bảng 1.8 Đánh giá chất lượng hệ thống dịch sử dụng ngôn ngữ trung gian

Cặp ngôn ngữ dịch Ký hiệu Điểm BLEU

Nghiên cứu xây dựng và cải tiến kho ngữ liệu tiếng Việt Để giải quyết các bài toán xử lý ngôn ngữ tiếng Việt, trong đó có dịch máy, nhiều nhóm nghiên cứu đã xây dựng được các kho ngữ liệu dành riêng cho tiếng Việt, đồng thời đưa ra các giải pháp để nâng cao chất lượng của các kho ngữ liệu.

- Trung tâm từ điển học (Vietlex, http://www.vietlex.com/) là nơi đi tiên phong trong việc xây dựng kho ngữ liệu cho tiếng Việt (Vietnamese Corpus) Từ khi bắt đầu xây dựng (1998) cho đến nay, Kho ngữ liệu tiếng Việt của Vietlex chứa khoảng

80.000.000 âm tiết (tương đương gần 4 triệu câu), được thu thập từ các tác phẩm văn học và báo chí, các tác phẩm khoa học, các văn bản pháp luật, các bài viết chuyên ngành các văn bản chứa trong nó đã được tách từ Chẳng hạn, khi muốn tìm kiếm từ "xã" xuất hiện trong Kho văn bản thì ta được kết quả là một tập hợp ngữ cảnh (context) của "xã" không thuộc trong các tập hợp (từ) như "xã hội", "xã viên",

"xã tắc, "hợp tác xã" Ngược lại, khi muốn tìm kiếm từ "xã hội" thì ta được kết quả là một tập hợp ngữ cảnh của từ "xã hội" không bao gồm tổ hợp có "xã + hội" đứng ngẫu nhiên cạnh nhau, dạng như trong trong câu "Ngôi nhà này được dùng làm nơi cho xã hội họp." Ở đây, xã đứng độc lập, có nghĩa là đơn vị hành chính cơ sở ở nông thôn, nó không kết hợp với hội (hội kết hợp với họp để thành từ hội họp).

- Đề tài KC01.01/06-10 "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lí tiếng nói và văn bản tiếng Việt" (VLSP), Đề tài thuộc Chương trình Khoa học Công nghệ cấp Nhà nước KC01/06-10, nhánh đề tài "Xử lí văn bản tiếng Việt" tiến hành nghiên cứu và xây dựng kho ngữ liệu tiếng Việt và kho ngữ liệu song ngữ Anh

– Việt Ngoài ra nhóm tác giả cũng thực hiện các giải pháp phân loại từ, phân cụm từ, phân tích câu đối với văn bản tiếng Việt. o Từ điển tiếng Việt: Khoảng 35.000 từ, với các thông tin hình thái, ngữ pháp, ngữ nghĩa dùng cho xử lý ngôn ngữ tự nhiên; o Treebank tiếng Việt: 70.000 câu đã được tách từ (90.000 nếu tính cả hai tập dữ liệu bên dưới); 10.000 câu đã được gán nhãn từ loại (20.000 nếu tính cả tập dữ liệu bên dưới); 10.000 cây cú pháp; o Kho ngữ liệu song ngữ Anh-Việt: 80.000 cặp câu Kinh tế - Xã hội;

- Trung tâm Ngôn ngữ học Tính toán – ĐH Khoa học Tự nhiên – TP.HCM thực hiện xây dựng 2 kho ngữ liệu tiếng Việt (tên là VTB và VCor) Các ngữ liệu này đã được chuẩn hóa về mã (utf-8), dạng XML trong đó có các thẻ để đánh dấu từng câu (SEG id), từng đoạn (PARA), từng tập tin (DOC docid), ngôn ngữ (Language) và lĩnh vực (Domain) Ngữ liệu VTB đã được chú thích thủ công với nhãn ranh giới từ tiếng Việt, nhãn từ loại và nhãn thực thể có tên Còn ngữ liệu VCor chỉ được chú thích tự động nhãn ranh giới từ (do kích thước quá lớn) VTB có 201.594 câu,

5.501.225 lượt từ, độ dài trung bình mỗi câu là 27,3 từ và tổng số các từ/chuỗi (token) khác nhau là 118.455 Ngữ liệu VCor có 17.095.994 câu (42 lĩnh vực), gồm 346.454.533 từ và 443.301.776 chữ (tiếng/âm tiết), trung bình mỗi câu có khoảng

20 từ, mỗi từ có 1,28 âm tiết và mỗi âm tiết dài 3,27 con chữ Ngoài ra, Trung tâm còn xây dựng các kho ngữ liệu song ngữ cho các cặp câu Anh-Việt, Pháp-Việt, Hàn-Việt, Lào-Việt, Hoa-Việt.

Kết luận Chương 1 52

Chương 1 trình bày tổng quan về bài toán dịch tự động, các phương pháp sử dụng trong các bộ máy dịch, kho ngữ liệu phục vụ huấn luyện và xây dựng mô hình dịch và các phương pháp đánh giá chất lượng của hệ thống dịch Nội dung của chương cũng trình bày các nghiên cứu liên quan đến vấn đề xây dựng và cải tiến chất lượng hệ thống dịch tự động tiếng Việt.

Từ các nghiên cứu trên, có thể thấy rằng bài toán dịch tự động tiếng Việt là một trong những hướng nghiên cứu được quan tâm trong những năm vừa qua bởi tính cấp thiết của dịch tự động và những ứng dụng thực tiễn mà các hệ thống dịch mang lại Có nhiều nhóm nghiên cứu đã đề xuất các giải pháp khác nhau về cải tiến mô hình dịch cũng như cải tiến kho ngữ liệu, tuy nhiên đến nay chất lượng thực tế của các hệ thống dịch tự động tiếng Việt vẫn còn nhiều hạn chế Các câu dịch chưa thể áp dụng ngay mà cần có sự kiểm chứng và xử lý, chỉnh sửa.

GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT

Giới thiệu 53

Trong học máy nói chung và bài toán dịch tự động nói riêng, các thuật toán được áp dụng để tiếp nhận tri thức từ kho dữ liệu đầu vào đã có, từ đó xây dựng nên các mô hình dịch (model) Như vậy, mô hình dịch là kết quả của quá trình huấn luyện của các thuật toán, biểu diễn các số liệu thống kê, các quy tắc, luật đã được tối ưu sau quá trình này Từ một mô hình dịch đã được huấn luyện, chúng ta đưa vào các câu nguồn để mô hình dự đoán kết quả đầu ra là các câu đích cần dịch Chính vì vậy, mô hình dịch đóng vai trò quyết định ảnh hưởng đến chất lượng của hệ thống dịch.

Thố ng kê ngôn ngữ

Khởi tạo quy tắc/luật, mô hình dịch động

Hình 2.1 Hai yếu tố then chốt của hệ thống dịch tự động: Dữ liệu và Phương pháp dịch

Như biểu diễn ở Hình 2.1, có thể thấy rằng xây dựng một mô hình dịch tốt và tạo nên hệ thống dịch có chất lượng, cần có hai yếu tố then chốt là nguồn dữ liệu và phương pháp dịch:

- Nguồn dữ liệu sử dụng cho bộ máy dịch thuật phải đáp ứng:

Phương pháp dịch TỐI ƯU

Hệ thống dịch CHẤT LƯỢNG oCó chất lượng tốt, nghĩa là dữ liệu phải chính xác, ngữ nghĩa không nhập nhằng, có phân tích cú pháp, xác định ranh giới từ, xác định danh từ riêng… oCó số lượng lớn, nghĩa là có đầy đủ các luật về ngữ pháp, có số lượng các cặp câu song ngữ lớn, bao phủ tất cả các lĩnh vực, có đầy đủ các từ, cụm từ trong ngôn ngữ tự nhiên.

- Phương pháp dịch hiệu quả, phù hợp với ngôn ngữ, triệt tiêu tối đa sự nhập nhằng về ngữ nghĩa, có thể hiểu được nội dung của cả câu đầu vào cần dịch để cho kết quả chính xác nhất và phù hợp với ngữ cảnh.

Vì vậy, với bài toán cải tiến chất lượng của hệ thống dịch tự động nói chung và đối với tiếng Việt nói riêng, luận án sẽ tập trung phân tích thực trạng và đề xuất các giải pháp ở hai khía cạnh quan trọng nhất ảnh hưởng đến kết quả dịch là cải tiến chất lượng của kho ngữ liệu sử dụng trong mô hình dịch và áp dụng phương pháp dịch phù hợp đối với tiếng Việt để có thể tạo ra mô hình dịch tốt nhất Ngoài ra,luận án cũng tiến hành tổ chức đánh giá các hệ thống dịch đang được sử dụng rộng rãi hiện nay để có các số liệu cụ thể về chất lượng dịch tự động tiếng Việt.

Đánh giá chất lượng các hệ thống dịch tự động tiếng Việt 54

Mặc dù đã có nhiều hệ thống hỗ trợ dịch tiếng Việt được sử dụng rộng rãi,tuy nhiên mỗi hệ thống có những đặc điểm riêng và cho kết quả dịch khác nhau ở các lĩnh vực khác nhau Hiện nay vẫn chưa có các chiến dịch đánh giá bài bản để đưa ra các số liệu khoa học minh chứng cho chất lượng các hệ thống dịch tự động tiếng Việt.

Vì vậy, để có số liệu đánh giá chi tiết hơn về chất lượng của các hệ thống dịch tự động trực tuyến giữa cặp ngôn ngữ tiếng Anh – tiếng Việt đang được người dùng sử dụng phổ biến, nghiên cứu sinh đã thực hiện quá trình đánh giá trên một số bộ dữ liệu Quá trình đánh giá này được thực hiện năm 2017, sử dụng kết quả dịch của hai hệ thống dịch trực tuyến thông dụng nhất là Google Translate và MicrosoftTranslator Quy trình tổng quát các bước tổ chức đánh giá mô tả ở Hình 2.2.

Con người Điểm số Khách quan

Chuẩ n bị dữ liệu đánh

Gọi API lấy kết quả dịch từ Google, Microsoft

Hình 2.2 Quy trình tổ chức đánh giá chất lượng dịch tiếng Việt

Chuẩn bị dữ liệu: Các nghiên cứu liên quan đến đánh giá chất lượng dịch tự động tiếng Việt chưa có các bộ dữ liệu đặc trưng để đánh giá Vì vậy, nghiên cứu sinh chọn lọc và sử dụng 4 bộ dữ liệu song ngữ Anh – Việt phục vụ cho việc đánh giá Các bộ dữ liệu được lựa chọn trên tiêu chí đại diện cho các lĩnh vực khác nhau, bao gồm cả hội thoại thông dụng hàng ngày và lĩnh vực chuyên ngành Dữ liệu này được thu thập từ các trang nguồn có độ tin cậy, đồng thời được kiểm tra, chỉnh sửa thủ công để đảm bảo các bản dịch đạt chất lượng tốt, bao gồm: (1) tst2013: dữ liệu song ngữ phục vụ cho các tác vụ kiểm thử tại Hội thảo IWSLT’15 (http://workshop2015 iwslt.org); (2) 1000-cau: tuyển tập 1.000 câu giao tiếp tiếng Anh thông dụng được cung cấp bởi website dạy tiếng Anh (hellochao.vn) Đối với lĩnh vực chuyên ngành, nghiên cứu sinh sử dụng: (3) tpp-tomtat: bản tóm tắt và (4) tpp-chuong28: chương 28 của Hiệp định đối tác xuyên Thái Bình Dương được cung cấp bởi Thư viện Pháp luật (thuvienphapluat.vn) Chi tiết dữ liệu được cung cấp ở

Bảng 2.1 Thông tin về dữ liệu phục vụ đánh giá

Dữ liệu đánh giá Số lượng câu Chiều dài trung bình

Chiều dài trung bình (tiếng Việt) tst2013 1.268 18,5 24,1

1000-cau 984 5,7 4,9 tpp-tomtat 265 33,4 41,4 tpp-chuong28 210 82,9 130,1

2.2.1.1 Đánh giá theo phương pháp khách quan

Xử lý dữ liệu: dữ liệu đánh giá được tách câu, kiểm tra để đảm bảo các câu đều được dịch theo từng cặp câu, thực hiện các bước tiền xử lý cần thiết như loại bỏ một số ký tự đặc biệt, chuyển về bảng mã Unicode tiêu chuẩn trước khi tiến hành đánh giá.

Nhận kết quả dịch: các câu tiếng Anh của từng tập dữ liệu được dịch sang tiếng Việt thông qua các hàm API của hệ thống Google và Microsoft, sử dụng công cụ do nghiên cứu sinh xây dựng và tương tự, các câu tiếng Việt sẽ được dịch sang tiếng Anh.

Hình 2.3 Chương trình hỗ trợ trích xuất kết quả dịch từ các hệ thống Đánh giá: để đánh giá kết quả dịch, nghiên cứu sử dụng các chỉ số BLEU, NIST là các chỉ số thông dụng phản ánh sự tương đồng giữa bản dịch của máy tính và bản dịch tham khảo từ bộ dữ liệu song ngữ Các chỉ số này thường được sử dụng trong các nghiên cứu liên quan đến đánh giá chất lượng dịch máy như đã trình bày ởChương 1 Ngoài ra chỉ số WER cũng được quan sát để xem xét tỷ lệ các từ lỗi so với bản dịch tham khảo NCS sử dụng hệ thống Asiya [46] để do các chỉ số nêu trên giữa bản dịch và bản tham chiếu lần lượt cho bản dịch từ tiếng Việt sang tiếng Anh và tiếng Anh sang tiếng Việt Kết quả thu được ở Bảng 2.2.

Bảng 2.2 Đánh giá kết quả dịch từ tiếng Anh sang tiếng Việt

Dữ liệu đánh giá Loại

BLEU NIST WER BLEU NIST WER tst2013 en-vi 32 7,54 0,51 27 6,82 0,58

1000-cau en-vi 06 2,88 0,75 04 2,53 0,82 tpp-tomtat en-vi 42 8,29 0,46 40 7,90 0,51 tpp-chuong28 en-vi 44 7,29 0,47 33 6,11 0,58

Bảng 2.3 Đánh giá kết quả dịch từ tiếng Việt sang tiếng Anh

Dữ liệu đánh giá Loại

BLEU NIST WER BLEU NIST WER tst2013 vi-en 32 7,61 0,47 26 6,54 0,56

1000-cau vi-en 29 5,59 0,49 21 4,55 0,59 tpp-tomtat vi-en 30 6,73 0,55 23 5,67 0,66 tpp-chuong28 vi-en 39 6,84 0,48 29 5,56 0,58

Qua các số liệu này, có thể thấy chất lượng các bản dịch tương đối tốt so với các hệ thống đã được xây dựng trong những nghiên cứu trước đây, tuy nhiên còn rất thấp so với các đánh giá chất lượng dịch các cặp câu thông dụng như tiếng Anh – tiếng Pháp hoặc một số ngôn ngữ khác Hệ thống dịch của Google đều mang lại điểm số tốt hơn hệ thống dịch của Microsoft trong tất cả các tập dữ liệu Chất lượng dịch từ tiếng Anh sang tiếng Việt tốt hơn dịch từ tiếng Việt sang tiếng Anh ở cả hai hệ thống Bên cạnh đó, xem xét cụ thể các bản dịch, có thể thấy:

- Chiều dài trung bình của bản dịch gần tương đồng với bản tham khảo (tỷ lệ chiều dài trung bình của bản dịch so với chiều dài trung bình của bản tham chiếu ở kết quả của Google là 0,99 và của Microsoft là 1,04), có thể thấy được các hệ thống này dịch được khá đầy đủ các từ có trong câu nguồn Tuy nhiên hệ thống dịch của Microsoft chưa nhận ra được một số từ và vẫn giữ nguyên tiếng Anh (hoặc tiếng Việt), chứng tỏ kho ngữ liệu sử dụng để dịch vẫn chưa đầy đủ.

- Ở các câu hội thoại ngắn, các chỉ số BLEU nhận được khá thấp Nguyên nhân là do sự nhập nhằng trong ngữ nghĩa tiếng Việt và ở các hội thoại ngắn thì có nhiều cách dùng các từ hoàn toàn khác nhau để thể hiện cùng một nội dung, chẳng hạn đối với các đại từ nhân xưng nên bản dịch khó trùng khớp với câu tham khảo, mặc dù trong một số trường hợp hệ thống cho kết quả dịch chính xác Ví dụ: bản tham khảo là “Bạn khỏe không?”, trong khi bản dịch là “Anh khỏe không?” hoặc

“Anh thế nào?” đã làm cho chỉ số đo được không phản ánh đúng kết quả Nghiên cứu đã sử dụng các chỉ số BLEU có làm mịn (như BLEU-1) [47] nhưng kết quả không cải thiện Bên cạnh đó, trong các câu hội thoại ngắn thường sử dụng một số cụm từ nghĩa bóng, thành ngữ, trong khi kết quả dịch thường theo nghĩa đen nên không đúng.

- Đối với các câu trong lĩnh vực văn bản hành chính, mặc dù các câu có chiều dài lớn nhưng chất lượng nhận được khá tốt khi đánh giá Lý do là các câu trong lĩnh vực văn bản hành chính thường có văn phạm và ngữ pháp đơn giản, rõ ràng,không nhập nhằng về mặt ngữ nghĩa Tuy nhiên xem xét thực tế kết quả dịch, nhiều thuật ngữ chuyên ngành bị dịch sai Như vậy trong bản dịch có nhiều từ (thông dụng) được dịch đúng, nhưng những từ quan trọng (chuyên ngành) lại dịch sai, làm cho bản dịch trở nên khó hiểu.

Như vậy, các chỉ số BLEU, NIST, WER đã phản ánh độ tương đồng của bản dịch do các hệ thống dịch máy cung cấp khi so sánh với một bản dịch tham khảo, tuy nhiên trong nhiều trường hợp các chỉ số này vẫn chưa cung cấp được thực trạng về chất lượng của các bản dịch.

2.2.1.2 Đánh giá theo phương pháp chủ quan Để nghiên cứu chi tiết hơn về chất lượng của các hệ thống dịch hiện nay,NCS thực hiện quá trình đánh giá kết quả nhờ sự hỗ trợ của con người Bài kiểm tra này là một bảng hỏi tương tự như các bài đánh giá chủ quan được đề xuất tại [19].Trong phương pháp đánh giá chủ quan với sự trợ giúp của con người thường sử dụng 2 thang đo là mức độ đầy đủ thông tin (adequacy) và mức độ trôi chảy của bản dịch (fluency).

Các thang đo này được được đánh giá ở 5 cấp độ từ thấp đến cao Mức độ đầy đủ thể hiện bản dịch có mang lại đầy đủ các thông tin có trong câu nguồn không, gồm:

(5) Có tất cả thông tin, (4) Có hầu như đầy đủ thông tin, (3) Có nhiều thông tin, (2)

Có một ít thông tin, (1) Hoàn toàn không Mức độ trôi chảy thể hiện bản dịch có tự nhiên và trôi chảy như ngôn ngữ đích không, gồm: (5) Hoàn toàn trôi chảy, (4) Khá trôi chảy, (3) Không được tự nhiên, (2) Không trôi chảy, (1) Không thể hiểu được. Để đơn giản và với mục đích minh họa thêm cho các số liệu ở trên, luận án chỉ tiến hành đánh giá đối với các cặp câu song ngữ tiếng Anh - tiếng Việt của bộ dữ liệu “câu hội thoại thông dụng” Bài đánh giá sử dụng các bản dịch từ tiếng Anh sang tiếng Việt của hai hệ thống dịch nói trên Người tham gia chỉ được cung cấp câu tiếng Việt đã được dịch và phải trả lời câu hỏi “(1) Bạn có hiểu ý câu này nói gì không?”, bỏ qua mọi quy tắc về ngữ pháp, sự trôi chảy, và người tham gia phải cố gắng để hiểu được, giống như đang giao tiếp với một người mới học tiếng Việt Sau đó, nếu trả lời là “Hiểu” thì người tham gia sẽ được xem câu tham chiếu (câu tiếng Việt đã dịch đúng) và trả lời câu hỏi “(2) Bạn có hiểu đúng ý không?” Cuối cùng, người tham gia sẽ trả lời thêm một câu hỏi khác là “(3) Người Việt có nói như vậy không?” với mục đích kiểm tra xem các bản dịch có được trôi chảy, tự nhiên và có thể dùng được trong thực tế không Hệ thống câu hỏi như vậy giúp cho người tham gia thực hiện đơn giản, nhưng chính xác, không gặp rắc rối khi cho điểm ở nhiều mức khác nhau, đồng thời kết quả nhận được rõ ràng, dễ hình dùng khi đề cập đến mức độ hoàn thiện của bản dịch để áp dụng vào thực tế Kết quả thể hiện ở Bảng 2.4. Đánh giá kết quả dịch tiếng Anh sang tiếng Việt bằng phương pháp chủ quan do con người thực hiện

Bảng 2.4 Kết quả đánh giá bằng phương pháp chủ quan

Số lượng câu (1) Có hiểu (2) Hiểu đúng (3) Dùng được

Hình 2.4 Biểu đồ so sánh kết quả đánh giá bằng phương pháp chủ quan

Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào kho ngữ liệu lớn 69

Các chiến dịch đánh giá chất lượng dịch tự động như CSTAR, NESPOLE, IWSLT [14] đã được tổ chức rất quy mô với nhiều phương pháp đánh giá chủ quan và khách quan khác nhau đã cho thấy rằng chất lượng dịch tự động đối với các cặp ngôn ngữ phổ biến cũng chỉ chấp nhận được với một số lĩnh vực nhất định và có chất lượng rất kém nếu như kho ngữ không đảm bảo cả về chất lượng và khối lượng.

Mặc dù hiện nay tồn tại nhiều kho dữ liệu dùng trong lĩnh vực tự động, song các kho ngữ liệu này đều có những nhược điểm đáng kể Nhiều nguồn tài nguyên dữ liệu được tạo ra như các kho ngữ liệu British National Corpus, EuroParl, BTEC, ANC, ICE; cỏc bộ từ điển như German dictionary Deutsches Wửrterbuch, Oxford

English Dictionar, Gregg Cox … có số lượng ngôn ngữ và khối lượng dữ liệu tương đối lớn Tuy vậy, so với số lượng ngôn ngữ tự nhiên trên thế giới hiện nay (khoảng

6.500 ngôn ngữ nói) và khối lượng dữ liệu đủ để bao phủ hầu hết các lĩnh vực dịch thì các kho ngữ liệu trên so ra còn quá khiêm tốn để có thể cho phép xây dựng được một hệ thống dịch tự động chất lượng cao Mặt khác, các kho ngữ liệu hiện nay có chất lượng còn khá thấp, dữ liệu đa số ở dạng thô và nhập nhằng, bởi lẽ đa số các kho ngữ liệu tồn tại dưới dạng văn bản hoặc chỉ có một số ít thông tin mô tả đi kèm [40].

Một vấn đề khác là các kho ngữ liệu tồn tại một cách rời rạc, có cấu trúc và định dạng rất khác nhau, dẫn đến việc sử dụng và khai thác chúng hiện nay là rất khó khăn Tình trạng này dẫn đến một thực tế là nhiều kho ngữ liệu đã xây dựng nhưng không thể phục vụ, chia sẽ cho việc nghiên cứu cũng như xử lý tiếng Việt.

Như phân tích ở Chương I, để có thể xây dựng được một hệ thống dịch tự động chất lượng và hoàn chỉnh, ngoài việc nghiên cứu cải tiến phương pháp dịch tự động, vấn đề quan trọng cần giải quyết đó là nghiên cứu giải pháp xây dựng được kho ngữ liệu lớn không chỉ về khối lượng dữ liệu, số cặp ngôn ngữ mà còn tốt về chất lượng.

Nội dung nghiên cứu của chương này tập trung đánh giá thực trạng chất lượng các kho ngữ liệu hiện có, hiểu các giải pháp xây dựng kho ngữ liệu và đề xuất các giải pháp mở rộng kho ngữ liệu cả về khía cạnh khối lượng và khía cạnh chất lượng, nhằm hướng đến giải pháp cải tiến chất lượng dịch của các hệ thống dịch tự động nói chung và nhất là các hệ thống dịch tự động tiếng Việt hiện nay:

- Tổng hợp các nghiên cứu liên quan đến kho ngữ liệu, cấu trúc các kho ngữ liệu và kết quả xây dựng và cải tiến chất lượng các kho ngữ liệu song ngữ tiếng Việt.

- Đề xuất một số giải pháp cải tiến kho ngữ liệu ở khía cạnh mở rộng khối lượng và cải tiến chất lượng của kho ngữ liệu.

- Thực nghiệm giải pháp cải tiến chất lượng thông qua xác định danh từ riêng, xác định ranh giới từ ghép, xây dựng ứng dụng thu thập kho ngữ liệu lớn phục vụ quá trình huấn luyện hệ thống dịch tự động.

Các nghiên cứu liên quan đến cải tiến chất lượng kho ngữ liệu

2.3.2.1 Tổng quan tình hình nghiên cứu mở rộng kho ngữ liệu theo khía cạnh khối lượng

Liên quan đến khía cạnh mở rộng kho ngữ liệu theo hướng khối lượng, phần lớn các nghiên cứu tập trung đến các phương pháp và công trình liên quan đến hai vấn đề sau:

- Mở rộng kho ngữ liệu theo hướng ngôn ngữ: Các công trình [40][48] đã đưa ra giải pháp mở rộng kho ngữ liệu theo hướng ngôn ngữ bằng cách gọi các hệ thống dịch tự động để dịch dữ liệu hiện có của kho ngữ liệu sang các ngôn ngữ mới,sau đó đề xuất giải pháp cho các chuyên gia xem, chỉnh sửa để thu được dữ liệu có chất lượng trong ngôn ngữ mới tương đồng với dữ liệu gốc.

- Mở rộng kho ngữ liệu theo hướng xây dựng và bổ sung dữ liệu: Liên quan đến vấn đề xây dựng và bổ sung dữ liệu mới vào kho ngữ liệu, có thể kể đến các phương pháp xây dựng dữ liệu mới [48][49][50] Các công trình này đề xuất việc xây dựng nội dung mới có chất lượng cho kho dữ liệu dịch tự động bằng cách trích lọc dữ liệu từ các kho dữ liệu hỗn tạp trong thực tế Đề xuất tại [51], công trình này đưa ra đề xuất xây dựng nội dung mới cho kho ngữ liệu bằng cách thu thập, trích lọc các câu song song từ các website đa ngữ.

2.3.2.2 Tổng quan tình hình nghiên cứu mở rộng kho ngữ liệu về khía cạnh chất lượng

Liên quan đến khía cạnh mở rộng kho ngữ liệu theo hướng chất lượng, đã có các giải pháp và công cụ để cải tiến chất lượng dữ liệu bằng cách sinh mới và chỉnh sửa dữ liệu dịch Trong đó, nổi bật nhất là hệ thống SECTra_w [48], hệ thống này cho phép người dùng nạp kho ngữ liệu vào và hiển thị kho ngữ liệu một cách trực quan, dạng song song rất thuận tiện cho việc kiểm tra và cải tiến chất lượng văn bản Hệ thống này cũng là một môi trường cộng tác cho phép nhiều người tham gia cải tiến và chỉnh sửa kho ngữ liệu Các các công cụ khác cũng đã được xây dựng như Mtpost-editor, phát triển bởi NIST, hoặc công cụ SYSTRAN Review Manager được dùng ở công ty Systran Ngoài ra, chúng ta cũng tìm thấy một số hệ thống được triển khai dưới mô hình mạng như Google Translator Toolkit, BEYtrans,Yakushite.net, Translationwiki.net, Traduwiki, Caitra [52].

Bên cạnh đó, có các công trình nghiên cứu các giải pháp và xây dựng các kho ngữ liệu gán nhãn nhằm biểu diễn thêm ngữ nghĩa cho kho ngữ liệu như [39], nghiên cứu xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn Internet cho xử lý tiếng Việt, xây dựng các mô hình chú giải cho kho ngữ liệu tiếng Việt [13].

Giải pháp nâng cao chất lượng kho ngữ liệu

Vấn đề nâng cao chất lượng của kho ngữ liệu đóng vai trò quan trọng nhằm hoàn thiện các giải pháp trong vấn đề xử lý ngôn ngữ tự nhiên như dịch máy, phân loại văn bản… Trong nghiên cứu này, giải pháp mở rộng kho ngữ liệu được tập trung chủ yếu vào hai hướng nghiên cứu chính gồm mở rộng kho ngữ liệu theo hướng khối lượng và theo hướng chất lượng.

Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào mô hình máy học mạng nơ ron 91

Như đã trình bày ở Chương 1, đến nay đã có nhiều phương pháp khác nhau để xây dựng các hệ thống dịch Trong đó, dịch máy thống kê xây dựng trên cơ sở các mô hình thống kê có các tham số được huấn luyện từ việc phân tích các cặp câu song ngữ Đây là một phương pháp theo cách tiếp cận dựa vào dữ liệu, là một hướng phát triển đầy tiềm năng, thu hút được sự quan tâm của các nhà nghiên cứu. Dịch máy thống kê cho thấy tính linh hoạt, mềm dẻo trong việc tự động học các tri thức dịch dựa trên dữ liệu Tuy nhiên, phương pháp dịch này thường phức tạp để xây dựng và bảo trì Mỗi cặp ngôn ngữ muốn dịch cần rất nhiều nguồn lực để điều chỉnh trọng số trong chuỗi dịch thuật gồm rất nhiều bước.

Bên cạnh đó, chất lượng của các hệ thống dịch tự động theo phương pháp thống kê vẫn còn nhiều hạn chế Đối với những cặp ngôn ngữ tương đồng nhau về cú pháp như các cặp ngôn ngữ Anh-Pháp, Anh-Tây Ban Nha, các hệ dịch máy thống kê đạt chất lượng khá tốt, nhưng còn gặp nhiều hạn chế đối với các cặp ngôn ngữ có cú pháp khác nhau như tiếng Anh-tiếng Việt Có nhiều công trình nghiên cứu về giải pháp cải tiến chất lượng mô hình dịch như thống kê trong thời gian vừa qua, tuy nhiên kết quả thực tế của các hệ thống dịch qua tổ chức đánh giá cho thấy có chất lượng còn thấp Chính vì vậy, cần thực nghiệm xây dựng mô hình dịch theo các phương pháp mới để tìm ra mô hình phù hợp đối với dịch tự động tiếng Việt.

Giải pháp cải tiến chất lượng dịch tiếng Việt bằng mô hình học máy mạng nơ ron

Việc lựa chọn phương pháp dịch sẽ quyết định đến chất lượng của hệ thống dịch, vì vậy sử dụng phương pháp dịch tối ưu sẽ giúp cho kết quả dịch tiến gần hơn đến ngôn ngữ của con người Trong luận án này, NCS đề xuất hướng tiếp cận sử dụng phương pháp dịch tự động sử dụng mạng nơ ron (Neural Machine Translation– NMT) kết hợp kho ngữ liệu lớn cho việc dịch tự động tiếng Việt nhằm cải tiến chất lượng của hệ thống dịch như mô hình tại Hình 2.19.

Hình 2.19 Mô hình dịch tự động sử dụng mạng nơ ron

Theo các tài liệu đã được công bố, Google bắt đầu áp dụng GNMT (Google Neural Machine Translation – Hệ thống dịch máy sử dụng mạng nơ ron của Google) để thay thế cho mô hình dịch thống kê cho 8 ngôn ngữ: Anh, Pháp, Đức, Tây Ban Nha, Thổ Nhĩ Kỳ, Trung Quốc, Nhật Bản, Hàn Quốc và Thổ Nhĩ Kỳ từ tháng 11/2016 Đến tháng 03/2017, GNMT áp dụng cho tiếng Hindi, tiếng Nga và tiếng Việt Hệ thống dịch Microsoft Translator cũng đã áp dụng NMT cho hệ thống dịch từ tháng 05/2018.

Các nghiên cứu ứng dụng NMT thuộc đề tài nghiên cứu này được bắt đầu từ năm 2016 Trên cơ sở đó, nghiên cứu sinh đã hoàn thành nghiên cứu và nộp bài báo tại Hội thảo Quốc gia “Một số vấn đề chọn lọc của Công nghệ thông tin và Truyền thông” (Hội thảo @) vào tháng 06/2017, báo cáo trực tiếp tại Hội thảo vào tháng 11/2017 Vì vậy, các kết quả nghiên cứu và đề xuất trong chương này được trình bày trên cơ sở nghiên cứu đã có trong quá trình thực hiện đề tài và kết quả đạt được từ năm 2017 Đề xuất áp dụng mô hình học máy mạng nơ ron cho hệ thống dịch tự động tiếng Việt tại thời điểm nghiên cứu mang tính thời sự và mở ra hướng tiếp cận để cải thiện chất lượng của các hệ thống dịch.

Dịch máy sử dụng mạng nơ rơn đã bắt đầu được nghiên cứu trong những năm gần đây [57][58] và được đánh giá cao khi thực nghiệm với các cặp ngôn ngữ như tiếng Anh – tiếng Pháp, tiếng Anh – tiếng Đức NMT thường là một mạng nơ ron kích thước lớn được đã được huấn luyện, lưu trữ các véc tơ biểu diễn thông tin liên kết giữa các từ trong ngữ cảnh, chính vì vậy có khả năng dịch tốt các câu văn bản dài Không giống như mô hình dịch truyền thống dựa trên cụm từ, phụ thuộc vào các cụm từ riêng biệt để dịch và ghép nối như mô hình dịch thống kê, NMT sẽ huấn luyện từ dữ liệu đầu vào để tạo ra một mạng nơ ron có lớn có thể đọc các câu nguồn và tái tạo câu đích dựa trên nguyên tắc hoạt động của các mạng nơ ron hồi quy (Recurrent Neural Networks).

Về cơ bản, nguyên tắc chung của RNN [59] là một mạng nơ ron có khả năng xử lý được thông tin dạng chuỗi, trong đó trạng thái đầu ra ở thời điểm hiện tại được tính toán phụ thuộc vào kết quả của các trạng thái ở thời điểm trước đó Như vậy, RNN là một mô hình có trí nhớ và có thể nhớ được thông tin của một chuỗi có chiều dài bất kỳ.

Mô hình RNN bao gồm các trạng thái ẩn (hidden state) h và cho kết quả đầu ra y khi nhận được chuỗi đầu vào x = (x 1 , x 2 , … x T ) Tại mỗi thời điểm t, trạng thái ẩn h của mô hình RNN được cập nhật theo công thức: h = f(h,x t )

(2.6) trong đó f là hàm kích hoạt phi tuyến (chẳng hạn hàm sigmoid, hàm tanh).

Hình 2.20 Nguyên tắc hoạt động của mạng RNN

Từ các dữ liệu huấn luyện đầu vào, mạng RNN có thể học được xác suất phân bố của các chuỗi và dự đoán từ tiếp theo trong một chuỗi được đưa vào Tại thời điểm t, xác suất xuất hiện của chuỗi x t là p(x t |x t-1 …x 1 ) Xét trong tập hợp K từ thì xác suất xuất hiện mỗi từ sẽ được tính bởi:

Với j = 1 K, trong đó w j là dòng thứ j của ma trận trọng số W Khi đó, xác suất để xuất hiện chuỗi x sẽ là

Từ mô hình phân bố xác suất đã học được, mạng RNN sẽ tái tạo các câu đầu ra từng bước một thông qua các trạng thái ẩn của mô hình.

Hệ thống NMT cũng xây dựng bộ mã hóa – giải mã để xử lý đối với các trường hợp câu đầu vào và đầu ra có chiều dài bất kỳ, mã hóa các câu và biểu diễn thông qua một véc tơ có chiều dài cố định bằng cách sử dụng thêm ma trận c để lưu trữ tổng thông tin các trạng thái (ngữ cảnh) Khi đó trạng thái ẩn tại thời điểm t sẽ được cập nhật bởi công thức: h =f(h,y t-1 ,c) (2.9)

Tương tự, xác suất điều kiện để xuất hiện ký tự tiếp theo y t sẽ có sự phụ thuộc vào trạng thái tổng c:

…,y 1 ,c) = g(h ,y t-1 ,c) Với f, g các các hàm kích hoạt phi tuyến tính.

Hình 2.21 Minh họa bộ mã hóa – giải mã

Hình 2.21 mô tả kiến trúc của mô hình RNN Encoder – Decoder Thành phần mã hóa và giải mã được huấn luyện để tìm các tham số của mô hình sao cho các chuỗi đầu ra dự đoán với xác suất cực đại:

Trong đó, θ là các tham số của mô hình RNN và (x n , y n ) là các cặp dữ liệu huấn luyện, trong trường hợp này là các cặp câu song ngữ.

Bên cạnh đó có nhiều nghiên cứu nhằm tiếp tục cải tiến mô hình RNN để phù hợp với hệ thống dịch tự động và cải tiến chất lượng các hệ thống dịch Mô hình seq2seq [60] vẫn có nhược điểm đó là yêu cầu bộ giải mã sử dụng toàn bộ thông tin mã hóa từ chuỗi đầu vào, kể cả chuỗi có chiều dài lớn Ngoài ra, kết quả của quá trình mã hóa sẽ tạo ra một véc tơ có độ dài cố định Tuy nhiên trên thực tế,việc khởi tạo một từ trong chuỗi đầu ra tại một bước thời gian có thể sẽ phụ thuộc nhiều hơn vào ngữ cảnh xung quanh nó hoặc một số thành phần khác, mà không phải toàn bộ câu Nghiên cứu tại [57][61] áp dụng kỹ thuật attention được để giải quyết vấn đề trên Theo đó, các từ trong chuỗi đầu vào sẽ được bộ mã hóa tạo thành một dãy các véc tơ, ở phía bộ giải mã sẽ lấy tổng có trọng số của dãy các véc tơ mã hóa Các trọng số trong mô hình này được tính bằng một mạng nơ ron truyền thẳng.

Hình 2.22 Minh họa mô hình seq2seq dùng attention trong bài toán dịch máy [57] Đã có nhiều nghiên cứu về dịch tự động sử dụng mạng nơ ron đã áp dụng kỹ thuật attention [57] Hệ thống dịch của Google Translate cũng đã áp dụng kỹ thuật này trong mô hình dịch máy của mình.

Hiện nay, các tổ chức nghiên cứu và hãng cung cấp hệ thống dịch tự động lớn đã bắt đầu tập trung nghiên cứu áp dụng mô hình học máy mạng nơ ron nhằm cải tiến chất lượng dịch tự động cho các hệ thống dịch máy của mình, trong đó có các hệ thống lớn như Google [62], Microsoft và mang lại kết quả tốt Tuy nhiên, hướng nghiên cứu này chỉ mới được áp dụng đối với một số cặp ngôn ngữ phổ biến nhất định.

Kết luận Chương 2 109

Từ các phân tích bài toán dịch tự động, có thể thấy rằng các thành phần chủ yếu quyết định chất lượng của một hệ thống dịch là phương pháp dịch và kho ngữ liệu Trên cơ sở đó, luận án tiếp tục tổ chức các nội dung nghiên cứu sâu hơn ở hai vấn đề này và đề xuất các giải pháp liên quan đến phương pháp dịch và kho ngữ liệu nhằm cải tiến chất lượng của hệ thống dịch tiếng Việt.

Về cải tiến kho ngữ liệu: Luận án đã tổ chức nghiên cứu về cấu trúc và định dạng của các kho ngữ liệu phục vụ cho dịch tự động, nghiên cứu đề xuất giải pháp hợp nhất các kho ngữ liệu thông qua một cấu trúc chung, đồng thời đề xuất giải pháp mở rộng kho ngữ liệu về mặt khối lượng và cải tiến về mặt chất lượng Theo các nghiên cứu đã chứng minh, nếu kho ngữ liệu có số lượng lớn và chất lượng tốt, hệ thống dịch tự động sẽ đạt chất lượng cao hơn Luận án tiến hành thực nghiệm xây dựng một số hệ thống để nâng cao chất lượng kho ngữ liệu thông qua giải pháp xác định danh từ riêng trong văn bản bằng Maximum Matching và phân tích mối quan hệ giữa các thành tố văn bản; giải pháp xác định ranh giới từ ghép tiếng Việt thông qua mô hình phân phối từ và cụm từ trong câu, xây dựng kho ngữ liệu lớn phục vụ huấn luyện các mô hình dịch tự động cho cặp ngôn ngữ tiếng Anh và tiếng Việt với hơn 1 triệu cặp câu song ngữ.

Về cải tiến phương pháp dịch: Luận án nghiên cứu về mô hình dịch sử dụng mạng nơ ron và đề xuất áp dụng đối với các hệ thống dịch tiếng Việt Nội dung nghiên cứu trình bày trình tự các bước xây dựng bộ mã hóa và giải mã trong mô hình dịch máy này Trên cơ sở sử dụng mã nguồn Moses và OpenNMT, nghiên cứu đã xây dựng hai hệ thống dịch theo hai phương pháp khác nhau trên cùng tập dữ liệu Kết quả cho thấy mô hình dịch sử dụng mạng nơ ron tạo ra bản dịch đạt chất lượng tốt hơn, khả thi khi áp dụng đối với các hệ thống dịch tiếng Việt Luận án cũng nghiên cứu và đề xuất ứng dụng bộ máy dịch và mô hình dịch hướng ngữ nghĩa để kết hợp với các kho ngữ liệu đã được làm giàu nhằm cung cấp toàn vẹn thông tin về bản dịch máy.

Qua thực nghiệm cho thấy, các đề xuất về cải tiến kho dữ liệu và cải tiến phương pháp dịch đã góp phần làm tăng chất lượng của mô hình dịch tự đồng kho so sánh với mô hình dịch thống kê và một số hệ thống khác.

HỆ THỐNG DỊCH TỰ ĐỘNG ANH-VIỆT

Giới thiệu 111

Từ kết quả đánh giá chất lượng các hệ thống dịch tự động tiếng Việt, có thể thấy rằng chất lượng của các hệ thống dịch hiện nay vẫn còn nhiều hạn chế Tại thời điểm đánh giá, các hệ thống dịch đều sử dụng phương pháp dịch thống kê với các kho ngữ liệu khác nhau của mỗi hệ thống.

Với các giải pháp cải tiến kho ngữ liệu và cải tiến mô hình dịch đã được đề xuất ở Chương 2, luận án tiến hành tổng hợp để thực nghiệm xây dựng một hệ thống dịch chuyên ngành trong lĩnh vực văn bản quy phạm pháp luật và đánh giá kết quả Hệ thống sẽ được triển khai thử nghiệm cho người dùng để ghi nhận các đánh giá của người dùng bên cạnh các chỉ số đánh giá chất lượng khác.

Trên thực tế, nhu cầu sử dụng các hệ thống dịch tự động hiện nay là rất lớn,đặc biệt trong một số lĩnh vực hẹp như văn bản hành chính, pháp luật Trước xu thế hội nhập và toàn cầu hóa, các doanh nghiệp, công ty Việt Nam có nhu cầu tìm hiểu các vấn đề pháp luật quốc tế khi mở rộng thị trường, kết nối đối tác nước ngoài.Ngược lại, các doanh nghiệp nước ngoài cần có thông tin về thị trường cũng như các quy định tại Việt Nam trước khi đầu tư Trong khi đó, các văn bản hành chính,quy định pháp luật thông thường chỉ được công bố bằng một ngôn ngữ, chẳng hạn như tiếng Anh hoặc tiếng Việt Nếu sử dụng các dịch vụ dịch thuật để dịch tất cả các văn bản liên quan sẽ cực kỳ tốn kém, thời gian chờ đợi lâu, trong khi có nhiều nội dung trùng lặp.

Về phương diện kỹ thuật, văn bản thuộc lĩnh vực quy phạm pháp luật có đặc điểm chiều dài của câu rất lớn, có nhiều ý trong câu nên nội dung câu phức tạp Văn bản có nhiều thuật ngữ chuyên ngành, nhiều từ cần được dịch theo nghĩa của chuyên ngành khác hoàn toàn so với nghĩa thông dụng Chẳng hạn, trong văn bản thông thường thì từ “party” được dịch là “tiệc, buổi liên hoan”, nhưng trong các văn bản quy phạm pháp luật, từ “party” tùy vào ngữ cảnh có thể hiểu là “đảng” hoặc

(bên ký kết, bên ủy quyền…) Việc triển khai hệ thống dịch ở lịch vực này sẽ khó đạt chất lượng hơn so với các lĩnh vực thông dụng khác.

Quy trình tổng thể các bước triển khai hệ thống dịch như sau:

Xây dựng Kho ngữ liệu song ngữ Cải tiến Kho ngữ liệu

Triển khai trên môi trường

Xây dựng ứng dụng giao tiếp Đánh giá và cải tiến mô hình dịch

Huấn luyện mô hình dịch

Hình 3.1 Quy trình triển khai thực nghiệm hệ thống dịch Anh - Việt

Các bước xây dựng hệ thống dịch thực hiện theo các giải pháp đã được đề xuất ở Chương 2, bao gồm ba phần chính là xây dựng và cải tiến kho ngữ liệu, cài đặt tham số và huấn luyện mô hình dịch, triển khai trên môi trường Internet và đánh giá kết quả.

Xây dựng kho ngữ liệu 112

Quy trình các bước triển khai

Các bài toán học máy như dịch tự động cần số lượng dữ liệu lớn mới có thể tạo nên các mô hình đạt chất lượng tốt Vì vậy quá trình xây dựng kho ngữ liệu cần nhiều kỹ thuật và phương pháp xử lý khác nhau Quá trình xây dựng kho ngữ liệu trong luận án được thực hiện theo các bước chính như sau:

Hình 3.2 Sơ đồ trình tự các bước xây dựng kho ngữ liệu

Tìm kiếm các nguồn tài nguyên

Xây dựng kho ngữ liệu

Xác định danh từ riêng

Xác định ranh giới từ

Loại các câu chất lượng thấp

Xây dựng kho ngữ liệu song ngữ số lượng lớn

(1) Tìm kiếm các nguồn tài nguyên phù hợp: Hiện nay có nhiều nguồn tài nguyên số được công bố dưới dạng song ngữ hoặc đa ngữ Để xây dựng kho ngữ liệu tập trung ở lĩnh vực văn bản quy phạm pháp luật cho cặp ngôn ngữ Anh – Việt, luận án thu thập và sử dụng các nguồn tài nguyên sau đây:

- Các trang web cung cấp các văn bản quy phạm pháp luật theo hình thức song ngữ, chẳng hạn thu thập từ website vbpl.vn dữ liệu gồm 1.079 tài liệu đã được dịch sang tiếng Anh Ví dụ về một tài liệu song ngữ như sau:

● Văn bản tiếng Anh: Decree on commercial mediation

Liên kết: http://vbpl.vn/tw/Pages/vbpqen-toanvan.aspx?dvid&ItemID 11106& Keyword"/2017/N%C4%90-CP (truy cập tháng 4/2021)

● Văn bản tiếng Việt: Nghị định về hòa giải thương mại

Liên kết: http://vbpl.vn/TW/Pages/vbpq-toanvan.aspx?ItemID9091

&Keyword"/2017/ND-CP (truy cập tháng 4/2021)

- Các tài liệu học tập, tài liệu khoa học, tài liệu học tiếng Anh được cung cấp trên môi trường Internet Các nguồn tài nguyên này ở các định dạng khác nhau, chẳng hạn các trang web, các tập tin MS Word hoặc PDF Ví dụ, luận án đã tiến hành trích rút các câu tiêu đề và nội dung tóm tắt của các bài báo khoa học trên website của Tạp chí Khoa học và Công nghệ Đại học Đà Nẵng, kết quả thu được gồm 3.429 cặp câu tiêu đề và 24.590 cặp câu, cụm từ ở phần tóm tắt.

- Các trang web từ điển, trang web cung cấp các mẫu câu song ngữ, các trang web xem phim song ngữ Anh – Việt, các trang web tin tức có cung cấp bản dịch ở các ngôn ngữ khác nhau…

- Các tài liệu Việt hóa của các phần mềm mã nguồn mở, các ứng dụng web,bao gồm bản dịch các chức năng, hướng dẫn sử dụng, điều khoản sử đụng… Chẳng hạn từ tài liệu Việt hóa của hệ điều hành Ubuntu, có thể thu thập được 3.931 cặp câu song ngữ Anh-Việt.

Quá trình thu thập dữ liệu và xây dựng kho ngữ liệu lớn được thực hiện theo giải pháp hợp nhất dữ liệu từ các nguồn dữ liệu có định dạng và cấu trúc khác nhau đã được trình bày ở Chương 2 Nghiên cứu tiến hành khảo sát cấu trúc của các tài nguyên đã được thu thập, sau đó xây dựng các luật để trích rút dữ liệu thông qua chương trình được xây dựng bằng ngôn ngữ Python và C#.

(2) Thực hiện các bước tiền xử lý dữ liệu: Dữ liệu thô thu được từ bước (1) sẽ được xử lý bằng các phương pháp cơ bản với sự hỗ trợ của thư viện xử lý ngôn ngữ tự nhiên NLTK và spaCy, bao gồm: Làm sạch văn bản bằng cách loại bỏ các thẻ XML, HTML, các thẻ định dạng của các loại tài liệu khác nhau; Xóa bỏ một số ký tự phân cách và các ký tự đặc biệt; Chuyển dữ liệu về bảng mã Unicode Chẳng hạn trong dữ liệu thu thập được, có thể nhận thấy các lỗi văn bản như đặt dấu sai vị trí (như “lụân”, “thừơng”), các ký tự bảng mã khác Unicode (như “ðiền”, “ðất”), cần thực hiện các bước chuẩn hóa để làm cho dữ liệu có chất lượng hơn.

Tại bước này, các đoạn sẽ được tách tương ứng Anh-Việt thông qua các quy tắc nhận diện thẻ HTML và các biểu thức chính quy, sau đó tách các câu sử dụng hàm nltk.sent_tokenize được cung cấp trong thư viện NLTK Để có thể thu được kho ngữ liệu có chất lượng tốt hơn, cần loại bỏ các cặp câu có thể không phải là bản dịch của nhau Nghiên cứu thực hiện kết hợp giải pháp nhận dạng ngôn ngữ kèm theo so sánh chiều dài hai câu song ngữ và loại bỏ các cặp câu có chiều dài chênh lệnh lớn.

Kết quả quá trình xây dựng kho ngữ liệu thu được 1.479.000 cặp câu song ngữ Anh – Việt, trong đó có 460.000 cặp câu song ngữ trong lĩnh vực văn bản quy phạm phát luật Số liệu chi tiết ở Bảng 3.1 Thống kê số lượng câu trong kho ngữ liệu đã được xây dựng.

Bảng 3.1 Thống kê số lượng câu trong kho ngữ liệu đã được xây dựng

Lĩnh vực Số lượng câu

Chiều dài trung bình câu tiếng Anh (từ)

Chiều dài trung bình câu tiếng Việt (từ)

Văn bản quy phạm pháp luật 460.000 25,8 31,2

(3) Chuẩn hóa và làm cho dữ liệu chính xác hơn bằng cách xác định ranh giới các từ tiếng Việt và xác định danh từ riêng có mặt trong các câu Các giải pháp thực hiện được trình bày ở Chương 2 Việc nhóm các từ ghép và các danh từ riêng lại thành một cụm từ sẽ giúp hệ thống dịch nhận dạng được các từ chính xác hơn, tránh việc thống kê sai các từ không có nghĩa trong quá trình huấn luyện mô hình dịch và tạo lập bộ từ vựng của kho ngữ liệu.

Kho ngữ liệu song ngữ Anh – Việt đã xây dựng sẽ được dùng để làm dữ liệu đầu vào cho quá trình huấn luyện hệ thống và khởi tạo mô hình dịch bằng phương pháp dịch sử dụng mạng nơ ron.

So sánh với các nghiên cứu liên quan đến xây dựng kho ngữ liệu song ngữ, có thể thấy rằng kho ngữ liệu đã được xây dựng trong chuyên đề này có số lượng lớn, vượt trội so với những công trình đã công bố trước đó, phù hợp để ứng dụng xây dựng mô phỏng các hệ thống dịch tự động tiếng Việt.

Bảng 3.2 Tổng hợp quy mô kho ngữ liệu của một số công bố Đề tài KC01.01/06-10 "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lí tiếng nói và văn bản tiếng Việt" (VLSP),

80.000 cặp câu Kinh tế - Xã hội;20.000 cặp câu Tin học

Xây dựng hệ thống dịch Anh – Việt bằng mô hình dịch thống kê sử dụng MOSES

80.000 cặp câu song ngữ Anh – Việt

Xây dựng hệ thống dịch dựa trên ví dụ 6.000 cặp câu song ngữ Anh-Việt

Xây dựng hệ thống dịch thích ứng miền trong dịch máy nơ ron cho cặp ngôn ngữ Anh -

100.000 cặp câu song ngữ Anh Việt thuộc miền pháp lý

Dưới đây là trích dẫn một số mẫu dữ liệu để thực hiện đánh giá:

- Lĩnh vực Văn bản quy phạm pháp luật: Mẫu dữ liệu tpp-chuong28

CHƯƠNG 28GIẢI QUYẾT TRANH CHẤP

Section A: Dispute Settlement Mục A: Giải quyết tranh chấp

For the purposes of this Chapter: complaining Party means a Party that requests the establishment of a panel pursuant to Article 28.7.1

(Establishment of a Panel); consulting Party means a Party that requests consultations pursuant to

Party to which the request for consultations is made; disputing Party means a complaining

Party or a responding Party; Điều 28.1: Định nghĩa Trong Chương này:

Bên nguyên đơn là bên yêu cầu thành lập Ban hội thẩm theo Điều 28.7.1 (Thành lập Ban hội thẩm);

Bên tham vấn là bên yêu cầu tham vấn theo Điều 28.5.1 (Tham vấn) và bên được yêu cầu tham vấn;

Bên tranh chấp là Bên nguyên đơn hoặcBên bị đơn;

Panel means a panel established pursuant to Article 28.7 (Establishment of a Panel); perishable goods means perishable agricultural and fish goods classified in

HS Chapters 1 through 24; responding Party means a Party that has been complained against pursuant to

Rules of Procedure means the rules referred to in Article 28.12 (Rules of

Procedure for Panels) and established in accordance with Article 27.2.1(e)

(Functions of the Commission); and

Ban hội thẩm là ban được thành lập căn cứ theo Điều 28.7 (Thành lập Ban hội thẩm); hàng hóa dễ hỏng là hàng hóa nông nghiệp và thủy sản dễ hỏng phân loại từ mã HS từ chương 1 đến chương 24;

Bên bị đơn là bên bị thưa kiện căn cứ theo điều 28.7.1 (Thành lập Ban hội thẩm);

Đánh giá kết quả 125

Sau khi xây dựng hệ thống dịch văn bản pháp luật tiếng Anh – tiếng Việt bằng mô hình mạng nơ ron kết hợp kho ngữ liệu lớn, nghiên cứu sử dụng 2 bộ dữ liệu liên quan đến lĩnh vực văn bản pháp luật (tpp-chuong28 và tpp-tomtat) như đã mô tả tại Chương 2 để đánh giá chất lượng của hệ thống Kết quả dịch được lấy thông qua câu lệnh “th translate.lua” của OpenNMT, sử dụng mô hình đã huấn luyện ở bước trên.

Các câu tiếng Anh sau khi được hệ thống dịch sang tiếng Việt sẽ được đối chiếu với các câu dịch chuẩn để đánh giá chỉ số BLEU thông qua hệ thống Asiya. Kết quả nhận được điểm BLEU là 29 Sử dụng tập dữ liệu nói trên, thực nghiệm đối chiếu với hệ thống dịch Anh – Việt tương tự là hệ thống dịch văn bản Cồ Việt (một sản phẩm của Lạc Việt tại địa chỉ http://tratu.coviet.vn), cho kết quả điểm BLEU là

27 và hệ thống Evtran được tích hợp trên Vdict (https://vdict.com/#translation) đạt 11.

Bảng 3.3 Kết quả đánh giá và so sánh chất lượng hệ thống dịch Anh-Việt

Kết quả thu được khi so sánh với các nghiên cứu về xây dựng hệ thống dịch đã được công bố đều cho thấy đạt chất lượng tốt hơn thông qua các chỉ số đánh giá.

Bảng 3.4 So sánh điểm BLEU đạt được ở một số nghiên cứu xây dựng hệ thống dịch tiếng Việt

Hệ thống dịch Điểm BLEU cao nhất đạt được

Hệ thống dịch Anh – Việt sử dụng Moses [60] sử dụng bộ dữ liệu huấn luyện IWSLT 2015

Hệ thống dịch Anh – Việt sử dụng Moses [59] sử dụng kho ngữ liệu 880.000 cặp câu tự xây dựng

Hệ thống dịch Anh – Việt sử dụng mạng nơ ron và tập dữ liệu đánh giá của IWSLT 2015 [14]

Hệ thống dịch thông qua ngôn ngữ trung gian giữa cặp ngôn ngữ Séc – Việt [15]

10,59 Để làm rõ kết quả của hệ thống dịch đã xây dựng, luận án thực hiện một số thực nghiệm cụ thể hơn như sau:

- Dịch từ tiếng Anh sang tiếng Việt mục lục của Hiệp định đối tác thương mại xuyên Thái Bình Dương gồm 30 đề mục chương (bản dịch Anh – Việt đã công bố trên các phương tiện truyền thông).

- Dịch từ tiếng Việt sang tiếng Anh tên của Chính phủ, các Bộ, cơ quan ngang bộ gồm 23 tên gọi được quy định tại Mục 2, Phụ lục của Thông tư số03/2009/TT- BNG ngày 09/7/2009 của Bộ Ngoại Giao về hướng dẫn dịch quốc hiệu, tên các cơ quan, đơn vị và chức danh lãnh đạo, cán bộ công chức trong hệ thống hành chính nhà nước sang tiếng anh để giao dịch đối ngoại (bản dịch Anh –Việt đã quy định trong thông tư).

Kết quả dịch từ hệ thống VIKI Translator và EVTran được so sánh chính xác với bản gốc và bỏ qua việc kiểm tra chữ hoa, chữ thường được thể hiện trong bảng sau:

Bảng 3.5 So sánh số lượng câu dịch đúng

Số lượng câu đúng/Tổng số câu

Dịch từ tiếng Anh sang tiếng Việt mục lục của Hiệp định

Dịch từ tiếng Việt sang tiếng Anh tên các cơ quan

Một số câu, thuật ngữ mà hệ thống VIKI Translator đã dịch đúng như sau:

Bảng 3.6 Ví dụ về các câu, thuật ngữ mà hệ thống VIKI Translator đã dịch đúng

Bản gốc tiếng Anh Bản gốc tiếng Việt VIKI Translator EVTran

The State Bank of Viet

Ngân hàng Nhà nước Việt Nam

The State Bank of Vietnam

The Bank of Viet Nam

Bộ Công an Ministry of Public security

Ministry of Justice Bộ Tư pháp The Ministry of

Bộ Lao động - Thương binh và Xã hội

Ministry of Labour, War invalids and Social affairs

Chương 7 Biện pháp vệ sinh và

Chương 7 Các biện pháp vệ sinh

Chương 7 Các biện pháp vệ sinh kiểm dịch và kiểm dịch và kiểm dịch động thực vật

Chương 24 Doanh nghiệp vừa và nhỏ

Chương 24 Doanh nghiệp vừa và nhỏ

Chương 24 Doanh nghiệp nhỏ và vừa

Chương 27 Các điều khoản về hành chính và thể chế

Chương 27 Điều khoản hành chính và thể chế

Chương 27 Các quy định về thể chế và hành chính

Qua các so sánh trên có thể thấy rằng, bằng cách sử dụng kho ngữ liệu số lượng lớn, chất lượng tốt, hệ thống dịch dựa trên mô hình mạng nơ ron mà nghiên cứu đã xây dựng đã cho kết quả tốt Bên cạnh đó, nhờ kho ngữ liệu tập trung vào lĩnh vực văn bản pháp luật mà chúng tôi đã thu thập nên hệ thống dịch có thể dịch được phần lớn thuật ngữ liên quan đến lĩnh vực này, trong khi một số hệ thống khác vẫn có hiện tượng dịch sai các cụm từ quan trọng Điều này cho thấy mô hình dịch NMT có thể áp dụng hiệu quả đối với dịch tự động tiếng Việt. Đánh giá của người dùng

Hệ thống dịch VIKI Translator đã được triển khai từ tháng 11 năm 2017 đến nay, cung cấp cho người sử dụng chức năng dịch trực tuyến từ tiếng Anh sang tiếngViệt và tiếng Việt sang tiếng Anh thông qua môi trường Internet tại địa chỉ:https://vikitranslator.com Giao diện của hệ thống VIKI Translator ở Hình 3.9.

Hình 3.9 Giao diện hệ thống dịch tự động VIKI Translator

Ngoài hình thức sử dụng thông qua website, VIKI Translator còn cung cấp các cách thức sử dụng như sau: oMô đun phần mềm chạy trên nền tảng Windows oMô đun phần mềm chạy trên nền tảng Android oMô đun tích hợp trên trình duyệt Chrome (Chrome Extensions)

Về cơ bản, các phân hệ này hiện thị trực tiếp nội dung từ website chính của VIKI Translator hoặc gọi hàm API từ website này để lấy kết quả dịch.

Tổng hợp một số kết quả đạt được qua quá trình triển khai thực nghiệm hệ thống: o Tổng số lượt truy cập và sử dụng ứng dụng trên tất cả nền tảng: trên

1.500.0 người dùng o Tổng số lượt truy cập website hàng tháng: gần 70.000 người o Lượt tải ứng dụng trên Windows: hơn 30.000 lượt o Số người dùng Chrome Extensions: hơn 5.000 người o Đánh giá của người dùng Chrome Extensions: 4,6/5 điểm từ 27 đánh giá o Đánh giá của người dùng trên Google Play: 4,5/5 điểm từ 47 đánh giá o Tổng số bài viết giới thiệu, hướng dẫn sử dụng từ các website khác: hơn

30 bài o Tổng số liên kết từ các website khác trỏ đến VIKI Translator (backlink):

582.561 backlink (kết quả từ ahrefs.com, trang web tổng hợp số liệu backlink hàng đầu hiện nay)

Hình 3.10 Biểu đồ số lượng người sử dụng hàng tháng (Nguồn: Google Analytics)

Hình 3.11 Thống kê tổng số người dùng (Nguồn: Google Analytics)

Hình 3.12 Thống kê số lượng liên kết (Nguồn: ahrefs.com)

Kết luận Chương 3 130

Nội dung Chương 3 đã trình bày các bước thực nghiệm triển khai xây dựng hệ thống dịch tự động Anh – Việt trên cơ sở tổng hợp các giải pháp cải tiến về mặt kho ngữ liệu và phương pháp dịch đã được đề xuất trong các chương trước Hệ thống VIKI Translator đã xây dựng cho kết quả vượt trội so với một hệ thống dịch tiếng Việt hiện nay qua các số liệu đánh giá cụ thể về điểm BLEU, NIST và WER.

Hệ thống cũng cho kết quả khả quan khi so sánh với một số kết quả xây dựng hệ thống dịch đã được thực hiện trong các nghiên cứu khác.

Hệ thống dịch Anh – Việt đã triển khai thực tế gần 4 năm và có hơn 1,5 triệu lượt sử dụng, nhận được đánh giá tích cực từ phía người dùng Qua đó cho thấy các giải pháp cải tiến mà nghiên cứu đề xuất đã góp phần xây dựng được hệ thống dịch có chất lượng tốt, phù hợp để triển khai và tiếp tục nghiên cứu phát triển cho bài toán dịch tự động tiếng Việt.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Hướng phát triển 132

Để hoàn thiện các giải pháp đối với hệ thống dịch tự động tiếng Việt và giúp các hệ thống đạt chất lượng tốt hơn, trong thời gian tới nghiên cứu sinh sẽ tiếp tục tập trung nghiên cứu các nội dung chính sau đây:

- Tiếp tục nghiên cứu, cải tiến phương pháp dịch sử dụng mạng nơ ron nhằm đạt hiệu quả cao hơn.

- Xây dựng kho ngữ liệu phong phú hơn bằng nhiều phương pháp khác nhau,đồng thời mô tả ngữ nghĩa của dữ liệu và kết hợp phân tích ngữ nghĩa trong phương pháp dịch.

- Mở rộng xây dựng kho ngữ liệu ở các lĩnh vực khác nhau và triển khai đánh giá, phân tích và so sánh.

- Đánh giá yếu tố ngữ cảnh của toàn văn bản để làm tham số đầu vào cho hệ thống dịch, từ đó nâng cao chất lượng của kết quả dịch.

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ

1 Huỳnh Công Pháp, Đặng Đại Thọ, Nguyễn Văn Bình, “Cải tiến chất lượng dịch tự động bằng giải pháp mở rộng kho ngữ liệu”, Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR) (ISBN: 978- 604-913-397-8), pp 80-87, 07/2015.

2 Phạm Tuấn Anh, Nguyễn Văn Bình, “Nghiên cứu các phương pháp và đề xuất hệ thống đánh giá chất lượng dịch tự động song ngữ Anh - Việt”, Kỷ yếu Hội thảo khoa học Quốc gia Công nghệ thông tin và ứng dụng trong các lĩnh vực CITA2015, Trang 118-121, 06/2015.

3 Nguyễn Văn Bình, Huỳnh Công Pháp, “Cải tiến chất lượng dịch Việt-Anh bằng mô hình học máy mạng nơron kết hợp kho ngữ liệu lớn”, Kỷ yếu Hội thảo

Quốc gia “Một số vấn đề chọn lọc của Công nghệ thông tin và Truyền thông” (Hội thảo @), 11/2017.

4 Nguyễn Văn Bình, Huỳnh Công Pháp, “A System of Exploiting and Building Homogeneous and Large Resources for the Improvement of Vietnamese- Related Machine Translation Quality”, International Journal of Applied

Engineering Research, pp 10242-10248, 12/2017 (Indexed in Scopus).

5 Nguyễn Văn Bình, Huỳnh Công Pháp, Huỳnh Thị Tâm Thương, “Giải pháp tách từ sử dụng mạng nơ ron nhằm nâng cao chất lượng dịch tự động tiếng Việt”,

Kỷ yếu hội thảo quốc gia CITA2017 (ISBN: 978-604-80-2853-4), 11/2017.

6 Huỳnh Công Pháp, Nguyễn Văn Bình, “Cải tiến chất lượng dịch máy kết hợp giải pháp xây dựng kho ngữ liệu phục vụ đánh giá chất lượng hệ thống dịch tự động tiếng Việt”, Tạp chí Khoa học và Công nghệ Đại học Đà Nẵng, ISSN: 1859-

7 Nguyễn Văn Bình, Huỳnh Công Pháp, “An English-Vietnamese Translation System Using Artificial Intelligence Approach”, ACIIDS 2018: Intelligent

Information and Database Systems, Lecture Notes in Computer Science; Nhà xuất bản: Springer Nature, pp 211-220, 03/2018 (Indexed in Scopus).

8 Huỳnh Công Pháp, Cao Xuân Tuấn, Nguyễn Văn Bình, Đinh Thị Mỹ Hạnh,

“Xây dựng mô hình và thuật toán hợp nhất dữ liệu từ điển phục vụ xử lý ngôn ngữ tự nhiên”, Kỷ yếu Hội thảo khoa học Quốc gia CITA2018, “Công nghệ thông tin và ứng dụng trong các lĩnh vực”, ISBN: 978-604-84-3470-0, Trang 215-222, 09/2018.

9 Nguyễn Văn Bình, Huỳnh Công Pháp, “Đánh giá vai trò của kho ngữ liệu đối với chất lượng dịch tự động tiếng Việt”, Tạp chí Khoa học và Công nghệ Đại học Đà Nẵng, ISSN 1859-1531, Vol 19, No 1, 01/2021.

10 Huỳnh Công Pháp, Đặng Đại Thọ, Nguyễn Văn Bình, “Giải pháp phát triển kho ngữ liệu dịch tự động theo hướng làm giàu ngữ nghĩa”, Kỷ yếu Hội thảo khoa học Quốc gia CITA2021, 06/2021.

11 Nguyễn Văn Bình, Huỳnh Công Pháp, Đặng Đại Thọ, “Improving the neural network model in combination with a big semantic-enriched corpus for building an English - Vietnamese semantic-oriented machine translation system”,

Design Engineering, ISSN 0011-9342, Vol 2021, Issue 07, 07/2021 (Indexed in Scopus).

Ngoài ra, nghiên cứu sinh đã thực hiện 01 đề tài NCKH cấp Bộ:

12 Nguyễn Văn Bình, Đề tài NCKH cấp Bộ: “Nghiên cứu giải pháp đánh giá chất lượng dịch tự động tiếng Việt”, Mã số: B2016-DNA-48-TT, 2017-2018, Báo cáo nghiệm thu 03/2019.

[1] W Hutchins and H Somers, An Introduction fo Machine Translation. Academic Press, Harcourt Brace Jovanovich, Publishers, 1992.

[2] Đ T Hồng, “Xây dựng hệ thống dịch tự động tiếng Việt.” Tạp chí Ngôn ngữ và Đời sống, p vol 11(157), 2008.

[3] R K Philipp Koehn, “Six Challenges for Neural Machine Translation.” Proceedings of the First Workshop on Neural Machine Translation, Vancouver, Canada, pp 28–39, 2017.

[4] W J Hutchins, “Machine Translation: A Brief History,” Concise History of the Language Sciences pp 431–445, 1995, doi: 10.1016/b978-0-08-042580-

[5] M Nagao, “A Framework of a Mechanical Translation between Japanese and English by Analogy Principle,” in Readings in Machine Translation, 1984, pp 173–180, doi: 10.7551/mitpress/5779.003.0038.

[6] S Sato and M Nagao, “Toward memory-based translation,” in Proceedings of the 13th conference on Computational linguistics -, 1990, vol 3, pp 247–

[7] H Somers, “Review Article: Example-based Machine Translation.” Kluwer Academic Publishers Printed in the Netherlands, pp 113–157, 1999.

[8] N Q Phuoc, Y Quan, and C.-Y Ock, “Building a Bidirectional English- Vietnamese Statistical Machine Translation System by Using MOSES,”

International Journal of Computer and Electrical Engineering, vol 8, no 2. pp 161–168, 2016, doi: 10.17706/ijcee.2016.8.2.161-168.

[9] P Koehn, Statistical Machine Translation Cambridge University Press, 2010.

[10] H N Franz Josef Och, “A Systematic Comparison of Various,” Association for Computational Linguistics 2003.

[11] D M Philipp Koehn, Franz Josef Och, “Statistical Phrase-Based Translation,”

DARPA IAO Machine Translation Workshop Santa Monica, CA, 2002.

[12] H H A B Philipp Koehn, “Moses: Open Source Toolkit for Statistical Machine Translation,” Proceedings ofthe ACL 2007 Association for Computational Linguistics, Prague, pp 177–180, 2007, doi: 10.5539/ijel.v5n3p143.

[13] Phan Thị Hà, “Nghiên cứu việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn Internet cho xử lý tiếng Việt.” Luận án Tiến sĩ kỹ thuật Ngành

Hệ thống thông tin, Học viện công nghệ Bưu chính Viễn thông, 2013.

[14] C Boitet, “Corpus pour la TA : types, tailles et problèmes associés, selon leur usage et le type de systốme,” Revue franỗaise de linguistique appliquộe, vol.

[15] L N M Đinh Điền, “Ứng dụng Ngữ liệu Song ngữ Anh-Việt trong Giảng dạy Ngôn ngữ,” in Hội thảo Liên ngành NNH Ứng dụng & Giảng dạy Ngôn ngữ, 2015, pp 559–567.

[16] P Koehn, “Europarl: A Parallel Corpus for Statistical Machine Translation,” in Proc of the 10th Machine Translation Summit, 2005, pp 79–86, doi: 10.5209/DIDA.19853.

[17] J B Carroll, “An Experiment in Evaluating the Quality of Translations,”

Mechanical Translation and Computational Linguistics, vol 9, no 3–4 pp.

[18] J S Chris Callison-Burch, Cameron Fordyce, Philipp Koehn, Christof Monz,

“(Meta-) Evaluation of Machine Translation,” in Proceedings ofthe Second

Workshop on Statistical Machine Translation, 2007, pp 136–158.

[19] M Przybocki, K Peterson, S Bronsart, and G Sanders, “The NIST 2008Metrics for machine translation challenge—overview, methodology, metrics,and results,” Mach Transl., vol 23, no 2–3, pp 71–103, Sep 2009, doi:10.1007/s10590-009-9065-6.

[20] and I D M Joseph P Turian, Luke Shen, “Evaluation of Machine Translation and its Evaluation,” Proceedings of the International Conference

& Workshop on Emerging Trends in Technology - ICWET ’11 ACM Press,

New York, New York, USA, 2011, doi: 10.1145/1980022.1980409.

[21] M Snover, B Dorr, R Schwartz, L Micciulla, and J Makhoul, “A study of translation edit rate with targeted human annotation,” AMTA2006 -

Proceedings of the 7th Conference of the Association for Machine Translation of the Americas: Visions for the Future of MT pp 223–231,

[22] D Gates et al., “End-to-end evaluation in JANUS: A speech-to-speech translation system,” in Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 1997, vol 1236, pp 195–206, doi: 10.1007/3-540-63175-

[23] R Nübel, “End-to-End evaluation in VERBMOBIL I,” in Proceedings of MT

[24] J S White and T A O’Connell, “Evaluation in the ARPA machine translation program,” Human Language Technology: Proceedings of a

Workshop held at Plainsboro, New Jersey 1994, doi:

[25] M Denkowski and A Lavie, “Choosing the right evaluation for machine translation: An examination of annotator and automatic metric performance on human judgment tasks,” AMTA 2010 - 9th Conference of the Association for Machine Translation in the Americas 2010.

[26] F J Och, “Minimum Error Rate Training,” Proceedings of the 41st Annual

Meeting of the Association for Computational Linguistics pp 160–167, 2003.

[27] K.-Y Su, M.-W Wu, and J.-S Chang, “A new quantitative quality measure for machine translation systems.” p 433, 1992, doi: 10.3115/992133.992137.

[28] V I Levenshtein, “Binary codes capable of correcting deletions, insertions, and reversals,” Soviet physics doklady, vol 10, no 8 pp 707–710, 1966.

[29] S Nieòen, F J Och, G Leusch, and H Ney, “An evaluation tool for machine translation: Fast evaluation for MT research,” 2nd International Conference on Language Resources and Evaluation, LREC 2000 2000.

[30] H S C Tillmann, S Vogel, H Ney, A Zubiaga, “Accelerated Dp Based Search For Statistical Translation,” Fifth European Conference on Speech

[31] W.-J Z Kishore Papineni, Salim Roukos, Todd Ward, “BLEU: a Method for Automatic Evaluation of Machine Translation,” in Proceedings of the 40th

Annual Meeting of the Association for Computational Linguistics (ACL),

[32] E Hovy, “Toward Finely Differentiated Evaluation Metrics for Machine Translation,” Proceedings of the EAGLES Workshop on Standards and

[33] A Popescu-Belis, “An experiment in comparative evaluation: human vs. computers,” MT Summit IX pp 307–314, 2003.

[34] G N Ramaswamy, J Navrátil, U V Chaudhari, and R D Zilca, “The IBM system for the NIST-2002 cellular speaker verification evaluation,” ICASSP,

IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings, vol 2 pp 61–64, 2003, doi: 10.1109/icassp.2003.1202294.

[35] V T Hùng, “Phương pháp và công cụ đánh giá tự động các hệ thống dịch tự động trên mạng,” Tạp chí Khoa học và Công nghệ Đại học Đà Nẵng, vol. 1(18), pp 37–42, 2007.

[36] H V Tran, T H Vu, T T Le, P L Nghia, and V V Nguyen, “The English- Vietnamese Machine Translation System for IWSLT 2015,” Proceeding of the 12th International Workshop on Spoken Language Translation 2015.

[37] M Luong and C D Manning, “Stanford Neural Machine Translation Systems for Spoken Language Domains,” Proceedings of the international workshop on spoken language translation pp 76–79, 2015.

[38] D T Hoang and O Bojar, “Pivoting methods and data for Czech-Vietnamese translation via English,” Proceedings of the 19th Annual Conference of the

European Association for MT, EAMT2016 pp 190–202, 2016.

[39] Dinh Dien, “Building an annotated English-Vietnamese parallel corpus,”

MKS A J Southeast Asian Linguist Lang., vol 35, pp 21–36, 2005.

[40] T.-N.-D Do, V.-B Le, B Bigi, L Besacier, and E Castelli, “Mining a comparable text corpus for a Vietnamese - French statistical machine translation system.” p 165, 2009, doi: 10.3115/1626431.1626466.

Ngày đăng: 08/12/2022, 00:31

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w