Cải thiện chất lượng dịch tự động tiếng Việt: Nghiên cứu dựa trên kho ngữ liệu và mô hình máy học

MỤC LỤC

Mục tiêu nghiên cứu

Mục tiêu chung của nghiên cứu là đề xuất được các giải pháp cụ thể nhằm cải tiến chất lượng của các hệ thống dịch tiếng Việt nói chung, trong đó phân tích cụ thể cho bài toán dịch tự động giữa cặp ngôn ngữ Việt – Anh. - Đề xuất được các giải pháp nhằm nâng cao chất lượng của hệ thống dịch giữa cặp ngôn ngữ Anh – Việt;.

Phương pháp nghiên cứu

- Tập trung nghiên cứu, đánh giá các hệ thống dịch tự động phổ biến hiện nay, đề xuất giải pháp cải tiến chất lượng dịch tự động đối với cặp ngôn ngữ tiếng Việt – tiếng Anh. - Xây dựng ứng dụng thực nghiệm dịch tự động từ tiếng Anh sang tiếng Việt và ngược lại ở một lĩnh vực hẹp là lĩnh vực văn bản quy phạm pháp luật.

Bố cục của luận án

Từ thực trạng chất lượng dịch nhận được luận án đề xuất một số giải pháp nhằm cải tiến chất lượng của các kho ngữ liệu tiếng Việt ở khía cạnh số lượng và chất lượng, sau đó triển khai thực nghiệm một số giải pháp cải tiến và tiến hành xây dựng kho ngữ liệu lớn phục vụ việc huấn luyện các mô hình dịch tiếng Việt chất lượng tốt. Từ các giải pháp đề xuất ở Chương 2, nội dung Chương 3 triển khai các bước thực nghiệm xây dựng kho ngữ liệu lớn và xây dựng mô hình dịch máy mạng nơ ron cho cặp ngôn ngữ Anh – Việt, sau đó xây dựng hệ thống dịch lĩnh vực văn bản quy phạm pháp luật VIKI Translator và triển khai trên môi trường Internet để cung cấp dịch vụ cho người dùng thực tế, qua đó đánh giá hiệu quả của hệ thống dịch và các phương pháp đã đề xuất.

Đóng góp chính của luận án

Nghiên cứu tổng quan về dịch tự động, kho ngữ liệu, các phương pháp cải tiến và đánh giá chất lượng dịch tự động

Phương pháp dịch này còn được tác giả gọi là phương pháp dịch tự động dựa trên suy luận từ các ví dụ, hay dịch máy theo nguyên lý tương tự, có ý tưởng chính như sau: việc dịch một câu đơn giản không cần dựa trên quá trình phân tích sâu về mặt ngôn ngữ, thay vào đó, chúng ta phân tách câu đầu vào thành các cụm từ rời rạc, sau đó dịch các cụm từ này sang ngôn ngữ khác, và cuối cùng chỉ cần ghép nối các cụm từ này lại với nhau theo một thứ tự đúng để tạo thành một câu dài hoàn chỉnh. Kho ngữ liệu biểu diễn bằng định dạng XML, gồm các thông tin chung về tài liệu như: định danh (setid), ngôn ngữ nguồn (srclang) là tiếng Anh, ngôn ngữ đích (tgtlang) là tiếng Việt, định danh văn bản (docid), thể loại (genre), đường dẫn (url), mô tả (description), từ khóa (keywords), tiêu đề (title) và dữ liệu được đánh số theo trường id.

Mơ hình tổng qt của phương pháp dịch dựa trên ví dụ thể hiện ở hình sau [7]:
Mơ hình tổng qt của phương pháp dịch dựa trên ví dụ thể hiện ở hình sau [7]:

Các nghiên cứu liên quan đến xây dựng và cải tiến chất lượng dịch tự động tiếng Việt

Từ khi bắt đầu xây dựng (1998) cho đến nay, Kho ngữ liệu tiếng Việt của Vietlex chứa khoảng 80.000.000 âm tiết (tương đương gần 4 triệu câu), được thu thập từ các tác phẩm văn học và báo chí, các tác phẩm khoa học, các văn bản pháp luật, các bài viết chuyên ngành. - Nghiên cứu tại [41] đã áp dụng bộ phân lớp Entropy cực đại kết hợp với bộ lọc độ dài câu và bộ lọc bao phủ từ để trích xuất các cặp câu thực sự song song và gần song song từ các nguồn tài nguyên trên internet, từ đó loại bỏ các cặp câu chất lượng kém ra khỏi kho ngữ liệu nhằm cải tiến chất lượng của dữ liệu.

B. HOẠT ĐỘNG HÌNH THÀNH KIẾN THỨC Hoạt động 1: Mạng có dây
B. HOẠT ĐỘNG HÌNH THÀNH KIẾN THỨC Hoạt động 1: Mạng có dây

Thực trạng chất lượng dịch tự động tiếng Việt

EVTran đã được thương mại hóa và cấp phép cho một số công ty như Tinh Vân, Dotcom Solution, New Century, có phiên bản cài đặt trên máy tính hoặc dịch trực tiếp trên website, đã được tích hợp vào từ điển Vdict tại địa chỉ: http://vdict.com/#translation. - Nhiều hệ thống dịch trực tuyến khác cũng hỗ trợ dịch Anh – Việt như imTranslator, FreeTranslation, NiceTranslator… nhưng tất cả các ứng dụng này đều sử dụng các dịch vụ của Google hoặc Microsoft, thông qua các hàm API để lấy kết quả dịch từ các hệ thống này và hiển thị cho người dùng chứ không xây dựng mô hình dịch riêng cho mình.

Giới thiệu

- Phương pháp dịch hiệu quả, phù hợp với ngôn ngữ, triệt tiêu tối đa sự nhập nhằng về ngữ nghĩa, có thể hiểu được nội dung của cả câu đầu vào cần dịch để cho kết quả chính xác nhất và phù hợp với ngữ cảnh. Vì vậy, với bài toán cải tiến chất lượng của hệ thống dịch tự động nói chung và đối với tiếng Việt nói riêng, luận án sẽ tập trung phân tích thực trạng và đề xuất các giải pháp ở hai khía cạnh quan trọng nhất ảnh hưởng đến kết quả dịch là cải tiến chất lượng của kho ngữ liệu sử dụng trong mô hình dịch và áp dụng phương pháp dịch phù hợp đối với tiếng Việt để có thể tạo ra mô hình dịch tốt nhất.

Đánh giá chất lượng các hệ thống dịch tự động tiếng Việt

Nguyên nhân là do sự nhập nhằng trong ngữ nghĩa tiếng Việt và ở các hội thoại ngắn thì có nhiều cách dùng các từ hoàn toàn khác nhau để thể hiện cùng một nội dung, chẳng hạn đối với các đại từ nhân xưng nên bản dịch khó trùng khớp với câu tham khảo, mặc dù trong một số trường hợp hệ thống cho kết quả dịch chính xác. Hiện nay các hệ thống dịch tự động chưa thể cho các kết quả dịch hoàn toàn chính xác để có thể sử dụng ngay, mà cần có quá trình can thiệp của con người thông qua quá trình hiệu đính để hoàn thiện bản dịch, bao gồm việc kiểm tra từ ngữ, ngữ pháp, chính tả, tên riêng, thuật ngữ chuyên ngành… mà hệ thống dịch chưa xử lý chính xác.

Hình 2.2. Quy trình tổ chức đánh giá chất lượng dịch tiếng Việt
Hình 2.2. Quy trình tổ chức đánh giá chất lượng dịch tiếng Việt

Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào kho ngữ liệu lớn Tổng quan

Hệ thống Google Translator cung cấp phương thức gọi dưới dạng dịch vụ (web services), chúng ta cần thực hiện là xây dựng công cụ đọc lần lượt từng bộ phận của kho ngữ liệu và gửi đến hệ thống Google Translator thông qua lời gọi dịch vụ của Google Translator. Còn đối với các hệ thống dịch như Systran, Reverso… chúng ta cần phải nghiên cứu các hàm API hay thư viện lập trình mà các hệ thống này cung cấp để xây dựng các chương trình gọi các hệ thống này thực thi tự động. c) Thêm dữ liệu vào kho ngữ liệu. Tương tự giải pháp mở rộng khối lượng kho ngữ liệu bằng cách mở rộng ngôn ngữ, thêm dữ liệu vào kho ngữ bằng cách thu thập dữ liệu từ các nguồn dữ liệu khác không phải là ý tưởng mới và đã được nhiều người thực hiện. Tuy nhiên, vấn đề khó ở đây là một giải pháp tổng thể và tự động cho bất kỳ ngôn ngữ nào. Bởi lẽ để thực hiện được điều này chúng ta phải giải quyết được tất cả các bước như mô tả ở hình dưới đây của quá trình này một cách tổng thể, tự động cho tất cả các ngôn ngữ [51]. Theo Hình 2.13, các vấn đề khó của quá trình thu thập dữ liệu để xây dựng và bổ sung dữ liệu cho kho ngữ liệu bao gồm nhận dạng ngôn ngữ tự động từ nguồn tài nguyên hỗn tạp; xác định văn bản song song ở nhiều mức khác nhau như trang, đoạn, câu; tách câu, tách đoạn; liên kết câu hoặc đoạn. Các vấn đề này được xem là rất khó để thực hiện một cách tổng thể cho bất kỳ ngôn ngữ nào vì đặc điểm của mỗi ngôn ngữ [51]. Cải tiến chất lượng kho ngữ liệu. Trong phần này luận án đề xuất các giải pháp nhằm cải tiến chất lượng kho ngữ liệu thông qua quá trình hậu xử lý và mở rộng ngữ nghĩa cho kho ngữ liệu. a) Cải tiến thông qua quá trình hậu xử lý. Một kho ngữ liệu song ngữ có thể được xây dựng tự động bằng cách thu thập dữ liệu song song từ các nguồn tài nguyên khác như các website hoặc có thể được xây dựng bằng cách mở rộng ngôn ngữ thông qua quá trình dịch tự động. Vì thế chất lượng của các kho ngữ liệu thường rất thấp, để cải tiến chất lượng dữ liệu của các kho ngữ liệu cần phải có sự tham gia kiểm tra, chỉnh sửa của con người trên dữ liệu của kho ngữ liệu. Do đó, vấn đề cần giải quyết ở đây đó là nghiên cứu xây dựng được một hệ thống hỗ trợ cho quá trình hậu xử lý. Hệ thống này cần cho phép nạp các kho ngữ liệu lớn và hiển thị dữ liệu một cách trực quan và khoa học sao cho dễ dàng cho người dùng kiểm tra và cải tiến dữ liệu. Ngoài ra, hệ thống này cần phải hoạt động như một môi trường cộng tác, cho phép nhiều người dùng tham gia cải tiến dữ liệu. b) Xây dựng kho ngữ liệu làm giàu ngữ nghĩa. Dựa vào danh sách các từ tố, tìm ra một từ tố nằm trước phần tử đó trong văn bản (tiền tố một từ tố). Kiểm tra xem từ tố này có nằm trong từ điển tiền tố một từ tố của lớp danh từ riêng cần xác định hay không và tìm ra được các phần tử của các lớp danh từ riêng thông qua tiền tố của nó. Bước 2: Kiểm tra dựa vào hậu tố. Tiếp tục tìm các phần tử của các lớp danh từ riêng từ các cụm từ tố không có nghĩa còn lại dựa vào hậu tố của nó. Dựa vào danh sách các từ tố, xác định hậu tố một từ tố của cụm từ tố đó trong văn bản. Kiểm tra xem từ tố này có nằm trong từ điển hậu tố một từ tố của lớp danh từ riêng cần xác định hay không và tìm ra được các phần tử của các lớp danh từ riêng thông qua hậu tố của nó. Bước 3: Từ danh sách cụm từ tố không có nghĩa còn lại, tìm ra các cụm từ tố là chuỗi con của các cụm có trong danh sách danh từ riêng của các lớp danh từ riêng. Nếu tìm có trong danh sách danh từ riêng lớp nào thì thêm chuỗi con đó vào danh sách danh từ riêng lớp đó và đưa nó ra khỏi danh sách cụm từ tố không có nghĩa. Bước 4: Nhận diện các tên riêng không có tiền tố và hậu tố nhưng đứng sát các tên riêng đã nhận dạng. Từ danh sách các từ tố không có nghĩa còn lại, ta duyệt theo từng phần tử của danh sách cụm từ tố không có nghĩa, tìm ra các phần tử đứng trước nó là khoảng trống và kế sát trước khoảng trống là dấu phẩy hoặc từ “và”. Nếu từ tố đứng sát trước dấu phẩy “,” hoặc từ “và” đó là chuỗi con của một phần tử trong danh sách danh từ riêng của lớp danh từ riêng nào thì thêm nó là danh sách danh từ riêng lớp đó. Luận án đã thử nghiệm thuật toán với 10 tài liệu, thu được kết quả về độ chính xác trung bình là 71%. Để nâng cao hơn nữa hiệu quả của giải pháp này, hệ thống cho phép người dùng hiệu chỉnh kết quả nhận diện bằng tay. Hệ thống sẽ hiển thị. danh sách các từ, cụm từ đã được nhận diện để người dùng có thể xác nhận, chỉnh sửa,…. Hệ thống nhận dạng và phân loại thực thể danh từ riêng từ kho ngữ liệu d) Giải pháp xác định ranh giới từ tiếng Việt.

Hình 2.9. Quan hệ giữa các dạng dữ liệu của các kho ngữ liệu
Hình 2.9. Quan hệ giữa các dạng dữ liệu của các kho ngữ liệu

Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào mô hình máy học mạng nơ ron

Theo các tài liệu đã được công bố, Google bắt đầu áp dụng GNMT (Google Neural Machine Translation – Hệ thống dịch máy sử dụng mạng nơ ron của Google) để thay thế cho mô hình dịch thống kê cho 8 ngôn ngữ: Anh, Pháp, Đức, Tây Ban Nha, Thổ Nhĩ Kỳ, Trung Quốc, Nhật Bản, Hàn Quốc và Thổ Nhĩ Kỳ từ tháng 11/2016. Không giống như mô hình dịch truyền thống dựa trên cụm từ, phụ thuộc vào các cụm từ riêng biệt để dịch và ghép nối như mô hình dịch thống kê, NMT sẽ huấn luyện từ dữ liệu đầu vào để tạo ra một mạng nơ ron có lớn có thể đọc các câu nguồn và tái tạo câu đích dựa trên nguyên tắc hoạt động của các mạng nơ ron hồi quy (Recurrent Neural Networks).

Hình 2.19. Mơ hình dịch tự động sử dụng mạng nơron
Hình 2.19. Mơ hình dịch tự động sử dụng mạng nơron

Giới thiệu

Việc triển khai hệ thống dịch ở lịch vực này sẽ khó đạt chất lượng hơn so với các lĩnh vực thông dụng khác. Các bước xây dựng hệ thống dịch thực hiện theo các giải pháp đã được đề xuất ở Chương 2, bao gồm ba phần chính là xây dựng và cải tiến kho ngữ liệu, cài đặt tham số và huấn luyện mô hình dịch, triển khai trên môi trường Internet và đánh giá kết quả.

Xây dựng kho ngữ liệu Quy trình các bước triển khai

(2) Thực hiện các bước tiền xử lý dữ liệu: Dữ liệu thô thu được từ bước (1) sẽ được xử lý bằng các phương pháp cơ bản với sự hỗ trợ của thư viện xử lý ngôn ngữ tự nhiên NLTK và spaCy, bao gồm: Làm sạch văn bản bằng cách loại bỏ các thẻ XML, HTML, các thẻ định dạng của các loại tài liệu khác nhau; Xóa bỏ một số ký tự phân cách và các ký tự đặc biệt; Chuyển dữ liệu về bảng mã Unicode. Đối với giải pháp mở rộng ngôn ngữ, bổ sung và cải tiến dữ liệu cho các kho ngữ liệu, luận án đã xây dựng được một môi trường làm việc cộng tác cho phép gọi các hệ thống dịch tự động để mở rộng ngôn ngữ cho kho ngữ liệu, thu thập dữ liệu song song từ các website đa ngữ cũng như cho phép cải tiến dữ liệu thông qua chức năng hậu xử lý.

b) Nội dung: GV đưa ra bài tập, yêu cầu HS hình thành nhóm, thảo luận, đưa ra
b) Nội dung: GV đưa ra bài tập, yêu cầu HS hình thành nhóm, thảo luận, đưa ra

Kết quả thực nghiệm xây dựng ứng dụng dịch Anh – Việt lĩnh vực văn bản pháp luật (VIKI Translator)

Nếu sử dụng tham số mặc định src_vocab_size = tgt_vocab_size = 50.000 và qua quan sát kết quả các tập tin đầu ra, có thể nhận thấy bộ từ vựng tiếng Việt được tạo ra chứa nhiều từ không phải là tiếng Việt, hoặc các từ sai chính tả, sai bảng mã. Máy chủ tiếp nhận và xử lý Văn bản đích (kết quả dịch) đó, tham số biểu diễn chất lượng của mô hình (perplexity) đạt được là 4,80 đối với dịch từ Anh sang Việt và 4,66 đối với dịch từ Việt sang Anh.

Đánh giá kết quả Kết quả thực nghiệm

- Dịch từ tiếng Việt sang tiếng Anh tên của Chính phủ, các Bộ, cơ quan ngang bộ gồm 23 tên gọi được quy định tại Mục 2, Phụ lục của Thông tư số 03/2009/TT- BNG ngày 09/7/2009 của Bộ Ngoại Giao về hướng dẫn dịch quốc hiệu, tên các cơ quan, đơn vị và chức danh lãnh đạo, cán bộ công chức trong hệ thống hành chính nhà nước sang tiếng anh để giao dịch đối ngoại (bản dịch Anh – Việt đã quy định trong thông tư). - Nghiên cứu về các phương pháp đánh giá chất lượng bản dịch máy, triển khai đánh giá tổng quát và chi tiết chất lượng của các hệ thống dịch tiếng Việt đang hoạt động hiện nay, cung cấp các số liệu làm cơ sở để phân tích, so sánh giữa các hệ thống dịch và chất lượng dịch ở các lĩnh vực khác nhau trong cùng một hệ thống cũng như có thể so sánh với chất lượng các hệ thống dịch ở các ngôn ngữ khác.

Bảng 3.5. So sánh số lượng câu dịch đúng
Bảng 3.5. So sánh số lượng câu dịch đúng

Hướng phát triển

Nguyễn Văn Bình, Huỳnh Công Pháp, “An English-Vietnamese Translation System Using Artificial Intelligence Approach”, ACIIDS 2018: Intelligent Information and Database Systems, Lecture Notes in Computer Science; Nhà xuất bản: Springer Nature, pp. Nguyễn Văn Bình, Huỳnh Công Pháp, Đặng Đại Thọ, “Improving the neural network model in combination with a big semantic-enriched corpus for building an English - Vietnamese semantic-oriented machine translation system”, Design Engineering, ISSN 0011-9342, Vol 2021, Issue 07, 07/2021 (Indexed in Scopus).