Minh họa phân lớp dữ liệu

Một phần của tài liệu Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng việt (Trang 130)

Bước 4: Xây dựng giá trị cho các thuộc tính của các thể hiện của thực thể đã

nhận diện được. Chẳng hạn giá trị thuộc tính cho Hồ Chí Minh là tên khác, diện tích, dân số, khí hậu…

World Wide Web là một kho thông tin khổng lồ, cập nhật liên tục. Vì vậy, NCS sử dụng thơng tin từ các trang web để xây dựng và cập nhật các thuộc tính của các thực thể. Sử dụng các máy tìm kiếm dựa trên các từ khóa là các thuộc tính của các thực thể để có được danh sách các trang web có chứa từ khóa và danh sách này được liệt kê theo thứ tự về độ quan trọng.

Thông tin ở trang web được lưu trữ và trình bày dưới nhiều hình thức khác nhau. Đối với văn bản web phi cấu trúc, nghiên cứu quan tâm đến việc trích chọn đối tượng, trong đó các đối tượng được trích chọn bao gồm các thuộc tính, đặc điểm,… Việc trích chọn quan hệ giữa các thực thể đã được xác định cũng được sử dụng. Bên cạnh đó, thơng tin từ văn bản web bán cấu trúc cũng rất quan trọng cho việc xây dựng

thuộc tính cho các thực thể, chẳng hạn như họ tên, quê quán, tiểu sử,… của một nhân vật. Việc trích chọn thơng tin từ văn bản web có ba cách tiếp cận chính, bao gồm hướng tiếp cận thủ công sử dụng hệ luật, tiếp cận sử dụng các phương pháp học máy (Hidden Markov Models, Maximum Entropy Markov Models, Conditional Random Fields - CRFs) và tiếp cận lai bằng cách kết hợp ưu điểm của hai phương pháp trên. Nghiên cứu này sử dụng cách tiếp cận lai để xác định trích chọn dữ liệu nhằm gán giá trị thuộc tính cho các thực thể.

Hình 3.6. Mơ tả ngữ nghĩa của kho ngữ liệu

Dữ liệu tổng hợp được sẽ lưu trữ theo định dạng RDF, là một phương thức chung cho các mô tả khái niệm hoặc mơ hình hóa của thơng tin được diễn dịch trong các tài nguyên web, sử dụng trong các định dạng cú pháp khác nhau. Một trích đoạn tập tin RDF biểu diễn như sau:

<?xml version="1.0"?>

<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax- ns#" xmlns:dc="http://purl.org/dc/elements/1.1/">

<rdf:Description rdf:about="Văn Miếu - Quốc Tử Giám"> <dc:Type>Đền thờ</dc:Type> <dc:Location>Hà Nội</dc:Location> <dc:Built>1070</dc:Built> <dc:Area>54,000 m2</dc:Area> </rdf:Description> </rdf:RDF>

3.3. Kết quả thực nghiệm xây dựng ứng dụng dịch Anh – Việt lĩnh vực văn bản pháp luật (VIKI Translator)

Quy trình các bước triển khai

Để thực nghiệm xây dựng hệ thống dịch và đánh giá kết quả, nghiên cứu sinh tiến hành xây dựng hệ thống dịch tiếng Anh – tiếng Việt trong lĩnh vực văn bản hành chính, pháp luật sử dụng mơ hình mạng nơ ron kết hợp kho ngữ liệu lớn đã thu thập được. Có thể thấy rằng việc ứng dụng mạng nơ ron để xây dựng hệ thống dịch tự động đã được nghiên cứu ở một số ngôn ngữ, tuy nhiên đến thời điểm nghiên cứu này được thực hiện, phương pháp dịch này vẫn chưa được áp dụng thực tế ở các hệ thống dịch và chưa có đánh giá cụ thể đối với tiếng Việt.

Quá trình triển khai xây dựng mơ hình dịch thực hiện các bước sau:

Thiết kế mạng nơ ron

Điều chỉnh bộ tham số mơ hình

Huấn luyện mơ

hình dịch Đánh giá

Hình 3.7. Sơ đồ trình tự các bước xây dựng hệ thống dịch

Tổ chức huấn luyện mơ hình dịch và điều chỉnh tham số mơ hình

Thiết kế mạng nơ ron: Nghiên cứu sử dụng mã nguồn mở OpenNMT [64] đã được thiết kế mạng nơ ron và các thành phần của hệ dịch để huấn luyện mơ hình dịch. Mã nguồn này cho phép điều chỉnh nhiều bộ tham số khác nhau trong quá trình học máy và đang được nhiều nhóm nghiên cứu sử dụng.

Huấn luyện mơ hình dịch: Với cùng một thuật tốn học máy thực hiện trên một bộ dữ liệu đã có, việc chọn lựa các tham số đầu vào có ảnh hưởng lớn đến thời gian thực hiện huấn luyện và chất lượng của mơ hình dịch được tạo ra. Đối với phương pháp dịch tự động sử dụng mạng nơ ron, các tham số quan trọng được sử dụng như sau:

- Số lớp ẩn của của mạng nơ ron và số nút trên mỗi lớp: vì số lượng dữ liệu đầu vào lớn, khi sử dụng một lớp ẩn cho bộ mã hóa và bộ giải mã, chất lượng dịch đạt được rất thấp. Vì vậy thực nghiệm này sử dụng hai lớp ẩn với kích thước mỗi lớp

là 500 nút ẩn. Do giới hạn của cấu hình phần cứng máy tính, luận án khơng triển khai được mạng nơ ron với số lớp ẩn và số nút nhiều hơn.

enc_layers = 2, dec_layers = 2, rnn_size = 500.

- Kích thước bộ từ vựng: q trình tiền xử lý trước khi huấn luyện mơ hình dịch sẽ xây dựng bộ từ vựng thông qua việc thống kê các từ có trong kho ngữ liệu đầu vào. Nếu sử dụng tham số mặc định src_vocab_size = tgt_vocab_size = 50.000 và qua quan sát kết quả các tập tin đầu ra, có thể nhận thấy bộ từ vựng tiếng Việt được tạo ra chứa nhiều từ không phải là tiếng Việt, hoặc các từ sai chính tả, sai bảng mã. Luận án đã điều chỉnh kích thước bộ tự vựng tiếng Việt là 30.000 để loại bỏ bớt các từ sai này, giúp cho mơ hình khơng nhận diện và dự đốn sai ở kết quả dịch.

Q trình huấn luyện mơ hình dịch được thực hiện theo từng vòng lặp gọi là epoch, tham số end_epoch cho phép xác định số lượng vòng lặp cần thực hiện trong cả q trình. Tại mỗi vịng lặp, tập dữ liệu đầu vào được chia nhỏ thành các tập mẫu gọi là batch. Mơ hình sẽ tính tốn và so sánh sai số giữa đầu ra dự đoán với kết quả kỳ vọng để cập nhật lại bộ tham số sau khi lặp qua mỗi tập mẫu batch và mỗi vòng lặp epoch. Số lượng epoch mặc định là 13, tuy nhiên để đạt được mơ hình tối ưu hơn và có sai số ít hơn, thực nghiệm này tăng số lượng vịng lặp lên end_epoch = 21. Khi

đó, tham số biểu diễn chất lượng của mơ hình (perplexity) đạt được là 4,80 đối với dịch từ Anh sang Việt và 4,66 đối với dịch từ Việt sang Anh.

Xây dựng các mô đun của hệ thống dịch

Sau khi nhận được mơ hình dịch, chúng ta tiến hành xây dựng các thành phần của hệ thống dịch và kết nối với bộ máy dịch tự động. Việc xây dựng hệ thống dịch tự động và triển khai cho người dùng sử dụng sẽ thu được các đánh giá thực tế của người dùng bên cạnh các chỉ số đánh giá chất lượng bản dịch khác. Qua đó cho thấy tính khả thi của các giải pháp đề xuất nhằm cải tiến chất lượng dịch tự động Anh – Việt. Hệ thống dịch được đặt tên là VIKI Translator.

Hệ thống dịch VIKI Translator hoạt động trên nền tảng web, kết nối trực tiếp đến máy chủ cài đặt mô đun dịch theo cách thức như sau:

Văn bản nguồn (cần dịch) Giao diện website Máy chủ triển khai mô đun dịch Máy chủ tiếp nhận và xử lý Hiển thị trên giao diện website Văn bản đích (kết quả dịch)

Hình 3.8. Mơ hình tổ chức của hệ thống website dịch tự động

- Máy chủ triển khai mô đun dịch được cài đặt hệ thống dịch và các mô đun để nhận văn bản cần dịch, phản hồi kết quả là văn bản đã được dịch thông qua các hàm API được nghiên cứu sinh phát triển.

- Máy chủ tiếp nhận và xử lý thông tin cài đặt giao diện người dùng để tiếp nhận dữ liệu từ người dùng và phản hồi kết quả trên nền tảng web, sử dụng ngơn ngữ

lập trình PHP. Sau khi tiếp nhận văn bản dịch, mô đun tiền xử lý sẽ thực hiện các thao tác xử lý dữ liệu thơng qua chương trình Python và gọi các hàm API để nhận kết quả dịch, hiển thị trên trình duyệt.

3.4. Đánh giá kết quả

Kết quả thực nghiệm

Sau khi xây dựng hệ thống dịch văn bản pháp luật tiếng Anh – tiếng Việt bằng mơ hình mạng nơ ron kết hợp kho ngữ liệu lớn, nghiên cứu sử dụng 2 bộ dữ liệu liên quan đến lĩnh vực văn bản pháp luật (tpp-chuong28 và tpp-tomtat) như đã mô tả tại Chương 2 để đánh giá chất lượng của hệ thống. Kết quả dịch được lấy thông qua câu lệnh “th translate.lua” của OpenNMT, sử dụng mơ hình đã huấn luyện ở bước trên.

Các câu tiếng Anh sau khi được hệ thống dịch sang tiếng Việt sẽ được đối chiếu với các câu dịch chuẩn để đánh giá chỉ số BLEU thông qua hệ thống Asiya. Kết quả nhận được điểm BLEU là 29. Sử dụng tập dữ liệu nói trên, thực nghiệm đối chiếu với hệ thống dịch Anh – Việt tương tự là hệ thống dịch văn bản Cồ Việt (một sản phẩm của Lạc Việt tại địa chỉ http://tratu.coviet.vn), cho kết quả điểm BLEU là 27 và hệ thống Evtran được tích hợp trên Vdict (https://vdict.com/#translation) đạt 11.

Bảng 3.3. Kết quả đánh giá và so sánh chất lượng hệ thống dịch Anh-Việt

Hệ thống VIKI Translator Hệ thống Cồ Việt

Kết quả thu được khi so sánh với các nghiên cứu về xây dựng hệ thống dịch đã được công bố đều cho thấy đạt chất lượng tốt hơn thông qua các chỉ số đánh giá. Cụ thể:

Bảng 3.4. So sánh điểm BLEU đạt được ở một số nghiên cứu xây dựng hệ thống dịch tiếng Việt

Hệ thống dịch Hệ thống VIKI Translator

Hệ thống dịch Anh – Việt sử dụng Moses [60] sử dụng bộ dữ liệu huấn luyện IWSLT 2015

Hệ thống dịch Anh – Việt sử dụng Moses [59] sử dụng kho ngữ liệu 880.000 cặp câu tự xây dựng Hệ thống dịch Anh – Việt sử dụng mạng nơ ron và tập dữ liệu đánh giá của IWSLT 2015 [14]

Hệ thống dịch thông qua ngôn ngữ trung gian giữa cặp ngôn ngữ Séc – Việt [15]

Để làm rõ kết quả của hệ thống dịch đã xây dựng, luận án thực hiện một số thực nghiệm cụ thể hơn như sau:

- Dịch từ tiếng Anh sang tiếng Việt mục lục của Hiệp định đối tác thương mại xuyên Thái Bình Dương gồm 30 đề mục chương (bản dịch Anh – Việt đã công bố trên các phương tiện truyền thông).

- Dịch từ tiếng Việt sang tiếng Anh tên của Chính phủ, các Bộ, cơ quan ngang bộ gồm 23 tên gọi được quy định tại Mục 2, Phụ lục của Thông tư số 03/2009/TT- BNG ngày 09/7/2009 của Bộ Ngoại Giao về hướng dẫn dịch quốc hiệu, tên các cơ quan, đơn vị và chức danh lãnh đạo, cán bộ cơng chức trong hệ thống hành chính nhà nước sang tiếng anh để giao dịch đối ngoại (bản dịch Anh – Việt đã quy định trong thông tư).

Kết quả dịch từ hệ thống VIKI Translator và EVTran được so sánh chính xác với bản gốc và bỏ qua việc kiểm tra chữ hoa, chữ thường được thể hiện trong bảng sau:

Bảng 3.5. So sánh số lượng câu dịch đúng

Dịch từ tiếng Anh sang tiếng Việt mục lục của Hiệp định

Dịch từ tiếng Việt sang tiếng Anh tên các cơ quan

Một số câu, thuật ngữ mà hệ thống VIKI Translator đã dịch đúng như sau:

Bảng 3.6. Ví dụ về các câu, thuật ngữ mà hệ thống VIKI Translator đã dịch đúng

Bản gốc tiếng Anh

The State Bank of Viet Nam

Ministry of Public Security

Ministry of Justice Ministry of Labour, War invalids and Social Affairs

Chapter 7. Sanitary and Phytosanitary Measures

Chapter 24. Small and Medium-sized

Chapter 27.

Administrative and Institutional Provisions

Qua các so sánh trên có thể thấy rằng, bằng cách sử dụng kho ngữ liệu số lượng lớn, chất lượng tốt, hệ thống dịch dựa trên mơ hình mạng nơ ron mà nghiên cứu đã xây dựng đã cho kết quả tốt. Bên cạnh đó, nhờ kho ngữ liệu tập trung vào lĩnh vực văn bản pháp luật mà chúng tôi đã thu thập nên hệ thống dịch có thể dịch được phần lớn thuật ngữ liên quan đến lĩnh vực này, trong khi một số hệ thống khác vẫn có hiện tượng dịch sai các cụm từ quan trọng. Điều này cho thấy mơ hình dịch NMT có thể áp dụng hiệu quả đối với dịch tự động tiếng Việt.

Đánh giá của người dùng

Hệ thống dịch VIKI Translator đã được triển khai từ tháng 11 năm 2017 đến nay, cung cấp cho người sử dụng chức năng dịch trực tuyến từ tiếng Anh sang tiếng Việt và tiếng Việt sang tiếng Anh thông qua môi trường Internet tại địa chỉ:

https://vikitranslator.com. Giao diện của hệ thống VIKI Translator ở Hình 3.9.

Ngồi hình thức sử dụng thơng qua website, VIKI Translator cịn cung cấp các cách thức sử dụng như sau:

o Mô đun phần mềm chạy trên nền tảng Windows

o Mô đun phần mềm chạy trên nền tảng Android

o Mô đun tích hợp trên trình duyệt Chrome (Chrome Extensions)

Về cơ bản, các phân hệ này hiện thị trực tiếp nội dung từ website chính của VIKI Translator hoặc gọi hàm API từ website này để lấy kết quả dịch.

Tổng hợp một số kết quả đạt được qua quá trình triển khai thực nghiệm hệ thống:

o Tổng số lượt truy cập và sử dụng ứng dụng trên tất cả nền tảng: trên 1.500.000 người dùng

o Tổng số lượt truy cập website hàng tháng: gần 70.000 người

o Lượt tải ứng dụng trên Windows: hơn 30.000 lượt

o Số người dùng Chrome Extensions: hơn 5.000 người

o Đánh giá của người dùng Chrome Extensions: 4,6/5 điểm từ 27 đánh giá

o Đánh giá của người dùng trên Google Play: 4,5/5 điểm từ 47 đánh giá

o Tổng số bài viết giới thiệu, hướng dẫn sử dụng từ các website khác: hơn 30 bài

o Tổng số liên kết từ các website khác trỏ đến VIKI Translator (backlink): 582.561 backlink (kết quả từ ahrefs.com, trang web tổng hợp số liệu backlink hàng đầu hiện nay)

Hình 3.11. Thống kê tổng số người dùng (Nguồn: Google Analytics)

Hình 3.12. Thống kê số lượng liên kết (Nguồn: ahrefs.com)

3.5. Kết luận Chương 3

Nội dung Chương 3 đã trình bày các bước thực nghiệm triển khai xây dựng hệ thống dịch tự động Anh – Việt trên cơ sở tổng hợp các giải pháp cải tiến về mặt kho ngữ liệu và phương pháp dịch đã được đề xuất trong các chương trước. Hệ thống VIKI Translator đã xây dựng cho kết quả vượt trội so với một hệ thống dịch tiếng Việt hiện nay qua các số liệu đánh giá cụ thể về điểm BLEU, NIST và WER. Hệ thống cũng cho kết quả khả quan khi so sánh với một số kết quả xây dựng hệ thống dịch đã được thực hiện trong các nghiên cứu khác.

Hệ thống dịch Anh – Việt đã triển khai thực tế gần 4 năm và có hơn 1,5 triệu lượt sử dụng, nhận được đánh giá tích cực từ phía người dùng. Qua đó cho thấy các giải pháp cải tiến mà nghiên cứu đề xuất đã góp phần xây dựng được hệ thống dịch có chất lượng tốt, phù hợp để triển khai và tiếp tục nghiên cứu phát triển cho bài toán dịch tự động tiếng Việt.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 1. Kết luận

Luận án đã triển khai nghiên cứu các yếu tố quan trọng ảnh hưởng đến chất lượng kết quả hệ thống dịch tự động tiếng Việt là kho ngữ liệu và phương pháp dịch, từ đó đề xuất được các giải pháp cụ thể nhằm cải tiến chất lượng của các hệ thống dịch tiếng Việt. Các nội dung nghiên cứu cụ thể như sau:

- Nghiên cứu về các phương pháp đánh giá chất lượng bản dịch máy, triển khai đánh giá tổng quát và chi tiết chất lượng của các hệ thống dịch tiếng Việt đang hoạt động hiện nay, cung cấp các số liệu làm cơ sở để phân tích, so sánh giữa các hệ thống dịch và chất lượng dịch ở các lĩnh vực khác nhau trong cùng một hệ thống cũng như có thể so sánh với chất lượng các hệ thống dịch ở các ngôn ngữ khác. Trên cơ sở đó đưa ra cái nhìn tổng thể về chất lượng của các hệ thống dịch tiếng Việt hiện có. Nghiên cứu cũng đề xuất phương pháp và số đo mới để tính tốn chất lượng các kết quả dịch trong q trình người dùng hiệu đính bản dịch máy. Phương pháp này đảm bảo tính chính xác, đồng thời tiết kiệm được nguồn lực tổ chức đánh giá.

- Nghiên cứu về các kho ngữ liệu phục vụ cho dịch tự động tiếng Việt và đề

Một phần của tài liệu Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng việt (Trang 130)

Tải bản đầy đủ (DOCX)

(150 trang)
w