Minh họa phân lớp dữ liệu

Một phần của tài liệu Luận án Tiến sĩ Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt (Trang 120)

Bước 4: Xây dựng giá trị cho các thuộc tính của các thể hiện của thực thể đã

nhận diện được. Chẳng hạn giá trị thuộc tính cho Hồ Chí Minh là tên khác, diện tích, dân số, khí hậu…

World Wide Web là một kho thông tin khổng lồ, cập nhật liên tục. Vì vậy, NCS sử dụng thông tin từ các trang web để xây dựng và cập nhật các thuộc tính của các thực thể. Sử dụng các máy tìm kiếm dựa trên các từ khóa là các thuộc tính của các thực thể để có được danh sách các trang web có chứa từ khóa và danh sách này được liệt kê theo thứ tự về độ quan trọng.

Thông tin ở trang web được lưu trữ và trình bày dưới nhiều hình thức khác nhau. Đối với văn bản web phi cấu trúc, nghiên cứu quan tâm đến việc trích chọn đối tượng, trong đó các đối tượng được trích chọn bao gồm các thuộc tính, đặc điểm,… Việc trích chọn quan hệ giữa các thực thể đã được xác định cũng được sử dụng. Bên cạnh đó, thơng tin từvăn bản web bán cấu trúc cũng rất quan trọng cho việc xây dựng

thuộc tính cho các thực thể, chẳng hạn như họ tên, quê quán, tiểu sử,… của một nhân vật. Việc trích chọn thơng tin từ văn bản web có ba cách tiếp cận chính, bao gồm hướng tiếp cận thủ công sử dụng hệ luật, tiếp cận sử dụng các phương pháp học máy (Hidden Markov Models, Maximum Entropy Markov Models, Conditional Random Fields - CRFs) và tiếp cận lai bằng cách kết hợp ưu điểm của hai phương pháp trên. Nghiên cứu này sử dụng cách tiếp cận lai để xác định trích chọn dữ liệu nhằm gán giá trị thuộc tính cho các thực thể.

Hình 3.6. Mơ t ng nghĩa của kho ng liu

Dữ liệu tổng hợp được sẽ lưu trữ theo định dạng RDF, là một phương thức chung cho các mơ tả khái niệm hoặc mơ hình hóa của thông tin được diễn dịch trong các tài nguyên web, sử dụng trong các định dạng cú pháp khác nhau. Một trích đoạn tập tin RDF biểu diễn như sau:

<?xml version="1.0"?>

<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax- ns#" xmlns:dc="http://purl.org/dc/elements/1.1/">

<rdf:Description rdf:about="Văn Miếu - Quốc Tử Giám"> <dc:Type>Đền thờ</dc:Type> <dc:Location>Hà Nội</dc:Location> <dc:Built>1070</dc:Built> <dc:Area>54,000 m2</dc:Area> </rdf:Description> </rdf:RDF>

3.3. Kết qu thc nghim xây dng ng dng dch Anh – Vit lĩnh vực văn bản pháp lut (VIKI Translator) văn bản pháp lut (VIKI Translator)

Quy trình các bước trin khai

Để thực nghiệm xây dựng hệ thống dịch và đánh giá kết quả, nghiên cứu sinh tiến hành xây dựng hệ thống dịch tiếng Anh – tiếng Việt trong lĩnh vực văn bản hành chính, pháp luật sử dụng mơ hình mạng nơ ron kết hợp kho ngữ liệu lớn đã thu thập được. Có thể thấy rằng việc ứng dụng mạng nơ ron để xây dựng hệ thống dịch tự động đã được nghiên cứu ở một số ngôn ngữ, tuy nhiên đến thời điểm nghiên cứu này được thực hiện, phương pháp dịch này vẫn chưa được áp dụng thực tế ở các hệ thống dịch và chưa có đánh giá cụ thểđối với tiếng Việt.

Quá trình triển khai xây dựng mơ hình dịch thực hiện các bước sau:

Hình 3.7. Sơ đồ trình tcác bước xây dng h thng dch

T chc hun luyn mơ hình dch và điều chnh tham s mơ hình

Thiết kế mạng nơ ron: Nghiên cứu sử dụng mã nguồn mở OpenNMT [64] đã được thiết kế mạng nơ ron và các thành phần của hệ dịch để huấn luyện mơ hình dịch. Mã nguồn này cho phép điều chỉnh nhiều bộ tham số khác nhau trong quá trình học máy và đang được nhiều nhóm nghiên cứu sử dụng.

Huấn luyện mơ hình dịch: Với cùng một thuật toán học máy thực hiện trên một bộ dữ liệu đã có, việc chọn lựa các tham số đầu vào có ảnh hưởng lớn đến thời gian thực hiện huấn luyện và chất lượng của mơ hình dịch được tạo ra. Đối với

phương pháp dịch tự động sử dụng mạng nơ ron, các tham số quan trọng được sử

dụng như sau:

- Số lớp ẩn của của mạng nơ ron và số nút trên mỗi lớp: vì số lượng dữ liệu đầu vào lớn, khi sử dụng một lớp ẩn cho bộ mã hóa và bộ giải mã, chất lượng dịch đạt được rất thấp. Vì vậy thực nghiệm này sử dụng hai lớp ẩn với kích thước mỗi lớp

Thiết kế mạng nơ ron

Điều chỉnh bộ

là 500 nút ẩn. Do giới hạn của cấu hình phần cứng máy tính, luận án không triển khai được mạng nơ ron với số lớp ẩn và số nút nhiều hơn.

enc_layers = 2, dec_layers = 2, rnn_size = 500.

- Kích thước bộ từ vựng: quá trình tiền xử lý trước khi huấn luyện mơ hình

dịch sẽ xây dựng bộ từ vựng thơng qua việc thống kê các từ có trong kho ngữ liệu đầu vào. Nếu sử dụng tham số mặc định src_vocab_size = tgt_vocab_size = 50.000 và qua quan sát kết quả các tập tin đầu ra, có thể nhận thấy bộ từ vựng tiếng Việt được tạo ra chứa nhiều từ không phải là tiếng Việt, hoặc các từ sai chính tả, sai bảng mã. Luận án đã điều chỉnh kích thước bộ tự vựng tiếng Việt là 30.000 để loại bỏ bớt các từ sai này, giúp cho mơ hình khơng nhận diện và dựđốn sai ở kết quả dịch.

Quá trình huấn luyện mơ hình dịch được thực hiện theo từng vòng lặp gọi là epoch, tham số end_epoch cho phép xác định số lượng vòng lặp cần thực hiện trong cả quá trình. Tại mỗi vòng lặp, tập dữ liệu đầu vào được chia nhỏ thành các tập mẫu gọi là batch. Mơ hình sẽ tính tốn và so sánh sai số giữa đầu ra dự đoán với kết quả kỳ vọng để cập nhật lại bộ tham số sau khi lặp qua mỗi tập mẫu batch và mỗi vòng lặp epoch. Sốlượng epoch mặc định là 13, tuy nhiên đểđạt được mơ hình tối ưu hơn và có sai số ít hơn, thực nghiệm này tăng số lượng vòng lặp lên end_epoch = 21. Khi

đó, tham số biểu diễn chất lượng của mơ hình (perplexity) đạt được là 4,80 đối với dịch từ Anh sang Việt và 4,66 đối với dịch từ Việt sang Anh.

Xây dựng các mô đun của h thng dch

Sau khi nhận được mơ hình dịch, chúng ta tiến hành xây dựng các thành phần của hệ thống dịch và kết nối với bộ máy dịch tựđộng. Việc xây dựng hệ thống dịch tự động và triển khai cho người dùng sử dụng sẽ thu được các đánh giá thực tế của người dùng bên cạnh các chỉ sốđánh giá chất lượng bản dịch khác. Qua đó cho thấy tính khả thi của các giải pháp đề xuất nhằm cải tiến chất lượng dịch tự động Anh – Việt. Hệ thống dịch được đặt tên là VIKI Translator.

Hệ thống dịch VIKI Translator hoạt động trên nền tảng web, kết nối trực tiếp đến máy chủ cài đặt mơ đun dịch theo cách thức như sau:

Hình 3.8. Mơ hình t chc ca h thng website dch tđộng

- Máy chủ triển khai mô đun dịch được cài đặt hệ thống dịch và các mô đun để nhận văn bản cần dịch, phản hồi kết quả là văn bản đã được dịch thông qua các hàm API được nghiên cứu sinh phát triển.

- Máy chủ tiếp nhận và xử lý thông tin cài đặt giao diện người dùng để tiếp nhận dữ liệu từ người dùng và phản hồi kết quả trên nền tảng web, sử dụng ngơn ngữ lập trình PHP. Sau khi tiếp nhận văn bản dịch, mô đun tiền xử lý sẽ thực hiện các thao tác xử lý dữ liệu thông qua chương trình Python và gọi các hàm API để nhận kết quả dịch, hiển thị trên trình duyệt. Văn bản nguồn (cần dịch) Giao diện website Máy chủ tiếp nhận và xử lý Máy chủ triển khai mô đun dịch Hiển thị trên giao diện website Văn bản đích (kết quả dịch)

3.4. Đánh giá kết qu

Kết qu thc nghim

Sau khi xây dựng hệ thống dịch văn bản pháp luật tiếng Anh – tiếng Việt bằng mơ hình mạng nơ ron kết hợp kho ngữ liệu lớn, nghiên cứu sử dụng 2 bộ dữ liệu liên quan đến lĩnh vực văn bản pháp luật (tpp-chuong28 và tpp-tomtat) như đã mô tả tại Chương 2 để đánh giá chất lượng của hệ thống. Kết quả dịch được lấy thông qua câu lệnh “th translate.lua” của OpenNMT, sử dụng mơ hình đã huấn luyện ở bước trên.

Các câu tiếng Anh sau khi được hệ thống dịch sang tiếng Việt sẽ được đối chiếu với các câu dịch chuẩn để đánh giá chỉ số BLEU thông qua hệ thống Asiya. Kết quả nhận được điểm BLEU là 29. Sử dụng tập dữ liệu nói trên, thực nghiệm đối chiếu với hệ thống dịch Anh – Việt tương tự là hệ thống dịch văn bản Cồ Việt (một sản phẩm của Lạc Việt tại địa chỉ http://tratu.coviet.vn), cho kết quả điểm BLEU là 27 và hệ thống Evtran được tích hợp trên Vdict (https://vdict.com/#translation) đạt 11.

Bng 3.3. Kết quđánh giá và so sánh chất lượng h thng dch Anh-Vit

BLEU NIST WER

Hệ thống VIKI Translator 29,1 5,78 0,63 Hệ thống Cồ Việt 27,1 5,62 0,68

Kết quả thu được khi so sánh với các nghiên cứu về xây dựng hệ thống dịch đã được công bốđều cho thấy đạt chất lượng tốt hơn thông qua các chỉ số đánh giá. Cụ thể:

Bng 3.4. So sánh điểm BLEU đạt được mt s nghiên cu xây dng h thng dch tiếng Vit

Hệ thống dịch Điểm BLEU cao nhất đạt được

Hệ thống VIKI Translator 29,1

Hệ thống dịch Anh – Việt sử dụng Moses [60] sử dụng bộ dữ liệu huấn luyện IWSLT 2015

23,2

Hệ thống dịch Anh – Việt sử dụng Moses [59] sử dụng kho ngữ liệu 880.000 cặp câu tự xây dựng

11,33

Hệ thống dịch Anh – Việt sử dụng mạng nơ ron và

tập dữ liệu đánh giá của IWSLT 2015 [14]

27,0

Hệ thống dịch thông qua ngôn ngữ trung gian giữa

cặp ngôn ngữ Séc – Việt [15]

10,59

Để làm rõ kết quả của hệ thống dịch đã xây dựng, luận án thực hiện một số thực nghiệm cụ thể hơn như sau:

- Dịch từ tiếng Anh sang tiếng Việt mục lục của Hiệp định đối tác thương mại xuyên Thái Bình Dương gồm 30 đề mục chương (bản dịch Anh – Việt đã công bố trên các phương tiện truyền thông).

- Dịch từ tiếng Việt sang tiếng Anh tên của Chính phủ, các Bộ, cơ quan ngang bộ gồm 23 tên gọi được quy định tại Mục 2, Phụ lục của Thông tư số 03/2009/TT- BNG ngày 09/7/2009 của Bộ Ngoại Giao về hướng dẫn dịch quốc hiệu, tên các cơ quan, đơn vị và chức danh lãnh đạo, cán bộ cơng chức trong hệ thống hành chính nhà nước sang tiếng anh để giao dịch đối ngoại (bản dịch Anh – Việt đã quy định trong thông tư).

Kết quả dịch từ hệ thống VIKI Translator và EVTran được so sánh chính xác với bản gốc và bỏ qua việc kiểm tra chữ hoa, chữthường được thể hiện trong bảng sau:

Bng 3.5. So sánh slượng câu dịch đúng

Số lượng câu đúng/Tổng số câu VIKI Translator EVTran Dịch từ tiếng Anh sang tiếng Việt

mục lục của Hiệp định

14/30 10/30

Dịch từ tiếng Việt sang tiếng Anh tên các cơ quan

15/23 11/23

Một số câu, thuật ngữ mà hệ thống VIKI Translator đã dịch đúng như sau:

Bảng 3.6. Ví dụ về các câu, thuật ngữ mà hệ thống VIKI Translator đã dịch đúng

Bản gốc tiếng Anh Bản gốc tiếng Việt VIKI Translator EVTran

The State Bank of Viet Nam

Ngân hàng Nhà nước Việt Nam

The State Bank of Vietnam

The Bank of Viet Nam

Ministry of Public Security

Bộ Công an Ministry of Public security

Police

Ministry of Justice Bộ Tư pháp The Ministry of Justice

Judicial

Ministry of Labour, War invalids and Social Affairs

Bộ Lao động - Thương binh và Xã hội

Ministry of Labour, War invalids and Social affairs

Ministry of Labor - Invalids and Social Affairs Chapter 7. Sanitary and

Phytosanitary Measures Chương 7. Biện pháp vệ sinh và kiểm dịch Chương 7. Các biện pháp vệ sinh và kiểm dịch Chương 7. Các biện pháp vệ sinh và kiểm dịch động thực vật Chapter 24. Small and

Medium-sized Enterprises Chương 24. Doanh nghiệp vừa và nhỏ Chương 24. Doanh nghiệp vừa và nhỏ Chương 24. Doanh nghiệp nhỏ và vừa

Chapter 27. Administrative and Institutional Provisions Chương 27. Các điều khoản về hành chính và thể chế Chương 27. Điều khoản hành chính và thể chế Chương 27. Các quy định về thể chế và hành chính Qua các so sánh trên có thể thấy rằng, bằng cách sử dụng kho ngữ liệu số lượng lớn, chất lượng tốt, hệ thống dịch dựa trên mơ hình mạng nơ ron mà nghiên cứu đã xây dựng đã cho kết quả tốt. Bên cạnh đó, nhờ kho ngữ liệu tập trung vào lĩnh vực văn bản pháp luật mà chúng tôi đã thu thập nên hệ thống dịch có thể dịch được phần lớn thuật ngữ liên quan đến lĩnh vực này, trong khi một số hệ thống khác vẫn có hiện tượng dịch sai các cụm từ quan trọng. Điều này cho thấy mơ hình dịch NMT có thể áp dụng hiệu quảđối với dịch tựđộng tiếng Việt.

Đánh giá của người dùng

Hệ thống dịch VIKI Translator đã được triển khai từtháng 11 năm 2017 đến nay, cung cấp cho người sử dụng chức năng dịch trực tuyến từ tiếng Anh sang tiếng Việt và tiếng Việt sang tiếng Anh thông qua môi trường Internet tại địa chỉ: https://vikitranslator.com. Giao diện của hệ thống VIKI Translator ở Hình 3.9.

Ngồi hình thức sử dụng thơng qua website, VIKI Translator cịn cung cấp các cách thức sử dụng như sau:

oMô đun phần mềm chạy trên nền tảng Windows

oMô đun phần mềm chạy trên nền tảng Android

oMơ đun tích hợp trên trình duyệt Chrome (Chrome Extensions)

Về cơ bản, các phân hệ này hiện thị trực tiếp nội dung từ website chính của VIKI Translator hoặc gọi hàm API từ website này để lấy kết quả dịch.

Tổng hợp một số kết quả đạt được qua quá trình triển khai thực nghiệm hệ thống:

o Tổng số lượt truy cập và sử dụng ứng dụng trên tất cả nền tảng: trên 1.500.000 người dùng

o Tổng số lượt truy cập website hàng tháng: gần 70.000 người o Lượt tải ứng dụng trên Windows: hơn 30.000 lượt

o Sốngười dùng Chrome Extensions: hơn 5.000 người

o Đánh giá của người dùng Chrome Extensions: 4,6/5 điểm từ 27 đánh giá

o Đánh giá của người dùng trên Google Play: 4,5/5 điểm từ 47 đánh giá o Tổng số bài viết giới thiệu, hướng dẫn sử dụng từ các website khác: hơn 30 bài

o Tổng số liên kết từ các website khác trỏ đến VIKI Translator (backlink): 582.561 backlink (kết quả từ ahrefs.com, trang web tổng hợp số liệu backlink hàng đầu hiện nay)

Hình 3.11. Thống kê tổng số người dùng (Nguồn: Google Analytics)

Hình 3.12. Thng kê slượng liên kết (Ngun: ahrefs.com)

3.5. Kết luận Chương 3

Nội dung Chương 3 đã trình bày các bước thực nghiệm triển khai xây dựng hệ thống dịch tự động Anh – Việt trên cơ sở tổng hợp các giải pháp cải tiến về mặt kho ngữ liệu và phương pháp dịch đã được đề xuất trong các chương trước. Hệ thống VIKI Translator đã xây dựng cho kết quả vượt trội so với một hệ thống dịch tiếng Việt hiện nay qua các số liệu đánh giá cụ thể về điểm BLEU, NIST và WER. Hệ thống cũng cho kết quả khả quan khi so sánh với một số kết quả xây dựng hệ thống dịch đã được thực hiện trong các nghiên cứu khác.

Hệ thống dịch Anh – Việt đã triển khai thực tế gần 4 năm và có hơn 1,5 triệu lượt sử dụng, nhận được đánh giá tích cực từphía người dùng. Qua đó cho thấy các giải pháp cải tiến mà nghiên cứu đề xuất đã góp phần xây dựng được hệ thống dịch có chất lượng tốt, phù hợp để triển khai và tiếp tục nghiên cứu phát triển cho bài toán dịch tự động tiếng Việt.

KT LUẬN VÀ HƯỚNG PHÁT TRIN 1. Kết lun

Luận án đã triển khai nghiên cứu các yếu tố quan trọng ảnh hưởng đến chất lượng kết quả hệ thống dịch tự động tiếng Việt là kho ngữ liệu và phương pháp dịch, từ đó đề xuất được các giải pháp cụ thể nhằm cải tiến chất lượng của các hệ thống

Một phần của tài liệu Luận án Tiến sĩ Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt (Trang 120)

Tải bản đầy đủ (PDF)

(140 trang)