Xây dựng kho ngữ liệu song ngữ số lượng lớn
(1) Tìm kiếm các nguồn tài nguyên phù hợp: Hiện nay có nhiều nguồn tài ngun số được cơng bố dưới dạng song ngữ hoặc đa ngữ. Để xây dựng kho ngữ liệu tập trung ở lĩnh vực văn bản quy phạm pháp luật cho cặp ngôn ngữ Anh – Việt, luận án thu thập và sử dụng các nguồn tài nguyên sau đây:
-Các trang web cung cấp các văn bản quy phạm pháp luật theo hình thức song ngữ, chẳng hạn thu thập từ website vbpl.vn dữ liệu gồm 1.079 tài liệu đã được dịch sang tiếng Anh. Ví dụ về một tài liệu song ngữ như sau:
Văn bản tiếng Anh: Decree on commercial mediation
Liên kết: http://vbpl.vn/tw/Pages/vbpqen-toanvan.aspx?dvid=13&ItemID= 11106& Keyword=22/2017/N%C4%90-CP (truy cập tháng 4/2021)
Văn bản tiếng Việt: Nghị định về hòa giải thương mại
Liên kết: http://vbpl.vn/TW/Pages/vbpq-toanvan.aspx?ItemID=119091 &Keyword=22/2017/ND-CP (truy cập tháng 4/2021)
- Các tài liệu học tập, tài liệu khoa học, tài liệu học tiếng Anh được cung cấp trên môi trường Internet. Các nguồn tài nguyên này ở các định dạng khác nhau, chẳng hạn các trang web, các tập tin MS Word hoặc PDF. Ví dụ, luận án đã tiến hành trích rút các câu tiêu đề và nội dung tóm tắt của các bài báo khoa học trên website của Tạp chí Khoa học và Cơng nghệ Đại học Đà Nẵng, kết quả thu được gồm 3.429 cặp câu tiêu đề và 24.590 cặp câu, cụm từ ở phần tóm tắt.
- Các trang web từ điển, trang web cung cấp các mẫu câu song ngữ, các trang web xem phim song ngữ Anh – Việt, các trang web tin tức có cung cấp bản dịch ở các ngơn ngữ khác nhau…
- Các tài liệu Việt hóa của các phần mềm mã nguồn mở, các ứng dụng web, bao gồm bản dịch các chức năng, hướng dẫn sử dụng, điều khoản sử đụng… Chẳng hạn từ tài liệu Việt hóa của hệ điều hành Ubuntu, có thể thu thập được 3.931 cặp câu song ngữ Anh-Việt.
Quá trình thu thập dữ liệu và xây dựng kho ngữ liệu lớn được thực hiện theo giải pháp hợp nhất dữ liệu từ các nguồn dữ liệu có định dạng và cấu trúc khác nhau đã được trình bày ở Chương 2. Nghiên cứu tiến hành khảo sát cấu trúc của các tài nguyên đã được thu thập, sau đó xây dựng các luật để trích rút dữ liệu thơng qua chương trình được xây dựng bằng ngơn ngữ Python và C#.
(2) Thực hiện các bước tiền xử lý dữ liệu: Dữ liệu thô thu được từ bước (1) sẽ được xử lý bằng các phương pháp cơ bản với sự hỗ trợ của thư viện xử lý ngôn ngữ tự nhiên NLTK và spaCy, bao gồm: Làm sạch văn bản bằng cách loại bỏ các thẻ XML, HTML, các thẻ định dạng của các loại tài liệu khác nhau; Xóa bỏ một số ký tự phân cách và các ký tự đặc biệt; Chuyển dữ liệu về bảng mã Unicode. Chẳng hạn trong dữ liệu thu thập được, có thể nhận thấy các lỗi văn bản như đặt dấu sai vị trí (như “lụân”, “thừơng”), các ký tự bảng mã khác Unicode (như “ðiền”, “ðất”), cần thực hiện các bước chuẩn hóa để làm cho dữ liệu có chất lượng hơn.
Tại bước này, các đoạn sẽ được tách tương ứng Anh-Việt thông qua các quy tắc nhận diện thẻ HTML và các biểu thức chính quy, sau đó tách các câu sử dụng hàm nltk.sent_tokenize được cung cấp trong thư viện NLTK. Để có thể thu được kho ngữ liệu có chất lượng tốt hơn, cần loại bỏ các cặp câu có thể khơng phải là bản dịch của nhau. Nghiên cứu thực hiện kết hợp giải pháp nhận dạng ngôn ngữ kèm theo so sánh chiều dài hai câu song ngữ và loại bỏ các cặp câu có chiều dài chênh lệnh lớn.
Kết quả quá trình xây dựng kho ngữ liệu thu được 1.479.000 cặp câu song ngữ Anh – Việt, trong đó có 460.000 cặp câu song ngữ trong lĩnh vực văn bản quy phạm phát luật. Số liệu chi tiết ở Bảng 3.1. Thống kê số lượng câu trong kho ngữ liệu đã được xây dựng.
Bảng 3.1. Thống kê số lượng câu trong kho ngữ liệu đã được xây dựng
Lĩnh vực Văn bản quy pháp luật Hội thoại
(3) Chuẩn hóa và làm cho dữ liệu chính xác hơn bằng cách xác định ranh giới các từ tiếng Việt và xác định danh từ riêng có mặt trong các câu. Các giải pháp thực hiện được trình bày ở Chương 2. Việc nhóm các từ ghép và các danh từ riêng lại thành một cụm từ sẽ giúp hệ thống dịch nhận dạng được các từ chính xác hơn, tránh
việc thống kê sai các từ khơng có nghĩa trong q trình huấn luyện mơ hình dịch và tạo lập bộ từ vựng của kho ngữ liệu.
Kho ngữ liệu song ngữ Anh – Việt đã xây dựng sẽ được dùng để làm dữ liệu đầu vào cho quá trình huấn luyện hệ thống và khởi tạo mơ hình dịch bằng phương pháp dịch sử dụng mạng nơ ron.
So sánh với các nghiên cứu liên quan đến xây dựng kho ngữ liệu song ngữ, có thể thấy rằng kho ngữ liệu đã được xây dựng trong chuyên đề này có số lượng lớn, vượt trội so với những cơng trình đã cơng bố trước đó, phù hợp để ứng dụng xây dựng mơ phỏng các hệ thống dịch tự động tiếng Việt.
Bảng 3.2. Tổng hợp quy mô kho ngữ liệu của một số công bố
Đề tài KC01.01/06-10 "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lí tiếng nói và văn bản tiếng Việt" (VLSP),
Xây dựng hệ thống dịch Anh – Việt bằng mơ hình dịch thống kê sử dụng MOSES
Xây dựng hệ thống dịch dựa trên ví dụ
Xây dựng hệ thống dịch thích ứng miền trong dịch máy nơ ron cho cặp ngôn ngữ Anh - Việt
Dưới đây là trích dẫn một số mẫu dữ liệu để thực hiện đánh giá: - Lĩnh vực Văn bản quy phạm pháp luật: Mẫu dữ liệu tpp-chuong28 Tiếng Anh
CHAPTER 28
DISPUTE SETTLEMENT Section A: Dispute Settlement
Article 28.1: Definitions
For the purposes of this Chapter: complaining Party means a Party that requests the establishment of a panel
pursuant to Article 28.7.1
(Establishment of a Panel);
consulting Party means a Party that requests consultations pursuant to Article 28.5.1 (Consultations) and the Party to which the request for consultations is made;
disputing Party means a complaining Party or a responding Party;
Panel means a panel established pursuant to Article 28.7 (Establishment of a Panel);
perishable goods means perishable agricultural and fish goods classified in HS Chapters 1 through 24;
responding Party means a Party that has been complained against pursuant to Article 28.7.1 (Establishment of a Panel);
Rules of Procedure means the rules referred to in Article 28.12 (Rules of Procedure for Panels) and established in accordance with Article 27.2.1(e) (Functions of the Commission); and
Điều 28.1: Định nghĩa Trong Chương này:
Bên nguyên đơn là bên yêu cầu thành lập Ban hội thẩm theo Điều 28.7.1 (Thành lập Ban hội thẩm);
Bên tham vấn là bên yêu cầu tham vấn theo Điều 28.5.1 (Tham vấn) và bên được yêu cầu tham vấn;
Bên tranh chấp là Bên nguyên đơn hoặc Bên bị đơn;
Ban hội thẩm là ban được thành lập căn cứ theo Điều 28.7 (Thành lập Ban hội thẩm);
hàng hóa dễ hỏng là hàng hóa nơng nghiệp và thủy sản dễ hỏng phân loại từ mã HS từ chương 1 đến chương 24; Bên bị đơn là bên bị thưa kiện căn cứ theo điều 28.7.1 (Thành lập Ban hội thẩm);
Quy tắc tố tụng là những quy tắc nêu tại Điều 28.12 (Quy tắc tố tụng của Ban hội thẩm) và được thiết lập phù hợp với Điều 27.2.1 (e) (Chức năng của Ủy ban); và
- Lĩnh vực Hội thoại cơ bản: Tiếng Anh
How are things brother?
Everything is okay. How about you? I’m good.
But you don’t look okay. You seem upset.
It’s like you’ve been in a fight with somebody.
No. I don’t know why but I feel angry most of the time you know.
The littlest things easily make me angry.
What? Why's that?
I don’t know. I just feel it all the time. When did that start?
About a month ago.
Really? To be fair I just noticed it now.
Xây dựng công cụ hỗ trợ mở rộng ngôn ngữ và ngữ nghĩa
Đối với giải pháp mở rộng ngôn ngữ, bổ sung và cải tiến dữ liệu cho các kho ngữ liệu, luận án đã xây dựng được một môi trường làm việc cộng tác cho phép gọi các hệ thống dịch tự động để mở rộng ngôn ngữ cho kho ngữ liệu, thu thập dữ liệu song song từ các website đa ngữ cũng như cho phép cải tiến dữ liệu thông qua chức năng hậu xử lý.