Tổng hợp một số kho ngữ liệu

1.2.2.2. Cấu trúc cơ bản của kho ngữ liệu song ngữ

Kho ngữ liệu song ngữ chứa các văn bản của hai ngơn ngữ khác nhau, vì vậy ngồi nội dung cịn có các thơng tin đã được xử lý như gióng hàng, gán nhãn từ… Về cơ bản, các kho ngữ liệu sẽ chứa những thông tin sau đây:

Phần dữ liệu nguyên thủy/thô (primary data) :

o Thông tin về văn bản: id, title, authors…: được gọi là phần đầu

(Header)

o Thông tin về cấu trúc và nội dung: các phần (section), đoạn

(paragraph), câu (sentence)… : được gọi phần Text Phần chú giải ngôn ngữ học (linguistic annotation)

o Ranh giới đoạn, câu, từ o Từ loại của từ (POS) o Gốc từ (lemma)

Tên kho ngữ liệu Số ngôn ngữ Độ lớn dữ liệu

Europarl 21 30,32M

Wikipedia 21 25,90M

OpenSubtitles 62 3,35G

TED2013 15 3,81M

- Thơng tin về gióng hàng (alignment)

Hình dưới đây là một đoạn trích dẫn từ kho ngữ liệu IWSLT15.TED, là kho ngữ liệu Anh – Việt được sử dụng cho mục đích nghiên cứu tại hội thảo IWSTL (The International Workshop on Spoken Language Translation) năm 2015. Kho ngữ liệu biểu diễn bằng định dạng XML, gồm các thông tin chung về tài liệu như: định danh (setid), ngôn ngữ nguồn (srclang) là tiếng Anh, ngơn ngữ đích (tgtlang) là tiếng Việt, định danh văn bản (docid), thể loại (genre), đường dẫn (url), mơ tả (description), từ khóa (keywords), tiêu đề (title) và dữ liệu được đánh số theo trường id.

<?xml version="1.0" encoding="UTF-8"?> <mteval>

<refset setid="iwslt2015-tst2010" srclang="english"

trglang="vietnamese" refid="ref">

<url>http://www.ted.com/talks/robert_gupta</url>

<description>Robert Gupta,người đánh vĩ cầm của dàn nhạc LA Philharmonic,nói về 1 bài học ơng dành cho 1 nhà soạn nhạc thông minh...</description>

<keywords>talks, TED Conference, TED Fellows, arts, brain, education, entertainment, live music, mental health, music, violin</keywords>

<title>Âm nhạc là liều thuốc, là sự sáng suốt.</title> <seg id="1">Vào 1 ngày nhà viết báo Los Angeles Times Steve Lopez đang đi dọc trên con đường trong khu phố ở Lost Angeles thì nghe 1 bản nhạc tuyệt vời. </seg>

<seg id="2">Và bắt nguồn là từ một người đàn ông, một người Mỹ gốc Phi, thu hút, vạm vỡ, vô gia cư, đang chơi vĩ cầm chỉ với 2 sợi dây. </seg>

</doc> </refset> </mteval>

Đoạn mã dưới đây là trích đoạn của kho ngữ liệu Anh – Việt, sản phẩm thuộc đề tài KC01.01/06-10 "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lí tiếng nói và văn bản tiếng Việt" (https://vlsp.hpda.vn/), lĩnh vực Xã hội. Các câu tiếng Anh được đặt trong thẻ <endoc> và các cấu tiếng Việt đặt trong thẻ <vndoc>.

<sentence id="19961"> I tend to go to bed earlier during the winter.</sentence>

<sentence id="19962"> I thanked her for the present she sent me.</sentence>

</endoc>

<sentence id="19961"> Tôi hay đi ngủ sớm hơn vào mùa

đông.</sentence>

</vndoc> </document>

Đánh giá chất lượng hệ thống dịch tự động

Đánh giá chất lượng hệ thống dịch tự động là hoạt động nhằm xác định mức độ hoàn thiện của bản dịch do máy tính đưa ra hoặc so sánh chất lượng dịch giữa các hệ thống dịch tự động khác nhau. Ở đây, chất lượng dịch được hiểu là mức độ hoàn thiện của bản dịch hay sự phù hợp của kết quả dịch khi dịch một văn bản (hoặc câu, đoạn, từ) từ ngôn ngữ nguồn sang ngơn ngữ đích.

Mục đích của q trình đánh giá chất lượng các hệ thống dịch tự động:

- Xác định mức độ hoàn thiện của hệ thống dịch;

- Đánh giá và so sánh hiệu quả của hệ thống dịch đối với từng lĩnh vực nội

dung khác nhau;

- Đánh giá và so sánh chất lượng dịch giữa các hệ thống dịch tự động; - Đánh giá và so sánh hiệu quả của các mơ hình dịch khác nhau;

- Đánh giá và tìm hiểu những tồn tại của hệ thống dịch để có hướng khắc phục

nhằm nâng cao chất lượng bản dịch;

- Khuyến cáo người dùng khi sử dụng kết quả của các hệ thống dịch.

Đánh giá chất lượng hệ thống dịch là một bài tốn có lịch sử lâu dài, gắn liền với sự phát triển của các hệ thống dịch. Hiện nay, có nhiều phương pháp và độ đo khác nhau để đánh giá chất lượng dịch tự động, có thể nhóm thành hai loại chính là đánh giá chủ quan (subjective evaluation) và đánh giá khách quan (objective evaluation).

1.2.3.1. Phương pháp đánh giá chủ quan

Đánh giá chủ quan do con người trực tiếp thực hiện, dựa trên việc đánh giá thang điểm cho các tiêu chí được xây dựng sẵn. Cách đánh giá chủ quan cho kết quả tin cậy nhưng tốn nhiều thời gian và chi phí, có phụ thuộc vào khả năng của người đánh giá.

a. Đánh giá tính trơi chảy và tính đầy đủ sử dụng thang điểm

Từ những năm 1960, khi triển khai hệ thống Appendix 10 của ALPAC [17], các nhà nghiên cứu đã đưa ra các thực nghiệm để đánh giá mức độ dễ hiểu và tính đầy đủ thơng tin từ các kết quả dịch máy có được. Một trong những phương pháp đầu tiên để đánh giá là dựa trên sự phán xét chủ quan của con người để đưa ra một thang điểm về sự chính xác ngữ nghĩa và sự trôi chảy của kết quả dịch khi so sánh với một hoặc nhiều bản dịch của chuyên gia.

Một số phương pháp đánh chủ quan đã được nghiên cứu và sử dụng trong cộng đồng dịch máy. Trong một số trường hợp, chất lượng của bản dịch được đánh giá trực tiếp từ người đánh giá, hoặc thông qua các bài kiểm tra đọc hoặc các tác vụ tương tự đối với bản dịch, ở các trường hợp khác có thể được đo đạc bằng khối lượng công việc được sử dụng để hiệu chỉnh bản dịch máy.

Hai trong số các thông số đánh giá thông dụng bằng phương pháp chủ quan do con người thực hiện là tính trơi chảy (fluency) và tính đầy đủ (adequacy) [17][18]. Đánh giá tính trơi chảy u cầu người đánh giá phải là một người nói thơng thạo ngơn

ngữ cần đánh giá, thực hiện việc đánh giá xem kết quả của bản dịch có trơi chảy hay khơng, bất kể kết quả này có chính xác với câu nguồn hoặc khơng.

Khi đánh giá tính đầy đủ, người đánh giá khơng cần quan tâm đến mức độ trôi chảy của bản dịch, mà chỉ cần xác định những thông tin từ ngôn ngữ gốc có được thể hiện đầy đủ trong bản dịch hay khơng. Yêu cầu đối với người đánh giá trong trường hợp này được ràng buộc nghiêm ngặt hơn so với đánh giá tính trơi chảy. Người đánh giá phải thơng thạo cả ngơn ngữ nguồn và đích, khi đó mới có thể xác định chính xác các thơng tin có thể hiện đầy đủ giữa các bản dịch.

Trên thực tế, nếu người đánh giá chỉ thơng thạo ngơn ngữ đích vẫn có thể đánh giá được tính đầy đủ bằng cách sử dụng tập hợp các bản dịch chính xác có sẵn để đối chiếu thơng tin.

Tính trơi chảy và tính đầy đủ thơng tin được đánh giá độc lập trên từng câu dịch và thường được thiết lập trên thang đo gồm 5 hoặc 7 mức độ [19]. Trong một số trường hợp có thể lấy giá trị trung bình để chuyển thành một số đo duy nhất cho mỗi đánh giá.

Một số nghiên cứu cũng đã phân tích và chỉ ra sự tương quan khơng chặt chẽ giữa những người đánh giá khi sử dụng phương pháp đánh giá chủ quan [20][21] và nêu lên nhiều vấn đề đối với độ tin cậy của phương pháp này. Tuy nhiên, đánh giá chủ quan dựa trên con người vẫn thường được sử dụng như là một phương pháp cơ bản trong đánh giá chất lượng bản dịch máy.

Đánh giá tính đầy đủ ngữ nghĩa (semantic adequacy) cũng được nghiên cứu tại [22][23] và được sử dụng như là một tiêu chuẩn hữu ích để đánh giá sự hoàn thiện của một hệ thống dịch máy, mặc dù sự tin cậy đối với phương pháp đánh giá chủ quan vẫn còn nhiều vấn đề đặt ra.

Q trình hiệu đính bản dịch (post-editing) để sửa lỗi và hoàn thiện bản dịch máy cũng được sử dụng như là một phương pháp thông dụng để đo đạc chất lượng bản dịch. Những bản dịch chính xác sẽ địi hỏi ít sự chỉnh sửa, cịn những bản dịch chất lượng thấp sẽ tốn nhiều chi phí để hồn thiện hơn. Phương pháp này dựa trên

các các chỉ số được thu thập được thơng qua khối lượng lớn cơng việc hiệu đính bản dịch bởi con người thay vì nhận được kết quả thơng qua các thang điểm đánh giá.

Kịch bản tổng quát để thực hiện một bản đánh giá chất lượng bản dịch máy như sau:

Dữ liệu đầu vào:

o Văn bản ở ngôn ngữ nguồn (source language) o Bản dịch do máy tính tạo ra

o Bản dịch chính xác dùng để tham khảo (reference translation)

Nhiệm vụ:

o Đánh giá chất lượng của bản dịch do máy tính tạo ra

Kết quả đầu ra:

o Điểm đánh giá theo các tiêu chí cụ thể

Để cụ thể hóa việc đánh giá chất lượng theo phương pháp chủ quan, thông thường người ta sử dụng các thang đo đối với tính đầy đủ và tính trơi chảy [24][18].

Tính đầy đủ xác định bản dịch có đầy đủ nội dung, đồng nghĩa với câu nguồn hay khơng, có thơng tin bị mất đi, hoặc bổ sung thơng tin mới, hoặc thông tin bị sai lệch hay khơng. Tính đầy đủ được xác định thơng qua thang đo gồm 5 mức độ [19]: tất cả (all) - hầu hết (most) - nhiều (much) - ít (little) - khơng có thơng tin liên quan (none).

Mơ hình hóa phương pháp dịch thống kê

Kết quả sau khi hiệu chỉnh bản dịch