Tổng hợp một số kho ngữ liệu

Tên kho ngữ liệu Europarl

Wikipedia OpenSubtitles TED2013 EUbookshop

1.2.2.2. Cấu trúc cơ bản của kho ngữ liệu song ngữ

Kho ngữ liệu song ngữ chứa các văn bản của hai ngơn ngữ khác nhau, vì vậy ngồi nội dung cịn có các thơng tin đã được xử lý như gióng hàng, gán nhãn từ… Về cơ bản, các kho ngữ liệu sẽ chứa những thông tin sau đây:

- Phần dữ liệu nguyên thủy/thô (primary data) :

o Thông tin về văn bản: id, title, authors…: được gọi là phần đầu

(Header)

o Thông tin về cấu trúc và nội dung: các phần (section), đoạn

(paragraph), câu (sentence)… : được gọi phần Text

- Phần chú giải ngôn ngữ học (linguistic annotation) o Ranh giới đoạn, câu, từ

o Từ loại của từ (POS) o Gốc từ (lemma)

- Thơng tin về gióng hàng (alignment)

Hình dưới đây là một đoạn trích dẫn từ kho ngữ liệu IWSLT15.TED, là kho ngữ liệu Anh – Việt được sử dụng cho mục đích nghiên cứu tại hội thảo IWSTL (The International Workshop on Spoken Language Translation) năm 2015. Kho ngữ liệu biểu diễn bằng định dạng XML, gồm các thông tin chung về tài liệu như: định danh (setid), ngôn ngữ nguồn (srclang) là tiếng Anh, ngơn ngữ đích (tgtlang) là tiếng Việt, định danh văn bản (docid), thể loại (genre), đường dẫn (url), mô tả (description), từ khóa (keywords), tiêu đề (title) và dữ liệu được đánh số theo trường id.

<?xml version="1.0" encoding="UTF-8"?> <mteval>

<refset setid="iwslt2015-tst2010" srclang="english"

trglang="vietnamese" refid="ref">

<url>http://www.ted.com/talks/robert_gupta</url>

<description>Robert Gupta,người đánh vĩ cầm của dàn nhạc LA Philharmonic,nói về 1 bài học ông dành cho 1 nhà soạn nhạc thông minh...</description>

<keywords>talks, TED Conference, TED Fellows, arts, brain, education, entertainment, live music, mental health, music, violin</keywords>

<title>Âm nhạc là liều thuốc, là sự sáng suốt.</title>

<seg id="1">Vào 1 ngày nhà viết báo Los Angeles Times Steve Lopez đang đi dọc trên con đường trong khu phố ở Lost Angeles thì nghe 1 bản nhạc tuyệt vời. </seg>

<seg id="2">Và bắt nguồn là từ một người đàn ông, một người Mỹ gốc Phi, thu hút, vạm vỡ, vô gia cư, đang chơi vĩ cầm chỉ với 2 sợi dây. </seg>

</doc> </refset> </mteval>

Đoạn mã dưới đây là trích đoạn của kho ngữ liệu Anh – Việt, sản phẩm thuộc đề tài KC01.01/06-10 "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lí tiếng nói và văn bản tiếng Việt" (https://vlsp.hpda.vn/), lĩnh vực Xã hội. Các câu tiếng Anh được đặt trong thẻ <endoc> và các cấu tiếng Việt đặt trong thẻ <vndoc>.

<sentence id="19961"> I tend to go to bed earlier during the winter.</sentence>

<sentence id="19962"> I thanked her for the present she sent

me.</sentence> </endoc>

<sentence id="19961"> Tôi hay đi ngủ sớm hơn vào mùa

đông.</sentence>

</vndoc> </document>

Đánh giá chất lượng hệ thống dịch tự động

Đánh giá chất lượng hệ thống dịch tự động là hoạt động nhằm xác định mức độ hồn thiện của bản dịch do máy tính đưa ra hoặc so sánh chất lượng dịch giữa các hệ thống dịch tự động khác nhau. Ở đây, chất lượng dịch được hiểu là mức độ hoàn thiện của bản dịch hay sự phù hợp của kết quả dịch khi dịch một văn bản (hoặc câu, đoạn, từ) từ ngơn ngữ nguồn sang ngơn ngữ đích.

Mục đích của q trình đánh giá chất lượng các hệ thống dịch tự động:

- Xác định mức độ hoàn thiện của hệ thống dịch;

- Đánh giá và so sánh hiệu quả của hệ thống dịch đối với từng lĩnh vực nội dung khác nhau;

- Đánh giá và so sánh chất lượng dịch giữa các hệ thống dịch tự động;

- Đánh giá và tìm hiểu những tồn tại của hệ thống dịch để có hướng khắc phục nhằm nâng cao chất lượng bản dịch;

- Khuyến cáo người dùng khi sử dụng kết quả của các hệ thống dịch.

Đánh giá chất lượng hệ thống dịch là một bài tốn có lịch sử lâu dài, gắn liền với sự phát triển của các hệ thống dịch. Hiện nay, có nhiều phương pháp và độ đo khác nhau để đánh giá chất lượng dịch tự động, có thể nhóm thành hai loại chính là đánh giá chủ quan (subjective evaluation) và đánh giá khách quan (objective evaluation).

1.2.3.1. Phương pháp đánh giá chủ quan

Đánh giá chủ quan do con người trực tiếp thực hiện, dựa trên việc đánh giá thang điểm cho các tiêu chí được xây dựng sẵn. Cách đánh giá chủ quan cho kết quả tin cậy nhưng tốn nhiều thời gian và chi phí, có phụ thuộc vào khả năng của người đánh giá.

a. Đánh giá tính trơi chảy và tính đầy đủ sử dụng thang điểm

Từ những năm 1960, khi triển khai hệ thống Appendix 10 của ALPAC [17], các nhà nghiên cứu đã đưa ra các thực nghiệm để đánh giá mức độ dễ hiểu và tính đầy đủ thơng tin từ các kết quả dịch máy có được. Một trong những phương pháp đầu tiên để đánh giá là dựa trên sự phán xét chủ quan của con người để đưa ra một thang điểm về sự chính xác ngữ nghĩa và sự trôi chảy của kết quả dịch khi so sánh với một hoặc nhiều bản dịch của chuyên gia.

Một số phương pháp đánh chủ quan đã được nghiên cứu và sử dụng trong cộng đồng dịch máy. Trong một số trường hợp, chất lượng của bản dịch được đánh giá trực tiếp từ người đánh giá, hoặc thông qua các bài kiểm tra đọc hoặc các tác vụ tương tự đối với bản dịch, ở các trường hợp khác có thể được đo đạc bằng khối lượng công việc được sử dụng để hiệu chỉnh bản dịch máy.

Hai trong số các thông số đánh giá thông dụng bằng phương pháp chủ quan do con người thực hiện là tính trơi chảy (fluency) và tính đầy đủ (adequacy) [17][18]. Đánh giá tính trơi chảy yêu cầu người đánh giá phải là một người nói thơng thạo ngơn

ngữ cần đánh giá, thực hiện việc đánh giá xem kết quả của bản dịch có trơi chảy hay khơng, bất kể kết quả này có chính xác với câu nguồn hoặc khơng.

Khi đánh giá tính đầy đủ, người đánh giá khơng cần quan tâm đến mức độ trôi chảy của bản dịch, mà chỉ cần xác định những thơng tin từ ngơn ngữ gốc có được thể hiện đầy đủ trong bản dịch hay không. Yêu cầu đối với người đánh giá trong trường hợp này được ràng buộc nghiêm ngặt hơn so với đánh giá tính trơi chảy. Người đánh giá phải thơng thạo cả ngơn ngữ nguồn và đích, khi đó mới có thể xác định chính xác các thơng tin có thể hiện đầy đủ giữa các bản dịch.

Trên thực tế, nếu người đánh giá chỉ thơng thạo ngơn ngữ đích vẫn có thể đánh giá được tính đầy đủ bằng cách sử dụng tập hợp các bản dịch chính xác có sẵn để đối chiếu thơng tin.

Tính trơi chảy và tính đầy đủ thơng tin được đánh giá độc lập trên từng câu dịch và thường được thiết lập trên thang đo gồm 5 hoặc 7 mức độ [19]. Trong một số trường hợp có thể lấy giá trị trung bình để chuyển thành một số đo duy nhất cho mỗi đánh giá.

Một số nghiên cứu cũng đã phân tích và chỉ ra sự tương quan không chặt chẽ giữa những người đánh giá khi sử dụng phương pháp đánh giá chủ quan [20][21] và nêu lên nhiều vấn đề đối với độ tin cậy của phương pháp này. Tuy nhiên, đánh giá chủ quan dựa trên con người vẫn thường được sử dụng như là một phương pháp cơ bản trong đánh giá chất lượng bản dịch máy.

Đánh giá tính đầy đủ ngữ nghĩa (semantic adequacy) cũng được nghiên cứu tại [22][23] và được sử dụng như là một tiêu chuẩn hữu ích để đánh giá sự hồn thiện của một hệ thống dịch máy, mặc dù sự tin cậy đối với phương pháp đánh giá chủ quan vẫn còn nhiều vấn đề đặt ra.

Q trình hiệu đính bản dịch (post-editing) để sửa lỗi và hoàn thiện bản dịch máy cũng được sử dụng như là một phương pháp thông dụng để đo đạc chất lượng bản dịch. Những bản dịch chính xác sẽ địi hỏi ít sự chỉnh sửa, cịn những bản dịch chất lượng thấp sẽ tốn nhiều chi phí để hồn thiện hơn. Phương pháp này dựa trên

các các chỉ số được thu thập được thông qua khối lượng lớn công việc hiệu đính bản dịch bởi con người thay vì nhận được kết quả thơng qua các thang điểm đánh giá.

Kịch bản tổng quát để thực hiện một bản đánh giá chất lượng bản dịch máy như sau:

Dữ liệu đầu vào:

o Văn bản ở ngôn ngữ nguồn (source language) o Bản dịch do máy tính tạo ra

o Bản dịch chính xác dùng để tham khảo (reference translation)

Nhiệm vụ:

o Đánh giá chất lượng của bản dịch do máy tính tạo ra

Kết quả đầu ra:

o Điểm đánh giá theo các tiêu chí cụ thể

Để cụ thể hóa việc đánh giá chất lượng theo phương pháp chủ quan, thông thường người ta sử dụng các thang đo đối với tính đầy đủ và tính trơi chảy [24][18].

Tính đầy đủ xác định bản dịch có đầy đủ nội dung, đồng nghĩa với câu nguồn hay khơng, có thơng tin bị mất đi, hoặc bổ sung thông tin mới, hoặc thơng tin bị sai lệch hay khơng. Tính đầy đủ được xác định thơng qua thang đo gồm 5 mức độ [19]: tất cả (all) - hầu hết (most) - nhiều (much) - ít (little) - khơng có thơng tin liên quan (none).

Bảng 1.3. Bảng các thang đo tương ứng với mức độ đầy đủ và trơi chảy

Adequacy (Tính đầy đủ thơng tin) 5 all meaning

4 most meaning

3 much meaning

2 little meaning

1 none

Fluency (Tính trơi chảy)

5 flawless English

4 good English

3 non-native English

2 disfluent English

Tính trơi chảy xác định bản dịch có trơi chảy ở ngơn ngữ đích hay khơng, sử dụng đúng ngữ pháp và từ ngữ hay khơng. Tính trơi chảy được thể hiện thơng qua thang đo gồm 5 mức độ: hồn thiện (flawless) - tốt (good) - không tự nhiên (non- native) - không trôi chảy (disfluent) - không thể hiểu được (incomprehensible).

Mặc dù hai chỉ số đánh giá chất lượng dịch này được đánh giá độc lập với nhau, nhưng nghiên cứu tại [18] chỉ ra rằng có sự liên hệ chặt chẽ giữa số đo tính đầy đủ và tính trơi chảy của những người đánh giá bản dịch. Trên thực tế, người đánh giá khó xác định được thơng tin của bản dịch nếu bản dịch đó khơng trơi chảy, điều này dẫn đến điểm của tính đầy đủ nhận được sẽ thấp. Ngược lại, một bản dịch thể hiện được đầy đủ thông tin từ câu nguồn, thông thường là một bản dịch trôi chảy, đúng ngữ pháp. Việc tách bạch hai chỉ số về tính đầy đủ và tính trơi chảy sẽ dẫn đến những khó khăn khi kết hợp điểm đánh giá để cho ra một số liệu duy nhất trong trường hợp cần thiết. Nghiên cứu của NIST Open Machine Translation Evaluation [19] đề xuất chỉ sử dụng chỉ số tính đầy đủ thông tin, nhưng mở rộng thang đo thành 7 mức độ để cho phép kết quả đánh giá thể hiện chi tiết hơn.

b. Đánh giá bằng hình thức xếp hạng

Phương pháp đánh giá bằng hình thức xếp hạng được giới thiệu tại WMT 2007 [18] nhằm khắc phục một số hạn chế khi đánh giá bởi chỉ số tính đầy đủ và tính trơi chảy. Phương pháp này thay thế các thang điểm bằng sự đánh giá tương quan giữa các bản dịch thông qua việc xếp hạng. Đối với phương pháp này, người đánh giá nhận được một bản dịch tham chiếu chính xác (reference translation) và các bản dịch máy cần đánh giá. Người đánh giá thực hiện việc xếp hạng các bản dịch từ tốt nhất đến tệ nhất. Trong một số trường hợp, có thể đưa ra hai bản dịch và yêu cầu người đánh giá chọn bản dịch tốt nhất khi so sánh với bản dịch tham chiếu. Phương pháp này trong nhiều trường hợp cho thấy kết quả đánh giá nhất quán hơn, theo thực nghiệm tại [25].

c. Đánh giá thơng qua hiệu đính bản dịch

Hiệu đính bản dịch là q trình chỉnh sửa bản dịch máy thành một bản dịch chính xác. Thay vì trực tiếp đánh giá các chỉ số chất lượng một cách tương đối hay tuyệt đối, phương pháp đánh giá thơng qua hiệu đính bản dịch thực hiện đo đạc số lượng tối thiểu công việc cần thiết để chỉnh sửa một bản dịch máy thành bản dịch chính xác. Một trong các chỉ số thông dụng nhất khi áp dụng phương pháp này là HTER (human-targeted translation edit rate) [21], đây cũng là phương pháp đánh giá bán tự động khi vừa dựa trên sử chỉnh sửa chủ quan của con người, vừa sử dụng các cơng thức để tính tốn tự động. HTER xác định số bước tối thiểu mà người đánh giá tham gia chỉnh sửa bản dịch để trở thành một bản dịch chính xác. Phương pháp này hướng đến so sánh bản dịch máy với một trong các bản dịch tham chiếu gần nhất nhằm đạt được số bước chỉnh sửa ít nhất có thể.

Phương pháp đánh giá chủ quan có những nhược điểm như sau:

- Chi phí cao: q trình tổ chức đánh giá thực hiện hồn tồn thủ cơng, vì vậy chi phí để đánh giá rất cao, đồng thời cần có sự tham gia của nhiều người để đánh giá một kết quả nhằm đảm bảo tính chính xác của việc đánh giá.

- Không thể tái sử dụng: mỗi đánh giá thực hiện trực tiếp trên một bản dịch cụ thể, vì vậy khó có thể tái sử dụng trong trường hợp lặp lại một phần các bản dịch đã được đánh giá.

- Tốc độ chậm: việc đánh giá thủ công sẽ ảnh hưởng đến tốc độ của quá tình đánh giá.

- Kết quả mang tính chủ quan dựa trên sự đánh giá của con người, đôi khi cũng ảnh hưởng bởi mơi trường, tâm trạng, trình độ ngơn ngữ… của người đánh giá.

1.2.3.2. Phương pháp đánh giá khách quan (đánh giá tự động)

Đánh giá khách quan là sử dụng các chương trình thay cho con người để đánh giá. Các chương trình sẽ so khớp hoặc đo tỉ lệ lỗi của kết quả từ hệ thống dịch với câu dịch tham khảo đã có sẵn.

Các chỉ số đánh giá tự động như BLEU, NIST, METEOR, WER, PER, GTM, TER, CDER… đã được nghiên cứu và phát triển để cải thiện những nhược điểm của

phương pháp đánh giá chủ quan như chi phí cao, khơng thể tái sử dụng, kết quả mang tính chủ quan, tốc độ thực hiện chậm…, đồng thời hướng đến quá trình tự động điều chỉnh các tham số đánh giá phù hợp [26]. Những chỉ số này được đề xuất dựa trên quá trình tự động so sánh giữa kết quả bản dịch với bản dịch tham chiếu do chuyên gia thực hiện, thông thường bằng cách xem xét sự trùng khớp thông qua n-gram.

a. Chỉ số WER (Word Error Rate)

Một trong những phương pháp đánh giá tự động là sử dụng chỉ số WER [27]. WER tính tốn Khoảng cách Levenshtein [28] giữa các từ trong bản dịch máy với các từ trong bản dịch tham chiếu, chia cho chiều dài của bản dịch tham chiếu. Khoảng cách Levenshtein thể hiện khoảng cách khác biệt giữa 2 chuỗi ký tự, chẳng hạn giữa chuỗi S và chuỗi T là số bước ít nhất biến chuỗi S thành chuỗi T thơng qua 3 phép biến đổi:

o Xố 1 ký tự (Deletion) o Thêm 1 ký tự (Insertion)

o Thay ký tự này bằng ký tự khác (Substitution)

Khoảng cách Levenshtein thường được sử dụng trong việc tính tốn sự giống và khác nhau giữa 2 chuỗi, như chương trình kiểm tra lỗi chính tả.

WER sẽ tiến hành cộng số lượng các bước xóa (D), thêm (I), thay thế (S) và chia cho chiều dài của câu tham chiếu (N) theo cơng thức:

+ +

= (1.3)

Ví dụ đối với trường hợp cần so sánh mức độ tương đồng giữa câu tham chiếu là bản dịch gốc (How are you today John) và bản dịch do máy tính tạo ra (How you a today Jones):

Câu tham chiếu Bản dịch máy

WER trong nhiều trường hợp sẽ cho kết quả khơng chính xác, vì một câu nguồn có thể được dịch thành nhiều cách khác nhau ở ngơn ngữ đích, sử dụng các từ hồn tồn khác nhau. Khi đó một bản dịch đúng có thể sẽ nhận được điểm số thấp mặc dù chất lượng tốt.

b. Chỉ số MWER (Multi-Reference WER)

Chỉ số MWER [29] là một sự phát triển từ WER và được đánh giá dựa trên số đo WER đối với nhiều câu tham chiếu, và chọn ra điểm WER thấp nhất trong số

Kết quả sau khi hiệu chỉnh bản dịch

Định dạng chuẩn biểu diễn kho ngữ liệu