Mơ hình hóa phương pháp dịch thống kê

Các mơ hình dịch thống kê ban đầu thường dùng mơ hình lấy cơ sở theo từ, sau đó phát triển các mơ hình theo cơ sở cụm từ, kết hợp cú pháp hoặc cấu trúc bán cú pháp để làm tăng chất lượng dịch kết quả dịch.

a. Dịch máy thống kê trên cơ sở từ

Trong phương pháp dịch này, đơn vị được dịch là các từ. Số từ trong câu được dịch là khác nhau phụ thuộc vào các từ ghép, hình thái từ và thành ngữ. Tham số độ dài của chuỗi từ được dịch gọi là độ hỗn loạn, tức là số từ của ngơn ngữ đích mà từ của ngơn ngữ nguồn sinh ra. Sự khác nhau về mặt ngôn ngữ học giữa tiếng Anh và tiếng Việt dẫn đến sự phức tạp trong quá trình sắp xếp trật tự của các từ sau khi nhận được bản dịch của từng từ. Các hệ thống dịch dựa trên cụm từ thường sử dụng thư viện Giza++ [10] để gióng hàng câu, trích rút ra các cặp câu song ngữ và mơ hình ngơn ngữ.

b. Dịch máy thống kê trên cơ sở cụm từ

Koehn mơ tả q trình dịch thống kê dựa trên cụm từ tại [11] như sau: + Câu nguồn được tách thành các cụm từ;

Ngôn ngữ nguồn Tiền xử lý Tìm kiếm ẽ = max ∈ ∗ ( | ) Hậu xử lý Ngơn ngữ đích

Mơ hình ngơn ngữ p(e) Mơ hình dịch p(f|e)

+ Mỗi cụm từ được dịch sang ngơn ngữ đích;

+ Các cụm từ đã dịch được sắp xếp theo một thứ tự phù hợp.

Các cụm từ ở đây không tách theo ý nghĩa ngôn ngữ học (tức là một cụm từ có trọn vẹn nghĩa, đủ cú pháp), mà là các cụm từ thu được từ phương pháp thống kê thông qua kỹ thuật n-gram. Độ dài cụm từ nguồn và cụ từ đích có thể khác nhau. Phương pháp dịch thống kê trên cơ sở cụm từ sẽ làm tăng chất lượng bằng cách dịch cả cụm từ thay vì dịch từng từ, giúp cho bản dịch thể hiện được ngữ cảnh của nội dung cần dịch.

Phương pháp dịch máy thống kê dựa trên đơn vị cụm từ được đánh giá có chất lượng tốt khi áp dụng cho các cặp ngôn ngữ như tiếng Anh-Trung, Anh-Ả rập. Tuy chất lượng có tốt hơn mơ hình dịch thống kê dựa trên đơn vị từ, mơ hình dịch thống kê dựa trên cụm từ vẫn chưa giải quyết được một số vấn đề của bài toán dịch máy như ngữ pháp, khả năng lựa chọn cụm từ có tính chính xác cao, dịch tên hoặc trường hợp lượng từ vựng có hạn.

c. Dịch máy thống kê trên cơ sở cú pháp

Dịch máy thống kê trên cơ sở cú pháp dựa trên ý tưởng dịch các đơn vị cú pháp (phân tích cây cú pháp của câu), thay vì dịch những từ đơn hay cụm từ như trong dịch máy thống kê trên cơ sở cụm từ.

Hiện nay, rất nhiều cách tiếp cận khác ra đời nhằm cải thiện chất lượng của hệ dịch, tích hợp thêm các thông tin ngôn ngữ như tiến hành tiền xử lý, sử dụng các thông tin về ngữ pháp để chuyển đổi câu ngôn ngữ nguồn về một dạng gần với ngơn ngữ đích trước khi thực hiện việc gióng hàng.

Liên quan đến các mã nguồn mở ứng dụng trong lĩnh vực dịch máy thống kê, một trong những mã nguồn được sử dụng phổ biến trong các nghiên cứu là Moses [12] (http://www.statmt.org/moses/). Đây là hệ thống mã nguồn mở hồn chỉnh cho mơ hình dịch thống kê dựa trên cụm từ. Ưu điểm vượt trội của Moses là cho phép tích hợp thêm các thơng tin ngơn ngữ một cách mềm dẻo bằng cách thêm các tham số (factors) vào hệ thống. Chính vì vậy Moses khắc phục sự thiếu hụt các thơng tin về ngơn ngữ như hình thái học, cú pháp, gán nhãn, từ gốc,… dẫn đến hệ thống không

có khả năng dịch được những từ khơng xuất hiện trong tập dữ liệu học, giúp mơ hình có khả năng nhận biết được ngữ cảnh khác nhau của câu cần dịch, sự khác nhau về cú pháp của các cặp ngôn ngữ. Moses cho phép người dùng thêm vào các lớp thơng tin về ngơn ngữ vào mơ hình dịch và trong dữ liệu huấn luyện.

Hình 1.4. Một ánh xạ giữa các tham số trong ngôn ngữ nguồn và ngơn ngữ đích Nguồn: http://www.statmt.org/

Hình 1.5. Tích hợp thêm các lớp thơng tin về từ gốc, POS vào dữ liệu huấn luyện Nguồn: http://www.statmt.org/

Hệ thống có những tính năng cần thiết giải quyết các vấn đề chung của nhiều cặp ngơn ngữ có sự khác biệt lớn về mặt cấu trúc ngữ pháp và tính nhập nhằng ngữ nghĩa như đối với hệ dịch Anh-Việt.

Kho ngữ liệu trong dịch tự động

Kho ngữ liệu (corpus) được hiểu là tập hợp văn bản đơn ngữ, đa ngữ hay song ngữ [13]. Trong định nghĩa của Từ điển Cambridge, kho ngữ liệu có thể là tập hợp tài nguyên dưới dạng văn bản hoặc giọng nói.

Kho ngữ liệu đa ngữ là một tập các văn bản (tài liệu) được viết bằng nhiều ngôn ngữ.

Kho ngữ liệu song song là một tập các văn bản (tài liệu) trong nhiều ngơn ngữ khác nhau, trong đó có một ngơn ngữ nguồn và một (hoặc nhiều) ngơn ngữ đích (được dịch từ ngôn ngữ nguồn).

Kho ngữ liệu song ngữ là một tập hợp dữ liệu gồm các cặp văn bản đã được dịch tương ứng. Sự tương ứng của các bản dịch ở đây được thể hiện ở cấp độ văn bản, nghĩa là kho ngữ liệu gồm các văn bản thuộc ngơn ngữ nguồn và ngơn ngữ đích đã được dịch tương ứng, hoặc tương tự đối với các cấp độ khác bao gồm: cấp độ đoạn, cấp độ câu, cấp độ cụm từ và cấp độ từ.

Để giải quyết các bài tốn liên quan đến lĩnh vực xử lý ngơn ngữ tự nhiên, một tài nguyên rất cần thiết đó là các kho ngữ liệu song ngữ. Các kho ngữ liệu song ngữ này có thể được sử dụng cho nhiều mục đích khác nhau như: nghiên cứu ngơn ngữ học so sánh, tìm kiếm thông tin xuyên ngữ, dịch máy... Các kho ngữ liệu song ngữ này là nguồn tài ngun để từ đó có thể trích xuất tương ứng các đơn vị ngôn ngữ (từ, ngữ, câu, đoạn, văn bản...) của hai ngơn ngữ, từ đó giải quyết các vấn đề liên quan. Kết quả của các bài toán nêu trên phụ thuộc rất nhiều vào độ lớn và chất lượng của kho ngữ liệu song song được sử dụng. Trên thế giới đã có rất nhiều kho ngữ liệu song ngữ song song được xây dựng để phục vụ cho các mục tiêu như trên.

Các kho ngữ liệu có thể chỉ chứa dữ liệu thô (nội dung văn bản) hoặc đã được phân tích để gán thêm các nhãn ngơn ngữ như ranh giới từ, từ gối, từ loại của từ… Về cơ bản, nội dung của kho ngữ liệu gồm các phần: (1) Các thông tin về văn bản; (2) Nội dung văn bản; (3) Các nhãn ngôn ngữ.

Kho ngữ liệu là nền tảng để xây dựng, đánh giá và cải tiến chất lượng của các hệ thống dịch tự động. Nếu có được kho ngữ liệu đa ngữ đủ lớn về khối lượng, tốt về

chất lượng thì chắc chắn chất lượng dịch của các hệ thống dịch tự động hiện nay sẽ được cải thiện đáng kể [14].

Đã có nhiều kho ngữ liệu quốc tế được nghiên cứu và cơng bố có số lượng ngơn ngữ và khối lượng dữ liệu tương đối lớn như EuroParl (11 ngôn ngữ, 34-55 triệu từ), JRC-Acquis (22 ngôn ngữ, 11-22 triệu từ), XinHua News (2 ngôn ngữ, 12-14 triệu từ), EuroMatrix (9 ngôn ngữ lấy nguồn từ các kỷ yếu của Quốc hội Châu Âu từ năm 1996–2006), Canadian Hansard (song ngữ Anh-Pháp, 2.8 triệu cặp câu), WaCky (hơn 1 tỷ từ được thu thập từ Internet) …

Trong các kho ngữ liệu song ngữ tiếng Việt, dữ liệu được tổng hợp ở nhiều lĩnh vực khác nhau. Lượng dữ liệu đối với từng lĩnh vực chưa nhiều, đặc biệt dữ liệu thuộc các lĩnh vực hẹp, chuyên sâu như lĩnh vực y tế, văn bản quy phạm pháp luật… hầu như xuất hiện rất ít trong các kho ngữ liệu nói trên. Các kho ngữ liệu đã được xây dựng trong lĩnh vực xử lý ngôn ngữ tiếng Việt hiện nay phần lớn thuộc các nhóm sau: - Phục vụ nghiên cứu từ điển tiếng Việt: nội dung văn bản trong kho ngữ liệu đã được tách từ, phân tích từ loại phục vụ cho việc xây dựng từ điển song ngữ.

- Phục vụ nghiên cứu ngôn ngữ: gồm các kho ngữ liệu được chú giải ngữ pháp, gán nhãn ngữ pháp, phân cụm và phân tích câu tiếng Việt; xây dựng tập các quy tắc ngữ pháp tiếng Việt dùng cho xử lý tự động ngôn ngữ; nghiên cứu và xây dựng bộ phân tích cú pháp, câu tiếng Việt [15].

- Phục vụ các nghiên cứu xử lý ngơn ngữ tự nhiên, trong đó có dịch tự động tiếng Việt: kho ngữ liệu dùng cho các hệ thống dịch, cải tiến chất lượng hệ thống dịch…

Ngoài kho ngữ liệu song ngữ, kho ngữ liệu đơn ngữ cũng đóng vai trị rất quan trọng trong nhiều phương pháp dịch, đặc biệt đối với phương pháp dịch thống kê. Từ kho ngữ liệu đơn ngữ, các thuật tốn xử lý sẽ tổng hợp được mơ hình ngơn ngữ thơng qua thống kê ở quy mơ lớn, làm cơ sở để mơ hình dịch đưa ra quyết định lựa chọn từ ngữ phù hợp với ngữ cảnh, đúng ngữ pháp và trơi chảy ở ngơn ngữ đích. Vấn đề xây dựng kho ngữ liệu đơn ngữ tiếng Việt trở nên đơn giản hơn vì hiện nay đã có nhiều tài liệu xuất bản dưới dạng văn bản số, như nguồn tài liệu tin tức, báo cáo khoa học,

tài liệu nghiên cứu, học tập, tác phẩm văn học… Từ nguồn tài liệu này hoàn tồn có thể trích rút văn bản để xây dựng được kho ngữ liệu đơn ngữ có giá trị.

1.2.2.1. Các kho ngữ liệu hiện nay

Trên thế giới hiện có rất nhiều kho ngữ liệu song ngữ song song được chia sẽ miễn phí cho cộng đồng nghiên cứu. Dưới đây là một vài kho ngữ liệu song ngữ song song tiêu biểu:

- Kho ngữ liệu song ngữ song song được xây dựng từ sự hỗ trợ của dự án EuroMatrix. Kho ngữ liệu này gồm các cặp ngôn ngữ khác nhau được lấy nguồn từ các kỷ yếu (proceeding) của Quốc hội Châu Âu (European Parliament) từ năm 1996 – 2006 [16]. Kho ngữ liệu song ngữ song song này gồm 10 cặp ngôn ngữ như được liệt kê dưới đây:

Bảng 1.1. Chi tiết kho ngữ liệu EuroMatrix

Kho ngữ liệu song ngữ

(L1-L2) Số cặp câu Số từ ở ngôn ngữ L1 Số từ ở ngôn ngữ L2 Danish-English 1.304.947 34.169.707 36.225.880 German-English 1.313.096 34.700.362 36.663.083 Greek-English 662.090 18.834.758 18.827.241 Spanish-English 1.304.116 37.870.751 36.429.274 Finnish-English 1.257.720 24.895.790 34.802.617 French-English 1.334.080 41.573.117 37.436.222 Italian-English 1.251.315 36.411.166 36.510.033 Dutch-English 1.326.412 36.784.168 36.690.392 Portuguese-English 1.287.757 37.342.426 36.355.907 Swedish-English 1.164.536 28.882.142 32.053.628

- Kho ngữ liệu song ngữ song song Anh-Pháp, Canadian Hansard Corpus của Hiệp hội dữ liệu ngôn ngữ học (Linguistic Data Consortium- LDC), kho ngữ liệu này gồm 2.8 triệu cặp câu (theo http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?

catalogId=LDC95T20). Dữ liệu văn bản thuần chủ yếu được lấy từ trang web của Quốc hội Canada.

- Kho ngữ liệu song ngữ song song Hoa – Anh PKU 863 của đại học Bắc Kinh gồm hơn 200.000 cặp câu thuộc nhiều lĩnh vực kinh tế xă hội khác nhau (chia sẻ tại liên kết: http://www.ling.lancs.ac.uk/corplang/863parallel/).

Ngồi ra, có một số kho ngữ liệu song ngữ với số lượng câu lớn được liệt kê trong bảng dưới đây:

Bảng 1.2. Tổng hợp một số kho ngữ liệu

Tên kho ngữ liệu Số ngôn ngữ Độ lớn dữ liệu

Europarl 21 30,32M

Wikipedia 21 25,90M

OpenSubtitles 62 3,35G

TED2013 15 3,81M

EUbookshop 48 173,20M

1.2.2.2. Cấu trúc cơ bản của kho ngữ liệu song ngữ

Kho ngữ liệu song ngữ chứa các văn bản của hai ngơn ngữ khác nhau, vì vậy ngồi nội dung cịn có các thơng tin đã được xử lý như gióng hàng, gán nhãn từ… Về cơ bản, các kho ngữ liệu sẽ chứa những thông tin sau đây:

- Phần dữ liệu nguyên thủy/thô (primary data) :

o Thông tin về văn bản: id, title, authors…: được gọi là phần đầu (Header)

o Thông tin về cấu trúc và nội dung: các phần (section), đoạn (paragraph), câu (sentence)… : được gọi phần Text

- Phần chú giải ngôn ngữ học (linguistic annotation)

o Ranh giới đoạn, câu, từ

o Từ loại của từ (POS)

- Thông tin về gióng hàng (alignment)

Hình dưới đây là một đoạn trích dẫn từ kho ngữ liệu IWSLT15.TED, là kho ngữ liệu Anh – Việt được sử dụng cho mục đích nghiên cứu tại hội thảo IWSTL (The International Workshop on Spoken Language Translation) năm 2015. Kho ngữ liệu biểu diễn bằng định dạng XML, gồm các thông tin chung về tài liệu như: định danh (setid), ngôn ngữ nguồn (srclang) là tiếng Anh, ngơn ngữ đích (tgtlang) là tiếng Việt, định danh văn bản (docid), thể loại (genre), đường dẫn (url), mơ tả (description), từ khóa (keywords), tiêu đề (title) và dữ liệu được đánh số theo trường id.

<?xml version="1.0" encoding="UTF-8"?> <mteval>

<refset setid="iwslt2015-tst2010" srclang="english"

trglang="vietnamese" refid="ref">

<url>http://www.ted.com/talks/robert_gupta</url>

<description>Robert Gupta,người đánh vĩ cầm của dàn nhạc LA Philharmonic,nói về 1 bài học ơng dành cho 1 nhà soạn nhạc thông minh...</description>

<keywords>talks, TED Conference, TED Fellows, arts, brain, education, entertainment, live music, mental health, music, violin</keywords>

<title>Âm nhạc là liều thuốc, là sự sáng suốt.</title> <seg id="1">Vào 1 ngày nhà viết báo Los Angeles Times Steve Lopez đang đi dọc trên con đường trong khu phố ở Lost Angeles thì nghe 1 bản nhạc tuyệt vời. </seg>

<seg id="2">Và bắt nguồn là từ một người đàn ông, một người Mỹ gốc Phi, thu hút, vạm vỡ, vô gia cư, đang chơi vĩ cầm chỉ với 2 sợi dây. </seg>

</doc> </refset> </mteval>

Đoạn mã dưới đây là trích đoạn của kho ngữ liệu Anh – Việt, sản phẩm thuộc đề tài KC01.01/06-10 "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lí tiếng nói và văn bản tiếng Việt" (https://vlsp.hpda.vn/), lĩnh vực Xã hội. Các câu tiếng Anh được đặt trong thẻ <endoc> và các cấu tiếng Việt đặt trong thẻ <vndoc>.

<sentence id="19961"> I tend to go to bed earlier during the winter.</sentence>

<sentence id="19962"> I thanked her for the present she sent me.</sentence>

</endoc>

</vndoc> </document>

Đánh giá chất lượng hệ thống dịch tự động

Đánh giá chất lượng hệ thống dịch tự động là hoạt động nhằm xác định mức độ hoàn thiện của bản dịch do máy tính đưa ra hoặc so sánh chất lượng dịch giữa các hệ thống dịch tự động khác nhau. Ở đây, chất lượng dịch được hiểu là mức độ hoàn thiện của bản dịch hay sự phù hợp của kết quả dịch khi dịch một văn bản (hoặc câu, đoạn, từ) từ ngơn ngữ nguồn sang ngơn ngữ đích.

Mục đích của q trình đánh giá chất lượng các hệ thống dịch tự động:

- Xác định mức độ hoàn thiện của hệ thống dịch;

- Đánh giá và so sánh hiệu quả của hệ thống dịch đối với từng lĩnh vực nội dung khác nhau;

- Đánh giá và so sánh chất lượng dịch giữa các hệ thống dịch tự động;

- Đánh giá và tìm hiểu những tồn tại của hệ thống dịch để có hướng khắc phục nhằm nâng cao chất lượng bản dịch;

- Khuyến cáo người dùng khi sử dụng kết quả của các hệ thống dịch.

Đánh giá chất lượng hệ thống dịch là một bài tốn có lịch sử lâu dài, gắn liền với sự phát triển của các hệ thống dịch. Hiện nay, có nhiều phương pháp và độ đo khác nhau để đánh giá chất lượng dịch tự động, có thể nhóm thành hai loại chính là đánh giá chủ quan (subjective evaluation) và đánh giá khách quan (objective evaluation).

1.2.3.1. Phương pháp đánh giá chủ quan

Đánh giá chủ quan do con người trực tiếp thực hiện, dựa trên việc đánh giá thang điểm cho các tiêu chí được xây dựng sẵn. Cách đánh giá chủ quan cho kết quả tin cậy nhưng tốn nhiều thời gian và chi phí, có phụ thuộc vào khả năng của người đánh giá.

a. Đánh giá tính trơi chảy và tính đầy đủ sử dụng thang điểm

Từ những năm 1960, khi triển khai hệ thống Appendix 10 của ALPAC [17], các nhà nghiên cứu đã đưa ra các thực nghiệm để đánh giá mức độ dễ hiểu và tính

Mơ hình hóa phương pháp dịch thống kê

Tổng hợp một số kho ngữ liệu

Định dạng chuẩn biểu diễn kho ngữ liệu