Luận văn thạc sĩ VNU UET áp dụng mô hình dịch dựa vào cụm từ không liên tục cho cặp ngôn ngữ anh việt 04

GIỚI THIỆU TỔNG QUAN

Dịch máy

Các hệ dịch máy (machine translation system-MT) là các hệ thống sử dụng máy tính để dịch từ một thứ tiếng (trong ngôn ngữ tự nhiên) sang một hoặc vài thứ tiếng khác Đầu vào của một hệ dịch máy là một văn bản viết trong ngôn ngữ nguồn Văn bản này có thể thu đƣợc từ một hệ soạn thảo hay một hệ nhận dạng chữ viết, lời nói Sau đó văn bản có thể đƣợc chỉnh sửa lại nhờ khối soạn thảo, kiểm tra chính tả, trước khi đưa vào máy dịch Phần dịch máy sẽ chuyển văn bản nguồn thành văn bản viết trên ngôn ngữ đích Và cũng qua một bộ chỉnh ra để cuối cùng thu được một văn bản tương đối hoàn chỉnh

Dịch máy có lịch sử lâu đời từ thập kỷ 50 và đƣợc phát triển mạnh mẽ từ thập kỷ 80 cho đến nay Hiện tại, trên thế giới có rất nhiều hệ dịch máy thương mại nổi tiếng trên thế giới nhƣ Systrans, Kant, … hay những hệ dịch máy mở tiêu biểu là hệ dịch của Google, hỗ trợ hàng chục cặp ngôn ngữ phổ biến nhƣ Anh-Pháp, Anh-Trung, Anh-Nhật, Hoa-Nhật,… Các cách tiếp cận dịch máy chủ yếu dựa vào luật chuyển đổi, dịch liên ngữ và dịch dựa vào dữ liệu Các hệ dịch máy này đã đạt được kết quả khá tốt với những cặp ngôn ngữ tương đồng nhau về cú pháp nhƣ các cặp ngôn ngữ AnhPháp, Anh-Tây Ban Nha, … và còn gặp nhiều

Nhật, … Và ở Việt Nam, dịch Anh-Việt, Việt-Anh cũng vấp phải những khó khăn tương tự do sự khác biệt về mặt cấu trúc ngữ pháp và tính nhập nhằng của ngữ nghĩa hệ thống dịch Anh-Việt dựa trên luật chuyển đổi được thương mại hóa đầu tiên ở Việt Nam là EVTran, MTD Lạc Việt Hiện nay, nhiều nghiên cứu với mong muốn tăng chất lƣợng dịch vẫn đang đƣợc thực hiện thích nghi với đặc điểm của các cặp ngôn ngữ khác nhau

Hiện nay, các nghiên cứu để làm tăng chất lƣợng hệ dịch vẫn đang đƣợc tiến hành phù hợp với đặc điểm của các cặp ngôn ngữ Trong đó, phương pháp dịch dựa trên thống kê là một hướng tiếp cận đang được phát triển mạnh từ những năm của thập kỷ 90, đang đƣợc xem là cách tiếp cận khả thi và hiệu quả của việc dịch tự động với nhiều bước đột phá.

Dịch máy thống kê

Dịch máy thống kê (SMT) là một phương pháp dịch máy, trong đó các bản dịch đƣợc tạo ra trên cơ sở các mô hình thống kê có các tham số đƣợc bắt nguồn từ việc phân tích các cặp câu song ngữ Các phương pháp tiếp cận thống kê tương phản với các phương pháp tiếp cận dựa trên luật trong dịch máy cũng như với dịch máy dựa trên ví dụ

Những ý tưởng đầu tiên của dịch máy thống kê đã được giới thiệu bởi Warren Weaver vào năm 1949, bao gồm cả những ý tưởng của việc áp dụng lý thuyết thông tin của Claude Shannon Dịch máy thống kê đƣợc tái giới thiệu vào năm 1991 bởi các nhà nghiên cứu làm việc tại Trung tâm nghiên cứu Thomas J Watson của IBM và đã góp phần đáng kể trong sự hồi sinh việc quan tâm đến dịch máy trong những năm gần đây Ngày nay nó là phương pháp dịch máy đƣợc nghiên cứu nhiều nhất Để thực hiện dịch máy, chúng ta nhất thiết phải kết hợp nhiều nguồn trí thức Trong khi đối với dịch thống kê, chúng ta dựa vào toán học để thực hiện kết hợp tối ƣu của các nguồn trí thức Trong dịch máy thống kê, trí thức dịch đƣợc học một cách tự động từ dữ liệu huấn luyện Với kết quả nhƣ vậy, việc phát triển một hệ dịch dựa vào thống kê sẽ rất nhanh so với hệ dịch dựa vào luật Thật vậy, việc đƣa ra khái niệm “chính xác” của mối quan hệ ngữ pháp, ngữ nghĩa, văn phong là rất khó khăn hơn rất nhiều nếu không nói là không thể Thay vào đó, trong cách tiếp cận thống kê, các giả định mô hình đƣợc kiểm định bằng thực nghiệm dựa vào dữ liệu huấn luyện Một ƣu điểm khác của dịch máy thống kê đó là phương pháp này khá phù hợp với ứng dụng nhúng mà ở đây dịch máy là một phần của ứng dụng lớn hơn

Dịch máy dựa trên phương pháp thống kê sẽ tìm câu ngôn ngữ đích e phù hợp nhất (có xác suất cao nhất) khi cho trước câu ngôn ngữ nguồn f

Một hệ dịch máy dựa trên phương pháp thống kê có thể được mô hình hoá nhƣ hình sau:

Hình 0.1: Mô hình hóa hệ dịch máy

Dịch máy thống kê lần đầu tiên được đề cập trong bài báo với phương pháp sử dụng là mô hình Kênh nhiễu (Noisy Channel Model)

Mô hình kênh nhiễu đƣợc Brown áp dụng trong bài toán dịch máy nhƣ sau:

Cho câu tiếng Pháp f1J = f1 … f j … f J cần dịch sang câu tiếng Anh e1I e1 …ei …eI Brown dựng lên mô hình kênh nhiễu với e là đầu vào bộ mã hoá (Encoder), qua kênh nhiễu đƣợc chuyển hoá thành f và sau đó, gửi f đến bộ giải mã (Decoder) Nhƣ vậy, trong các câu tiếng Anh, ta chọn câu sao cho xác suất hậu nghiệm Pr (e1I | f1J ) là lớn nhất, theo luật quyết định Bayes : eˆ 1 I = arg max { Pr ( e 1 I | f 1 J ) } = arg max { Pr ( e 1 ) Pr ( f 1 | e 1 ) }

Như vậy, ta có thể xây dựng mô hình chung của hệ dịch máy bằng phương pháp thống kê thông thường sẽ bao gồm 3 thành phần:

- Mô hình ngôn ngữ: Tính toán đƣợc xác suất của câu ngôn ngữ nguồn

- Mô hình dịch: Cho biết xác suất của câu ngôn ngữ nguồn là bản dịch từ câu ngôn ngữ đích

- Bộ giải mã: Tìm kiếm tất cả các câu ngôn ngữ đích e có thể có từ câu ngôn ngữ nguồn f

Mô hình dịch từ tiếng Anh sang tiếng Việt có thể hình dung thông qua biểu đồ dưới đây:

Hình 0.2: Mô hình dịch máy thống kê từ tiếng Anh sang tiếng Việt

Mô hình dịch của mô hình ngôn ngữ sẽ được trình bày ở chương sau của luận văn Ở phần này, luận văn chỉ đề cập đến hai thành phần còn lại của mô hình dịch máy thống kê b) Mô hình ngôn ngữ

Mô hình ngôn ngữ là một phân bố xác suất trên các tập văn bản Nói đơn giản, mô hình ngôn ngữ có thể cho biết xác suất một câu (hoặc cụm từ) thuộc một ngôn ngữ là bao nhiêu

Ví dụ: khi áp dụng mô hình ngôn ngữ cho tiếng Việt:

- P[“hôm qua là thứ năm”] = 0.001

- P[“năm thứ hôm là qua”] = 0

Mô hình ngôn ngữ đƣợc áp dụng trong rất nhiều lĩnh vực của xử lý ngôn ngữ tự nhiên nhƣ: kiểm lỗi chính tả, dịch máy hay phân đoạn từ Chính vì vậy, nghiên cứu mô hình ngôn ngữ chính là tiền đề để nghiên cứu các lĩnh vực tiếp theo

Nhiệm vụ của mô hình ngôn ngữ là cho biết xác suất của một câu w1w2 wm là bao nhiêu Theo công thức Bayes: P(AB) = P(B|A) * P(A), thì:

Theo công thức này, mô hình ngôn ngữ cần phải có một lƣợng bộ nhớ vô cùng lớn để có thể lưu hết xác suất của tất cả các chuỗi độ dài nhỏ hơn m Rõ ràng, điều này là không thể khi m là độ dài của các văn bản ngôn ngữ tự nhiên (m có thể tiến tới vô cùng) Để có thể tính đƣợc xác suất của văn bản với lƣợng bộ nhớ chấp nhận đƣợc, ta sử dụng xấp xỉ Markov bậc n:

P(wm|w1,w2,…, wm-1) = P(wm|wm-n,wn-m+1, …,wm-1)

Nếu áp dụng xấp xỉ Markov, xác suất xuất hiện của một từ (wm) đƣợc coi như chỉ phụ thuộc vào n từ đứng liền trước nó (wm-nwm-n+1…wm-1) chứ không phải phụ thuộc vào toàn bộ dãy từ đứng trước (w1w2…wm-1) Như vậy, công thức tính xác suất văn bản đƣợc tính lại theo công thức:

1wm-n …wm-2)* P(wm|wm-nwm-n+1…wm-1)

Với công thức này, ta có thể xây dựng mô hình ngôn ngữ dựa trên việc thống kê các cụm có ít hơn n+1 từ Mô hình ngôn ngữ này gọi là mô hình ngôn ngữ N-gram Một cụm N-gram là 1 dãy con gồm n phần tử liên tiếp nhau của 1 dãy các phần tử cho trước c) Bộ giải mã

Nhiệm vụ của bộ giải mã chính là tìm câu ngôn ngữ đích tốt nhất khi biết trước câu ngôn ngữ nguồn Tức là với câu ngôn ngữ nguồn f, câu ngôn ngữ đích e tốt nhất chính là câu làm cho giá trị P(f|e)*P(e) là lớn nhất Bộ giải mã đƣợc phát triển đầu tiên cho mô hình dịch cụm từ đƣợc giới thiệu bởi Marcu và Wong, sử dụng các phương pháp leo đồi Do không gian tìm kiếm là rất lớn, nên bộ giải mã trong mô hình dịch máy thống kê thường áp dụng các thuật toán tìm kiếm tối ưu

Thuật toán mà bộ giải mã thường áp dụng có tên là A*, là một trong các phương pháp tìm kiếm tốt nhất Giải thuật A* có thể tóm tắt như sau: tại mỗi bước mở rộng không gian tìm kiếm, ta sử dụng các hàm ước lượng, đánh giá trọng số để kết quả tìm đƣợc luôn là tốt nhất có thể và là kết quả tìm thấy đầu tiên Ngữ liệu sau khi qua 2 mô hình ngôn ngữ và mô hình dịch ta đƣợc bảng xác suất cho từng thông số tương ứng Vấn đề tìm ra tích số P(e)P(v|e) lớn nhất

Có hai thuật giải và một thuật toán tối ƣu cho mô hình tìm kiếm: thuật giải tìm kiếm tham lam, thuật giải tìm kiếm dựa trên ngăn xếp, và thuật toán tìm kiếm theo chu trình Hamilton tối ƣu Hai thuật giải có thời gian nhanh xử lý nhanh hơn thuật toán nhƣng kết quả thấp hơn thuật toán

Bộ giải mã thực hiện một cái tìm kiếm theo chùm (beam search) tương tự công việc của Tillmann và Och Bắt đầu bằng việc định nghĩa các khái niệm cơ bản của các lựa chọn dịch mô tả cơ chế hoạt động của beam search và các thành phần cần thiết của nó và các ước lượng giá trị tương lai và các khái niệm về sinh danh sách n-best d) Chu kỳ phát triển của hệ thống dịch thống kê

Chu kì để xây dựng hệ thống dịch máy thống kê nhƣ sau:

- Thu thập ngữ liệu, rút trích và xử lý tài nguyên Ở đây, chúng ta cần thu thập các văn bản đơn ngữ nhằm mục đích xây dựng mô hình ngôn ngữ và các văn bản song ngữ phục vụ trong việc thực hiện huấn luyện

- Tiền xử lý dữ liệu

Hiện tƣợng ngôn ngữ tự nhiên khác nhau là rất khó xử lý ngay cả trong cách tiếp cận thống kê tiên tiến Do đó để cho việc sử dụng cách tiếp cận thống kê được tốt thì trong bước tiền xử lý, chúng ta làm tốt một số việc như: loại bỏ các kí hiệu không phải là văn bản, đƣa các từ về dạng gốc của nó,

MÔ HÌNH DỊCH MÁY DỰA TRÊN CỤM TỪ KHÔNG LIÊN TỤC

Mô hình dịch máy

Mô hình dịch có 3 hướng tiếp cận chính:

- Mô hình dịch dựa trên từ (word-based)

- Mô hình dịch dựa trên cụm từ (phrase-based)

- Mô hình dịch dựa trên cú pháp (syntax-based)

Cả 3 hướng tiếp cận trên đều dựa trên một tư tưởng Đó là sự tương ứng giữa hai câu (alignment) a) Dịch máy thống kê dựa vào từ

Mô hình dịch dựa trên từ là thế hệ đầu tiên của mô hình dịch máy thống kê và được nghiên cứu và phát triển bởi IBM Như đã trình bày ở phần trước, mô hình dịch này dựa trên sự tương ứng của các từ theo tương ứng một một (một từ của ngôn ngữ này chỉ tương ứng với một từ của ngôn ngữ kia và ngược lại) Cụ thể hơn, giả sử câu ngôn ngữ nguồn là e1e2 en và câu ngôn ngữ đích là f1f2 fm, khi đó mỗi từ f j chỉ tương ứng với 1 và chỉ 1 từ trong câu ngôn ngữ nguồn hoặc là không tương ứng với từ nào Do đó, một sự tương ứng giữa các từ của câu ngôn ngữ nguồn và câu ngôn ngữ đích có thể biểu diễn bằng một dãy m số: {a 1 , a 2 , am} trong đó aj là chỉ số của từ trong ngôn ngữ nguồn tương ứng với từ fj của ngôn ngữ đích(a j nhận các giá trị từ 1 đến l) Nhƣ vậy, theo mô hình IBM thứ nhất, chúng ta có thể tính xác suất P(f|e) theo công thức sau:

Tuy nhiên trên thực tế, mô hình IBM thứ nhất này có chất lƣợng dịch không cao Ở các mô hình IBM tiếp theo, người ta cải tiến các công thức và đưa ra những tương ứng, cũng như tính lại xác suất P(f|e) một cách tốt hơn Tuy nhiên, do tiếp cận theo hướng tương ứng một một giữa các từ, nên mô hình dịch dựa trên từ nói chung và các mô hình dịch IBM nói riêng đã không còn phổ biến

Hiện nay, các mô hình dịch theo hướng cụm từ được sử dụng rộng rãi và dần trở nên phổ biến hơn b) Dịch máy thống kê dựa trên cụm từ

Hình 0.1: Minh họa dịch máy thống kê dựa vào cụm từ

Trong dịch dựa trên cụm, một chuỗi các từ liên tiếp (cụm) đƣợc dịch sang ngôn ngữ đích, với độ dài cụm ngôn ngữ nguồn và đích có thể khác nhau Hình 2.1 minh họa phương pháp dịch cụm: câu vào được chia thành một số cụm; từng cụm một đƣợc dịch sang ngôn ngữ đích; và sau đó các cụm đƣợc đảo trật tự theo một cách nào đó rồi ghép với nhau Cuối cùng ta thu đƣợc câu dịch trong ngôn ngữ đích

Giả sử ta gọi ngôn ngữ nguồn là f và ngôn ngữ đích là e, chúng ta sẽ cố gắng tối đa hóa xác suất Pr( f e| ) với mong muốn có đƣợc bản dịch tốt nhất Thực tế là tồn tại rất nhiều bản dịch đúng cho cùng một câu, mục đích của ta là tìm ra câu ngôn ngữ e phù hợp nhất khi cho trước câu ngôn ngữ nguồn f Dịch dựa vào cụm sử dụng mô hình kênh nhiễu, áp dụng công thức Bayes ta có:

Do P(f) là không đổi đối với e, vấn đề trở thành việc tìm câu e nhằm tối đa hóa P(f\e)P(e) Việc xây dựng mô hình ngôn ngữ cần sử dụng một ngữ liệu đơn ngữ lớn, trong khi đó mô hình dịch lại cần đến ngữ liệu song ngữ tốt Bộ giải mã đƣợc sử dụng để chia câu nguồn thành các cụm và sinh ra các khả năng dịch có

That songwriter wrote many romanti songs

Nhạc sĩ đó đã viết nhiều bài hát lãng mạn Để sinh ra đƣợc câu dịch, câu nguồn đƣợc chia thành I cụm liên tiếp f 1

I Chúng ta giả sử rằng phân phối xác suất là nhƣ nhau đối với các cụm này Mỗi cụm f i trong f 1

I được dịch thành cụm tương ứng trong ngôn ngữ đích e i Các cụm trong ngôn ngữ đích có thể đảo ví trí cho nhau Quá trình dịch cụm đƣợc mô hình hóa bởi phân phối xác suất ( f i | e i )

Việc đảo ví trí (reodering) của các cụm đầu ra đƣợc mô hình bởi phân phối xác suất d(a i b i 1 ), trong đó a i đại diện cho vị trí bắt đầu của cụm trong câu nguồn đƣợc dịch thành cụm thứ i trong câu đích, và b i-1 là ký hiệu chỉ vị trí kết thúc của cụm trong câu nguồn đƣợc dịch thành cụm (i-1) trong câu đích Ở đây chúng ta sử dụng mô hình đảo cụm rất đơn giản nhƣ sau: với giá trị thích hợp cho tham số α Để xác định độ dài thích hợp của câu dịch, chúng ta đƣa thêm vào thừa số ω khi sinh ra câu trong ngôn ngữ đích Thừa số này sẽ đƣợc tối ƣu qua quá trình tìm kiếm câu dịch tối ƣu Thừa số này càng lớn hơn 1 thì độ dài của câu trong ngôn ngữ đích càng dài

Nói tóm lại, câu dịch tốt nhất e best đƣợc sinh ra từ câu nguồn theo là: Ở đây P(f|e) đƣợc phân tích thành: c) Dịch máy thống kê dựa trên cú pháp

Cả 2 mô hình dịch dựa trên từ và cụm từ đều chỉ quan tâm đến sự tương ứng và ngữ nghĩa của từng từ trong câu ngôn ngữ nguồn và đích mà không quan tâm tới ngữ pháp, hình thái của cả hai câu Mô hình dịch dựa trên cú pháp không chỉ quan tâm tới ngữ nghĩa của từng từ mà còn chú trọng tới cú pháp của câu

Với mô hình dịch này, một câu ngôn ngữ nguồn e sẽ đƣợc phân tích thành cây cú pháp Cây cú pháp này sẽ đƣợc sắp xếp lại để phù hợp với cú pháp của câu ngôn ngữ đích Sau đó, một số từ mới có thể đƣợc chèn vào cây hiện tại cho phù hợp hơn với cú pháp của ngôn ngữ đích Cuối cùng, các từ trong cây cú pháp của câu ngôn ngữ nguồn sẽ đƣợc dịch sang ngôn ngữ đích và ta thu đƣợc câu ngôn ngữ đích từ cây cú pháp trên.

Cụm từ không liên tục

Mô hình dịch máy dựa trên cụm từ thay vì sử dụng các đơn vị nguyên tử trong bảng dịch từ từ (word) trở thành cụm từ (phrase), điều đó có nghĩa mô hình dịch máy này đã khắc phục đƣợc những nhƣợc điểm Bởi đối với các từ có nhiều hơn 1 bản dịch, các hệ thống dịch máy thống kê (SMT) có thể dựa vào ngữ cảnh để có thể lựa chọn đƣa ra bản bản dịch phù hợp nhất Sau đó, các cụm kết quả đƣợc dịch có thể tiếp tục đƣợc sắp xếp lại trong câu

Các cụm từ dài hơn cho kết quả dịch đầu ra tốt hơn Trong các câu, xuất hiện nhiều các cụm từ có liên quan đến nhau, riêng rẽ chúng thì lại khá ngắn Các hệ dịch thông thường sẽ chia tách chúng và tìm các bản dịch riêng rẽ thay vì cùng nhau.

Mô hình dịch máy dựa trên cụm từ không liên tục

Một giải pháp đƣợc đƣa ra nhằm giải quyết cho vấn đề trên đó là thay vì chỉ sử dụng các cụm từ liên tục, thay vào đó là các cụm từ không liên tục, đơn vị dịch lúc này vẫn sẽ là các cụm từ nhƣng chúng không liên tục nhau trong câu Lúc này, các cặp cụm câu có thể đƣợc linh hoạt hơn, nó có thể khai thác ngữ cảnh trong câu đa dạng hơn, từ đó có thể cải thiện đƣợc chất lƣợng bản dịch Bộ giải mã của chúng tôi cung cấp hai phần mở rộng so với Moses:

- Xử lý với những khoảng trống ở các cụm từ không liên tục trong dữ liệu dịch đƣa vào

- Để cho phép các cụm từ không liên tục trong bản dịch thì không chỉ ghi lại các bản dịch đơn lẻ mà cần phải ghi lại ở dạng một tập hợp các cụm nhỏ và có thể sẽ đƣợc nối lại vào các bản dịch cuối ở giai đoạn sau của việc giải mã a) Chích xuất các cụm từ không liên tục

Trong phần này sẽ giới thiệu cách để lấy ra các cụm từ không liên tục trên các hệ thống dịch máy dựa trên cụm từ Thông thường, các cụm từ sẽ được mô tả nhƣ sau:

- Câu mục tiêu e với M từ: e = (e 1, , e M)

Khác với thông thường, các cụm từ ở đây không liên tục, ta có thể hình dung với mỗi cụm từ không liên tục nhƣ một tập hợp các cụm từ liên tục Giả sử rằng các cặp câu (f, e) đƣợc phân tích thành K cụm từ không liên tục, chúng tôi sử dụng s = (s , s và t = (t , t để lần lƣợt đại diện cho việc phân tách các cụm từ của câu nguồn và câu mục tiêu vào K tập con từ đó đƣợc bổ sung và không bị trùng lặp

Với các cụm từ liên tục, tìm tất cả các cụm từ có liên kết tới cụm từ đó, thời gian tìm kiếm sẽ đƣợc thực hiện trong thời gian O (nm 3 ) Trong đó:

- n là độ dài của câu

- m là độ dài cụm từ tối đa

Tập hợp các cụm từ liên kết đƣợc tìm thấy là lũy thừa của độ dài khoảng tối đa Do đó cụm từ khai thác phải phù hợp khi mà giá trị m tương đối lớn Để đáp ứng đƣợc bài toán này, có thể sử dụng kỹ thuật chính xuất cụm từ phân cấp (Chiang, 2007) Tuy nhiên với giải pháp này có độ phức tạp tính toán cao Bởi vậy, Lopez (2007) đã trình bày một giải pháp hiệu quả hơn sử dụng mảng hậu tố cho việc tìm kiếm tất cả các cụm từ liên quan Khi đó bộ giải mã theo phương pháp này không cần đưa vào được các ràng buộc phân cấp, phương pháp này sẽ khai thác tất cả các cặp cụm từ không liên tục phù hợp với sự liên kết từ b) Giải mã

Tương tự như Moses được mô tả trong bài báo của Koehn và cộng sự [15], thành phần bên trong của bộ giải mã của hệ thống dựa trên cụm từ không liên tục sẽ sẽ bao gồm nhiều ngăn xếp, những ngăn xếp này sẽ sẵn sàng để xử lý chuyển đổi dữ liệu trong tập nguồn sang tập đích Trong Moses, giả thuyết dịch từng phần và được vun thành các đống (cây phân cấp) Tại mỗi bước dịch, những ngăn xếp sẽ đƣợc chia ra xử lý các phần và đồng thời có thể ƣớc lƣợng đƣợc các phần việc còn lại ước tính trong tương lai

Sự khác biệt chính giữa Moses và hệ thống dịch dựa trên cụm từ không liên tục đó là để xử lý đối với các cụm từ mà chứa những khoảng trống (các cụm từ không liên tục) đó là chúng đƣợc đƣa thêm vào một giả thuyết dịch từng phần trong nhiều bước Cụ thể, mỗi giả thuyết dịch trong bộ giải mã của chúng tôi không chỉ đƣợc biểu diễn nhƣ là một tiền tố dịch và độ bao phủ đƣợc thiết lập nhƣ trong Moses, mà nó còn chứa một tập hợp các cụm từ rời rạc và sẽ đƣợc đƣa vào dịch vào một thời điểm khác Ví dụ, con số này cho thấy cách cụm từ đôi (nếu thì) đã đƣợc thêm vào một bản dịch một phần Bằng việc ngay lập tức nối để tạo thành các giả thuyết (đã được thỏa thuận), và cụm từ khi đó có thể đƣợc phân tách (thực hiện) được lưu trữ để sử dụng như thuật toán sau:

Hình 0.2: Dịch máy dựa trên cụm từ không liên tục c) Đặc trưng

Phương pháp này chứa các đặc trưng cơ bản của Moses

- Tự động xây dựng mô hình dịch dựa trên cặp ngôn ngữ huấn luyện

- Dựa trên cụm từ sử dụng phương pháp thống kê

- Có khả năng sắp xếp lại

Cách xử lý với các cụm từ là khác đối với Moses bởi chúng tôi cần phải xử lý với các cụm từ không liên tục Đối với các khoảng trống tương đối dài trong các cụm từ không liên tục là tương đối phức tạp Do đó, trong tính toán của chúng tôi cần có những chuyển biến đó là chúng tôi xử lý các cụm từ con liên tục của mỗi cụm từ không liên tục nhƣ thể chúng là các cụm từ liên tục của chính mình Cụ thể, chúng ta hãy S = (s1, , SL) là danh sách của L (tối đa) subphrases liên tục của các cụm từ nguồn K (L ≥ K) đƣợc lựa chọn cho một giả thuyết đƣợc đƣa ra dịch Các cụm từ liên tục con trong S đƣợc liệt kê theo thứ tự của chúng trong ngôn ngữ đích, mà có thể khác nhau từ ngôn ngữ nguồn Sau đó chúng tôi tính toán sự biến dạng tuyến tính giữa cặp phần tử liên tiếp (Si, Si + 1) nhƣ sau:

Như vậy với phương pháp này có thêm hai tính năng mà không có mặt trong Moses Đầu tiên, chúng tôi xử lý các cụm từ không liên tục bằng cách tính tổng độ dài các khoảng trống mục tiêu Tính năng thứ hai là số lƣợng các cụm từ không liên tục đƣợc thể hiện trong cấu hình, điều này không đƣợc xử lý bởi hệ thống phân cấp

Các lợi thế của các tính năng này đó là:

- Đầu tiên, tương tự như hệ thống phân cấp, nó giúp cho ngăn chặn việc quá nhiều lần tái sắp xếp không chính xác mà không có khả năng tương ứng với các bản dịch chất lƣợng

- Thứ hai là các bộ giải mã là hoàn toàn rảnh để hạn chế các lỗi không chính xác khi những lỗi này đƣợc gây ra bởi các tính năng khác

Trong chương này, chúng tôi đã giới thiệu về mô hình dịch máy, phân loại các mô hình dịch máy hiện nay Cùng với đó, chúng tôi đã trình bày cách tiếp cận, đi sâu vào mô hình dịch máy dựa trên cụm từ không liên tục.

ÁP DỤNG MÔ HÌNH DỊCH MÁY DỰA TRÊN CỤM TỪ KHÔNG LIÊN TỤC CHO CẶP NGÔN NGỮ ANH-VIỆT

Tổng quan

Chúng tôi đã tiến hành 12 thử nghiệm khác nhau cho cặp ngôn ngữ Anh Việt nhằm có thể đƣa ra những so sánh chính xác nhất Với mỗi chiều dịch, chúng tôi đã tiến hành 6 thử nghiệm trong đó 3 thử nghiệm tôi tiến hành sử dụng công cụ Phrasal và 3 thử nghiệm tôi tiến hành với công cụ Moses để so sánh

Với mỗi 3 thử nghiệm nói trên, chúng tôi lần lƣợt thay đổi tập dữ liệu sử dụng để xây dựng mô hình ngôn ngữ nhƣ sau:

- Thử nghiệm 1: Sử dụng tập dữ liệu đơn ngữ từ tập huấn luyện

- Thử nghiệm 2: Bổ sung thêm dữ liệu song ngữ (lấy ngôn ngữ giống ngôn ngữ của tập dữ liệu đơn ngữ) và hợp vào cùng nhau

- Thử nghiệm 3: Tiếp tục mở rộng tập dữ liệu với 1GB dữ liệu đã thu thập nêu ở trên.

Chuẩn bị dữ liệu

Dữ liệu tiến hành thực nghiệm lấy từ IWSLT 2015 (The International Workshop on Spoken Language Translation) Đó là các tập dữ liệu sử dụng để huấn luyện, thử và phát triển Khi lấy về, các tập dữ liệu đƣợc lấy từ IWSLT 2015 có định dạng xml do đó chúng tôi cần phải chuyển về định dạng dữ liệu song ngữ (parallel data) hay dữ liệu đơn ngữ (monolingual data)

Ngoài ra, để mở rộng mô hình ngôn ngữ, chúng tôi đã tiến hành thu thập thêm dữ liệu đơn ngữ Trong đó, dữ liệu đơn ngữ tiếng Việt đƣợc thu thập từ các báo điện tử lớn tại Việt Nam: vnexpress.net, dantri.com, 24h.com.vn, eva.vn Chúng tôi đã xây dựng ứng dụng Crawl dữ liệu trên web viết bằng ngôn ngữ Java, trong ứng dụng chúng tôi sử dụng thƣ viện Jsoup Jsoup là một thƣ viện Java để làm việc với HTML trên Internet Nó cung cấp các API rất thuận tiện cho việc trích xuất và thao tác dữ liệu Trong thƣ viện này có sử, dụng các kỹ thuật công nghệ nhƣ DOM, CSS, jquery Thông tin cấu hình ứng dụng Crawl dữ liệu đƣợc đặt tại phụ lục 2

Jsoup thực hiện các đặc điểm của kỹ thuật WHATWG (Web Hypertext Application Technology Working Group) HTML5, và phân tích cú pháp HTML DOM tương tự như các trình duyệt thông thường Các tính năng của Jsoup đó là:

- Phân tích cú pháp HTML từ một URL, file, hoặc chuỗi

- Tìm và trích xuất dữ liệu, sử dụng theo cây DOM hoặc CSS Selectors

- Thao tác các phần tử HTML, thuộc tính, và văn bản

- Đầu ra HTML đẹp Jsoup đƣợc thiết kế để dễ dàng xử lý với tất cả dữ liệu dạng HTML Jsoup có khả năng xử lý tự động các lỗi trên thẻ và tạo ra cây phân tích phù hợp

- Bước 1: Đọc dữ liệu cấu hình Các URL đã đọc

- Bước 2: Lần lượt lấy dữ liệu từ các URL thu thập được Đồng thời thu thập URL mới

- Bước 3: Tiền xử lý dữ liệu đọc được (cắt câu, kiểm tra trùng lặp…)

- Bước 4: Ghi ra file và tiếp tục lặp lại từ bước 2 Ứng dụng đã thu thập đủ 1GB dữ liệu đơn ngữ tiếng Việt Còn với dữ liệu đơn ngữ tiếng Anh, chúng tôi cũng lấy ra 1GB dữ liệu trên WMT2015 Từ những dữ liệu này, chúng tôi có thể tiến hành thực hiện xây dựng mô hình ngôn ngữ dành cho cả 2 ngôn ngữ tiếng Anh và tiếng Việt

Tập dữ liệu huấn luyện thu được như hình bên dưới

Huấn luyện Câu 122.132 Độ dài trung bình 15.93 15.58

Phát triển Câu 745 Độ dài trung bình 16.61 15.97

Kiểm thử Câu 1046 Độ dài trung bình 16.25 16.13

Bảng 0-1: Tóm tắt bộ dữ liệu huấn luyện

Sau đó, chúng tôi cần phải xử lý tách từ Đối với các tập dữ liệu tiếng Anh, chúng tôi sử dụng file thƣ viện tokenizer.perl của http://www.statmt.org/ Đối với dữ liệu tiếng Việt, chúng tôi xử lý tách từ bằng công cụ VnTokenizer của TS Lê

Chúng tôi tiếp tục có một vài thao tác tiền xử lý khác đó là:

- Tách câu, đảm bảo mỗi câu nằm trên 1 dòng

- Lọc bỏ các ký tự bẩn trong câu

- Lọc bỏ các câu có độ dài lớn hơn 300

Chất lƣợng của bản dịch trong dịch thống kê dựa trên cụm từ phụ thuộc nhiều vào chất lƣợng của bảng dịch cụm từ (phrase table) Để xây dựng bảng dịch cụm từ đầu tiên, chúng ta tạo ra gióng hàng từ giữa mỗi cặp câu trong ngữ liệu song ngữ, sau đó trích xuất các cặp cụm từ phù hợp với gióng hàng từ Các cặp cụm từ này được lưu giữ lại trong bảng cụm từ cùng với xác suất Trong thực nghiệm này, chúng tôi sử dụng công cụ gióng hàng Berkeley Aligner Đây là một ứng dụng Java sử dụng để gióng hàng cho 1 cặp câu song ngữ không có giám sát cho dịch máy thống kê (nhƣ GIZA ++) Ứng dụng đƣợc phát triển dựa theo ý tưởng của bài báo của Percy Liang, Ben Taskar, Dan Klein [4] và bài báo của John DeNero, Dan Klein [5].

Công cụ cho việc thử nghiệm, đánh giá

- Các thử nghiệm đều đƣợc thực hiện trên hệ điều hành CentOS 6.4 64bit với cấu hình RAM 12GB với 4 CPU, Ổ cứng trống 20GB

Xây dựng mô hình ngôn ngữ:

Chúng tôi đã xây dựng mô hình ngôn ngữ với 4-gram sử dụng công cụ

KenLM Ƣớc tính KenLM là công cụ có thể ƣớc lƣợng, lọc cũng nhƣ truy vấn mô hình ngôn ngữ KenLM có khả năng ƣớc lƣợng nhanh chóng và khả năng mở

Kenneth Heafield, Ivan Pouzyrevsky, Jonathan H Clark, và Philipp Koehn ACL, Sofia, Bulgaria, 2013

Một ƣu điểm nữa của KenLM đó là khả năng truy vấn nhanh với bộ nhớ thấp, nhƣ thể hiện trong bài báo của Kenneth Heafield [7]

Một vài tính năng, ƣu điểm của KenLM:

- Nhanh hơn và bộ nhớ thấp hơn SRILM và IRSTLM

- Định dạng nhị phân với mmap Hoặc tải các tập tin trực tiếp ARPA

- Nếu bạn có các thƣ viện thích hợp cài đặt, nó cũng có thể đọc văn bản và các tập tin nén với gzip, ARPA, bzip2, hoặc xz

- Truy vấn có phụ thuộc: một trình biên dịch C ++ và hệ thống gọi POSIX Lọc và dự toán là đa luồng, vì vậy họ phụ thuộc vào Boost

- Xử lý lỗi kỹ lƣỡng Ví dụ, lỗi phân tích cú pháp ARPA bao gồm một tin nhắn, các chuỗi có vấn đề, các byte offset, và tên file So sánh với IRSTLM

- Hiển thị tiến trình xử lý

- Truy vấn hỗ trợ n-gram chứa thẻ ; những xuất hiện trong các mô hình đƣợc xây dựng với vốn từ vựng hạn chế

- Giấy phép cho phép có nghĩa là bạn có thể phân phối nó không giống nhƣ SRILM Không phải khai báo gì cả để có thể tải về

Lời gọi nhƣ sau: lmplz -o 4 < train.en-vi.vi.tok train.en-vi.vi.tok > 4gm.arpa

Nhƣ lời gọi có thể thấy mô hình ngôn ngữ đƣợc chạy với 4 gram

Xây dựng mô hình dịch với công cụ Moses

Moses là một hệ thống dịch máy thống kê cho phép bạn tự động huấn luyện mô hình dịch cho bất kỳ cặp ngôn ngữ Mô tả về hệ thống dịch này đƣợc mô tả trong bài báo của Koehn, P., et al [15]

Xây dựng mô hình dịch với công cụ Phrasal

Phrasal là một hệ thống dịch mã nguồn mở bằng Java dành cho dịch máy dựa trên cụm từ Đặc biệt Phrasal có khả năng xử lý đối với các cụm từ không liên tục Mô tả về Phrasal đƣợc mô tả cụ thể trong bài báo của Cer, D., Galley, M., Jurafsky, D., and Manning, C D [8][9] Cấu hình công cụ Phrasal nằm tại phụ lục 3

Trong quá trình chạy thử nghiệm, chúng tôi sử dụng tập dữ liệu phát triển nhƣ cách để điều chỉnh các sai số trong quá trình dịch Chúng tôi dự vào kết quả ở điểm BLEU để đánh giá mức độ hiệu quả của các thử nghiệm Đối với chiều dịch Anh-Việt có đƣợc kết quả nhƣ sau:

Hệ thống dịch Mô tả BLEU

Sử dụng dữ liệu đơn ngữ trong tập dữ liệu huấn luyện để xây dựng mô hình ngôn ngữ 31.13

Mở rộng mô hình ngôn ngữ bằng việc kết hợp dữ liệu đơn ngữ và dữ liệu song ngữ trong tập dữ liệu huấn luyện 31.41

Tiếp tục mở rộng dữ liệu huấn luyện với 1GB dữ liệu đơn ngữ thu thập 31.56

Sử dụng dữ liệu đơn ngữ trong tập dữ liệu huấn luyện để xây dựng mô

Bảng 0-2: Các thử nghiệm theo chiều dịch Anh-Việt

Có thể thấy với thử nghiệm đầu tiên, với mô hình ngôn ngữ còn hạn chế thì công cụ Moses cho kết quả tốt hơn nhƣng sau khi thay đổi tập dữ liệu đơn ngữ nhằm cải thiệt mô hình ngôn ngữ trong thử nghiệm thứ 2 và thứ 3, lúc này kết quả dành cho công cụ Phrasal đem lại là tốt hơn

Nhƣ vậy, có thể thấy đối với chiều dịch Anh-Việt, công cụ Phrasal có thể làm tốt hơn đáng kể so với công cụ Moses khi mô hình ngôn ngữ đƣợc mở rộng Đối với chiều dịch Việt-Anh có đƣợc kết quả nhƣ sau:

Hệ thống dịch Mô tả BLEU

Sử dụng dữ liệu đơn ngữ trong tập dữ liệu huấn luyện để xây dựng mô hình ngôn ngữ 23.53

Sử dụng dữ liệu đơn ngữ trong tập dữ liệu huấn luyện để xây dựng mô hình ngôn ngữ

Bảng 0-3: Các thử nghiệm theo chiều dịch Việt-Anh

Các thử nghiệm theo chiều dịch Việt-Anh sử dụng công cụ Phrasal đều cho thấy kết quả tốt hơn so với sử dụng công cụ Moses

Một vài bản dịch đem lại kết quả tốt với Phrasal

STT Bản gốc Bản dịch

1 So what you 're seeing here is a statement of correspondence that intelligence is a force , F , that acts so as to maximize future freedom of action vì_vậy những gì bạn đang thấy đây là một lời tuyên_bố của tương_quan rằng trí thông_minh là một sức_mạnh , f , hành_động để tối_đa tương_lai tự_do hành_động

2 To find out , we developed a software engine called Entropica , designed to maximize the production of long-term entropy of any system that it finds itself in để tìm ra , chúng_tôi đã phát_triển một phần_mềm động_cơ gọi_là entropica , thiết_kế để tối_đa sản_xuất entropy lâu_dài của bất_cứ hệ_thống nào nó tìm thấy nó

3 Just like a human standing upright without falling over , giống như một con_người đứng thẳng không hề , ở đây automatically balancing a pole using a cart thăng_bằng entropica tự_động sử_dụng một xe golf

4 This behavior is remarkable in part because we never gave Entropica a goal hành_vi này là một điều đáng chú_ý ở phần bởi_vì chúng_ta không_bao_giờ đƣa entropica một mục_tiêu

5 It simply decided on its own to balance the pole nó đơn_giản tự quyết_định để cân_bằng các cực

6 This tool use ability will have applications for smart manufacturing and agriculture công_cụ này sử_dụng khả_năng sẽ có ứng_dụng cho sản_xuất và thông_minh

7 This cooperative ability has interesting implications for economic planning and a variety of other fields khả_năng hợp_tác này có ý_nghĩa thú_vị cho kế_hoạch kinh_tế và rất nhiều các lĩnh_vực khác

8 For example , here we see it successfully playing a game of pong against itself , illustrating its potential for gaming ví_dụ , ở đây chúng_ta thấy nó thành_công chơi trò pong chống tiềm_năng của bản_thân , minh_hoạ cho chơi game

9 Here we see Entropica orchestrating new connections on a social network where đây chúng_ta thấy entropica orchestrating liên_kết mới trên một mạng xã_hội nơi out of touch and successfully keeping the network well connected chạm và thành_công giữ mạng_lưới vâng kết_nối

10 This same network orchestration ability also has applications in health care , energy , and intelligence khả_năng orchestration mạng_lưới tương_tự cũng có_thể đƣợc ứng_dụng trong chăm_sóc sức_khoẻ , năng_lƣợng , và trí thông_minh

Tiêu đề	Áp Dụng Mô Hình Dịch Dựa Vào Cụm Từ Không Liên Tục Cho Cặp Ngôn Ngữ Anh Việt
Tác giả	Lưu Tiến Trung
Người hướng dẫn	TS. Nguyễn Văn Vinh
Trường học	Đại học Quốc gia Hà Nội
Chuyên ngành	Công nghệ thông tin
Thể loại	luận văn thạc sĩ
Năm xuất bản	2015
Thành phố	Hà Nội

Định dạng
Số trang	57
Dung lượng	867,1 KB