Các thực nghiệ m - ỜI MỞ ĐẦ U - Dịch máy Anh

L ỜI MỞ ĐẦ U

5.2 Các thực nghiệ m

Chúng ta xét 4 thực nghiệm đối với hệ dịch Anh-Việt. Trong đó có hệ dịch cơ sở

là mô hình phrase-based đơn giản. Ba thực nghiệm sau sẽ đưa ra các cấu hình khác nhau sử dụng thêm các yếu tố ngôn ngữ tương ứng với từđểđánh giá hiệu quả của các thông tin ngôn ngữ khi được tích hợp vào trong mô hình dịch thống kê.

Trong các thực nghiệm này, các factor sử dụng trong mô hình được ký hiệu là f1, f2, f3, f4 lần lượt tương ứng với word, POS, lemma và morphology. Trong đó, từ

5.2.1 Cấu hình cơ sở Tf1

Cấu hình cơ sở là mô hình phrase-based đơn giản, trong đó các từ trong một câu không chứa các thông tin về ngôn ngữđi kèm với từđó. Các thực nghiệm ở đây

đều áp dụng với dữ liệu hoàn toàn là ở dạng chữ thường. Khi đó, mô hình là quá trình dịch trực tiếp từ ngôn ngữ nguồn sang ngôn ngữ đích (Tf1). Cấu hình được mô hình hóa như trong hình 5.2.

Hình 5.2: Cấu hình cơ sở Tf1

Trong mô hình này, các cặp cụm từ được sinh ra dựa vào thống kê các gióng hàng từ tiếng Anh sang Tiếng Việt và ngược lại. Dưới đây là một ví dụ minh họa cho cơ chế gióng hàng qua một cặp câu song ngữ Anh-Việt:

Với cặp câu song ngữ:

Tiếng Anh: we have just mentioned the contents of a financial report . Tiếng Việt: chúng_tôi vừa đề_cập đến nội_dung báo_cáo tài_chính .

Kết quả gióng hàng Việt-Anh:

Thực hiện các phép hợp/giao để thu được các cặp cụm từ giữa câu nguồn và câu

đích tương ứng:

Khi đó ta thu được bảng các cụm từ như sau: we ||| chúng_tôi

we have just ||| chúng_tôi vừa

we have just mentioned ||| chúng_tôi vừa đề_cập đến

we have just mentioned the contents ||| chúng_tôi vừa đề_cập đến nội_dung we have just mentioned the contents of ||| chúng_tôi vừa đề_cập đến nội_dung have just ||| vừa

have just mentioned ||| vừa đề_cập đến

have just mentioned the contents ||| vừa đề_cập đến nội_dung have just mentioned the contents of ||| vừa đề_cập đến nội_dung mentioned the contents ||| đề_cập đến nội_dung

mentioned the contents of ||| đề_cập đến nội_dung

mentioned the contents of a financial report ||| đề_cập đến nội_dung báo_cáo tài_chính ….

Trong cấu hình này, mô hình log-linear sẽ bao gồm các hàm đặc trưng như giới thiệu chi tiết trong chương III.

5.2.2 Cấu hình Tf1 + C

Do đặc điểm của tiếng Việt không có sự biến đổi hình thái nên trong các thử

nghiệm này ta chỉ tính đến các nhãn từ loại (POS) ở phía tiếng Việt cùng các từ đã qua tách từ.

Thực nghiệm với factor đầu tiên ta tiến hành kiểm tra nhãn từ loại tiếng Việt. Trong thử nghiệm này, đầu tiên từ tiếng Anh sẽđược dịch sang từ tiếng Việt, sau

đó các từ tiếng Việt này sẽ sinh ra POS tag tương ứng của chúng. Các nhãn này qua mô hình ngôn ngữ của POS sẽ kiểm tra được thứ tự chuỗi nhãn từ loại trong câu. Quá trình này gồm 1 bước chuyển Tf1 và 1 bước kiểm tra C (hình 5.3).

Hình 5.3: Cấu hình Tf1 + C

Trong cấu hình này, ngoài mô hình xác suất dịch cụm từp(vword|eword), ta còn có thêm xác suất sinh p(vpos|vword), mô hình ngôn ngữ tính toán trên nhãn từ loại

pLMpos.

5.2.3 Cấu hình Tf1 + Tf2 + C

Cấu hình Tf1 + C chỉ sử dụng yếu tố nhãn từ loại ở phía tiếng Việt. Trong cấu hình này ta sử dụng thêm ảnh hưởng từ yếu tố nhãn từ loại tiếng Anh.

Đầu tiên, các bước dịch word-word, POS-POS được thực hiện, sau đó là quá trình kiểm tra chuỗi nhãn từ loại ở phía kết quả. Quá trình bao gồm 2 bước dịch Tf1, Tf2 và 1 bước kiểm tra C (hình 5.4).

Hình 5.4: Cấu hình Tf1 + Tf2 + C

Cấu hình này không chỉ kiểm tra nhãn từ loại được sinh ra từ phía câu đích mà còn có thêm mô hình xác suất dịch nhãn từ loại từ phía câu nguồn sang câu đích. Tức là, ngoài xác suất dịch cụm từ p(vword|eword) ta còn có thêm xác suất dịch cụm từ p(vpos|epos) với ý nghĩa tạo ra các luật cú pháp đơn giản trong quá trình dịch Anh-Việt. Điều này rất có ý nghĩa trong việc phân biệt sự khác nhau về trật tự

các từ trong các cụm danh từ của tiếng Anh và tiếng Việt.

5.2.4 Cấu hình Tf3,f4 + C

Do đặc điểm của ngôn ngữ tiếng Anh là có sự biến đổi hình thái. Như giới thiệu trong chương III, việc phân tích hình thái giúp giải quyết những trường hợp từ có nhiều dạng biến đổi hình thái. Trong thực nghiệm này, tôi đưa ra một cấu hình giúp kiểm tra độảnh hưởng của hình thái từ tiếng Anh lên chất lượng dịch của hệ

thống như thế nào.

Dữ liệu tiếng Anh được phân tích hình thái ở mức đơn giản (lemma+ed/s/ing) ở

bước tiền xử lý. Thông tin về lemma+morphology ở phía tiếng Anh được kết hợp với nhau để sinh ra word bên tiếng Việt. Trong cấu hình này ta vẫn thực hiện bước kiểm tra C như hai thực nghiệm trước (hình 5.5).

Hình 5.5: Cấu hình Tf3,f4 + C

Như vậy, từ tiếng Việt sẽđược sinh ra thông qua 2 factor lemma + morphology ở

phía tiếng Anh. Khác với những cấu hình trên, xác suất dịch trong trường hợp này sẽ là p(vword|elemma, emorphology).

5.3 Kết quả thực nghiệm

5.3.1 Thực nghiệm 1

Dữ liệu song ngữ về lĩnh vực Luật kinh tếđược chia làm 3 phần: tập dữ liệu học (training set) gồm 14883 cặp câu, dữ liệu huấn luyện tham số (devset) gồm 260 cặp câu, dữ liệu kiểm thử (test set) gồm 513 cặp câu với các thông tin cụ thể được mô tả như bảng dưới đây:

Dữ liệu Trung bình độ dài câu Tokens Token types

Tiếng Anh 22.98 342035 8128

Tiếng Việt 19.16 285137 5805 Qua học các mô hình trên tập dữ liệu học và huấn luyện tham số qua tập dữ liệu devset, kết quả cho thấy bộ tham số mặc định là phù hợp nhất với mô hình. Kết quả kiểm thử trên tập test cho thấy cấu hình Tf1 + Tf2 + C có điểm số BLEU cao nhất. Cấu hình Điểm BLEU Tf1 0.5826 Tf1 + C 0.5964 Tf1 + Tf2 + C 0.6023 Tf2,f3 + C 0.6014

Một phần kết quả thực nghiệm này đã được công bố trong bài báo [3].

5.3.2 Thực nghiệm 2

Dữ liệu hội thoại cũng bao gồm 16809 cặp câu, chia thành 3 phần: 15734 cặp câu dữ liệu học, 403 cặp câu dùng cho huấn luyện tham số, 672 cặp câu dùng cho kiểm thử. Các thông tin cụ thểđược mô tả như bảng dưới đây:

Dữ liệu Trung bình độ dài câu Tokens Token types

Tiếng Anh 8.5 143373 9314

Quá trình thực hiện cũng tương tự như trên. Bộ tham số mặc định cũng được lựa chọn sử dụng trong phần kiểm thử. Và kết quả thu được cũng chỉ ra cấu hình Tf1

+ Tf2 + C cho ra kết quả tốt nhất. Cấu hình Điểm BLEU Tf1 0.3074 Tf1 + C 0.3091 Tf1 + Tf2 + C 0.3167 Tf2,f3 + C 0.3147 5.4 Nhận xét

Qua kết quả thử nghiệm với 2 nhóm dữ liệu ta thấy, thông tin ngôn ngữ nói chung đã giúp cải thiện đáng kể chất lượng của hệ dịch. Điểm BLEU trong các cấu hình tích hợp thêm các thông tin ngôn ngữ đều cho kết quả cao hơn so với cấu hình cơ sở. Trong đó, nhãn từ loại có tác động đáng kể đến kết quả của hệ

dịch.

Xét cấu hình Tf1 + C, thông tin về nhãn từ loại bên phía tiếng Việt giúp cho việc kiểm tra độ phù hợp của chuỗi nhãn ứng với câu kết quả. Như vậy, ngoài mô hình ngôn ngữứng với từ, còn có thêm mô hình ngôn ngữứng với POS làm giàu thêm thông tin giúp quyết định đầu ra. Cấu hình Tf1 + C đều cho kết quả cao hơn cấu hình cơ sở đối với cả 2 tập dữ liệu. Tuy nhiên, với dữ liệu về luật, cấu hình này cho kết quả cao hơn đáng kể trong khi chỉ cải thiện một phần nhỏđối với dữ

liệu hội thoại. Điều này có thểđược giải thích dựa trên việc dữ liệu hội thoại có cấu trúc đa dạng hơn, chính vì vậy việc kiểm tra thông tin về POS ở phía tiếng Việt với lượng dữ liệu nhỏ như vậy chưa đủ mạnh giúp cho việc quyết định đầu ra của hệ dịch. Trong khi đó, đối với dữ liệu luật, các câu thường có một cấu trúc chủ-vị nhất định, không có những dạng câu đặc biệt như câu nghi vấn, câu mệnh lệnh, ... Chính vì vậy, việc kiểm tra POS ở phía câu đích lại có một ý nghĩa quan trọng.

Với cấu hình Tf1 + Tf2 + C, thông tin POS ở cả hai phía của mô hình đồng nghĩa với việc ta có thêm xác suất dịch p(vpos|epos). Điều này giúp cho ta xác định đúng hơn trật tự của từ trong một câu đầu ra ứng với câu đầu vào. Hay nói một cách khác, xác suất này giúp ta tạo ra được những luật cú pháp đơn giản, phổ biến giữa ngôn ngữ nguồn và ngôn ngữđích. Một ví dụđiển hình về vấn đề trật tự từ

là quá trình dịch một cụm danh từ. Tiếng Anh có cấu trúc tính từđi trước danh từ

p(ADJ NN|NN ADJ) > p(ADJ NN|ADJ NN) giúp xác định trật tự từ phù hợp. Chính vì vậy, điểm BLEU trong cả 2 tập dữ liệu trong trường hợp này đều cho ta kết quả cao hơn đáng kể so với cấu hình cơ sở và đều cao hơn so với các cấu hình factor khác. Trong cấu hình này, điểm BLEU tăng lên cao với tập dữ liệu hội thoại và tăng không đáng kể với tập dữ liệu luật. Điều này cũng được giải thích thông qua sự khác nhau vềđặc trưng dữ liệu đầu vào. Với dữ liệu luật có độ ổn định về cấu trúc câu, các câu là dài, chính vì vậy trật tự từ biến đổi chủ yếu là các cụm danh từ trong câu. Trong khi đó, với dữ liệu hội thoại thì sự khác nhau lại có thể là toàn bộ câu. Chính vì vậy, việc tạo ra những luật chuyển đổi cú pháp qua xác suất p(vpos|epos) giúp ta có thêm thông tin về sự khác nhau giữa những câu đặc biệt trong dữ liệu hội thoại. Từđó sẽ cho ta một cách dịch phù hợp. Cấu hình Tf3,f4 + C cũng cho ta kết quả tốt hơn so với cấu hình cơ sở và cấu hình Tf1 + C. Do xác suất dịch được thực hiện trên gốc từ đơn giản lemma và thông tin hình thái, xác suất dịch của những từ có sự biến đổi thành dạng số nhiều (s), quá khứ (ed), hoàn thành (en) và dạng V-ing sẽđược chuyển về dạng gốc của từ. Trong trường hợp này, tần suất xuất hiện của các từđó sẽ tăng lên. Chính vì vậy mà ta có thêm độ tin cậy trong khi dịch những từ biến đổi hình thái này. Với dữ

liệu hội thoại có nhiều từ to-be trong câu hỏi nên cấu hình này giúp nhiều cho những động từ như thế, và điểm BLEU tăng nhiều hơn so với dữ liệu luật. Tuy nhiên, cấu hình này vẫn cho kết quả thấp hơn so với cấu hình Tf1 + Tf2 + C do vẫn thiếu thông tin về nhãn từ loại bên phía tiếng Anh

Đây là các cấu hình factor điển hình nhất tôi đã thực hiện để chỉ ra ý nghĩa của thông tin ngôn ngữ trong quá trình dịch. Tôi đã thực hiện các cấu hình khác phức tạp hơn so với các cấu hình trên như thực hiện cấu hình Tf3,f4 + Tf2 + C để thêm một bước dịch POS tiếng Anh sang POS tiếng Việt. Tuy nhiên, những cấu hình này vừa phức tạp, có thời gian tính toán cao mà cũng không cho ta kết quả tốt hơn đáng kể so với cấu hình hiện thời.

Tóm lại, thông tin về nhãn từ loại đóng một vai trò quan trọng trong việc giúp ta có sự lựa chọn trật tự từđúng phù hợp với đặc trưng của cặp ngôn ngữ. Do đặc

điểm của ngôn ngữ tiếng Việt là không có sự biến đổi hình thái và điều này chỉ

có ở phía tiếng Anh, chính vì vậy thông tin hình thái chưa khẳng định được nhiều vai trò của mình trong quá trình dịch. Hơn nữa cấu hình này lại đòi hỏi những phân tích phức tạp, độ tính toán về thời gian nhiều hơn so với các cấu hình khác. Do đó, việc sử dụng thông tin về nhãn từ loại ở cả 2 phía của mô hình kết hợp với thông tin từ vựng truyền thống như cấu hình Tf1 + Tf2 + C là phù hợp nhất với quá trình dịch Anh-Việt. Một số kết quảđược minh họa trong phần phụ lục A.

Ngoài ra, một trong những hạn chế trong kết quả thực nghiệm là do những đánh giá điểm Bleu mới chỉ thực hiện trên 1 tập tham chiếu. Trong nhiều trường hợp, một từ tiếng Anh có thể được dịch thành nhiều từ tiếng Việt khác nhau nhưng vẫn phản ánh cùng một nghĩa như chính - chủ_yếu, chọn - lựa_chọn, sửa - sửa_đổi, .... Một tập tham chiếu không đủ để đánh giá được những sai khác về

cách dùng từ này. Ngoài ra còn có một số sai khác do việc tách từ sai. Dưới đây là một số ví dụ minh họa cho các trường hợp này.

Input: principal contents of external information are all expressed in this book .

Output: nội_dung chính của thông_tin đối_ngoại đều được diễn_đạt trong sách

này .

Reference: nội_dung chủ_yếu của thông_tin đối_ngoại được nêu hết trong quyển

sách này .

Input: we should draw up plan and select auditing method .

Output: chúng_ta cần xây_dựng phương_án và chọn phương_pháp kiểm_toán .

KẾT LUẬN

Bài toán dịch máy đã được đặt ra từ hơn nửa thế kỷ qua nhưng vẫn đang thu hút được rất nhiều sự quan tâm của các nhà nghiên cứu bởi ý nghĩa thực tiễn to lớn của nó trong sự phát triển của mạng thông tin. Các cách tiếp cận khác nhau

đã ra đời và đều đạt được những thành công nhất định. Trong đó, cách tiếp cận thống kê đang được cộng đồng nghiên cứu quan tâm hơn cả bởi tính linh hoạt, mềm dẻo của nó trong việc tự động học các tri thức dịch dựa trên dữ liệu. Bên cạnh đó, mỗi cặp ngôn ngữđều có những đặc trưng riêng và thông tin ngôn ngữ

là yếu tố không thể thiếu góp phần nâng cao chất lượng dịch cho một cặp ngôn ngữ cụ thể.

Luận văn đã trình bày phương pháp dịch máy thống kê có tích hợp thêm thông tin ngôn ngữ dưới dạng các factor gắn với các từ trong dữ liệu. Thực nghiệm với các cấu hình các factor khác nhau và tìm ra cấu hình phù hợp với đặc trưng của cặp ngôn ngữ Anh-Việt. Kết quả thực nghiệm đã khẳng định tầm quan trọng của thông tin về nhãn từ loại trong việc cải thiện đáng kể những hạn chế

trong việc lựa chọn từ phù hợp và trật tự từ trong câu. Do đặc điểm của ngôn ngữ

tiếng Việt là không có sự biến đổi hình thái và điều này chỉ có ở phía tiếng Anh, chính vì vậy thông tin hình thái chưa khẳng định được nhiều vai trò của mình trong quá trình dịch. Hơn nữa cấu hình này lại đòi hỏi những phân tích phức tạp,

độ tính toán về thời gian nhiều hơn so với các cấu hình khác. Do đó, việc sử dụng thông tin về nhãn từ loại ở cả 2 phía của mô hình kết hợp với thông tin từ vựng truyền thống Tf1 + Tf2 + C là phù hợp nhất với quá trình dịch Anh-Việt. Mặc dù các kết quả vẫn còn hạn chế trong khuôn khổ dữ liệu nhỏ trên 2 lĩnh vực về luật và hội thoại, tuy nhiên những kết quả ban đầu đó sẽ là cơ sở cho các bước phát triển tiếp sau này.

Đề tài mới chỉ thực hiện trên một số ràng buộc, chưa có xử lý tên riêng. Hạn chế này có thểđược giải quyết nếu ta sử dụng thông tin về nhận dạng tên riêng, tên địa danh là một factor trong cấu hình của mình. Ngoài ra, đối với những câu dài và có cấu trúc phức tạp, các thông tin ngôn ngữ gắn với mức từ như trên vẫn chưa đủ để giải quyết trường hợp này. Hơn nữa, dữ liệu hạn chế không thể bao trùm được hết kho từđiển khổng lồ của 2 ngôn ngữ Anh-Việt. Chính vì vậy các