Trong dịch mỏy, sự thay đổi trong cấu trỳc ngữ phỏp giữa ngụn ngữ nguồn và ngụn ngữ đớch cú thể gõy ra vấn đề đảo trật tự từ phức tạp. Mụ hỡnh húa vấn đề đảo trật tự từ trong cỏc hệ thống dịch mỏy thống kờ dựa trờn cụm từ là quan trọng trong việc tạo ra cỏc bản dịch cỏc cõu dài xuất hiện một cỏch tự nhiờn trong ngụn ngữ đớch. Phõn tớch cỳ phỏp được sử dụng để giải quyết cỏc vấn đề về hiện tượng ngụn ngữ là cần thiết trong cỏc hệ dịch mỏy để nõng cao chất lượng bản dịch. Việc tớch hợp cỏc thụng tin trờn cõy cỳ phỏp phụ thuộc là hữu ớch và được ỏp dụng để giải quyết vấn đề đảo cụm từ, từ đú cải tiến chất lượng dịch mỏy. Phần cuối của chương phõn tớch cỏc nghiờn cứu liờn quan đến vấn đề đảo cụm từ trong dịch mỏy.
Cụng bố liờn quan đến nghiờn cứu này:
[1] Viet Hong Tran, Anh Tuan Pham, Vinh Van Nguyen, Hoai Xuan Nguyen, Huy Quang Nguyen, "Parameter Learning for Statistical Machine Trans- lation using CMA-ES", In Proceedings of the Sixth International Confer- ence KSE 2014, Series: Advances in Intelligent Systems and Computing, Vol. 326, pages 251-259.
[2] Luan Nghia Pham, Viet Hong Tran, Vinh Van Nguyen,"Vietnamese Text
46
Accent Restoration with Statistical Machine Translation ", Proceeding of 27th Pacific Asia Conference on Language, Information and Computation. Available: http://aclweb.org/anthology/Y13-1044
[3] Hoai Thu Vuong, Vinh Van Nguyen, Viet Hong Tran and Akira Shimazu, "Improving Statistical Machine Translation with Processing Shallow Pars- ing", Proceeding of 26th Pacific Asia Conference on Language, Informa-
tion and Computation. Available: http://www.aclweb.org/anthology/Y/Y12/Y12- 1043.pdf
[4] Trần Hồng Việt, Vương Hồi Thu, Nguyễn Văn Vinh,Trần Lõm Qũn, "Áp dụng tiền xử lý cỳ phỏp nụng trong dịch mỏy thống kờ", Kỷ yếu hội thảo Quốc gia lần thứ XV "Một số vấn đề chọn lọc của Cụng nghệ thụng tin và Truyền thụng", trang 410-416.
Chương 2
Phương phỏp dựa vào luật thủ cụng cho bài toỏn đảo trật tự từ trong dịch mỏy thống kờ
Chương này trỡnh bày cỏch giải quyết vấn đề đảo trật tự từ dựa trờn tiền xử lý cho bài toỏn dịch với kho ngữ liệu song ngữ Anh – Việt sử dụng cỏc luật thủ cụng. Từ phõn tớch cỏc thụng tin trờn cõy cỳ phỏp phụ thuộc và cỏc hiện tượng ngụn ngữ, luận ỏn tập trung xõy dựng cỏc luật thủ cụng để giải quyết bài toỏn đảo trật tự từ một cỏch hiệu quả.
2.1 Phương phỏp tiền xử lý cho bài toỏn đảo trật
tự từ trong dịch mỏy
Đảo trật tự cỏc từ trong cõu là bước quan trọng trong bài toỏn dịch tự động hai ngụn ngữ. Trong nghiờn cứu này, thực hiện việc tiền xử lý cõu ngụn ngữ nguồn (tiếng Anh) trước khi đưa vào hệ thống dịch mỏy thống kờ theo cụm từ (Phrase-based Statistical Machine Translation) bằng cỏch đảo cỏc từ trong ngụn ngữ nguồn theo đỳng thứ tự trong ngụn ngữ đớch (tiếng Việt). Hỡnh 2.1 đưa ra vớ dụ về việc tiền xử lý cho chiều dịch Anh-Việt và chiều dịch Việt-Anh.
48
Hỡnh 2.1: Vớ dụ về tiền xử lý cho cặp ngụn ngữ Anh-Việt.
Sau khi ỏp dụng phương phỏp tiền xử lý, cõu ở ngụn ngữ nguồn được sắp xếp lại theo thứ tự cõu trong ngụn ngữ đớch.
Việc đảo trật từ từ được thực hiện dựa trờn cõy cỳ phỏp phụ thuộc và ỏp dụng cỏc luật đó được xõy dựng để thay đổi thứ tự cỏc từ trong cõu. Cỏc luật đảo này cú thể là cỏc luật thủ cụng hoặc cỏc luật tự động.
Trước hết, chỳng tụi tập trung xõy dựng cỏc luật đảo trật tự từ thủ cụng do tớnh hiệu quả của việc ỏp dụng cỏc luật này trong bước tiền xử lý trước khi đưa vào hệ thống dịch mỏy. Trong nghiờn cứu này, việc khảo sỏt dữ liệu và tỡm ra cỏc luật rất quan trọng trong việc thiết kế xõy dựng cỏc luật. Chỳng tụi sử dụng cỏch tiếp cận tiền xử lý với cỏc ưu điểm: giữ được điểm mạnh của hệ thống dịch mỏy dựa trờn cụm sao cho giảm thiểu thời gian giải mó, cũng như giữ điểm mạnh của dịch mỏy theo cỳ phỏp trong bài toỏn đảo trật tự từ. Tiếp cận này là hiệu quả do thực hiện tiền xử lý quỏ trỡnh sắp xếp lại [108], [33], [65] mang lại cải thiện so với cỏc hệ thống dịch mỏy dựa trờn cụm từ, chất lượng được đỏnh giỏ khả quan trong cỏc mụ hỡnh sắp xếp lại.
Cụ thể, trong nghiờn cứu của chỳng tụi, cỏc bước thực hiện bao gồm:
• Phõn tớch cỏc hiện tượng ngụn ngữ giữa cỏc cõu ở ngụn ngữ nguồn (tiếng Anh) và cỏc cõu ở ngụn ngữ đớch.
• Khảo sỏt vấn đề đảo trật tự từ trờn ngữ liệu song ngữ và thiết kế cỏc luật thủ cụng.
• Xõy dựng thuật toỏn và ỏp dụng để đưa ra cỏc luật đảo thủ cụng.
Phương phỏp này được sử dụng trong cỏc thực nghiệm trờn hệ thống dịch mỏy cụm từ cho cặp ngụn ngữ Anh-Việt và cho kết quả tốt hơn so với việc sử dụng cỏc hệ thống dịch mỏy cơ sở.
2.2 Cỏc nghiờn cứu liờn quan
Cú nhiều nghiờn cứu sử dụng thụng tin cỳ phỏp nhằm giải quyết bài toỏn đảo trật tự từ. Một trong những nghiờn cứu đú là phõn tớch cỳ phỏp ngụn ngữ nguồn và sử dụng luật sắp xếp như bước tiền xử lý. í tưởng chớnh là chuyển đổi cỏc cõu nguồn để cỏc cõu đớch cú thứ tự từ gần nhất cú thể.
I 0m looking at a new jewelry site .
RPR VBP VBG IN DT JJ NN NN . nsubj aux case det amod compound nmodpunct root
Hỡnh 2.2: Vớ dụ về POS tags và phõn tớch cỳ phỏp phụ thuộc cho tiếng Anh.
Cỏc nghiờn cứu khỏc thực hiện việc sắp xếp lại thứ tự từ trong bước tiền xử lý dựa trờn phõn tớch cõy cỳ phỏp kết hợp cỏc luật tự động như [107], [82], [35] hoặc cỏc luật thủ cụng như [22], [105], [108]. Nghiờn cứu [108] mụ tả phương phỏp sử dụng cõy phõn tớch cỳ phỏp và ỏp dụng linh hoạt cỏc luật để đảo trật tự từ cỏc thành phần cõu như chủ ngữ, tõn ngữ . . . Cỏc luật này được xõy dựng thủ cụng nhưng nghiờn cứu trong [108] chứng minh rằng cú thể ỏp dụng học tự động. Nghiờn cứu [22] khai thỏc khả năng nhận biết mệnh đề và sử dụng
50
một số luật thủ cụng để đảo trật tự từ trong mệnh đề. Một phần trong nghiờn cứu [107], [35] gúp phần xõy dựng luật trớch xuất cỳ phỏp tự động.
Xung_quanh sƠn_bay l mởt hằ_thống hƯm_ngƯm xuyản v o núi Ă .
N N V M N N V E N N . sub nmod det dob nmod vmod
dir pob nmod punct
root
Hỡnh 2.3: Vớ dụ về POS tags và phõn tớch cỳ phỏp phụ thuộc cho tiếng Việt.
Cỏc nghiờn cứu khỏc sử dụng phõn tớch cỳ phỏp và cấu trỳc giàn để đưa ra cỏc lựa chọn đảo trật tự từ ở cõu nguồn thụng qua cỏc từ (cụm từ) [81], [111]. [81] ỏp dụng một số luật chuyển đổi được học tự động từ kho ngữ liệu song ngữ nhằm thực hiện việc đảo trật tự từ.
Hỡnh 2.4: Vớ dụ về phõn tớch cỳ phỏp phụ thuộc cho cõu tiếng Anh sử dụng cụng cụ phõn tớch của Stanford.
Bảng 2.1: Phõn tớch cỳ phỏp phụ thuộc cho cõu tiếng Việt biểu diễn dưới dạng chuẩn CoNLL. 1 Xung_quanh _ N N _ 3 sub _ _ 2 sõn_bay _ N N _ 1 nmod _ _ 3 là _ V V _ 0 root _ _ 4 một _ M M _ 5 det _ _ 5 hệ_thống _ N N _ 3 dob _ _ 6 hầm_ngầm _ N N _ 5 nmod _ _ 7 xuyờn _ V V _ 5 vmod _ _ 8 vào _ E E _ 7 dir _ _ 9 nỳi _ N N _ 8 pob _ _ 10 đỏ _ N N _ 9 nmod _ _ 11 . _ . . _ 3 punct _ _
2.3 Tiền xử lý cỳ phỏp phụ thuộc cho dịch mỏy
thống kờ
2.3.1 Phõn tớch hiện tượng ngụn ngữ và vấn đề sắp xếp lạiĐể giải quyết vấn đề đảo cụm từ dựa trờn tiền xử lý cho bài toỏn dịch với Để giải quyết vấn đề đảo cụm từ dựa trờn tiền xử lý cho bài toỏn dịch với kho ngữ liệu song ngữ Anh – Việt, từ phõn tớch cỏc thụng tin trờn cõy cỳ phỏp phụ thuộc, cỏc hiện tượng ngụn ngữ, chỳng tụi sử dụng cỏc luật thủ cụng để giải quyết vấn đề đảo trật tự từ.
Chỳng tụi sử dụng cụng cụ Stanford Parser [27] để tạo ra cõy cỳ phỏp phụ thuộc như vớ dụ trong hỡnh 2.4. Phõn tớch phụ thuộc giữa cỏc từ tương ứng với quan hệ về ngữ phỏp đó được chứng minh là những thụng tin hữu ớch trong cỏc ứng dụng liờn quan đến xử lý cỳ phỏp. Chỳng tụi sử dụng cỳ phỏp phụ thuộc và sự khỏc nhau về trật tự cỏc từ giữa hai ngụn ngữ tiếng Việt và tiếng Anh để tạo ra tập cỏc luật đảo từ. Cỏc dữ liệu về từ loại (POS tags), nhón
52
phụ thuộc, quan hệ giữa cỏc từ . . . được biểu diễn trờn cõy phụ thuộc ở hỡnh 2.4 hoặc dưới dạng chuẩn CoNLL như biểu diễn trong hỡnh 2.1.
Vớ dụ 1: Tỏch từ
Cõu tiếng Việt: Học sinh học sinh học. Segmentation 1: Học_sinh học sinh_học . Segmentation 2: Học_sinh học_sinh học .
Vớ dụ 2: hỡnh thỏi
“books” “book-s” -> “những (-s) cuốn_sỏch (book)” “working” “work-ing” “đang (-ing) làm_việc (work)”
“changeably” “change-ably” “thay_đổi (change) được (ably)”
Vớ dụ 3: dạng cõu SVO
Cõu tiếng Anh: I like a blue book .
Cõu tiếng Việt: Tụi thớch cuốn_sỏch màu_xanh .
Vớ dụ 4: dịch chuyển cõu hỏi Wh
Cõu tiếng Anh: What does this mean ? Cõu tiếng Việt: Nú nghĩa là gỡ ?
Vớ dụ 5: Cõu hỏi Yes/No
Cõu tiếng Anh: Do you like it ?
Cõu tiếng Việt: Bạn thớch nú phải_khụng?
Vớ dụ 6: Cụm danh từ
Cụm danh từ ban đầu trong tiếng Anh: his family ‘s car
Cụm từ tiếng Việt: ụ_tụ của gia_đỡnh anh_ấy Cụm danh từ tiếng Anh được chuyển đổi: car ‘s family his
Một số vớ dụ về cỏc đặc trưng ngụn ngữ tiếng Việt Hỡnh 2.5: Một số vớ dụ về đặc trưng ngụn ngữ tiếng Việt.
Chỳng tụi tập trung vào việc phõn tớch cỏc cấu trỳc thụng dụng nhất của tiếng Anh khi dịch sang tiếng Việt. Đõy là phần quan trọng trong nghiờn cứu của chỳng tụi nhằm cải tiến chất lượng dịch. Tiếng Anh là ngụn ngữ nguồn và tiếng Việt là ngụn ngữ đớch được đề cập đến nghiờn cứu này. Theo [26, 67, 83] trong tiếng Anh cú xấp xỉ 50 quan hệ ngữ phỏp cũn với tiếng Việt cú 27 quan
hệ ngữ phỏp. Từ việc phõn tớch cỏc quan hệ ngữ phỏp kết hợp với thứ tự cỏc từ trong cõu tạo ra cỏc luật đảo từ.
Bờn cạnh đú, luận ỏn đưa ra phõn tớch cỏc hiện tượng ngụn ngữ để thực hiện việc thay đổi trật tự tự giữa cỏc cõu ở ngụn ngữ nguồn theo trật tự từ tương ứng trong cỏc cõu ở ngụn ngữ đớch. Luận ỏn tập trung vào việc phõn tớch cỏc cấu trỳc thụng dụng của tiếng Anh khi dịch sang tiếng Việt. Hỡnh 2.5 đưa ra một số vớ dụ về đặc trưng ngụn ngữ tiếng Việt. Cỏc vớ dụ về tỏch từ, phõn tớch hỡnh thỏi, dạng cõu SVO, vấn đề dịch chuyển trong cõu hỏi Wh, cõu hỏi Yes/No, cụm danh từ được đưa ra để thấy cỏc đặc trưng ngụn ngữ giữa tiếng Việt và tiếng Anh.
Hỡnh 2.6: Vớ dụ về hiện tượng ngụn ngữ trong cụm danh từ với amod và det. Trong vớ dụ này, danh từ “computer” được đảo với tớnh từ “personal”
Ngụn ngữ tiếng Anh và tiếng Việt đều là ngụn ngữ dạng SVO, thứ tự của động từ trong cõu ớt khi thay đổi nờn chỳng tụi tập trung chớnh vào cỏc quan hệ của danh từ, tớnh từ và trạng từ, giới từ để tạo ra cỏc luật đảo từ cho cặp Anh-Việt. Bắt đầu với ý tưởng của [108], luận ỏn sử dụng cõy cỳ phỏp phụ thuộc và ỏp dụng cỏc luật đảo để thay đổi thứ tự cỏc từ của cõu nguồn trước khi đưa vào hệ thống dịch mỏy.
Trong tiếng Anh, với cụm danh từ, luụn cú một danh từ chớnh và cỏc thành phần xung quanh nú. Cỏc thành phần phụ này cú thể bị thay đổi thứ tự khi dịch sang ngụn ngữ tiếng Việt. Vớ dụ đưa ra trong hỡnh số 2.6 và hỡnh 2.7 cho
54
Hỡnh 2.7: Vớ dụ về hiện tượng ngụn ngữ trong cụm tớnh từ với advmod và det
ta thấy sự đảo giữa cụm danh từ bao gồm một danh từ đi kốm với tớnh từ hoặc trạng từ.
Hỡnh 2.8 đưa ra một vớ dụ về việc ỏp dụng luật cho việc tiền xử lý trờn cõy đầu vào tiếng Việt. Chỳng tụi tập trung cho việc tạo cỏc luật đảo trật tự từ thủ cụng cho chiều dịch từ ngụn ngữ Anh sang ngụn ngữ tiếng Việt.
ROOT V Liệu cũn R V cú R được L những N ngày V đoàn_tụ P ấy R khụng . ? root head V V adv head adv dob det nmod punct vmod head det det V V vmod
Are there such these union days ?
(a) Trước khi ỏp dụng luật chuyển đổi
ROOT V Liệu cũn R V cú R được những L N ngày P ấy đoàn_tụ V R khụng . ? root head V V adv head adv dob nmod det punct vmod head det det V V vmod
Are there such these union days ?
(b) Sau khi ỏp dụng luật chuyển đổi
Hỡnh 2.8: Vớ dụ cõy phõn tớch tiếng Việt với thụng tin từ loại POS tags, cỏc nhón phụ thuộc và giúng hàng từ.
2.3.2 Luật chuyển đổi trật tự từ
Cỏc phõn tớch về hiện tượng ngụn ngữ, cỏc thụng tin trờn cõy cỳ phỏp phụ thuộc và vấn đề đảo trật tự từ là cơ sở quan trọng trong việc xõy dựng và thiết
kế cỏc luật đảo trật tự từ thủ cụng. Chỳng tụi đưa ra cỏc luật đảo này cho cặp ngụn ngữ Anh-Việt.
Luật này định nghĩa như sau:
Luật đảo trật tự từ thủ cụng định nghĩa theo cấu trỳc là một ỏnh xạ từ tập T vào một tập {(L, W, O)}:
T → {(L, W, O)} Trong đú:
• T là từ loại của từ chớnh (nỳt cha) trong cụm trờn cõy cỳ phỏp phụ thuộc.
• L là nhón phụ thuộc (hay quan hệ phụ thuộc) của cỏc nỳt con.
• W là trọng số để xỏc định thứ tự của nỳt con.
• O là dạng đảo (Normal: khụng đảo, Reverse: đảo).
Trong vớ dụ ở hỡnh 2.9, việc ỏp dụng cỏc luật thủ cụng trờn cõy cỳ phỏp phụ thuộc như sau:
Xột luật đảo như sau: VBG→{(self, 2, normal), (nsubj, 2, reverse), (aux, 2, reverse), (dobj, -2, normal)} và NNS→{(self, 2, normal), (amod, -2, reverse)}. Áp dụng cho nỳt root từ cõy phõn tớch phụ thuộc cõu nguồn "are basically computers simple devices ?" sử dụng cỏc luật đảo trật tự từ thủ cụng với hai POS-tags là VBG và NNS trờn cõy phõn tớch cỳ phỏp, kết quả được cõu mới "basically computers are devices simple ?" theo thứ tự từ của cõu đớch trong tiếng Việt.
Thực hiện duyệt đệ quy cõy cỳ phỏp phụ thuộc bắt đầu từ nỳt gốc để ỏp dụng cỏc luật đảo. Nếu từ loại (POS-tags) của nỳt trựng khớp với vế trỏi của luật thỡ luật đú được ỏp dụng và thứ tự cỏc từ sẽ được đảo. Duyệt tất cả cỏc con của nỳt và tớnh trọng số của nỳt con dựa trờn nhón xuất hiện bờn vế phải của luật. Nếu cỏc con khụng xuất hiện trong luật, đặt trọng số mặc định với nhón
56
Hỡnh 2.9: Vớ dụ ỏp dụng luật đảo trật tự từ thủ cụng trong việc sắp xếp lại thứ tự từ trong cõu.
self tương ứng và nhón là Normal. Cỏc nỳt con được sắp xếp giảm dần theo trọng số, những nỳt cú cựng trọng số sẽ cú thứ tự như trong luật. Kết quả cõu nguồn được sắp xếp lại theo thứ tự cõu đớch. Sau khi đưa vào hệ dịch, bảng cụm từ được tăng lờn. Trong vớ dụ ở hỡnh 2.9, số cặp cụm từ sinh ra và thờm trong bảng cụm từ là:
computers are ||| mỏy_tớnh là
computers are devices ||| mỏy_tớnh là một thiết_bị
computers are devices simple ||| mỏy_tớnh là một thiết_bị đơn_giản basically computers are devices simple ? ||| về_cơ_bản mỏy_tớnh là một thiết_bị đơn_giản?
Kớch thước bảng cụm từ được tăng khi ỏp dụng cỏc quy tắc chuyển đổi và làm tăng chất lượng dịch mỏy do cú nhiều lựa chọn hơn trong quỏ trỡnh tỡm kiếm bản dịch.
Bằng cỏch duyệt qua cỏc khả năng đảo từ của cặp ngụn ngữ Anh-Việt, chỳng tụi đó tạo ra tập luật này và sử dụng cho quỏ trỡnh tiền xử lý.
2.3.3 Tập cỏc luật đảo trật tự từ thủ cụng
Luận ỏn tập trung vào việc xõy dựng cỏc luật thủ cụng cho cặp ngụn ngữ Anh – Việt. Mục đớch là thay đổi thứ tự của cõu nguồn tiếng Anh để tạo ra
cõu tiếng Anh mới cú thứ tự cỏc từ tương ứng với thứ tự của tiếng Việt. Dạng đảo từ chỉ được sử dụng khi cú nhiều nỳt con cú cựng trọng số, trong đú trọng