Cỏc nghiờn cứu liờn quan

Một phần của tài liệu (LUẬN án TIẾN sĩ) cải tiến chất lượng dịch máy thống kê anh việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc (Trang 45 - 48)

Nhiều nghiờn cứu sử dụng thụng tin cỳ phỏp nhằm giải quyết bài toỏn đảo trật tự từ. Một trong những phương phỏp đú là phõn tớch cỳ phỏp ngụn ngữ nguồn và sử dụng cỏc luật đảo trật tự từ như bước tiền xử lý [107]. í tưởng chớnh là chuyển đổi cỏc cõu trong ngụn ngữ nguồn cú thứ tự từ gần nhất với thứ tự cõu trong ngụn ngữ đớch, do đú việc huấn luyện sẽ dễ dàng hơn và chất lượng giúng từ cũng tốt hơn.

Cỏc nghiờn cứu này đều thực hiện việc sắp xếp lại thứ tự từ trong bước tiền xử lý dựa trờn cõy cỳ phỏp kết hợp cỏc luật tự động như [82], [35] hoặc

cỏc luật thủ cụng như [22], [105], [108]. Nghiờn cứu [108] mụ tả phương phỏp sử dụng cõy phõn tớch cỳ phỏp và ỏp dụng linh hoạt cỏc luật để đảo trật tự từ cỏc thành phần cõu như chủ ngữ, tõn ngữ. . . Cỏc luật này được xõy dựng thủ cụng nhưng nghiờn cứu trong [108] chứng minh rằng cú thể ỏp dụng học tự động. Nghiờn cứu [22] khai thỏc khả năng nhận biết mệnh đề và sử dụng một số luật thủ cụng để đảo trật tự từ trong mệnh đề. Một phần trong nghiờn cứu [107], [35] gúp phần xõy dựng luật trớch xuất cỳ phỏp tự động. Cỏc nghiờn cứu của [33], [65] xõy dựng cỏc luật tự động và ỏp dụng trong bước tiền xử lý trước khi đưa vào hệ dịch để nõng cao chất lượng hệ thống dịch mỏy.

Cỏc nghiờn cứu về hệ thống dịch mỏy thống kờ dựa trờn cụm từ cho cặp ngụn ngữ Anh-Việt sử dụng tiền xử lý với cõy cỳ phỏp phụ thuộc chưa nhiều. Chỉ cú nghiờn cứu (Vũ và cộng sự, 2008) [43] sử dụng cõy cỳ phỏp phụ thuộc, tuy nhiờn ỏp dụng cho dịch mỏy Anh-Việt ở mức đơn giản.

Cỏc nghiờn cứu khỏc sử dụng phõn tớch cỳ phỏp và cấu trỳc giàn để đưa ra cỏc lựa chọn đảo trật tự từ ở cõu nguồn thụng qua cỏc từ (cụm từ) [81], [111]. [81] ỏp dụng một số luật chuyển đổi được học tự động từ kho ngữ liệu song ngữ nhằm thực hiện đảo trật tự từ của cỏc từ trong cõu.

1.7.1 Sử dụng cỏc luật thủ cụng cho vấn đề tiền xử lý

Trong bỏo cỏo của Phillip Koehn1năm 2017, trỡnh bày về sự khỏc nhau về trật tự từ gồm:

• Sự khỏc nhau giữa cỏc trật tự từ đú là khỏc nhau về cỳ phỏp cỏc ngụn ngữ theo một cỏch tự nhiờn.

• Sử dụng cỏc luật thủ cụng đơn giản cú thể là đủ tốt cho vấn đề sắp xếp lại trật tự từ trong cỏc ngụn ngữ.

1http://mt-class.org/jhu/slides/lecture-reordering.pdf 44

Phương phỏp tiền xử lý: nhằm mục đớch sắp xếp lại cõu nguồn tương ứng với thứ tự cõu đớch qua cỏc bước:

• Phõn tớch cõu nguồn.

• Áp dụng cỏc luật chuyển đổi.

• Tiền xử lý trong cả quỏ trỡnh huấn luyện và quỏ trỡnh kiểm thử.

Nhiều hệ thống dịch sử dụng cỏc luật chuyển đổi thủ cụng và thành cụng trong việc ỏp dụng cỏc luật chuyển đổi này cho bài toỏn sắp xếp lại trật tự từ nhằm nõng cao chất lượng dịch.

1.7.2 Sử dụng cỏc luật tự động cho vấn đề tiền xử lýĐặc điểm của cỏc luật tiền xử lý sắp xếp: Đặc điểm của cỏc luật tiền xử lý sắp xếp:

• Cỏc luật sắp xếp lại theo từng ngụn ngữ: với mỗi cặp ngụn ngữ phải tỡm ra tập luật tốt nhất.

• Cỏc tương tỏc phức tạp giữa cỏc luật: phải ỏp dụng theo trỡnh tự cỏc bước sắp xếp lại.

• Đỏnh giỏ một tập luật sắp xếp khụng đơn giản theo một chiều do: - Việc huấn luyện một hệ thống dịch mỏy tốn kộm.

- Cỏc giúng hàng từ được sinh tự động cú thể cũn sai. - khụng cú sẵn cỏc giúng hàng từ bằng tay lớn.

Học cỏc luật tiền xử lý sắp xếp:

Phương phỏp thành cụng được (Genzel và cộng sự, 2010) [33] đưa ra.

• Cỏc tương tỏc phức tạp giữa cỏc luật: phải ỏp dụng theo trỡnh tự cỏc bước sắp xếp lại.

• Đặc điểm là học một chuỗi cỏc luật sắp xếp lại dựa trờn cõy phõn tớch cỳ phỏp phụ thuộc.

• Áp dụng cỏc luật:

- Áp dụng trờn cõy từ đỉnh xuống (top-down). - Chỉ đảo cỏc con cú cựng số nỳt.

- Định dạng luật: ngữ cảnh điều kiện → hành động.

• Áp dụng thành cụng với một số cặp ngụn ngữ như: cặp ngụn ngữ tiếng Anh với tiếng Sộc, tiếng Đức, tiếng Hindi, tiếng Nhật, tiếng Hàn, tiếng ngụn ngữ xứ Wales.

Một phần của tài liệu (LUẬN án TIẾN sĩ) cải tiến chất lượng dịch máy thống kê anh việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc (Trang 45 - 48)

Tải bản đầy đủ (PDF)

(146 trang)