1.6 Bài toỏn đảo trật tự từ trong mụ hỡnh dịch mỏy dựa trờn cụmtừ
1.6.2 Bài toỏn đảo trậttừ tự dựa trờn tiền xử lý
Một cỏch hỡnh thức, cú thể xem bài toỏn dịch mỏy thống kờ gồm hai bài toỏn con:
• Bài toỏn 1: Xỏc định tập cỏc từ trong bản dịch.
• Bài toỏn 2: Xỏc định thứ tự của cỏc từ được dịch (bài toỏn sắp xếp lại). Dịch mỏy thống kờ dựa trờn cụm [59] là mụ hỡnh dịch mỏy hiệu quả nhờ việc sắp xếp lại cỏc cụm từ trong trường hợp ngữ cảnh và khoảng cỏch giữa cỏc cụm là gần. Tuy nhiờn, mụ hỡnh dịch mỏy thống kờ dựa trờn cụm với khoảng cỏch giữa cỏc cụm từ xa nhau việc đảo cụm đạt hiệu quả khụng cao. Để giải quyết thỏch thức này, luận ỏn tập trung vào bài toỏn đảo trật tự từ (Bài toỏn sắp xếp lại) trong dịch mỏy dựa trờn cụm từ.
Mụ hỡnh bài toỏn như sau:
• Cho cõu nguồn S=(S1, S2, ..., Sn)
Mụ hỡnh đảo trật tự từ được biểu diễn như một ỏnh xạ f: f: S → S0
Sao cho S0 cú thứ tự từ gần nhất cú thể với thứ tự từ tương ứng trong ngụn ngữ đớch T, với S0=(S10, S20, ..., Sn0)
Với mỗi từ ở ngụn ngữ nguồn Si cú một giỏ trị trung bỡnh ai của cỏc vị trớ trong ngụn ngữ đớch được giúng hàng từ với Si. Sau đú sắp xếp cỏc từ nguồn theo cỏc giỏ trị ai. Cỏc từ khụng được giúng sẽ được gỏn giỏ trị trung bỡnh cỏc giỏ trị ai cỏc từ xung quang. Ký hiệu σ(S)là hoỏn vị của cõu nguồn S với cõu đớch T.
Minh họa được thể hiện trong hỡnh 1.9.
Hỡnh 1.9: Vớ dụ về việc chuyển đổi cỏc giúng hàng từ với việc đảo trật tự từ.
Trong hỡnh 1.9, cỏc từ nguồn được sắp xếp theo giỏ trị từ giúng hàng cõu đớch. Từ khụng được giúng hàng S4 được gỏn giỏ trị trung bỡnh của cỏc từ xung quanh S3, S5: (2 + 5)/2 = 3.5
Đảo trật tự từ sử dụng cỏch tiếp cận tiền xử lý
í tưởng chớnh của bài toỏn đảo trật tự từ là chuyển đổi cỏc cõu trong ngụn ngữ nguồn theo trật tự từ gần nhất cú thể tương ứng với cỏc cõu trong ngụn ngữ đớch [107]. Khi sử dụng phương phỏp sắp xếp lại để giải quyết bài toỏn đảo trật tự từ, kớch thước bảng cụm từ sẽ tăng khi ỏp dụng cỏc luật đảo trật tự từ.
40
Hỡnh 1.10: Cỏc bước thực hiện trong hệ thống ỏp dụng phương phỏp tiền xử lý.
Hỡnh 1.10 thể hiện cỏc bước thực hiện trong hệ thống sử dụng phương phỏp tiền xử lý. Thực hiện tiền xử lý qua cỏc bước: phõn tớch cỳ phỏp phụ thuộc cỏc cõu trong ngụn ngữ nguồn, xử lý thụng tin trờn cõy cỳ phỏp và đảo trật tự từ. Cỏc cõu trong ngụn ngữ nguồn được sắp xếp lại và đưa vào hệ thống dịch mỏy thống kờ. Hệ thống dịch này học mụ hỡnh ngụn ngữ và xõy dựng bảng cụm từ dựa trờn cỏc cõu nguồn được sắp xếp lại thay vỡ sử dụng cỏc cõu nguồn ban đầu (cỏc cõu nguồn trước khi sử dụng đảo trật tự từ).
Trong nghiờn cứu của (Nguyễn và cộng sự, 2009) [103] đó chỉ ra việc sử dụng sắp xếp lại trong quỏ trỡnh tiền xử lý và quỏ trỡnh giải mó. Cỏc lý do làm tăng hiệu quả của việc tiền xử lý là:
• Số lượng cỏc giúng hàng từ chộo giảm, kớch thước bảng cụm từ trong dịch mỏy tăng. Điều này cải thiện hiệu suất lựa chọn cỏc từ.
• Sử dụng tiền xử lý hệ thống dịch mỏy cú khả năng nắm bắt được cỏc cụm từ (với giả thiết cỏc cụm từ được tạo ra với phõn bố là như nhau).
• Sử dụng cỏc luật chuyển đổi cỳ phỏp cho vấn đề tiền xử lý nắm bắt được nhiều cấu trỳc cỳ phỏp hơn.
Vớ dụ: Cõu nguồn tiếng Anh: are computers basically simple devices ?
Cõu đớch tiếng Việt: về_cơ_bản mỏy_tớnh là một thiết_bị đơn_giản ?
(1) (2) (3) (4) (5) (6) (7)
Giúng hàng từ: 1-3 2-2 3-1 4-6 5-4 5-5 6-7 Số cặp cụm từ sinh ra trong bảng cụm từ là: 7 Sau khi ỏp dụng phương phỏp tiền xử lý:
Cõu nguồn sắp xếp lại: basically computers are devices simple ?
(1) (2) (3) (4) (5) (6)
Cõu đớch tiếng Việt: về_cơ_bản mỏy_tớnh là một thiết_bị đơn_giản ?
(1) (2) (3) (4) (5) (6) (7)
Giúng hàng từ: 1-1 2-2 3-3 4-4 4-5 5-6 6-7 Số cặp cụm từ sinh ra trong bảng cụm từ là: 11 Một số cụm được thờm là:
computers are ||| mỏy_tớnh là
computers are devices ||| mỏy_tớnh là một thiết_bị
computers are devices simple ||| mỏy_tớnh là một thiết_bị đơn_giản basically computers are devices simple ? ||| về_cơ_bản mỏy_tớnh là một thiết_bị đơn_giản?
Luận ỏn sử dụng cỏch tiền cận tiền xử lý cho bài toỏn đảo trật tự từ, một vấn đề quan trọng trong cỏc hệ thống dịch mỏy thống kờ.
Kiến trỳc tổng thể của luận ỏn thể hiện trong hỡnh 1.11 với cỏc đúng gúp liờn quan trong cỏc chương gồm:
• Chương 2 Trỡnh bày nội dung, kết quả nghiờn cứu về vấn đề đảo cụm trong dịch mỏy thống kờ sử dụng cỏc luật thủ cụng cho bài toỏn đảo trật tự từ trong dịch mỏy thống kờ.
• Chương 3Trỡnh bày nội dung, kết quả nghiờn cứu sử dụng cỏc luật trớch xuất tự động bằng phương phỏp học mỏy với cỏc bộ phõn lớp quan hệ.
42
Phõn tớch cỳ phỏp phụ thuộc Khảo sỏt cỏc hiện tượng ngụn ngữ Thiết kế cỏc luật đảo trật tự từ Xõy dựng cỏc luật thủ cụng Chương 2 Chương 3
Khảo sỏt quan hệ phụ thuộc giữa nỳt cha và cỏc nỳt con Thiết kế cỏc đặc trưng cho mụ hỡnh huấn luyện
Xõy dựng cỏc luật tự động
Chương 4
Sử dụng quan hệ cặp từ giữa nỳt cha-con, anh-em Thiết kế cỏc đặc trưng cho mụ hỡnh huấn luyện Dependency-based word embedding word embedding … Dependency-based neural netwwork Chương 5 Phõn tớch ảnh hưởng cõy phõn tớch phụ thuộc tới chất lượng dịch
Khảo sỏt cõy phõn tớch phụ thuộc tiếng Anh và tiếng Việt
Đỏnh giỏ kết quả dịch qua chất lượng cõy phõn tớch phụ thuộc
Đảo trật tự từ cõu nguồn
Đầu ra bản dịch Cõu ngụn ngữ nguồn Hệ thống dịch mỏy dựa trờn cụm từ Ngữ liệu song ngữ Cõu ngụn ngữ đớch
Hỡnh 1.11: Kiến trỳc hệ thống trong luận ỏn.
• Chương 4Trỡnh bày nội dung, kết quả nghiờn cứu phương phỏp sử dụng mạng nơ-ron kết hợp cỏc thụng tin ngữ cảnh.
• Chương 5 Trỡnh bày ảnh hưởng của cõy phõn tớch cỳ phỏp phụ thuộc với chất lượng dịch mỏy Anh - Việt theo hướng tiếp cận tiền xử lý.