1.5.1 Sự khỏc nhau về thứ tự từ giữa cỏc ngụn ngữ
Trong ngụn ngữ học, hệ thống phõn loại theo trật tự từ núi tới nghiờn cứu về cỏch mà ngụn ngữ sắp xếp đối với cỏc thành phần của một cõu và về quan hệ giữa cỏc cỏch sắp xếp này.
Với hầu hết cỏc ngụn ngữ cú danh từ chiếm đa số, ta cú thể định nghĩa một trật tự từ cơ bản theo động từ nguyờn thể (V) và cỏc đối số của nú, chủ ngữ (S) và tõn ngữ (O). Theo đú cú 6 trật tự cơ bản: SVO, SOV, VSO, VOS, OSV, OVS. Ngữ phỏp Việt Nam thuộc loại SVO.
Bờn cạnh cỏc trật tự đó đề cập, cũn một lớp cỏc ngụn ngữ đỏng lưu ý được gọi là ngụn ngữ cú trật tự từ tự do (free word order language) – vớ dụ như tiếng La-tinh, Sộc, Hung-ga-ri, Ba Lan, Nga - đũi hỏi cỏc phương phỏp nghiờn cứu phức tạp hơn trong bài toỏn phõn tớch tự động cỳ phỏp phụ thuộc.
Cỏc ngụn ngữ cú cỏc từ để chỉ tờn với cỏc ý nghĩa như chỉ vật (danh từ), chỉ hành động (động từ), chỉ thuộc tớnh (tớnh từ, trạng từ). . . Cỏc từ chức năng giỳp kết hợp cỏc cõu với nhau. Trật tự từ cũng giỳp xỏc định mối quan hệ giữa cỏc từ.
Chi tiết về sự khỏc nhau về thứ tự từ giữa cỏc ngụn ngữ được trỡnh bày trong phụ lục ở cuối luận ỏn.
1.5.2 Đảo trật tự từ trong dịch mỏy
Vấn đề đảo giữa cỏc cụm cú vị trớ (khoảng cỏch) xa nhau vẫn được xem như là một thỏch thức. Để giải quyết thỏch thức, nhiều nỗ lực nghiờn cứu theo hướng tớch hợp cỳ phỏp cõu vào dịch thống kờ đó được ỏp dụng như [88] kết hợp cụm từ, tổ hợp cỳ phỏp cõu vào dịch mỏy thống kờ. Bờn cạnh đú, ngoài mức cụm từ, một số cụng trỡnh cũng ỏp dụng nghiờn cứu ở mức từ [22]. Những tiếp cận dựa trờn cỳ phỏp cõu [34] đặc biệt khả dụng với cỏc ngụn ngữ giàu ngữ cảnh [2,3,109], đồng thời khắc phục được vấn đề dữ liệu thưa. Cỏc tiếp cận khỏc thực hiện trờn cấu trỳc cõy cỳ phỏp [108], [33]; trong đú cõy cỳ phỏp cú ưu điểm thể hiện rừ cấu trỳc cõu nhưng cú nhược điểm là tốn kộm trong tiến trỡnh dựng cõy. Ngoài ra, việc xõy dựng bộ phõn tớch cỳ phỏp cú chất lượng tốt là một vấn đề phức tạp. Tất cả những tiếp cận trỡnh bày trờn đều chi phớ nhiều thời gian ở bước giải mó và đũi hỏi tài nguyờn đỏng kể từ hệ thống.
Hướng tiếp cận hiệu quả là đề xuất việc cõn bằng giữa chất lượng dịch và thời gian giải mó, thực hiện tiền xử lý quỏ trỡnh sắp xếp lại [108], [33], [65] một cỏch hiệu quả (cải thiện so với cỏc hệ thống dịch mỏy dựa trờn cụm và phõn cấp). Chất lượng được đỏnh giỏ khả quan trong cỏc mụ hỡnh sắp xếp lại. Nghiờn cứu của (Bisazza và cộng sự, 2016) [10] đưa ra khảo sỏt về đảo trật tự từ trong cỏc ngụn ngữ qua hai vấn đề là mụ hỡnh tớnh toỏn và hiện tượng ngụn ngữ trong dịch mỏy thống kờ, cũng chỉ ra tớnh hiệu quả của phương phỏp tiền xử lý.
36
1.6 Bài toỏn đảo trật tự từ trong mụ hỡnh dịchmỏy dựa trờn cụm từ