Xác định cụm từ song ngữ

Một phần của tài liệu (LUẬN văn THẠC sĩ) khai phá tri thức song ngữ và ứng dụng trong dịch máy anh việt luận án TS công nghệ thông tin 62 48 01 01 (Trang 27 - 28)

1.1 Khai phá tri thức song ngữ

1.1.3 Xác định cụm từ song ngữ

Các cụm từ song ngữ hữu ích cho nhiều nhiệm vụ trong NLP như truy xuất thông tin liên ngữ [1], phân tích cú pháp [3], khai phá văn bản [102] và đặc biệt là cho SMT [99]. Trong các hệ thống SMT, chất lượng của các bản dịch phụ thuộc chủ yếu vào chất lượng của các cặp cụm từ song ngữ được rút trích từ ngữ liệu song ngữ [117]. Vì vậy, nhiều phương pháp đã được đề xuất để rút trích các cụm từ song

ngữ từ ngữ liệu song ngữ hoặc ngữ liệu có thể so sánh được (comparable corpora) [5,28]. Theo quan điểm của chúng tôi, những phương pháp này có thể được phân loại thành ba cách tiếp cận chính: "tượng trưng" (symbolic), thống kê (statistics) và phương pháp lai (hybrid).

Cách tiếp cận đầu tiên sử dụng một bộ lọc ngôn ngữ, nó phụ thuộc vào các mẫu cú pháp (syntactic pattern) [96]. Tuy nhiên, rất khó để áp dụng phương pháp "tượng trưng" cho dữ liệu không có chú thích về cú pháp [2, 28]. Cách tiếp cận thứ hai sử dụng các độ đo thống kê như thông tin tương hỗ (mutual information) [127], tỷ lệ lô-ga-rít thích hợp (log-likelihood ratio) [23] để xếp hạng các ứng viên cho cụm từ song ngữ. Ưu điểm chính của phương pháp thống kê là độc lập ngôn ngữ. Tuy nhiên, hạn chế của cách tiếp cận này là phải có được một ngữ liệu đủ lớn. Ngoài ra, các độ đo thống kê chủ yếu được áp dụng cho2-gram và 3-gram và nó sẽ trở nên khó khăn hơn khi rút trích các cụm từ nhiều hơn ba từ [2]. Cách tiếp cận thứ ba kết hợp cả hai cách tiếp cận trước [108]. Cách tiếp cận này rút trích các ứng viên của cụm từ song ngữ sử dụng một bộ lọc ngôn ngữ, sau đó gán cho mỗi ứng viên của cụm từ song ngữ một điểm số tùy thuộc vào phương pháp thống kê [54].

Trong các nghiên cứu liên quan sử dụng mẫu cú pháp để xác định cụm từ song ngữ. Việc so khớp các mẫu cú pháp được thực hiện ở hai phía (cả câu nguồn và câu đích). Với cách làm này, chúng ta chỉ rút trích được các cụm từ song ngữ với số lượng hạn chế. Bouamor và cộng sự [9] đã chỉ ra rằng, các cụm từ song ngữ được sử dụng để cải thiện chất lượng dịch cho SMT.

Một phần của tài liệu (LUẬN văn THẠC sĩ) khai phá tri thức song ngữ và ứng dụng trong dịch máy anh việt luận án TS công nghệ thông tin 62 48 01 01 (Trang 27 - 28)

Tải bản đầy đủ (PDF)

(129 trang)