4 Xác định cụm từ song ngữ cho dịch máy thống kê
4.2.3 Rút trích cụm từ
Bây giờ, chúng tôi thực hiện rút trích các ứng viên của cụm từ song ngữ, như sau:
• Tính xác suất t(f|e)
• Với mỗi cặp câu (f(l),e(l)),1≤l ≤N1:
– Với mỗi cặp mẫu cú pháp trong tập các mẫu cú pháp được xác định trước:
∗ Nếu một cặp mẫu cú pháp được so khớp thì (pe, pv) là một ứng viên của cụm từ song ngữ.
∗ Ngoài ra, nếu một mẫu cú pháp trong ngôn ngữ nguồn được so khớp thì rút trích cụm từ nguồn pe và tìm kiếm cụm từ đích pv
dùng công thức (4.2).
Tiếp theo, để lọc cụm từ song ngữ (loại bỏ các cụm sai), chúng tôi tính xác suất dịch cụm từ bằng cách sử dụng tần suất tương đối:
P r(pv|pe) = N(pv, pe)
N(pe) (4.3)
Trong công thức (4.3), pe và pv lần lượt là cụm từ nguồn và đích. N(pe, pv) là số lần cụm pe được dịch bởi pv và N(pe) là số lần pe xuất hiện trong ngữ liệu. Lambert và cộng sự [94] đã chỉ ra rằng dữ liệu thưa có thể làm cho xác suất ước lượng theo cách này được đánh giá quá cao. Vì thế, và xác suất nghịch đảo
P r(pe|pv) đã được chứng minh sẽ ước lượng tốt hơn. Để tăng độ tin cậy, chúng tôi sử dụng giá trị nhỏ nhất của hai tần suất tương đối như là xác suất dịch cụm từ, như thể hiện trong công thức (4.4).
P r0(pv|pe) = min(P r(pv|pe), P r(pe|pv)) (4.4)
Thuật toán 4.1 mô tả phương pháp của chúng tôi đề xuất để giải quyết bài toán rút trích cụm từ song ngữ. Đầu vào cho thuật toán là một tập hợp các cặp câu (f,e) và tập S chứa các cặp mẫu cú pháp s= (se, sv) được xác định trước.
Thuật toán 4.1 Rút trích cụm từ song ngữ.
Đầu vào: Tập các câu song ngữ (f,e), S là tập các mẫu cú pháp s= (se, sv).
Đầu ra: B là tập hợp các cụm từ song ngữ
1: tính xác suất t(f|e)
2: //khởi tạo
3: B =∅
4: for all các cặp câu (f,e)do
5: //so khớp các mẫu cú pháp
6: if cặp mẫu cú pháps = (se, sv)∈S phù hợp (được so khớp) then
7: rút trích ứng viên của cụm từ song ngữ p= (pe, pv)
8: B =B∪ {p}
9: else if mẫu cú pháp se∈S (ở câu nguồn) phù hợp then
10: rút trích cụm từ ở câu nguồn pe 11: tìm cụm từ ở câu đích pv dùng công thức (4.2) 12: B =B∪ {p} 13: end if 14: end for 15: //lọc các cụm từ song ngữ
16: for all các ứng viên của cụm từ song ngữ p= (pe, pv)do
17: if P r(pv|pe)< θ then
18: B =B\ {p}
19: end if
20: end for