Phương pháp rút trích cụm từ song ngữ

Một phần của tài liệu (LUẬN văn THẠC sĩ) khai phá tri thức song ngữ và ứng dụng trong dịch máy anh việt luận án TS công nghệ thông tin 62 48 01 01 (Trang 102 - 105)

4 Xác định cụm từ song ngữ cho dịch máy thống kê

4.2 Phương pháp rút trích cụm từ song ngữ

Trong phần này, chúng tôi trình bày các bước để rút trích cụm từ song ngữ, sử dụng các mẫu cú pháp kết hợp với gióng hàng cụm từ, bao gồm: xác định cụm từ, tìm cụm từ đích và rút trích cụm từ song ngữ.

4.2.1 Xác định cụm

Chúng tôi sử dụng các mẫu cú pháp song ngữ được xác định trước để phát hiện và rút trích các cụm từ song ngữ từ ngữ liệu song ngữ Anh - Việt. Trong nghiên cứu này, chúng tôi thiết kế các mẫu cú pháp như là các chuỗi POS. Các mẫu cú pháp này được sử dụng để xác định cụm từ. Bảng 4.1 mô tả một số ví dụ về mẫu cú pháp và cụm từ tương ứng trong tiếng Anh.

Giả sử chúng ta có một cặp câu (f,e) từ ngữ liệu song ngữ so khớp với một cặp mẫu cú pháp tại các vị trí (j1, j2) trong câu nguồn và (i1, i2) trong câu đích. Từ đó, chúng ta dễ dàng rút trích các cụm từ nguồnpe=fj1...fj2 và cụm từ đích

pv =ei1...ei2 (ở đây(pe, pv) là cặp ứng viên của cụm từ song ngữ). Tuy nhiên, do sự khác biệt về cấu trúc ngữ pháp giữa ngôn ngữ nguồn và ngôn ngữ đích cùng với quá trình gán nhãn từ loại cho văn bản tại mỗi ngôn ngữ có thể xảy ra lỗi. Những điều này sẽ làm giảm số cụm từ song ngữ được tìm thấy khi ta thực hiện

việc so sánh các mẫu cú pháp ở cả hai phía (câu nguồn và câu đích). Vì vậy, trong trường hợp chỉ so khớp ở một phía (trong câu f hoặc e), chúng tôi xác định cụm từ này (chúng tôi gọi là cụm từ nguồn) và tìm cụm từ còn lại (chúng tôi gọi là cụm từ đích).

Chúng ta có thể thấy trong Hình4.1, một so khớp của mẫu cú pháp "DT/JJ/NN" được tìm thấy. Như vậy, cụm từ nguồn pe= "a good student" sẽ được phát hiện và rút trích.

Bảng 4.1:Một số ví dụ về mẫu cú pháp và cụm từ tương ứng trong tiếng Anh.

STT Mẫu cú pháp Cụm từ

1. DT/NN a book

this computer 2. DT/NNS the books

these employees 3. DT/JJ/NN that interesting book

a good student

4.2.2 Tìm cụm từ đích

Giả sử chúng ta đã xác định được cụm từ nguồn pe=fj1...fj2 ở trong câu f, bây giờ chúng ta cần tìm một chuỗi các từ ei1...ei2 trong câu e, là bản dịch của cụm từ nguồn. Để thực hiện công việc này, chúng tôi sử dụng phương pháp gióng hàng cụm từ của Vogel [117] được trình bày trong công thức (4.1).

P ri1,i2(f|e) = j1−1 Y j=1 X i6∈(i1..i2) 1 I −kt(fj|ei) × j2 Y j=j1 i2 X i=i1 1 kt(fj|ei) × J Y j=j2+1 X i6∈(i1..i2) 1 I −kt(fj|ei) (4.1)

Ranh giớii1 vài2 của cụm từpv trong câu đích được xác định bởi công thức (4.2).

(i1, i2) = arg max

i1,i2

Trong công thức (4.1), t(fj|ei) là xác suất dịch từ vựng (xác suất từ ei dịch sang từfj). Chúng tôi sử dụng Thuật toán 3.1 (ở Chương 3) để tính xác suất này.

4.2.3 Rút trích cụm từ

Bây giờ, chúng tôi thực hiện rút trích các ứng viên của cụm từ song ngữ, như sau:

• Tính xác suất t(f|e)

• Với mỗi cặp câu (f(l),e(l)),1≤l ≤N1:

– Với mỗi cặp mẫu cú pháp trong tập các mẫu cú pháp được xác định trước:

∗ Nếu một cặp mẫu cú pháp được so khớp thì (pe, pv) là một ứng viên của cụm từ song ngữ.

∗ Ngoài ra, nếu một mẫu cú pháp trong ngôn ngữ nguồn được so khớp thì rút trích cụm từ nguồn pe và tìm kiếm cụm từ đích pv

dùng công thức (4.2).

Tiếp theo, để lọc cụm từ song ngữ (loại bỏ các cụm sai), chúng tôi tính xác suất dịch cụm từ bằng cách sử dụng tần suất tương đối:

P r(pv|pe) = N(pv, pe)

N(pe) (4.3)

Trong công thức (4.3), pe và pv lần lượt là cụm từ nguồn và đích. N(pe, pv) là số lần cụm pe được dịch bởi pv và N(pe) là số lần pe xuất hiện trong ngữ liệu. Lambert và cộng sự [94] đã chỉ ra rằng dữ liệu thưa có thể làm cho xác suất ước lượng theo cách này được đánh giá quá cao. Vì thế, và xác suất nghịch đảo

P r(pe|pv) đã được chứng minh sẽ ước lượng tốt hơn. Để tăng độ tin cậy, chúng tôi sử dụng giá trị nhỏ nhất của hai tần suất tương đối như là xác suất dịch cụm từ, như thể hiện trong công thức (4.4).

P r0(pv|pe) = min(P r(pv|pe), P r(pe|pv)) (4.4)

Thuật toán 4.1 mô tả phương pháp của chúng tôi đề xuất để giải quyết bài toán rút trích cụm từ song ngữ. Đầu vào cho thuật toán là một tập hợp các cặp câu (f,e) và tập S chứa các cặp mẫu cú pháp s= (se, sv) được xác định trước.

Thuật toán 4.1 Rút trích cụm từ song ngữ.

Đầu vào: Tập các câu song ngữ (f,e), S là tập các mẫu cú pháp s= (se, sv).

Đầu ra: B là tập hợp các cụm từ song ngữ

1: tính xác suất t(f|e)

2: //khởi tạo

3: B =∅

4: for all các cặp câu (f,e)do

5: //so khớp các mẫu cú pháp

6: if cặp mẫu cú pháps = (se, sv)∈S phù hợp (được so khớp) then

7: rút trích ứng viên của cụm từ song ngữ p= (pe, pv)

8: B =B∪ {p}

9: else if mẫu cú pháp se∈S (ở câu nguồn) phù hợp then

10: rút trích cụm từ ở câu nguồn pe 11: tìm cụm từ ở câu đích pv dùng công thức (4.2) 12: B =B∪ {p} 13: end if 14: end for 15: //lọc các cụm từ song ngữ

16: for all các ứng viên của cụm từ song ngữ p= (pe, pv)do

17: if P r(pv|pe)< θ then

18: B =B\ {p} 19: end if

20: end for

Một phần của tài liệu (LUẬN văn THẠC sĩ) khai phá tri thức song ngữ và ứng dụng trong dịch máy anh việt luận án TS công nghệ thông tin 62 48 01 01 (Trang 102 - 105)

Tải bản đầy đủ (PDF)

(129 trang)