Với ( ) là vị trí tương đối của từ đầu tiên của văn bản đo bằng tỷ lệ phần trăm của tổng số từ trong văn bản ở ngôn ngữ tương ứng, và tương tự cho ( ). Chúng ta cũng có thể sử dụng vị trí của đoạn văn thay vì từ; tức là tỷ lệ phần trăm trên tổng số các đoạn văn bản; nhưng các biện pháp dựa trên số từ đã được công bố là tốt hơn so với việc dựa trên số lượng đoạn, và phù hợp với quan sát của chúng tôi.
4.3.2. Độ đo đề xuất
Giả sử chúng ta đang làm việc với một cặp sách điện tử song ngữ tiếng Anh và
tiếng Việt. Cuốn sách tiếng Anh E bao gồm I đoạn văn , … , và cuốn sách tiếng
Việt V bao gồm J đoạn , … . , . Lấy T là một bản dịch tiếng Anh của cuốn sách tiếng ViệtV và là một bản dịch tiếng Anh của (trong cuốn sách tiếng Anh). Gọi ( ) và ( )là tập n-gram của đoạn và , tương ứng. Khi đó định nghĩa độ đo mức tương tự nhau giữa và như sau.
, = ∗ , + ∗ ( , )/ ( , ) = ∗| ( ) ⋂ ( ) | | ( ) ⋃ ( ) | + ∗ ( , )/ ( , ) (4.4)
Trong phương trình này, là ma trận tương đồng của hai đoạn văn, 0 ≤ ≤ 1. Trọng số ( , ) xác định tỉ lệ tham gia của hai thành phần:
Độ dài đoạn– : là thành phần mang thông tin về độ dài của đoạn. Như phân tích ở phần trên thì độ dài đoạn được tính bằng số lượng từ của đoạn đó. Trong
hai đoạn thì đoạn nào cố số từ ít hơn sẽ được tính là giá trị mintương tự với giá trị max.
Độ tương tự– : là thành phàn xác định mức độ giao nhau giữa hai đoạn văn. Tức là khi hai đoạn có số từ trùng nhau càng nhiều thì hai đoạn đó càng có khả năng là dịch của nhau.
Mục tiêu của nghiên cứu này là tìm ra một bộ liên kết A, nối các đoạn văn trong
mỗi liên kết, chúng ta phải phát hiện đơn vị song song (bao gồm một hoặc nhiều đoạn). Để làm cơng việc này, chúng ta sẽ tính tốn độ tương tự cho tất cả các mẫu phù hợp (1 với 1, 1 với 2, 1 với 3, 2 với 1, và 3 với 1) bằng cách sử dụng hàm tương tự ( , ) trong Phương trình 4.4. Sau đó, một cặp ( , ) với số điểm tương đồng tối ưu nhất sẽ được lựa chọn như trong phương trình (4.5). Và do đó chúng ta sẽ có văn bản song song ( , ) từ các mẫu tốt nhất ( , ).
( , ) = arg max ⎩ ⎪ ⎨ ⎪ ⎧ ( , ) ( , ) ( , ) ( , ) ( , ) (4.5) Với, = 1, . . . − 2, = 1, . . . – 2