2 Phương pháp canh lề dựa vào từ vựng:
2.5 Phương pháp của Antonio Ribeiro, Gabriel Lopes và Joao Mexia:[8]
Tác giả giới thiệu một phương pháp canh lề song ngữ độc lập với ngôn ngữ là sử dụng lại tri thức học được sử dụng thuật toán dãy giới hạn (Confidence Bands Algorithm – CBA). Hệ thống trích ra những cặp từ tương đồng và sử dụng nó để tạo ra những điểm mốc mới. Những điểm gây nhiễu (noisy points) có thể được lọc ra dùng biểu đồ khoảng cách:
Hình 2-3 Biểu đồ khoảng cách trong phương pháp [8]
Những điểm mà có thể dẫn đến canh lề sai cũng sẽ được lọc đi dùng dãy giới hạn (Confidence Bands - CB) với phân tích hồi qui tuyến tính, thay vì dùng các quyết định cảm tính (heuristics) mà heuristics này không dựa trên một cơ sở lý thuyết nào.
Hình 2-4 Dãy giới hạn (CB) trong phương pháp [8]
Ví dụ: điểm A nằm ngoài CB, nên nó được lọc ra khỏi những điểm có thể canh lề.
Giải thuật được mô tả như sau:
1) Nhận vào văn bản song ngữ A và B.
2) Định nghĩa điểm đầu point(0,0), và điểm cuối point(length(A),length(B)). Nó xác định nên đoạn văn bản canh lề đầu tiên (initial segment).
3) Phát hiện ra những điểm tương ứng nhau là những từ viết giống nhau (homoggraph), và những từ có nghĩa giống nhau (equivalent word) có trong từ điển mà có tần suất xuất hiện giống nhau trong đoạn văn bản. 4) Lọc ra những điểm ở xa dùng kỹ thuật biểu đồ.
5) Lọc ra những điểm nằm ngoài Confidence Band.
6) Với mỗi một đoạn nhỏ xác định bởi 2 điểm mốc liên tiếp nhau, lặp lại thao tác từ bước 3 đến bước 6.
7) Trích ra những điểm dịch giống nhau cho vào kho ngữ liệu. 8) Lặp lại từ bước 2.
Như vậy tại mỗi bước lặp thì kho ngữ liệu mở rộng, để bước lặp tới tốt hơn.