1.1 Phép canh lề:
Phép canh lề là quan hệ hai ngôi giữa các thực thể ngôn ngữ (linguistic entities). Cho một văn bản song ngữ thì văn bản thành phần A, B của văn bản song ngữ được coi như chuỗi các thực thể A={a1, a2, …, an}, B={b1, b2, …, bm}. Chúng ta có thể định nghĩa phép canh lề XAB như là một quan hệ hai ngôi trên tập A∪B:
XAB={(a1,b1),(a2,b2),…}
Cặp (a,b) thuộc về quan hệ XAB nếu và chỉ nếu tồn tại một sự tương ứng về nghĩa giữa a và b, sự tương ứng về nghĩa này có thể toàn bộ hay chỉ một phần.
Nếu các thực thể ngôn ngữ được canh lề là câu thì chúng ta sẽ có phép canh lề câu (sentence alignment), nếu là các cụm từ thì chúng ta có phép canh lề cụm từ (phrase alignment), còn nếu chúng là các từ thì chúng ta có phép canh lề từ (word aligment).
Mục đích của việc canh lề câu là tìm ra nhóm câu của ngôn ngữ này (thông thường mỗi nhóm sẽ có một câu) tương ứng với nhóm câu nào đó trong ngôn ngữ kia. Những nhóm câu này được gọi là một bead hay block.
Một câu tiếng Anh thường được dịch ra một câu tương ứng trong tiếng Việt, ta gọi phép canh lề này là phép canh lề một-một (1-1). Phép canh lề này có xác suất lớn nhất trong các phép canh lề.
Nếu một câu tiếng Anh được dịch ra hai câu tiếng Việt thì ta gọi phép canh lề này là phép canh lề một-hai (1-2). Trường hợp ngược lại gọi là phép canh lề hai-một (2-1).
Cũng có khi một câu tiếng Anh vì lý do gì đó không được dịch hoặc bị xoá, do đó không có câu nào trong văn bản tiếng Việt. Ta gọi phép canh lề này là phép canh lề một-không (1-0), ngược lại là phép canh lề không một (0-1).
Về mặt lý thuyết còn có phép canh lề ba-một (3-1) hoặc phép canh lề một-ba (1-3), nhưng với xác suất vô cùng thấp.
1.2 Phép canh lề chéo.
Một văn bản thường được dịch từ trên xuống. Nếu một câu thứ i trong văn bàn nguồn được dịch thành câu thứ j trong văn bản đích thì câu thứ i+1 trong văn bản nguồn được dịch thành câu thứ j+1, hoặc có thể được dịch thành câu thứ j+1 và câu thứ j+2 (trường hợp một câu trong văn bản nguồn được dịch thành 2 câu trong văn bản đích). Nếu vi phạm điều đó là canh lề chéo.
…… Câu thứ i Câu thứ i+1 Câu thứ i+2 …… …… Sentence jth Sentence j+1th Sentence j+2th ……
Hình 3-6 Canh lề chéo trong văn bản song ngữ
Điều này hoàn toàn có thể xảy ra trong dịch thuật. Nhưng khi quan sát các văn bản song ngữ, sự xuất hiện canh lề chéo là rất ít, gần như không có các câu dịch theo thứ tự chéo. Do đó trong các thuật toán người ta ít khảo sát canh lề chéo.