So sánh phương pháp LSSA với CBA:

Rõ ràng qui trình canh lề của LSSA và CBA hoàn toàn giống nhau trừ lần lọc cuối cùng để quyết định giữ lại các điểm được canh lề. Sau lần lọc nhiễu dùng biểu đồ khoảng cách và loại ra những điểm nằm ngoài, một bộ lọc khác tốt hơn (CBA hoặc LSSA) cần được áp dụng để giữ lại những điểm tin cậy. Đây là 5 vấn đề mà CBA gặp phải mà LSSA có thể khắc phục.

CBA rất nghiêm khắc. Nó không chấp nhận một lượng lớn các điểm dự tuyển canh lề tốt (good alignment candidate point). Một giải thuật canh lề tốt nhất nên thỏa mãn các điều kiện sau:

(1) Các đoạn song song (parallel segments) phải là bản dịch của nhau

 Điều này có liên quan với độ chính xác (precision). (2) Các đoạn càng nhỏ càng tốt

 Điều này có liên quan với độ hoàn toàn (recall).

Một ví dụ canh lề do tác giả Tiago Ildefonso và Gabriel Pereira Lopes hiện thực trên cả hai phương pháp:

Hình 4-11. Kết quả thu được khi sử dụng CBA

Hình 4-12. Kết quả thu được khi sử dụng LSSA

Chúng ta nhận thấy rằng CBA bỏ đi 6 điểm tốt (good point) khi canh lề. Trong trường hợp này, độ chính xác khi sử dụng CBA là 100%. Đối với LSSA, độ chính xác là 92,8%, vì có lỗi canh lề trong đoạn 552, nhưng độ hoàn toàn (recall) cao gấp 6 lần.

Vấn đề 2: Cạm bẫy khi canh lề chéo (Disordering Pitfall).

Ví dụ dưới đây minh họa cách 2 giải thuật xử lý sau khi áp dụng lọc nhiễu bằng biểu đồ khoảng cách. Confidence Bands xác định độ lệch cho phép lớn nhất (maximum admitted deviation) từ giá trị mong đợi được tính theo đường thẳng hồi qui tuyến tính. Giá trị này thể hiện trong cột “distance_admitted_CB”, khoảng cách thực được thể hiện trong cột “distance”:

Hình 4-13. Tính khoảng cách trong CBA

Giải thuật CBA không loại bỏ bất cứ điểm canh lề dự tuyển nào. Xem 2 cột cuối của “table_7cols”, chúng ta thấy rằng tất cả chúng tuân theo “distance ≤ distance_admitted_CB”. Điểm yếu của hầu hết các giải thuật là không cho phép canh lề chéo nên khi duyệt lại danh sách các điểm canh lề thật sự theo thứ tự, kết quả canh lề như sau:

Hình 4-14. Kết quả canh lề sử dụng CBA

Với LSSA, giải thuật sẽ quyết định chọn chuỗi canh lề dài nhất, Kết quả cho thấy cả hai thông số, độ chính xác (precision) và độ hoàn toàn (recall), CBA đều có kết quả thấp hơn.

Hình 4-15. Kết quả canh lề sử dụng CBA

Vấn đề 3: Mô hình CB không phù hợp cho canh lề văn bản song ngữ

Hai vấn đề trên làm rõ được điều này. CBA là một giải thuật hay, nó áp dụng thành công trong các ứng dụng khác, tuy nhiên nó có vẻ không phù hợp khi áp dụng cho canh lề văn bản song ngữ. CB có tính chất là rộng ở hai đầu và hẹp hơn ở đoạn giữa của đường thẳng hồi qui. Đó là lý do tại sao ở vấn đề 1, nó bỏ qua những điểm canh lề ở đoạn giữa, và nó lại chấp nhận điểm không phù hợp ở vị trí đầu tiên trong vấn đề 2.

Vấn đề 4: Ba điểm dự tuyển hoặc không có điểm nào

Xét ví dụ canh lề song ngữ Bồ Đào Nha và Pháp.

Hình 4-17. Kết quả canh lề dùng LSSA

Giải thuật LSSA chia đoạn 205 thành 11 đoạn, trong khi CBA lại không tìm thấy điểm tương ứng. Có thể giải thích: do trong đoạn 205, chỉ có 2 điểm dự tuyển được chấp nhận bởi biểu đồ khoảng cách (Histogram Filter), và tiếp tục qua bước lọc dùng CBA. Vì không thể áp dụng CBA khi có ít hơn 3 điểm dự tuyển, chúng ta không chia nhỏ văn bản được nữa. Theo Ribeiro et al (2000), thông số s (độ lệch chuẩn) có mẫu số bằng “n-2”, trong đó n là số lượng điểm dự tuyển.

2 ) ( 1 − − = ∑ = n y y s n i i 

Vì thế, n phải lớn hơn hoặc bằng 3. LSSA không có giới hạn nào về số lượng điểm tối thiểu. Vấn đề này thật sự quan trọng trong bước đệ qui của giải thuật. Không thực hiện đệ qui, chúng ta không thể đạt được độ hoàn toàn như mong đợi. Hơn nữa, thực nghiệm thấy rằng 25% các cơ hội xuất hiện khi đệ qui, nhưng chỉ có một hoặc hai điểm được chấp nhận bởi CBA.

Vấn đề 5: Giá trị t_students (trên 120 điểm)

Ribeiro et al cũng cho rằng, đối với công thức Confidence Bands, họ sử dụng một giá trị t_students là 3.27 đối với số điểm lớn (large samples of points)(trên 120). Nhưng giá trị này nên được điều chỉnh động tùy vào số lượng điểm mà chúng ta có đối với mỗi tình huống được áp dụng giải thuật. Hiển nhiên là giải thuật có đệ qui, và

phần lớn các lần chạy giải thuật CB sẽ có ít hơn 120 điểm dự tuyển. Ngay cả không thực hiện đệ quy, một số văn bản nhỏ hơn cũng sẽ không có 120 điểm dự tuyển khi khảo sát toàn bộ văn bản.

Kết hợp các phương pháp:

Nghiên cứu của các tác giả trong nước: