4.1 Nghiên cứu của tác giả Lê Hoài Nhân (2004):
Tác giả này đã sử dụng hai phương pháp khác nhau: phương pháp canh lề dựa vào chiều dài câu, và phương pháp canh lề dựa vào từ vựng. Để sử dụng phương pháp canh lề dựa vào chiều dài câu, tác giả tính chiều dài câu dựa vào số lượng từ. Ngoài ra, còn thực hiện một số giải thuật phụ trợ: phân đoạn câu, phát hiện hình vị và chuẩn hóa văn bản.
Kết quả: Tiến hành thử nghiệm trên 8 văn bản song ngữ Anh-Việt (số lượng khá ít). Kho ngữ liệu chỉ khoảng 3000 cặp câu song ngữ Anh-Việt. Do kho ngữ liệu còn nhỏ nên kết quả canh lề còn nhiều hạn chế.
Độ chính xác cho canh lề dựa trên chiều dài câu: 98%.
Độ chính xác cho canh lề dựa trên từ vựng: 96%.
4.2 Nghiên cứu của tác giả Trần Giang Sơn (2005) [3]: Canh lề văn bản Anh-Việt dựa trên giải thuật SIMR và GSA.
Tác giả đã kế thừa những kết quả nghiên cứu trước đó trên thế giới có sửa đổi cho phù hợp với tính chất của tiếng Việt. Ngoài ra còn phải dùng thêm một số giải thuật phụ trợ: giải thuật phân đoạn câu để phân đoạn văn bản thành câu; dựa thêm vào canh lề văn bản theo chiều dài câu để tạo ra phép canh lề mịn cho các câu trong một khối văn bản canh lề.
Kết quả:
Theo tác giả, chương trình chạy ổn định, rất tiện dụng
Độ chính xác cao: 99,4%.
Phần 3
Cơ sở lý thuyết
Phần này trình bày một số định nghĩa, các công thức toán học, một số hệ số đánh giá phép canh lề. Ngoài ra, phần này cũng cung cấp một số lý thuyết cơ bản về xác suất thống kê, là cơ sở để phân tích giải thuật ở những phần sau.