3.2.1. Theo độ dài
Phương pháp tiếp cận dựa trên độ dài dựa trên quan điểm là độ dài của các đoạn văn bản thường tỷ lệ thuận với các bản dịch tương đương của nó. Giải thuật gióng hàng sớm nhất phải kể đếnGale và Church [1], họ đã đề xuất một phương pháp đếm các ký tự (sau này được cải tiến trong giải thuật Vanilla Aligner [13]), và Brown – thay thế bằng việc đếm các từ. Một trong những điểm yếu của phương pháp tiếp cận dựa trên chiều dài là khó phát hiện các câu lệch, bị xóa, hoặc thêm trong bản dịch.
Vanilla Aligner có thể giải quyết vấn đề tinh tế hơn, nó cho phép gióng hàng câu thuộc loại 1 – 2 và 2 – 1. Đây cũng là một vấn đề hay gặp phảivới các ngơn ngữ thuộc Đơng Nam Á nói chung và với Tiếng Việt nói riêng, khi mà khơng phải lúc nào cũng có đánh dấu ranh giới câu rõ ràng.
Mặc dù vẫn có một số nhược điểm trong việc phát hiện câu ghép và xóa, đồng thời hiệu suất thực hiện cũng không cao, nhưng phương pháp gióng hàng theo chiều dài này khá là độc lập với ngôn ngữ, đặc biệt là giữa các ngôn ngữ châu Âu, đây là một đặc điểm rất đáng được quan tâm.
3.2.2. Hướng tiếp cận dựa vào ngữ nghĩa
Tính chất từ vựng, chẳng hạn như cùng nguồn gốc hoặc những cụm từ và từ“neo”có thể được sử dụng để gióng hàng. Đặc biệt với sự trợ giúp của từ điển song ngữ, phương pháp này hồn tồn có thể mở rộng hơn nữa.
Kay và Roscheisen sử dụng các từ có phân bố tương tự nhau trong tập hợp các câu có khả năng phù hợp nhất như điểm neo trong gióng hàng câu. Fung sử dụng vector để xác định hàm phân phối của các từ trong các phân đoạn tùy ý của văn bản. Các thông tin phân phối sau đó được sử dụng để xây dựng một tập các từ neo có thể được sử dụng cho gióng hàng câu. Nevado [14] cũng được sử dụng một tập các từ neo, mà họ
tự xác định, ví dụ, “for”, “and”, “I would like”, và “I wish”.
Simard áp dụng những từ cùng nguồn gốc như một tiêu chuẩn chính thay vì chiều dài ký tự trong cách tiếp cận của họ. Trong tiếng Anh, cũng như tiếng Latin, các từ có cùng nguồn gốc là những từ biến đổi từ cùng một từ gốc và do đó âm vị học hay chữ
viết sẽ tương tự nhau. Ví như từ “haus”trong tiếng Đức và từ “house”trong tiếng
Anhđược coi như là có chung từ gốc. Sử dụng sự tương tự trong chữ viết như ý tưởng cơ bản, Simard cho rằng những từ gọi là cùng nguồn gốc khi mà chúng chia sẻ ít nhất bốn ký tự đầu tiên của từ, và phải có ít nhất bốn ký tự. Rõ ràng, cặp từ tương tự như
“haus” và “house” sẽ không được công nhận là cùng nguồn gốc trong phương pháp
tiếp cận của họ. Do đó việc dung từcùng nguồn gốc chỉ có thể được áp dụng trong bài tốn gióng hàng đối với cặp ngôn ngữ chia sẻ cùng một nguồn gốc.
Tần số xuất hiện của thứ tự từ cũng có thể được áp dụng để xây dựng một danh sách các từ được sử dụng trong gióng hàng.Trật tự từ là sự kết hợp các từ cùng xảy ra
một cách thường xuyên với một xác suất nào đó. Ví dụ, “stock market” và “make a
decision” là những cụm từ mang ý nghĩa và thường xuất hiện cùng nhau trong cùng
văn bản.
Cách tiếp cận dựa trên ngữ nghĩa là mang ý nghĩa của câu góp vào q trình xem xét đánh giá một cặp câu là dịch của nhau. Hunalign, sử dụng một bản dịch thô dựa trên từ điển để kiểm tra sự giống nhau của các câu trong văn bản nguồn và ngơn ngữ đích. Phương pháp của Piperidis lại dựa vào tìm kiếm động từ, danh từ, tính từ và trạng từ trong câu. Họ xác định phần lớn nghĩa của câu(semantic load)dựa trên những từ đó. Sau đó các từ đó được sử dụng như một tiêu chuẩn cho bài tốn gióng hàng.
3.2.3. Kết hợp độ dài và ngữ nghĩa
Một số phương pháp kết hợpcả haihướng tiếp cận vừa dựa trên đặc điểm ngữ nghĩa của từ vựng, vừa dựa trên đặc điểm chiều dài. Brown sử dụng một tập các từ “neo” để chia văn bản thành nhiều phần nhỏ trước khi sắp xếp câu bằng phương pháp đếm từ. Simard và Hoftland sử dụng từ cùng nguồn gốc để cải thiện một cặp câu liên kết dựa trên chiều dài.
Một cách cải tiến tốt nhất khi kết hợp cả độ dài và ngữ nghĩa được phát triển choHunalign. Varga sử dụngphương pháp của Gale và Church với thông tin và từ vựng để gióng hàng cho văn bản tiếng Hungary – tiếng Anh.
Đầu tiên, hunaligntính điểm tương đồng dựa trên chiều dài và mã (tag) của mỗi
câu. Tính điểm tương tự về chiều dài được dựa trên số lượng các ký tự có trong cả hai văn bản. Điểm tương tự của được tính tốn bằng cách sử dụng từ điển nếu nó có sẵn. Một bản dịch thô từ ngôn ngữ nguồn sang ngơn ngữ đích được thực hiện dựa trên từ điển. Bản dịch sau đó được so sánh với văn bản từ ngơn ngữ đích để tính lại điểm tương tự của mỗi câu.
Saukhi thực hiện gióng hàng ban đầu bằng cách tính điểm số tương tự dựa trên độ dài và nhãn đã được gán. Trong bước tiếp theo, phương pháp sẽ tự động sinh ra một bộ từ điển mới. Bộ từ điển mới xây dựng tiếp tục được sử dụng để cải thiện chất lượng bản dịch. Tiếp theo, việc gióng hàng được thực hiện bằng cách sử dụng kết hợp từ điển nội tạivà từ điển được cải thiện cho qua trình tính điểm.