Phương pháp canh lề văn bản dựa vào chiều dài câu có ưu điểm là đơn giản, tốc độ thực thi nhanh, không cần kho ngữ liệu ban đầu. Tuy nhiên, đôi khi nó không chính xác, và nhập nhằng trong việc quyết định. Phương pháp canh lề dựa vào từ vựng có thể giải quyết một số khuyết điểm của phương pháp canh lề theo chiều dài câu, nhưng nó yêu cầu phải có kho ngữ liệu đủ lớn và chính xác cho từng cặp ngôn ngữ canh lề. Ngoài ra, tốc độ thực thi chậm, xử lý phức tap. Để có thể tận dụng được những ưu điểm của cả hai phương pháp, nhiều tác giả đã phối hợp sử dụng cả hai phương pháp trong từng giai đoạn xử lý của giải thuật.
3.1 Phương pháp của nhóm tác giả Thomas C.Chuang, Jian-Cheng Wu, Tracy Lin, Wen_Chie Shei, and Jason S.Chang:[2] Tracy Lin, Wen_Chie Shei, and Jason S.Chang:[2]
Là sự kết hợp phương pháp canh lề dựa vào chiều dài câu, thống kê dấu chấm câu, và từ vựng. Họ sử dụng để canh lề cho văn bản song ngữ Trung Quốc-Anh, sử dụng Chinese-English LEGCO corpus.
Đây là bảng liệt kê sự tương ứng trong việc sử dụng ký hiệu kết thúc ở tiếng Trung Quốc, và tiếng Anh:
Epunc Cpunc Ptype Count Prob
, ’ 1-1 541 0.8098 . ° 1-1 336 0.6575 ” 1-1 131 0.3420 . ’ 1-1 113 0.2211 ” 1-1 112 0.2924 ” 1-1 65 0.1697 ” 1-1 59 0.1540 , ` 1-1 56 0.0838
, ° 1-1 41 0.0613 ! ! 1-1 38 0.8835 ,” ! 2-2 6 0.9564 .” ’ 2-2 3 0.9164 ?” ’ 2-2 2 0.6110 .! …! 2-2 1 0.7852
Bảng 2-3. Thống kê tần suất xuất hiện các ký hiệu trong phương pháp [2]
Kết quả đạt khi áp dụng kết hợp một, hai hoặc ba yếu tố như sau:
Method #paragraph #matches #correct
matches Precision Average length Punctuation only 100 529 332 63% 90.73 Length only 100 389 284 73% 123.74 Punctuation+Lexicon 100 508 425 84% 94.52 Lengh+Lexicon 100 334 246 74% 144.28 Punctuation+Length 100 476 435 91% 100.94 Punctuation+Length+Lexicon 100 454 437 96% 105.88
Bảng 2-4. Kết quả của phương pháp [2]
3.2 Phương pháp của Stanley F.Chen:[14]
Tác giả kết hợp giữa phương pháp dựa vào chiều dài câu và phương pháp dựa vào từ vựng. Về cơ bản, giải thuật vẫn dùng lập trình động để tính khoảng cách của các phép canh lề giống như phương pháp của tác giả Gale[16]. Tuy nhiên, thay vì tính xác suất của một phép canh lề dựa vào chiều dài câu, tác giả tính xác suất dựa vào mô hình dịch từ sang từ (word to word translation model). Mô hình dịch từ sang từ được tính toán và cập nhật liên tục trong quá trình canh lề. Do đó, tại thời điểm canh lề các câu đầu tiên của văn bản, khi chưa có mô hình dịch, giải thuật phải dựa vào một corpus nhỏ các cặp câu đã được canh lề trước.
Kết quả: Độ chính xác: 96%.
Ưu điểm:
Kết hợp ưu điểm của hai phương pháp canh lề dựa vào chiều dài câu và dựa vào từ vựng.
Khắc phục một số khuyêt điểm của hai phương pháp này.
Nhược điểm:
Yêu cầu có một corpus nhỏ các cặp câu song ngữ.
3.3 Phương pháp canh lề theo giải thuật SIMR và GSA. Nghiên cứu của tác giả I. Dan Melamed [10] : tác giả I. Dan Melamed [10] :
SIMR (Smooth Injective Map Recognizer): Thuật toán SIMR dùng để ánh xạ các thành phần tương ứng của văn bản song ngữ. Các thành phần tương ứng này có thể là các từ có cùng nguồn gốc (cognates), các dấu phân cách đoạn và câu, các từ là phiên dịch của nhau.
GSA (Geometric Segment Alignment): Thuật toán GSA dùng để canh lề đoạn và câu, với đầu vào chính là kết quả cảu SIMR.
SIMR là một giải thuật tham lam, phụ thuộc vào sự tương quan chiều dài của các văn bản thành phần trong văn bản song ngữ. Nó tìm ra một bản đồ ánh xạ dựa trên những điểm giống nhau trên mặt phẳng xác suất của văn bản song ngữ. Dùng giải thuật SIMR và GSA ta có thể tận dụng những ưu thế của hai xu hướng dựa vào chiều dài câu và dựa vào từ vựng.
Vì ưu điểm của SIMR và GSA trong việc áp dụng vào canh lề khối văn bản, có rất nhiều tác giả trên thế giới tìm hiểu và áp dụng. Có thể kể đến:
Văn bản song ngữ với nội dung văn bản gồm hai ngôn ngữ khác nhau, được biểu diễn bằng một hình chữ nhật thể hiện không gian của văn bản song ngữ.
Chiều cao và chiều rộng của hình chữ này chính là chiều dài của hai văn bản thành phần được tính bằng số lượng các ký tự. Gốc thấp bên trái gọi là điểm gốc (origin), nó biểu thị điểm bắt đầu của hai văn bản. Góc cao bên phải gọi là điểm kết thúc (terminus), nó biểu thị điểm cuối của hai văn bản.
Trong không gian của văn bản song ngữ ngoài điểm gốc và điểm kết thúc còn chứa những điểm tương ứng thực sự (TCPs – true oints of correspondence). Ví dụ, một từ ở vị trí p trên trục x và một từ ở vị trí trí q trên trục y là 2 từ dịch của nhau thì toạ độ (p,q) là một TCP. Ngoài những từ dịch của nhau thì TCP cũng có thể là sự tương ứng giữa các điểm kết thúc của câu, đoạn trong hai văn bản thành phần. Nhóm của một số điểm TCP nằm trên một đường thẳng hoặc gần thẳng được gọi là một chuỗi (chain). Tâp hợp đầy đủ các điểm TCP tạo nên bản đồ ánh xạ thực sự (TBM – true bitext map) của văn bản song ngữ. Nhiệm vụ của SIMR là tạo ra một bản đồ ánh xạ (bitext map) gần đúng nhất với TBM.
Giải thuật SIMR gồm các giai đoạn:
Tạo điểm.
Nhận dạng chuỗi.
Lọc nhiễu.
Chọn điểm.
Thu giảm không gian tìm kiếm.
SIMR không có ý tưởng đối sánh những câu trong văn bản song ngữ, nó chỉ xuất ra một tập hợp các điểm mà ở đó có sự tương ứng về nghĩa trong văn bản song ngữ. Để tạo ra sự tương ứng lớn hơn như sự tương ứng về câu, về đoạn thì cần sự hỗ trợ của các thuật toán khác. Ở đây, tác giả sử dụng thuật toán GSA. GSA có thể sử dụng để canh lề câu đoạn, chương…Tác giả không xét phép canh lề chéo. Tác giả đã sử dụng để canh lề cho văn bản Anh-Pháp, dung lượng văn bản lên đến 200 MB.
Ưu điểm:
Tổng quát hơn các giải thật khác, khi nó áp dụng cả từ vựng và chiều dài câu để tìm ra các điểm TCP.
Hỗ trợ phương pháp canh lề theo chiều dài câu trong việc canh lề đoạn trước.
Nhược điểm:
Phức tạp
Cần từ điển song ngữ.