Phương pháp canh lề sử dụng “chuỗi được sắp xếp dài nhất” (Longest Sorted

Một phần của tài liệu CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc (Trang 53 - 54)

Trên cơ sở cải tiến phương pháp canh lề dùng Confidence Bands của các tác giả Antonio Ribeiro, Gabriel Lopes và Joao Mexia, nhóm của Tiago Ildefono and Gabtiel Pereira Lopes nhận thấy nhiều vấn đề chưa giải quyết được của phương pháp dùng Confidence Bands. Các bước tạo điểm và lọc nhiễu dùng biểu đồ khoảng cách. Sự khác biệt duy nhất là sự thay thế phương pháp Confidence Bands bằng giải thuật Longest Sorted Sequence (LSSA). Ở mục sau sẽ so sánh và trình bày lý do tại sao lại thay thế Confidence Bands bằng LSSA. Ưu điểm nổi bật là nó nhanh hơn và gia tăng số lượng các điểm được canh lề.

Giải thuật dựa trên ý tưởng chọn phép canh lề có chuỗi các từ được canh lề là dài nhất. Cụ thể như sau:

Định nghĩa 3 vector:

 L2_array_pos: chứa thứ tự các điểm tương ứng trong ngôn ngữ L2 sắp xếp theo thứ tự tăng dần trong ngôn ngữ L1.

 L2_array_weights: lưu trọng số mỗi phần tử trong L2_array_pos.

 L2_array_lss: giống như L2_array_pos, nhưng chỉ chứa các điểm tin cậy sau quá trình lọc.

Bước 1: Gán tất cả các trọng số bằng 1. (điều này tương ứng với việc có một điểm canh lề kết thúc phân đoạn).

Bước 2: Với mỗi phần tử trong mảng, tính trọng số tương ứng. Việc này cần phải duyệt qua tất cả các phần tử trước nó và so sánh giá trị và trọng số của mỗi phần tử. Nếu phần tử hiện tại có giá trị lớn hơn một trong các phần tử k trước, và có trọng số nhỏ hơn hoặc bằng, cập nhật trọng số của phần tử hiện tại bằng trọng số của phần tử k cộng thêm 1.

Sau khi trọng số được cập nhật, ghi nhận lại phần tử nào đang có trọng số lớn nhất.

Bước 3: Khi tất cả các trọng số được tính toán, duyệt từ phải qua trái các phần tử (L2_array_weights, L2_array_pos), bắt đầu từ phần tử có trọng số lớn nhất, chọn những phần tử có trọng số bằng trọng số của phần tử hiện tại trừ 1.

Xét ví dụ sau: Mảng L2_array_pos đã được sắp xếp theo thứ tự tăng dần của các phần tử trong L1.

0 1 2 3 4 5 6 7 8

L2_array_pos 1 10 30 200 100 41 45 50 54

L2_array_weights 1 2 3 4 4 4 5 6 7

L2_array_lss 1 10 30 41 45 50 54

Bảng 4-5. Giá trị các vector trong LSSA

Ta thấy rằng: hai phần tử thứ 3 và thứ 4 bị loại ra khỏi danh sách các điểm tương ứng được canh lề.

Một phần của tài liệu CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc (Trang 53 - 54)

Tải bản đầy đủ (DOC)

(103 trang)
w