Những khó khăn gặp phải khi áp dụng SIRM (Smooth Injective Map Recognizer)

Một phần của tài liệu CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc (Trang 59 - 63)

Recognizer) và GSA [10]

Như đã giới thiệu trong phần 2 (các công trình nghiên cứu liên quan), SIMR là một giải thuật tham lam, phụ thuộc vào sự tương quan chiều dài của các văn bản thành phần trong văn bản song ngữ. Nó tìm ra một bản đồ ánh xạ dựa trên những điểm giống nhau trên mặt phẳng xác suất của văn bản song ngữ. Có thể nhắc lại các bước trong quá trình canh lề:

Giải thuật SIMR gồm các giai đoạn:

 Tạo điểm.

 Nhận dạng chuỗi.

 Lọc nhiễu.

 Chọn điểm.

 Thu giảm không gian tìm kiếm.

SIMR không có ý tưởng đối sánh những câu trong văn bản song ngữ, nó chỉ xuất ra một tập hợp các điểm mà ở đó có sự tương ứng về nghĩa trong văn bản song ngữ. Để tạo ra sự tương ứng lớn hơn như sự tương ứng về câu, về đoạn thì cần sự hỗ trợ của thuật toán GSA.

Trong giai đoạn tạo điểm, bắt đầu từ một hình chữ nhật nhỏ cho trước có đường chéo song song với đường chéo chính, SIMR sẽ tạo ra tất cả các điểm thoả mãn vị từ so trùng (matching predicate). Trong giai đoạn nhận dạng chuỗi, SIMR sẽ gọi thuật toán nhận dạng để nhận ra các chuỗi thích hợp từ các điểm được tạo ra. Nếu không tìm thấy một chuỗi thích hợp nào cả, thì hình chữ nhật ở trên sẽ được mở rộng sao cho đường chéo của nó vẫn song song với đường chéo chính, sau đó quá trình tạo điểm và nhận dạng chuỗi lại được lặp lại. Hình chữ nhật trên sẽ được tiếp tục mở rộng cho đến khi ít nhất một chuỗi được tìm thấy. Trong trường hợp có nhiều chuỗi được tìm thấy thì SIMR sẽ lựa chọn chuỗi mà có các điểm tương đối tập trung gần

đường thẳng hồi quy của chuỗi. Khi SIMR tìm thấy một chuỗi thì nó sẽ chọn một hình chữ nhật nhỏ khác cũng có đường chéo song song với đường chéo chính để tìm chuỗi tiếp theo.

Hình chữ nhật đầu tiên mà SIMR chọn có một đỉnh trùng với điểm gốc, trong quá trình tìm kiếm tiếp theo thì hình chữ nhật kế tiếp sẽ có đỉnh nằm trên góc trên bên phải của chuỗi vừa tìm thấy (hình 4-2).

Hình 4-18. Quá trình tạo điểm và mở rộng hình chữ nhật tìm kiếm

Phần tiếp theo sẽ trình bày sự không phù hợp của SIRM khi áp dụng vào các trường hợp canh lề chéo mà chúng ta đang quan tâm.

Vấn đề 1: Một đoạn lớn các điểm không đều (Large Non-monotonic Segments)

Đối với những đoạn nhỏ không đều thì SIRM có thể phát hiện được. Tuy nhiên cách mở rộng hình chữ nhật tìm kiếm như trên có thể bỏ sót những đoạn không đều lớn, mà nguyên nhân là do sự dịch chéo.

Hình 4-19. Phát hiện những đoạn canh lề sót trong giải thuật SIRM.

Đoạn i và đoạn j bị đổi chỗ cho nhau trong quá trình dịch thuật. Thành phần theo trục ngang của đoạn i tương ứng với khoảng trống theo trục ngang của bản đồ, thành phần theo trục đứng của đoạn j tương ứng với khoảng trống theo trục đứng trong bản đồ ánh xạ.

Đề xuất hướng giải quyết của tác giả ở đây là tìm kiếm lại một lần nữa ở những đoạn lớn mà nó không tìm thấy điểm tương ứng. Sau khi nhận dạng ra được chuỗi những điểm mới, chúng ta phải tiến hành cập nhật bảng đồ ánh xạ và thực hiện một số thao tác khác.

Vấn đề 2: Sự biến đổi độ nghiêng cục bộ

Khái niệm góc lệch lớn nhất (maximum angle deviation threshold) xuất hiện nhằm loại bỏ những chuỗi không thật. Giá trị này phải nhỏ. Tuy nhiên, như các quyết định cảm tính (heuristic) khác, nó có thể từ chối một số các điểm canh lề tốt.

Hình 4-20. Sự biến đổi độ nghiêng cục bộ trong giải thuật SIRM.

Chuỗi X là một chuỗi hợp lệ, mặc dù góc nghiêng của nó lớn hơn góc nghiêng cực đại cho phép. Những chuỗi có giá trị mà bị từ chối vì giá trị thông số này đôi khi lại được chấp nhận thành hai chuỗi tách rời. Nếu chuỗi C, và D được chấp nhận một cách hợp lệ thì góc nghiêng của bản đồ ánh xạ giữa điểm cuối của chuỗi C và điểm đầu của chuỗi D, thì gần hơn là góc nghiêng của đường chéo chính. Chuỗi X nên được chấp nhận. Nó cũng sẽ được phát hiện trong quá trình tìm kiếm lần thứ 2.

Một trường hợp khác xảy ra biến đổi độ nghiêng cục bộ là đoạn văn bản “non- linguistic” như khoảng trắng hay bảng số liệu. Thông thường, những đoạn văn bản như vậy có nội dung hoàn toàn giống nhau trong dịch thuật, nên trong không gian văn bản, độ dốc bằng 1. Nếu như đoạn văn bản loại này đủ lớn nó sẽ kéo lệch độ nghiêng của đường chéo chính. Điều này sẽ đánh lừa SIRM trong quá trình tìm kiếm trên toàn bộ văn bản để tìm ra chuỗi các điểm tương ứng, chuỗi này sẽ có độ nghiêng gần với 1 hơn, trong khi những đoạn văn bản bình thường khác lân cận với nó có độ nghiêng hoàn toàn khác.

Vấn đề 3: Sự mất phương hướng của giải thuật tham lam (greedy algorithm)

Vấn đề xảy ra khi giải thuật tham lam đi lệch hướng. Nó sẽ không thể quay trở lại đúng hướng. Không có gì chắc chắn SIRM sẽ không mắc phải, khi nó gặp những trường hợp khó quyết định (ví dụ: quyết định chọn ra một trong các chuỗi tìm thấy). Sử dụng một số quyết định cảm tính (heuristics) như: độ lệch cực đại cho phép, chiều dài tối đa của chuỗi (từ 6-7 điểm tương ứng), SIRM hi vọng sẽ tránh được những hạn chế này.

Một phần của tài liệu CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc (Trang 59 - 63)