BÀI TOÁNGIÓNG HÀNG ĐOạN VĂN

Một phần của tài liệu Gióng hàng văn bản song ngữ anh việt (Trang 36 - 40)

Cho một tập văn bản và bản dịch ở ngôn ngữ khác, nhiệm vụ gióng hàng văn bản bao gồm việc xác định các thành phần (chẳng hạn như từ) là bản dịch của nhau, như trong Hình 4.1, các từ là bản dịch của nhau được nối với nhau bởi đường thẳng. Trong trường hợp đơn giản như vậy, nhiệm vụ gióng hàng văn bản có thể được mô hình hóa thành một đồ thị hai phía có đỉnh là những thành phần trong văn bản và cung kết nối hai đỉnh nếu các thành phần tương ứng là bản dịch của nhau.

Tiếng Anh Tiếng Việt Tiếng Anh Tiếng Việt

Jone Jone Jone Jone

love yêu eats ăn

Mary Mary a quả

red táo

apple đỏ

(a) (b)

Hình 4.1: Gióng hàng mức câu

Tuy nhiên, trong những trường hợp phức tạp hơn một cụm các thành phần lại được dịch từ cụm các thành phần khác, trong khi cụm từ đó không thể được chia nhỏ thành tập cácthành phầntương ứng (Hình 4.2). Trong Hình 4.2 (a), một từ được dịch thành một cụm từ. Hình4.2 (b), một cụm từ được dịch thành một cụm từ khác, đồng thời không có từ dịch riêng lẻ.Hình4.2(c)cho thấy trường hợp chung nhất, các thành phần là dịch của nhau không nằm liên tiếp nhau trong câu.

(a)

(b)

(c)

Hình 4.2: Gióng hàng một cụm từ với một cụm từ

Với cấu trúc thể hiện trong Hình4.1, bài toán gióng hàng có thể được mô hình hóa bằng một đồ thị, nhưng cấu trúc ở Hình 4.2 lại tương đương với siêu đồ thị (hypergraph). Cho một tập các đỉnh V, một siêuđồ thịG trên V được định nghĩa là một đồ thị có đỉnh là các tập con không rỗng của V, một đường cung là một cặp tập con

của V: a = {X, Y}, X, Y ⊆ V, X, Y ≠∅. Một đường cung trên đồ thị có thể được đại diện bởi một liên kết với đỉnh“kết thúc” (Hình 4.2c), hoặc đơn giản là việc liên kết giữa các nhóm đỉnh (Hình 4.2a, 4.2b). Vì thế có thể coi văn bản song ngữ tương tự như một đồ thị nhị phân.Siêu đồ thịA được gọi là đồ thị hai phía nếu đỉnh của nó có hai loại: V = A ∪ B, A ∩ B = ∅, và vòng cung nối các thành phần khác: X ⊆ A, Y ⊆

B.

Đặc thù của bài toán gióng hàng phụ thuộc vào các đơn vị văn bản đang xem xét như: từ, mệnh đề, câu, đoạn văn, phần,…

Nếu các đơn vị quá lớn, chẳng hạn như toàn bộ phần hoặc chương, bài toán gióng hàng là tầm thường: văn bản và bản dịch của nó bao gồm cùng một số phần, tương ứng với nhau trong trật tự tự nhiên. Mặt khác, nếu các đơn vị văn bản là quá nhỏ, chẳng hạn như hình vị hoặc các từ –bài toán trở nên phức tạp hơn (Hình 4.2). Đặc

biệt, trong các trường hợp mà có những thành phần không được dịch sẽ dẫn tới thứ tự của các thành phần không được bảo toàn, hoặc thậm chí các nhóm có thể không liên tục.

Hình 4.3: Gióng hàng mức câu

Các đơn vị cỡ vừa như câu và đoạn văn là một trường hợp trung gian: trong khi bài toán gióng hàng cũngkhông quá đơn giản, đồng thờisẽ không mang các đặc trưng nêu trên. Đặc biệt là trong trường hợp của đoạn văn, thứ tự của các thành phần được bảo toàn và mỗi phần tử có một bản dịch tương ứng. Hơn thế nữa, giả thiết rằng người dịch có thể kết hợp hai hoặc nhiều đoạn nguồn vào một đoạn dịch hoặc chia tách một đoạn nguồn thành một vài đoạn dịch, nhưng không thể sắp xếp các câu trong đoạn văn theo cách mà một phần cuối của một đoạn văn được dịch lại là khởi đầu của một đoạn văn khác. Mặc dù các giả thiết này không hoàn toàn đúng với thực tế, chúng ta đang đơn giản hóa đi để có thể mô hình hóa bài toán và các thuật toán.

Theo quá trình khảo sát, sự liên kết của đoạn văn trong văn bản nguồn và đích không chỉ là 1 với 1. Điều đó có nghĩa là, có nhiều loại khác của ánh xạ giữa các đoạn song ngữ. Tuy nhiên, nó thường thuộc về năm loại: 1 với 1, 1 với 2, 1 với 3, 3 với 1, hoặc 2 với 1. Sau đây là một ví dụ về một ánh xạ giữa một đoạn trong cuốn sách điện tử tiếng Anh và hai đoạn văn trong cuốn sách điện tử tiếng Việt:

– Đoạn tiếng Anh (trang 65, Steve Jobs, sách tiếng Anh).

• There was another reason that Joanne was balky about signing the adoption papers. Her father was about to die, and she planned to marry Jandali soon after. She held out hope, she would later tell family members, sometimes tearing up at the memory, that once they were married, she could get their baby boy back.

– Đoạn tiếng Việt (trang 21, Steve Jobs, sách tiếng Việt).

• Cũng còn một lý do khác khiến Joanne lúc đầu khăng khăng không ký giấy chuyển nhận con nuôi đó là vì cha bà sắp chết và bà dự định sẽ kết hôn với Jandali ngay sau đó.

• Bà hi vọng rằng sau khi cưới nhau, họ sẽ thuyết phục dần được gia đình và nhận lại con.

Ngoài những đặc điểm chung của mô hình bài toán gióng hàng (chèn, xóa), thì bài toán gióng hàng đoạn còn có thêm một số đặc trưng chỉ có ở đoạn văn:

 Không phụ thuộc vào cấu trúc ngữ pháp, với số lượng từ khá lớn: đặc điểm chính của phương pháp thống kê là luôn cần dữ liệu học đủ lớn, ở bài toán gióng hàng đoạn này thì số lượng từ trong đoạn nhiều hơn hản số lượng từ có trong một câu, cho nên số lượng từ lấy trong đoạn văn sẽ có tính thống kê hơn nhiều so với việc gióng hàng ở mức câu.

 Không có hiện tượng đảo đoạn: trong các bài toán gióng hàng câu, từ thì vấn đề đảo thứ tự từ, câu luôn là vấn đề hóc búa nhất. Tuy nhiên trong bài toán gióng hàng đoạn thì không có hiện tượng này, vì việc đảo từ, câu nằm trong nội tại đoạn, không hề liên quan tới vị trí tương quan của các đoạn.

 Nội dung nằm cố định trong một chương: điều này giúp cho việc giảm gióng hàng sai từ chương này qua chương khác.

Có điểm ‘neo’ chắc chắn ‘Chapter’ – ‘Chương’: cặp từ ‘Chapter’ – ‘Chương’

trở thành điểm cố định làm giảm đáng kể sai số khi gióng hàng. Theo như phân tích, một tài liệu có tính song ngữ thì một câu trong văn bản nguồn phải có câu dịch tương ứng của nó, đồng thời vị trí câu dịch phải nằm tương ứng gần với câu gốc. Tức là không thể có câu bắt đầu tài liệu lại là câu kết thúc trong bản dịch được. Vì thế, nội dung của một chương được giả định là nằm trọn vẹn trong chương đó và nội dung dịch tương ứng cũng phải nằm trọn vẹn trong một chương. Khi đó, với việc đánh trọng số lớn cho cặp từ ‘Chapter’ – ‘Chương’ sẽ điều chỉnh lại giá trị tối ưu khi gióng hàng.

Vì vậy, đối với bài toán gióng hàng văn bản song ngữ thì việc gióng hàng ở mức đoạn được quy về bài toán xây dựng một đồ thị nhị phân có đỉnh là những đoạn văn của văn bản viết bằng hai ngôn ngữ tương ứng, và có dây cung liên kết các đỉnh đáp ứng các điều kiện sau đây:

- Mỗi đỉnh có một cung, có nghĩa là không có đoạn biến mất hoặc xuất hiện từ không có gì trong quá trình dịch thuật.

- Có ít nhất một bên của cung chỉ có một kết thúc, tức là, một cung có thể kết nối thành phần với thành phần, thành phần với nhóm, nhóm với thành phần, nhưng không nối giữa nhóm với nhóm.

- Các đường cung là liên tục, tức là, một nhóm các đoạn văn được dịch ở ngôn ngữ khác sẽ phải liên tiếp nhau.

- Không có cung chéo, có nghĩa là thứ tự của đoạn văn được bảo toàn trong bản dịch.

Một đoạn văn được xác định là dịch của nhau sẽ có mức độ tương tự nào đó. Lúc đó độ tương tự khi gán một cung với một đoạn văn nào đó được coi là trọng số của cung. Với giả thuyết là tổng trọng số của tất cả các cung sẽ cho chất lượng của một cách gióng hàng cụ thể. Với điều này, bài toán được quy về việc tìm trọng số tất cả cung có thể đáp ứng các điều kiện trên, và phải là cực đại tổng trọng số trên các cung đó.

Một phần của tài liệu Gióng hàng văn bản song ngữ anh việt (Trang 36 - 40)