Hầu hết các phương pháp gióng hàng văn bản mơ tả trên đây đều dựa vào các từ trong câu. Tóm lại, phương pháp này sẽ khơng cho kết quả chính xác, trừ khi văn bản được chia thành các câu và từ. Rõ ràng, nó sẽ gây ra việc tính tốn sai trong phương pháp tiếp cận đếm từ. Cách tiếp cận đếm ký tự cũng cần phải biết được vị trí để kết thúc câu sau khi nó tìm thấy số ký tự tương ứng trong văn bản ngơn ngữ đích. Nếu văn bản khơng phân đoạn đúng, ít nhất là ở cấp độ cụm từ, phân đoạn câu sẽ gây ra sai lầm.
Trừ khi câu được chia thành các từ, từ vựng như từ neo, cùng nguồn gốc và những cụm từ không thể được xác định một cách chính xác. Như vậy, việc tra cứu từ điển sẽ khơng chính xác hoặc các từ sẽ khơng thể tìm thấy trong từ điển, khi mà việc tra cứu từ điển thích hợp là cần thiết để tính tốn điểm số tương tự câu dựa trên bản
dịch thô, như đã được mô tả trong cách tiếp cận của hunalign.
Sử dụng một bảng cácký tự để cho ngắt dịng trong văn bản. Hầu hết các ngơn ngữ Đông Nam Á đều tạo ra bằng tay. Quy định về phụ âm, nguyên âm, dấu phụ được
sử dụng để quyết định xem khả năng ngắt giữa các ký tự khơng. Ví dụ, từ “seg” và “ment” có thể xảy ra từ “segment”, khơng giống như “ment” trong “movement”.Vì vậy, từ có thể ngắt thành“seg”và“ment”, nhưng khơng phải giữa “se”và “gm”.
Mặc dù phương pháp tiếp cận dựa trên âm tiết là đủ tốt cho ngắt câu, song nó lại khơng chính xác khi xác định ranh giới từ.
3.4.2. Phương pháp tiếp cận dựa trên từ điển
Phương pháp tiếp cận dựa trên từ điển là hướng đổi mới tiếp theo, và đã đạt được một số thành tựu trong việc tìm kiếm ranh giới từ.
Trong cách tiếp cận so khớp dài nhất được sử dụng bởi Poowarawan, so khớp dài
nhất trên từ điển được chọn tại mỗi điểm. Tuy nhiên, “freezebra” sẽ được phân đoạn thành“freeze” (so khớp dài nhất từ điển bắt đầu từ “f”) và “bra” (so khớp dài nhất bắt đầu với “b”), thay vì “free” và “zebra”. Chúng ta có thể thấy rõ ràng là so khớp dài
nhất đã cho chúng ta câu trả lời sai.
Một cách tiếp cận khác là phù hợp cực đại, dựa trên quan sát rằng các phân đoạn
với những ít từ nhất thường chính xác. Ví dụ, trường hợp“autobiography” có khả năng là đúng, mặc dù nó có thể được phân đoạn thành từ dài hơn“auto” và “biography”.
Trong phương pháp này, phải tìm tất cả các phân đoạn. Các phân đoạn với những ít từ nhất sẽ được lựa chọn là đúng.
Tuy nhiên, vẫn cịn có vấn đề số lượng bằng nhau của các phân đoạn, như trong
ví dụ trên “freezebra”. Câu hỏi đặt ra làm sao lựa chọn giữa: “freeze” – “bra” hoặc “free” – “zebra”?
Ngay cả với những giả thiết cơ bản,phân đoạn có từ ít hơn là chính xác hơn có
thể có những thiếu sót trong một số trường hợp. Sự lựa chọn giữa “I did not pick up
the bill” và “I did not pickup the bill” sẽ rõ ràng là sai. Mặt khác, cách tiếp cận dựa
trên từ điển không thể xác định những từ thiếu hoặc sai chính tả trong văn bản. Khơng có từ điển có thể hy vọng sẽ bao gồm tất cả các từ có thể. Danh từ riêng, bao gồm tên của người dân cũng là một vấn đề lớn. Một số tác giả như Mark Twain cố ý sai chính
tả: “Tain’t thunder, becuz thunder –” trong cuộc phiêu lưu của Tom Sawyer. Rõ ràng là “becuz” khơng có trong từ điển. Các trang web hoặc blog bao gồm tiếng lóng cũng
Như đã thảo luận, điểm yếu của phương pháp tiếp cận dựa trên từ điển bao gồm: Khơng chính xác khiphân đoạn dựa trên luật
Từ khơng có trong từ điển.
3.4.3. Phương pháp tiếp cận thống kê
Phương pháp tiếp cận thống kê thu thập dữ liệu quan sát được từ văn bản. Sau đó, sử dụng những dữ liệu này để giúp hướng dẫn đưa ra quyết định trong phân đoạn văn bản. Hai số liệu thống kê dễ dàng đo được là mức độ đồng xảy ra của part-of- speech, và đồng xảy ra của âm tiết.
Kawtrakul đề xuất một phương pháp thống kê kết hợp sử dụng part-of-speech (POS) và mơ hình n-gram. Một chương trình POS Tagger được sử dụng để tìm tất cả POS có thể có của văn bản. Sau đó, văn bản được chia thành n-gram – chuỗi con có độ dài n. Kawtrakul sử dụng chuỗi con có độ dài bằng 3 (3-gram), Trong phương pháp tiếp cận của mình. Xác suất cho mỗi n-gram sau đó được sử dụng để lựa chọn các
phân đoạn tốt nhất. Ví dụ phía trên,tính từ + danh từ “free zebra”có thể có số lần xuất hiện thường xuyên hơn động từ + danh từ “freeze bra”.
Aroonmanakun [15] sử dụngkết hợp cả các phương pháp cũ và mới. Đầu tiên ông phân đoạn văn bản thành các âm tiết. Sau đó, ơng kết hợp các âm tiết vào thành từ bằng cách dùng từ điển. Cuối cùng, quyết định đinh xem sự kết hợp của từ nào là tốt nhất dựa trên một phương pháp thống kê có trọng sốđánh giá thứ tự giữa các âm tiết liền kề, và cực đại hóa tổng những quan sát trên một văn bản phân đoạn bằng tay.
Phương pháp thống kê cũng có những điểm yếu bên cạnh những mặt tốt của nó. Đó là vấn đề về chất lượng hoặc kích thước của văn bản đưa vào đào tạo trong quá trình xác định xác suất của n-gram hoặc của các âm tiết liền kề.
Chương 4 – Gióng hàng đoạn văn
Cho hai văn bản bằng hai ngôn ngữ khác nhau, bài tốn gióng hàng văn bản song ngữlà việc quyết định một thành phần của văn bản có thành phần là bản dịch của nó trong văn bản khác. Đây là vấn đề quan trọng trong bài toán tạo từ điển song ngữ và trong bài toánhuấn luyệncủa dịch máy thống kê. Bài tốn gióng hàng được xem là tương đương với bài toán nhận dạng mẫu, ở việc xác định sự tương ứng của hai chuỗiđối tượng; đối tượng ở đây có thể là lời nói, văn bản và âm thanh hoặc đoạn phim được ghi từ các máy khác nhau. Cả bài tốn gióng hàng văn bản và phương pháp đề nghị của luận văn là khá tổng quát, tuy nhiên luận văn chỉ tập trung vào sự gióng hàng đoạn văn trong văn bản song ngữ.
4.1. Bài tốn gióng hàng đoạn văn
Cho một tập văn bản và bản dịch ở ngôn ngữ khác, nhiệm vụ gióng hàng văn bản bao gồm việc xác định các thành phần (chẳng hạn như từ) là bản dịch của nhau, như trong Hình 4.1, các từ là bản dịch của nhau được nối với nhau bởi đường thẳng. Trong trường hợp đơn giản như vậy, nhiệm vụ gióng hàng văn bản có thể được mơ hình hóa thành một đồ thị hai phía có đỉnh là những thành phần trong văn bản và cung kết nối hai đỉnh nếu các thành phần tương ứng là bản dịch của nhau.
Tiếng Anh Tiếng Việt Tiếng Anh Tiếng Việt
Jone Jone Jone Jone
love yêu eats ăn
Mary Mary a quả
red táo
apple đỏ
(a) (b)
Hình 4.1: Gióng hàng mức câu
Tuy nhiên, trong những trường hợp phức tạp hơn một cụm các thành phần lại được dịch từ cụm các thành phần khác, trong khi cụm từ đó khơng thể được chia nhỏ thành tập cácthành phầntương ứng (Hình 4.2). Trong Hình 4.2 (a), một từ được dịch thành một cụm từ. Hình4.2 (b), một cụm từ được dịch thành một cụm từ khác, đồng thời khơng có từ dịch riêng lẻ.Hình4.2(c)cho thấy trường hợp chung nhất, các thành phần là dịch của nhau không nằm liên tiếp nhau trong câu.
(a)
(b)
(c)
Hình 4.2: Gióng hàng một cụm từ với một cụm từ
Với cấu trúc thể hiện trong Hình4.1, bài tốn gióng hàng có thể được mơ hình hóa bằng một đồ thị, nhưng cấu trúc ở Hình 4.2 lại tương đương với siêu đồ thị (hypergraph). Cho một tập các đỉnh V, một siêuđồ thịG trên V được định nghĩa là một đồ thị có đỉnh là các tập con không rỗng của V, một đường cung là một cặp tập con
của V: a = {X, Y}, X, Y ⊆ V, X, Y ≠∅. Một đường cung trên đồ thị có thể được đại
diện bởi một liên kết với đỉnh“kết thúc” (Hình 4.2c), hoặc đơn giản là việc liên kết giữa các nhóm đỉnh (Hình 4.2a, 4.2b). Vì thế có thể coi văn bản song ngữ tương tự như một đồ thị nhị phân.Siêu đồ thịA được gọi là đồ thị hai phía nếu đỉnh của nó có hai loại: V = A ∪ B, A ∩ B = ∅, và vòng cung nối các thành phần khác: X ⊆ A, Y ⊆ B.
Đặc thù của bài tốn gióng hàng phụ thuộc vào các đơn vị văn bản đang xem xét như: từ, mệnh đề, câu, đoạn văn, phần,…
Nếu các đơn vị quá lớn, chẳng hạn như toàn bộ phần hoặc chương, bài tốn gióng hàng là tầm thường: văn bản và bản dịch của nó bao gồm cùng một số phần, tương ứng với nhau trong trật tự tự nhiên. Mặt khác, nếu các đơn vị văn bản là quá nhỏ, chẳng hạn như hình vị hoặc các từ –bài tốn trở nên phức tạp hơn (Hình 4.2). Đặc
biệt, trong các trường hợp mà có những thành phần không được dịch sẽ dẫn tới thứ tự của các thành phần không được bảo tồn, hoặc thậm chí các nhóm có thể khơng liên tục.
Hình 4.3: Gióng hàng mức câu
Các đơn vị cỡ vừa như câu và đoạn văn là một trường hợp trung gian: trong khi bài tốn gióng hàng cũngkhơng q đơn giản, đồng thờisẽ không mang các đặc trưng nêu trên. Đặc biệt là trong trường hợp của đoạn văn, thứ tự của các thành phần được bảo toàn và mỗi phần tử có một bản dịch tương ứng. Hơn thế nữa, giả thiết rằng người dịch có thể kết hợp hai hoặc nhiều đoạn nguồn vào một đoạn dịch hoặc chia tách một đoạn nguồn thành một vài đoạn dịch, nhưng không thể sắp xếp các câu trong đoạn văn theo cách mà một phần cuối của một đoạn văn được dịch lại là khởi đầu của một đoạn văn khác. Mặc dù các giả thiết này khơng hồn tồn đúng với thực tế, chúng ta đang đơn giản hóa đi để có thể mơ hình hóa bài tốn và các thuật tốn.
Theo quá trình khảo sát, sự liên kết của đoạn văn trong văn bản nguồn và đích khơng chỉ là 1 với 1. Điều đó có nghĩa là, có nhiều loại khác của ánh xạ giữa các đoạn song ngữ. Tuy nhiên, nó thường thuộc về năm loại: 1 với 1, 1 với 2, 1 với 3, 3 với 1, hoặc 2 với 1. Sau đây là một ví dụ về một ánh xạ giữa một đoạn trong cuốn sách điện tử tiếng Anh và hai đoạn văn trong cuốn sách điện tử tiếng Việt:
– Đoạn tiếng Anh (trang 65, Steve Jobs, sách tiếng Anh).
• There was another reason that Joanne was balky about signing the adoption papers. Her father was about to die, and she planned to marry Jandali soon after. She held out hope, she would later tell family members, sometimes tearing up at the memory, that once they were married, she could get their baby boy back.
– Đoạn tiếng Việt (trang 21, Steve Jobs, sách tiếng Việt).
• Cũng cịn một lý do khác khiến Joanne lúc đầu khăng khăng không ký giấy chuyển nhận con ni đó là vì cha bà sắp chết và bà dự định sẽ
• Bà hi vọng rằng sau khi cưới nhau, họ sẽ thuyết phục dần được gia đình và nhận lại con.
Ngoài những đặc điểm chung của mơ hình bài tốn gióng hàng (chèn, xóa), thì bài tốn gióng hàng đoạn cịn có thêm một số đặc trưng chỉ có ở đoạn văn:
Không phụ thuộc vào cấu trúc ngữ pháp, với số lượng từ khá lớn: đặc điểm chính của phương pháp thống kê là luôn cần dữ liệu học đủ lớn, ở bài tốn gióng hàng đoạn này thì số lượng từ trong đoạn nhiều hơn hản số lượng từ có trong một câu, cho nên số lượng từ lấy trong đoạn văn sẽ có tính thống kê hơn nhiều so với việc gióng hàng ở mức câu.
Khơng có hiện tượng đảo đoạn: trong các bài tốn gióng hàng câu, từ thì vấn đề đảo thứ tự từ, câu ln là vấn đề hóc búa nhất. Tuy nhiên trong bài tốn gióng hàng đoạn thì khơng có hiện tượng này, vì việc đảo từ, câu nằm trong nội tại đoạn, không hề liên quan tới vị trí tương quan của các đoạn.
Nội dung nằm cố định trong một chương: điều này giúp cho việc giảm gióng hàng sai từ chương này qua chương khác.
Có điểm ‘neo’ chắc chắn ‘Chapter’ – ‘Chương’: cặp từ ‘Chapter’ – ‘Chương’
trở thành điểm cố định làm giảm đáng kể sai số khi gióng hàng. Theo như phân tích, một tài liệu có tính song ngữ thì một câu trong văn bản nguồn phải có câu dịch tương ứng của nó, đồng thời vị trí câu dịch phải nằm tương ứng gần với câu gốc. Tức là khơng thể có câu bắt đầu tài liệu lại là câu kết thúc trong bản dịch được. Vì thế, nội dung của một chương được giả định là nằm trọn vẹn trong chương đó và nội dung dịch tương ứng cũng phải nằm trọn vẹn trong một chương. Khi đó, với việc đánh trọng số lớn cho cặp từ ‘Chapter’ – ‘Chương’ sẽ điều chỉnh lại giá trị tối ưu khi gióng hàng.
Vì vậy, đối với bài tốn gióng hàng văn bản song ngữ thì việc gióng hàng ở mức đoạn được quy về bài toán xây dựng một đồ thị nhị phân có đỉnh là những đoạn văn của văn bản viết bằng hai ngơn ngữ tương ứng, và có dây cung liên kết các đỉnh đáp ứng các điều kiện sau đây:
- Mỗi đỉnh có một cung, có nghĩa là khơng có đoạn biến mất hoặc xuất hiện từ khơng có gì trong q trình dịch thuật.
- Có ít nhất một bên của cung chỉ có một kết thúc, tức là, một cung có thể kết nối thành phần với thành phần, thành phần với nhóm, nhóm với thành phần, nhưng khơng nối giữa nhóm với nhóm.
- Các đường cung là liên tục, tức là, một nhóm các đoạn văn được dịch ở ngôn ngữ khác sẽ phải liên tiếp nhau.
- Khơng có cung chéo, có nghĩa là thứ tự của đoạn văn được bảo toàn trong bản dịch.
Một đoạn văn được xác định là dịch của nhau sẽ có mức độ tương tự nào đó. Lúc đó độ tương tự khi gán một cung với một đoạn văn nào đó được coi là trọng số của cung. Với giả thuyết là tổng trọng số của tất cả các cung sẽ cho chất lượng của một cách gióng hàng cụ thể. Với điều này, bài toán được quy về việc tìm trọng số tất cả cung có thể đáp ứng các điều kiện trên, và phải là cực đại tổng trọng số trên các cung đó.
4.2. Thuật toán quy hoạch động
Thuật toán quy hoạch động được sử dụng cho gióng hàng tối ưu giữa hai trình tự. Thuật tốn tìm kiếm sự liên kết bằng cách đưa ra một ma trận để tính điểm một cặp là phù hợp và không phù hợp (ma trận chấm điểm). Bằng cách tìm kiếm điểm số cao nhất trong ma trận, từ đó có thể thu được một cách gióng hàng các trình tự. Quy hoạch động giải quyết bài toán ban đầu bằng cách chia bài toán thành các bài toán nhỏ hơn và độc lập. Những kỹ thuật này được sử dụng trong nhiều lĩnh vực khác nhau của khoa học máy tính. Hiện tại, thuật tốn Needleman – Wunsch và Smith – Waterman cho bài tốn gióng hàngđều dựa trên cơ sở phương pháp quy hoạch động.
Gióng hàng tồn cục: các trình tự có chiều dài tương tự nhau rất thích hợp cho gióng hàngtồn cục. Ở đây, q trình gióng hàng được thực hiện từ đầu đến cuối của trình tự để tìm ra sự liên kết tốt nhất có thể.
Gióng hàng địa phương: tìmmột chuỗi concó khả năng có trình tự tương tự hoặc thậm chí giống hệt trình tự gốc. Giải thuật tìm kiếm cực trị địa phương cho kết quả là các chuỗi con có độ tương tự cao nhất.
Hai phương pháp gióng hàng xác định với các thuật tốn khác nhau, nhưng đều sử dụng ma trận điểm để gióng hàng hai chuỗi ký tự khác nhau hoặc hai thành phần mẫu (pattern) nào đó.
Thuật toán Needleman – Wunsch được phát triển bởi Saul B. Needleman và Christian D. Wunsch vào năm 1970, là một thuật tốn quy hoạch động cho gióng hàng