Sử dụng kết quả nghiên cứu của ngành ngôn ngữ học so sánh, đối chiếu điểm tương đồng và khác biệt giữa tiếng Anh và tiếng Việt về hình thái từ [1], trật tự từ [2], luận văn áp dụng tập luật thủ công nhằm tạo sự tương đồng cho cặp câu song ngữ.
Tiếng Anh có 5 loại ngữ chính là: danh ngữ (noun phrase), động ngữ (verb phrase), tính ngữ (adjective phrase), trạng ngữ (adverbial phrase) và ngữ giới từ (preposition phrase). Khi so sánh đối chiếu giữa hai ngôn ngữ, [2] chỉ ra các điểm khác biệt về trật tự từ giữa những từ trong ngữ.
4.1.3.1. Danh ngữ
Định từ (determiner)
Trong danh ngữ, một số định từ đứng trước danh từ khi dịch sang tiếng Việt sẽ chuyển về cuối.
Xét định từ “the”, thông thường từ này sẽ không được dịch. Ví dụ:
the book
cuốn sách the phone
điện thoại
Với các định từ “this”, “that”, “these”, “those”, khi đứng trước danh từ khi dịch sang tiếng Việt sẽ được chuyển về cuối. Ví dụ:
This table
Those white rabbits
những con thỏ trắng kia
Dựa vào đặc điểm này, chúng tôi rút luật như sau: Trong danh ngữ, nếu định từ “this”, “that”, “these”, “those” đứng đầu thì sẽ được chuyển về cuối.
Áp dụng luật chuyển đổi cho 2 ví dụ trên ta được:
This table
table this Those white rabbits
white rabbits those
Tính từ bổ nghĩa trước danh từ chính (pre-modifier)
Trong tiếng Anh, tính từ bổ nghĩa luôn đứng trước danh từ, trong khi đối với tiếng Việt, tính từ đứng sau danh từ. Xét các ví dụ sau:
An interesting film
Một bộ phim hay The small blue house
Căn nhà nhỏ màu xanh
Như vậy, luật được rút như sau: Trong danh ngữ, nếu tính từ hoặc tính ngữ đứng trước danh từ thì chuyển ra sau danh từ.
Áp dụng luật cho 2 ví dụ trên, ta được:
An interesting film
An film interesting The small blue house
The house small blue Tính từ sở hữu (possessive adjective)
Trong danh ngữ tiếng Anh, tính từ sở hữu đứng trước danh từ nhưng trong tiếng Việt, tính từ sở hữu đứng sau danh từ.
Xét 2 ví dụ:
My computer
Máy tính của tôi Their children
Con của họ
Luật được rút ra là: Nếu trong danh ngữ có chứa tính từ sở hữu thì chuyển từ này về cuối.
My computer
computer my Their children
children their
1.1.1.1. Sở hữu cách (possessive case)
Trong tiếng Anh, thứ tự của danh từ và sở hữu cách bị đảo ngược so với tiếng Việt:
Mary’s box
Chiếc hộp của Mary book’s cover
Bìa của quyển sách
Trong trường hợp, luật được rút ra là: Trong danh ngữ, nếu có sở hữu cách giữa hai danh từ thì sẽ đảo vị trí của hai danh từ.
Áp dụng luật trên, ta được:
Mary’s box
box „s Mary Book ‟s cover
cover „s book Danh từ phụ (sub noun)
Trong tiếng Anh, danh từ phụ đứng trước bổ nghĩa cho danh từ chính. Trong khi thứ tự trong tiếng Việt thì ngược lại.
Nuclear weapons
vũ khí hạt nhân Computer science
khoa học máy tính
Luật được rút ra là: Trong danh ngữ, nếu hai danh từ đứng liền nhau thì sẽ được đảo vị trí.
Nếu áp dụng luật cho 2 ví dụ trên, ta được:
Nuclear weapons
wepons nuclear Computer science
science computer
4.1.3.2. Động ngữ
So sánh động ngữ của tiếng Anh và tiếng Việt, vị trí của các thành phần đa số là như nhau, trừ trường hợp phủ định của trợ động từ (modal verb) và một số trạng từ.
Phủ định của trợ động từ
Trong câu tiếng Anh có trợ động từ ở thể phủ định, trạng từ “not” đứng sau trợ động từ. Khi dịch sang tiếng Việt câu sẽ dịch trạng từ phủ định trước trợ động từ.
Xét ví dụ sau:
Could not
không thể Should not
không nên
Từ nhận xét trên, chúng tôi rút ra luật: Trong động ngữ, nếu trợ động từ ở dạng phủ định thì sẽ đảo trạng từ phủ định lên trước trợ động từ.
Cụm từ ở trên sẽ thay đổi sau khi áp dụng luật:
Could not
not could Should not
not should Trạng từ/ngữ
Trạng từ/ngữ của động ngữ tiếng Anh nếu đứng trước động từ thì khi dịch sang tiếng Việt sẽ được đảo ra sau.
Ví dụ:
greatly influence
ảnh hưởng lớn carefully design
thiết kế một cách cẩn thận
Do đó, chúng tôi rút ra luật như sau: Trong động ngữ, nếu trạng từ/ ngữ đứng trước động từ thì sẽ được chuyển ra sau động từ.
Kết quả áp dụng luật cho ví dụ trên:
greatly influence
influence greatly carefully design
4.1.3.2. Tính ngữ
Trạng từ so sánh (comparative adverb, superlative adverb)
Trong tiếng Anh có trạng từ so sánh hơn và trạng từ so sánh cực cấp. Khi có trạng từ này trong tính ngữ, câu được dịch sang tiếng Việt sẽ biểu thị mức so sánh sau cùng. Ví dụ:
The most expensive
đắt nhất
More complex
phức tạp hơn
Luật được rút trích như sau: Nếu trong tính ngữ chứa trạng từ so sánh và tính từ thì trạng từ so sánh sẽ được chuyển ra sau cùng.
Sau khi áp dụng luật cho ví dụ trên, ta được:
The most expensive
the expensive most
More complex
complex more
Động từ/ ngữ
Tương tự như trong động ngữ, nếu tính ngữ chứa trạng từ và động từ/ngữ thì tính trạng từ sẽ được đảo ra sau động từ/ngữ.
Danh ngữ
Nếu tính ngữ chứa danh ngữ bổ nghĩa cho tính từ thì sẽ được chuyển danh ngữ ra sau tính từ. Xét ví dụ sau:
(6 metters) long
dài 6 mét Cụm tính ngữ sẽ được đảo như sau:
(6 metters) long
long (6 metters) 4.1.3.3. Trạng ngữ
Tương tự với tính ngữ, nếu trạng ngữ chứa trạng từ so sánh và trạng từ thì trạng từ so sánh sẽ được chuyển ra sau.
More importantly
importantly more
The most specially
the specially most 4.1.3.4. Trật tự của các ngữ trong câu
Trật tự của các ngữ trong câu tiếng Anh và tiếng Việt phần lớn là tương đồng với nhau. Câu ở dạng khẳng định thường có cấu trúc: S-V-O: Chủ ngữ - động từ - tân ngữ. Tuy nhiên tiếng Anh có dạng câu hỏi wh-question là những câu hỏi bắt đầu bằng đại từ nghi vấn: what, where, when, how, who, whom, which, whose. Trong khi câu nghi vấn tiếng Việt sẽ để những trợ từ này sau cùng. Dựa trên điểm khác biệt này, chúng tôi rút ra luật: Nếu có một trong những từ trên đứng đầu câu, tiếp theo sau là trợ động từ thì sẽ đảo vị trí trợ động từ và đại từ nghi vấn, sau đó chuyển nguyên cụm này ra cuối câu.
Xét ví dụ sau: Câu input:
Where are his friend „s books ? Câu sau khi được phân tích:
[Where] [are] [his friend „s books] ? Sau khi áp dụng luật chuyển đổi trật tự các ngữ, câu trở thành:
[his friend „s books] [are] [Where] ? Tương ứng với câu dịch tiếng Việt là:
Mấy quyển sách của bạn anh ấy ở đâu ? 4.2. Thêm thông tin hình thái từ tiếng Việt
4.2.1. Thông tin ranh giới từ
Tiếng Việt là ngôn ngữ đơn lập, việc xác định ranh giới từ không chỉ đơn thuần dựa trên khoảng trắng mà phải dựa vào ngữ cảnh và nghĩa của từ.
Một ví dụ điển hình cho thấy nhập nhằng trong bài toán tách từ tiếng Việt: Học sinh học sinh học.
Học_sinh học_sinh học. Hoặc là:
Học_sinh học sinh_học.
Trong mô hình máy thống kê dựa trên ngữ, hệ dịch thống kê tần suất xuất hiện của các cặp ngữ trong mô hình dịch và tính xác suất chuỗi từ trong mô hình ngôn ngữ. Việc rút ngữ không dựa vào tri thức ngôn ngữ mà chỉ đơn thuần là một dãy các token. Thiếu thông tin ranh giới từ có thể khiến từ bị gián đoạn trong các ngữ được rút ra.
Do đó, chúng tôi khảo sát sự ảnh hưởng của thông tin ranh giới từ đến hệ dịch thống kê Anh – Việt. Câu tiếng Việt trong cặp câu song ngữ và câu tiếng Việt trong ngữ liệu đơn ngữ sẽ được tách từ.
Xét cặp câu sau:
* Conservation efforts to save the saola have faced numerous difficulties . + Những nỗ lực bảo tồn để cứu Sao la đã phải đối mặt với nhiều khó khăn .
Câu tiếng Việt trong cặp câu đầu vào này sẽ được tách từ:
* Conservation efforts to save the saola have faced numerous difficulties . +Những nỗ_lực bảo_tồn để cứu Sao_la đã phải đối_mặt với nhiều khó_khăn .
4.2.2. Thông tin từloại
Một trong những thành phần quan trọng trong hệ dịch thống kê là mô hình ngôn ngữ. Mô hình này có vai trò xác định câu dịch tự nhiên trong ngôn ngữ đích. Mô hình ngôn ngữ sử dụng phương pháp thống kê n-gram, sử dụng xác suất để dự đoán từ tiếp theo trong chuỗi từ cho trước và không quan tâm đến yếu tố ngôn ngữ.
Mặc khác, mô hình dịch Factored SMT cho phép tích hợp thông tin khác trong mô hình ngôn ngữ được gọi là Factored language model (FLM). Một ưu điểm của FLM là có thể ước lượng xác suất của chuỗi từ chưa gặp trước đó.
Để khảo sát ảnh hưởng của thông tin từ loại tiếng Việt, chúng tôi gán nhãn từ loại cho ngữ liệu đơn ngữ. Ngữ liệu này sẽ được thống kê để tạo thành mô hình ngôn ngữ.
Xét ví dụ ở phần trên, câu tiếng Việt sẽ được gán nhãn như sau:
* Conservation efforts to save the saola have faced numerous difficulties . + Những|Nq nỗ_lực|Nn bảo_tồn|Vv để|Cm cứu|Vv Sao_la|Nn đã|R phải|Vv đối_mặt|Vv với|Cp nhiều|Aa khó_khăn|Nn .|PU
Khi đưa cặp câu này làm đầu vào cho hệ dịch Factored SMT, hệ thống sẽ học mô hình dịch từ từ tiếng Anh sang từ tiếng Việt cùng với nhãn từ loại của tiếng Việt. Ngoài ra, hệ thống sẽ học hai mô hình ngôn ngữ: mô hình ngôn ngữ thống kê chuỗi từ và mô hình ngôn ngữ thống kê chuỗi từ loại.
-0.4073871 đối_mặt với nhiều -0.1396443 đối_mặt với
Hình 4.2. Mô hình ngôn ngữ từ vựng
-0.2439401 Vv Cp Aa -0.5738485 Vv Cp Nn Hình 4.3. Mô hình ngôn ngữ từ loại
Trong mô hình thứ hai, hệ thống học xác suất để dự đoán nhãn từ loại tiếp theo với chuỗi nhãn cho trước. Với các tham số này, hệ dịch có thể ước lượng cho các chuỗi từ mới chưa gặp trong ngữ liệu.
4.3. Thêm thông tin hình thái từ cho tiếng Anh và tiếng Việt
Trong mô hình này, chúng tôi đưa thông tin từ loại cho cả hai phía tiếng Anh và tiếng Việt và đưa vào hệ dịch Factored SMT.
Tiếng Anh Từ Từ loại Tiếng Việt Từ Từ loại Hình 4.4. Mô hình factored SMT tích hợp từ loại Trong quá trình huấn luyện, hệ thống học mô hình dịch từ sang từ (word-word), sau
đó học mô hình dịch từ loại sang từ loại (POS- POS). Sau đó là quá trình kiểm tra chuỗi nhãn từ loại ở phía kết quả.
Như vậy, ngoài xác suất dịch chuỗi từ
dịch chuỗi từ loại . Thông qua các tham số này, hệ dịch học được các luật cú pháp đơn giản
CHƯƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ
5.1. Ngữ liệu
Ngữ liệu được sử dụng để huấn luyện và kiểm chứng trong hệ thống của chúng tôi là ngữ liệu song ngữ Anh-Việt của nhóm VCL (Vietnamese Computation Linguistic). Ngữ liệu này thuộc nhiều chủ đề, bao gồm hơn 20.000 cặp câu và đã được chỉnh sửa bằng tay theo một số tiêu chuẩn sau:
- Đồng bộ về mặt nội dung.
- Đồng bộ về mặt hình thức (dấu câu, số liệu, tên riêng…). - Kiểm lỗi chính tả.
- Giữ lại các dấu kí hiệu trong từ viết tắt. - Loại bỏ câu trùng.
- Loại bỏ câu ngắn dưới 10 từ.
Bảng sau mô tả các thông tin chi tiết về ngữ liệu.
Bảng 5.1 Thông tin về ngữ liệu
Chiều dài Số token Số cặp câu Số token câu trung phân biệt
bình
Tiếng Anh 542.328 23,58461 50.281 Tiếng Việt 745.449 32,41787 24.953
Tổng cộng 22.996 1.287.777 28,00124
Để đánh giá các mô hình, chúng tôi chia ngẫu nhiên ngữ liệu thành 10 phần, 9 phần dùng để huấn luyện hệ dịch, 0,5 phần dùng để điều chỉnh tham số và 0,5 dùng để kiểm chứng.
5.2. Các công cụ
Để huấn luyện các hệ dịch, chúng tôi sử dụng công cụ Moses [21] huấn luyện mô hình dịch thống kê dựa trên ngữ, dùng GIZA++ để huấn luyện cho mô hình gióng hàng từ và SRILM [4] để tạo mô hình ngôn ngữ.
Để phân tích hình thái (phụ tố) từ tiếng Anh, chúng tôi sử dụng công cụ Morph. Và sử dụng công cụ SVMTool [13] để gán nhãn từ loại tiếng Anh (độ chính xác ~97%). Công cụ này dựa trên mô hình SVM (support vector machines) và được huấn luyện trên tập ngữ liệu Wall Street Journal.
5.3. Thí nghiệm
Để so sánh hiệu quả của các mô hình, chúng tôi thực thi hệ dịch thống kê dựa trên ngữ làm cơ sở.
Kết quả thực nghiệm của các mô hình tích hợp thông tin hình thái từ vào hệ dịch như sau:
5.3.1. Tích hợp thông tin hình thái từ trong câu tiếng Anh
5.3.1.1. Thêm thông tin hình thái từ
Trong phần thí nghiệm, luận văn khảo sát thông tin hình thái từ của tiếng Anh bao gồm: từ loại, nguyên mẫu và phụ tố. Bảng 5.2 mô tả kết quả dịch của hệ Anh – Việt khi thêm các thông tin này vào câu nguồn.
Bảng 5.2. Kết quả dịch khi tích hợp thông tin hình thái từ vào câu nguồn
BLEU NIST TER
Hệ cơ sở 43,31 9,8269 37,914 Thêm từ loại 42,68 9,7634 38,335 Tách thành nguyên mẫu 41,72 9,5169 39,754 và phụ tố Tách thành nguyên mẫu 42,48 9,6482 38,855 và phụ tố + Thêm từ loại
Từ bảng kết quả trên, ta có thể nhận thấy hệ dịch khi tích hợp thêm thông tin từ loại và biến đổi từ thành nguyên mẫu và phụ tố làm giảm hiệu quả của hệ dịch.
i. Ảnh hưởng của thông tin từ loại trong câu tiếng Anh: Kết quả thực nghiệm cho thấy thông tin từ loại cải thiện một số kết quả dịch. Ta có thể xét một số ví dụ sau:
Ví dụ 1:
A project to build Ha Long into a smoke - free tourist city started Tiếng Anh
in Ha Long city , northern coastal Quang Ninh province on Sept . Một dự án xây dựng Hạ Long thành một thành phố du lịch không
Tiếng Việt khói thuốc đã bắt đầu tại thành phố Hạ Long , ven biển phía bắc tỉnh Quảng Ninh vào tháng chín .
Một dự án để xây dựng Hạ Long vào một thuốc tự do thành phố Baseline du lịch đã bắt đầu tại thành phố Hạ Long , ven biển phía bắc tỉnh
Quảng Ninh vào tháng 9 .
A|a|DT project|project|NN to|to|TO build|build|VB Ha|ha|NNP Long|long|NNP into|into|IN a|a|DT smoke|smoke|NN -|-|:
free|free|JJ tourist|tourist|NN city|city|NN started|start|VBD Tiếng Anh
in|in|IN Ha|ha|NNP Long|long|NNP city|city|NN ,|,|, POS
northern|northern|JJ coastal|coastal|JJ Quang|Quang|NNP Ninh| Ninh|NNP province|province|NN on|on|IN Sept|Sept|NNP .|.|.
Một dự án để xây dựng Hạ Long vào một không khói thuốc
POS thành phố du lịch đã bắt đầu tại thành phố Hạ Long , ven biển phía bắc tỉnh Quảng Ninh vào tháng 9 .
Ví dụ 2:
has stated that he will not risk his player .
Tuy nhiên , không rõ liệu Hoàng sẽ chơi ngày hôm nay không vì Calisto đã tuyên bố rằng ông sẽ không mạo hiểm đối với cầu thủ của ông .
Baseline Tuy nhiên , nó không rõ ràng nếu Hoàng sẽ chơi ngày hôm nay vì Calisto đã nói rằng ông sẽ không có nguy cơ đối thủ .
However|however|RB ,|,|, it|it|PRP '|'|'' s|s|VBZ unclear|unclear|JJ if|if|IN Hoang|Hoang|NNP will|will|MD play|play|VB
today|today|NN because|because|IN Calisto|Calisto|NNP Thêm từ loại has|have|VBZ stated|state|VBN that|that|IN he|he|PRP tiếng Anh will|will|MD not|not|RB risk|risk|VB his|his|PRP$
player|player|NN .|.|.
Tuy nhiên , nó không rõ ràng nếu Hoàng sẽ chơi ngày hôm nay vì Calisto đã tuyên bố rằng ông sẽ không mạo hiểm đối thủ .
Tuy nhiên, thông tin từ loại đã dẫn đến kết quả dịch tệ hơn hệ cơ sở do các lý do sau:
oMỗi từ tiếng Anh có thể có nhiều hơn một nhãn từ loại. Nhưng ngữ liệu không thể bao quát được hết mọi trường hợp. Do đó, với cùng một từ đã xuất hiện trong ngữ liệu huấn luyện nhưng được đánh nhãn từ loại chưa gặp, hệ dịch xem như là một từ mới và không dịch được.
Ví dụ:
The Control Board may use independent consultants to perform assigned duties .
Ngữ liệu
Ban kiểm soát có thể sử dụng các nhà tư vấn tự do để thực hiện các nhiệm vụ được giao .