5.3.1.1. Thêm thông tin hình thái từ
Trong phần thí nghiệm, luận văn khảo sát thông tin hình thái từ của tiếng Anh bao gồm: từ loại, nguyên mẫu và phụ tố. Bảng 5.2 mô tả kết quả dịch của hệ Anh – Việt khi thêm các thông tin này vào câu nguồn.
Bảng 5.2. Kết quả dịch khi tích hợp thông tin hình thái từ vào câu nguồn
BLEU NIST TER
Hệ cơ sở 43,31 9,8269 37,914 Thêm từ loại 42,68 9,7634 38,335 Tách thành nguyên mẫu và phụ tố 41,72 9,5169 39,754 Tách thành nguyên mẫu và phụ tố + Thêm từ loại 42,48 9,6482 38,855
Trang 56
Từ bảng kết quả trên, ta có thể nhận thấy hệ dịch khi tích hợp thêm thông tin từ loại và biến đổi từ thành nguyên mẫu và phụ tố làm giảm hiệu quả của hệ dịch.
i. Ảnh hƣởng của thông tin từ loại trong câu tiếng Anh:
Kết quả thực nghiệm cho thấy thông tin từ loại cải thiện một số kết quả dịch. Ta có thể xét một số ví dụ sau:
Ví dụ 1:
Tiếng Anh A project to build Ha Long into a smoke - free tourist city started
in Ha Long city , northern coastal Quang Ninh province on Sept .
Tiếng Việt
Một dự án xây dựng Hạ Long thành một thành phố du lịch không
khói thuốc đã bắt đầu tại thành phố Hạ Long , ven biển phía bắc tỉnh Quảng Ninh vào tháng chín .
Baseline
Một dự án để xây dựng Hạ Long vào một thuốc tự do thành phố
du lịch đã bắt đầu tại thành phố Hạ Long , ven biển phía bắc tỉnh Quảng Ninh vào tháng 9 .
Tiếng Anh POS
A|a|DT project|project|NN to|to|TO build|build|VB Ha|ha|NNP
Long|long|NNP into|into|IN a|a|DT smoke|smoke|NN -|-|:
free|free|JJ tourist|tourist|NN city|city|NN started|start|VBD in|in|IN Ha|ha|NNP Long|long|NNP city|city|NN ,|,|,
northern|northern|JJ coastal|coastal|JJ Quang|Quang|NNP Ninh|Ninh|NNP province|province|NN on|on|IN Sept|Sept|NNP .|.|.
POS
Một dự án để xây dựng Hạ Long vào một không khói thuốc
thành phố du lịch đã bắt đầu tại thành phố Hạ Long , ven biển phía bắc tỉnh Quảng Ninh vào tháng 9 .
Ví dụ 2:
Trang 57
has stated that he will not risk his player .
Tuy nhiên , không rõ liệu Hoàng sẽ chơi ngày hôm nay không vì
Calisto đã tuyên bố rằng ông sẽ không mạo hiểm đối với cầu thủ
của ông .
Baseline Tuy nhiên , nó không rõ ràng nếu Hoàng sẽ chơi ngày hôm nay vì
Calisto đã nói rằng ông sẽ không có nguy cơ đối thủ .
Thêm từ loại tiếng Anh
However|however|RB ,|,|, it|it|PRP '|'|'' s|s|VBZ unclear|unclear|JJ if|if|IN Hoang|Hoang|NNP will|will|MD play|play|VB
today|today|NN because|because|IN Calisto|Calisto|NNP has|have|VBZ stated|state|VBN that|that|IN he|he|PRP
will|will|MD not|not|RB risk|risk|VB his|his|PRP$
player|player|NN .|.|.
Tuy nhiên , nó không rõ ràng nếu Hoàng sẽ chơi ngày hôm nay vì
Calisto đã tuyên bố rằng ông sẽ không mạo hiểm đối thủ .
Tuy nhiên, thông tin từ loại đã dẫn đến kết quả dịch tệ hơn hệ cơ sở do các lý do sau:
o Mỗi từ tiếng Anh có thể có nhiều hơn một nhãn từ loại. Nhƣng ngữ liệu
không thể bao quát đƣợc hết mọi trƣờng hợp. Do đó, với cùng một từ đã xuất hiện trong ngữ liệu huấn luyện nhƣng đƣợc đánh nhãn từ loại chƣa gặp, hệ dịch xem nhƣ là một từ mới và không dịch đƣợc.
Ví dụ:
Ngữ liệu
The Control Board may use independent consultants to perform assigned duties .
Ban kiểm soát có thể sử dụng các nhà tƣ vấn tự do để thực hiện các nhiệm vụ đƣợc giao .
Trang 58
các nhiệm vụ đƣợc giao .
Thêm từ loại tiếng Anh
The|the|DT Control|control|NNP Board|board|NNP may|may|MD use|use|VB independent|independent|JJ
consultants|consultant|NNS to|to|TO perform|perform|VB
assigned|assign|JJ duties|duty|NNS .|.|.
Ban kiểm soát có thể sử dụng độc lập consultants để thực hiện
assigned nhiệm vụ .
Từ “assigned” trong ngữ liệu huấn luyện đƣợc đánh nhãn VBN, động từ ở dạng quá khứ phân từ nhƣng chƣa gặp trƣờng hợp từ “assigned” đƣợc đánh nhãn JJ, tính từ.
o Trƣờng hợp công cụ gán nhãn sai cũng tạo nên câu dịch tệ hơn. Vì khi
kết hợp với nhãn sai, từ tiếng Anh cũng tạo nên từ chƣa gặp trong ngữ liệu. Xét ví dụ sau:
Ngữ liệu
Hitler also has a devastating new weapon to unveil - the magnetic
mine , dropped into the sea from the air to cling to a passing
vessel and explode .
Hitler cũng có một loại vũ khí tàn phá mới để công bố - mỏ từ trƣờng , bị bỏ vào trong biển từ trên không để bám víu vào một
con tàu đi qua và nổ .
Baseline
Hitler cũng đã tàn phá vũ khí mới để công bố - magnetic mỏ ,
giảm xuống vào biển từ không khí để cling đến một thông qua
các tàu và explode .
Thêm từ loại tiếng Anh
Hitler|hitler|NNP also|conjurer|RB has|have|VBZ a|a|DT devastating|devastate|VBG new|new|JJ weapon|weapon|NN to|to|TO unveil|unveil|VB -|-|: the|the|DT magnetic|magnetic|JJ mine|mine|NN ,|,|, dropped|drop|VBD into|into|IN the|the|DT sea|sea|NN from|from|IN the|the|DT air|air|NN to|to|TO
Trang 59
and|and|CC explode|explode|VB .|.|.
Hitler cũng có một tàn phá vũ khí mới để công bố - magnetic mỏ
, giảm xuống vào biển từ không khí để cling đến một passing tàu
và explode .
o Ngoài ra, do hệ dịch chọn lựa ngữ dịch tƣơng ứng dựa trên nhãn từ loại
nên nhãn từ loại sai dẫn đến câu dịch cũng sai. Ví dụ:
Ngữ liệu
When Spring comes , Sa Dec bonsai village also starts its
festival .
Khi mùa xuân đến , làng cây cảnh Sa Đéc cũng bắt đầu lễ hội của nó .
Baseline Khi mùa xuân đến , Sa Đéc cây cảnh làng cũng bắt đầu của nó lễ
hội .
Thêm từ loại tiếng Anh
When|when|WRB Spring|spring|NNP comes|come|VBZ ,|,|,
Sa|Sa|NNP Dec|Dec|NNP bonsai|bonsai|NN village|village|NN also|conjurer|RB starts|start|VBZ its|its|PRP$ festival|festival|NN .|.|.
Khi Lƣơng đến , Sa Đéc cây cảnh làng cũng bắt đầu của nó lễ hội .
Từ đƣợc đánh nhãn sai làm ảnh hƣởng kết quả gióng hàng từ. Nếu từ không đƣợc gióng hàng sẽ không đƣợc thống kê, do đó khi dịch hệ thống không gặp khi tra phrase-table dẫn đến từ không đƣợc dịch.
ii. Ảnh hƣởng của biến đổi từ thành nguyên mẫu và phụ tố
Mặc dù việc phân tích từ tiếng Anh sang nguyên mẫu và phụ tố có cải thiện kết quả dịch so với hệ dịch cơ sở. Nhƣng kết quả phân tích cũng tạo nên từ/ngữ chƣa gặp trong ngữ liệu huấn luyện nên kết quả dịch nhìn chung bị giảm.
Trang 60
Sau đây là hai ví dụ cho thấy ảnh hƣởng tích cực của phép phân tích. Ví dụ 1:
Ngữ liệu
No matter what happens , we ' ll be as well prepared as we can be
given the enormous potential for crowds .
Dù bất kỳ vấn đề nào xảy ra , chúng tôi sẽ chuẩn bị tốt khi chúng
tôi có thể đƣợc đƣa ra tiềm năng to lớn cho đám đông .
Baseline
Không có vấn đề về những gì sẽ xảy ra , chúng tôi sẽ là cũng đƣợc chuẩn bị vì chúng tôi có thể đƣợc đƣa ra các rất lớn tiềm
năng cho các crowds .
Tách từ tiếng Anh thành nguyên mẫu và phụ tố
No matter what happen s , we 'll be as well prepare ed as we can
be give en the enormous potential for crowd s .
Không có vấn đề những gì xảy ra , chúng tôi sẽ là cũng nhƣ đƣợc chuẩn bị nhƣ chúng tôi có thể đƣợc đƣa ra những lớn tiềm năng cho đám đông .
Ví dụ 2:
Ngữ liệu
The boat cruises down the canal making stops at points of
interest along the way .
Các chuyến đi tàu xuống kênh dừng tại các điểm thú vị trên đƣờng đi .
Baseline Các thuyền cruises xuống kênh làm dừng tại điểm của sự quan
tâm dọc theo đƣờng . Tách từ tiếng
Anh thành nguyên mẫu và phụ tố
The boat cruise s down the canal make ing stop s at point s of
interest along the way .
Các thuyền đi xuống các kênh làm việc dừng tại điểm quan tâm
dọc theo đƣờng .
Trang 61
Ngữ liệu Tasmania has long been a location for cloud seeding programs ,
following apparent success with the programs in the 1960 's and 1970 's when significant rainfall increases of more than 30 percent were measured and reported by CSIRO scientists .
Tasmania từ lâu đã là nơi cho các chƣơng trình tạo mƣa nhân
tạo , sau thành công rực rỡ với các chƣơng trình trong những
năm 1960 và 1970 khi lƣợng mƣa tăng lên đáng kể với hơn 30 phần trăm đƣợc đo và báo cáo bởi các nhà khoa học CSIRO .
Baseline Tasmania từ lâu đã đƣợc một địa điểm cho các đám mây chƣơng
trình tạo mƣa nhân tạo , sau đây rõ ràng thành công với các
chƣơng trình trong những năm 1960 của và 1970 của khi quan trọng lƣợng mƣa tăng hơn 30 phần trăm đã đƣợc đo và báo cáo của cây trồng các nhà khoa học .
Tách từ tiếng Anh thành nguyên mẫu và phụ tố
Tasmanium s have s long be en a location for cloud seed ing
program s , follow ing apparent success with the program s in the 1960 ' s and 1970 ' s when significant rainfall increase s of more than 30 percent be ed measure ed and report ed by CSIRO scientist s .
Tasmania đã lâu dài đƣợc một địa điểm cho đám mây hạt giống
các chƣơng trình , đi theo rõ ràng thành công với các chƣơng trình trong thập niên 1960 của và 1970 của khi quan trọng lƣợng mƣa tăng của hơn 30 phần trăm đã đƣợc đo và báo cáo của CSIRO các nhà khoa học .
o Do công cụ phân tích từ về nguyên mẫu dựa trên kết quả gán nhãn từ loại
nên nhãn từ loại sai sẽ dẫn đến kết quả phân tích sai.
Ngữ liệu Professor Johnson was not involved in the study but wrote an
Trang 62 significance .
Giáo sƣ Johnson đã không tham gia vào nghiên cứu này , nhƣng
đã viết một bài báo đi kèm trong cùng một ấn bản Khoa học ,
phác thảo ra ý nghĩa của nó .
Baseline
Giáo sƣ Johnson đã không tham gia vào việc nghiên cứu , nhƣng
đã viết một đi kèm bài viết trong cùng một vấn đề về Khoa học ,
phác thảo của nó có ý nghĩa .
Tách từ tiếng Anh thành nguyên mẫu và phụ tố
Professor Johnson be ed not involve ed in the study but write ed an accompanying article in the same issue of Science , outline ing its significance .
Giáo sƣ Johnson là không liên quan đến việc nghiên cứu , nhƣng
đã viết một accompanying bài viết trong cùng một vấn đề của
Khoa học , phác thảo của nó có ý nghĩa .
Nhƣ vậy, việc tích hợp thông tin từ loại và hình thái của tiếng Anh đã có cải thiện kết quả dịch trong một số trƣờng hợp. Tuy nhiên, kết quả dịch vẫn phụ thuộc rất nhiều vào hiệu quả của các công cụ đánh nhãn từ loại và phân tích hình thái. Do đó, từ trong câu tiếng Anh bị phân tích sai dẫn đến nhiều trƣờng hợp câu dịch tệ hơn hệ cơ sở. Mặc khác, ngữ liệu không bao phủ hết các nhãn từ loại của từ cũng dẫn đến hệ dịch không hiệu quả.
5.3.1.2. Chuyển đổi trật tự từ
Bảng 5.3. Kết quả dịch của các hệ chuyển đổi trật tự từ
BLEU NIST TER
Hệ cơ sở 43,31 9,8269 37,914
Trang 63
Bảng 5.3 hiển thị kết quả dịch của hệ dịch áp dụng luật chuyển đổi trật tự. Kết quả cho thấy khi dùng luật chuyển đổi, hiệu quả dịch cao hơn so với hệ cơ sở.
Kết quả gióng hàng từ cho thấy, sau khi áp dụng luật chuyển đổi trật tự cho câu nguồn, số lƣợng gióng hàng chéo giảm đáng kể. Do câu tiếng Anh đã đƣợc thay đổi vị trí sao cho gần giống với tiếng Việt nhất. Nhờ vậy, hệ thống dịch hiệu quả hơn.
Ngữ liệu
Our training time is too long and could limit the doctors '
motivation and waste our medical talent .
Thời gian đào tạo của chúng tôi là quá dài và có thể giới hạn
động cơ của các bác sĩ và lãng phí tài năng y học của chúng ta .
Baseline của chúng tôi đào tạo thời gian là quá lâu dài và có thể giới hạn
sự bác sĩ của động lực và chất thải của chúng tôi y tế tài năng .
Chuyển đổi trật tự
time training Our is too long and could limit the motivation '
doctors and waste talent medical our .
thời gian đào tạo của chúng tôi là quá lâu dài và có thể giới hạn
sự động lực của các bác sĩ và chất thải tài năng y tế của chúng
tôi .
Ngữ liệu
But his real interest remains in the distant provinces of the
empire .
Nhƣng sự quan tâm thực sự của ông vẫn còn ở các tỉnh xa xôi
của đế quốc .
Baseline Nhƣng ông thực sự quan tâm vẫn còn ở xa xôi tỉnh của đế quốc .
Chuyển đổi
trật tự
But interest real his remains in the provinces distant of the
empire .
Trang 64 của đế quốc .
Tuy nhiên, không phải trƣờng hợp áp dụng luật nào cũng cải thiện đƣợc hệ dịch. Vì không phải luật nào cũng bao quát đƣợc mọi trƣờng hợp. Luật đƣợc áp dụng sai dẫn đến lƣợng gióng hàng chéo trong câu lại tăng lên, kéo theo kết quả dịch tệ hơn so với hệ dịch cơ sở.
Ngữ liệu
In the plan toward the year 2010 , Vietnam National
Administration of Tourism declares Van Phong as " the most
important region for tourism development " .
Trong kế hoạch hƣớng tới năm 2010 , Tổng cục Du lịch Việt
Nam công bố Văn Phong là khu phát triển du lịch quan trọng
nhất .
Baseline
Trong các kế hoạch hƣớng đến năm 2010 , Việt Nam Tổng cục
Du lịch tuyên bố Vân Phong là " quan trọng nhất của khu vực
cho phát triển du lịch " .
Chuyển đổi trật tự
In the plan toward the year 2010 , Vietnam National
Administration of Tourism declares Van Phong as " the most
region important for tourism development " .
Trong các kế hoạch đến năm 2010 , Việt Nam Tổng cục Du lịch
tuyên bố Vân Phong là " hầu hết các khu vực quan trọng cho
phát triển du lịch " .
5.1.1.1. Thêm thông tin hình thái từ trong câu tiếng Việt
Thông tin hình thái từ của tiếng Việt đƣợc khảo sát bao gồm ranh giới từ và từ loại.
i. Phân đoạn từ trong câu tiếng Việt
Trang 65
Bảng 5.4. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Việt
BLEU NIST TER
Hệ cơ sở 43,31 9,8269 37,914
Tách từ tiếng Việt 44,19 9,9079 37,103
Đổi trật tự từ tiếng Anh 45,88 9,9461 36,429
Đổi trật tự từ tiếng Anh +
Tách từ tiếng Việt 46,49 10,0107 35,850
Kết quả cho thấy hệ dịch đƣợc cải thiện nếu khi gán nhãn ranh giới từ cho câu tiếng Việt. Khi kết hợp chuyển đổi trật tự từ ở câu tiếng Anh và phân đoạn từ tiếng Việt,
kết quả đƣợc cải tiến đáng kể.
Hiệu quả dịch đƣợc nâng cao do số liên kết gióng hàng từ 1 − 𝑛 (liên kết giữa 1
token với nhiều token) giảm đáng kể và từ trong các ngữ đƣợc rút ra không bị gián đoạn. Nhờ vậy, hệ dịch có thể thống kê các cặp ngữ chính xác hơn và tìm kiếm câu dịch tốt hơn.
Bảng 5.5. Số liên kết gióng hàng từ trong các mô hình
Tổng số liên kết Số liên kết trung bình trong câu
Cơ sở 771.492 37,74
Tách từ tiếng Việt 616.846 30,18
Đổi trật tự tiếng Anh 770.424 37,69
Đổi trật tự tiếng Anh +
Tách từ tiếng Việt 616.589 30,16
Sau đây là một số ví dụ cho kết quả gióng hàng từ của hệ cơ sở và hệ dịch có câu tiếng Việt đƣợc tách từ:
Trang 66
All industrial and processing zones must have waste treatment systems .
Tất_cả các khu công_nghiệp và khu chế_xuất phải có các hệ_thống xử_lý chất_thải .
Kết quả gióng hàng từ hệ baseline:
0-0 0-1 4-2 4-3 1-4 1-5 2-6 3-7 4-7 3-8 3-9 5-10 6-11 9-13 9-14 8-15 8-16 7-17 7-18 10-19
All industrial and processing zones must have waste treatment systems .
Tất cả các khu công nghiệp và khu chế xuất phải có các hệ thống xử lý chất thải .
Kết quả gióng hàng từ của hệ dịch khi tách từ: