Sử dụng luật chuyển đổi trật tự

Một phần của tài liệu tích hợp thông tin hình thái từ vào hệ dịch máy thống kê anh việt (Trang 46)

Sử dụng kết quả nghiên cứu của ngành ngôn ngữ học so sánh, đối chiếu điểm tương đồng và khác biệt giữa tiếng Anh và tiếng Việt về hình thái từ [1], trật tự từ [2], luận văn áp dụng tập luật thủ công nhằm tạo sự tương đồng cho cặp câu song ngữ.

Tiếng Anh có 5 loại ngữ chính là: danh ngữ (noun phrase), động ngữ (verb phrase), tính ngữ (adjective phrase), trạng ngữ (adverbial phrase) và ngữ giới từ (preposition phrase). Khi so sánh đối chiếu giữa hai ngôn ngữ, [2] chỉ ra các điểm khác biệt về trật tự từ giữa những từ trong ngữ.

4.1.3.1. Danh ng

Định từ (determiner)

Trong danh ngữ, một số định từ đứng trước danh từ khi dịch sang tiếng Việt sẽ chuyển về cuối.

Xét định từ “the”, thông thường từ này sẽ không được dịch. Ví dụ:

the book

cuốn sách the phone

điện thoại

Với các định từ “this”, “that”, “these”, “those”, khi đứng trước danh từ khi dịch sang tiếng Việt sẽ được chuyển về cuối. Ví dụ:

This table

Those white rabbits

những con thỏ trắng kia

Dựa vào đặc điểm này, chúng tôi rút luật như sau: Trong danh ngữ, nếu định từ “this”, “that”, “these”, “those” đứng đầu thì sẽ được chuyển về cuối.

Áp dụng luật chuyển đổi cho 2 ví dụ trên ta được:

This table

table this Those white rabbits

white rabbits those

Tính từ bổ nghĩa trước danh từ chính (pre-modifier)

Trong tiếng Anh, tính từ bổ nghĩa luôn đứng trước danh từ, trong khi đối với tiếng Việt, tính từ đứng sau danh từ. Xét các ví dụ sau:

An interesting film 

Một bộ phim hay The small blue house 

Căn nhà nhỏ màu xanh

Như vậy, luật được rút như sau: Trong danh ngữ, nếu tính từ hoặc tính ngữ đứng trước danh từ thì chuyển ra sau danh từ.

Áp dụng luật cho 2 ví dụ trên, ta được:

An interesting film 

An film interesting The small blue house 

The house small blue  Tính từ sở hữu (possessive adjective)

Trong danh ngữ tiếng Anh, tính từ sở hữu đứng trước danh từ nhưng trong tiếng Việt, tính từ sở hữu đứng sau danh từ.

Xét 2 ví dụ:

My computer

Máy tính của tôi Their children

Con của họ

Luật được rút ra là: Nếu trong danh ngữ có chứa tính từ sở hữu thì chuyển từ này về cuối.

My computer

computer my Their children

children their

1.1.1.1. Sở hữu cách (possessive case)

Trong tiếng Anh, thứ tự của danh từ và sở hữu cách bị đảo ngược so với tiếng Việt:

Mary’s box 

Chiếc hộp của Mary book’s cover 

Bìa của quyển sách

Trong trường hợp, luật được rút ra là: Trong danh ngữ, nếu có sở hữu cách giữa hai danh từ thì sẽ đảo vị trí của hai danh từ.

Áp dụng luật trên, ta được:

Mary’s box 

box „s Mary Book ‟s cover 

cover „s book  Danh từ phụ (sub noun)

Trong tiếng Anh, danh từ phụ đứng trước bổ nghĩa cho danh từ chính. Trong khi thứ tự trong tiếng Việt thì ngược lại.

Nuclear weapons 

vũ khí hạt nhân Computer science 

khoa học máy tính

Luật được rút ra là: Trong danh ngữ, nếu hai danh từ đứng liền nhau thì sẽ được đảo vị trí.

Nếu áp dụng luật cho 2 ví dụ trên, ta được:

Nuclear weapons 

wepons nuclear Computer science 

science computer

4.1.3.2. Đng ng

So sánh động ngữ của tiếng Anh và tiếng Việt, vị trí của các thành phần đa số là như nhau, trừ trường hợp phủ định của trợ động từ (modal verb) và một số trạng từ.

Phủ định của trợ động từ

Trong câu tiếng Anh có trợ động từ ở thể phủ định, trạng từ “not” đứng sau trợ động từ. Khi dịch sang tiếng Việt câu sẽ dịch trạng từ phủ định trước trợ động từ.

Xét ví dụ sau:

Could not 

không thể Should not 

không nên

Từ nhận xét trên, chúng tôi rút ra luật: Trong động ngữ, nếu trợ động từ ở dạng phủ định thì sẽ đảo trạng từ phủ định lên trước trợ động từ.

Cụm từ ở trên sẽ thay đổi sau khi áp dụng luật:

Could not 

not could Should not 

not should  Trạng từ/ngữ

Trạng từ/ngữ của động ngữ tiếng Anh nếu đứng trước động từ thì khi dịch sang tiếng Việt sẽ được đảo ra sau.

Ví dụ:

greatly influence

ảnh hưởng lớn carefully design

thiết kế một cách cẩn thận

Do đó, chúng tôi rút ra luật như sau: Trong động ngữ, nếu trạng từ/ ngữ đứng trước động từ thì sẽ được chuyển ra sau động từ.

Kết quả áp dụng luật cho ví dụ trên:

greatly influence

influence greatly carefully design

4.1.3.2. Tính ng

Trạng từ so sánh (comparative adverb, superlative adverb)

Trong tiếng Anh có trạng từ so sánh hơn và trạng từ so sánh cực cấp. Khi có trạng từ này trong tính ngữ, câu được dịch sang tiếng Việt sẽ biểu thị mức so sánh sau cùng. Ví dụ:

The most expensive 

đắt nhất

More complex

phức tạp hơn

Luật được rút trích như sau: Nếu trong tính ngữ chứa trạng từ so sánh và tính từ thì trạng từ so sánh sẽ được chuyển ra sau cùng.

Sau khi áp dụng luật cho ví dụ trên, ta được:

The most expensive 

the expensive most

More complex

complex more

Động từ/ ngữ

Tương tự như trong động ngữ, nếu tính ngữ chứa trạng từ và động từ/ngữ thì tính trạng từ sẽ được đảo ra sau động từ/ngữ.

Danh ngữ

Nếu tính ngữ chứa danh ngữ bổ nghĩa cho tính từ thì sẽ được chuyển danh ngữ ra sau tính từ. Xét ví dụ sau:

(6 metters) long 

dài 6 mét Cụm tính ngữ sẽ được đảo như sau:

(6 metters) long 

long (6 metters) 4.1.3.3. Trng ng

Tương tự với tính ngữ, nếu trạng ngữ chứa trạng từ so sánh và trạng từ thì trạng từ so sánh sẽ được chuyển ra sau.

More importantly

importantly more

The most specially 

the specially most 4.1.3.4. Trt t ca các ng trong câu

Trật tự của các ngữ trong câu tiếng Anh và tiếng Việt phần lớn là tương đồng với nhau. Câu ở dạng khẳng định thường có cấu trúc: S-V-O: Chủ ngữ - động từ - tân ngữ. Tuy nhiên tiếng Anh có dạng câu hỏi wh-question là những câu hỏi bắt đầu bằng đại từ nghi vấn: what, where, when, how, who, whom, which, whose. Trong khi câu nghi vấn tiếng Việt sẽ để những trợ từ này sau cùng. Dựa trên điểm khác biệt này, chúng tôi rút ra luật: Nếu có một trong những từ trên đứng đầu câu, tiếp theo sau là trợ động từ thì sẽ đảo vị trí trợ động từ và đại từ nghi vấn, sau đó chuyển nguyên cụm này ra cuối câu.

Xét ví dụ sau: Câu input:

Where are his friend „s books ? Câu sau khi được phân tích:

[Where] [are] [his friend „s books] ? Sau khi áp dụng luật chuyển đổi trật tự các ngữ, câu trở thành:

[his friend „s books] [are] [Where] ? Tương ứng với câu dịch tiếng Việt là:

Mấy quyển sách của bạn anh ấy ở đâu ? 4.2. Thêm thông tin hình thái từ tiếng Việt

4.2.1. Thông tin ranh giới từ

Tiếng Việt là ngôn ngữ đơn lập, việc xác định ranh giới từ không chỉ đơn thuần dựa trên khoảng trắng mà phải dựa vào ngữ cảnh và nghĩa của từ.

Một ví dụ điển hình cho thấy nhập nhằng trong bài toán tách từ tiếng Việt: Học sinh học sinh học.

Học_sinh học_sinh học. Hoặc là:

Học_sinh học sinh_học.

Trong mô hình máy thống kê dựa trên ngữ, hệ dịch thống kê tần suất xuất hiện của các cặp ngữ trong mô hình dịch và tính xác suất chuỗi từ trong mô hình ngôn ngữ. Việc rút ngữ không dựa vào tri thức ngôn ngữ mà chỉ đơn thuần là một dãy các token. Thiếu thông tin ranh giới từ có thể khiến từ bị gián đoạn trong các ngữ được rút ra.

Do đó, chúng tôi khảo sát sự ảnh hưởng của thông tin ranh giới từ đến hệ dịch thống kê Anh – Việt. Câu tiếng Việt trong cặp câu song ngữ và câu tiếng Việt trong ngữ liệu đơn ngữ sẽ được tách từ.

Xét cặp câu sau:

* Conservation efforts to save the saola have faced numerous difficulties . + Những nỗ lực bảo tồn để cứu Sao la đã phải đối mặt với nhiều khó khăn .

Câu tiếng Việt trong cặp câu đầu vào này sẽ được tách từ:

* Conservation efforts to save the saola have faced numerous difficulties . +Những nỗ_lực bảo_tồn để cứu Sao_la đã phải đối_mặt với nhiều khó_khăn .

4.2.2. Thông tin từloại

Một trong những thành phần quan trọng trong hệ dịch thống kê là mô hình ngôn ngữ. Mô hình này có vai trò xác định câu dịch tự nhiên trong ngôn ngữ đích. Mô hình ngôn ngữ sử dụng phương pháp thống kê n-gram, sử dụng xác suất để dự đoán từ tiếp theo trong chuỗi từ cho trước và không quan tâm đến yếu tố ngôn ngữ.

Mặc khác, mô hình dịch Factored SMT cho phép tích hợp thông tin khác trong mô hình ngôn ngữ được gọi là Factored language model (FLM). Một ưu điểm của FLM là có thể ước lượng xác suất của chuỗi từ chưa gặp trước đó.

Để khảo sát ảnh hưởng của thông tin từ loại tiếng Việt, chúng tôi gán nhãn từ loại cho ngữ liệu đơn ngữ. Ngữ liệu này sẽ được thống kê để tạo thành mô hình ngôn ngữ.

Xét ví dụ ở phần trên, câu tiếng Việt sẽ được gán nhãn như sau:

* Conservation efforts to save the saola have faced numerous difficulties . + Những|Nq nỗ_lực|Nn bảo_tồn|Vv để|Cm cứu|Vv Sao_la|Nn đã|R phải|Vv đối_mặt|Vv với|Cp nhiều|Aa khó_khăn|Nn .|PU

Khi đưa cặp câu này làm đầu vào cho hệ dịch Factored SMT, hệ thống sẽ học mô hình dịch từ từ tiếng Anh sang từ tiếng Việt cùng với nhãn từ loại của tiếng Việt. Ngoài ra, hệ thống sẽ học hai mô hình ngôn ngữ: mô hình ngôn ngữ thống kê chuỗi từ và mô hình ngôn ngữ thống kê chuỗi từ loại.

-0.4073871 đối_mặt với nhiều -0.1396443 đối_mặt với

Hình 4.2. Mô hình ngôn ngữ từ vựng

-0.2439401 Vv Cp Aa -0.5738485 Vv Cp Nn Hình 4.3. Mô hình ngôn ngữ từ loại

Trong mô hình thứ hai, hệ thống học xác suất để dự đoán nhãn từ loại tiếp theo với chuỗi nhãn cho trước. Với các tham số này, hệ dịch có thể ước lượng cho các chuỗi từ mới chưa gặp trong ngữ liệu.

4.3. Thêm thông tin hình thái từ cho tiếng Anh và tiếng Việt

Trong mô hình này, chúng tôi đưa thông tin từ loại cho cả hai phía tiếng Anh và tiếng Việt và đưa vào hệ dịch Factored SMT.

Tiếng Anh Từ Từ loại Tiếng Việt Từ Từ loại Hình 4.4. Mô hình factored SMT tích hợp từ loại Trong quá trình huấn luyện, hệ thống học mô hình dịch từ sang từ (word-word), sau

đó học mô hình dịch từ loại sang từ loại (POS- POS). Sau đó là quá trình kiểm tra chuỗi nhãn từ loại ở phía kết quả.

Như vậy, ngoài xác suất dịch chuỗi từ

dịch chuỗi từ loại . Thông qua các tham số này, hệ dịch học được các luật cú pháp đơn giản

CHƯƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ

5.1. Ngữ liệu

Ngữ liệu được sử dụng để huấn luyện và kiểm chứng trong hệ thống của chúng tôi là ngữ liệu song ngữ Anh-Việt của nhóm VCL (Vietnamese Computation Linguistic). Ngữ liệu này thuộc nhiều chủ đề, bao gồm hơn 20.000 cặp câu và đã được chỉnh sửa bằng tay theo một số tiêu chuẩn sau:

- Đồng bộ về mặt nội dung.

- Đồng bộ về mặt hình thức (dấu câu, số liệu, tên riêng…). - Kiểm lỗi chính tả.

- Giữ lại các dấu kí hiệu trong từ viết tắt. - Loại bỏ câu trùng.

- Loại bỏ câu ngắn dưới 10 từ.

Bảng sau mô tả các thông tin chi tiết về ngữ liệu.

Bảng 5.1 Thông tin về ngữ liệu

Chiều dài Số token Số cặp câu Số token câu trung phân biệt

bình

Tiếng Anh 542.328 23,58461 50.281 Tiếng Việt 745.449 32,41787 24.953

Tổng cộng 22.996 1.287.777 28,00124

Để đánh giá các mô hình, chúng tôi chia ngẫu nhiên ngữ liệu thành 10 phần, 9 phần dùng để huấn luyện hệ dịch, 0,5 phần dùng để điều chỉnh tham số và 0,5 dùng để kiểm chứng.

5.2. Các công cụ

Để huấn luyện các hệ dịch, chúng tôi sử dụng công cụ Moses [21] huấn luyện mô hình dịch thống kê dựa trên ngữ, dùng GIZA++ để huấn luyện cho mô hình gióng hàng từ và SRILM [4] để tạo mô hình ngôn ngữ.

Để phân tích hình thái (phụ tố) từ tiếng Anh, chúng tôi sử dụng công cụ Morph. Và sử dụng công cụ SVMTool [13] để gán nhãn từ loại tiếng Anh (độ chính xác ~97%). Công cụ này dựa trên mô hình SVM (support vector machines) và được huấn luyện trên tập ngữ liệu Wall Street Journal.

5.3. Thí nghiệm

Để so sánh hiệu quả của các mô hình, chúng tôi thực thi hệ dịch thống kê dựa trên ngữ làm cơ sở.

Kết quả thực nghiệm của các mô hình tích hợp thông tin hình thái từ vào hệ dịch như sau:

5.3.1. Tích hợp thông tin hình thái từ trong câu tiếng Anh

5.3.1.1. Thêm thông tin hình thái từ

Trong phần thí nghiệm, luận văn khảo sát thông tin hình thái từ của tiếng Anh bao gồm: từ loại, nguyên mẫu và phụ tố. Bảng 5.2 mô tả kết quả dịch của hệ Anh – Việt khi thêm các thông tin này vào câu nguồn.

Bảng 5.2. Kết quả dịch khi tích hợp thông tin hình thái từ vào câu nguồn

BLEU NIST TER

Hệ cơ sở 43,31 9,8269 37,914 Thêm từ loại 42,68 9,7634 38,335 Tách thành nguyên mẫu 41,72 9,5169 39,754 và phụ tố Tách thành nguyên mẫu 42,48 9,6482 38,855 và phụ tố + Thêm từ loại

Từ bảng kết quả trên, ta có thể nhận thấy hệ dịch khi tích hợp thêm thông tin từ loại và biến đổi từ thành nguyên mẫu và phụ tố làm giảm hiệu quả của hệ dịch.

i. Ảnh hưởng của thông tin từ loại trong câu tiếng Anh: Kết quả thực nghiệm cho thấy thông tin từ loại cải thiện một số kết quả dịch. Ta có thể xét một số ví dụ sau:

Ví dụ 1:

A project to build Ha Long into a smoke - free tourist city started Tiếng Anh

in Ha Long city , northern coastal Quang Ninh province on Sept . Một dự án xây dựng Hạ Long thành một thành phố du lịch không

Tiếng Việt khói thuốc đã bắt đầu tại thành phố Hạ Long , ven biển phía bắc tỉnh Quảng Ninh vào tháng chín .

Một dự án để xây dựng Hạ Long vào một thuốc tự do thành phố Baseline du lịch đã bắt đầu tại thành phố Hạ Long , ven biển phía bắc tỉnh

Quảng Ninh vào tháng 9 .

A|a|DT project|project|NN to|to|TO build|build|VB Ha|ha|NNP Long|long|NNP into|into|IN a|a|DT smoke|smoke|NN -|-|:

free|free|JJ tourist|tourist|NN city|city|NN started|start|VBD Tiếng Anh

in|in|IN Ha|ha|NNP Long|long|NNP city|city|NN ,|,|, POS

northern|northern|JJ coastal|coastal|JJ Quang|Quang|NNP Ninh| Ninh|NNP province|province|NN on|on|IN Sept|Sept|NNP .|.|.

Một dự án để xây dựng Hạ Long vào một không khói thuốc

POS thành phố du lịch đã bắt đầu tại thành phố Hạ Long , ven biển phía bắc tỉnh Quảng Ninh vào tháng 9 .

Ví dụ 2:

has stated that he will not risk his player .

Tuy nhiên , không rõ liệu Hoàng sẽ chơi ngày hôm nay không vì Calisto đã tuyên bố rằng ông sẽ không mạo hiểm đối với cầu thủ của ông .

Baseline Tuy nhiên , nó không rõ ràng nếu Hoàng sẽ chơi ngày hôm nay vì Calisto đã nói rằng ông sẽ không có nguy cơ đối thủ .

However|however|RB ,|,|, it|it|PRP '|'|'' s|s|VBZ unclear|unclear|JJ if|if|IN Hoang|Hoang|NNP will|will|MD play|play|VB

today|today|NN because|because|IN Calisto|Calisto|NNP Thêm từ loại has|have|VBZ stated|state|VBN that|that|IN he|he|PRP tiếng Anh will|will|MD not|not|RB risk|risk|VB his|his|PRP$

player|player|NN .|.|.

Tuy nhiên , nó không rõ ràng nếu Hoàng sẽ chơi ngày hôm nay vì Calisto đã tuyên bố rằng ông sẽ không mạo hiểm đối thủ .

Tuy nhiên, thông tin từ loại đã dẫn đến kết quả dịch tệ hơn hệ cơ sở do các lý do sau:

oMỗi từ tiếng Anh có thể có nhiều hơn một nhãn từ loại. Nhưng ngữ liệu không thể bao quát được hết mọi trường hợp. Do đó, với cùng một từ đã xuất hiện trong ngữ liệu huấn luyện nhưng được đánh nhãn từ loại chưa gặp, hệ dịch xem như là một từ mới và không dịch được.

Ví dụ:

The Control Board may use independent consultants to perform assigned duties .

Ngữ liệu

Ban kiểm soát có thể sử dụng các nhà tư vấn tự do để thực hiện các nhiệm vụ được giao .

Một phần của tài liệu tích hợp thông tin hình thái từ vào hệ dịch máy thống kê anh việt (Trang 46)

Tải bản đầy đủ (DOCX)

(96 trang)
w