Hình 37: Mơ hình áp dụng tập luật chuyển đổi khác cấp
Để áp dụng tập luật chuyển đổi khác cấp đã được học từ ngữ liệu, ta đơn giản sử dụng mơ hình như hình 37. Câu tiếng Anh sau khi được áp dụng các luật chuyển
đổi cùng cấp sẽ tiếp tục đi qua bộ phận áp dụng các luật chuyển đổi khác cấp. Lần lượt từng luật trong tập luật sẽ được áp dụng lên câu tiếng Anh. Việc áp dụng các luật diễn ra khá nhanh vì chương trình khơng cần phải lựa chọn luật nữa mà chỉ cần
đưa luật vào áp dụng cho câu tiếng Anh, luật nào khơng thoả phần điều kiện cho câu tiếng Anh thì được bỏ qua. Sau khi kết thúc luật cuối cùng, chúng ta cĩ cây cú pháp tiếng Anh với trật tự các thành phần là của cây cú pháp tiếng Việt. Sau khi kết thúc quá trình áp dụng các luật chuyển đổi khác cấp, về cơ bản câu tiếng Anh đã cĩ thể được gắn nghĩa tiếng Việt để hình thành câu dịch. Tuy nhiên để cĩ được câu dịch tiếng Việt phù hợp với một số cấu trúc đặc biệt trong tiếng Việt, chúng ta cần tiến hành giai đoạn chèn, xố các từ trong cây cú pháp tiếng Anh bằng một số hư từ
và một số từ đặc biệt trong câu tiếng Việt cĩ tính quyết định đến chất lượng câu dịch. Chuyển đổi cùng cấp Cây cú pháp tiếng Anh với các thành phần cùng cấp cĩ trật tự tiếng Việt Tập luật chuyển đổi cùng cấp Cây cú pháp tiếng Anh với các thành phần cĩ trật tự tiếng Việt
C
Chhưươơnngg 55
THỬ NGHIỆM – ĐÁNH GIÁ
5.1 Thử nghiệm 5.1.1 Độ đo sử dụng
Vì mục tiêu cuối cùng của chuyển đổi cây cú pháp là câu cĩ trật tự từ đúng theo tiếng Việt, do đĩ kết xuất của chương trình chuyển đổi cây cú pháp là một danh sách cĩ thứ tự bao gồm : những từ trong câu tiếng Anh gốc đã được sắp xếp lại, những từ bị xố được đánh dấu xố và những từ tiếng Việt được chèn thêm.
Ví dụ:
Câu tiếng Anh : Do you understand what I say ?
E1 E2 E3 E4 E5 E6 E7
Kết quả chuyển đổi:
You do cĩ understand what I say khơng ?
E2 X I1 E3 E4 E5 E6 I2 E7
Bạn cĩ hiểu điều mà tơi nĩi khơng ?
Nếu khơng xét đến những từ tiếng Việt được chèn thêm, kết quả chuyển đổi của một câu đúng hay khơng thể hiện ở trật tự các từ tiếng Anh được giữ lại (khơng bị xố) cĩ đúng hay khơng. Trên thực tế dịch một câu tiếng Anh, ta gán nghĩa tiếng Việt cho các từ cĩ nghĩa trong câu trước, muốn cho câu cĩ nghĩa, ta phải sắp xếp những nghĩa này lại. Con người luơn luơn cĩ xu hướng tối thiểu hố hao phí cơng sức, do đĩ số từ cần di chuyển đến vị trí đúng phải là nhỏ nhất. Dựa trên quan điểm
% 100 W A - W Ds = × với DS= Độ chính xác của câu S (%) W = tổng số từ trong câu S
A = số từ ít nhất trong câu S cần di chuyển để câu cĩ trật tự từđúng
Xác định A là một bài tốn tìm chi phí tối thiểu được giải quyết bằng phương pháp quy hoạch động.
Độ đo này tương tự nhưđộ đo số lần “nhấn phím” (Key stroke)[11]. Mỗi một “nhấn phím” bao gồm hai thao tác cắt và dán một từ , là chi phí để chuyển một từ về
vị trí đúng của nĩ.
Ta cũng cĩ thể phân loại câu đã chuyển đổi bằng cách chia các câu kết xuất thành các nhĩm cĩ A nằm trong một khoảng nào đĩ.
5.1.2 Kết quả học rút luật chuyển đổi
Ngữ liệu huấn luyện sử dụng được lấy từ bộ sách CADASA, Come to the
world of microcomputer 12 cuốn do Nhà xuất bản Thống Kê phát hành. Tổng số
câu xấp xỉ 10.000, chiều dài trung bình là 17 từ /câu.
Để tạo ngữ liệu vàng, đầu tiên ngữ liệu được liên kết từ và phân tích thành cây cú pháp. Từ đĩ, chương trình sẽ tự động xây dựng ngữ liệu vàng cho cả hai bước huấn luyện. Ngữ liệu vàng bước 2 là cây cú pháp được biểu diễn dưới dạng ngoặc. Ngữ liệu vàng địi hỏi phải chính xác thì luật rút ra mới chính xác, nhưng việc xây dựng thủ cơng bằng tay tốn rất nhiều cơng sức. Do đĩ, chúng em chọn cách xây dựng bán tựđộng. Tuy nhiên, cũng cần phải cĩ sự chỉnh sửa bằng tay ở kết quả liên kết từ và ngữ liệu vàng dạng cây cú pháp.
Kết quả học luật chuyển đổi cho giai đoạn 1 (chuyển đổi cùng cấp) được tĩm tắt trong bảng sau:
Tổng số mẫu 79.663
Số khung luật sử dụng (xem phụ lục 1) 12
Thời gian học bước 1 7giờ 23 phút 56 giây1
Số luật rút ra 1427 Số luật được giữ lại 137 Bảng 15: Tĩm tắt kết quả học luật chuyển đổi cùng cấp 0.937 0.9375 0.938 0.9385 0.939 0.9395 0.94 0.9405 0.941 1 76 151 226 301 376 451 526 601 676 751 826 901 Hình 38: Đánh giá tập luật học chuyển đổi cùng cấp – 137 luật đầu cho kết quả tốt nhất
Kết quả học luật chuyển đổi cho giai đoạn 2 (chuyển đổi khác cấp) được tĩm tắt trong bảng sau:
Tổng số mẫu học (bằng số cây cú pháp) 5112 Chiều dài câu trung bình 17 từ/câu
Số luật
Độ
Số khung luật sử dụng (phụ lục 2) 3
Thời gian học bước 1 9 giờ 27 phút 06 giây
Số luật rút ra 817 Số luật được giữ lại 112 Bảng 16: Tĩm tắt kết quả học luật chuyển đổi cùng cấp 0.9394 0.9396 0.9398 0.94 0.9402 0.9404 0.9406 1 70 139 208 277 346 415 484 553 622 691 760 Hình 39: Đánh giá tập luật học chuyển đổi khác cấp – 112 luật đầu cho kết quả tốt nhất 5.1.3 Một số kết quả chuyển đổi
Dưới đây là một số minh hoạ cho kết quả dịch sử dụng khối chuyển đổi cú pháp của chúng em (VCLTransfer), câu dịch được hiển thị bằng tiếng Việt.
Câu tiếng Anh cĩ sự chuyển đổi tương đối đơn giản
Một số kết quả chuyển đổi tương tự:
(E1) This computer is the most powerful .
(V1) Máy tính này là mạnh nhất .
Số luật
Độ
(E) These devices convert a bar code, which is a pattern of printed bar on products, into a code the computer can understand.
Ư (V) Những thiết bị này biến đổi một mã thanh, mà là một mẫu của thanh được in trên sản phẩm, vào một mã máy tính cĩ thể hiểu.
(E) A game controller can be considered an input device because a computer game is a program.
Ư (V) Một bộ điều khiển trị chơi cĩ thểđược cân nhắc như một thiết bị đầu vào bởi vì một trị chơi máy tính là một chương trình
Câu tiếng Anh cĩ sự chuyển đổi trung bình
Một số kết quả chuyển đổi tương tự:
(E) Intel will jointly develop the chips with an Israeli company, Alvarion, which will incorporate them into its own line of broadband wireless access systems now under development, the companies said in separate statements.
Ư (V) Intel sẽ kết hợp phát triển những vi mạch với một cơng ty Israeli, Alvarion, mà sẽ tập hợp chúng vào đường của nĩ của hệ thống (sự) truy cập khơng dây băng thơng rộng bây giờ dưới sự phát triển, những cơng ty nĩi trong
những tuyên bố riêng biệt.
Câu tiếng Anh cĩ sự chuyển đổi phức tạp.
Một số kết quả chuyển đổi tương tự:
(E3) This system is able to translate all normal and new sentence patterns .
(V3) Hệ thống này cĩ khả năng để dịch tất cả các mẫu câu bình thường và mới . (E2) This is a new and very powerful computer .
(E) Several computer manufacturers now offer another spacesaving pointing device, consisting of a small joystick positioned near the middle of the
keyboard, typically between the G and H keys.
Ư (V) Vài nhà sản xuất máy tính bây giờ đưa ra một thiết bị trỏ tiết kiệm
khơng gian khác, gồm một cần điều khiển trị chơi nhỏ được định vị gần ở giữa của bàn phím, điển hình giữa những phím G và H.
(E) When running any Windows program, you can press Alt to activate the
menu bar, and then press a highlighted letter in a menu's name to open that menu.
Ư (V) Khi mà chạy bất kỳ chương trình Windows nào, bạn cĩ thể nhấn Alt để
kích hoạt thanh thực đơn, rồi sau đĩ nhấn một chữ sáng mạnh trong tên của một
thực đơn để mở thực đơn đĩ.
Câu phủđịnh trong tiếng Anh
Một số kết quả chuyển đổi tương tự:
(E) In many cases, however, an ordinary input device may not be appropriate. Ư (V) Tuy nhiên, trong nhiều trường hợp, một thiết bị đầu vào thơng thường
khơng cĩ thể (thì) thích hợp. Câu hỏi trong tiếng Anh
(E1) Is an old man installing a new computer program ?
(V1) Một người đàn ơng già đang cài đặt một chương trình máy tính mới phải khơng ?
(E4) Some people can not use a mouse.
Một số kết quả chuyển đổi tương tự:
(E) How do you double-click an item with a mouse ?
Ư (V) Nhấp kép một mục với một con chuột bằng cách nào ?
(E) Do you think Intel should implement a similar change?
Ư (V) Bạn cĩ suy nghĩ Intel nên thực hiện một sự thay đổi tương tự như nhau
khơng?
(E) Which operating system are you using ?
Ư (V) Bạn đang sử dụng hệ điều hành nào ?
Một trong các vấn đề lớn của chuyển đổi cây cú pháp trong hệ dịch Anh-Việt là giải quyết chuyển đổi cho câu hỏi. Việc chuyển đổi cấu trúc cho các dạng câu hỏi dễ dẫn đến việc các luật mâu thuẫn nhau. Điều này cũng làm ảnh hưởng đến chất lượng tập luật: khơng đảm bảo cĩ thể chuyển đổi được tất cả các dạng câu hỏi nĩi riêng và đối với các cấu trúc câu khác nĩi chung. Do tính phức tạp của câu hỏi, các cấu trúc câu hỏi thường phải cĩ sự tác động bởi cả 4 giai đoạn: chuyển đổi cơ sở
dựa trên các nguyên tắc; chuyển đổi các thành phần cùng cấp/khác cấp và cuối cùng là giai đoạn chèn/xố.
5.2 Đánh giá
5.2.1 Ngữ liệu thử nghiệm
Ngữ liệu thử nghiệm của chúng em gồm 1.000 câu trong bộ sách CADASA trong phần chưa được dùng để huấn luyện.
Kết quả thử nghiệm được tĩm tắt trong bảng sau:
(E1) How can a computer compute a complex formular ?
W A Độ chính xác Ds
Sau khi gán nhãn chuyển đổi cơ sở 17.767 2.239 87,4% Sau khi chuyển đổi cùng cấp 17.767 1.385 92,2% Sau khi chuyển đổi khác cấp 17.767 1.058 94,1%
Bảng 17: Kết quả thử nghiệm việc áp dụng chuyển đổi cây cú pháp
Ngồi ra để đánh giá chung về kết quả chuyển đổi của chương trình (bao gồm cả phần chèn/xố các thành phần chức năng trong tiếng Việt. Chúng em so sánh kết xuất của chương trình với một chương trình dịch hiện cĩ ở thị trường, EVTRAN 2.0 (cơng ty SOFTEX, 1999-2000). Do kết quả dịch là sự phối hợp giữa chuyển đổi cấu trúc và chuyển đổi từ vựng, nên việc đánh giá kết quả chuyển đổi cấu trúc khơng thể
làm tựđộng dựa vào kết quả dịch. Chúng ta chỉ cĩ thể đánh giá một câu đúng, sai về trật tự từ mà thơi. Một số mẫu câu dịch từ hai hệ thống được chúng em trình bày trong phần phụ lục 4. Ởđây chúng em muốn nhấn mạnh đến trật tự của từ trong câu cịn về ngữ nghĩa trên bề mặt của câu thuộc về một thành phần khác của hệ dịch.
5.2.2 Nhận xét
Chương trình chuyển đổi cây cú pháp chuyển đổi rất tốt trong phạm vi cùng cấp và chuyển đổi được các thành phần khác cấp, điều mà các chương trình chuyển
đổi dựa trên luật cốđịnh khơng thể thực hiện được hoặc chỉ cĩ thể thực hiện trên bề
mặt câu.
Tuy nhiên vẫn cịn một số vấn đề trở ngại rất lớn cho việc chuyển đổi cú pháp.
Đĩ là sự phụ thuộc của chương trình chuyển đổi cây cú pháp vào sự chính xác của quá trình phân tích ở bước trước. Cụ thểđĩ là các bộ phận: gán nhãn từ loại, phân tích cú pháp câu, và xác định quan hệ ngữ pháp trong câu.
Chẳng hạn, nếu các từ trong cây cú pháp bị gán nhãn từ loại sai dẫn đến cây cú pháp của câu cũng bị sai. Phương pháp học chuyển trạng thái cĩ thể học ra luật khắc phục những lỗi sai cĩ hệ thống. Những lỗi sai quá chi tiết dẫn đến luật sửa sai cũng chi tiết và khơng thể áp dụng cho đa số các trường hợp khác, thậm chí cĩ thể làm
sai ở trường hợp mới. Để khắc phục nhược điểm này, ta cần phải tăng lượng ngữ
C
Chhưươơnngg 66
TỔNG KẾT
6.1 Kết quả
Hiện nay, chương trình chuyển đổi cây cú pháp cĩ khả năng:
Chuyển đổi trật tự các thành phần cùng cấp với nhiều mức độ phức tạp: chuyển đúng vị trí các định ngữ so với danh từ trung tâm trong định ngữ, bổ ngữ so với tính từ/động từ trong tính ngữ/động ngữ, …
Chuyển đổi trật tự các thành phần khơng cùng cấp: chuyển vị trí các trạng từ bổ nghĩa cho câu, vị trí những từ hỏi, …
Chèn, xố một số thành phần như: xố trợ động từ trong câu tiếng Anh (khơng cĩ ý nghĩa ngữ pháp trong tiếng Việt), chèn thêm một số hư từ để
câu tiếng Việt trở nên tự nhiên hơn.
Như vậy, chương trình đã cơ bản hồn thành những mục tiêu mà luận văn đã
đề ra ban đầu là chuyển đổi cây cú pháp cho tài liệu khoa học kỹ thuật (trước mắt là tài liệu về tin học) và cĩ khả năng tiếp tục mở rộng trong tương lai khi chúng em xây dựng được kho ngữ liệu huấn luyện đầy đủ và bao quát hơn nữa. Tuy nhiên cho
đến nay, chương trình vẫn cịn một số hạn chế do sự nhập nhằng về mặt cấu trúc cũng như độ chính xác của kết quả khối phân tích bước trước (phân tích ngữ pháp, xác định quan hệ, …).
6.2 Hướng phát triển
Chương trình được cài đặt theo phương pháp hướng đối tượng kết hợp với khả
năng mở rộng của chương trình học, do đĩ cĩ khả năng phát triển dễ dàng trong tương lai. Trong thời gian tới, chúng em sẽ tiếp tục hồn thiện ngữ liệu học cả về số
Mặt khác, do giới hạn của luận văn, khung luật trong chương trình chỉ khai thác các đặc trưng về từ loại, từ, cấu trúc ngữ, … mà chưa quan tâm đến những nhân tốảnh hưởng đến sự khác biệt cấu trúc giữa tiếng Anh và tiếng Việt khác. Do
đĩ, chúng em sẽ tiếp tục mở rộng thêm các loại khung luật để cĩ thể rút trích được những đặc trưng cịn lại như: ngữ nghĩa, chiều dài nghĩa tiếng Việt của một thành phần cú pháp (chẳng hạn: "Trong tiếng Việt, định ngữ dài hơn sẽđứng sau các định ngữ ngắn hơn"), loại tính từ miêu tả làm định ngữ trong các danh ngữ (chỉ màu sắc, hình dáng,...), ...
6.3 Kết luận
Cấu trúc cú pháp của câu gĩp phần tạo nên ngữ nghĩa của câu. Do đĩ, chuyển
đổi cấu trúc cú pháp trong hệ dịch tự động Anh-Việt gĩp một phần khơng nhỏ vào chất lượng của hệ dịch. Trong luận văn này, chúng em đưa ra một cách tiếp cận mới trong việc chuyển đổi cây cú pháp Anh-Việt, dựa trên phương pháp học Chuyển trạng thái và hướng lỗi nhanh (FnTBL) để rút trích tri thức chuyển đổi từ ngữ liệu song ngữ. Chương trình chuyển đổi cây cú pháp được cài đặt cho kết quả thử
nghiệm trên các tài liệu Khoa học khá cao (trên 94%) đã chứng tỏ đây là một phương pháp cĩ tiềm năng rất lớn.
Với kết quả đạt được và qua thực nghiệm, chúng em thấy rằng khối chuyển
đổi cây cú pháp của chúng em thực hiện cĩ thể được đưa vào làm khối chuyển đổi trong hệ dịch tự động Anh-Việt dựa trên sự chuyển đổi khá tốt. Đây cũng chỉ là bước khởi đầu trong quá trình nghiên cứu về chuyển đổi cấu trúc Anh-Việt. Để
chương trình đạt chất lượng cao nhất địi hỏi cả một quá trình tiếp tục lao động nghiên cứu, sáng tạo khơng ngừng. Tuy nhiên, kết quả bước đầu này của chương trình là một sự khích lệ để chúng em bước tiếp trên con đường thực hiện mơ ước “được đĩng gĩp một phần nhỏ bé vào việc xây dựng một hệ dịch tự động từ tiếng