Dịch tự độngViệt –Anh

Một phần của tài liệu bckh_cong_nghe_nhan_dang_0493 (Trang 39 - 42)

2. Nội dung chớnh của bỏo cỏo

2.2 Những nội dung đó thực hiện

2.2.3.1 Dịch tự độngViệt –Anh

những kết quả chớnh của đề tài là dựa trờn một số cỏch tiếp cận dựa trờn cấu trỳc văn phạm của cỏc ngụn ngữ để tiến hành dịch tự động và tiếp tục phỏt triển phần mềm EVTRAN cho phần dịch Việt – Anh. Đồng thời một xu hướng mới đó ra đời trong những năm gần đõy nhằm tận dụng khai thỏc kho tàng khổng lồ cỏc văn bản dịch trong nhiều thứ tiếng, thuộc đủ thể loại như văn học, bỏo chớ, hàn lõm hay luật học. Việc sử dụng kho tài nguyờn gồm cỏc bản dịch đa phần cú chất lượng rất tốt này để xõy dựng cỏc bộ nhớ dịch hay cỏc bộ từ vựng đa ngữ trong cỏc hệ thống dịch mỏy cú vẻ là một giải phỏp hợp lớ. Cỏch khai thỏc kho văn bản dịch đa ngữ hay cũn gọi là văn bản song song (parallel texts) này là thực hiện việc dúng hàng (alignment), tức là tỡm kiếm tự động cỏc tương ứng dịch trong cỏc văn bản vốn được dịch ra từ cựng một văn bản gốc nào đú. Cỏc tương ứng dịch này cú thể ở cỏc mức độ chi tiết khỏc nhau: cú khi chỉ đũi hỏi ớt chi tiết là mức đoạn, phổ biến nhất là ở mức cõu, và chi tiết, lớ tưởng hơn là mức ngữ đoạn hoặc từ. Chớnh vỡ vậy ở 3 phần tiếp sau của, trỡnh bày cỏc nghiờn cứu và kết quả về:

- Dịch Việt Anh theo cỏch tiếp cận dựa trờn cấu trỳc văn phạm

- Dúng hàng cỏc văn bản song ngữ Phap- Việt, tiền thõn của khuynh hướng dịch tự động

- Xõy dựng mụ hỡnh từ điển điện tử cho tiếng Việt, một cụng cụ thiết yếu cung cấp nguồn tri thức giỳp giỳp mỏy tớnh cú thể hiểu được ngụnngữ con người vF đúng vai trũ nền tảng cho cỏc nghiờn cứu vố ngụn ngữ tự nhiờn.

2.2.3.1 Dịch tự độngViệt - Anh Nghiờn cứu Nghiờn cứu

− Đề xuất văn phạm định biờn (bound controlled grammar) – một dạng mở

rộng của mụ hỡnh văn phạm phi ngữ cảnh, chỉ ra một số tớnh chất của văn phạm, trong đú chứng minh được rằng lớp ngụn ngữ định biờn là bao đúng của lớp ngụn ngữ phi ngữ cảnh đối với phộp giao. Điều đú cú nghĩa rằng văn phạm định biờn là sự mở rộng đủ và tối thiểu cho lớp ngụn ngữ phi ngữ cảnh để thành một tập hợp đúng kớn đối với phộp hợp và phộp giao. í nghĩa của văn phạm định biờn là ở chỗ cỏc kết quả lý thuyết và giải thuật trờn lớp ngụn ngữ phi ngữ cảnh đều cú thể ỏp dụng cho ngụn ngữ định biờn. Núi riờng, cỏc giải thuật phõn tớch văn phạm phi ngữ cảnh cũng như độ phức tạp của chỳng được giữ nguyờn gần như hoàn toàn trong văn phạm định biờn.

− Đề xuất văn phạm cảm ngữ đoạn (phrase sensitive grammar) – một phỏt triển tiếp tục của văn phạm định biờn cho phộp mụ tả được nhiều tớnh chất phụ thuộc ngữ cảnh của ngụn ngữ tự nhiờn, đặc biệt, đề xuất khỏi niệm ngữ đoạn như một yếu tố ràng buộc trọng tõm trong định nghĩa cỏc cấu trỳc của ngụn ngữ.

• Cỏc phần tử từ vựng, cỳ phỏp, ngữ nghĩa và tập quy tắc được tổ chức thành hệ phõn cấp (dàn đại số)

• Đưa vào khỏi niệm “phần tử được đỏnh dấu” để thể hiện những ràng buộc ngữ nghĩa trong quy tắc văn phạm, đặc biệt, để biểu diễn cỏc nỳt cú số nhỏnh biến thiờn trong cõy phõn cấp ngữ nghĩa. Bộ phõn tớch khụng dựng cõy cỳ phỏp mà dựng mụ hỡnh biểu diễn bờn trong (cõy phõn cấp ngữ nghĩa) của cõu văn trờn cơ sở ỏp dụng cỏc quy tắc cảm ngữ đoạn.

− Đề xuất phương phỏp giải quyết nhập nhằng ứng dụng trong xử lý ngụn ngữ tự nhiờn dựa trờn sự phõn cấp của hệ luật sinh sử dụng một mụ hỡnh logic mới, trong đú miền giỏ trị khụng phải là nhị phõn (true, false – như trong logic cổ điển) hay một đoạn liờn tục (cỏc số thực từ 0 đến 1 – như trong logic mờ) mà là một dàn đại số. Giải phỏp đề xuất một mụ hỡnh hỡnh thức cho sự “lập luận theo lẽ thường” (common-sense reasoning) đối với tri thức ngụn ngữ.

Mụ hỡnh phõn cấp ngữ nghĩa ỏp dụng trong văn phạm cảm ngữ đoạn cho ta một cụng cụ để mụ tả những quy tắc ngụn ngữ, vốn rất khú diễn đạt bằng toỏn học. Với cỏch tiếp cận được đề xuất, mỗi luật sinh đều cú một phạm vi tỏc dụng trong khuụn khổ một hệ phõn cấp miền tỏc dụng của tập luật. Tập cỏc miền tỏc dụng của bộ luật tạo nờn một phủ trờn toàn bộ ngụn ngữ.

Những kết quả nghiờn cứu này tạo thành nền tảng để xõy dựng một giải phỏp dịch mỏy liờn ngữ khả thi (hiện đang được phỏt triển tại Viện Ứng dụng Cụng

nghệ). Cỏch tiếp cận cú cỏc đặc trưng cơ bản sau:

• Bộ phõn tớch khụng dựng cõy cỳ phỏp mà dựng mụ hỡnh biểu diễn bờn trong (cõy phõn cấp ngữ nghĩa) của cõu văn

• Bước Tổng hợp là quỏ trỡnh đơn ngữ, được thực hiện hoàn toàn độc lập với quỏ trỡnh Phõn tớch. Vỡ vậy, trong mụ hỡnh dịch mỏy được đề xuất, cụng đoạn tổng hợp văn bản khú hơn nhiều so với khõu phõn tớch, và văn bản được sản sinh ra sẽ tự nhiờn, bản ngữ hơn, khụng phụ thuộc vào cỏch đặt cõu của văn bản gốc.

− Phỏt triển giải thuật phõn tớch văn phạm cảm ngữ đoạn.

Xõy dựng mụ hỡnh xử lý nhập nhằng cho kho ngữ liệu được tổ chức theo mụ hỡnh phõn cấp dựa vào logic trờn dàn và văn phạm cảm ngữ đoạn. Thuật toỏn phõn tớch theo sơ đồ dưới lờn và từ phải sang trỏi (bottom-up right-most

analysis) dựng cõy phõn tớch ngữ nghĩa khụng phụ thuộc ngụn ngữ và họ cỏc

bộ giỏ trị trạng thỏi liờn ngụn ngữ.

− Phỏt triển giải thuật tổng hợp văn phạm cảm ngữ đoạn. Xõy dựng sơ đồ tổng hợp văn bản

− Ứng dụng một phần cỏc kết quả lý thuyết và cụng nghệ được phỏt triển vào phần mềm dịch mỏy

− Ứng dụng một số heuristics nhằm cải thiện tốc độ cho giải thuật phõn tớch văn phạm và biờn dịch văn bản

− Xõy dựng hệ phõn cấp từ loại tiếng Việt để đưa vào cơ sở tri thức tiếng Việt trờn cơ sở mụ hỡnh ngữ nghĩa chung cho Hệ thống từ loại tiếng Việt, ỏp dụng lý thuyết dàn (lattice) làm mụ hỡnh ngữ nghĩa cho hệ thống từ loại tiếng Việt. − Khảo sỏt trờn 400.000 mẫu cõu song ngữ Việt-Anh thụng dụng.

− Xõy dựng cơ sở tri thức dịch mỏy Anh Việt – Việt Anh bao gồm:

• Trờn 7.600 quy tắc văn phạm và biờn dịch Anh-Việt và Việt-Anh

• Trờn 230.000 đơn vị từ vựng dịch Anh-Việt

• Trờn 260.000 đơn vị từ vựng dịch Việt-Anh

Sản phẩm phần mềm

Phần mềm EVTRAN 2.5 dịch hai chiều Anh-Việt, Việt-Anh (dịch Việt – Anh là sản phẩm đăng ký của đề tài) là sản phẩm ứng dụng một phần kết quả lý thuyết và cụng nghệ đó trỡnh bày trờn vào phần mềm dịch mỏy. Ngoài ra, một trong những đúng gúp của đề tài là ứng dụngmột số giải phỏp kiểm - thử (heuristic) nhằm cải tiến tốc độ cho giải thuật phõn tớch văn phạm và biờn dịch văn bản.

− Đặc trưng kỹ thuật chớnh của phần mềm EVTRAN 2.0: • Dịch hai chiều Anh-Việt và Việt-Anh

• Chương trỡnh tự động đoỏn nhận ngụn ngữ nguồn

• Cơ sở tri thức dịch mỏy Anh Việt – Việt Anh bao gồm:

+ Trờn 7.600 quy tắc văn phạm và biờn dịch Anh-Việt và Việt-Anh

+ Trờn 230.000 đơn vị từ vựng dịch Anh-Việt

+ Trờn 260.000 đơn vị từ vựng dịch Việt-Anh

• Cú tớnh năng đa ngữ, cú thể dễ dàng đưa một cặp ngụn ngữ mới vào hệ thống để biờn dịch qua lại giữa hai ngụn ngữ mà khụng cần phải lập trỡnh.

• Cú khả năng vận dụng tri thức ngụn ngữ trong phõn tớch : kho ngữ liệu càng lớn thỡ tốc độ phõn tớch cõu – và tương ứng – tốc độ biờn dịch văn bản càng cao, trỏi với cỏc giải thuật phõn tớch đơn định (chẳng hạn đối với giải thuật Early thỡ thời gian phõn tớch tỷ lệ nghịch với bỡnh phương kớch thước của bộ quy tắc văn phạm).

• Cú cỏc cụng cụ cập nhật tri thức ngụn ngữ và biểu diễn trực quan cõy cỳ phỏp để hỗ trợ việc hiệu chỉnh cơ sở tri thức

• Cú kốm theo một số từ điển tra cứu thụng dụng (Computing Dictionary, Thesaurus, Từ điển Anh-Việt và Việt-Anh, Oxford Advanced Learner’s Encyclopedic Dictionary, Webster’s Dictionary,...) để tiện việc cập nhật dữ liệu ngụn ngữ

Đỏnh giỏ kết quả

Nguyờn lý thiết kế của phần mềm dựa vào việc mở rộng mụ hỡnh văn phạm để cú thể mụ tả được đầy đủ hơn cỏc yếu tố của ngụn ngữ tự nhiờn. Do khối lượng cụng việc cần làm để cú được sản phẩm chất lượng cao là rất lớn. Trong khuụn khổ của đề tài chỳng tụi đó thực hiện cả nghiờn cứu lý thuyết và triển khai cụng nghệ.

Về mặt Lý thuyết cú những kết quả sau:

− Phỏt triển mụ hỡnh văn phạm cảm ngữ đoạn làm cụng cụ hỡnh thức để mụ tả ngụn ngữ tự nhiờn

− Đưa ra một cỏch tiếp cận trong việc hỡnh thức húa sự lập luận theo lẽ thường để mụ tả tri thức ngụn ngữ và giải quyết nhập nhằng;

− Giới thiệu mụ hỡnh dịch mỏy liờn ngữ dựa trờn Cõy phõn cấp ngữ nghĩa – một mụ hỡnh biểu diễn tri thức ngụn ngữ độc lập với cỏc ngụn ngữ tự nhiờn.

Về mặt Cụng nghệ cú những kết quả sau:

− Xõy dựng được khung ứng dụng dịch Việt – Anh.

− Áp dụng một phần những kết quả nghiờn cứu lý thuyết trong phần mềm. Chỳng tụi sẽ tiếp tục ỏp dụng những kết quả trờn, nhất là mụ hỡnh dịch mới dựa trờn cấu trỳc trung gian là cõy phõn cấp ngữ nghĩa sẽ được tớch hợp trong phiờn bản tiếp theo của sản phẩm.

− Nhập trờn 250.000 mục từ vựng và 5.000 quy tắc dịch Việt-Anh (Khối lượng theo đăng ký đề tài là 150.000 mục từ vựng và 5.000 quy tắc dịch)

− Thụng thường cỏc hệ dịch tự động đa dụng (ứng dụng cho nhiều lĩnh vực) đũi hỏi khoảng 600.000 mục từ vựng và 26.000 quy tắc dịch (theo số liệu của cụng ty Logomedia – một cụng ty chuyờn kinh doanh sản phẩm dịch mỏy). Chỳng tụi sẽ tiếp tục bổ sung dữ liệu tri thức ngụn ngữ để sản phẩm cú thể bao quỏt được hầu hết cỏc tỡnh huống ngụn ngữ tiếng Việt. Đõy là quỏ trỡnh lõu dài và đũi hỏi cụng sức lớn (vào thời điểm này đó cú trờn 270.000 mục từ).

− Hiện nay, phần mềm cú thể biờn dịch một số mẫu cõu thụng thường với độ chớnh xỏc hạn chế. Quỏ trỡnh phỏt triển tiếp theo là duyệt, dịch thử và hiệu chỉnh cơ sở tri thức trờn một lượng văn bản Internet tiếng Việt và tiếng Anh đủ lớn để tiếp tụng nõng cao chất lượng dịch.

− Trong quỏ trỡnh thử nghiệm, chỳng tụi đó khảo sỏt dịch thử một văn bản gồm 94 cõu. Chất lượng dịch Việt-Anh đạt 23 cõu xem hiểu tạm chấp nhận được. Sau khi bổ sung 16 từ, số cõu cú thể hiểu đỳng là 47. Sau khi bổ sung 6 thành ngữ và 5 quy tắc văn phạm cũn thiếu, cú thể hiểu được 62 cõu trong bản dịch với hành văn rừ ràng hơn.

− Từ kết quả thử nghiệm và từ cỏc phõn tớch đó nờu trờn, ta cú thể đi đến kết luận:

• Rất khú giới hạn việc chuẩn bị cơ sở tri thức ngụn ngữ cho một lĩnh vực chuyờn mụn hay một lớp cấu trỳc văn phạm hẹp.

• Cần phải thử nghiệm trờn một lượng văn bản thực tế đủ lớn để tinh chỉnh sản phẩm – Đõy là một cụng việc rất mất cụng.

• Cần phải kết hợp với việc hồn thiện mụ hỡnh dịch tự động để cú những cải thiện về chất lượng dịch mỏy.

Một phần của tài liệu bckh_cong_nghe_nhan_dang_0493 (Trang 39 - 42)

Tải bản đầy đủ (PDF)

(121 trang)