Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt dựa trên mô hình TBL

MỤC LỤC

Nhận xét

Cơ sở lý thuyết tin học - Hướng tiếp cận vấn đề

Tuy nhiên, cho dù xây dựng bằng phương pháp nào đi chăng nữa thì việc xây dựng cũng phải dựa trên cơ sở là những văn bản do chính con người dịch chứ không thể là những trường hợp do các chuyên gia dịch tự nghĩ ra. Trong bài toán chuyển đổi cây cú pháp, chúng em chọn phương pháp học dựa trên sự chuyển trạng thái (Transformation Based Learrning), gọi tắt là TBL, chúng em xây dựng thuật toán học dựa trên tư tưởng của thuật toán “TBL nhanh” [16] được cải tiến từ TBL gốc (được trình bày chi tiết trong chương 3).

CÁC HƯỚNG TIẾP CẬN CHUYỂN ĐỔI CẤU TRÚC TRONG DỊCH MÁY

Hướng tiếp cận dựa trên luật cố định

    Hướng tiếp cận dựa trên luật chuyển đổi cố định cung cấp khả năng chuyển đổi, chèn, xoá các thành phần của vế phải của cùng một luật sinh trong văn phạm xác định nhưng không thể mở rộng để áp dụng trong việc chuyển đổi giữa các thành phần khác cấp hoặc khác cha. Để xây dựng được một bộ luật chuyển đổi cố định từ cây cú pháp nguồn sang cây cú pháp đích người ta phải bỏ ra rất nhiều công sức và thời gian và phải được xây dựng bởi các chuyên gia ngôn ngữ học so sánh để đảm bảo cho tập luật đầy đủ và hiệu quả nhất.

    Hình 9: Khả năng chuyển đổi cú pháp của luật cố định.
    Hình 9: Khả năng chuyển đổi cú pháp của luật cố định.

    Hướng tiếp cận sử dụng case-frame

      Các thành tố của khối chuyển đổi chỉ có thể truy xuất một phần nào đó của case-frame, sau đó, nếu một luật chuyển đổi cần tham khảo đến những tính chất của một phần ở xa nó trong case-frame, thì những tính chất xác định đó có thể nằm ngoài phạm vi truy xuất của nó. Công trình trên cũng được tác giả thừa nhận là các trường hợp chuyển đổi chỉ giới hạn trong những dạng case-frame được xây dựng, muốn dịch được nhiều dạng câu và dạng ngữ hơn thì cần phải mở rộng từ điển và tập luật chuyển đổi dạng case- frame.

      Hướng tiếp cận sử dụng TAG đồng bộ (STAG)

        Để giải quyết vấn đề này, khái niệm cây dẫn xuất (derivation tree) được định nghĩa như một đối tượng xác định cách duy nhất một cây kết quả được tạo thành, cho phép xem xét và lưu giữ mọi thông tin về sự kết hợp và thay thế trong một sự dẫn xuất TAG. STAG có thể được sử dụng để liên kết các cây sơ cấp của hai ngôn ngữ khác nhau nhằm mục đích chuyển đổi về cấu trúc từ ngôn ngữ nguồn sang ngôn ngữ đích (và có thể ngược lại) trong các mô hình dịch máy [18], hoặc nó cũng có thể được sử dụng để liên kết một cây cú pháp TAG với một cây ngữ nghĩa TAG cho cùng một ngôn ngữ [18] nhằm mục đích phát sinh hoặc phân tích ngữ nghĩa.

        Hình 10: Giản đồ cây khởi tạo và cây phụ trợ của TAG
        Hình 10: Giản đồ cây khởi tạo và cây phụ trợ của TAG

        Cách tiếp cận phân tích ngữ pháp song song

          Thuật toán tính δ0,X,0,Y(S) sử dụng phép truy hồi sau đây, trong đó điều kiện (S-s)(t-S) + (U-u)(v-U)≠0 , điều kiện này xác định rằng chuỗi con trong một ngôn ngữ có thể chia thành một chuỗi rỗng ε và chính nó hay không; đây là điểm dừng cho đệ qui, nhưng vẫn cho phép các từ không được liên kết trong ngôn ngữ còn lại được ánh xạ đến ε. Đánh nhãn cấu trúc (bracket) là một hình thức đánh dấu ngữ liệu trung gian, hữu ích trong trường hợp không có sẵn cách phân tích cú pháp như tiếng Việt. Những thuật toán đánh nhãn cấu trúc tự động trước đây thực hiện trên văn bản đơn ngữ và do đó đòi hỏi nhiều luật ngữ pháp hơn. Dựa trên SITG và sử dụng sự tương ứng từ vựng giữa những câu song song có thể rút ra thông tin dùng để đánh cấu trúc từng phần ở cả hai câu. Văn phạm chuyển dịch được sử dụng chỉ chứa một ký hiệu thành tố không kết thúc duy nhất A, được viết lại theo kiểu đệ qui dưới dạng một cặp A hay một cặp thành tố kết thúc :. A→bij ui/v với mọi cách dịch tự điển Anh – Việt i,j A→biε ui/ε với mọi từ vựng tiếng Anh i. A→bεj ε/vj với mọi từ vựng tiếng Việt j. Phân phối bij thực sự mã hoá từ điển dịch với các độ xác suất trên mỗi cặp dịch có thể. Bộ phân tích cú pháp sẽ chọn cây phân tích cú pháp đáp ứng tốt nhất những cách dịch từ điển đã được kết hợp, thể hiện bởi xác suất bij. 2.4.4 Chuyển đổi cây cú pháp song song cho cả hai ngôn ngữ. Lưu ý rằng cây cú pháp tiếng Anh đã xác định điểm chia S để ngắt e0.X thành 2 cây con thành phần e0.S và eS.X tương ứng, cùng với nhãn thành tố không kết thúc j và k cho mỗi cây. Áp dụng đệ qui cho mỗi cây con. hàm quyết định trong thành phần cấu tạo tiếng Anh, viết là Sst, jst và kst biểu diễn cho điểm chia và nhãn của cây con cho những thành phần es.t. Thuật toán có thể được đơn giản hoá thành thuật toán phân tích cú pháp sau :. Đối với tất cả các thành phần trong câu tiếng Anh es.t và với mọi i,u,v thoả. Độ phức tạp cho thuật toán này so với thuật toán gốc đã giảm từ ).

          Cách tiếp cận dựa trên cấu trúc vị từ - đối số

            Dựa trên kết quả rút trích các cấu trúc vị từ - đối số từ bước phân tích, bộ phận chuyển đổi cấu trúc cần tiến hành quá trình sắp xếp lại trật tự của các ngữ (đã được công thức hoá thành các vị từ với các đối số của nó). Trong ví dụ bên dưới, động từ “gave” là một động từ có hai bổ ngữ (một trự tiếp và một gián tiếp) chính vì vậy sẽ có hai đối số: một đối thực hiện hành động và một đối nhận hành động.

            MÔ HÌNH CHUYỂN ĐỔI CÂY CÚ PHÁP

            Phương pháp học hướng lỗi dựa trên sự chuyển trạng thái (TBL)

              Thay vì sử dụng một cách gán nhãn cơ sở đơn giản, ta có thể sử dụng một cách gán nhãn phức tạp hơn và nhiệm vụ của bộ học lúc này chỉ là rút ra những luật sửa sai làm hoàn chỉnh thêm kết xuất. ™ Một khi có danh sách luật chuyển đổi, khi áp dụng lên một thực thể mới, những việc cần làm chỉ đơn giản là đưa thực thể đó qua bộ gán nhãn cơ sở rồi áp dụng từng luật theo thứ tự lên thực thể đó.

              Hình 16: Sơ đồ phương pháp học TBL tổng quát
              Hình 16: Sơ đồ phương pháp học TBL tổng quát

              Thuật toán học nhanh FnTBL

                Ở bước áp dụng, không có sự lựa chọn luật, thời gian gán nhãn dựa trên sự chuyển trạng thái tỉ lệ tuyến tính với chiều dài của thực thể đầu vào. Trạng thái khởi đầu dựa trên những thống kê đơn giản, sau đó các luật được học theo cách thức “tham lam” để sửa những lỗi sai.

                CÀI ĐẶT CHƯƠNG TRÌNH

                Thiết kế

                  Tuy nhiên do thực tế quá trình học có giám sát chỉ yêu cầu phần tiếng Anh đã được chuyển đổi nên phần tiếng Việt có thể được bỏ qua sau khi nhúng thông tin về trật tự các thành phần của câu tiếng Việt vào câu tiếng Anh. ™ W2: Ngữ liệu đơn ngữ tiếng Anh đã qua áp dụng các luật chuyển đổi cùng cấp R1, có định dạng giống với định dạng của G2.

                  Thuật toán gán nhãn cơ sở cho ngữ liệu

                    Mỗi nút trên cây được lưu trữ bằng một cấu trúc dữ liệu bao gồm một cấu trúc chính lưu trữ các thông tin về từ, từ loại và định danh tuyệt đối của nút, cấu trúc phụ lưu trữ các thông tin cần trong quá trình xử lý như định danh tương đối, tình trạng của nút (đã được duyệt hay chưa), …. Vì yêu cầu của việc chuyển đổi trật tự của một ngữ từ tiếng Anh sang tiếng Việt trong dịch máy không quá khắc khe phải thật tự nhiên như con người thực hiện nên để đơn giản chúng ta có thể quy định rằng từ fE(arg1, …, argn) ánh xạ sang fV(arg1, …, argn) chỉ cho một kết quả.

                    Hình 26: Kết quả sau khi phân tích cú pháp câu “Last  week, I saw a very interesting film.”
                    Hình 26: Kết quả sau khi phân tích cú pháp câu “Last week, I saw a very interesting film.”

                    Học chuyển đổi cùng cấp

                      Bên cạnh ba thuộc tính cơ bản này thông tin về từ loại của nút cha và từ loại của nút ông cũng được sử dụng nhằm tăng cấp độ giải quyết vấn đề của luật, từ tổng quát đến vừa và đến thật chi tiết. Ở đây các khung luật được chúng em đưa ra không có sự rằng buộc về số lượng giới hạn các thành phần trong một ngữ nhằm tăng tính năng mạnh mẽ và uyển chuyển cho các luật được rút ra đồng thời phát huy hết được sức mạnh về khả năng tiến hoá của phương pháp học máy dựa trên sự chuyển đổi trạng thái.

                      Hình 28: Cây cú pháp tiếng Anh đã được chuyển đổi  trật tự các thành phần cho đúng với tiếng Việt
                      Hình 28: Cây cú pháp tiếng Anh đã được chuyển đổi trật tự các thành phần cho đúng với tiếng Việt

                      Học chuyển đổi khác cấp

                        Để làm được điều này, chúng em cung cấp cho bộ học khả năng hình thành đường đi từ nút cần chuyển đổi đến vị trí mới của nó bằng cách xác định cha chung cho hai nút (nút bắt đầu và kết thúc của thành phần cần chuyển đổi), tiếp theo sẽ đánh định danh tương đối cho các thành phần trên đường đi và hình thành nên đường di chuyển của thành phần cần chuyển đổi. Các khung luật trong học luật chuyển đổi khác cấp được chúng em thiết kế để có thể học được cả những trường hợp chuyển đổi trong cùng một cấp (là trường hợp đặc biệt của chuyển đổi khác cấp), tuy rất hạn chế nhưng sẽ có khả năng khắc phục được các lỗi bị bỏ sót sau khi áp dụng các luật chuyển đổi cùng cấp.

                        Hình 33: Cây cú pháp của câu tiếng Anh “It is a good type of book.”
                        Hình 33: Cây cú pháp của câu tiếng Anh “It is a good type of book.”

                        THỬ NGHIỆM – ĐÁNH GIÁ

                        Thử nghiệm

                          (E) Intel will jointly develop the chips with an Israeli company, Alvarion, which will incorporate them into its own line of broadband wireless access systems now under development, the companies said in separate statements. Do tính phức tạp của câu hỏi, các cấu trúc câu hỏi thường phải có sự tác động bởi cả 4 giai đoạn: chuyển đổi cơ sở dựa trên các nguyên tắc; chuyển đổi các thành phần cùng cấp/khác cấp và cuối cùng là giai đoạn chèn/xoá.

                          Đánh giá

                            Do kết quả dịch là sự phối hợp giữa chuyển đổi cấu trúc và chuyển đổi từ vựng, nên việc đánh giá kết quả chuyển đổi cấu trúc không thể làm tự động dựa vào kết quả dịch. Chương trình chuyển đổi cây cú pháp chuyển đổi rất tốt trong phạm vi cùng cấp và chuyển đổi được các thành phần khác cấp, điều mà các chương trình chuyển đổi dựa trên luật cố định không thể thực hiện được hoặc chỉ có thể thực hiện trên bề mặt câu.

                            MỘT SỐ KẾT QUẢ DỊCH SỬ DỤNG KHỐI CHUYỂN ĐỔI CÂY CÚ PHÁP VCLTRANSFER

                            Tại một mức tiên tiến hơn, người sử dụng những phim và truyền hình để kết hợp nhiều loại của phương tiện ( âm thanh, hình, hoạt hình, vẫn còn những đồ họa, và văn bản ) để tạo ra những loại khác nhau của thông điệp mà báo tin hay là giải trí trong những cách duy nhất và đầy ý nghĩa. Yêu cầu này có thể nghĩa là đưa nhiều miếng người dùng của thông tin song song - như là một hình ảnh 3-D đang quay của một động cơ, một sự mô tả âm của chức năng của nó, và những cái hộp văn bản phổ biến mà cung cấp thông tin nhiều hơn khi mà người dùng trỏ tại những bộ phận nào đó của đồ họa.

                            MỘT SỐ CÂU DỊCH CỦA HAI HỆ DỊCH

                            Phần mềm Thương mại (mà) những người phát triển có cũng làm một tống đạt tới Linux, và những người dùng có thể mong đợi săn sóc những ứng dụng phần mềm đại chúng sẽ được sửa đổi được chạy dưới Linux. Thấy/xem cái gì (thì) mới; lấy một chuyến du lịch giải trí; học về những chương trình Windows-XP chứa, bao gồm những hệ thống, những phụ tùng, và những truyền thông và những chương trình sự giải trí.

                            HỆ THỐNG NHÃN NGỮ PHÁP

                            STT Nhãn cú pháp Ý nghĩa 1 ADJP Ngữ tính từ (Adjective phrase) 2 ADVP Ngữ trạng từ (Adverbial phrase). 16 WHADVP Trạng ngữ bắt đầu bằng Wh- (Wh- adverbial phrase) 17 WHNP Danh ngữ bắt đầu bằng Wh- (Wh- noun phrase) 18 WHPP Giới ngữ bắt đầu bằng Wh- (Wh- preposional phrase) 19 X Thành phần không xác định (Constituent of unknown or. uncertain type).