Dịch máy dựa trên ngữ liệu (CBMT: Corpus-Based MT)

Một phần của tài liệu Nghiên cứu một số công cụ phục vụ cho việc phát triển hệ thống hỗ trợ dịch Trung Việt (Trang 30 - 31)

Ở đây, việc phân thành loại tiếp cận có tên là “dựa trên ngữ liệu” có vẻ không rõ ràng lắm, vì thật ra, các cách tiếp cận dựa trên thống kê hay dựa trên ví ụ

nói trên đều dựa trên ngữ liệu. Nhưng điểm đặc biệt của cách tiếp cận này là dựa

trên cơ sở ngôn ngữ học và công nghệ máy học để các quy luật của ngôn ngữ từ ngữ liệu. Nó học dựa trên cấu trúc của ngôn ngữ chứ không phải trên bề mặt của ngôn ngữ như trong SMT.

Để thực hiện được điều này, máy cần có ngữ liệu rất lơn (corpus), dạng đơn ngữ (monolingual) hay song ngữ (bilingual) và máy sẽ khai thác trên các kho ngữ liệu này.

Đặc điểm của cạch tiếp cận này là khả năng tự rút ra các qui luật của ngôn

dựa trên luật được rút ra) nhưng khắc phục được khuyết điểm của việc xây dựng

luật thủ công bởi các chuyên gia. Các luật được rút ra lại được thử nghiệm tại chỗ

để đánh giá độ chính xác và hiệu quả của luật (dựa trên ngữ liệu huấn luyện), chính

vì vậy, các luật rút ra được đảm bảo là chính xác, bao quát, không mâu thuẫn,

không thừa.

Để thấy được sự khác biệt giữa cách tiếp cận CBMT và SMT, chúng ta thử xét ví dụ sau [10]: trong một hệ thống nhận dạng tiếng nói, nếu hệ nhận được câu: “The singer sang a lot of a??as” và hệ muốn xác định “a??as” là “areas” (khu vực) hay “arias” (dân ca). Nếu chúng ta dùng các mô hình ngôn ngữ theo kiểu thống kê một vị trí (uni-gram), hai vị trí (bi-gram), 3-gram (tri-gram), … và huấn luyện trên các văn bản thông thường thì chắc chắn hệ sẽ chọn từ “areas”, còn nếu cũng dùng mô hình thống kê nói trên, nhưng nếu hệ được huấn luyện trên các văn bản về âm

nhạc, thì nó sẽ chọn từ “arias”. Trong trường hợp này, muốn hệ thống xác định

được mối quan hệ giữa động từ “sang” (ca) với đối từ “a??as” thì ta phải sử dụng đến mô hình 5-gram. Mà trong mô hình n-gram, với số n càng lớn thì chi phí tính toán và ngữ liệu cần thiết sẽ tăng lên gấp bội.

Tuy nhiên, để khử được nhập nhằng 2 từ “areas” và “arias” nói trên, với hệ dùng luật, khi xét quan hệ ngữ nhĩa giữa động từ “sang” với đối từ “a??as”, hệ chắc chắn sẽ chọn từ “arias”. Có nghĩa là nếu dùng đến thông tin về cấu trúc câu, chúng ta sẽ giải quyết rất nhanh trường hợp nhập nhằng trên. Nhưng làm thế nào để tìm ra được các qui luật ngôn ngữ trên? Câu trả lời là: “dùng CBMT để học các qui luật đó từ ngữ liệu thực tế”.

Một phần của tài liệu Nghiên cứu một số công cụ phục vụ cho việc phát triển hệ thống hỗ trợ dịch Trung Việt (Trang 30 - 31)

Tải bản đầy đủ (PDF)

(67 trang)