Cơ sở lý thuyết tin học H ướng tiếp cận vấn đề

Một phần của tài liệu Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt (Trang 33 - 35)

Tri thức chuyển đổi cú pháp giữa hai ngơn ngữ nằm trong những cặp câu dịch tự nhiên. Một người Việt biết tiếng Anh, tức là họđã cĩ hiểu biết về ngữ pháp cũng như từ vựng tiếng Anh, khi gặp câu “I have an interesting book”, họ cĩ thể dịch ngay là “Tơi cĩ một quyển sách thú vị”. Tri thức chuyển đổi ngữ danh từ tiếng Anh “an interesting book” thành “một quyển sách thú vị” chính là tri thức chuyển đổi cần được khai thác, biểu diễn trên máy tính theo cách thức mà máy tính cĩ thể đọc và áp dụng được cho những trường hợp mới. Trong luận văn này, chúng em chọn cách biểu diễn tri thức chuyển đổi dưới dạng luật.

Trong nhiều hệ dịch đơn giản trước đây, bộ luật chuyển đổi này được các chuyên gia ngơn ngữ xây dựng bằng tay, một số hệ dịch sử dụng phương pháp

thống kê. Tuy nhiên, cho dù xây dựng bằng phương pháp nào đi chăng nữa thì việc xây dựng cũng phải dựa trên cơ sở là những văn bản do chính con người dịch chứ

khơng thể là những trường hợp do các chuyên gia dịch tự nghĩ ra. Khi khối lượng dữ liệu chứa tri thức chuyển đổi này ngày càng tăng thì việc xây dựng bằng tay trở

nên khĩ khăn hơn. Do đĩ, cần phải cĩ một phương pháp tựđộng rút bộ luật chuyển

đổi từ ngữ liệu.

Các phương pháp máy học ra đời đã đáp ứng được nhu cầu đĩ. Khối lượng dữ

liệu lớn khơng cịn là một vấn đề trở ngại. Chúng ta cũng cĩ thể lựa chọn phương pháp máy học phù hợp với loại ngữ liệu, mục đích của cơng việc, và tận dụng được tối đa ưu điểm của phương pháp đĩ. Trong bài tốn chuyển đổi cây cú pháp, chúng em chọn phương pháp học dựa trên sự chuyển trạng thái (Transformation Based Learrning), gọi tắt là TBL, chúng em xây dựng thuật tốn học dựa trên tư tưởng của thuật tốn “TBL nhanh” [16] được cải tiến từ TBL gốc (được trình bày chi tiết trong chương 3).

Hiệu quả của thuật tốn học rút luật chuyển đổi cú pháp khơng chỉ phụ thuộc vào tính đúng đắn và hiệu quả của bản thân thuật tốn đĩ mà cịn phụ thuộc vào: chất lượng của bộ phân tích ngữ pháp (cho thơng tin cú pháp và từ loại), những thơng tin phân tích phụ khác cho câu tiếng Anh (như vai trị của các thành phần trong cây cú pháp, ...).

C

Chhưươơnngg 22

CÁC HƯỚNG TIP CN CHUYN ĐỔI

CU TRÚC TRONG DCH MÁY

Vấn đề chuyển đổi cấu trúc giữa hai ngơn ngữ trong dịch máy là một trong các vấn đề cần được quan tâm hàng đầu trong bất kỳ một hệ dịch nào. Nhiều cách tiếp cận khác nhau đã được đề xuất, trong đĩ mỗi cách tiếp cận thường sẽ phụ thuộc lớn vào đặc trưng của cặp ngơn ngữ của hệ thống dịch cũng như các tài nguyên sẵn cĩ của hai ngơn ngữ nguồn và đích. Trong chương này chúng em sẽ điểm lại một số

hướng tiếp cận chính đã và đang được sử dụng trong các hệ dịch máy trên tồn thế

giới cũng nhưđánh giá sơ bộ những ưu khuyết điểm của các hướng tiếp cận này.

Một phần của tài liệu Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt (Trang 33 - 35)

Tải bản đầy đủ (PDF)

(159 trang)