L ỜI MỞ ĐẦ U
2.4.2 Giải mã bằng kỹ thuật mở rộng không gian giả thuyết
Quá trình giải mã được thực hiện từ trái qua phải theo tuần tự mỗi lần dịch là một phrase được thêm vào. Trong suốt quá trình tìm kiếm, ta thiết lập một không gian giả thuyết là một cấu trúc dữ liệu chứa các thông tin về những từ tiếng Anh đã
được sinh ra, những từ đầu vào đã được bao trùm, và điểm xác suất tương ứng của chúng tới thời điểm đó.
Đầu tiên ta khởi tạo một không gian giả thuyết rỗng, không có xác suất nào được gán vào tại thời điểm ban đầu. Điểm xác suất thành phần của nó bằng 1.
Ta mở rộng giả thuyết bằng cách đặt vào một trong nhiều khả năng dịch và xây dựng một giả thuyết mới. Ví dụ, đầu tiên ta dịch từhe với lựa chọn đầu tiên của nó là anh_ta. Nghĩa là đặt cụm từ tiếng Việt anh_ta vào vị trí đầu tiên của câu,
đánh dấu từ tiếng Anh he đã được duyệt và tính toán tất cả các giá xác suất. Các kết quả trong giả thuyết mới này có kết nối tới giả thuyết rỗng ban đầu.
Nhưng chúng ta cũng có thể quyết định mở rộng giả thuyết ban đầu bằng cách dịch từ tiếng Anh did thành làm. Khi đó, ta cũng phải đánh dấu từ tiếng Anh, thêm vào giả thuyết từ tiếng Việt và các giá cho quá trình dịch này. Trường hợp dịch này lại cho ra một giả thuyết khác. Quá trình này được minh họa như trong hình 2.10. Mỗi giả thuyết được minh họa bởi một khối chứa từ tiếng Việt được thêm vào mới nhất, một vectơ bao trùm các từ tiếng Anh đã được dịch (miêu tả
trong hình vẽ những từ đã được đi qua là những từ theo thứ tự các ô được bôi
đen), và một con trỏ từ giả thuyết cha của nó trỏ tới.
Hình 2.10: Tiến trình giải mã
Tiến trình mở rộng không gian giả thuyết được thực hiện một cách đệ quy. Các giả thuyết mới được hình thành bằng cách duyệt tới những từđầu vào chưa được dịch. Quá trình này tiếp tục cho tới khi tất cả các giả thuyết đã được mở rộng hết. Một giả thuyết bao trùm toàn bộ các từ đầu vào không thể mở rộng thêm được nữa và hình thành một điểm cuối trong đồ thị tìm kiếm. Khi tất cả các giả thuyết
được hoàn thành, ta phải tìm ra một điểm xác suất cao nhất: đó là điểm kết thúc của đường đi tốt nhất trong đồ thị tìm kiếm. Nói cách khác, khi ta lần ngược lại
đồ thị tìm kiếm đó thông qua các con trỏ, ta tìm được kết quả dịch có sốđiểm cao nhất.
Với cách làm này, nếu hai cách dịch chỉ khác nhau từ cuối cùng thì chúng sẽ có chung không gian giả thuyết và chỉ khác nhau giả thuyết cuối cùng. Như vậy ta giảm lược được không gian tính toán.
Tuy nhiên, đối với những câu dài thì độ phức tạp tính toán vẫn lớn. Ta vẫn cần giảm bớt số lượng giả thuyết. Một phương pháp được đề xuất là kết hợp lại các giả thuyết.
Hình 2.11: Ví dụ kết hợp giả thuyết
Như ví dụ hình 2.11, hai giả thuyết có cùng số từđầu vào được dịch và từđầu ra giống nhau nhưng khác nhau vềđiểm số thì chúng có thểđược kết hợp với nhau và giả thuyết tồi hơn sẽ bị loại bỏ.
CHƯƠNG III – CÁC THÀNH PHẦN TRONG HỆ DỊCH THỐNG KÊ DỰA TRÊN ĐƠN VỊ CỤM TỪ
Chương trước đã giới thiệu về mô hình truyền thống và các thành phần cơ bản của cách tiếp cận dịch máy thống kê. Chương này sẽ giới thiệu về mô hình log- linear và ứng dụng của nó trong bài toán dịch máy thống kê dựa trên đơn vị cụm từ.