Kết quả khi chạy thực nghiệm với cách tích hợp trực tiếp vào Moses đƣợc cho trong bảng . Kết quả dịch với mô hình RNNLM thấp hơn nhiều so với sử dụng mô hình N-gram khi sử dụng cả hai mô hình trong hệ thống dịch máy thống kê Moses.
Bảng 3.11: Kết quả BLEU khi tích hợp với hệ thống dịch máy Moses
Mô hình ngôn ngữ BLEU
Modified Kneser-Ney (SRILM) 29.59
RNNLM 25.68
Kết quả của mô hình RNNLM thấp là do dịch máy thống kê Moses dịch theo cụm. Khi tiến hành dịch, Moses sẽ sinh ra các cụm dịch ở ngôn ngữ đích, gọi mô hình ngôn ngữ để đánh giá cụm nào tốt nhất sẽ chọn làm cụm đƣợc dịch. Tuy nhiên, do mô hình N-gram tốt cho các cụm kích thƣớc nhỏ, còn mô hình RNNLM đạt kết quả cao cho cụm dài nên kết quả sử dụng của RNNLM vào Moses không cao. Mô hình
RNNLM đã đƣợc [13’] đánh giá tốt với các hệ thống nhận dạng tiếng nói, khi đƣa vào hệ thống dịch máy thống kê theo cụm cho kết quả thấp.
Đánh giá qua n-best list
Với cách đánh giá trƣớc cho kết quả của mô hình RNNLM thấp, học viên đã thử nghiệm thêm một đánh giá nữa trên hệ thống Moses nhƣng theo cách thức khác. Sử dụng hệ thống dịch máy thống kê Moses để sinh ra n-best list (100), với mỗi một câu dịch, Moses sinh ra 100 khả năng dịch, rồi đƣa qua mô hình RNNLM để đánh giá từng câu dựa trên log xác suất. Sau đó sẽ chọn câu có giá trị tốt nhất để đánh giá điểm BLEU.