Các thí nghiệm liên quan

Một phần của tài liệu Mô hình chuyển ngữ tiếng nước ngoài trong hệ thống tổng hợp tiếng nói tiếng việt (Trang 52 - 55)

Thí nghiệm 1.1

Chúng tôi đánh giá hệ thống chuyển ngữ dựa trên độ tƣơng đồng ở mức âm vị. Độ tƣơng đồng dựa trên khoảng cách tối tiểu, đƣợc định nghĩa là số lần thêm, xoá, thay thế tối thiểu để chuyển một chuỗi thành chuỗi khác.

Hiệu suất của hệ thống đƣợc đánh giá dựa trên tỉ lệ lỗi. Cho S1 là chuỗi do máy tổng hợp và S2 là chuỗi chuẩn, tỉ lệ lỗi của quá trình chuyển ngữ đƣợc định nghĩa nhƣ sau: | 2 | ) 2 , 1 ( S S S d ER (5.1)

trong đó, d(S1,S2) là khoảng cách tối tiểu giữa S1 và S2. |S2| là độ dài chuỗi phiên ngữ chuẩn.

Trong thí nghiệm này, chúng tôi chọn ngẫu nhiên 1000 tên riêng nƣớc ngoài trong kho ngữ liệu mà chúng tôi tự xây dựng. Trong đó, 500 tên riêng đã đƣợc huấn luyện và 500 tên riêng còn lại chƣa đƣợc huấn luyện. Phân bố tỉ lệ lỗi đƣợc chia thành bốn phần 0% ~ 10%, 10% ~ 30%, 30% ~ 50% và 50% ~ 100%. Kết quả đƣợc chỉ ra trong Bảng 5.4.

Từ kết quả thí nghiệm 1.1, 71.8% (=100% - 28.2%) dữ liệu kiểm chứng có thể đƣợc chuyển ngữ sang tiếng Việt với tỉ lệ lỗi thấp hơn 50%. Điều này nói lên rằng phiên ngữ đƣợc tổng hợp bằng máy có khuynh hƣớng ít nhất là “phân nửa đúng”.

Tỉ lệ lỗi trung bình của hệ thống khi dùng 2000 cặp tên riêng để huấn luyện cả mô hình dịch và mô hình ngôn ngữ và 2534 cặp để kiểm thử là 40.81%. Bởi vì chƣa có một công trình nào làm chuyển ngữ tên riêng nƣớc ngoài sang tiếng Việt, nên khó có thể so sánh kết quả mà hệ thống chúng tôi đạt đƣợc. Tuy nhiên kết quả này có thể chấp nhận đƣợc. Các hệ thống chuyển ngữ hiện tại cho tiếng Trung Quốc với phƣơng pháp gần phƣơng pháp đƣợc đề cập trong đề tài này[18], sử dụng 2233 cặp tên riêng để huấn luyện và tỉ lệ lỗi đạt đƣợc là 52,5% so với hệ thống của chúng tôi là 40.81% với 2000 cặp tên riêng huấn luyện.

Bảng 5.4 - Kết quả đánh giá tỉ lệ lỗi của mô hình chuyển ngữ dựa trên dịch máy thống kê

Tỷ lệ lỗi (%) 0-10 10-30 30-50 >50

# % # % # % # %

Dữ liệu chưa huấn

luyện (500) 53 10.6 142 28.4 158 31.6 147 29.4

Dữ liệu đã huấn

luyện (500) 74 14.8 126 25.2 165 33 135 27

Trung bình (1000) 12.7 26.8 32.3 28.2

Thí nghiệm 1.2

Hình 5.1 - Sơ đồ chuyển ngữ cải tiến

Để so sánh với hệ thống chuyển ngữ chỉ dùng từ điển phiên ngữ, chúng tôi thiết kế lại hệ thống trên nhƣ sơ đồ minh hoạ trong Hình 5.1. Đầu tiên, tra cứu tên riêng nƣớc ngoài trong từ điển phiên ngữ. Nếu tồn tại trong từ điển phiên ngữ thì trả về kết quả phiên ngữ tƣơng ứng. Nếu không, tên riêng nƣớc ngoài sẽ đƣợc chuyển sang hệ thống nhƣ đƣợc mô tả trong CHƢƠNG 3. Từ điển phiên ngữ bao gồm 5009 tên riêng đƣợc dùng để huấn luyện mô hình dịch và mô hình ngôn ngữ. Chúng tôi tiến hành thí nghiệm với nhiều bộ dữ liệu khác nhau và kết quả về tỉ lệ lỗi của hai hệ thống đƣợc chỉ ra trong Hình 5.2.

Thí nghiệm 1.2 cho thấy rằng, hệ thống của chúng tôi cho kết quả tốt hơn so với hệ thống chỉ tra cứu từ điển phiên ngữ truyền thống. Hệ thống đã khắc phục

Không

Có Tiếng nƣớc ngoài

Tồn tại trong từ điển chuyển ngữ

Chuyển ngữ tiếng Việt

Hệ thống chuyển ngữ

nhƣợc điểm của hệ thống tra cứu trên từ điển truyền thống về mặt có thể phủ tất cả tên riêng nƣớc ngoài.

Hình 5.2 - Kết quả so sánh tỷ lệ lỗi giữa hệ thống chuyển ngữ dựa trên kỹ thuật dịch máy thống kê với phương pháp tra cứu từ điển truyền thống

Thí nghiệm 1.3

Để đánh giá độ ảnh hƣởng của mô hình dịch và mô hình ngôn ngữ đối với tỉ lệ lỗi của hệ thống, chúng tôi lần lƣợt thử nghiệm với các bộ dữ liệu huấn luyện khác nhau. Đối với quá trình huấn luyện mô hình dịch, ba bộ dữ liệu 2000 cặp tên, 4000 cặp tên, 5000 cặp tên lần lƣợt đƣợc sử dụng. Đối với quá trình huấn luyện mô hình ngôn ngữ, ngoài sử dụng cùng bộ dữ liệu nhƣ trong quá trình huấn luyện mô hình dịch, chúng tôi sử dụng thêm từ điển Viet11k[50] để tăng độ phủ của dữ liệu. Kết quả đƣợc chỉ ra trong Bảng 5.5 và Hình 5.3.

Bảng 5.5 - Bảng đánh giá tỷ lệ lỗi khi áp dụng những mô hình ngôn ngữ và mô hình dịch khác nhau

TM2000 TM4000 TM5000 LM2000 40.23 40.34 40.27 LM4000 40.01 40.31 40.49 LM5000 40.08 40.12 39.68 LM2000Viet11k 40.56 40.93 40.67 LM4000Viet11k 38.55 39.06 38.95 LM5000Viet11k 39.24 39.32 38.95 39.68 30.09 22.06 16.8 8.14 0 100 80 60 40 20 0 0 20 40 60 80 100 120

Kết quả thí nghiệm 1.3 chỉ ra rằng, hệ thống chuyển ngữ chịu ảnh hƣởng không nhiều của mô hình dịch và mô hình ngôn ngữ. Tỉ lệ lỗi trung bình khi thay thế mô hình ngôn ngữ và mô hình dịch nằm trong khoảng 38.55% - 40.93%. Kết quả này cho thấy, chúng ta chỉ cần ít dữ liệu huấn luyện cũng cho ra kết quả gần nhƣ tƣơng đƣơng.

Hình 5.3 - Biểu đồ mô tả sự ảnh hưởng của mô hình dịch và mô hình ngôn ngữ

Một phần của tài liệu Mô hình chuyển ngữ tiếng nước ngoài trong hệ thống tổng hợp tiếng nói tiếng việt (Trang 52 - 55)

Tải bản đầy đủ (PDF)

(66 trang)