Đánh giá thực nghiệm

Một phần của tài liệu Nghiên cứu một số phương pháp nâng cao chất lượng tổng hợp tiếng Việt và thử nghiệm cho phần mềm VnVoice (Trang 76)

Chƣơng 4: THỬ NGHIỆM CẢI TIẾN GIỌNG ĐỌCTỔNG HỢP TIẾNG VIỆT TRONG PHẦN MỀM

4.3.2.Đánh giá thực nghiệm

Vì thời gian thực hiện có hạn nên trong luận văn chưa có điều kiện để thử nghiệm hết các mô hình ngôn điệu một cách hoàn chỉnh. Tuy nhiên, sau quá trình khảo sát, phân tích dữ liệu, chúng tôi có rút ra được một số các luật áp dụng trong quá trình tổng hợp để nâng cao chất lượng tiếng nói tổng hợp VnVoice:

Luật1: Thiết lập năng lượng trung bình trong VnVoice dao động trong khoảng từ 67-69dB.

Luật 2: Trong cụm từ ba âm tiết, âm tiết thứ hai có năng lượng nhỏ hơn hai âm tiết lân cận trước và sau nó. Ví dụ, “hợp tác xã”, thì E(tác) = E(hợp) - 2dB.

Luật 3: Trường độ các âm tiết có phần cuối là p, t, c được cộng thêm 0.25s Dnew(âm tiết có âm cuối:p,t,c) = Dold((âm tiết có âm cuối:p,t,c)+0.25 ms

Luật 4: Các đường thanh điệu tiếng Việt đặc trưng cho một giọng nói cụ thể có thể phân loại thành một số lớp đường tiêu biểu.

Trong đó, luật 1 rút ra từ việc khảo sát CSDL tiếng nói gốc. Luật này được kiểm nghiệm bằng cách thiết lập lại năng lượng đầu ra mô đun tổng hợp sau đó nghe lại. Luật 2 có được nhờ cải tiến trong thuật toán tổng hợp PSOLA. Kỹ thuật PSOLA cho phép thay đổi năng lượng sóng âm mềm dẻo. Luật thứ 3 sử dụng mô hình CART huấn luyện trên tập dữ liệu mẫu đã mô tả ở trên. Luật thứ 4 nhờ áp dụng kỹ thuật LBG phân lớp đường thanh điệu.

Bảng 4.3: Minh họa trường độ một vài âm tiết có phần cuối là p, t, c trong VnVoice cải tiến.

Âm tiết có p, t, c Trƣờng độ âm tiết Ngữ cảnh ấp 0.28 ấp úng Dắt 0.39 Dắt trâu Đạc 0.43 Đồ đạc trong Sức 0.45 Hết sức đơn Khách 0.41 Khanh khách lúc Khắp 0.76 Khắp các ức 0.26 Ký ức tuổi Lóc 0.42 Lăn lóc ngoài Nghịch 0.38 Nghịch cũng

Nước 0.46 Nước tôi

Mặt 0.40 Ra mặt bà

Thiết 0.39 Thiết yếu Chút 0.36 Tí chút trên Trước 0.41 Trước để

Cách 0.33 Tư cách như Khóc 0.42 Và khóc thầm Nước 0.46 Xuống nước năn

Hình 4.7: Biểu đồ sóng và phổ của cụm từ “ký ức tuổi” sau khi hiệu chỉnh trường độ âm tiết “ức”.

Đánh giá kết quả

Trong luận văn tập trung chủ yếu cải tiến độ tự nhiên tiếng nói tổng hợp. Để đánh giá độ tự nhiên tiếng nói tổng hợp sau khi cải tiến, chúng tôi sử dụng độ đo MOS (Mean Opinion Score) [29] cho 5 hệ tổng hợp dưới đây:

Bảng 4.4: Các hệ tổng hợp được đánh giá. STT Hệ tổng hợp Ký hiệu 1 VnSpeech #1 2 VietVoice 4.0 #2 3 VnMobile Speech #3 4 VnVoice 1.0 #4

5 VnVoice cải tiến #5

Người nghe đánh giá chất lượng tiếng nói của các hệ thống tổng hợp khác nhau trên cùng tập câu mẫu. Thang điểm đánh giá trong bảng 4.5:

Bảng 4.5: Thang điểm độ đo MOS.

Chất lƣợng tiếng nói tổng hợp Điểm

Xuất sắc 4.1 – 5

Tốt 3.1 – 4

Bình thường 2.1 – 3

Kém 1.1 – 2

Phương pháp này đo sự ảnh hưởng của ngôn ngữ và yếu tố tâm lý [21]. Văn bản kiểm tra được phân thành một số chủ đề khác nhau như: chính trị, kinh tế, thể thao, khoa học, … Văn bản mẫu này cho người nghe đánh giá toàn bộ chất lượng tiếng nói tổng hợp ở theo các phương pháp tổng hợp khác nhau và cho điểm. Điểm trung bình là điểm cuối cùng để đánh giá.

Chúng tôi chọn 16 người nghe thông thường và 4 chuyên gia để đánh giá.

Bảng 4.6: Kết quả đánh giá tính tự nhiên các hệ thống tổng hợp tiếng Việt.

Hệ tổng hợp #1 #2 #3 #4 #5

Av  Av  Av  Av  Av 

MOS 1.62 0.47 3.22 0.72 2.85 0.68 3.33 0.61 3.76 0.46

Trong đó Av là điểm trung bình đánh giá,  là độ lệch chuẩn. (adsbygoogle = window.adsbygoogle || []).push({});

Theo độ đo MOS, các kết quả thu được tương ứng chất lượng tiếng nói như sau:

Điểm MOS Chất lƣợng

4.0 - 4.5 Tự nhiên, giọng người nói.

3.5 - 4.0 Dễ hiểu, phù hợp với các ứng dụng thông báo, truyền thông.

2.5 - 3.5 Giọng nhân tạo, không tự nhiên.

Hệ tổng hợp VnVoice cải tiến (3.76 điểm) tốt hơn so với VnVoice1.0 (3.33 điểm). Tuy nhiên, VnVoice đã cải tiến vẫn cần hoàn thiện hơn nữa bằng cách thử nghiệm các mô hình thanh điệu và mô hình trường độ khác nhau.

Một phần của tài liệu Nghiên cứu một số phương pháp nâng cao chất lượng tổng hợp tiếng Việt và thử nghiệm cho phần mềm VnVoice (Trang 76)