Một đánh giá đơn giản và hay sử dụng là cách đánh giá định lƣợng thông qua tỷ số SNR: tỷ số công suất trung bình tín hiệu trên nhiễu. Nhƣ đã đề cập trong phần mã hóa PCM, SNR đƣợc xác định theo công thức tổng quát:
e (n) E ) n ( s E SNR 22
Trong đó E{} là giá trị trung bình thống kê.
SNR là một thông số mang tính chất kỹ thuật mang tính chất khách quan mà gần nhƣ không có một mối quan hệ chặt chẽ đến sự cảm nhận của tai ngƣời. Do đó, ngoài đánh giá khách quan bằng tỷ sốSNR, ngƣời ta còn đánh giá chất lƣợng mã hóa thông qua một thông số mang tính chất chủquan là thang đo điểm ý kiến (còn đƣợc biết đến là thang đo độ hài lòng – Mean Opinion Score). Đây là thang đo đánh giá tính chủ quan cảm nhận của ngƣời nghe sau khi đƣợc hỏi ý kiến về chất lƣợng tiếng nói thu đƣợc của bộ mã hóa và giải mã. Thông thƣờng thang này gồm có 5 cấp độ: 1- Tồi; 2-Kém; 3-Chấp nhận đƣợc; 4-Tốt; 5-Rất tốt. Mặc dù nó phản ánh đƣợc đặc điểm nghe của con ngƣời, nhƣng đây là một tham sốmang tính định tính, khó có thể có đƣợc công thức tính trực tiếp. Nhƣ vậy, nó không thểđƣợc dùng nhƣ là một điều kiện trong bài toán thiết kế xây dựng bộ mã tối ƣu.
Một đánh giá nữa là tốc độ mã hóa: là số bít trung bình cần phải truyền trong một đơn vị thời gian.
Trong các ứng dụng mã hóa tiếng nói của các hệ thống thông tin, một yêu cầu quan trọng không kém đó là khả năng đáp ứng thời gian thực, hay độ trễ của phép mã hóa. Trong mã hóa tiếng nói của hệ thống thoại tƣơng tác thời gian thực, độ trễ >150ms là không thể chấp nhận đƣợc.
3.7. CÂU HỎI VÀ BÀI TẬP CUỐI CHƢƠNG
1. Mục đích của việc mã hóa tín hiệu tiếng nói? 2. Có những lớp mã hóa tiếng nói nào?
CHƢƠNG 3. MÃ HÓA TIẾNG NÓI
89 3. Các phƣơng pháp mã hóa dạng sóng tín hiệu tiếng nói: ý tƣởng, nguyên lý
thực hiện, ƣu/nhƣợc điểm?
4. Các phƣơng pháp mã hóa tham số: ý tƣởng, nguyên lý thực hiện,
ƣu/nhƣợc điểm?
5. Các phƣơng pháp mã hóa lai ghép: ý tƣởng, nguyên lý thực hiện,
ƣu/nhƣợc điểm?
6. (Matlab) Sử dụng máy tính cá nhân và phần mềm Matlab (hoặc các ngôn ngữ lập trình khác) thực hiện các công việc sau:
i. Ghi âm một đoạn tín hiệu tiếng nói bất kỳ, lƣu ởđịnh dạng *.wav ii. Sử dụng hàm thƣ viện của Matlab hoặc công cụ thích hợp:
1. Kiểm nghiệm một số phƣơng pháp mã hóa dạng sóng cơ
bản (PCM, DPCM, …), đánh giá SNR, chất lƣợng âm thanh cảm thụ, dung lƣợng file dữ liệu sau mã hóa
2. Kiểm nghiệm một số phƣơng pháp mã hóa tham sốcơ bản
(LPC, CELP, …), đánh giá SNR, chất lƣợng âm thanh cảm thụ, dung lƣợng file dữ liệu sau mã hóa
BỘ THÔNG TIN VÀ TRUYỀN THÔNG
HỌC VIỆN CÔNG NGHỆBƢU CHÍNH VIỄN THÔNG ******************************* BÀI GIẢNG XỬ LÝ TIẾNG NÓI BIÊN SOẠN: PHẠM VĂN SỰ LÊ XUÂN THÀNH HÀ NỘI - 2014
CHƢƠNG 4. TỔNG HỢP TIẾNG NÓI
CHƢƠNG 4. TỔNG HỢP TIẾNG NÓI 4.1. MỞĐẦU
Trƣớc đây khái niệm "tổng hợp tiếng nói" thƣờng đƣợc dùng để chỉ quá trình tạo âm thanh tiếng nói một cách nhân tạo từ máy dựa theo nguyên lý mô phỏng cơ quan phát âm
của ngƣời. Tuy nhiên ngày nay, cùng với sự phát triển của khoa học công nghệ, khái niệm này đã đƣợc mở rộng bao gồm cả quá trình cung cấp các thông tin dạng tiếng nói từ máy trong đó các bản tin đƣợc tạo dựng một cách linh động để phù hợp cho nhu cầu nào
đó. Các ứng dụng của các hệ thống tổng hợp tiếng nói ngày nay rất rộng rãi, từ việc cung cấp các thông tin dạng tiếng nói, các máy đọc cho ngƣời mù, đến những thiết bị hỗ trợ cho ngƣời gặp khó khăn trong việc giao tiếp,...
4.2. CÁC PHƢƠNG PHÁP TỔNG HỢP TIẾNG NÓI 4.2.1 Tổng hợp trực tiếp