Đo SNR trên từng khung trong miền thời gian là một trong những phương pháp đánh giá về mặt toán đơn giản nhất. Để phương pháp này có hiệu quả thì điều quan trọng là tín hiệu gốc và tín hiệu đã qua xử lý phải trong cùng miền thời gian và độ lệch pha hiện tại phải được hiệu chỉnh chính xác. SNRseg được xác định như sau
[12] (2.1) Trong đó : tín hiệu gốc (tín hiệu sạch)
: tín hiệu đã được tăng cường
N: chiều dài khung (thường được chọn từ 15-20ms) M: số khung của tín hiệu
Một vấn đề tiềm ẩn với phương pháp đánh giá SNRseg là năng lượng của tín hiệu trong suốt khoảng lặng của tín hiệu thoại (xuất hiện nhiều trong các đoạn hội thoại) sẽ rất bé, dẫn đến kết quả là giá trị của ai số SNRseg lớn làm sai lệch toàn bộ đánh giá. Phương án giải quyết duy nhất là loại trừ những khung lặng trong biểu thức trên bằng cách đo mức năng lượng trong thời gian ngắn nén giá trị SNRseg ngưỡng đến một giá trị bé. Nếu giá trị SNRseg được giới hạn trong khoảng [-10dB, 35dB] [14] sẽ tránh được việc cần phải dùng bộ tách tín hiệu thoại và khoảng lặng
Sự xác định trước của SNRseg dựa trên tín hiệu vào gốc và tín hiệu đã được xử lý. Ta có thể dùng tín hiệu được xử lý qua bộ lọc dự đoán thường được sử dụng trong thuật toán CELP [15]. Sau khi đưa tín hiệu gốc và tín hiệu đã qua xử lý qua các bộ lọc này, ta có thể tính toán SNRseg dựa trên tín hiệu ra của các bộ
Chương 2 : Đánh giá chất lượng tiếng nói
lọc[16]. Sự ước tính SNR này mang lại hệ số tương quan cao đối với các phương pháp đánh giá chủ quan
Một cách xác định SNRseg khác được đề xuất bởi Richards [17] trong đó hàm log có thay đổi so với công thức 3.1
(2.2) Như vậy có thể tránh được các giá trị sai lệch lớn trong suốt các khoảng lặng của tín hiệu tiếng nói. Chú ý rằng giá trị nhỏ nhất có thể đạt được của SNRsegR bây giờ là 0 thì đã tốt hơn nhiều so với những giá trị âm vô cùng. Ưu điểm chính của việc xác định trước phân đoạn SNR là tránh được việc cần thiết phải làm rõ ràng giữa các khoảng tiếng nói và khoảng lặng
Đo SNR cho từng khung có thể được mở rộng trong miền tần số theo
(2.3)
Trong đó Bj : Trọng lượng tại dải tần số thứ j
K : Số dải tần
M : Tổng số khung tín hiệu
F(m,j) : Dãy tín hiệu gốc qua bọ lọc đã được khuếch đại tại
dải
lần thứ j và khung thứ m
: Dãy tín hiệu đã được tăng cường qua lọc khuếch đại ở cùng một dải tần với F(m,j)
Ưu điểm chính của việc sử dụng SNRseg trên miền tần số thay vì miền thời gian tăng thêm tính linh động của việc phân bố trọng số của phổ khác nhau cho những dải tần khác nhau
Một cách khác, trọng số của mỗi dải có thể thu được bằng cách dùng phương pháp phân tích hồi quy, còn gọi là phương pháp đánh giá chủ quan biến đổi tần số. Bằng cách này , trọng số có thể được chọn để có hệ số tương quan lớn
Chương 2 : Đánh giá chất lượng tiếng nói
Chương 2 : Đánh giá chất lượng tiếng nói
của K (cho mỗi dải) của các phương pháp đánh giá khách quan khác nhau và Dj được ước tính cho mỗi dãy, tại Dj được cho như sau[12]
(2.4) Trọng lượng tối ưu cho mỗi Dj của mỗi dải đạt được khi dùng phương pháp phân tích hồi quy tuyến tính bậc K, cho ra đánh giá chủ quan biến đổi tần số:
(2.5) : Các hệ số hồi quy, Dj : được cho bởi (3.4), K là số dải .Phân tích hồi quy không tuyến tính cũng có thể được sử dụng như một cách để chuyển hóa
đánh giá khách quan biến đổi tần số