Đo tỷ số tín hiệu trên nhiễu trên từng khung

Một phần của tài liệu Đồ án tốt nghiệp: Thuật toán xử lý tiếng nói trong Speech Enhancement và đánh giá tính hiệu quả của thuật toán pdf (Trang 34 - 36)

L ỜI CAM Đ OAN

2.3.1Đo tỷ số tín hiệu trên nhiễu trên từng khung

Đo SNR trên từng khung trong miền thời gian là một trong những phương pháp đánh giá về mặt toán đơn giản nhất. Để phương pháp này có hiệu quả thì điều quan trọng là tín hiệu gốc và tín hiệu đã qua xử lý phải trong cùng miền thời gian và độ lệch pha hiện tại phải được hiệu chỉnh chính xác. SNRseg được xác định như sau

[12] (2.1)

Trong đó : tín hiệu gốc (tín hiệu sạch) : tín hiệu đã được tăng cường

N: chiều dài khung (thường được chọn từ 15-20ms)

M: số khung của tín hiệu

Một vấn đề tiềm ẩn với phương pháp đánh giá SNRseg là năng lượng của tín hiệu trong suốt khoảng lặng của tín hiệu thoại (xuất hiện nhiều trong các đoạn hội thoại) sẽ rất bé, dẫn đến kết quả là giá trị của ai số SNRseg lớn làm sai lệch toàn bộ đánh giá. Phương án giải quyết duy nhất là loại trừ những khung lặng trong biểu thức trên bằng cách đo mức năng lượng trong thời gian ngắn nén giá trị SNRseg ngưỡng đến một giá trị bé. Nếu giá trị SNRseg được giới hạn trong khoảng [-10dB, 35dB] [14] sẽ tránh được việc cần phải dùng bộ tách tín hiệu thoại và khoảng lặng

Sự xác định trước của SNRseg dựa trên tín hiệu vào gốc và tín hiệu đã được xử lý. Ta có thể dùng tín hiệu được xử lý qua bộ lọc dự đoán thường được sử dụng trong thuật toán CELP [15]. Sau khi đưa tín hiệu gốc và tín hiệu đã qua xử lý qua các bộ lọc này, ta có thể tính toán SNRseg dựa trên tín hiệu ra của các bộ

SVTH: Nguyễn Thị Ngọc Diệp Trang 34 lọc[16]. Sựước tính SNR này mang lại hệ số tương quan cao đối với các phương pháp đánh giá chủ quan

Một cách xác định SNRseg khác được đề xuất bởi Richards [17] trong đó hàm log có thay đổi so với công thức 3.1

(2.2)

Như vậy có thể tránh được các giá trị sai lệch lớn trong suốt các khoảng lặng của tín hiệu tiếng nói. Chú ý rằng giá trị nhỏ nhất có thể đạt được của SNRsegR bây giờ là 0 thì đã tốt hơn nhiều so với những giá trị âm vô cùng. Ưu điểm chính của việc xác định trước phân đoạn SNR là tránh được việc cần thiết phải làm rõ ràng giữa các khoảng tiếng nói và khoảng lặng

Đo SNR cho từng khung có thểđược mở rộng trong miền tần số theo

(2.3)

Trong đó Bj : Trọng lượng tại dải tần số thứ j

K : Số dải tần

M : Tổng số khung tín hiệu

F(m,j) : Dãy tín hiệu gốc qua bọ lọc đã được khuếch đại tại dải

lần thứj và khung thứm

: Dãy tín hiệu đã được tăng cường qua lọc khuếch đại ở cùng một dải tần với F(m,j)

Ưu điểm chính của việc sử dụng SNRseg trên miền tần số thay vì miền thời gian tăng thêm tính linh động của việc phân bố trọng số của phổ khác nhau cho những dải tần khác nhau

Một cách khác, trọng số của mỗi dải có thể thu được bằng cách dùng phương pháp phân tích hồi quy, còn gọi là phương pháp đánh giá chủ quan biến đổi tần số. Bằng cách này , trọng số có thểđược chọn để có hệ số tương quan lớn nhất giữa đánh giá khách quan và đánh giá chủ quan. Với phương pháp này, tổng

SVTH: Nguyễn Thị Ngọc Diệp Trang 35 của K (cho mỗi dải) của các phương pháp đánh giá khách quan khác nhau và Dj được ước tính cho mỗi dãy, tại Djđược cho như sau[12]

(2.4) Trọng lượng tối ưu cho mỗi Dj của mỗi dải đạt được khi dùng phương pháp phân tích hồi quy tuyến tính bậc K, cho ra đánh giá chủ quan biến đổi tần số:

(2.5)

: Các hệ số hồi quy, Dj : được cho bởi (3.4), K là số dải .Phân tích hồi quy không tuyến tính cũng có thể được sử dụng như một cách để chuyển hóa đánh giá khách quan biến đổi tần số

Một phần của tài liệu Đồ án tốt nghiệp: Thuật toán xử lý tiếng nói trong Speech Enhancement và đánh giá tính hiệu quả của thuật toán pdf (Trang 34 - 36)