Đánh giá thuật toán với các hệ số dự đoán ban đầu

Một phần của tài liệu Đồ án tốt nghiệp: Thuật toán xử lý tiếng nói trong Speech Enhancement và đánh giá tính hiệu quả của thuật toán pdf (Trang 63 - 66)

L ỜI CAM Đ OAN

4.6.4.1 Đánh giá thuật toán với các hệ số dự đoán ban đầu

Hệ số IS=0.2, NoiseMargin=3

¾ Đánh giá OE

Sau khi thực hiện thuật toán SS và WF với các thông số alpha=0.9, gamma=1, NoiseMargin=3,IS=0.2 ta có đồ thị của đánh giá bằng SNR, LLR, IS, WSS như sau

SVTH: Nguyễn Thị Ngọc Diệp Trang 63

Hình 4.11Đồ thịđánh giá Objective với hệ số IS=0.2, NoiseMargin=3

Theo đồ thị ta có các nhận xét như sau :

Đối với thông sốđánh giá SNR cho ta thấy tỉ số SNR đã có tăng hơn so với file chưa xử lý. Chứng tỏ thuật toán đã loại trừ môt phần nhiểu ra khỏi file sạch. Nhưng đối với so sánh IS, LLR, WSS thì ta lại thấy file chưa xử lý lại có kết quả tốt hơn file đã xử lý. Do đánh giá IS, LLR, WSS là so sánh khoảng cách phổ giữa file đã xử lý và file sạch rồi tính giá trị trung bình nên ta có thể dựđoán là năng lượng của file đã xử lý lệch rất nhiều với file sạch có thể do thuật toán tồi hoặc là năng lượng tín hiệu sạch bị nén một phần .

¾ Đánh giá SE

Sau khi kiểm tra các file đầu ra bằng phương pháp nghe thử ta có các nhận xét sau đây: Một số file đầu ra của các thuật toán SS và WF có mức độ nén nhiễu khác cao dẫn tới việc mất một phần tiếng nói.

¾ Kết lun và ti ưu các thông s cho thut toán VAD

Qua các nhận xét vềđánh giá OE và SE ta rút ra kết luận như sau:

Do thuật toán VAD với các thông số đề ra là IS=0.2 và NoiseMargin=3 là không tốt nên một phần âm thanh bị ước lượng là nhiễu nên đã bị thuật toán nén đi dẫn tới việc mất năng lượng của phần âm thanh sạch.

SVTH: Nguyễn Thị Ngọc Diệp Trang 64

Đối với thông số IS ta phải thay đổi như sau : Do đoạn lặng trong file sạch chỉ nằm trong khoảng 0.15s đến 0.2s. Nếu ta để 0.2 là quá lớn đối với một sô file nên một phần năng lượng tiếng nói trong những file nay sẽđược thuật toán VAD xem là nhiễu vì thế một phần tiếng nói sẽ bị loại bỏ. Đó là một hạn chế của thuật toán VAD được dùng trong đề tài : giữ cứng giá trị IS( đoạn im lặng) để cài đặt nhiễu là không phù hợp cho tất cả mọi file âm thanh.

Đối với thông số NoiseMargin: Vì ta chọn mức ngưỡng để nhận biết nhiễu là 3dB là khá lớn nên tương tự như giá trị IS với mức ngưỡng như vậy một phần tín hiệu sạch sẽ bị loại bỏ do khác gần với nhiễu dù IS có tối ưu thế nào đi nữa. Qua thực nghiệm ta có hệ số NoiseMargin tối ưu là 2. Đó là giá trị mà tín hiệu sạch không bịước lượng là nhiễu.

Vậy các giá trị tối ưu cho thuật toán VAD là : hệ số IS phải điều chỉnh lại là 0.15s, hệ số NoiseMargin là 2.

Hệ số IS=0.15 ,hệ số NoiseMargin=2

¾ Đánh giá OE

Sau khi thuật hiện lại thuật toán SS và WF với hệ số IS=0.15,hệ số NoiseMargin=2 ta có đồ thị đánh giá IS, SNR, WSS, LLS như sau :

SVTH: Nguyễn Thị Ngọc Diệp Trang 65 Ta nhận thấy thông số SNR tương tự như trường hợp IS = 0.2 và NoiseMargin=2. Nhưng ta các giá trị LLR và IS của so sánh tín hiệu đã xử lý bằng SS và WF đã giảm, trong đó giá trị IS đã giảm đáng kể.Đặc biệt với thuật toán SS giá trị IS đã xuống dưới ngưỡng của file nhiễu. Điều đó chứng tỏ các thông số này thật sự tốt. Nhưng các giá trị IS còn rât lớn đối với thuật toán WF và các mức SNR 0dB và 10dB và các giá trị IS của thuật toán Wiener vẫn còn nằm trên giá trị IS của file chưa xử lý và file sạch.

¾ Đánh giá SE

Sau khi nghe thử các file đầu ra của thuật toán SS và thuật toán WF. Ta nhận thấy thuật toán SS thật sự làm viêc tốt đã hạ được mức nhiễu của các file âm thanh. Nhưng đối với thuật toán WF mặc dù đã hạ được mức nhiễu của các file âm thanh nhưng một số file vẫn bị mất tiếng nói điều đó chứng tỏ hệ số của thuật toán WF chưa tốt.

¾ Kết lun

Kết hợp giữa nhận xét trong OE và SE ta có kết luận là với hệ số IS=0.15 và NoiseMargin=2 thì thuật toán VAD làm việc thật sự tối ưu cho nhiễu xe hơi. Và hệ số của thuật toán Wiener chưa tối ưu đó chính là hệ số alpha.

Một phần của tài liệu Đồ án tốt nghiệp: Thuật toán xử lý tiếng nói trong Speech Enhancement và đánh giá tính hiệu quả của thuật toán pdf (Trang 63 - 66)

Tải bản đầy đủ (PDF)

(77 trang)