Ứng dụng trong mã hóa tiếng nói

5. Ý nghĩa khoa học và thực tiễn

2.2.2 Ứng dụng trong mã hóa tiếng nói

WI (WI là một bộ mã hóa dựa trên NMF 2kb/s được gọi là tiện ích NMF-WI) là một thuật toán nén hiệu quả, có thể tạo ra lời nói chất lượng cao với tốc độ bit thấp. Nó đạt được bằng cách khai thác bản chất của sản xuất và nhận thức lời nói của con người [1]. Trong bộ mã hóa WI truyền thống, tín hiệu dư dự báo tuyến tính được phân tách thành dạng sóng phát triển chậm (SEW) và dạng sóng phát triển nhanh (REW) bằng bộ lọc thông thấp FIR.

Sự phân tách này sẽ mang lại sự chậm trễ bổ sung và nó có thể làm cho SEW và REW hoàn toàn độc lập. Vì vậy, nó cần thiết để thay thế một phương pháp phân tách mới cho lọc thông thấp FIR. Một loại phương pháp NMF hiệu quả đã được áp dụng để phân rã các dạng sóng đặc trưng (CW) [8]. Phân tách dựa trên NMF được đề xuất chỉ yêu cầu tín hiệu giọng nói từ khung hiện tại và nó có thể mang lại chất lượng phân tách cao với độ phức tạp tính toán thấp. Để đáp ứng nhu cầu của truyền thông bảo mật kỹ thuật số băng tần hẹp, nghiên cứu về mã hóa giọng nói ở tốc độ bit rất thấp là có ý nghĩa. Hiện tại, một số bộ mã hóa lời nói tồn tại với tốc độ bit từ 2 đến 4kb / giây đã cho chất lượng chấp nhận được cho các ứng

dụng giao tiếp, chẳng hạn như dự đoán tuyến tính kích thích hỗn hợp (MELP) [12]. Một số bộ mã hóa giọng nói ở tốc độ bit rất thấp đã được đề xuất dựa trên thuật toán MELP bằng cách khai thác cả tương quan giữa và giữa các khung của các tham số, tức là lượng tử hóa tham số đa khung đã được áp dụng cho MELP thành công [10, 17]. Mục đích làm giảm tốc độ bit xuống 1kb / giây dựa trên NMF- WI và tìm kiếm phân bổ bit tối ưu.

Thu thập dữ liệu tiếng nói

Phân tích, đánh giá ưu nhược điểm