Phương pháp mã hóa theo nguồn âm

4. Cấu trúc luận văn

2.2.2. Phương pháp mã hóa theo nguồn âm

 Nguyên tắc của các bộ mã hoá theo nguồn âm đó là phân tích các tín hiệu

âm thanh sau đó tách ra các thông số đặc trưng của tín hiệu âm thanh, mã hoá các thông số đó và gửi đi, ở nơi thu cũng sử dụng một cơ chế phát âm tương tự, dùng các thông số nhận được để kích thích bộ phát âm, phát lại âm thanh như ở bên gửi. Điển hình của các bộ mã hoá theo nguồn âm là bộ mã hoá dự báo tuyến tính LPC (Linear Prediction Coder). Các bộ mã hoá dạng này có thể thực hiện mã hoá với tốc độ rất thấp, có thể là 2kbps. Nhược điểm chủ yếu của các bộ mã hoá theo nguồn âm là bộ mã hoá phụ thuộc vào nguồn âm phát. Hình dưới thể hiện cơ chế phát âm của các bộ mã hoá theo nguồn âm.

o Bộ mã hoá

o Bộ giải mã

Hình 2.2.: Sơ đồ mã hóa và giải mã của bộ mã hóa nguồn âm

Trong đó:

u(n): tín hiệu kích thích s(n): tín hiệu tiếng nói gốc

S*(n): tín hiệu tiếng nói tổng hợp ew(n): tín hiệu sai số

 Phần thứ nhất: Bộ lọc tổng hợp LPC là bộ lọc toàn cục biến đổi theo thời gian để mô hình hoá đường bao phổ ngắn hạn của dạng sóng tiếng nói. Đầu ra của bộ lọc tổng hợp là tín hiệu tiếng nói tổng hợp.

 Phần thứ hai: Bộ tạo kích thích, bộ này sẽ cho ra dãy kích thích cấp cho bộ lọc tổng hợp để tạo ra tiếng nói tái tạo ở máy thu. Việc kích thích sẽ được tối ưu

hoá bằng cách cực tiểu hoá sai lệch, có tính trọng số thụ cảm giữa tiếng nói gốc và tiếng nói tổng hợp.

 Phần thứ ba: Thủ tục được sử dụng trong việc tối thiểu hoá sai lệch gồm hai khối: tính trọng số sai số và cực tiểu hoá sai số. Tiêu chuẩn cực tiểu hoá sai lệch được sử dụng rộng rãi nhất là sai lệch bình phương trung bình. Trong mô hình này, tiêu chuẩn cực tiểu hoá sai số được sử dụng là: tín hiệu sai lệch ew(n) được đưa qua một bộ lọc đánh giá trọng số sai số, có tính trọng số thụ cảm và bộ lọc này sẽ tạo dạng phổ tạp âm theo một cách nào đó để công suất tín hiệu sẽ tập trung nhất tại các tần số formant của phổ tiếng nói.

 Thủ tục mã hoá: bao gồm hai bước

o Bước 1: Thông số của bộ lọc tổng hợp được xác định từ các mẫu tiếng nói.

o Bước 2: dãy kích thích tối ưu đối với bộ lọc này được xác định bằng cách cực tiểu hoá, có tính theo trọng số thụ cảm giữa tiếng nói gốc và tiếng nói tổng hợp. Khoảng thời gian tối ưu hoá kích thích khoảng 4 – 7.5ms, thấp hơn khung con, việc kích thích được xác định riêng rẽ cho từng khung con. Các tham số của bộ lọc và tín hiệu kích thích sẽ được lượng tử hoá trước khi gửi đến phía thu.

 Thủ tục giải mã: Cho tín hiệu kích thích đã được giải mã qua bộ lọc tổng hợp để tạo tiếng nói khôi phục. Có nhiều phương pháp mô hình hoá sự kích thích: phương pháp kích thích đa xung (MPE - Multi Pulse Excite), phương pháp kích thích xung đều RPE, phương pháp dự đoán tuyến tính kích thích mã CELP (Code Excited Linear Prediction). Trong đó phương pháp CELP hiện nay đã trở thành một công nghệ chủ yếu cho mã hoá tiếng nói tốc độ thấp.

Các giao thức VoIP sử dụng

Các ứng dụng của VoIP