Các công nghệ cơ sở

Một phần của tài liệu Nén âm thanh thoại theo chuẩn GSM (Trang 27)

V. KHẢO SÁT VÀ PHÂN TÍCH CÁC ỨNG DỤNG CỦA CHUẨN GSM

5.1.2Các công nghệ cơ sở

Trong mạng điện thoại thông thường tín hiệu được mã hoá theo luật A hoặc luật µ với tốc độ 64kbs .Với cách mã hoá này ,cho phép khôi phục một cách tương đối trung thực các âm thanh trong giải tần tiếng nói .Tuy nhiên trong một số ứng dụng đặc biệt yêu cầu truyền âm thanh với tốc độ thấp hơn ví dụ như truyền tín hiệu thoại trên Internet .Từ đó đó xuất hiện một số kỹ thuật mã hoá và nén tín hiệu tiếng nói xuống tốc độ thấp cụ thể như G.723.1,G.729A,GSM...

Vào năm 1982 .Atal đó đề ra một mô hình mới về kích thích ,được gọi là kích thích đa xung.Trong mô hình này ,không cần biết trước đó là âm hữu thanh hay vô thanh ,đó có phải là giai đoạn lên giọng hay không.Sự kích thích được mô hình hoá bởi một số xung (thông thường là 3 xung trên 5ms ) có biên độ và vị trí được xác định bằng cực tiểu hoá sai lệch ,có tính đến trọng số thụ cảm ,giữa tiếng nói gốc và tiếng nói tổng hợp.Việc đưa ra mô hình này đó tạo lên một sự chú ý to lớn và đó là mô hình đầu tiên của một thế hệ mới của các bộ mã hoá tiếng nó phân tích bằng tổng hợp.Chúng có khả năng cho tiếng nói chất lượng cao tại tốc độ bit quanh 10 kbps và có thể đến tận 4,8 kbps.Tín hiệu kích thích sẽ được tối ưu hoá một cách kỹ lưỡng và người ta sử dụng kỹ thuật mã hoá dạng sóng để mã hoá tín hiệu kích thích này một cách có hiệu quả. Mô hình tổng quát của mã hoá tiếng nói theo phương pháp LPC phân tích tổng hợp :

Hình 6 : Mô hình mã hóa tiếng nói theo phương pháp LPC

Trong đó

u(n) : Tín hiệu kích thích.

S*(n) : Tín hiệu tiếng nói tổng hợp S(N) : Tín hiệu tiếng tiếng nói gốc Ew(n) : Tín hiệu sai số.

Mô hình bao gồm 3 phần chính:

• Phần thứ nhất : Bộ lọc tổng hợp LPC ,là bộ lọc toàn cục biến đổi theo thời gian để

mô hình hoá đường bao phổ ngắn hạn của dạng sóng tiếng nói .Đầu ra của nộ lọc tổng hợp là tín hiệu nói tổng hợp.

• Phần thứ 2 : Bộ tạo kích thích .Bộ này sẽ cho ra dãy kích thích cấp cho bộ lọc tổng

hợp để tạo ra tiếng nói tái tạo ở máy thu.Việc kích thích sẽ được tối ưu hoá bằng các cực tiểu hoá sai lệch,các tính trọng số thụ cảm,giữa tiếng nói gốc và tiếng nói tổng hợp.

Phần thứ 3 : Thủ tục được sử dụng trong việc tối thiểu hoá sai lệch (Gồm 2 khối:tính

trọng số sai số và cực tiểu hoá sai số). Tiêu chuẩn cục tiểu hoá sai lệch được sử dụng rộng rói nhất là sai lệch bình phương trung bình (mes:mean squared error).Trong mô hình này ,tiêu chuẩn cực tiểu hoá sai số được sử dụng là :tín hiệu sai lệch ew(n) được đưa qua một bộ lọc đánh giá trọng số sai số ,có tính trọng số thụ cảm ,và bộ lọc này sẽ tạo dạng phổ tạp âm theo một cách nào đó để công suất tín hiệu sẽ tập chung nhất tại các tần số formant của phổ tiếng nói.

Thủ tục mà hoá :bao gồm 2 bước :bước 1 :thông số của bộ lọc tổng hợp được xác định từ mẫu tiếng nói.Bước 2 :dãy kích thích tối ưu đối với bộ lọc này được xác định bằng cách cực tiểu hoá sai số,có tính trọng số thụ cảm ,giữa tiếng nói gốc và tiếng nói tổng hợp.Khoảng thời gian tối ưu hoá kích thích khoảng 4ữ7.5 ms, thấp hơn khung thời gian cập nhật thông số LPC.Khung tiếng nó được chia thành nhiều khung con ,việc kích thích được xác định riêng rẽ cho từng khung con .Các tham số của bộ lọc và tín hiệu kích thích sẽ được lượng tử hoá trước khi gửi đến phía thu

Thủ tục giải mà :Cho tín hiệu kích thích đó được giải mã qua bộ lọc tổng hợp để tiếng nói được khôi phục.

Có rất nhiều phương pháp mô hình hoá sự kích thích:Phương pháp kích thích đa xung (MPE),phương pháp kích thích xung đều (RPE),phương pháp dự đoán tuyến tính kích thích mã (CELP).Ở đây em chỉ đề cập đến phương pháp dự đoán tuyến tính kích thích mã CELP. Hiện nay phương pháp này đó trở thành công nghệ chủ yếu cho mã hoá tiếng nói tốc độ thấp. .

Một phần của tài liệu Nén âm thanh thoại theo chuẩn GSM (Trang 27)