MỘT SỐ PHƢƠNG PHÁP MÃ HÓA THAM SỐ

Một phần của tài liệu Bài giảng Xử lý tiếng nói: Phần 1 (Trang 84 - 87)

Mã hóa tham số còn gọi là mã hóa phân tích-tổng hợp. Ý tƣởng của phƣơng pháp mã hóa này bắt nguồn từ mô hình của bộ máy phát âm.

Chúng ta đã biết, việc tạo ra tín hiệu tiếng nói có thể mô hình bằng sơ đồ nguồn-bộ lọc. Nguồn đóng vai trò tín hiệu kích thích là dao động của dây thanh (dao động bán tuần hoàn với âm hữu thanh, không xác định – giống nhiễu – với âm vô thanh). Âm của tín hiệu đƣợc quyết định bởi sự co thắt, hay một cách cụ thể là đặc điểm cộng hƣởng của bộ lọc tuyến âm. Nhƣ vậy, nếu chúng ta biết đƣợc một âm là vô thanh hay hữu thanh và bộ tham số điều khiển sự cộng hƣởng của tuyến âm (phân tích), chúng ta hoàn toàn có thể tái tạo lại âm đó (tổng hợp). Và nhƣ vậy, thay vì phải truyền đi toàn bộ tín hiệu hoặc đặc trƣng dạng sóng của tín hiệu, chúng ta chỉ cần truyền đi thông tin về các tham số của âm. Các bộ mã hóa tham số còn đƣợc gọi là các bộ mã hóa Vocoder.

Ƣu điểm của loại mã hóa này là nó rất có hiệu quả đối với âm tiếng nói, dễ hiểu, trong khi nó lại có nhƣợc điểm là phức tạp hơn nhiều so với phƣơng pháp mã hóa dạng sóng. Mã hóa tham số có thể đạt đƣợc tốc độ bit rất thấp (xuống đến 2.4 Kbps) trong khi vẫn đảm bảo là tiếng nói đƣợc tái tạo lại là hoàn toàn dễ hiểu. Tuy nhiên, tính tự nhiên của tiếng nói đƣợc tái tạo thì khác xa với tín hiệu tiếng nói con ngƣời.

Có rất nhiều cách tiếp cận thực hiện phƣơng pháp mã hóa tham số.

Sơ đồ tổng quát của một hệ thống mã hóa tham số có sử dụng dãy mạch lọc đƣợc minh họa trong hình 3.17. Tín hiệu vào đƣợc đƣa vào đồng thời 3 phân tích để trích chọn đặc trƣng. Thứ nhất là phát hiện xem phân đoạn tín hiệu cần mã hóa là của âm vô thanh hay hữu thanh (S), với âm hữu thanh thì tiếp tục xác định tần số cơ bản (pitch) (N0). Đồng thời tín hiệu đƣợc phân tách thành những băng tần nhỏ. Mỗi băng tần tín hiệu ứng với một vùng tần số quan tâm. Và mỗi tần số quan tâm chúng ta đƣợc bộ đặc trƣng g. Toàn bộ các tham số trích chọn đƣợc sẽ đƣợc mã hóa và gửi đến phía thu để thực hiện tái tạo tín hiệu tiếng nói.

Hình 3.17 Sơ đồ tổng quát một phƣơng pháp mã hóa tham số phân kênh Hình 3.18 minh họa các tham số g là những đặc tuyến phổ mong muốn

Hình 3.18 Các đặc trƣng phổ trong mã hóa tham số phân kênh Hoặc các đặc trƣng là các tần số formant nhƣ minh họa trong hình 3.9.

Hình 3.19 Các đặc trƣng formant trong mã hóa tham số phân kênh

Một phƣơng pháp tiếp cận khác cũng khá phổ biến trong các chuẩn mã hóa tiếng nói đƣợc sử dụng gần đây là phƣơng pháp mã hóa dựa trên phân tích cepstral. Sơ đồ tổng quát của hệ thống mã hóa đƣợc minh họa trong hình 3.20.

Trong phƣơng pháp này, dựa trên sự khác nhau cơ bản giữa sự thay đổi của biên phổ (đƣờng bao phổ) và xung kích thích (thành phần phổ nhỏ) các đặc tính đƣờng bao phổ và thành phân kích thích đƣợc phân tích (phân tách) trích chọn bằng phép tích cepstral mà chúng ta đã xem xét trong chƣơng 2.

Hình 3.20 Sơ đồ mã hóa phân tích cepstral

Một phƣơng pháp tiếp cận khác cũng khá phổ biến đó là mã hóa tham số dựa trên phân tích LPC. Cũng tƣơng tự với đa số các phƣơng pháp mã hóa tham số, phƣơng pháp

này cũng cố gắng mô phỏng quá trình tạo tiếng nói của hệ thống phát âm. Sơ đồ tổng quát của phƣơng pháp mã hóa này đƣợc minh họa trong hình 3.x.

Hình 3.21 Minh họa mã hóa tham số LPC

Các thông tin mã hóa của bộ mã hóa tham số LPC là: thông tin về loại âm (hữu thanh/vô thanh) của phân đoạn tín hiệu; độ lớn của tín hiệu; tập các hệ số bộ lọc LPC; chu kỳ pitch (tần số cơ bản) của tín hiệu.

Có rất nhiều phiên bản mã hóa tham số dựa trên LPC, chẳng hạn nhƣ LPC-10, CELP, MELP, …

Với phƣơng pháp mã hóa tham số LPC, chúng ta có thể đạt đƣợc tốc độ mã hóa thoại bằng 2.4kbps.

Một phần của tài liệu Bài giảng Xử lý tiếng nói: Phần 1 (Trang 84 - 87)