2.4 Ph − ơng pháp mã hoá Vocoder
2.4.4 Mã hoá dự đoán tuyến tính
Mã hoá tiếng nói dự đoán tuyến tính là kỹ thuật đ−ợc nghiên cứu nhiều trong thời gian gần đây. Cùng với mã hoá dự đoán tuyến tính, chúng dựa trên mô hình hệ thống nguồn và các thuật toán dự đoán tuyến tính.
Hình 2.23 Mô hình tiếng nói tuyến tính
Sơ đồ hệ thống tạo tiếng nói tuyến tính đ−ợc cho trên Hình 2.23(a). Hệ thống này giả thiết rằng có hai trạng thái kích thích (xung cho âm hữu thanh và nhiễu ngẫu nhiên cho âm vô thanh). Cơ quan phát âm đ−ợc mô hình hoá bởi hàm truyền toàn
điểm cực gồm các bộ cộng h−ởng hai điểm cực mắc nối tiếp biểu diễn cho các formant; mô hình của hầu là bộ lọc thông thấp hai điểm cực; mô hình chuyển động của l−ỡi là L(z) = 1- z-1 và bộ sửa sai để bù phổ cho thành phần tần số thấp. Thực tế trong hệ thống biểu diễn tiếng nói số, sự bù phổ và và điểm không của hàm tạo bởi sự chuyển động của l−ỡi đ−ợc bỏ qua bởi một điểm cực của hầu, và hệ thống đ−ợc rút gọn về mô hình gồm toàn điểm cực trên Hình 2.23(b).
Nh− vậy mô hình tổng hợp hệ thống nguồn ở miền Z sẽ là:
(2.70)
Trong đó: g là đội lợi
(2.71)
với p là bậc của hàm A(z)
Hình 2.23(c,d) là mô tả ở miền thời gian cho việc phân tích âm vô thanh/ hữu thanh dùng mô hình hệ thống nguồn tuyến tính. Các tham số kích thích của hệ thống đ−ợc lấy từ tập hữu hạn các mẫu tiếng nói. Hệ số ai đ−ợc xác định theo dự đoán tuyến tính LP, với bộ dự đoán tuyến tính thuận bậc p, mẫu tiếng nói hiện tại đ−ợc dự đoán từ sự kết hợp tuyến tính p mẫu trước đó như trên Hình 2.24:
(2.72)
Hình 2.24 Dự đoán tuyến tính thuận, ng−ợc và lớp
Các tham số thu đ−ợc bằng cách tối thiểu hoá trung bình bình ph−ơng sai số εf, nghĩa là:
(2.73)
trong đó:
(2.74) Nh− vËy:
(2.75)
(2.76)
rSS(m) là chuỗi tự t−ơng quan của đoạn tiếng nói, đ−ợc ớc l− −ợng từ N mẫu theo một trong hai cách sau:
(2.77) (2.78) Nhưng cách hai thường được dùng hơn (đặc biệt là đối với những đoạn dữ liệu ngắn) bởi chúng có xu h−ớng tối thiểu hoá pha của đa thức liên quan trong công thức (2.75).
Sai số dự đoán ng−ợc là:
(2.79) với ý nghĩa các tham số t−ơng tự nh− trong dự đoán thuận.
Hệ thống đ−ợc giả thiết là dừng bên εf = εb và hệ ph−ơng trình cho bởi (2.75) có thể đ−ợc giải một cách hiệu quả theo thuật toán đệ qui Durbin nh− sau:
(2.80)
(2.81)
(2.82)
(2.83)
với m = 1, 2, ..., p là bậc dự đoán trong phép đệ qui.
am(m) = km là hệ số phản xạ (phụ thuộc vào sự biểu diễn các tham số vật lý của mô
hình ống âm thanh cho tiếng nói). Hệ số km còn gọi là hệ số t−ơng quan từng phần (PARCOR) vì nó biểu diễn sự t−ơng quan đ−ợc chuẩn hoá giữa s(m) và s(n-m+1).
Trong mã hoá dự đoán tuyến tính, cửa sổ phân tích có độ dài điển hình 20ữ30 ms và các tham số đ−ợc cập nhật sau mỗi 10 ữ 30 ms. Vì tốc độ khung thấp hơn yêu cầu sự thay đổi lớn trong các tham số LP nên các khung đ−ợc chia thành các khung nhỏ hơn (5ms) và các tham số thu đ−ợc bằng cách nội suy tuyến tính giữa các khung liÒn kÒ.
Mặc dù ph−ơng pháp dự đoán tuyến tính chủ yếu dựa trên mô hình gồm toàn
điểm cực, nh−ng cũng có những nghiên cứu theo h−ớng kết hợp điểm cực và không vì thực tế những âm mũi hoá đ−ợc biểu diễn tốt hơn nếu gồm cả hai loại.
2.4.4.1 Mô hình kích thích hai trạng thái cổ điển và thuật toán LPC-10
Các tham số kích thích hai trạng thái bao gồm độ lợi, chu kỳ pitch, bit quyết
định âm hữu thanh/ vô thanh. Độ lợi của đoạn âm đ−ợc chọn sao cho năng l ợng của −
âm tổng hợp phù hợp với đoạn âm phân tích. Đối với âm vô thanh, kích thích đ−ợc thực hiện bởi bộ tạo số ngẫu nhiên và vì đoạn âm này th−ờng có năng l−ợng nhỏ và gồm một l−ợng lớn những lần tín hiệu đi qua điểm 0 nên tính vô thanh/ hữu thanh có thể được quyết định theo năng lượng và việc đo lường tín hiệu qua điểm 0. Trong nhiều trường hợp, thông tin về âm hữu thanh được xác định theo thuật toán Gold và Rabiner trong miền thời gian, Noll dựa trên Cepstrum hay bộ tách pitch vi sai biên
độ trung bình trong thuật toán LPC-10.
Những thuật toán xác định pitch này là nằm trong phần quyết định chất l−ợng tiếng nói tổng hợp của các bộ mã hoá STC, IMBE và trong các bộ mã hoá dự đoán tuyến tính dựa trên mô hình phân tích bởi tổng hợp.
Thuật toán LPC-10 sử dụng bộ dự đoán bậc mười để ớc lư ượng các tham số của cơ quan phát âm, đã đ−ợc áp dụng trong thông tin bảo mật ở tốc độ 2,4 kb/s và là một phần của chuẩn FS-1015. Sơ đồ khối của bộ mã hoá và giải mã đ−ợc cho trên H×nh 2.25.
Xác định pitch dựa trên hàm vi sai biên độ trung bình (AMDF) của dạng sóng sau lọc đ−ợc cho bởi công thức sau:
(2.84)
Trong đó độ phân giải pitch là 1 với 20 ≤ τ≤ 39, là 2 với 40 ≤ τ≤ 78 và là 4 với 80 ≤ τ ≤ 156. Quyết định âm vô thanh/ hữu thanh dựa trên đo lường năng l ợng qua điểm ư 0 và tỷ số max/min của AMDF.
Hình 2.25 Bộ mã hoá-giải mã theo chuẩn FS 1015
Kết quả đo lường DRT và DAM cho LPC-10 tương ứng là 90 và 48 đối với tiếng nói không có nhiễu, còn với nhiễu do đ−ờng truyền vô tuyến thì DRT = 82.
Thuật toán cải tiến sau này, LPC-10e đạt đ−ợc DRT=89.9 và cho chất l−ợng âm thanh tốt hơn ở tốc độ 2400 b/s. Những nỗ lực vẫn tiếp tục để thu đ−ợc những bộ mã
hoá tốc độ 400-800 b/s mà chất lượng tương đương với FS1015 LPC-10 được dùng trong thông tin bảo mật cao.
2.4.4.2 Mô hình kích thích hỗn hợp
Sự phát triển của mô hình kích thích hỗn hợp đã tạo ra sự biến chuyển lớn đối với sai số trong tiếng nói vì mô hình kích thích hai trạng thái làm suy giảm chất l−ợng và tính dễ nghe hiểu khi chúng không thể đáp ứng đ−ợc yêu cầu của những
âm chuyển (trộn giữa âm vô thanh và hữu thanh) hay âm hữu thanh phát âm nhẹ.
Mô hình kích thích hỗn hợp đã đ−ợc Fujimura phát triển cho bộ mã hoá Vocoder kênh, sau đ−ợc Makhoul và đồng sự áp dụng cho bộ mã dự đoán tuyến tính.
Makhoul và đồng sự đã đ−a ra mô hình nguồn kết hợp nh− trên Hình 2.26(a).
Hình 2.26 Mô hình kích thích hỗn hợp của (a)Makhaul (b)Mc Cree&Barnwell Trong đó, xung kích thành phần tần số thấp còn nhiễu kích thích thành phần tần số cao của mạch lọc tổng hợp LPC. Các bộ lọc kích thích và độ lợi đ−ợc chọn sao cho phổ kích thích toàn phần là bằng phẳng; cùng tần số cắt (fC) thay đổi theo thời gian
đ−ợc dùng cho hai bộ lọc. Thuật toán dò đỉnh đ−ợc dùng để xác định vùng phổ nằm trong miền có tính chu kỳ. Với cách này, tiếng nói tổng hợp sẽ giảm tiếng rì rầm và tiÕng rÝt.
Một mô hình khác đ−ợc Mc Cree và Barnwell thực hiện đã dùng bộ lọc FIR bậc một có tham số thay đổi theo thời gian nh− trên Hình 2.26(b). Mô hình nguồn hỗn hợp này dùng (có chọn lọc) bộ tạo xung điều chỉnh đ−ợc jitter cho âm tổng hợp có tính chu kỳ thấp hoặc âm hữu thanh, và bộ tăng cường phổ thích nghi đối với các tÇn sè formant.
Bộ mã hoá tiếng nói LPC dùng mô hình kích thích hỗn hợp ở tốc độ 2,4 kb/s làm việc thời gian thực đã chạy trên loạt chip DSP TMS320C30 với kết quả nh− sau:
DAM bằng 58,9 với tiếng nói rõ và 41 với có nhiễu ở tốc độ 48 kb/s, DAM tương ứng bằng 61,6 và 44.
2.4.4.3 Dự đoán tuyến tính kích thích phần d− RELP
Cấu trúc hệ thống phân tích tổng hợp dùng dự đoán phần d− đ−ợc cho trên H×nh 2.27.
Hình 2.27 Phân tích-Tổng hợp theo dự đoán phần d−
Tín hiệu kích thích phần d− mang những thông tin mà việc phân tích tuyến tính không đem lại kết quả nh− thông tin về pitch và pha, các điểm không với những
âm mũi,... Mặc dù ý tưởng về mã hoá dự đoán phần dư đã được dùng trong ADPCM và trong các bộ mã hoá dự đoán thích nghi APC nh−ng RELP khác ở chỗ phần d−
đem mã hoá dựa trên phổ chứ không dựa trên phù hợp về dạng sóng và việc coi trọng các thành phần tiếng nói ở tần số thấp. Trên Hình 2.28 là sơ đồ khối bộ mã
hoá tiếng nói RELP làm việc ở tốc độ 6-9,6 kb/s.
Bộ mã hoá tiếng nói RELP này đã nén băng thông của phần d− xuống 800 Hz và mã hoá phần băng cơ bản với tốc độ 5 kb/s. Phần d− đ−ợc lấy mẫu và mã hoá
dùng kỹ thuật vi sai thích nghi ADM. ở phía thu, phần d− này đ−ợc xử lý bởi bộ làm phẳng phổ phi tuyến có hàm tạo ra các dao động ở tần số cao. Bộ lọc tổng hợp
đ−ợc kích thích bởi sự kết hợp phần d− đã làm phẳng và nhiễu ngẫu nhiên trắng.
Phát tần số cao có thể đ−ợc thực hiện trực tiếp trên các thành phần tần số của phần d−. Sơ đồ khối của bộ mã hoá tiếng nói RELP mã hoá phần d− ở miền tần số dùng biến đổi FFT đ−ợc cho trên Hình 2.29.
H×nh 2.28 Vocoder RELP
Trong hệ thống này, biến đổi FFT của phần d− đ ợc tính toán và biên độ, pha − của các thành phần tần số băng cơ bản (th−ờng d−ới 1 kHz) đ−ợc mã hoá và truyền
đi. ở phần thu, qui trình “sao chép” thành phần tần số cao phụ thuộc vào pitch đ−ợc thực hiện để tạo ra phần d− tần số cao.
Hình 2.29 Vocoder RELP dựa trên FFT
Bộ mã hoá RELP dùng dự đoán dài hạn và phân bố bit thích nghi ở tốc độ 4,8 kb/s đ−ợc đề cử cho chuẩn FS 1016. Nói chung, chất l−ợng tiếng nói của bộ mã hoá
RELP ở tốc độ ≥ 4,8 kb/s cao hơn chất l−ợng bộ mã hoá LPC kích thích hai trạng
thái vì có sự nhấn mạnh trong mã hoá các thành phần phần d− quan trọng. Tuy nhiên, chất l−ợng của RELP bị giới hạn bởi sự mất mát thông tin trong lọc phần d− của băng cơ bản.