2.3.1. Các đặc tr−ng của xử lý tín hiệu số:
2.3.1.1. Xử lý tín hiệu số ( DSP ) là gì: Trong môi tr−ờng quanh ta có rất nhiều tín hiệu mà ta có thể cảm nhận đ−ợc, nh− âm thanh, ánh sáng, nhiệt độ,..
Trong tr−ờng hợp âm thanh, chúng ta sẽ dùng tai của mình để chuyển chúng thành các xung điện rồi chuyển đến nãọ Khi đó ta phân tích chúng thành các đặc tính nh− biên độ, tần số và pha để phân loại âm thanh giúp ta xác định chúng là âm nhạc, tiếng nói, tiếng chó sủa,...
Nếu là nhiệt độ, thì các dây thần kinh ngoài ra có trách nhiệm cảm nhận rồi đ−a lên não phân tích rồi có những đáp ứng thích hợp. Với ánh sáng cũng vậy, nh−ng là do mắt cảm nhận. Nói chung loài ng−ời đ−ợc trang bị đầy đủ và giải quyết đ−ợc hầu hết các sự kiện cảm nhận đ−ợc. Tuy nhiên không phải lúc nào, công việc gì con ng−ời cũng trực tiếp xử lý, càng ngày ng−ời ta dùng máy móc để xử lý thay cho bộ não ng−ờị Yêu cầu các máy là phải có các bộ cảm
G - + s(n) Giải mã G tiếng nói đ−ợc tổng hợp
Hình 2.12 Thuật toán ph−ơng pháp CELP Bảng mã cố định Thuật toán tìm kiếm bảng mã LPT-1 SPT-1 Bảng mã cố định LPT-1 SPT-1
nhận (sensor) để nó làm nhiệm vụ thu nhận và chuyển thành tín hiệu thích hợp. Khi đó cần có một bộ phận tính toán, xử lý giống nh− bộ não con ng−ờị Tuy nhiên bộ não con ng−ời làm việc với các tín hiệu có trong thực tế là các tín hiệu biến thiên liên tục, các tín hiệu kiểu này gọi chung là tín hiệu Analog. Cũng theo cách của con ng−ời, nh−ng chúng ta dùng các sensor để chuyển thành các tín hiệu điện, nh−ng phải đổi chúng thành các số, quá trình này gọi là chuyển từ t−ơng tự ( analog ) sang số ( digital) hay A/D. Sau đó đầu ra đ−ợc đ−a qua bộ tính toán số để xử lý và nh− vậy đ−ợc gọi là xử lý tín hiệu số hay DSP (Digital Signal Processing). Bộ xử lý số ở đây th−ờng đ−ợc thiết kế đặc biệt chuyên cho các thuật toán xử lý tín hiệu số.
2.3.1.2. Lợi ích của xử lý tín hiệu số: có rất nhiều thuận lợi khi dùng xử lý tín hiệu số nói chung. Các thuận lợi của xử lý tín hiệu số nh− sau:
- Dễ ch−ơng trình hoá
- Độ ổn định cao
- Tính lặp lại cao
- Dễ dàng thực hiện các thuật toán thích hợp
- Có khả năng thực hiện các thuật toán sửa sai phức tạp
- Khả năng truyền và l−u trữ dữ liệu tốt
- Có thể thực hiện nén dữ liệu
- Có nhiều các chức năng đặc biệt khác
+/ Tính dễ ch−ơng trình hoá ở đây đ−ợc hiểu là trong cùng một cấu trúc phần cứng, có thể cho ra rất nhiều các ứng dụng khác nhau bằng các ch−ơng trình khác nhau, hoặc có thể nâng cao tính năng sản phẩm mà không phải thay đổi lại cấu trúc phần cứng, trong khi đó với mạch t−ơng tự chỉ còn cách thay linh kiện mớị Nói tóm lại là rất mềm dẻọ
+/ Một số tính năng đặc biệt mà chỉ có thể thực hiện trên kỹ thuật số, nh− các bộ lọc pha tuyến tính, nén tín hiệu,...
2.3.1.3. Các thuật toán cho DSP: Các phép toán cơ bản cho xử lý tín hiệu liên tục là dựa trên các phép biến đổi Fourier và Laplacẹ Chuỗi Fourier là công cụ cơ bản để phân tích tín hiệu có tính chu kỳ ( tính lặp lại ) và Biến đổi Fourier cho các tín hiệu không có chu kỳ. Các biến đổi Fourier và Laplace nh− DFT, FFT, Z, Z-1 sẽ th−ờng xuyên dùng, các phép biến đổi này làm giảm đáng kể số các phép tính nhân trong quá trình tính toán.
2.3.2. Mô hình số của tín hiệu tếng nói:
2.3.2.1. Mô hình số tạo tín hiệu tiếng nói:
Lý thuyết khoa học hiện đại về tạo tiếng nói thể hiện qua ba yếu tố tham gia vào quá trình tạo tiếng nói đ−ợc biểu diễn bằng những ph−ơng trình toán học phức tạp. Tuy nhiên, trong thực tế khi phải chọn mô hình tạo tiếng nói ng−ời ta phải xem xét mô hình nào có độ phức tạp tối thiểu và độ chính xác tối đạ Độ phức tạp ở đây có nghĩa là số phép tính toán trong mô hình đ−ợc chọn. Còn độ chính xác có nghĩa mô hình đ−ợc chọn có khả năng tạo nên tiếng nói có chất l−ợng tốt, đảm bảo tính tự nhiên và dễ hiểụ Trên hình 2.13 là sơ đồ khối chung, nó đại diện cho đa số các mô hình và đ−ợc coi là cơ sở cho quá trình tạo tiếng nóị Các mô hình này có điểm chung là tính chất nguồn kích thích đ−ợc tách khỏi tính chất tuyến âm và tán xạ. Sự ảnh h−ởng tuyến âm và tán xạ đ−ợc tính chung vào hệ thống tuyến tính thay đổi theo thời gian, nhằm mô hình hoá sự cộng h−ởng. Nguồn kích thích sẽ tạo nên tín hiệu là chuỗi xung trong khe thanh môn , hoặc là tín hiệu ngẫu nhiên (nhiễu tạp). Các tham số của nguồn kích thích và hệ thống tuyến tính thay đổi theo thời gian đ−ợc chọn sao cho tín hiệu ra mang tính chất nh− tín hiệu mong muốn.
Nguồn kích thích
Hệ thống tuyến tính thay đổi chậm theo thời gian
Tín hiệu tiếng nói
Để tạo tiếng nói th−ờng sử dụng mô hình dựa trên giả thiết rằng tuyến âm đ−ợc biểu diễn bằng chuỗi M đoạn ống âm học lý t−ởng, là những đoạn ống có độ dài bằng nhau, và từng đoạn riêng biệt có thiết diện mặt cắt là Am (gọi tắt là thiết diện) khác nhau theo chiều dài đoạn ống ( Hình 2.14). Tổ hợp thiết diện {Am} của các đoạn ống đ−ợc chọn sao cho chúng xấp xỉ hàm thiết diện Ăx) của tuyến âm.
Ngoài ra ta giả thiết thêm mô hình tuyến âm lúc này là tuyến tính và không nối với khe thanh môn, hiệu ứng của tuyến mũi nếu đ−ợc bỏ qua, ta sẽ có mô hình tạo tiếng nói lý t−ởng và việc phân tích mô hình ống âm học trở nên ít phức tạp hơn. Mô hình này có nhiều tính chất chung với mạch lọc số nên có thể đ−ợc biểu diễn bằng cấu trúc mạch lọc số với các tham số thay đổi phù hợp với sự thay đổi tham số của ống âm học.
Sự chuyển động của không khí trong một đoạn ống âm học có thể đ−ợc mô tả bằng áp suất âm thanh và tốc độ thay đổi âm, đó là những hàm phụ thuộc độ theo độ dài ống (x) và thời gian (t). Trong những đoạn riêng biệt đó , giá trị của hai hàm này đ−ợc coi là tổ hợp tuyến tính các giá trị của chúng đối với sóng thuận và sóng ng−ợc ( đ−ợc ký hiệu là dấu + và - một cách t−ơng ứng ). Sóng thuận là sóng truyền từ khe thanh môn đến môi , sóng ng−ợc lại truyền từ môi đến khe thanh môn .
Mối quan hệ giữa sóng thuận và ng−ợc trong những đoạn kế cận phải đảm bảo áp suất và tốc độ thay đổi âm liên tục về cả thời gian và không gian tại mọi điểm của hệ thống . Chúng ta thấy rằng , khi sóng thuận trong một
A5 A4 A3 A2 A1
đoạn gặp phần thay đổi về thiết diện ( mối nối hai đoạn kế cận ), một phần của nó sẽ truyền tiếp sang đoạn kế tiếp , trong khi một phần kia lại phản xạ d−ới dạng sóng ng−ợc . Hoàn toàn t−ơng tự , khi sóng ng−ợc gặp mối nối một phần của nó đ−ợc truyền tiếp sang đoạn tr−ớc đó , còn phần kia lại phản xạ d−ới dạng sóng thuận .
Có thể xây dựng đ−ợc mô hình ống âm học lý t−ởng cho tuyến âm gồm M đoạn ống âm học có chỉ số từ 0 ữ M-1, bắt đầu từ môi, 2M phần tử giữ chậm và M-1 mối nối ( đặc tr−ng bằng hệ số phản xạ μm).
Xét điều kiện về phía môi và khe thanh môn có khác với các đoạn ống đã xét ở trên . Khi phát âm sóng thuận u0+(t-τ) đi qua mối nối môi mà không gặp một trở ngại sẽ không phản xạ.
Theo mô hình tạo tiếng nói , tuyến âm đ−ợc điều khiển bởi nguồn kích âm, nguồn tốc độ âm l−ợng uG(t) với trở kháng nguồn ZG. Do đó đoạn thứ M-1 ( mà bờ phía trái là thanh môn ) đ−ợc coi là nối với đoạn thứ M ( là đoạn nhân tạo ) có trở kháng phối hợp với ZG. Bằng cách thêm đoạn nhân tạo thứ M, mọi phản xạ tại thanh môn tập trung vào mối nối giữa đoạn thứ M-1 và M chứ không phải giữa đoạn thứ M-1 và nguồn tốc độ âm l−ợng của dòng không khí. Thời gian giữ chậm do đi qua đoạn M đ−ợc bù vào nguồn kích , có nghĩa là uG(t+2τ). Vị trí của khe thanh môn trong mô hình ống âm lọc đặt tại x=1/2 của đoạn thứ M-1 , do đó tốc độ âm l−ợng của nguồn bằng tổng tốc độ âm l−ợng đi qua trở kháng ZG và tốc độ âm l−ợng qua ống âm lọc , có nghĩa là:
1
uG(t)= PM-1(-1/2,t)+ uM-1(-1/2,t) (2.16) ZG
Trong đó P là mật độ không khí trong đoạn ống âm Do đó hệ số phản xạ đ−ợc tính sau nh− :
ZG- pc/AM-1
μm= (2.17)
và tốc độ âm l−ợng đ−ợc xác định
uM+(t-τ)= uG(t)/2 (2.18) Vì mô hình chỉ bao gồm có các phép cộng , nhân và giữ chậm nên nó có thể dễ dàng chuyển sang mô hình rời rạc về thời gian ( hoặc tần số ). Thật vậy, nếu nguồn kích đặt vào ống âm học là xung, thì xung đầu tiên đạt tới đầu ra uLsau 2Mτ. Gọi 4τ là thời gian truyền của hai loại sóng trong một đoạn ống âm học , T là chu kỳ đồng hồ của mô hình rời rạc . Do các phép tính trong mô hình nàysẽ phải thực hiện đồng bộ với chu kỳ T nên khi T=4τ, mỗi đoạn thời gian 2τ sẽ đ−ợc thay bằng sự giữ chậm 1/2 mẫu , nh− vậy độ giữ chậm 2Mτ
sẽ t−ơng ứng với dịch M/2 mẫu . Vì trong biến đổi z, z-1 biểu diễn một phần tử giữ chậm, chúng ta có thể chuyển graph có h−ớng của mô hình ống âm học tuyến âm thành hệ thống rời rạc theo thời gian t−ơng đ−ơng với độ giữ chậm truyền là z-1/2.
Hàm truyền cho mô hình M đoạn ống đ−ợc biểu diễn nh− sau: UL(z) z-M/2i=1∏M(1+μi) G G
V(z)= = = --- = --- (2.19) UG(z) 2( 1-i=1∑Maiz-i) 1- i=1∑Maiz-i i=1∏M ( 1-ziz-i)
Trong đó: G là hệ số tỷ lệ, Zi là các cực của hàm V(z)
Theo lý thuyết âm học, mặc dù kiểu mô hình này (mô hình toàn cực) là kiểu biểu diễn tuyến âm tốt cho hầu hết âm tiếng nói, nh−ng nó lại không phù hợp khi tạo những âm mũị Tuy nhiên ng−ời ta ng−ời ta có thể tạo âm tiếng nói rất giống với âm mũi bằng cách thêm các điểm cực không vào hàm truyền đạt. Điều này đ−a lại tác dụng t−ơng đ−ơng việc thêm nhiều cực.
Nh− vậy, tuyến âm đ−ợc mô hình hoá bằng ống âm học lý t−ởng có hệ thống rời rạc theo thời gian t−ơng thích. Đó là mô hình biểu diễn tiếng nói mang tính chất “t−ơng tự đầu ra”, có nghĩa là tín hiệu ra mang tính chất giống nh− tiếng nói khi mô hình đ−ợc điều khiển bằng một bộ hệ số có liên quan đến quá trình tạo tiếng nóị Nh−ng mô hình này chỉ t−ơng đ−ơng với mô hình lý học tại đầu
trong qúa trình tạo tiếng nóị Chúng ta thấy rằng mô hình ống lý t−ởng với hàm truyền (2.19) thoả mãn đ−ợc yêu cầu trên. Nh− trên ta đã thấy rằng tính chất của tín hiệu tiếng nói thay đổi chậm theo thời gian, do đó những tính chất của nguồn kích thích và tuyến âm đ−ợc coi là cố định trong khoảng 10-20ms, và hệ thống rời rạc theo thời gian lúc này phải là hệ thống tuyến tính thay đổi chậm theo thời gian với tín hiệu vào là chuỗi xung tuần hoàn để tạo âm hữu thanh hoặc nhiễu ngẫu nhiên để tạo âm vô thanh.
G(z)= [1- exp(-(σGT)z-1)]-2 (2.20) Trong thực tế để thuận tiện ng−ời ta th−ờng nối liên tiếp các thành phần xung qua khe thanh môn G(z), tán xạ R(z) và tuyến âm V(z) vào một hệ thống tuyến tính biến đổi chậm theo thời gian, và hàm truyền biểu diễn mô hình này đ−ợc chọn nh− hàm thiết diện cho mô hình ống lý t−ởng hoặc các formant và giải thông của chúng đối với mô hình có cấu trúc lọc số.
H(z)= G(z)V(z)R(z) (2.21)
Tóm lại mô hình số cho quá trình tạo tín hiệu tiếng nói có dạng hàm số sau: G
H(z) =
[1- exp(-(σGT)z-1)] ∏i=1M(1-2⎢zi⎢cos(2πFiT)z-1 +⎢zi⎢2) G
= --- (2.22)
Ăz)
Trong đó: G là hệ số khuyếch đại, điều khiển mức độ tín hiệu vào tuyến âm Ăz) = i=0∑M ai z-1 , a0 = 1 (2.23)
1
≈ ---
Ăz)V(z)R(z)
Nh− vậy ta thấy bộ lọc Ăz) là bộ lọc các điểm cực không, và gọi là bộ lọc ng−ợc, vì hàm truyền của nó ng−ợc với hàm truyền tuyến âm. Còn bộ lọc 1/ Ăz) là bộ lọc toàn cực đặc tr−ng của nó biểu diễn phổ trơn của mô hình tạo tiếng nóị Các tham số của mô hình này là tham số phân loại hữu thanh / vô thanh (phụ thuộc vào kiểu tín hiệu tiếng nói), chu kỳ cao độ (pitch) cho âm
hữu thanh, hệ số khuyếch đại G và các hệ số {ai}của bộ lọc số. Tất nhiên những tham số này thay đổi chậm theo thời gian.
2.3.2.2. Mô hình dự đoán tuyến tính:
Nh− trong phần mã dự đoán tuyến tính LPC của muc 2.2.2 ta đã biết tín hiệu rời rạc s(n) có thể dự đoán từ một tổ hợp tuyến tính giá trị các mẫu tín hiệu vào xảy ra tr−ớc cũng nh− tại thời điểm n.
Nếu tín hiệu vào u(n) và tín hiệu ra s(n) có biến đổi z là U(z) và S(z) t−ơng ứng thì hàm truyền của hệ thống là:
S(n) 1 + j=1∑qβjz-1
H(z)= --- = G --- (2.24) U(n) 1 +i=1∑pαiz-1
Hàm truyền (2.24) là hàm truyền của hệ thống tuyến tính bất biến tổng quát, nó có cả cực và zero (t−ơng ứng với nghiệm của đa thức mẫu số và tử số) nên hệ thống còn đ−ợc gọi là hệ thống cực-không.
Khi hệ trở thành toàn cực, tín hiệu ra đ−ợc dự đoán từ p - mẫu tín hiệu ra tr−ớc đó, và hàm truyền (2.24) khi đó là:
S(n) G
H(z)= --- = --- (2.25) U(n) 1 +i=1∑pαiz-1
Nếu giá trị {αi}và p của công thức này chính xác bằng {ai}và M của (2.23) một cách t−ơng ứng, có nghĩa hệ thống dự đoán tuyến tính này mang tính chất “t−ơng tự đầu ra” với hệ thống (2.22) và (2.25) hoàn toàn trùng với (2.22). Nh− vậy quá trình tạo tiếng nói đ−ợc mô hình bằng ống âm học lý t−ởng và đ−ợc biểu diễn bằng hệ thống rời rạc với hàm truyền (2.22) hoàn toàn t−ơng đ−ơng với hệ thống dự đoán tuyến tính với cùng hàm truyền, có nghĩa là hệ thống dự đoán tuyến tính có thể tạo ra tiếng nói một cách chính xác.
Từ (2.22) thấy rằng nếu U(z) và S(z) là biến đổi z của tín hiệu kích thích u(n) và tín hiệu tiếng nói s(n) một cách t−ơng ứng thì có thể coi hệ thống là
mô hình tổng hợp tiếng nói với mối quan hệ tín hiệu ra – tín hiệu vào nh− sau:
G
S(z) = U(z)--- (2.26)
Ăz)
Mô hình phân tích là: GU(z) = S(z)Ăz) Khi đó trong miền thời gian rời rạc có thể viết: Gu(n) = i=0∑M ais(n-i) , a0 = 1
= s(n) + i=1∑M ais(n-i) (2.27)
U(n) S(n)
Hình 2.15 Mô tả mô hình dự đoán tuyến tính
Khi mô hình là toàn cực thì:
s(n) = - i=1∑pαis(n-1) + Gu(n) (2.28) Nếu đặt s∧(n) = i=1∑pαis(n-1) G H(z)= --- 1 +i=1∑pαiz-1 G S(n) s(n-1) s(n-p) U(n)
Hình 2.15 Mô hình dự đoán tuyến tính
Ta có Gu(n) = s(n) - s∧(n) (2.29)
ở đây s∧(n) là mẫu dự đoán bằng tổ hợp tuyến tính từ p mẫu tr−ớc đó, còn giá trị thực của nó là s(n). Vì vậy nếu gọi e(n) là lỗi dự đoán tuyến tính giữa mẫu tín hiệu thực và mẫu tín hiệu dự đoán thì:
e(n)= s(n) - s∧(n) (2.30)
Và nh− vậy e(n) = Gu(n), Khi đó lỗi này càng nhỏ s∧(n) càng chính xác với s(n). Từ đây ta đã đ−a ra mô hình dự đoán tuyến tính để tạo tín hiệu tiếng nói với các tham số trùng với các tham số của mô hình tạo tiếng nói rời rạc.
Kí hiệu {ai} là các hệ số của bộ dự đoán và M là bậc của chúng. Ta lần l−ợt xem xét và xác định các tham số của mô hình dự đoán tuyến tính.
2.4. Ph−ơng pháp dự đoán tuyến tính trong xử lý số tín hiệu tiếng nói:
Nh− trong phần tr−ớc đã đ−a ra các tham số của mô hình dự đoán tiếng nói cần phải xác định, trong đó tín hiệu dự đoán đ−ợc biểu diễn bằng biểu thức:
s∧(n) = - i=1∑pais(n-1) (2.31) và lỗi dự đoán là: e(n)= s(n) - s∧(n) = s(n) + i=1∑pais(n-1) (2.32) Lỗi này càng nhỏ thì kết quả dự đoán càng chính xác.