Chương 2 - Các phương pháp phân tích tiếng nói ppt

Trang 1

CHUONG 2

CÁC PHƯƠNG PHÁP PHÂN TÍCH THAM SỐ TIẾNG NĨI

Tín hiệu tiếng nói quá giàu về mặt thông tin nhưng lại quá nghèo nàn về mặt

cấu trúc Hậu quả là việc lữu trữ và xử lý dữ liệu âm học sẽ không hiệu quả Như vậy cần phải có những biểu diễn tham số làm sao giúp chúng ta có cái nhìn sâu sắc

về cấu trúc của tiếng nói Chương này sẽ trình bày một số kỹ thuật phân tích tiếng nói cũng như một số biểu dién tham số của nó

2.1 Bộ Lọc Số Tuyến Tính

Một thành phân không thể thiếu trong mơ hình âm học của cơ chế tạo tiếng

nói ở phần trước là bộ lọc Có hai loại bộ lọc : bộ lọc tuyến tính có đáp ứng xung hữu hạn (FIR) và bộ lọc tuyến tính cóIđáp ứng xung vô hạn (TR)

Trang 2

Bộ lọc có đáp ứng xung hữu han sé tạo ra một tín hiệu ra {ya} là tổng trọng

số của tín hiệu vào {xạ}

y(n) = bạx(n) + bx(n-L) + b;x(n-2) + + + bạx(n-q) (2.1) = Ÿbx(n -i)

Với {b;}izog 18 hé s6 cha bé loc

Công thức tính tốn này có thể minh họa bằng hình 1, trong đó những khối z1 là những đơn vị delay tín hiệu

Một số đặc trưng của bé loc FIR:

a — Đáp ứng tần số H(@) = )b,e"™* (2.2) k=0 ° 4 - Ham truyén H(z) = Ð_b,z” (2.3) k=0

2.1.2 Bộ lọc số tuyến tính có đáp ứng xung vơ hạn (IIR)

Bộ lọc có đáp ứng xung vô hạn cho tín hiệu ra {yạ} là tổng trọng số của tín

hiệu vào {xạ} và cả những tín hiệu quá khứ của chính nó

p q

n) = })a,y(n—ï)+Ðb,x(n—ï) (2.4)

VGi {aj}inip,{Dibinog 12 hE sO cla bd loc

Một số đặc trưng của bộ lọc IIR :

Trang 3

— Ham truyén H(z) = {—— (2.6) 2.1.3 Thiết kế bộ lọc Biên độ (dB) Pha(dộ) Hình 2.2 : Đáp ứng tân số của một bộ lọc

Một trong những đặc trưng quan trọng nhất của bộ lọc đó là đáp ứng tần số của bộ lọc Đáp ứng này cho biết tính chất về mặt tân số của bộ lọc Nghĩa là từ thông tin của đáp ứng tần số của bố lọc mà có thể xác định được những tần số nào sẽ được tăng lên hay những tần số nào sẽ bị giảm xuống khi qua bộ lọc Có khá nhiều phương pháp thiết kế các bộ lọc dựa trên các đặc trưng đáp ứng tần số cho

trước Đó là những phương pháp như : đối với bộ lọc FTR là thuật toán McClean &

Trang 4

Parks (1973), đối với bộ lọc IIR 14 mu Butterworth hay miu Chebyshev [24]

Trong quá trình cài đặt ứng dụng chúng tôi đã sử dụng Signal processing toolbox

trong phần mềm Matlab để thiết kế các bộ lọc Hình 2 là đồ thị biên độ đáp ứng tần số và độ thị pha đáp ứng tần số của một bộ lọc thơng thấp có tần số cắt là 0.75 (đã

chuẩn hoá) 2.2 Pre-Emphasis Bién dé (dB) ũ 8.1 02 03 0.4 85 06 07 08 0.9 1 Tân số

Hình 2.3 : Đáp ứng tân số của bộ lọc pre-emphasis

Như đã trình bày trong phần trước, mơ hình nguồn - lọc của cơ chế tạo tiếng nói cho thấy phổ tân số của âm hữu thanh có khuynh hướng suy giảm ~6 dB/octave Đây là ảnh hưởng tổng hợp của hai nguyên nhân : nguyên nhân thứ nhất là nguồn âm thanh kích thích suy giảm -12 dB/octave và nguyên nhân thứ hai là do ảnh hưởng của sự phát tiếng nói ra từ miệng mà tạo ra sự tăng 6 dB/octave trong phổ tân số Điều này có nghĩa là khi tân số tăng lên gấp đơi thì cường độ của tần sẽ giảm đi 16 lần Trong khi nghiên cứu tiếng nói để cho phổ tân số có mức động như nhau trên toàn dải tân số thì cần phải thực hiện việc loại bỏ đặc tính suy giảm của phổ tần số

Trang 5

tiếng nói Việc này được thực hiện bằng một bộ lọc thông cao bậc nhất với tần số cắt nằm trong khoảng 100 Hz - 1000 Hz Phương trình sai phân của bộ lọc này là :

y(n) = x(n) - ax(n-1) (2.7)

Trong thực tế khi thực hiện pre-emphasis một tín hiệu tiếng nói người ta

thường chọn giá trị a từ 0.95 cho đến xấp xỉ gần 1

2.3 Phân Tích Phổ Tín Hiệu Bằng Biến Đổi Fourier Rời Rac

Một trong những kỹ thuật phân tích tiếng nói được sử dụng nhiều nhất đó là kỹ thuật phân tích phổ Phổ X(k) của một tín hiệu rời rạc x(n) với chiều dài hữu hạn

N được định nghĩa như sau :

X(k) = Ñ ae vẽ „với k=1, n (2.8)

n=0

Tập hợp các giá trị |X(k)| người ta gọi là phổ biên độ Tập hợp các giá trị arg(X(K)) người ta gọi là phổ pha Có khá nhiều phương pháp xác định phổ của một

tín hiệu cho trước Trong đó nổi bật lên là thuật toán FFT do James Cooley và John

W Turkey phát triển [24] Đây là một thuật tốn tính phổ hiệu quả nhất hiện nay do nó tiết kiệm khơng gian và thời gian tính tốn

Thuật toán : Xác định phổ

Vào : X - dãy tín hiệu

Trang 6

_2mi WM:=e " W:=l FOR j:=1 TO ni FOR k:=1 TO n-1 STEP m T:=W.Y(k+=) 2 U:=Y(k) Y(k):=U+T Y(@+—):=U-T W:=W.WM

Trong đó Bit-Reverse-Order là một thủ tục sắp xếp X lại theo thứ tự bit đảo

và gần vào Y Chúng ta lấy một ví dụ với môt dãy số {x;}, với ¡ = 0 7 Nếu chúng

ta sắp theo thứ tự bình thường thì cĨ {Xo, X1, X2, X3, X¿, Xs, Xø, X;}; còn nếu sắp theo thứ tự bit đảo thì có {Xo, Xạ, Xa, Xø, Xị, Xs, Xs, X;}

chỉ số bit bịt đảo Thứ tự thường — Thứ rự bit đảo

Trang 7

7 111; 111; 7 7

2.4 Phân Tích Phổ Tín Hiệu Bằng Dãy Bộ Lọc Thông Dải

Trong thực tế một phương pháp cũng thường được dùng để phân tích phổ tín hiệu là phương pháp sử dụng một dãy bộ lọc thông dải Trong phương pháp này một

dãy các bộ lọc được chọn sao cho băng thông của chúng có thể phủ một dải tần số 0

- 5000 Hz Tuỳ vào ứng dụng cụ thể mà số bộ lọc sử dụng có thể là từ 4 cho đến 100

Độ rộng băng thông của bộ lọc tăng dần theo tần số Đây chính là sự mô

phỏng bản chất của tai người thường có độ nhạy cảm giảm dân khi tân số tăng lên

Bảng 1 mô tả một dấy bộ lọc 19 kênh Dãy bộ lọc này đã được Holmes sử dụng đầu tiên trong việc mã hoá tiếng nói Tuy nhiên ngày nay chúng cũng được sử dụng rộng

rãi cho tổng hợp tiếng nói và nhận dạng tiếng nói

dãy bộ lọc thông dải chỉnh lưu & làm x¡(n) He) tm [

>| He) „| chỉnh lưu & làm | — „ x;(n)

x(n) tron | _»| chỉnh lưu & làm > X,(n) Be) tron T

Hình 4 : Mộ: dấy bộ lọc băng thông

Trang 8

Hình trên là sơ đồ thực hiện của phương pháp phan tích dãy bộ lọc thơng dải Đầu tiên, tín hiệu tiếng nói được lọc trên từng kênh bằng cách sử dụng bộ lọc thông

dải Kế tiếp, đầu ra của mỗi bộ lọc sẽ được chỉnh lưu và làm trơn Công việc chỉnh lưu đơn giản là chuyển những mẫu có giá trị âm thành giá trị dương có trị tuyệt đối

tương ứng Trong khi đó cơng việc làm trơn được thực hiện bằng một bộ lọc FIR trung bình

Bộ lọc được sử dụng trong dãy bộ lọc thông dải có thể là bộ lọc FTR hay bộ

lọc IR Mỗi bộ lọc đều có ưu điểm và khuyết điểm của nó

Một bộ lọc IIR sẽ cho một giá trị tín hiệu ra ứng với một giá trị tín hiệu vào

Tuy nhiên đối với trường hợp của tiếng nói, do bản chất tĩnh tương đối của tiếng nói trong một khoảng thời gian ngắn khoảng 10 - 20 ms (cỡ 100 — 200 mau với tần số lấy mẫu là 10 KHz), cho nên không cần thiết phải tính giá trị giá trị của phổ tại mọi thời điểm Do đó những giá trị đầu ra của bộ lọc sẽ được bình phương và lấy trung bình theo một chu kỳ nhất định cỡ 10 - 20 ms Điều này cũng tương tự như việc thực

hiện chỉnh lưu và làm trơn tín hiệu hay tính trung bình

Kênh Tân số trung tâm Độ rộng băng thông

Trang 9

9 1300 150 10 1450 150 j1 1600 - 150 12 1800 200 13 2000 200 14 2200 200 15 2400 200 16 2700 200 17 3000 300 18 3300 300 19 3750 500 Bảng 2.1 : Dấy bộ lọc 19 kênh

Đối với bộ lọc FIR khơng cần thiết phải tính giá trị đầu ra cho mỗi mẫu tín

hiệu vào do bản chất không đệ qui của bộ lọc tuyến tính có đáp ứng hữu hạn Nghĩa

là tín hiệu đâu ra chỉ phụ thuộc vào tín hiệu đầu vào hiện hành và một số hữu hạn

tín hiệu đầu vào quá khứ Do đó việc thực hiện tính tốn có thể thực hiện ở bất kỳ thời điểm nào Tuy vậy trong thực hành thường cứ 10 - 20 ms người ta lại thực hiện

một lần tính tốn

Tóm lại, bộ loc FIR cé ưu điểm là có pha tuyến tính nghĩa là tín hiệu sau khi được lọc bằng bộ lọc sẽ không bị méo pha; còn bộ lọc IIR khơng có được đặc tính Tuy nhiên do hiệu quả tính toán mà thường bộ lọc IR được sử dụng trong phương

pháp phân tích tiếng nói này

Trang 10

2.5 Phân Tích Tự Tương Quan

Hàm tự tương quan của tín hiệu sẽ cho một độ đo về sự tương quan của chính tín hiệu Giá trị tương quan R(k) của tín hiệu x(n) và chính tín hiệu này đã bị làm trễ

đi k mẫu được định nghĩa như sau :

R(k) = Š x(n)x(a +k) (2.9)

ke-=o

Để tính biểu thức trên bắt buộc phải biết giá trị của tín hiệu tại mọi thời

điểm Do đó trong thực tế người ta không sử dụng công thức này để tính thay vào đó họ sẽ chia tín hiệu nói thành những đoạn nhỏ hơn bằng cách nhân nó với một cửa sổ

w(n) có chiều dài là N Sau đó sẽ tính giá trị tương quan của tín hiệu trên từng cửa

4-8 số này

R„(k) = Š txín)v(n)) {x(n +k).w(n+k)} (2.10)

Với R„ là hàm tự tương quan của tín hiệu ứng với cửa sổ thứ m

2.6 Phân Tích Dự Báo Tuyến Tính

Ý tưởng cơ bản của phương pháp phân tích dự báo tuyến tính là với một mẫu

đã cho tại thời điểm n, x(n), có thể được xấp xỉ như là một tổ hợp tuyến tính của p

mẫu trước nó Nghĩa là :

e(n) = x(n) - aiX(n-L) - aax(n-2) - - asx(n-p) là lỗi của xấp xỉ này (2.12)

Trang 11

Bài toán đặt ra là làm sao tìm các hệ số a; mà tổng lỗi bình phương là bé

nhất Có hai phương pháp để giải bài toán này Một trong hai phương pháp đó là phương pháp tự tương quan

Thuật toán : Tìm hệ số dự báo tuyến tính

Vào : x - dãy tín hiệu

Ra :a - các hệ số dự báo tuyến tính Eo:= Rọ FORi :=1,2, ,p irl R,-Law@R k= = E, (i) := kị FOR j: =1,2, ,i-1 GQ): = 10) - Kiœ.0-J) E, = (1-k} Ei HOR 4:3 1,2 2p aj:=a,(i) N-i

Với Rị = Š”x(n)x(n - ï) và hệ số kị được gọi là hệ số phần chiếu Có một mối

n=0

quan hệ khắng khít giữa hệ số phản chiếu và hệ số dự báo tuyến tính —_ Xác định hệ số dự báo tuyến tính từ hệ số phản chiếu

FORi=1,2, ,p a(i) =k;

FOR j=1, ,i1

Trang 12

œ@) = œ1) - kiœ.¡0-J)

BOR i= 1, 2, «-,'p ai:=œ()

— Xác định hệ số phản chiếu từ hệ số dự báo tuyến tính

EOR1:=1.:2 s:; Op(i):=aj FORi=p,p-l, ,1 kị= œ() FORj=1, ,i-1 ._ &(j)+k,o,(i-j) 0.1() = rs

Ngoài ra hệ số phản chiếu có mối quan hệ với tiết diện của mơ hình ống của cơ chế tạo tiếng nói qua biểu thức sau

A 1-k

log] #4 | = log] —|, 1 <is 2.13

| mm os me ` ;

Trong đó A; là tiết diện của ống thành phần ¡

Trong biểu thức (3.12) thay e(n) bằng G.u(n), ta có :

Pp

x(n) = Ð›a,.x(n—ï)+ G.u(n) (2.14)

i=l

Với u(n) được xem là nguồn kích thích hay nguồn âm thanh đã được chuẩn hoá và G là hệ số tỷ lệ Chúng ta dễ dàng nhận thấy rằng đây chính là biểu diễn dạng tốn học của mơ hình nguồn - lọc của cơ chế tạo tiếng nói đã để cập trong phần trước Trong đó bộ lọc có hàm truyền là ®

Trang 13

HỚ)< ——— (2.15)

1-Yiaz"

isl

Và được gọi là bộ lọc LPC cịn nguồn kích thích là tín hiệu lỗi đã được mơ hình hố thành dạng G.u(n) Power (dB) a 12: 5 a 6 12 (Hz) 1000 2000 3600 4000) 5000,

Hình 2.4 : Tách đáp ứng tần số của cơ quan phát âm từ phổ tín hiệu tiếng nói bằng

LPC

Nếu như bộ lọc LPC ổn định nghĩa là các điểm cực của bộ lọc này nằm trong

đường tròn đơn vị xét trong mặt phằng phức thì các hệ số phản chiếu có tính chất sau |k;|<1 và ngược lại

Định dạng
Số trang	13
Dung lượng	2,75 MB