Nhiễu trong tiếng nói

5. Ý nghĩa khoa học và thực tiễn

1.2. Nhiễu trong tiếng nói

1.2.1. Nguồn nhiễu

Nhiễu tồn tại ở mọi nơi, trên đường phố, trên xe, trong văn phòng, trong nhà hàng, trong các toà nhà. Nó có thể là tiếng xe chạy trên đường, tiếng ồn trên các công trường xây dựng, tiếng ồn phát ra từ các quạt chạy trong PC, chuông điện thoại…, nó tồn tại với các hình dạng và hình thức khác nhau trong cuộc sống hằng ngày của chúng ta.

Nhiễu có thể hình thành ở một nơi cố định, và không thay đổi theo thời gian, ví dụ như là tiếng ồn phát ra từ quạt chạy trong PC. Nhiễu cũng có thể không đứng yên một chỗ, ví dụ như nhiễu trong nhà hàng, đó là tiếng nói của nhiều người xen lẫn với nhiều cách khác nhau với tiếng ồn phát ra từ nhà bếp. Các đặc tính về phổ cũng như thời gian của nhiễu trong nhà hàng thay đổi không theo quy luật nên việc nén nhiễu trong các môi trường có nhiễu thay đổi như vậy sẽ khó khăn hơn nhiều so với các nguồn nhiễu đứng yên không thay đổi.

Các đặc tính đặc biệt khác nhau của các loại nhiễu đó là hình dạng của phổ và sự phân bố của năng lượng nhiễu trong miền tần số. Ví dụ, nhiễu gây ra bởi gió thì năng lượng của nó tập trung ở tần số thấp dưới 500Hz. Nhưng đối với nhiễu trong nhà hàng, trên xe, trên tàu thì khác, năng lượng của nó được phân bố trên một dải tần số rộng [13]

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Hình 1.15: Dạng và sự phân bố phổ năng lượng trung bình nhiễu trên xe [14]

Hình 1.16: Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trên tàu [14]

Hình 1.17: Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trong nhà hàng [14]

1.2.2. Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau

Điểm tới hạn trong việc thiết kế các thuật toán nâng cao chất lượng tiếng nói là sự nhận biết dải biến thiên của tiếng nói và mức độ cường độ nhiễu trong môi trường thực tế. Từ đó, chúng ta có thể mô tả miền biến thiên của mức độ tỷ số tín hiệu trên nhiễu (SNR) được bắt gặp trong môi trường thực tế. Điều này rất quan trọng để đánh giá tính hiệu quả của các thuật toán nâng cao chất lượng tiếng nói trong việc nén nhiễu và cải thiện chất lượng của tiếng nói trong dải biến thiên của mức SNR.

Mức độ của tiếng nói và nhiễu được đo lường bằng mức độ âm thanh. Phép đo lường ở đây là đo mức độ áp suất của âm thanh tính bằng dB SPL(sound pressure level). Khoảng cách giữa người nói và người nghe cũng ảnh hưởng đến mức cường độ âm thanh, nó tương ứng với phép đo được thực hiện khi microphone được đặt tại những vị trí có khoảng cách khác nhau. Khoảng cách đặc trưng trong giao tiếp face-to-face là 1m, khi

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Hình bên dưới này là sự tổng hợp về mức độ âm trung bình giữa tiếng nói và nhiễu trong các môi trường khác nhau. Mức độ của nhiễu nhỏ nhất ở trong các môi trường như phòng học, trong nhà ở, trong bệnh viện và trong các toà nhà. Trong các môi trường khác nhau, thì mức độ âm của nhiễu nằm trong phạm vi biến thiên từ 50 đến 55 dB SPL, và mức độ âm của tiếng nói là 60 đến 70 dB SPL. Và khuyến nghị đưa ra là mức tỷ số SNR có hiệu quả trong các môi trường này là 5 đến 15 dB. Mức độ âm của nhiễu rất cao trong các môi trường ở tàu điện ngầm, ở trên máy bay, nó đạt khoảng 70 đến 75 dB SPL. Và mức độ âm của tiếng nói trong các môi trường này cũng đạt mức đó, nên mức tỷ số SNR trong các môi trường này gần như là 0 dB.

Hình 1.18: Mức nhiễu và tiếng nói (được đo bằng SPL dB) trong các môi trường khác nhau [14]

1.2.3. Mô hình hóa tiếng nói

Mô hình hóa cơ quan phát âm (vocal tract)

Các tần số cộng hưởng của tiếng nói formant tương ứng với điểm cực của hàm truyền V(z). 1 ( ) 1 N k k k G v z a z    (1.1)

Mô hình toàn cực của hàm truyền là mô hình mô tả tốt nhất cho thành phần âm hữu thanh, tuy nhiên các ảnh hưởng của mũi, và kẽ răng lại yêu cầu mô hình phải có cả hai sự cộng hưởng và sự triệt tiêu trong trường hợp này, cần phải thêm các điểm không vào mô hình. Các hệ số của mẫu phương trình trên phải là hoặc thực hoặc cặp phức.

Tần số cộng hưởng điển hình của cơ quan phát âm:

k k k k

s s    j F (1.2)

Tương ứng rời rạc về thời gian là:

* 1 os2 .2sin 2 kT kT k k z z e c  fT  je  fT (1.3)

Hình 1.19: Mô hình điểm cực formant cơ quan phát âm

Băng tần của formant tương ứng là 2kvà tần số trung tâm là 2ΠFk. Trong mặt phẳng Z đường kính trung tâm đến cực sẽ quyết định băng tần nghĩa là:

Z e và k 2F Tk (1.4)

Bởi vậy nếu V(z) tìm được thì tần số cộng hưởng và băng tần cũng được tính, như chỉ ra trên hình vẽ trên tần số thực phức của cơ quan phát âm tất cả thuộc nửa bên trái mặt phẳng s vì vậy nó là hệ thống ổn định của phép biến

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

đổi s, do đó k 0 và |Zk|<1 nghĩa là tất cả các điểm cực tương ứng của mô hình rời rạc thời gian phải nằm bên trong vòng tròn đơn vị để đảm bảo tính ổn định của hệ thống.

Mô hình sự kích thích nguồn âm (glottal source)

Tiếng nói có thể chia thành vô thanh và hữu thanh. Với âm hữu thanh, mô hình dạng sóng kích thích phải xuất hiện, ở mô hình này máy phát chuỗi xung tạo ra chuỗi xung đơn vị quãng cách là chu kỳ cơ bản (chu kỳ cao độ). Tín hiệu này kích thích một hệ thống tuyến tính mμ có đáp ứng xung h(n) là dạng sóng "thanh môn-glottal" kích thích.

Hình 1.20: Mô hình kích thích âm hữu thanh

Điều chỉnh biên độ Gv, điều khiển một mạch kích thích âm hữu thanh, các nghiên cứu chỉ ra rằng dạng sóng "thanh môn" có thể được thay bằng dạng sóng của xung tổng hợp theo dạng:

1 1 1 2 1 1 2 0.5(1 os( n/N )) 0 ( ) os( (n-N )/2N ) N 0 c n N h n c n N N n               (1.5)

N1, N2 là khoảng giới hạn của cửa sổ phân tích với âm vô thanh chỉ cần một nguồn nhiễu vμ thông số về biên để điều chỉnh mật độ kích thích của nó, máy phát ngẫu nhiên tạo một nguồn nhiễu bằng phẳng, các xuất hiện không

quan trọng. Do vậy, mô hình kích thích nguồn âm tổng hợp cả âm hữu thanh và âm vô thanh để tạo tiếng nói có dạng như trong hình 1.21.

Hình 1.21: Mô hình hóa quá trình tạo tiếng nói

1.3. Xử lý nhiễu tiếng nói

1.3.1. Cách tiếp cận không dùng học máy

Spectral-subtraction (SS) hay còn gọi là trừ phổ là một thuật toán giảm nhiễu đơn giản nhất. Nó dựa trên nguyên lý cơ bản là nó sẽ mô tả và cập nhật nhiễu trong tín hiệu có nhiễu bằng cách thu nhiễu khi không có sự hiện diện của tín hiệu. Và nhiễu đó sẽ được trừ với tín hiệu có nhiễu, kết quả là tín hiệu của chúng ta sau khi xử lý bằng thuật toán này sẽ được loại đi nhiễu và xét trên phương diện lý tưởng thì nó là tín hiệu sạch.

1.3.2. Cách tiếp cận dùng học máy.

Vấn đề của nâng cao chất lượng tiếng nói là phải đề ra được khung mô tả mang tính thống kê. Nó là một tập các phép đo tương ứng với hệ chuyển đổi Fourier của tín hiệu nhiễu, và chúng ta mong muốn sẽ tìm ra được một phương thức ước lượng tuyến tính hoặc phi tuyến các tham số có lợi, đó là hệ chuyển đổi của tín hiệu sạch.

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

CHƯƠNG II: PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI CÓ NHIỄU PHỨC HỢP BẰNG HỌC MÁY DÙNG MÔ HÌNH

PHA TRỘN GAUSSIAN

2.1. Phương pháp nâng cao chất lượng tiếng nói có nhiễu kinh điển dùng kỹ thuật trừ phổ. kỹ thuật trừ phổ.

Đây là phương pháp truyền thống được sử dụng phổ biến. Phương pháp nâng cao chất lượng tiếng nói có nhiễu sử dụng thuật toán Spectral subtraction (trừ phổ) dựa trên một nguyên tắc cơ bản: Thừa nhận sự có mặt của nhiễu, phổ của tín hiệu tiếng nói sạch thu được bằng cách sau: Lấy phổ của tín hiệu tiếng nói có nhiễu trừ đi phổ của nhiễu. Phổ của nhiễu có thể được ước lượng, cập nhật trong nhiều chu kỳ khi không có mặt của tín hiệu. Sự thừa nhận đó chỉ được thực hiện đối với nhiễu không đổi hoặc có tốc độ xử lý biến đổi chậm, và khi đó phổ của nhiễu sẽ không thay đổi đáng kể giữa các khoảng thời gian cập nhật.

2.1.1. Thuật toán trừ phổ đối với phổ biên độ

Giả thiết rằng y[n] là tín hiệu vào đã bị nhiễu, nó là tổng của tín hiệu sạch x[n] và tín hiệu nhiễu d[n]:

y[n] = x[n] + d[n] (2.1) Thực hiện biến đổi Fourier rời rạc cả 2 vế, ta được

(w) (w) (w)

Y  X D (2.2) Chúng ta có thể biểu diễn Y(w) dưới dạng phức như sau:

( w )

(w) | (w) | j y

Y  Y e  (2.3)

Khi đó |Y( w)| là biên độ phổ, và y(w)là pha của tín hiệu đã bị nhiễu Phổ của tín hiệu nhiễu D( w) có thể được biểu diễn dạng biên độ và pha:

(w )

(w) | (w) | j d

Biên độ phổ của nhiễu |D(w)| không xác định được, nhưng có thể thay thế bằng giá trị trung bình của nó được tính trong khi không có tiếng nói (tiếng nói bị dừng), và pha của tín hiệu nhiễu có thể thay thế bằng pha của tín hiệu bị nhiễu y(w), việc làm này không ảnh hưởng đến tính dễ nghe của tiếng nói [15], có thể ảnh hưởng đến chất lượng của tiếng nói là làm thay đổi pha của tiếng nói nhưng không đáng kể.

Khi đó chúng ta có thể ước lượng được phổ của tín hiệu sạch:

( w)

ˆ(w) [ | (w) | | ˆ(w) | ]ej y

X  Y  D  (2.5)

Ở đây |Dˆ(w) | là biên độ phổ ước lượng của nhiễu được tính trong khi không có tiếng nói hoạt động. Ký hiệu để chỉ rằng giá trị đó là giá trị ước tính gần đúng. Tín hiệu tiếng nói được tăng cường có thể đạt được bằng cách rất đơn giản là biến đổi IDFT của Xˆ (w)

Lưu ý: Biên độ phổ của tín hiệu đã được tăng cường là |X(w)|=(|Y(w)|-|D(w)|), có thể bị âm do sự sai sót trong việc ước lượng phổ của nhiễu. Tuy nhiên, biên độ của phổ thì không thể âm, nên cần phải đảm bảo rằng khi thực hiện trừ hai phổ thì phổ của tín hiệu tăng cường |X(w)| luôn luôn không âm. Giải pháp được đưa ra để khắc phục điều này là chỉnh lưu nửa sóng hiệu của phổ, nếu thành phần phổ nào mà âm thì chúng ta sẽ gán nó bằng 0:

| X(w) | | (w) | Y |D(w) | 0 (2.6)

Phương pháp xử lý bằng chỉnh lưu nửa sóng là một trong những cách để đảm bảo cho |X( w)| không bị âm.

2.1.2. Thuật toántrừ phổ đối với phổ công suất

Thuật toán t r ừ p hổ đối với phổ biên độ có thể được mở rộng sang miền phổ công suất. Vì trong một vài trường hợp, nó có thể làm việc tốt với

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

phổ công suất hơn là với phổ biên độ. Lấy phổ công suất của tín hiệu bị nhiễu trong một khoảng ngắn, chúng ta bình phương |Y( w)|, ta được:

2 2 2 * * | (w) | |Y  X(w) | |D(w) | X(w).D (w)X (w) (w)D (2.7) 2 2 * |X(w) | |D(w) | 2 Re{ (w)X D (w)}    2 * |D(w) | ,X(w).D (w) và *

X (w). (w)D không thể tính được một cách trực tiếp

mà xấp xỉ bằng 2 * {| ( ) | }, { ( ). ( )} E D w E X w D w và * { ( ). ( )} E X w D w khi đó E[.] là toán tử kỳ vọng. Bình thường thì 2 {| ( ) | }

E D w được ước lượng khi không có tiếng nói hoạt động và được biểu thị là 2

|D w( ) | . Nếu chúng ta thừa nhận [n]=0

d và không có một sự tương quan nào với tín hiệu sạch x[n],

thì *

{ ( ). ( )}

E X w D w và *

{ ( ). ( )}

E X w D w xem là 0. Khi đó phổ công suất của tín hiệu sạch có thể tính được như sau:

2 2 2

ˆ ˆ

|X(w) | | (w) |Y |D(w) | (2.8) Công thức trên biểu diễn thuật toán trừ phổ công suất. Như công thức trên, thì phổ công suất được ước lượng |X wˆ( ) |2không được đảm bảo luôn là

một số dương, nhưng có thể sử dụng phương pháp chỉnh lưu nửa sóng như đã trình bày ở trên. Tín hiệu được tăng cường sẽ thu được bằng cách tính IDFT của|X wˆ( ) |(bằng cách lấy căn bậc hai của |X wˆ( ) |2 có sử dụng pha

của tín hiệu tiếng nói bị nhiễu. Chú ý rằng, nếu chúng ta lấy IDFT cả hai vế của công thức (2.8) trên thì ta có một phương trình tương tự trong miền tự tương quan: ˆ ˆ ˆˆ r ( )xx yy( ) ( ) dd m  r m r m (2.9) Khi đó r ( ),xxˆˆ yy( ), ˆ ˆ( ) dd

m r m r m là các hệ số tự tương quan của tín hiệu

sạch, tín hiệu tiếng nói bị nhiễu, và tín hiệu nhiễu đã được ước lượng [9,10] Công thức (1) có thể được viết theo dạng sau:

2 2 2

Khi đó: 2 2 ˆ | (w) | (w) 1 | (w) | D H Y   (2.11)

Trong lý thuyết hệ thống tuyến tính,H(w)là hàm truyền đạt của hệ thống. Còn trong lý thuyết của Speech enhancement, chúng ta xem H(w) là hàm độ lợi hay hàm nén. Và H(w) là một số thực và luôn luôn dương, và có giá trị nằm trong phạm vi 0H(w)1. Nếu nó có giá trị âm là do có sai sót trong quá trình ước lượng phổ của nhiễu. H(w) được gọi là hàm nén là vì nó cho ta biết tỷ số giữa phổ công suất của tín hiệu được tăng cường với phổ công suất của tín hiệu bị nhiễu. Hình dạng của hàm nén là một đặc trưng duy nhất của mỗi thuật toán Speech enhancement.

Chính vì vậy mà chúng ta thường so sánh các thuật toán bằng cách so sánh các đáp ứng của hàm nén của chúng. Hệ số H(w) có giá trị thực nên biến đổi IDFT là h[n] đối xứng với nhau qua điểm 0 và không nhân quả. Trong miền thời gian thì h[n] được xem là một bộ lọc không nhân quả [11]. Nên sẽ có một phương pháp được đề xuất để hiệu chỉnh hàm H(w) để đáp ứng của nó trở thành bộ lọc nhân quả trong miền thời gian.

Trường hợp chung thì thuật toán trừ phổ có thể được biểu diễn:

ˆ ˆ

| X(w) |p| (w) |Y p |D(w) |p (2.12)

Trong đó p là số mũ công suất, với p = 1 là phương pháp trừ phổ biên độ điển hình, p = 2 là phương pháp trừ phổ công suất.

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Sơ đồ khối của thuật toán trừ phổ :

Hình 2.1: Sơ đồ khối của thuật toán trừ phổ [12]

2.1.3. Ưu nhược điểm của phương pháp

Phương pháp nâng cao chất lượng tiếng nói có nhiễu bằng thuật toán trừ phổ có ưu điểm là quá trình xử lý hiện đơn giản. Tuy nhiên nếu quá trình xử lý không được thực hiện một cách cẩn thận thì tiếng nói của chúng ta sẽ bị méo hay nói cách khác là phụ thuộc vào việc ước lượng nhiễu: Nếu như việc lấy hiệu quá lớn thì có thể loại bỏ đi một phần thông tin của tiếng nói, còn nếu việc thực hiện lấy hiệu đó nhỏ thì nhiễu sẽ vẫn còn được giữ lại trong tín hiệu. Hơn nữa đối với nhiễu phức hợp và nhiễu nhân thì phương pháp truyền thống này không ước lượng được nhiễu. Vấn đề này sẽ được giải quyết ở phương pháp nâng cao chất lượng tiếng nói có nhiễu dùng học máy GMM được trình bày phần sau của luận văn.

2.2. Phương pháp nâng cao chất lượng tiếng nói có nhiễu dùng học máy GMM. GMM.

2.2.1. Phân bố Gauss

Phân phối chuẩn, còn gọi là phân phối Gauss, là một phân phối xác +

Y(w) (w)

Ước lượng, cập nhật nhiễu

Tín hiệu sau khi tăng cường FFT Pha của tín hiệu IFFT Tín hiệu bị nhiễu | . |p - 1/ | . | p ˆ |D(w) |p +

suất cực kì quan trọng trong nhiều lĩnh vực. Nó là họ phân phối có dạng tổng quát giống nhau, chỉ khác tham số vị trí (giá trị trung bình μ) và tỉ lệ (phương sai σ 2).

Phân phối chuẩn chuẩn hóa (standard normal distribution) là phân phối chuẩn với giá trị trung bình bằng 0 và phương sai bằng 1 (đường cong màu đỏ

Mô hình hóa tiếng nói

Thuật toántrừ phổđối với phổ biên độ