1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu và thử nghiệm bộ lọc KALMAN thích nghi Nâng cao chất lượng âm thanh số

22 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 22
Dung lượng 4,28 MB

Nội dung

Trang 1

MỞ DAU

Tiếng nói là dạng tự nhiên nhất trong giao tiếp của con người Các tiến bộ trong công nghệ đã cách mạng hóa cách con người giao tiếp Tiếng nói cũng đã trở thành một phương tiện quan trọng trong giao tiếp người máy Độ tin cậy và tính kinh tế của các thiết bị thông tin di động bằng giọng nói đã có những

giao tiếp hiện thực “bất kỳ đâu và bất kỳ lúc nào” Sự tự do và tính linh hoạt

của thông tin di động cũng được xem là những thách thức mới, nổi bật nhất là việc làm giảm nhiễu âm thanh nền Thông thường, các thiết bị truyền thông di động giọng nói được sử dụng trong môi trường có tiếng ồn ở xung quanh với

mức độ cao, dẫn đến chất lượng tiếng nói bị suy giảm.

Khả năng nhận thức được của con người với tín hiệu tiếng nói thường

được đánh giá bằng chất lượng và sự dễ hiểu của nó Chất lượng là thước đo

chủ quan chỉ ra sự dễ chịu/ tính tự nhiên của tiếng nói được cảm nhận Sự dễ hiểu là một phép đo khách quan dự đoán tỷ lệ phần trăm các từ có thê xác định chính các từ người nghe Trong môi trường nhiễu, chat lượng kém và khó hiểu của tiếng nói nhận được làm cho việc truyền thông bằng giọng nói trở nên khó khăn Vì vậy, việc làm giảm nhiễu âm thanh là vấn đề quan trọng Ngoài ra, việc nâng cao khả năng nhận thức, giảm tiếng ồn cũng rất quan trọng để các thuật toán mã hóa tiếng nói đạt hiệu suất cao.

Cách giải quyết vấn đề trên là sử dụng thuật toán nâng cao chất lượng tiếng nói như một bước tiền xử lý để giảm nội dung nhiễu và sau đó sử dụng tín

hiệu đã được tăng cường làm đầu vào cho hệ thống xử lý tiếng nói.

Với tất cả các lý do trên, rất nhiều nghiên cứu đã tập trung theo hướng

phát triển các thuật toán nâng cao chất lượng tiếng nói hiệu quả Việc cải thiện tiếng nói có ý nghĩa rộng bao gồm các chủ đề khác nhau như giảm nhiễu nền

âm thanh, loại bỏ tiếng vang, tách nguồn mù, mở rộng dải thông của tiếng nói,

Vấn đề nâng cao chất lượng tiếng nói bao gồm rất nhiều các vấn đề được

đặc trưng bởi dang nguôn nhiêu, ban chat của sự tương tác giữa tiêng nói va

Trang 2

nhiễu, số lượng các cảm biến tín hiệu (số microphone đầu vào) có sẵn và tinh chất của các ứng dụng tiếng nói Giảm nhiễu vẫn còn là một van đề khó khăn do có nhiều dạng nhiễu nền và những khó khăn trong việc ước lượng thống kê

chúng Sự tương tác giữa nhiễu và tín hiệu sạch thường được phân loại thành

tương tác cộng/nhân/chập Mô hình cộng thường chiếm đa số trong các ứng

dụng thực.

Từ quan điểm của hệ thống nâng cao chất lượng tiếng nói, tiếng nói sạch

được ước tính là một quá trình ngẫu nhiên mà các hàm mẫu được lựa chọn

ngẫu nhiên bởi người nói Nhiễu vốn là ngẫu nhiên trong tự nhiên Do đó, giảm nhiễu có thể được xem như bài toán ước lượng, nơi mà một tín hiệu không rõ

(lời nói) có thể được ước lượng từ tín hiệu bị nhiễu được giám sát Lý thuyết

ước lượng Bayesian đòi hỏi mô hình thống kê của tín hiệu sạch cũng như các số liệu thống kê của nhiễu và một phép đo độ méo dé định lượng sự tương tự

của tín hiệu sạch và các phiên bản ước lượng của nó Việc thiếu các mô hình

thống kê chính xác của tín hiệu tiếng nói làm cho việc giảm nhiễu khó khăn hơn Một khó khăn khác là không có sẵn các phép đo độ méo về mặt tri giác

liên quan va dé dàng về mặt toán hoc Chất lượng tri giác và sự dé hiểu là khó

có thê định lượng dé tối ưu về mặt toán hoc Vì vay, VIỆC thiết kế các hệ thống

nâng cao chất lượng tiếng nói thường dựa trên các phép đo độ méo mà dễ dàng

thực hiện về mặt toán học mà nó xấp xi tương quan với chất lượng và/hoặc sự

dễ hiểu của tín hiệu tiếng nói.

Trong môi trường nhiễu, hệ thống thính giác của con người là bằng cách nào đó có khả năng làm giảm ảnh hưởng của nhiễu khi nhận thức tiếng nói sử dụng một số cơ chế phi tuyến tính Thiết kế của hệ thống tăng cường tiếng nói dựa trên nguyên tắc thính giác là khó khăn do thiếu sự hiểu biết đúng đắn về cơ chế thính giác như vậy Do đó, hầu hết các phương pháp thực tế để cải thiện

tiếng nói dựa trên lý thuyết ước lượng thống kê.

Xuất phát từ thực tế và nhu cầu thiết yếu đó, yêu cầu về nghiên cứu, ứng dụng thuật toán lọc thích nghi Kalman nhằm nâng cao chất lượng âm thanh số, cải thiện độ dễ hiểu, mức độ cảm nhận của người nghe; luận văn đã tập trung

giải quyêt phân nào vân đê trên.

Trang 3

Luận văn gồm 3 chương:

Chương 1: Tổng quan về lọc thích nghỉ và lọc Kalman;

Chương 2: Bộ lọc thích nghi Kalman;

Chương 3: Thử nghiệm bộ lọc thích nghi Kalman nâng cao chất lượng âm thanh số.

Trong đó phan lý thuyết chung, cơ sở toán học tập trung vào chương 1 và 2, kết quả áp dụng đối với các tệp âm thanh số trong chương 3.

Trang 4

CHUONG I - TONG QUAN CHUNG VE LOC THÍCH

NGHI VA LOC KALMAN

1.1 Lý thuyết về ước lượng

Khát niệm

Trong thống kê, một ước lượng là một giá trị được tính toán từ một mẫu thử và người ta hy vọng đó là giá trị tiêu biểu cho giá trị cần xác định trong tập

hợp Người ta luôn tìm một ước lượng sao cho đó là ước lượng “không chệch”,

hội tụ, hiệu quả và vững (robust).

Đánh giá chất lượng

Một ước lượng là một giá trị x được tính toán trên một mẫu được lay

mot cach ngau nhiên, do đó giá tri cua x là một biến ngẫu nhiên với kì vọng E(x) và phương sai V(x) Nghĩa là giá trị x có thé dao động tùy theo mẫu thu, nó có it cơ hội dé có thé bằng đúng chính xác giá trị X mà nó đang ước lượng.

Mục đích ở đây là ta muốn có thé kiểm soát sự sai lệch giá tri x và giá tri X.

Kỳ vọng (Expectation)

Định nghĩa: Giả sử X là đại lượng ngẫu nhiên rời rac có thé nhận các

giá trị x1, Xz, , xạ với các xác suất tương ứng là Pạ, Py, , Py.

Khi đó kỳ vọng của X, ký hiệu là E(X) hay pw được xác định bởi công

Ý nghĩa : Kỳ vọng của một đại lượng ngẫu nhiên chính là giá trị trung

bình (theo xác suất) của đại lượng ngẫu nhiên đó Nó là điểm trung tâm của phân phối mà các giá trị cụ thể của X sẽ tập trung quanh đó.

Trang 5

Phương sai (Variance)

Định nghĩa: Phương sai (trung bình bình phương độ lệch) của đại lượng

ngẫu nhiên X, ký hiệu là Var(X) hay V(X) được xác định bởi công thức:

Var(X) = E[(X — n)”] (1.3)

Nếu X là đại lượng ngẫu nhiên rời rac có thé nhận các giá trl x4, X2, , Xp VỚI các xác suất tương ứng là P,, Po, , P, thi ta có :

Trong thực tế ta thường tính phương sai bằng công thức:

Var(X) = E[X”] — [E(X)]? (1.6)

Y nghĩa: X — là độ lệch khỏi giá trị trung bình Do đó phương saiVar(X) gọi là trung bình bình phương độ lệch Nên phương sai phản ánh mức

độ phân tán của các giá trị đại lượng ngẫu nhiên quanh giá trị trung bình hay kỳ

vọng Đại lượng ngẫu nhiên có phương sai càng lớn thì giá trị càng phân tán và

ngược lại.

Độ lệch chuẩn

Định nghĩa : Độ lệch chuan của đại lượng ngẫu nhiên X, ký hiệu ø(X)

được xác định bởi công thức:

o(X) = Var(X) (1.7)Hiệp phương sai (Covariance)

Cho 2 biến ngẫu nhiên X và Y, ta có định nghĩa hiệp phương sai của X

và Y, ký hiệu là Cov(X,Y):

Cow(X,Y) = B[(X — w„)(Y — wr)] (1.8)

Trong đó wx, uy lân lượt là ky vọng của X, Y.

Một công thức tương đương của hiệp phương sai:

Cov(X,Y) = E[XY] — uxuy (1.9)

Như vậy, nếu X, Y độc lập ta có: E[XY] = Hxty

Trang 6

Ma trận hiệp phương sai

Cho một vectơ biến ngẫu nhiên X chứa n biến ngẫu nhiên, ma trận hiệp

phương sai của X, ký hiệu là 3, được định nghĩa là:

Cov(X,, X;) Cov(XI:,X;) + Cov(Xị,Xn)

» Cov(X2,X1) Cov(X2,X2) ++ Cow(X;,X„)

Cov(Xn,X1) CoU(Xạ,X;) - Cov(X„,Xa)

VoiX = |:

Quan sát trên đường chéo của ma trận hiệp phương sai (i=j) ta thay tai

đó là các phương sai, vì Cov(X;,X;) = Var(X;).

Phân phối chuẩn (Phân phối Gaussian)

Trong thực tế, người ta thường sử dung phân phối xác suất chuẩn (normal distribution) hay phân phối Gaussian Một biến ngẫu nhiên X được gọi là có phân phối Gaussian khi nó có hàm mật độ là hàm Gaussian, ký hiệu là X ~ N(u,ø) gọi là X có phân phối chuẩn với tham số py, ø Khi đó hàm mật độ

của X là:

e 202 (1.10)

Uóc lượng trung bình và phương sai

Ta chọn ngẫu nhiên n cá thé trong một dân số gồm N cá thể Ta quan tâm đến đặc trưng định lượng Y của dân số với trung bình Ÿ và phương sai

V(Y) Trong mẫu đó, đặc trưng Y có trung bình và phương sai đo được lần lượt

là y và ơ? = =Si=1(¡ — y)? Lưu ý là các giá trị ÿ và ø thay đối tùy theo

mau thử, do đó chúng là các biển ngẫu nhiên với trung bình và phương sai

riêng khác nhau.

Trang 7

Ước lượng trung bình của Y:

Thông thường trung bình của Y, tức là Y được ước lượng bởi: ÿ =

+ ¡=17¡, còn được gọi là trung bình tích lũy( hay trung bình cộng) Ta chứng

minh được đây là ước lượng không chệch(unbiased), nghĩa là E(y) = Y.

Ước lượng phương sai của Y:

ơ”là một ước lượng của V(Y), nhưng là ước lượng không đúng, ta

chứng minh được kỳ vọng của ø?luôn nhỏ hơn V(Y), tức là ước lượng là thiếu.

Cac ước lượng đúng của V(Y) là:

Trong trường hợp mẫu lớn, phép tính có hoàn lại và phép tính không

hoàn lại là như nhau, vì — xap xi bằng 1 Vì vậy trong trường hợp tổng quát ước lượng đúng của V(Y) là : s? = — "(vi — ¥)? được gọi là phương sai

tích lũy của Y.

Phương pháp bình phương toi thiểu

Trong toán học, phương pháp bình phương tối thiểu, còn gọi là bình phương nhỏ nhất hay bình phương trung bình tối thiêu, là một phương pháp tối ưu hóa dé lựa chọn một đường khớp cho một dai dữ liệu ứng với cực tri của tổng các sai số thống kê (error) giữa đường khớp và dữ liệu.

1.2 Lọc thích nghỉ

Lọc thích nghỉ là một lớp các phương pháp dựa trên đánh giá tham số về tín hiệu hồi quy, thường rất hay xuất hiện trong một số ứng dụng về xử lý tín

hiệu số và hệ thống truyền thông như là xác thực, nhận dạng hệ thống; cân

bằng kênh, triệt âm vang, giảm nhiễu; xử lý tín hiệu radar, theo dõi vị trí của

các đối tượng, hay phương tiện giao thông trong hệ thống GPS, thị giác máy

tính, xử lý thời gian thực trong truyền thông thông tin di động.

Trang 8

Bộ lọc thích nghi hoạt động dựa trên nguyên lý về việc ước lượng một tín hiệu nhiễu hay các tham số ân băng việc tối thiểu hóa một hàm sai số, thường là giá trị bình phương sai lệch giữa tín hiệu đầu ra đã được lọc và tín hiệu đích mong muốn Bộ lọc thích nghi được sử dụng dé ước lượng, và nhận dạng các tín hiệu không mang tính - 6n định, kênh và hệ thống hay trong các ứng dụng

mà có việc xử lý đáp ứng mẫu liên tục, hoặc xử lý trễ.

Cấu trúc một bộ lọc thích nghỉ như trên hình sau:

Tín hiệu vao Tín hiệu ra

Cầu trúc bộ loc

Tiêu chuẩn thực thi

Giải thuật thích nghi

Hình 1.1: Cấu trúc bộ lọc thích nghi

Cấu trúc bộ lọc: Đây là phần thực thi giải thuật lọc thích nghi, do người sử dụng, lập trình thiết lập và có thể là một dạng thực thi trực tiếp của bộ lọc FIR.

Khối này tính toán đầu ra bộ lọc dựa trên tín hiệu đầu vào Các hệ số của bộ lọc sẽ được điều chỉnh, “cập nhật” thông qua giải thuật thích nghi.

Tiêu chuẩn thực thi: Khối này kiểm tra tín hiệu ra và so sánh nó với tín hiệu khác Tín hiệu khác ở đây là tín hiệu đầu ra mong muốn Nếu như ta đã biết đáp ứng mong muốn là cái gì, ta có thé so sánh với đáp ứng thực tế và chỉ rõ cho giải thuật thích nghỉ cần thay đổi cái gì.

Giải thuật thích nghỉ: Đây là phần chính của một bộ lọc thích nghi, giải

thuật này mô tả làm thé nào dé thay đổi các hệ số lọc đáp ứng với tín hiệu đã cho bởi tiêu chuẩn thực thi Tuy nhiên đây lại là phần khó nhất khi thiết kế bộ

lọc thích nghi.

Hàm đánh giá: Trước khi thảo luận đến bất kỳ một giải thuật thích nghi nào cụ thé, ta cần đưa ra một đại lượng đo lường để đánh giá hiệu quả thực thi.

Trang 9

1.3 Thuật toán lọc Kalman

Được đề xuất từ năm 1960 bởi giáo sư Kalman, đây là bộ lọc đơn giản với thuật toán xử lý dữ liệu hồi quy tối ưu Có nhiều cách xác định tối ưu, phụ thuộc tiêu chuẩn lựa chọn trình thông số đánh giá Điều đó cho thấy rằng bộ lọc

Kalman tối ưu đối với chi tiết cụ thé trong bat kỳ tiêu chuẩn có nghĩa nào Một

khía cạnh của sự tối ưu này là bộ lọc Kalman hợp nhất tất cả thông tin được cung cấp tới nó Nó xử lý tất cả giá trị sẵn có, ngoại trừ độ sai số, ước lượng giá

trị hiện thời của những giá trị quan tâm: số liệu thống kê về hệ thống nhiễu,

gồm nhiễu ồn, nhiễu do đo đạc và sự không chắc chan trong mô hình hệ thống,

và những thông tin bất kỳ về điều kiện ban đầu của giá trị quan tâm.

Lọc Kalman thực chất là lọc Bayesian mà trong đó sử dụng ưu tiên xử lý xác suất phân bồ tín hiệu, nhiễu Tín hiệu được gia định là quá trình Gaussian — Markov có giá trị trung bình bằng 0; và nhiễu là phân bố Gaussian độc lập giá trị trung bình băng 0 Bộ lọc giải thuyết rằng các tham số về mô hình tín hiệu, nhiễu sinh ra, kênh suy hao đã biết trước.

1.4 Kết luận chương 1

Chương | đã khái quát về cơ sở toán học, giới thiệu tổng quan nhất về

lọc thích nghi, lọc Kalman và các ứng dụng hữu ích của bộ lọc này trong thực

tê Đông thời là tiên đê đê nghiên cứu, tìm hiệu sâu hơn về loc Kalman.

Trang 10

Hình 2.1: Mô hình xứ lý tín hiệu có tính đến sai số

Công thức bộ loc Kalman dựa trên cách tiếp cận trang thái — không gian,

mà trong đó phương trình trạng thái mô hình hóa tính động của quá trình sinh

tín hiệu và một phương trình thu nhận mô hình hóa nhiễu, tín hiệu bị méo quan

sát được [2] Cho một vectơ tín hiệu x(m) và vecto quan sát y(m), phươngtrình mô tả mô hình trạng thái và quan sát thu nhận được là:

x(m) = Ax(m — †1)+ Bu(m) + e(m) (2.1)

y(m) = Hx(m) + n(m) (2.2)

Trong đó :

x(m) : là tín hiệu kích thước P, hay tham số trạng thái vecto tại thời điểm mm

A : là ma trận chuyền trang thái cỡ PxP, liên hệ giữa trạng thái xử lý tại thoi

điểm m vam — 1;

B : ma trận điều khién cỡ PxP, duoc sử dụng trong quá trình điều khiển mô

hình hóa;

u(m) : Dau vào điều khiến, kích cỡ P;

e(m) : Vecto kích thích đầu vào cỡ P của phương trình trạng thái, e(m) tuân

Trang 11

theo dinh luat Gaussian;

n(m) : Vecto nhiễu cỡ M, được hiểu là nhiễu đo đạc; n(m) tuân theo định luật

Gaussian (p(n(m)) ~ N(0,R):

y(m) : vecto cỡ M, tín hiệu nhiễu, méo thu được;

H : Ma trận suy hao kênh cỡ MxP;

Q : Ma trận hiệp phương sai cỡ PxP của e(m);R : Ma trận hiệp phương sai cỡ MxM của n(m).

Ma trận điều khiển B và vecto điều u(m) thường dùng trong các ứng

dụng điều khiển, thường có một đầu vào bên ngoài, để điều chỉnh hệ số x(m).

Trong các ứng dụng xử lý số truyền thông, như cân bằng kênh hay nâng cao chất lượng giọng nói thì không có u(m); và phương trình Kalman rút gọn

x(m) = Ax(m — †) + e(m) (2.3)

y(m) = Hx(m) + n(m) (2.4)

Giải thuật loc Kalman duoc mô tả như sau:Giải thuật loc Kalman

- Pau vào: vectơ thu nhận được {y(m)}

- _ Đầu ra: vectơ tín hiệu trạng thái, hay ước lượng {£(m)}

- _ Điều kiện ban đầu:

Dự đoán ma trận phương sai lỗi:

P(0|—1) = ði (2.5)

Dự đoán:

2(0|—1) = 0 (2.6)

Với m=0, l,

- Cap nhật theo thời gian, xử lý hệ phương trình dự đoánTrạng thái vecto dự đoán:

X(m|m — 1) = A3(m — 1) (2.7) Ma trận phương sai sai số dự đoán:

P(mlm — 1) = AP(m— 1)A + Q (2.8)

Trang 12

- Cap nhật đo đạc, phương trình ước lượng

Vecto khuếch đại Kalman:

Bước (1): Ở trong bước dự đoán: trạng thái tín hiệu được dự đoán từ

trạng thái quan sát được từ trước đó, và một dự đoán ma trận phương sai lỗi thu

được từ phương trình (2.7), (2.8).

Bước (2): Trong bước ước lượng, kết quả từ bước (1), và tín hiệu sai khác (giữa dự đoán và tín hiệu mong muốn) được sử dụng dé ước lượng tín

hiệu Trong bước này, vecto khuếch đại Kalman và ma trận ước lượng phương

sai lỗi được tính toán lại như trong phương trình (2.9), (2.11).

Dự đoán Cập nhật ước lượng

®(m|m — 1) = A®(m - 1) K(m) = P(m|m — 1)HT(HP(m|m — 1) HT + R)”1

P(m|m — 1) = AP(m — 1)AT + Q | #(m) = ®(m|m — 1) + K(m)(y(m) — H®(m|mm — 1))

P(O| — 1) ®(0| — 1) P(m) = [I — KH] P(m|m — 1)

2.2 Tiêu chí đánh giá chất lượng âm thanh số

Trong luận văn này, chúng ta chủ yếu tập trung vào phương pháp đánh giá mang tính khách quan Dựa trên các tham số đặc tính về tần số, biên độ phô, khoảng lặng mà phân loại có các chỉ số đánh giá như sau:

+ Tỉ số tín /tap (SNR):

- SNR phân đoạn (SNRseg);

- SNR trọng số hóa theo dải tần số (ƒwSNRseg); + Phổ tan số:

+ Phổ năng lượng

Ngày đăng: 07/04/2024, 12:20

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w