Với mục đích nghiên cứu và thử nghiệm một kỹ thuật mới dựa trên nền tảng là bộ lọc Kalman, nhằm đưa ra kết quả xử lý tiếng nói cao hơn, trong luận văn này, tác giả đã lựa chọn sử dụng bộ
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
ĐẶNG QUANG HẢI
Hà Nội, 2010
Trang 2MỤC LỤC
trang
DANH SÁCH CÁC HÌNH………4
DANH SÁCH CÁC BẢNG……… 6
LỜI MỞ ĐẦU………7
CHƯƠNG I: ĐẶT VẤN ĐỀ……….9
1.1 Nâng cao chất lượng tiếng nói là gì? 9
1.2 Đánh giá chất lượng của thuật toán nâng cao chất lượng tiếng nói như thế nào? 11
1.2.1 Tỷ số SNR (signal to noise ratio)……… 12
1.2.2 PESQ (Perceptual Evaluation of Speech Quality)………12
1.2.3 Log-Spectral Distortion (LSD)……….13
CHƯƠNG II: CÁC PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI 15
2.1 Các phương pháp thao tác trên miền phổ biên độ……… 15
2.2 Các phương pháp dùng bộ lọc thích nghi ……… 16
2.3 Các phương pháp dùng mô hình tiếng nói ……… 17
2.4 Các phương pháp dùng phân li không gian con ……… 18
2.5 Các phương pháp ước lượng nhiễu ……….18
CHƯƠNG III: MÔ HÌNH HOÁ TÍN HIỆU TIẾNG NÓI VÀ TÍN HIỆU NHIỄU 20
3.1 Tín hiệu tiếng nói và mô hình tiếng nói……… 20
3.1.1 Tín hiệu tiếng nói……….20
Trang 33.1.2 Mô hình tiếng nói……….24
3.1.3 Mô hình kích thích……… 25
3.1.4 Mô hình mở rộng……….26
3.1.5 Mô hình nhiễu……… 27
3.2 Tín hiệu nhiễu………27
3.2.1 Nhiễu và méo dạng tín hiệu……….27
3.2.2 Các loại nhiễu thường gặp……… 28
CHƯƠNG IV: BỘ LỌC KALMAN THÍCH NGHI VÀ ỨNG DỤNG TRONG XỬ LÝ TIẾNG NÓI……….30
4.1 Khái quát về bộ lọc số và lọc thích nghi……… 30
4.1.1 Bộ lọc số……… 30
4.1.2 Bộ lọc thích nghi……… 31
4.2 Bộ lọc Kalman và ứng dụng trong xử lý tiếng nói………34
4.2.1 Lý thuyết chung về bộ lọc Kalman……… 34
4.2.2 Bộ lọc Kalman trong nâng cao chất lượng tiếng nói………40
4.2.2.1 Lọc nhiễu màu………42
4.2.2.2 Bổ sung các vecto trạng thái……… 43
4.2.2.3 Đo sai lệch……… 44
4.2.2.4 Phép lọc Kalman sử dụng băng con……… 46
CHƯƠNG V: CƠ SỞ DỮ LIỆU VÀ THUẬT TOÁN……… 49
5.1 Cơ sở dữ liệu……… 49
5.1.1 NOIZEUS database……… 49
5.1.2 Dữ liệu thực tế (Thu âm trong môi trường thực tế)……….49
Trang 45.2 Chương trình thuật toán……….49
5.2.1 Sơ đồ khối………49
5.2.2 Khối phân chia tín hiệu thành các băng con………51
5.2.3 Khối ước lượng nhiễu……… 60
5.2.4 Khối ước lượng các thông số của mô hình tiếng nói……… 61
5.2.5 Khối sử dụng mô hình tiếng nói ước lượng để khôi phục tiếng nói sạch dùng bộ lọc Kalman……… 61
CHƯƠNG VI: KẾT QUẢ, ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN ………62
TÀI LIỆU THAM KHẢO………67
Trang 5DANH SÁCH CÁC HÌNH
Hình 1.1: Các phương pháp nâng cao chất lượng tiếng nói………10
Hình 1.2: Tỷ số tín hiệu trên nhiễu………12
Hình 2.1 : Phương pháp trừ phổ kinh điển……….15
Hình 2.2: Hệ thống nâng cao chất lượng tiếng nói sử dụng một microphone……….16
Hình 3.1 : Mô hình tạo ra tiếng nói……… 21
Hình 3.2: Ảnh phổ tiếng nói của một phụ nữ phát âm cụm từ “ Argue history”……23
Hình 3.3: Ảnh phổ của tín hiệu kích thích thu được từ quá trình lọc đảo LPC tín hiệu
tiếng nói trong hình 3.2……… 24
Hình 3.4: Nhiễu trắng……….29
Hình 3.5: Nhiễu không ổn định……….29
Hình 4.1: Mô hình bộ lọc số……… 30
Hình 4.2: Mô hình lọc nhiễu của bộ lọc thích nghi……… 33
Hình 4.3: Vòng quay liên tục của bộ lọc Kalman rời rạc……… 38
Hình 4.4: Hoạt động của lọc Kalman……….39
Hình 4.5 : Mô hình hệ thống tuyến tính động………40
Hình 4.6: Quá trình lọc Kalman……… 42
Hình 4.7: Quá trình lọc Kalman trên băng con………47
Hình 4.8 : Quá trình ước lượng thông số mô hình tiếng nói……… 47
Hình 4.9 : Thuật toán phát triển tiếng nói sử dụng bộ lọc Kalman……… 48
Hình 5.1: Sơ đồ nguyên lí chung của thuật toán……… 50
Hình 5.2: Cấu trúc băng lọc phân tích……….51
Hình 5.3 : Cấu trúc phần bộ lọc trong băng lọc phân tích……… 52
Trang 6Hình 5.4 : Cấu trúc bộ phân chia trong băng lọc phân tích……… 53
Hình 5.5: Đáp ứng xung của h(n)………54
Hình 5.6: Dải thông của h(n)………54
Hình 5.7: Dải thông của các bộ lọc Hi(ejw) trường hợp lý tưởng (a) Và thực tế đạt được (b)H1(ejw)÷H7(ejw)………55
Hình 5.8: Cấu trúc của bộ lọc tổng hợp……….57
Hình 5.9: Phép nội suy hệ số 2……….57
Hình 5.10: Hiện tượng tạo ảnh trong bộ nội suy……….58
Hình 5.11: Loại bỏ thành phần ảnh phụ trong bộ lọc nội suy………59
Hình 5.12: Ước lượng phổ công suất của nhiễu……… 61
Hình 6.1: Đoạn âm thanh trước (a) và sau (b) khi đưa qua thuật toán………… 64
Trang 7
DANH SÁCH CÁC BẢNG
Bảng 4-1: Các biểu thức Update thời gian lọc Kalman tuyến tính………38 Bảng 4-2: Các biểu thức Update giá trị đo lọc Kalman tuyến tính……… 38 Bảng 5-1: Tỉ số tín hiệu trên nhiễu (SNR) của kết quả sử dụng bộ lọc Kalman…….62 Bảng 5-2: Độ méo của kết quả sử dụng bộ lọc Kalman……….62 Bảng 5-3: Chỉ số điểm PESQ sử dụng bộ lọc Kalman……… 63
Trang 8LỜI MỞ ĐẦU
Trải qua hàng nghìn năm nay việc giao tiếp giữa con người với con người hầu hết là thông qua ngôn ngữ giao tiếp hàng ngày Trong thời đại công nghệ bùng nổ như hiện nay việc giao tiếp giữa con người và con người lại còn được mở rộng trên phương diện người và máy Ở bất kì thời điểm nào thì việc trao đổi thông tin qua ngôn ngữ giao tiếp lời nói giữa người nói và người nghe cũng rất cần thiết và cực
kì quan trọng, đặc biệt là giao tiếp giữa người và máy do có những đặc thù riêng Vấn đề hiểu được thông tin từ phía người nói thông qua ngôn ngữ truyền đạt trong những điều kiện có nhiều trở ngại như tiếng ồn, khó khăn về phần cứng đã và đang được đặt ra trong mấy chục năm trở lại đây Vấn đề nâng cao chất lượng trao đổi thông tin nói chung, và nâng cao chất lượng tiếng nói nói riêng, đã thu hút rất nhiều các nhà nghiên cứu Cải thiện tiếng nói là nâng cao chất lượng của tiếng nói hay tính hiểu được của tiếng nói trong những môi trường có những trở ngại cho việc truyền đạt
Trong những năm gần đây, khái niệm lọc Kalman đã trở nên phổ biến trong lĩnh vực nghiên cứu do đặc tính ước lượng chính xác của nó Các nhà kỹ thuật đã vận dụng những ưu điểm của bộ lọc Kalman nhằm tạo ra những kết quả hữu dụng trong quá trình xử lý tín hiệu tiếng nói Ngày nay, lọc Kalman đã trở thành một kỹ thuật lọc nổi tiếng, đưa ra những đánh giá ước lượng và loại trừ những sai lệch nhiễu dư còn tồn tại trong tiếng nói
Với mục đích nghiên cứu và thử nghiệm một kỹ thuật mới dựa trên nền tảng là
bộ lọc Kalman, nhằm đưa ra kết quả xử lý tiếng nói cao hơn, trong luận văn này, tác giả đã lựa chọn sử dụng bộ lọc thích nghi Kalman, thao tác trong miền không gian trạng thái mô hình tín hiệu tiếng nói và tín hiệu nhiễu, kết hợp với thuật toán ước lượng nhiễu của Doblinger và thuật toán LSL (Least Squares Lattice) ước lượng tham số hồi quy của tiếng nói, để khôi phục tín hiệu tiếng nói gốc từ tín hiệu tiếng nói có nhiễu Chương trình xử lý được chạy thử nghiệm với bộ cơ sở dữ liệu chuẩn NOIZEUS và dữ liệu thu âm thực tế để đưa ra kết quả đánh giá
Trang 9Để hoàn thành luận văn này, ngoài những nỗ lực cố gắng của bản thân, phải kể đến sự chỉ dẫn tận tình của giáo viên hướng dẫn – TS Nguyễn Quốc Cường, sự trao đổi kiến thức giúp đỡ của bạn bè, cùng sự hỗ trợ động viên từ phía gia đình trong suốt thời gian qua Em xin chân thành cảm ơn thầy, bạn bè và gia đình !
Hà Nội, ngày tháng năm 2010
Đặng Quang Hải
Trang 10
CHƯƠNG I: ĐẶT VẤN ĐỀ
1.1 Nâng cao chất lượng tiếng nói là gì?
Nhiễu có mặt ở mọi nơi và trong hầu hết các ứng dụng liên quan đến xử lí âm thanh và tiếng nói, ví dụ như các hệ thống giao tiếp người - máy, các hệ thống giao tiếp “hand-free”, các hệ thống VoiIP, các máy trợ thính, các hệ thống hội thảo trực tuyến, phòng thí nghiệm trực tuyến, và rất nhiều các hệ thống khác nữa Các tín hiệu
mà chúng ta quan tâm thông thường ở đây là tiếng nói trước khi đưa đến các microphone, trong đó thường tồn tại nhiễu làm giảm chất lượng của tiếng nói Do đó, các tín hiệu tiếng nói đến microphone cần phải được loại bỏ nhiễu và nâng cao chất lượng (bằng các công cụ xử lí tín hiệu) trước khi được lưu trữ, phân tích, truyền phát, hoặc phát lại Các quá trình loại bỏ nhiễu thường được gọi là “giảm nhiễu” (noise reduction) Vấn đề giảm nhiễu đã thu hút được một lượng lớn các nhà nghiên cứu trong hàng chục năm qua và đã đạt được những kết quả nhất định
Giảm nhiễu hay nâng cao chất lượng tiếng nói có thể nói là như nhau Cả hai khái niệm này đều chỉ đến một phương pháp loại bỏ các thành phần làm suy giảm chất lượng của tiếng nói, mà cụ thể ở đây là nhiễu hay tiếng ồn, để từ đó nâng cao được tính hiểu được của tiếng nói và chất lượng của tiếng nói
Nâng cao chất lượng tiếng nói trong các môi trường có tiếng ồn (ví dụ như: trên đường phố, trong ô tô, tàu hỏa, sân bay hay nhiễu ở các môi trường có đông người), việc cải thiện chất lượng và tính hiểu được của tiếng nói sẽ làm giảm những khó khăn gặp phải trong giao tiếp bằng tiếng nói
Hiện nay có rất nhiều phương pháp để nâng cao chất lượng tiếng nói, đồng thời cũng có nhiều cách đánh giá các phương pháp đó Do đó, khó có thể đưa ra một nhận định chính xác, toàn diện rằng phương pháp nào tốt hơn phương pháp nào Các kỹ thuật nâng cao chất lượng tiếng nói có thể chia đơn giản theo số lượng sử dụng các microphone: loại sử dụng một microphone, loại sử dụng hai microphone và loại sử dụng mảng microphone
Trang 11Hình 1.1: Các phương pháp nâng cao chất lượng tiếng nói
Ưu điểm của các phương pháp sử dụng một microphone là đơn giản, dễ thực hiện về mặt phần cứng do chỉ cần đặt trực tiếp microphone vào gần nguồn tín hiệu Ngược lại, nhược điểm của phương pháp sử dụng một microphone là chất lượng bị hạn chế Các phương pháp nâng cao chất lượng tiếng nói sử dụng nhiều microphone cho kết quả tốt hơn, tuy nhiên việc triển khai là khó hơn
Ở trong bài luận văn này em chỉ sử dụng phương pháp nâng cao chất lượng tiếng nói sử dụng một microphone do tính đơn giản của nó trong việc triển khai và lắp đặt
Các hệ thống nâng cao chất lượng tiếng nói như đã nói ở trên được ứng dụng rất nhiều trong các hệ thống liên quan đến âm thanh, mà cụ thể ở đây là tiếng nói nhằm cải thiện chất lượng của hệ thống như: hệ thống giao tiếp người - máy, hệ thống nhận
Các phương pháp nâng cao chất lượng tiếng nói
mô hình dựa trên Phân tích- Tổng hợp
Các
bộ giải
mã đưa
ra mô hình thống
kê của tín hiệu
và nhiễu
Các phương pháp
sử dụng một sensor Các phương pháp sử
dụng nhiều sensor
Trang 12dạng tiếng nói tự động, hệ thống hội thảo trực tuyến hay các phòng thí nghiệm trực tuyến… Hệ thống nâng cao chất lượng tiếng nói cũng được sử dụng phục vụ cho các ứng dụng dân dụng như trong các máy trợ thính nhằm hỗ trợ cho những người bị hạn chế về khả năng nghe Đối với các hệ thống nhận dạng tiếng nói, nếu trong môi trường không có nhiễu thì hệ thống hoạt động với chất lượng rất cao, tuy nhiên trong những môi trường có tiếng ồn thì chất lượng hệ thống lại giảm mạnh Trong các hệ thống hội thảo trực tuyến hay các phòng thí nghiệm trực tuyến, thì tiếng nói thường được mã hóa trước khi gửi đi Tuy nhiên, do dung lượng đường truyền có hạn, và nếu như trong trường hợp không có tiếng nói thì hệ thống vẫn hoạt động do có sự tồn tại của nhiễu tiếng ồn, điều đó dẫn đến gây lãng phí cho hệ thống Các hệ thống nâng cao chất lượng (hay giảm nhiễu) có thể được sử dụng trước khâu mã hóa tiếng nói để nhằm tiết kiệm dung lượng đường truyền Có thể nói các hệ thống nâng cao chất lượng tiếng nói có một phạm vi ứng dụng rất lớn, do đó việc nghiên cứu, phát triển và đưa vào khai thác các hệ thống này là cần thiết
1.2 Đánh giá chất lượng của thuật toán nâng cao chất lượng tiếng nói như thế nào?
Để đánh giá chất lượng của các hệ thống cải thiện tiếng nói hầu hết là dựa vào việc đánh giá chất lượng của tiếng nói sau khi đã được xử lí bởi các hệ thống Một yếu
tố cũng quan trọng không kém trong việc đánh giá chất lượng của các hệ thống cải thiện tiếng nói đó là tính đáp ứng thời gian thực của hệ thống Chỉ riêng việc đánh giá chất lượng của tiếng nói sau khi xử lí cũng đã có rất nhiều tiêu chí đánh giá Nhưng tựu chung lại thì tiếng nói có thể được đánh giá dựa trên tính hiểu được của tiếng nói (Inteligibility) và chất lượng tổng thể của tiếng nói (speech quality)
Trong luận văn này, tôi sử dụng một số phương pháp đánh giá chủ quan được
sử dụng nhiều trong những năm gần đây, đó là:
- Tỷ số tín hiệu trên nhiễu (SNR: Signal to Noise Ratio)
- Thông số ước lượng bằng cảm nhận chất lượng tiếng nói (PESQ: Perceptual Evaluation of Speech Quality )
- Logarit méo dạng phổ (LSD: Log-Spectral Distortion)
Trang 131.2.1 Tỷ số SNR (signal to noise ratio)
Tỷ số SNR là tỉ số được tính giữa công suất tín hiệu đầu vào với công suất của nhiễu dư trên thang dB
Trong đó : x(in) : tín hiệu đầu vào
khi đã qua xử lý) (giá trị bình phương thể hiện công suất của tín hiệu)
Hình 1 2: Tỷ số tín hiệu trên nhiễu
Dựa vào tỷ số SNR, chúng ta có thể đánh giá được chất lượng của hệ thống nâng cao chất lượng tiếng nói: Nếu SNR lớn thì lượng nhiễu trong tín hiệu sau khi được xử lý qua hệ thống đã được làm giảm nhiều (tương ứng với công suất nhiễu thấp), chứng tỏ hệ thống hoạt động đạt chất lượng tốt, và ngược lại
1.2.2 PESQ (Perceptual Evaluation of Speech Quality: đánh giá chất lượng tiếng nói qua cảm nhận) [12]
tiếng nói Về cơ bản, PESQ dự đoán các kết quả MOS khách quan thông qua việc so sánh các quá trình ghi âm tiếng nói được truyền dẫn qua mạng dưới phép kiểm tra (ví
dụ, các file tiếng nói ‘đã được xử lý’), với các bản nguyên gốc của tiến trình ghi âm tiếng nói đã được xem là đầu vào của mạng truyền dẫn dưới phép kiểm tra (ví dụ, các file tiếng nói ‘có nhiễu’)
Trang 14Điều quan trọng cần lưu ý là PESQ chỉ đo tính toán trên phương diện chất lượng truyền dẫn Khuyến nghị ITU-T P.862 đã diễn tả như sau: “nên chú ý rằng thuật toán PESQ không cung cấp một đánh giá bao hàm của chất lượng truyền dẫn Nó chỉ thực hiện tính toán các ảnh hưởng của méo tiếng nói một đường và nhiễu trên chất lượng tiếng nói Các ảnh hưởng của sự suy giảm cường độ âm, độ trễ, nội âm, tiếng vang, và những hiện tượng suy giảm khác liên quan tới sự tương tác hai đường (ví dụ,
bộ hạn chế trung tâm) không được phản ánh trong các kết quả PESQ Do đó, có thể đạt được các kết quả PESQ cao, nhưng xét tổng thể thì chất lượng kết nối lại thấp”
PESQ được suy ra từ việc dự đoán các kết quả trung bình ý kiến (MOS: Mean Opinion Scores) của chất lượng mạng đầu cuối tới đầu cuối cũng như đánh giá từ bảng điều khiển của những người nghe Mỗi người nghe sẽ đánh giá ‘chất lượng của kết nối’ thông qua việc chọn lựa một trong các chọn lựa: ‘tồi’, ‘xấu’, ‘bình thường’, ‘tốt’,
‘tuyệt hảo’ Các chọn lựa này được đánh số tương ứng từ 1 đến 5, và trung bình của các con số này sẽ mô tả giá trị MOS Ví dụ, một hệ thống với kết quả MOS là 3.2 có nghĩa là ‘bình thường’
Kể từ khi PESQ được giả định từ phép đo MOS, thì độ chính xác của thuật toán PESQ được xác định thông qua so sánh PESQ với các kết quả MOS Ví dụ, giả định MOS cho một mạng kết nối đặc biệt là 3.2 Nếu thuật toán PESQ là chính xác thì kết quả PESQ sau đó sẽ rất gần với giá trị 3.2 Nói cách khác, các kết quả PESQ không gần với giá trị 3.2 sẽ chỉ ra rằng thuật toán PESQ không chính xác Bằng việc so sánh các kết quả MOS dự đoán và quan sát được thông qua nhiều kết nối mạng lưới, độ chính xác của thuật toán PESQ có thể được ước lượng
1.2.3 Log-Spectral Distortion (LSD)
Logarit méo dạng phổ (hay còn được gọi là logarit khoảng cách phổ
(log-spectral distance) là một phép đo khoảng cách (trên thang dB) giữa hai quang phổ
Trang 15Một thuật toán nâng cao chất lượng tiếng nói được cho là tốt nếu nó thỏa mãn đồng thời cả ba tiêu chí : chỉ số tín hiệu trên nhiễu phân đoạn lớn, độ méo trên thang logarithm nhỏ, và chỉ số PESQ là cao Ngoài ra, còn có một số tiêu chí đánh giá dựa vào tăng tỉ lệ nhận dạng ở các hệ thống nhận dạng tiếng nói tự động
Trang 16CHƯƠNG II: CÁC PHƯƠNG PHÁP NÂNG CAO
CHẤT LƯỢNG TIẾNG NÓI
Hiện nay trên thế giới có rất nhiều các phương pháp nâng cao chất lượng tiếng nói,
và cũng có rất nhiều các phương pháp hay tiêu chuẩn để đánh giá chúng Trong các phương pháp nâng cao chất lượng tiếng nói sử dụng một microphone có thể chia thành các nhóm phương pháp sau đây: [16]
1 Nhóm các phương pháp thao tác trên miền phổ biên độ của tín hiệu,
2 Nhóm các phương pháp sử dụng bộ lọc thích nghi,
3 Nhóm các phương pháp sử dụng phân li trong không gian con,
4 Nhóm các phương pháp sử dụng sử dụng mô hình của tiếng nói
Tuy nhiên giữa các nhóm phương pháp không phải tồn tại độc lập mà có thể kết hợp với nhau
2.1 Các phương pháp thao tác trên miền phổ biên độ [16]
Nhóm các phương pháp này trước tiên giả thiết rằng phổ pha của tín hiệu không
bị ảnh hưởng bởi phổ pha của nhiễu do đó có thể lấy phổ pha của nhiễu để làm phổ pha của tín hiệu tiếng nói sạch Về cơ bản ý tưởng của phương pháp này đó là xác định phổ năng lượng của tín hiệu nhiễu sau đó phổ năng lượng của tín hiệu sạch được tính bằng cách lấy phổ năng lượng của tín hiệu có nhiễu trừ đi phổ năng lượng của tín hiệu nhiễu Có thể được mô tả như ở hình vẽ dưới
Hình 2.1 : Phương pháp trừ phổ kinh điển
Spectral subbtraction
Noise estimation
Trang 17Ưu điểm của phương pháp trừ phổ đó là việc thực hiện đơn giản Tuy nhiên nhược điểm của phương pháp trừ phổ đó chính là do quá trình ước lượng nhiễu không được chính xác dẫn đến hiện tượng “musical noise”
Một phương pháp nâng cao chất lượng tiếng nói khác cũng được nhắc đến nhiều đó là phương pháp cực tiểu hóa trung bình bình phương sai lệch giữa biên độ tín hiệu tiếng nói thực và biên độ tiếng nói được ước lượng Phương pháp này cho kết quả tốt hơn và loại bỏ hiện tượng “musical noise” và méo tiếng nói
Những phương pháp thao tác trên miền phổ biên độ thường kết hợp với các phương pháp ước lượng nhiễu để đạt được kết qua cao hơn Các phương pháp ước lượng nhiễu ở đây bao gồm phương pháp ước lượng nhiễu thống kế cực tiểu (minimim stastistic) và phương pháp ước lượng nhiễu theo trung bình đệ quy cực tiểu có điều khiển (minimal controller recursive averaging)
2.2 Các phương pháp sử dụng bộ lọc thích nghi [16]
Nhóm các phương pháp sử dụng bộ lọc thích nghi có thể được sử dụng để xác định các thành phần của tiếng nói mà có tương quan với các tín hiệu tiếng nói ở frame trước Nhìn chung cấu trúc của một hệ thống nâng cao chất lượng tiếng nói sử dụng một microphone có dạng như hình vẽ phía dưới
Hình 2.2: Hệ thống nâng cao chất lượng tiếng nói sử dụng một microphone
Tín hiệu tiếng nói có nhiễu x(n) được lấy trể đi D mẫu và được đưa qua bộ lọc
để đạt được tín hiệu y(n) Tin hiệu y(n) sau đó được trừ đi x(n) để tạo ra tín hiệu sai lệch e(n) Đáp ứng bộ lọc được điểu chỉnh để theo đường những phản hồi để làm giảm công suất tín hiệu sai lệch e(n) và đầu ra của bộ lọc được coi như là tổng hợp của tín
Trang 18hiệu sai lệch e(n) và tín hiệu đầu ra của bộ lọc y(n) theo nguyên tắc nếu có những thành phần điều hòa hay tiếng nói thì được tăng cường, ngược lại thì loại bỏ Với tín hiệu đầu vào x(n) là ổn định, đáp ứng xung w(n) của bộ lọc mà cực tiểu hóa tín hiệu sai lệch được xác định như sau:
của bộ lọc xấp xỉ bằng nghịch đảo chiều dài đáp ứng xung của nó
Bộ lọc thích nghi thường hầu hết được thực hiện bằng cách sử dụng thuật thoán LMS hoặc thuật toán bước giảm cực đại NLMS Thuật toán LMS và NLMS có thể thể cải thiện được các hệ thống trong trường hợp đầu vào của hệ thống là không ổn định ví
dụ như là tiếng nói
Việc sử dụng bộ lọc thích nghi đề giảm nhiễu lần đầu tiên được đưa ra bởi Widrow [1] Mặc dù các lí thuyết chính được đưa ra là bộ lọc 2 kênh, trong đó việc tách nhiễu ra khỏi tiếng nói chuẩn là đã có sẵn Sự phức tạp của việc sử dụng bộ lọc thích nghi một kênh cho các hệ thống nâng cao chất lượng tiếng nói đó là cả cả thành phần dải rộng và điều hòa đều tồn tại trong nhiễu và tiếng nói Do đó cần thiết phải có
sự chọn lọc các thông số của bộ lọc thích nghi một cách cần thận để chỉ tăng cường thành phần mong muốn
2.3 Các phương pháp sử dụng mô hình của tiếng nói [16]
Các phương pháp nâng cao chất lượng tiếng nói sử dụng mô hình tiếng nói lợi dụng các thông tin tiên nghiệm về mô hình ngẫu nhiên rõ ràng của tiếng nói và trong một số trường hợp là cả của nhiễu Một số các mô hình khác của tiếng nói hiện có sẵn bao gồm một số kết hợp với mô hình tự hồi quy của tiếng nói (autoregressive), mô hình các hệ số cepstral, mô hình Markov ẩn, mô hình bám theo pitch
Các phương pháp dựa vào mô hình tiếng nói nhìn chung không có ràng buộc so với tính ổn định của các hệ số hồi quy ước lượng Trong các ứng dụng mã hóa tiếng nói, tuy nhiên, các ràng buộc là không có khả năng bất biến để cho phép các giá trị hệ
số bằng phép biến đổi chúng trong miền LSP trước khi lượng tử hóa (ITU-T, 1993a)
Trang 192.4 Các phương pháp phân li trong không gian con [16]
Mô hình âm học của hệ thống ống dẫn thanh của người nói thông thường được
sử dụng rộng rãi như là mô hình của một quá trình tự hồi quy (AR) Mô hình này được coi như là bất biến trong khoảng thời gian khoảng 20ms Kết quả của phương pháp này
đó là các mẫu tiếng nói trong một frame với chiều dài nằm trong bậc của không gian con; theo đó mục đích của các phương pháp nâng cao chất lượng tiếng nói sử dụng cách thức phân li trong không gian con Phương pháp đầu tiên được đưa ra bởi Dendrinos và sau đó được Ephraim, Van Trees phát triển, việc sử dụng tách các véc tơ đặc trưng của ma trận hiệp phương sai của tín hiệu tiếng nói đầu vào được xác định trong không gian con của tín hiệu Phương pháp này giả thiết rằng nhiễu là trắng và như thế ma trận hiệp phương sai của tín hiệu tiếng nói có nhiễu do đó phù hợp với tổng của ma trận bậc thấp xuất hiện từ tiếng nói và một thừa số của một ma trận xác định xuất hiện trong nhiễu Phép ước lượng tuyến tính của tiếng nói ở đây là cực tiểu
độ méo của tiếng nói để ràng buộc với công suất của nhiễu hoặc là trong miền thời gian hoặc là trong miền tần số
Một phương pháp được đưa ra bởi Loizou để làm giảm nhiễu màu đó là trong
đó một phép biến đổi không trực giao được sử dụng để tách mà trận hiệp phương sai của nhiễu và tiếng nói Phương pháp này sau đó được xem xét lại bởi Lev-Ari và Ephraim
2.5 Các phương pháp ước lượng nhiễu [16]
Vấn đề sử dụng cực tiểu hoá thống kê cho quá trình ước lượng nhiễu được giới thiệu trong Martin năm 1994 và được mở rộng năm 2001 Giả định rằng trong các miền tần số xuất hiện những khoảng mà năng lượng tín hiệu nhỏ và mức năng lượng này sau đó sẽ bị ảnh hưởng chi phối bởi nhiễu Nếu những xuất hiện này xảy ra ít nhất một lần trong khoảng thời gian T, chúng ta có thể đánh giá năng lượng nhiễu như là mức năng lượng nhỏ nhất xuất hiện trong khoảng thời gian T trong quá khứ (thông thường từ 0.5 đến 1.5s) Trong Martin [2001] hệ số bù cố định sử dụng trong thuật toán gốc được thay thế bằng một hệ số biến thiên theo thời gian và tần số Một phương pháp tương tự là sử dụng trong Doblinger [1995] nhưng thay vì đưa ra một giá trị cực tiểu trên miền thời gian T, phổ tín hiệu tiếng nói có nhiễu được làm trơn sử dụng hai
Trang 20hằng số thời gian khác nhau, một hằng số thời gian ngắn được sử dụng khi năng lượng trong một khoảng tần số giảm dần nhằm đảm bảo tính thích ứng nhanh với một giá trị cực tiểu mới, trong khi một hằng số thời gian dài được sử dụng khi năng lượng tăng nhằm chống lại sự thích ứng với năng lượng tín hiệu tiếng nói Phương pháp này đạt hiệu quả trong tính toán nhưng khi tính đến quá trình thực hiện thì nó không được đánh giá cao so với phương pháp cực tiểu hoá thống kê, bởi việc chọn lựa hằng số thời gian dài là một sự thoả hiệp giữa đáp ứng của những gia tăng đột biến trong tín hiệu nhiễu và những cản trở năng lượng tín hiệu tiếng nói từ quá trình điều chỉnh năng lượng nhiễu đã ước lượng
Qua cái nhìn tổng quan trên, chúng ta có thể thấy mỗi nhóm phương pháp đều
có những ưu nhược điểm riêng, từ phương pháp kinh điển nhất là phương pháp trừ phổ với thuật toán đơn giản, dễ cài đặt nhưng kết quả thu được không cao (tỷ số SNR thấp), đồng thời tạo ra một loại nhiễu mới - ‘musical noise’, cho tới những phương pháp được phát triển về sau này đều gặp phải những hạn chế nhất định, (ví dụ như: phương pháp lọc Wiener thực hiện khá tốt với việc loại bỏ nhiễu dư trong trường hợp nhiễu là ổn định (nhiễu trắng), tuy nhiên với trường hợp nhiễu không ổn định, thì ngoài việc lọc bỏ nhiễu dư, bộ lọc Wiener còn làm mất cả thành phần tiếng nói ….)
Với mục đích nghiên cứu và thử nghiệm một kỹ thuật tổng hợp nhằm đưa ra kết quả xử lý tiếng nói cao hơn, trong luận văn này, em lựa chọn sử dụng bộ lọc thích nghi Kalman, thao tác trong miền không gian trạng thái mô hình tín hiệu tiếng nói và tín hiệu nhiễu, kết hợp với thuật toán ước lượng nhiễu của Doblinger và thuật toán LSL (Least Squares Lattice) ước lượng tham số hồi quy của tiếng nói, để khôi phục tín hiệu tiếng nói gốc từ tín hiệu tiếng nói có nhiễu Chương trình xử lý được chạy thử nghiệm với bộ cơ sở dữ liệu chuẩn NOIZEUS và dữ liệu thu âm thực tế để đưa ra kết quả đánh giá
Các chương tiếp sau đây sẽ lần lượt làm rõ từng vấn đề lý thuyết được sử dụng
để xây dựng thuật toán lọc Kalman thích nghi trong xử lý tiếng nói
Trang 21
CHƯƠNG III: MÔ HÌNH HOÁ TÍN HIỆU TIẾNG NÓI VÀ TÍN HIỆU NHIỄU
Trong chương này, em xin trình bày những phần sau đây:
- Giới thiệu về tín hiệu tiếng nói và mô hình tiếng nói
- Giới thiệu về các loại nhiễu
3.1 Tín hiệu tiếng nói và mô hình tín hiệu tiếng nói
Chúng ta xem xét vấn đề phát triển tiếng nói sử dụng bộ lọc Kalman Quá trình lọc Kalman là một mô hình có tham số dựa trên thuật toán ước lượng Do đó, chúng ta
sẽ xây dựng các mô hình tín hiệu thích hợp liên quan đến hệ thống phát triển tiếng nói
In chương này, các mô hình số cho tín hiệu tiếng nói và tín hiệu nhiễu sẽ lần lượt được giới thiệu Sau đó, biểu thức toán học của bộ lọc Kalman được phân theo nhóm các biến trạng thái, các mô hình tín hiệu được công thức hoá trong không gian trạng thái
3.1.1 Tín hiệu tiếng nói
Các biểu diễn dạng số của tín hiệu tiếng nói thu được từ quá trình mô hình hoá thích hợp của quá trình sinh học tạo ra tiếng nói Cách tổ chức của quá trình tạo ra tiếng nói được sắp xếp theo hai bước cơ bản: kích thích và chuyển giọng Sự kích thích
là lực không khí tác động thông qua thanh môn, bộ phận sau đó sẽ tạo ra vùng phát âm
để phát ra tiếng nói Với những dạng âm thanh khác nhau, kích thích thanh môn và vùng phát âm sẽ có những đặc tính khác nhau Có một cách phân loại cơ bản giữa âm hữu thanh và âm vô thanh Cách phân loại này được sử dụng rộng rãi trong rất nhiều
kỹ thuật xử lý tiếng nói và nó cũng hữu ích cho mục đích nghiên cứu của chúng ta Mô hình bộ lọc nguồn tín hiệu tiếng nói cũng được dựa trên cách phân loại này Sơ đồ khối của mô hình được chỉ ra trong hình dưới
Trang 22Hình 3.1 : Mô hình tạo ra tiếng nói [3]
Quá trình kích thích tạo ra hai trạng thái của âm hữu thanh và âm vô thanh Với các âm hữu thanh, thanh môn tạo ra những xung trong không khí gần như là chu kỳ với dao động của các dây thanh âm Mô hình số cho kích thích hữu thanh do đó sẽ là một chuỗi xung có chu kỳ được điều chỉnh cho phù hợp với mô hình của xung thanh môn Với các âm vô thanh, không khí được tạo áp lực trực tiếp từ các lá phổi tới vùng phát âm Một nhiễu ngẫu nhiên cũng đủ cho kiểu kích thích này Do vậy, tín hiệu kích thích có thể được viết như sau:
) ( )
(
n d
p n g n
e
d
định là không đổi trong những khoảng thời gian ngắn), d(n) là biến đơn vị trung bình zero của nhiễu Gauss trắng
Vùng phát âm là một hệ thống biến thiên chậm, do đó một mô hình đơn có thể
sử dụng cho cả âm hữu thanh và âm vô thanh Mô hình ống không tổn hao mô tả vùng phát âm như là sự kết hợp p vùng nối liền nhau, là một mô hình chấp nhận được về mặt sinh học Sự kích thích được giả định thành hình thông qua những ống này đề tạo
với tín nói hữu thanh với tiếng nói vô thanh
Trang 23ra tiếng nói cuối cùng Những ống không tổn hao này mô tả cùng với một bộ lọc nhiều điểm cực biến thiên theo thời gian
p
p z z
G z
+ + +
=
α
α
1 )
n s
1
) ( ) ( ) ( )
Trong đó: a k = −αk với k=1…p
Nhiều thuật toán phát triển tiếng nói được phát triển dựa trên thiết lập bộ lọc Kalman xấp xỉ tín hiệu kích thích với nhiễu Sự xấp xỉ này tạo ra các kết quả phù hợp cho tiếng nói vô thanh Nhưng ngược lại, với tiếng nói hữu thanh, sai lệch của quá trình mô hình hoá làm xấu đi các kết quả của việc nâng cao chất lượng Thuật toán được đề xuất giả định một kích thích cố định và nó tạo ra thúc đẩy cơ bản cho tiến trình này
) ( )
( )
d
d
được các đặc tính pha trộn giữa hữu thanh – vô thanh của tiếng nói
Mô hình theo biểu thức (3.4) dựa trên giả định rằng tiếng nói là không đổi trên toàn phổ Tuy nhiên giả định này không hợp lý Trong quá trình phục hồi các thành phần điều hoà trong vùng có tiếng nói, hướng tiếp cận này đã đưa ra một số thành phần điều hoà phụ trội bổ sung Nói cách khác, tiếng nói hữu thanh (thực tế cũng chứa các đặc tính trội vô thanh trong một vài dải tần số) được tái tạo lại như một tín hiệu hoàn toàn có tính chu kỳ Với động cơ nhằm xoá bỏ nhược điểm này, mục tiêu chính
Trang 24nghiên cứu trong luận văn này là mô hình tiếng nói có kích thích đa dải Tín hiệu kích thích sẽ được mô hình hoá như là một sự kết hợp M tín hiệu subband (băng con), mỗi subband này được định nghĩa như trong biểu thức (3.4)
) (
) ( ) ( )
) ( ) (
)
e i = ni i − in +σi với i = 1…M (3.6)
Trong đó d(n) được định nghĩa như một nhiễu trắng Gauss trung bình 0 phương
Kích thích được mô tả như một sự pha trộn giữa tín hiệu chu kỳ và nhiễu, với tỷ lệ pha trộn được tính toán tách biệt trên những dải tần khác nhau Kể từ thời điểm các đặc tính âm thanh của một đoạn tiếng nói biến thiên qua dải tần số, một phép phân tích giọng nói ở dải thông sẽ được tiến hành Thông tin mang tính chu kỳ của mỗi kích
hoặc bằng thành phần điều hoà nhỏ nhất của chu kỳ pitch bên trong dải Kỹ thuật mã hoá tiếng nói hiện thời cũng khuyến khích sử dụng phân tích giọng nói dải thông nhằm nâng cao chất lượng tiếng nói Điều cần thiết cho phép phân tích giọng nói dải thông cũng có thể nhìn thấy rõ trong hình 3.3 Tín hiệu kích thích khi xem xét trên các băng khác nhau sẽ có các đặc tính khác nhau Trong một vài khoảng thời gian cố định, đặc tính mang tính chu kỳ sẽ nổi bật trong một số băng, trong khi ở một số băng khác thành phần nhiễu chiếm ưu thế hơn hẳn về tính chu kỳ
Hình 3.2: Ảnh phổ tiếng nói của một phụ nữ phát âm cụm từ “ Argue history” [3]
Trang 25Chúng ta nghiên cứu thuật toán phát triển dựa trên quá trình lọc Kalman, do đó
ở phần tiếp theo, chúng ta sẽ biểu thức hoá mô hình mục tiêu theo các biến không gian trạng thái
3.1.2 Mô hình tiếng nói
Vectơ trạng thái cho tín hiệu tiếng nói được xây dựng từ p mẫu trước đó (trong quá khứ) của tiếng nói
) ( ) 1 ( ) ( )
) ( )
0 0
0 0
1 0
0 0
0 1
) ( ) ( )
( ) ( ) (
1 2
1
Λ
Λ Λ
Ο Λ Λ
Λ Λ
n a n a s F
p p
Hình 3.3: Ảnh phổ của tín hiệu kích thích thu được từ quá trình lọc đảo LPC tín hiệu
tiếng nói trong hình 3.2
Trang 263.1.3 Mô hình kích thích
Kích thích được mô hình hoá như là sự kết hợp M tín hiệu băng con, do đó mỗi
kích thích băng con sẽ được công thức hoá với một mô hình tự hồi quy (AR:
i
i n b n l e n l d n e
1
) ( ) ( ) , ( )
i
k l n
Vectơ trạng thái cho mỗi kích thích băng con được tạo ra từ q mẫu trước đó:
i i
i
ei n e n e n e n q
x ( ) = ( ) ( − 1 ) ( − + 1 )
Cũng như với vectơ trạng thái của kích thích toàn băng, mỗi vectơ kích thích
băng con có thể gia tăng lượng vectơ trạng thái trên mỗi băng Nhưng điều này sẽ tạo
yêu cầu tính toán Chúng ta sẽ làm đơn giản hoá mô hình này bằng cách sử dụng các
bộ lọc FIR trong khi phân tích băng con
hiệu băng thứ i th
) (
) 1 ( )
e i = i − + + iN − với i = 1…M (3.13)
viết lại biểu thức (3.13) trong (3.11) với lưu ý đặc tính của b i( )n, l trong biểu
thức (3.12), chúng ta có thể viết theo nhóm các kích thích băng con của kích thích toàn
băng như sau:
) ( ) ( ) , ( )
(
1
n d l n e l n f n
l i
i = ∑+ − +σ
=
với i = 1…M (3.14) nếu l= p in
nếu l≠ p in
Trang 27Trong đó : f i( )n, l được định nghĩa như sau:
n
băng con, viết lại biểu thức (3.14) trong (3.15)
M
i i
i n l e n l d n f
n e
) ( )
( ) , ( )
Mô hình không gian trạng thái cho tín hiệu kích thích với bậc được làm giảm, trong đó vectơ trạng thái là (N+q) mẫu trước đó, được mô tả như sau:
) ( ) ( ) 1 ( ) ( )
x e = e e − + e (3.17)
) ( )
e = e e (3.18) Trong đó:
0 1
0 0
0 0
1 0
0 0
0 1
) ( )
( )
( )
(
)
(
1 2
1
Λ
Λ Λ
Ο Λ Λ
Λ Λ
n k n
k
n
F
q N q
) 1 (
0 )
(
) 1 ( ) ( 0
) ( )
( )
=
n x
n x n F
n D D n F n
x
n
x
x q N
M
i i px e
s e
T e s s
) 1 (
) ( 0
1
)
n x
n x n
s
e
s q
N
nếu l= p in
nếu l≠ p in
Trang 28Theo đó tín hiệu tiếng nói được giả định được tạo ra với mô hình này, và thuật toán phát triển tiếng nói chúng ta nghiên cứu sẽ dựa trên giả thuyết này
(
1
n w k n v n c n
k k
3.2 Tín hiệu nhiễu
3.2.1 Nhiễu và méo dạng tín hiệu
Nhiễu có thể được định nghĩa như là một tín hiệu không mong muốn xâm nhập vào
hệ thống thông tin, đo lường hay bất kỳ một tín hiệu nào khác Nhiễu hiện diện rất nhiều trong đời sống của chúng ta Có rất nhiều loại nhiễu làm suy giảm chất lượng của thông tin, chẳng hạn như nhiễu về âm thanh (acoutics noise), nhiễu nhiệt (thermal noise), nhiễu hệ thống, can nhiễu, nhiễu trắng, nhiễu xung…
Nhiễu cũng có thể là nguyên nhân làm cho hệ thống truyền tin bị lỗi và có thể là nguyên nhân phá vỡ hệ thống truyền thông Do vậy mà việc xử lý nhiễu là một phần rất quan trọng trong hệ thống viễn thông và xử lý tín hiệu hiện đại
Méo dạng tín hiệu là từ dùng để chỉ sự thay đổi mang tính hệ thống không mong muốn của tín hiệu mà nguyên nhân là do đặc điểm không lý tưởng của đường truyền,
sự phản xạ và sự thiếu mẫu tín hiệu
Trang 29Nhiễu và méo dạng tín hiệu là 2 vấn đề chính cần hạn chế trong hệ thống truyền thông và đo lường Bởi vậy việc xử lý và loại bỏ sự tác động của nhiễu và méo dạng là cốt yếu trong truyền thông và xử lý tín hiệu Việc giảm nhiễu và loại bỏ méo dạng là vấn đề rất quan trọng trong rất nhiều ứng dụng chẳng hạn như : nhận dạng tiếng nói, mạng viễn thông di động, xử lý ảnh, rada, hệ thống định vị sonar dưới nước
3.2.2 Các loại nhiễu thường gặp
Vấn đề tăng cường chất lượng tiếng nói được hiểu là cải thiện tính hiểu được và chất lượng của tiếng nói, ngoài ra tăng cường chất lượng tiếng nói cũng có thể được hiểu là loại bỏ các thành phần mà làm suy giảm tính hiểu được hoặc chất lượng của tiếng nói Tuy nhiên trong thực tế hai yếu tố này có thể tráo đổi cho nhau
Trong phần này tôi chỉ xin trình bày đến các phương pháp làm sạch chỉ sử dụng một microphone Ngoài ra với các phương pháp sử dụng nhiều microphone thường đạt kết quả cao hơn Các thành phần làm suy giảm chất lượng tiếng nói có thể kể đến các thành phần sau được trình bày ở dưới đây
Nhiễu cộng tính là các nhiễu được thêm vào tiếng nói khi được thu trong môi trường có tiếng ồn ví dụ như là tiếng ô tô, tiếng quạt, tiếng người nói, Nhiễu cộng tính có đặc trưng là độc lập với tiếng nói về mặt xác suất thống kê
Nhiễu vang là nhiễu âm học khi mà phản xạ nhiều lần trong môi trường trước khi đến tai người nghe Việc loại bỏ nhiễu tiếng vang có phần khó hơn so với nhiễu cộng tính
Ảnh hưởng chập kênh là kết quả của việc ảnh hưởng đáp ứng giới hạn dải tần hoặc không đồng đều trên các dải tần số dẫn đến kênh truyển không được mô hình hóa một cách tốt nhất Dẫn đến chất lượng tiếng nói bị suy giảm khi được truyền trên kênh truyền
Méo phi tuyến xuất hiện do hiện tượng “cliping” là hiện tượng xuất hiện khi mà hệ
số khuếch đại ở đầu vào không phù hợp dẫn đến biên độ bị thay đổi dạng
Tuy nhiên trong đề tài này tôi chỉ quan tâm chủ yếu đến các loại nhiễu cộng tính
và tìm phương pháp để loại bỏ nó do những ảnh hưởng nhiễu kia có thể bỏ qua Các
Trang 30loại nhiễu cộng tính có thể kể phân làm hai loại chính dựa vào tính chất thống kê của
nó bao gồm : nhiễu ổn định và nhiễu không ổn định
- Nhiễu ổn định khi mà các đặc tính thống kê của nó được coi là ổn định hoặc thay đổi ít như: nhiễu trắng, nhiễu ô tô
- Nhiễu không ổn định khi mà các đặc tính thống kê của nó được coi là không ổn định như: nhiễu từ đường phố, nhiễu tàu hỏa
Hình 3.4: Nhiễu trắng
Hình 3.5: Nhiễu không ổn định
Trang 31CHƯƠNG IV: BỘ LỌC KALMAN THÍCH NGHI VÀ ỨNG DỤNG
TRONG XỬ LÝ TIẾNG NÓI
4.1 Khái quát về bộ lọc số và lọc thích nghi
4.1.1 Bộ lọc số
Cùng với sự tiến bộ không ngừng của khoa học kỹ thuật, nhất là sự phát triển của công nghệ mạch tích hợp, phương thức xử lý tín hiệu đã có những bước tiến vượt bậc Phương thức xử lý tín hiệu đã chuyển từ xử lý tín hiệu bằng các mạch tương tự sang các mạch xử lý tín hiệu số bằng các vi mạch xử lý tín hiệu số với các ưu điểm như:
¾ Nhỏ gọn hơn
¾ Ổn định hơn đối với sự thay đổi của môi trường
¾ Hạn chế được ảnh hưởng của tạp âm
¾ Khả năng thay đổi đơn giản hơn
Do vậy, bộ lọc số được ứng dụng rộng rãi trên nhiều lĩnh vực như: Xử lý tín hiệu, viễn thông, âm thanh, y tế,…
Mô hình lọc số
Hình 4.1: Mô hình bộ lọc số
Trong đó:
s(n): tín hiệu đầu vào
y(n): tín hiệu đầu ra
h(n): đáp ứng xung của bộ lọc
Bộ lọc số có đáp ứng xung h(n)
Trang 324.1.2 Bộ lọc thích nghi
Việc thiết kế bộ lọc cố định đòi hỏi phải biết trước những thông tin thống kê về
dữ liệu được xử lý Bộ lọc cố định chỉ tối ưu khi các đặc tính thống kê của dữ liệu đầu vào tương xứng với các thông tin biết trước mà việc thiết kế dựa vào Khi thông tin không được biết một cách hoàn toàn thì không thể thiết kế bộ lọc cố định hoặc không thiết kế được bộ lọc tối ưu Cách tiếp cận đơn giản mà chúng ta có thể dùng trong trường hợp này là thủ tục “ước lượng lặp lại” Đây là 2 tầng xử lý nhờ đó bộ lọc đầu tiên “ước lượng” các tham số thống kê của tín hiệu liên quan và sau đó lặp lại, kết quả đạt được nhờ vào công thức không truy hồi để tính toán các tham số của bộ lọc Đối với việc xử lý thời gian thực, thủ tục này không có lợi bởi những yêu cầu quá tỷ mỉ và giá của phần cứng Phương pháp hiệu quả hơn là sử dụng bộ lọc thích nghi Bằng thiết
bị này có khả năng tự thiết kế, trong đó bộ lọc thích nghi dựa vào các kết quả hoạt động của nó và thuật toán truy hồi, cho phép bộ lọc có thể thực hiện tốt nhiệm vụ lọc trong môi trường mà việc hiểu biết hoàn toàn về các đặc tính liên quan của tín hiệu không thể thực hiện được Thuật toán bắt đầu từ một vài thiết lập xác định trước của điều kiện đầu Trong môi trường tĩnh sẽ đạt được sự hội tụ tối ưu sau các vòng lặp của thuật toán Trong môi trường không tĩnh, thuật toán có khả năng tự điều chỉnh, do đó
bộ lọc thích nghi có thể tự điều chỉnh biến theo thời gian trong các thống kê của đầu vào
Với tác dụng trực tiếp của việc ứng dụng thuật toán truy hồi, các tham số của bộ lọc thích nghi được cập nhật từ một vòng lặp cho đến vòng lặp kế tiếp, các tham số trở thành dữ liệu phụ thuộc
Sự phong phú của các thuật toán truy hồi đã được phát triển trong các tài liệu cho việc khai thác bộ lọc thích nghi Trong phân tích cuối cùng, sự lựa chọn một thuật toán được quyết định bởi các yếu tố khác nhau:
1 Tốc độ hội tụ: Điều này được định nghĩa như là số lượng của yêu cầu các vòng lặp cho thuật toán, trong sự đáp lại của đầu vào tĩnh, để hội tụ “đủ
Trang 33chặt” đến các giá trị tối ưu Tốc độ hội tụ nhanh cho phép thuật toán thích nghi nhanh với môi trường tĩnh và không biết thống kê của nó
2 Sự điều chỉnh: Để thuật toán tốt, tham số này cung cấp đo lường số lượng bởi giá trị cuối cùng của sai số trung bình bình phương được tính trung bình của bộ lọc thích nghi đã bị sai lệch đi so với giá trị sai số trung bình cực tiểu của bộ lọc Wiener
3 Tự điều chỉnh: Khi thuật toán bộ lọc thích nghi hoạt động trong môi trường không tĩnh, thuật toán đòi hỏi tự điều chỉnh biến thống kê trong môi trường Việc thực hiện tự điều chỉnh của thuật toán thường chịu sự ảnh hưởng của 2 yếu tố trái ngược: (a) Tốc độ hội tụ, và (b) sự thay đổi trạng thái ổn định gây
ra bởi nhiễu thuật toán
4 Thô: Trong một phạm vi, tính thô liên quan đến khả năng của thuật toán để điều khiển tốt với dữ liệu đầu vào kém Có thể nói rằng dãy dữ liệu có điều kiện kém khi số điều kiện của ma trận tương quan là lớn
5 Yêu cầu tính toán: Bao gồm: (a) Số lượng các biểu thức (nhân, chia, cộng, trừ, ) yêu cầu để tạo ra 1 vòng lặp hoàn chỉnh của thuật toán, (b) Kích thước yêu cầu chiếm trên bộ nhớ để lưu giữ chương trình và dữ liệu, (c) Yêu cầu
về đầu tư cho chương trình và thuật toán trên máy tính
6 Cấu trúc: Đó là cấu trúc của dòng thông tin trong thuật toán, quyết định cách thức trong đó nó được thực hiện trong phần cứng
7 Tính chất số học: Khi thuật toán được thực hiện phép tính, sự sai số do lỗi lượng tử hoá Lỗi lượng tử hoá do việc biến đổi tương tự - số của dữ liệu đầu vào và sự biểu diễn số của việc tính toán bên trong
*Cấu trúc bộ lọc thích nghi
Hoạt động của thuật toán của bộ lọc thích nghi bao gồm 2 xử lý cơ bản:
(1) Việc thiết kế xử lý lọc để tạo ra đáp ứng tại đầu ra tương ứng dãy dữ liệu đầu vào
Trang 34(2) Xử lý thích nghi: Mục đích là để cung cấp các luật cập nhật tham số cho việc điều khiển thích nghi của tập có thể điều chỉnh được các tham số được sử dụng trong xử
n0(n): nhiễu cộng lẫn với tín hiệu sạch tại đầu thu
n0(n) = h(n) * n1(n) (với h(n) không biết)
y(n): đầu ra của bộ lọc thích nghi tương ứng với đầu vào n1(n)
Trang 354.2 Bộ lọc Kalman và ứng dụng trong xử lý tiếng nói
4.2.1 Lý thuyết chung về bộ lọc Kalman [12]
Năm 1960, R.E.Kalman đã đưa ra bài viết nổi tiếng mô tả phương pháp đệ quy nhằm giải quyết bài toán về lọc tuyến tính các dữ liệu rời rạc Kể từ đó, do những thuận lợi và sự phát triển ngày càng rõ nét của các công cụ tính toán số, bộ lọc Kalman trở thành chủ đề được mở rộng nghiên cứu và đưa vào ứng dụng, đặc biệt là trong các lĩnh vực tự động hoá
Lọc Kalman thực chất là quá trình thiết lập các công thức toán học, tạo ra những giá trị trung bình tính toán hiệu quả, nhằm mục đính đánh giá trạng thái của một quá trình, trong đó có giảm thiểu giá trị trung bình bình phương nhiễu Bộ lọc này đặc biệt mạnh trong một số khía cạnh như: đưa ra các đánh giá về trạng thái tồn tại trước
đó (trong quá khứ), hiện tại và cả trong tương lai Nó cũng có thể làm được điều này ngay cả khi tính chính xác của mô hình hệ thống chưa được xác định rõ ràng
Lọc Kalman là một thiết bị ước lượng đệ qui Nghĩa là chỉ trạng thái ước lượng
từ bước trước và giá trị đo hiện tại được dùng cho việc tính toán để ước lượng trạng thái hiện tại Tương phản với các kỹ thuật ước lượng theo khối, không có các quan sát
và các ước lượng cũ được yêu cầu Lọc Kalman hoàn toàn chỉ là một bộ lọc trong miền thời gian, hầu hết các bộ lọc (ví dụ như lọc thông thấp) được tính toán trong miền tần số và sau đó biến đổi lại miền thời gian để thực hiện
Trạng thái của bộ lọc được biểu diễn bởi hai biến:
trạng thái.)
Lọc Kalman có hai quá trình riêng: Đánh giá (Predict) và Cập nhật (Update) Quá trình đánh giá sử dụng giá trị ước lượng từ thời điểm trước để đưa ra ước lượng trạng thái hiện tại Trong quá trình cập nhật, thông tin về giá trị đo tại thời điểm hiện tại được sử dụng để lọc quá trình đánh giá để đưa ra một giá trị mới, với ước lượng chính xác hơn