Kỹ thuật giảm tiếng ồn
Một số kỹ thuật giảm tiếng ồn hiệu quả bao gồm lọc nhiễu thích nghi, phép trừ phổ và kỹ thuật sử dụng nhiều micro Trong đó, phép trừ phổ là một trong những phương pháp giảm tiếng ồn phổ biến nhất hiện nay.
Quyết định trực tiếp và TSNR:
Mô hình tiếng ồn cơ bản được phát biểu bởi
( ) ( ) ( ) x t = s t + b t (1) trong đó: s t ( ) là tín hiệu tiếng nói
Tín hiệu nhiễu S p ( , k ), B p ( , k ), X p ( , k ) thể hiện thành phần phổ trong khung thời gian ngắn hạn p của tín hiệu lời nói s t ( ), tiếng ồn b t ( ) và tiếng nói bị nhiễm tiếng ồn x t ( ) Trong quá trình phân tích, bài phát biểu được giả định là không thay đổi Quy trình giảm tiếng ồn áp dụng mức tăng phổ G p ( , k ) cho mỗi giá trị phổ thời gian ngắn X p ( , k ) Để đánh giá hiệu quả giảm tiếng ồn, cần xem xét hai tham số SNR (tỷ lệ tín hiệu trên tiếng ồn) trước và sau khi xử lý SNR sau được tính toán theo một công thức cụ thể.
= (2) trong đó, E là toán từ kỳ vọng
SNR trước được đưa ra bởi công thức
SNR trước đó yêu cầu thông tin chưa biết về phổ giọng nói được gọi là SNR tứ thời, được xác định bởi công thức
Tham số này ước tính SNR cục bộ dựa trên phép trừ phổ, với độ chính xác được đánh giá qua sự so sánh với SNR tức thời Để cải thiện hiệu suất giảm tiếng ồn, mức tăng phổ gấp đôi Gp(ωk) được ước tính qua hai bước, dẫn đến thuật toán được gọi là giảm nhiễu hai bước (TSNR).
5 Ở bước đầu tiên, tính toán mức tăng phổ gấp đôi G p ( , k )tham số của hàm prio _ dd k
Quá trình tính toán SNR R (p, ) và/hoặc SN R (p, inst k) được gọi là thuật toán quyết định trực tiếp Mức tăng phổ cấp đôi thu được ở bước một được áp dụng để ước tính SNR trước đó theo công thức đã nêu.
= (5) Ở bước thứ hai, tính toán mức tăng phổ gấp đôi
G ( p, )=h( SN R ( p, ),SN R ( p, )) để tăng cường tiếng ồn post k 2step k k
SNR ( p, )=G ( p, )X( p, ) (6) Theo [8], kỹ thuật giảm nhiễu có cơ sở khoa học dựa trên phân tích phổ biên độ
Trong bối cảnh họp trực tuyến, việc xác định tần số và độ lớn công suất của nhiễu là rất quan trọng, vì mỗi cuộc họp có dải tần số nhiễu ngẫu nhiên Bài toán cập nhật dải tần của nhiễu để đảm bảo độ chính xác vẫn luôn là một thách thức lớn Chương 2 của luận văn này sẽ trình bày một phương pháp mới dựa trên biến đổi wavelet, nhằm cung cấp giải pháp cho việc cập nhật thông tin về dải tần của nhiễu thông qua sự kết hợp giữa biến đổi Fourier và biến đổi Wavelet.
Kỹ thuật khử tiếng ồn
Có nhiều kỹ thuật khử tiếng ồn hiệu quả, bao gồm lọc triệt tần thích nghi, lọc kỹ thuật số, ma trận thừa số, biến đổi Wavelet và khử tiếng ồn chủ động Trong số các phương pháp này, biến đổi Wavelet được sử dụng phổ biến nhất để triệt tiêu tiếng ồn.
Theo phương pháp của Donoho, kỹ thuật khử nhiễu sử dụng phép biến đổi Wavelet thực hiện thông qua ý tưởng phân rã trong Wavelet Phương pháp này đã chứng minh tính đơn giản và hiệu quả trong việc cải thiện giọng nói khi tín hiệu bị méo do tiếng ồn Bằng cách phân tích các tần số khác nhau với độ phân giải tùy thuộc vào loại tín hiệu, phương pháp này đạt được độ phân giải thời gian cao cho tần số thấp và ngược lại cho tần số cao.
Có hai cách để thực hiện xử lý nhiễu bằng phép biến đổi sóng con: biến đổi sóng con liên tục và biến đổi sóng con rời rạc
Bảng 1 1: Đánh giá hiệu suất của các kỹ thuật giảm tiếng ồn và khử tiếng ồn
Kỹ thuật giảm tiếng ồn
Hiệu suất Kỹ thuật khử tiếng ồn
Tăng cường dòng thích nghi
Chi phí tính toán thấp và dễ dàng truy xuất giọng nói rõ ràng hơn cho một kênh
Khử tiếng ồn bằng bộ lọc thích nghi
Phù hợp nhất với môi trường không xác định, có tốc độ hội tụ nhanh hơn, tốt hơn SNR và dễ thực hiện Hai bước giảm nhiễu
Kỹ thuật này giám sát tính không ổn định của tín hiệu nói mà không gây ra tiếng ồn, giúp giảm thiểu lỗi thay thế và chèn thêm, từ đó nâng cao hiệu suất nhận dạng tiếng nói một cách đáng kể.
Khử tiếng ồn chủ động
Làm giảm hiệu quả tiếng ồn tần số thấp và mạnh mẽ để nhận dạng trong môi trường bất lợi Chi phí tính toán thấp
Phương pháp này đặc biệt được sử dụng để loại bỏ nhiễu nền, nhiễu băng thông rộng do đỉnh
Thực hiện tốt việc giảm tiếng ồn trong quãng tiếng và giảm tín hiệu nhiễu cho SNR>0
Chúng tạo ra các đầu ra không âm và mạnh về số lượng nhưng dữ liệu được điều khiển cần dữ liệu từ ma trận hiệp phương sai mẫu
Kỹ thuật sử dụng nhiều micro
Cung cấp khả năng giảm tiếng ồn hiệu suất cao với độ méo giọng nói tối thiểu trong môi trường thực tế
Nó định vị nhiều cạnh và điểm kỳ dị trong tín hiệu Và cho phép phân tích tín hiệu phi tuyến tính
Bảng 1 2: Tóm tắt về kỹ thuật khử tiếng ồn
Thuật toán khử tiếng ồn Kỹ thuật/Phươn g pháp
RLS Hiệu suất tốt cho chiều dài bộ lọc ngắn
Tính toán phức tạp, theo dõi hiệu suất kém đối với các tham số bộ lọc thay đổi
LMS Đơn giản, dễ thực hiện
Hội tụ tốc độ chậm và khuếch đại nhiễu gradient
Lọc thích nghi, Khử tiếng ồn chủ động
Bộ lọc thích nghi, FIR
Thực hiện tốt hơn cho các tín
Xảy ra lỗi nếu vectơ trọng số
Tăng cường dòng thích nghi
8 hiệu nhạy cảm không được chọn đúng Khử nhiễu giọng nói
Mạn h mẽ trong tự nhiên
Nếu cơ sở Wavelet thích hợp không được chọn thì không thể trích xuất các đặc điểm của tín hiệu nhiễu
Giảm tiếng ồn Phân loại tốt hơn vì nó phân tách năng lượng tiếng ồn trên các dải tần số khác nhau
Nếu hệ số trọng số không được chọn đúng, nó sẽ làm suy giảm tín hiệu với các dải tần số cao có biên độ nhỏ hơn
Ma trận thừa số không âm
Giả m tín hiệu mục tiêu
9 hiệu trên nhiễu làm giảm tỷ lệ tín hiệu trên nhiễu Thuật toán tối ưu hóa
Thuậ t toán có sẵn có thể là tốt nhất
Thời gian phức tạp hơn
Lọc thích nghi, Khử tiếng ồn chủ động
Bảng 1 3: Tóm tắt kỹ thuật giảm tiếng ồn
Thuật toán giảm tiếng ồn Kỹ thuật/Phươn g pháp
Hạn chế Quyết định trực tiếp và TSNR Độ trễ khi bắt đầu và kết thúc bài phát biểu sẽ bị xóa
Khôn g có nhiều cải tiến đáng kể trong hơn hai bước
Phép trừ phổ Giọn g nói nâng cao tốt hơn với ít tiếng ồn còn sót lại
Nếu chọn đúng giá trị của thông số trừ thì tiếng ồn còn sót lại bị triệt tiêu hoàn toàn
Phép trừ quang phổ, nhiều micrô
Phép trừ quang phổ, bộ lọc Wiener
Hình thành bộ lọc thích nghi
Cải thiện chất lượng giao tiếp bằng giọng nói và tỷ lệ nhận dạng bằng cách giảm WER xuống 26,30%
Nếu tham số tối ưu thay đổi một chút, sẽ xảy ra rò rỉ giọng nói và giảm chất lượng WER
Chuyể n đổi bộ lọc thích nghi
LSM Đơn giản, dễ thực hiện
Hội tụ tốc độ chậm và khuếch đại nhiễu gradient
Bộ lọc thích nghi, FIR
Cải thiện tốc độ hội tụ
Xảy ra lỗi nếu vectơ trọng số không được chọn đúng
Tăng cường dòng thích nghi
Bảng 1 4: Ứng dụng khử tiếng ồn trong tín hiệu lời nói Địa điểm Ứng dụng
Kỹ thuật Lợi thế Bất lợi
Máy tính xách tay, Viễn thông (hệ
Bộ khử nhiễu thích nghi, Lọc thích nghi, Ma Đạt được mức tăng chính xác 3,3% WRR,
Yêu cầu nhiều thời gian để thuật toán hội tụ
11 thống định vị xe) trận thừa số, Biến đổi Wavelet có thể được sử dụng trong điều kiện tiếng ồn thay đổi nhanh Lĩnh vực y tế
Chăm sóc sức khỏe, tài liệu y tế, điều trị
Mạng nơ-ron, Phân tích nguyên tắc thành phần, Ma trận thừa số, Biến đổi Wavelet
Hiệu suất tốt cho bắt đầu hội thoại
Hiệu suất giảm đối với nhiều hơn hai âm vị
Hiệu suất cao, Máy bay trực thăng, Đào tạo kiểm soát viên không lưu, Thám hiểm không gian
Khử tiếng ồn thích nghi
Các bộ lọc giọng nói khác nhau sẽ được sử dụng Điện thoại di dộng
Phản hồi bằng giọng nói tương tác, Máy tính xách tay, Điện thoại di động, Trợ lý ảo
Mạng thần kinh thứ phát, Phép trừ phổ
Bài phát biểu nâng cao
Tăng khoảng cách giữa lời nói và nguồn làm giảm hiệu suất
Lĩnh vực giáo dục Đánh giá phát âm, nhận dạng giọng nói nghe nhìn
Con trỏ hình học giọng nói, tính năng hình ảnh
Tỷ lệ nhận dạng của WER được cải thiện 27%
Sự không phù hợp trong âm thanh và video
12 giao diện kết hợp theo tầng (CHAVF), Ma trận thừa số cần được quan tâm
Tự động hóa gia đình, báo cáo tòa án hoặc viết bài phát biểu theo thời gian thực,
Tự động tạo phụ đề với nhận dạng giọng nói, chơi trò chơi, tên miền ngân hàng, trung tâm chăm sóc khách hàng, Bio-Metric
Khử tiếng ồn chủ động
Hiệu quả trong việc giảm tiếng ồn định kỳ tần số thấp
Kết quả tín hiệu không chính xác nếu biên độ của nó không gần với nguồn phát âm
Nhận dạng cảm xúc tự động, Dịch tự động, dịch hình ảnh thành văn bản thành giọng nói, CASLT (liệu pháp ngôn ngữ và lời nói có sự
Ma trận thừa số, Lọc thích nghi
Cập nhật trước mỗi lần lặp lại một cách thích nghi
Nếu thông số điều chỉnh không được chọn đúng, tín hiệu nhiễu không thể được phát hiện và có thể bị loại bỏ
13 trợ giúp của máy tính), nhận dạng giọng nói lắp Trí tuệ nhân tạo
Cải thiện độ chính xác nhận dạng giọng nói Độ trễ khi bật và bù lời nói gây ra tiếng vang
Bảng 1 5: Ứng dụng giảm nhiễu trong tín hiệu lời nói Địa điểm Ứng dụng
Kỹ thuật Lợi thế Bất lợi
Máy tính xách tay, Viễn thông (hệ thống định vị xe)
Kỹ thuật đa micrô cũ cố định/thích nghi
Mạnh mẽ đối với hệ thống nhận dạng giọng nói bằng cách giảm WER xuống 29,3%
Vị trí của Nguồn giọng nói phải được đặt đúng cách để trích xuất phát âm của tín hiệu giọng nói Lĩnh vực y tế
Chăm sóc sức khỏe, tài liệu y tế, điều trị
Phân tích thành phần chính,
Ma trận thừa số Đạt độ chính xác 97,14%
Hiệu suất cao Máy bay trực thăng, Đào tạo
Thuật toán so khớp, trừ phổ
Nên tăng cường độ rõ của lời nói được truyền
14 kiểm soát viên không lưu, Thám hiểm không gian qua kênh liên lạc chất lượng thấp Điện thoại di động
Phản hồi bằng giọng nói tương tác, Máy tính rảnh tay, Điện thoại di động, Trợ lý ảo
Phép trừ phổ, Đa micrô
Truyền dữ liệu nhanh, Nguồn xử lý cao, Luôn đồng hành cùng người dùng
Pháp luật, kích thước màn hình nhỏ
Lĩnh vực giáo dục Đánh giá phát âm, nhận dạng giọng nói nghe nhìn
Con trỏ hình học giọng nói, tính năng hình ảnh giao diện kết hợp theo tầng (CHAVF), thuật toán phát âm đa dạng
Nên xử lý các biến thể trong mô hình ngôn ngữ
Tự động hóa gia đình, báo cáo tòa án hoặc viết bài phát biểu theo thời gian thực,
Tự động tạo phụ đề với nhận dạng giọng nói,
Hiệu suất tốt với các thiết bị phần cứng bổ sung
Không thể đảm bảo nếu dấu vết của tiếng ồn vẫn còn, có thể làm giảm khả năng hiểu lời nói
15 chơi trò chơi, tên miền ngân hàng, trung tâm chăm sóc khách hàng, Bio-Metric Người khuyết tật
Nhận dạng cảm xúc tự động và dịch tự động là những công nghệ tiên tiến, giúp chuyển đổi hình ảnh thành văn bản và từ văn bản thành giọng nói CASLT, hay liệu pháp ngôn ngữ và lời nói hỗ trợ bằng máy tính, đóng vai trò quan trọng trong việc cải thiện khả năng giao tiếp Bên cạnh đó, nhận dạng giọng nói với sự hỗ trợ của đa micro mang lại độ chính xác cao trong việc thu nhận và xử lý thông tin.
Tăng WAC (độ chính xác của từ) lên 63,83%
Yêu cầu mô hình hóa ngôn ngữ
Cải thiện tín hiệu chống nhiễu 59,5% và 10,5% theo TPS (Điểm cảm nhận liên quan đến mục tiêu)
Hoạt động tốt với số lượng loa hạn chế
Thuật toán bình phương tối thiểu (LMS) là một trong những thuật toán phổ biến trong xử lý tín hiệu số thích nghi Được phát triển bởi Widrow và Hoff vào năm 1960, thuật toán này thuộc nhóm các thuật toán gradient thống kê và được sử dụng để tối thiểu hóa sai lệch trong mô hình tổ hợp thích nghi tuyến tính.
Hình 1 1: Mô hình tổ hợp thích nghi tuyến tính [1]
Thuật toán LMS đã phát triển thành nhiều biến thể mới nhờ vào tính đơn giản và bền vững của nó Các thuật toán này được mô tả thông qua một công thức cụ thể, cho thấy khả năng ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau.
Trong phương trình này, tham số bước ảnh hưởng đến tốc độ hội tụ của thuật toán tìm nghiệm tối ưu Nếu chọn giá trị lớn, sự hội tụ sẽ diễn ra nhanh chóng, nhưng nếu chọn giá trị nhỏ, quá trình hội tụ sẽ chậm hơn Tuy nhiên, nếu giá trị quá lớn, thuật toán sẽ không ổn định Do đó, để đảm bảo tính ổn định của thuật toán LMS, giá trị này cần được chọn nằm trong một khoảng nhất định.
Điều kiện nêu trên chỉ là điều kiện đủ; để xác định một giới hạn chính xác, cần xem xét thêm tính chất thống kê của tín hiệu đầu vào.
Bộ lọc triệt tần cố định
Bộ lọc IIR (Infinite Impulse Response) là một loại bộ lọc trong xử lý tín hiệu với đáp ứng xung vô hạn Tính chất "vô hạn" của bộ lọc này cho phép nó duy trì đáp ứng liên tục trong thời gian không giới hạn sau khi nhận một tín hiệu xung đầu vào.
Bộ lọc IIR sử dụng các phần tử lưu trữ trạng thái trước đó, cho phép thông tin quá khứ ảnh hưởng đến đầu ra hiện tại và tương lai Điều này mang lại khả năng tạo ra đáp ứng tần số không bị giới hạn, cùng với khả năng tạo ra các đặc trưng tần số phức tạp.
Bộ lọc IIR là lựa chọn phổ biến cho các ứng dụng yêu cầu đáp ứng tần số phức tạp và thiết kế bộ lọc có trạng thái Chúng thường được áp dụng trong các lĩnh vực như viễn thông, xử lý âm thanh, xử lý hình ảnh, và nhiều lĩnh vực khác liên quan đến xử lý tín hiệu.
Công thức tổng quát của một bộ lọc IIR có thể được biểu diễn như sau:
[ ] y n là đầu ra của bộ lọc tại thời điểm n
[ ] x n là tín hiệu đầu vào của bộ lọc tại thời điểm n
[0] b , b[1], , b m[ ] là các hệ số của bộ lọc liên quan đến đầu vào
Các hệ số của bộ lọc liên quan đến đầu ra được ký hiệu là a1, a2, , an, trong đó m và n đại diện cho số lượng hệ số tương ứng với đầu vào và đầu ra.
Công thức mô tả cách tính toán đầu ra của bộ lọc IIR dựa trên đầu vào hiện tại, trạng thái hiện tại, đầu ra trước đó và trạng thái trước đó.
Để thiết kế bộ lọc IIR, cần xác định các hệ số b[0], b[1], , b[m] và a[1], a[2], , a[n] phù hợp Các phương pháp thiết kế bộ lọc IIR bao gồm Butterworth, Chebyshev, và Elliptic, cùng với các phương pháp tối ưu như Least Squares và tối ưu hóa đồng bộ.
Bộ lọc IIR được mô tả qua hàm truyền sau:
Trong đó L và M là bậc của đa thức
Tùy thuộc vào yêu cầu của ứng dụng, bộ lọc IIR có thể được thiết kế để đạt được đáp ứng tần số mong muốn, bao gồm cắt tần số, băng thông và các đặc tính hệ thống khác.
Biến đổi Fourier 22
Biến đổi Wavelet 24 Bài toán phát hiện điểm đột biến 25
Wavelet Transform là một phương pháp phân tích hàm số tương tự như Fourier Transform, nhưng ưu việt hơn trong việc phân tích các hàm số ở nhiều mức độ chi tiết khác nhau Phương pháp này sử dụng các hàm wavelet để phát hiện các đặc trưng quan trọng của hàm số, giúp cải thiện khả năng phân tích Wavelet Transform được áp dụng rộng rãi trong các lĩnh vực như xử lý tín hiệu, hình ảnh và tài liệu Cụ thể, trong xử lý tín hiệu, nó có thể phân tích và tìm kiếm các đặc trưng quan trọng, trong khi trong lĩnh vực hình ảnh, phương pháp này giúp giảm nhiễu và tăng cường độ sắc nét của hình ảnh.
Wavelet transform là một công cụ mạnh mẽ và linh hoạt, giúp phân tích các hàm số và giải quyết các vấn đề toán học phức tạp một cách hiệu quả.
Tín hiệu f x ( ) có thể được phân tích bằng phép biến đổi WT để tìm ra trọng số sóng của tín hiệu đó
: Hàm phức biểu diễn một wavelet
25 s: tham số thang, biểu diễn độ rộng hàm * t s
: tham số trượt, biểu diễn vị trí hàm * t s
Để tính toán biến đổi wavelet, chúng ta áp dụng hệ số tỉ lệ s nhằm thực hiện quá trình co giãn của sóng cơ bản I Khi chọn s = 2^j (với j là số nguyên), chúng ta gọi đây là phương pháp biến đổi wavelet.
WT nhị phân WT nhị phân của tín hiệu số f n ( ) có thể được tính toán bằng thuật toán Mallat, một thuật toán tính toán WT phổ biến
Năm 1992, S Mallat đã phát triển một phương pháp mới cho biến đổi wavelet nhằm ước lượng mức độ bất thường trong chuỗi tín hiệu Trong nghiên cứu của mình, ông đã áp dụng độ đo mũ Lipschitz để xác định mức độ bất thường của dữ liệu Tiếp theo, Mallat đã xây dựng các ước lượng mũ Lipschitz thông qua biến đổi wavelet, tạo ra cơ sở cho việc phát hiện các điểm bất thường trong tín hiệu và dữ liệu Bài báo này được coi là nền tảng quan trọng cho các ứng dụng máy tính trong việc dò tìm và phát hiện bất thường.
Bài toán phát hiện điểm đột biến
2.3.1 Bộ lọc đơn tần số thích nghi với kích thước bước thay đổi cho bài toán giảm nhiễu tín hiệu Để loại bỏ thành phần của nhiễu đơn tần, Hàm truyền của bộ lọc đơn tần số phải có dải chắn rất hẹp [1,4] như hình 1 dưới đây
Hình 2 2: Phổ biên độ - tần số của bộ lọc đơn tần số tại = 0.5 ( rad / ) s
Nếu tần số nhiễu thay đổi chậm, phương pháp của B Widrow có thể được áp dụng Bộ lọc đơn tần số thích nghi sẽ điều chỉnh tần số lọc để giảm thiểu sai số với tần số nhiễu.
Hình 2 3: Mô hình lọc nhiễu đơn tần số thích nghi.[1]
B Widrow đã phát triển công thức (1) để sử dụng cho việc điều chỉnh này:
𝛍: Tham số kích thước bước
𝐦𝐚𝐱 thì thuật toán LMS ổn định tối đa
𝐰 𝟏,𝐤 và 𝐰 𝟐,𝐤 : trọng số của bộ lọc đơn tần số thích nghi (xem hình 2)
𝐰 𝟏,𝐤 : Nhận nhiễu từ đầu vào tham số, tại k
𝐱 𝟏,𝐤 và 𝐱 𝟐,𝐤 được mô tả bên dưới
Khi tần số nhiễu thay đổi nhanh, bộ lọc đơn tần số thích nghi với kích thước bước đã được chọn là giải pháp hiệu quả Có hai phương pháp chính để điều chỉnh kích thước bước, trong đó phương pháp đầu tiên áp dụng công thức (3).
𝛂: là hệ số quên, giá trị của nó trong khoảng [0,1]
𝛄: là tham số kích thước bước cho sự tương ứng của 𝛍
Phương pháp thứ hai dựa vào quy tắc điều chỉnh kích thước bước: kích thước bước sẽ nhỏ hơn khi điểm (𝐰 𝟏 , 𝐰 𝟐 ) gần điểm cực tiểu và lớn hơn khi điểm này xa khỏi cực tiểu Quy tắc này được thể hiện qua công thức (4) dưới đây.
Hai phương pháp trên đều có tỷ lệ hội tụ tốt, Phương pháp sau có độ ổn định tốt hơn
Theo B Widrow, nếu tham số kích thước bước được chọn đủ nhỏ, sau khi thuật toán LMS hội tụ, bộ lọc đơn tần số thích nghi sẽ có hàm truyền nhất định.
: Kích thước bước thích nghi
Tần số của nhiễu ảnh hưởng đến việc tăng gradient, dẫn đến việc thuật toán LMS tự động điều chỉnh hàm truyền H(z) Bộ lọc sẽ triệt tiêu tần số tại giá trị 0 mới.
2.3.2 Hàm truyền của bộ lọc đơn tần số
Hàm truyền của bộ lọc đơn tần số có thể mô tả dưới dạng công thức (5), [1]
Bộ lọc triệt tần có tần số triệt cụ thể, với hàm truyền theo công thức (5), giúp chặn tín hiệu có tần số 1 Khi đặt tần số 0 cho nhiễu, bộ lọc này sẽ hiệu quả trong việc lọc bỏ nhiễu với tần số 0.
Độ rộng dải triệt của bộ lọc triệt tần quyết định mức độ ảnh hưởng của suy giảm tới các tín hiệu hữu ích gần tần số trung tâm Mô hình kết hợp biến đổi Fourier và biến đổi Wavelet được đề xuất nhằm cải thiện hiệu quả trong việc lọc nhiễu.
Thông qua quan sát trên phổ của tín hiệu tiếng nói bị nhiễm nhiễu mạnh như hình sau
Hình 2 4: Vị trí của đỉnh điểm kỳ dị trong phổ của tín hiệu tiếng nói có nhiễu
Mối liên hệ giữa điểm kỳ dị trên phổ tín hiệu nhiễm nhiễu và biến đổi Wavelet của nó
Luận văn đã liên hệ với bài toán phát hiện điểm bất thường bằng biến đổi sóng nhỏ của S Mallat như sau
Biến đổi Wavelet của tín hiệu f x( ) được định nghĩa là [8], [9]
: Hàm Wavelet mẹ 𝛙(𝐱) theo tham số thang s
Độ đo kỳ dị được S Mallat mô tả qua số mũ Lipschitz, cho thấy mối liên hệ giữa biến đổi Wavelet và các điểm kỳ dị của tín hiệu Mallat đã phát hiện ra rằng Wavelet có khả năng phân tích các đặc trưng kỳ dị trong tín hiệu một cách hiệu quả.
Đạo hàm bậc nhất của một hàm trơn giúp xác định vị trí của các điểm tín hiệu biến thiên bất thường khi tỷ lệ đủ nhỏ Điểm cực đại của hàm w f x s ( ) s ( ) w f x chỉ ra những biến động quan trọng trong dữ liệu.
Hàm f x( )là lipschitz (0 1)trên [a,b] khi và chỉ khi tồn tại một hằng số
Về mặt kỹ thuật, mối quan hệ giữa dấu hiệu và Biến đổi Wavelet của nó được mô tả trong hình 4
Hình 2 5: Mối quan hệ giữa dấu hiệu và biến đổi Wavelet
Luận văn đã giới thiệu một mô hình mới và đơn giản nhằm khử nhiễu công suất truyền Mô hình này bao gồm đầu vào tham chiếu, thời gian phát hiện ngắn và độ chính xác cao.
Hình 2 6: Mô hình khử nhiễu sử dụng biến đổi Wavelet trên phổ của tín hiệu âm thanh nhiễu
THỰC NGHIỆM 36
Công cụ và ngôn ngữ 36
Matlab là tên viết tắt của Matrix laboratory phần mềm được MathWorks thiết kế để cung cấp môi trường lập trình và tính toán kỹ thuật số
Matlab là công cụ mạnh mẽ cho phép bạn thực hiện tính toán với ma trận, vẽ đồ thị và hàm, chạy các thuật toán phức tạp, tạo giao diện người dùng thân thiện và tích hợp với các chương trình viết bằng nhiều ngôn ngữ lập trình khác nhau.
Matlab là công cụ hữu ích cho việc giải quyết các vấn đề trong phân tích số, xử lý tín hiệu kỹ thuật số và xử lý đồ họa mà không cần sử dụng lập trình cổ điển.
Matlab cung cấp hàng ngàn lệnh và chức năng hữu ích, bao gồm cả các lệnh ứng dụng đặc biệt và các hộp công cụ (Toolbox) để mở rộng khả năng của ngôn ngữ Những tính năng này giúp giải quyết nhiều loại vấn đề cụ thể trong môi trường Matlab.
Hộp công cụ là công cụ thiết yếu cho người dùng trong các lĩnh vực như toán học sơ cấp, xử lý tín hiệu kỹ thuật số, xử lý hình ảnh, xử lý giọng nói, ma trận thưa và logic mờ Ngôn ngữ lập trình Matlab, với tính năng lập trình bậc cao, cung cấp các lệnh điều khiển, chức năng, cấu trúc dữ liệu, và khả năng đầu vào/đầu ra, hỗ trợ lập trình hướng đối tượng hiệu quả.
Tượng cho phép người dùng nhanh chóng tạo và phá hủy phần mềm trong lập trình quy mô nhỏ, đồng thời hỗ trợ việc phát triển các chương trình lớn và phức tạp trong lập trình quy mô lớn.
Môi trường làm việc Matlab cung cấp cho người dùng các hàm và tệp cần thiết, bao gồm công cụ quản lý biến và xuất nhập dữ liệu Ngoài ra, nó còn hỗ trợ phát triển, quản lý, gỡ lỗi và lập hồ sơ cho các tệp M và ứng dụng Matlab.
Nó bao gồm các thuật toán tính toán từ các hàm cơ bản như tổng, sin, cos đến các hàm phức tạp như ma trận nghịch đảo, giá trị duy nhất, vectơ cụ thể của ma trận, hàm Bessel và biến đổi Fourier nhanh Matlab API là thư viện cho phép lập trình viên viết phần mềm bằng C và FORTRAN, tương tác với Matlab và sử dụng các công cụ để gọi quy trình lặp trong Matlab thông qua liên kết động Matlab cũng được sử dụng như một công cụ máy tính để đọc và ghi các tệp M.
• Matlab là một ngôn ngữ lập trình cao cấp để tính toán số và phát triển ứng dụng
• Cung cấp một môi trường tương tác để điều tra, thiết kế và giải quyết các vấn đề
Nó cung cấp một thư viện phong phú các hàm toán học, cho phép giải quyết các bài toán liên quan đến hàm số tuyến tính, thống kê, phân tích Fourier, lọc, tối ưu hóa, tích phân và phương trình vi phân bình thường.
• Matlab cung cấp các biểu đồ tích hợp để trực quan hóa dữ liệu và các công cụ để tạo biểu đồ tùy chỉnh
• Cung cấp các công cụ phát triển để tăng khả năng bảo trì chất lượng mã và tối đa hóa hiệu suất
• Cung cấp các công cụ để xây dựng ứng dụng bằng giao diện đồ họa tùy chỉnh
Các chức năng của Matlab cho phép tích hợp các thuật toán với các ứng dụng bên ngoài và ngôn ngữ lập trình khác như C, Java, NET và Microsoft Excel, mở rộng khả năng ứng dụng của Matlab trong nhiều lĩnh vực khác nhau.
Matlab là một công cụ tính toán đa năng, được ứng dụng rộng rãi trong các lĩnh vực khoa học và kỹ thuật như công nghệ, toán học, hóa học và vật lý.
Matlab được sử dụng hầu hết trong các việc như:
• Xử lý tín hiệu và truyền thông
• Xử lý chất lượng hình ảnh, video
• Ứng dụng tính toán tài chính, sinh học
• Ứng dụng trong kiểm tra, tính toán và đo lường
Bộ dữ liệu 38
Dữ liệu được tạo ra từ quá trình ghi âm các đoạn hội thoại và tín hiệu nhiễu Sau đó, tín hiệu sạch được trộn lẫn với tín hiệu nhiễu để hình thành đoạn tín hiệu nhiễu.
Từ đó lọc tín hiệu sạch từ bộ tín hiệu nhiễm nhiễu để so sánh với bộ tín hiệu không nhiễm nhiễu ban đầu
3.2.1 Ghi âm tín hiệu sạch
Khởi tạo các tham số của tín hiệu
% Record your voice for 5 seconds
Fs = 44000; noc = 1; nob = 16; recObj = audiorecorder(Fs, nob, noc);
Bắt đầu ghi âm dữ liệu
%recObj = audiorecorder; disp('Start speaking.') recordblocking(recObj, 10); disp('End of Recording.');
Phát lại đoạn dữ liệu đã ghi âm
% Play back the recording play(recObj);
Lấy âm thanh của đoạn dữ liệu đã ghi âm và lưu vào file
% Store data in double-precision array x = getaudiodata(recObj); plot(x); title('am thu'); axis([0 length(x) -0.5 0.5]); grid on;
Xt(x,512); mag_Xs(X); figure, plot(mag_X); title('Pho cua am thu'); save('am.mat','x','mag_X');
3.2.2 Tạo nhiễu trắng từ phân bố Gauss a/ Nhiễu trắng
Nhiễu trắng (white noise) là một loại nhiễu ngẫu nhiên với mức công suất đồng đều trên toàn bộ phổ tần số Đặc điểm nổi bật của nhiễu trắng là các mẫu nhiễu không có sự tương quan thống kê, nghĩa là mỗi mẫu độc lập và không bị ảnh hưởng bởi các mẫu khác Vì vậy, nhiễu trắng thường không chứa thông tin cụ thể nào và được coi là tín hiệu ngẫu nhiên hoàn toàn.
Nhiễu trắng trong miền thời gian có phổ công suất đồng đều trên toàn bộ tần số, nghĩa là cường độ nhiễu trắng tương đương ở mọi tần số từ thấp đến cao Trong miền tần số, phổ nhiễu trắng thể hiện dưới dạng một đường thẳng ngang, không có sự biến đổi theo tần số.
Nhiễu trắng được ứng dụng rộng rãi trong nhiều lĩnh vực như điện tử, kỹ thuật âm thanh, và xử lý tín hiệu Nó đóng vai trò quan trọng trong việc mô hình hóa nhiễu không mong muốn, đánh giá hiệu suất hệ thống, cũng như kiểm tra và hiệu chuẩn thiết bị đo lường Bên cạnh đó, nhiễu trắng còn được sử dụng trong các thuật toán xử lý tín hiệu, chẳng hạn như lọc thông qua Phân bố Gauss cũng là một phần quan trọng trong việc phân tích và xử lý nhiễu trắng.
Phân bố Gauss, hay phân bố chuẩn, là một phân bố xác suất liên tục quan trọng trong thống kê và lý thuyết xác suất, được xác định bởi hai tham số chính: giá trị kỳ vọng và độ lệch chuẩn.
Trong phân bố Gauss, dữ liệu được phân bố theo hình dạng chuông đối xứng quanh giá trị kỳ vọng Điểm quan trọng của phân phối này là giá trị kỳ vọng đóng vai trò là điểm trung tâm, trong khi độ lệch chuẩn xác định mức độ phân tán của dữ liệu xung quanh giá trị kỳ vọng.
Hàm mật độ xác suất (PDF) của phân bố Gauss được biểu diễn bằng công thức:
Trong đó: x là giá trị của biến ngẫu nhiên
là giá trị kỳ vọng (mean)
là độ lệch chuẩn (standard deviation)
là số pi (khoảng 3.14159) exp() là hàm mũ e
Phân bố Gauss, hay còn gọi là phân phối chuẩn, có ứng dụng quan trọng trong thống kê, kỹ thuật và khoa học dữ liệu Nó giúp mô hình hóa và phân tích dữ liệu, xây dựng các mô hình dự đoán, xác định khoảng tin cậy và thực hiện nhiều công việc liên quan đến xác suất và thống kê Việc áp dụng phân bố Gauss trong các lĩnh vực này không chỉ nâng cao độ chính xác mà còn hỗ trợ ra quyết định hiệu quả.
The Gaussian distribution is applied to the input frequency, extending the distribution by 5 units before and after the input frequency With a sigma value of 100, the coefficient is calculated as he_so1 = 1/(sigma1*sqrt(2*pi)) The frequency values are generated in the range from freq_tt - 0.5 to freq_tt + 0.5, incremented by 0.1 for k values ranging from -5 to 5.
A(6+k)=he_so1*exp(-((freq(6+k)-freq_tt).^2)/(2*sigma1^2)); end;
Tạo nhiễu trắng theo phân bố Gauss
In this code snippet, a time vector \( t \) is created ranging from 0 to \( L-1 \), multiplied by a sampling period \( T \) Multiple sine wave signals \( n1 \) to \( n11 \) are generated, each corresponding to different frequencies specified in the array \( range\_freq \) and amplitudes in array \( A \) The individual sine waves are summed to produce a combined noise signal.
Các thực nghiệm minh họa sau sử dụng Fourier để đưa ra phổ của tín hiệu, bao gồm các thông tin:
+ Phổ của tín hiệu âm thanh
+ Biến đổi Wavelet trên phổ của tín hiệu âm thanh
+ Phổ của tín hiệu sạch
+ Tín hiệu âm thanh có nhiễu
+ Tín hiệu sau khi loại bỏ nhiễu
+ Sai lệch giữa tín hiệu gốc và sau khi loại bỏ nhiễu
Dựa trên các thông tin thu thập được, chúng tôi tiến hành so sánh các giá trị thực nghiệm như SNR trước và SNR sau để đánh giá mức độ tối ưu của giải pháp.
Hình 3.1: Phổ của tín hiệu âm thanh và biến đổi Wavelet của nó
Có thể nhìn thấy điểm bất thường trên phổ của tín hiệu âm thanh đã nhiễm nhiễu
Hình 3.2: Phổ của tín hiệu, Phổ của nhiễu và Phổ của tín hiệu có nhiễu
Tại tần số 50Hz, sai lệch giữa tín hiệu sạch và tín hiệu sau lọc là không đáng kể, cho thấy tín hiệu sau lọc gần như trùng khớp với tín hiệu sạch ban đầu.
Giá trị trước SNR khoảng -1,51 và sau SNR khoảng 3.39, chêch lệch này khoảng 4,9dB
Trong thực nghiệm 2, chúng tôi sử dụng nội dung ghi âm từ file đầu tiên, nhưng thay vì tín hiệu ở giây thứ nhất như ở thực nghiệm 1, chúng tôi đã chọn tín hiệu ở giây thứ hai.
Hình 3.4: Phổ của tín hiệu âm thanh và biến đổi Wavelet của nó
Có thể nhìn thấy rõ rệt điểm bất thường trên phổ của tín hiệu âm thanh đã nhiễm nhiễu
Hình 3.5: Phổ của tín hiệu, Phổ của nhiễu và Phổ của tín hiệu có nhiễu
Trong thực nghiệm, tín hiệu sạch và tín hiệu có nhiễu được phân tích, cho thấy giá trị SNR trước lọc là -29.93 và sau lọc là -21.15, với chênh lệch khoảng 8.78 dB Phân tích phổ tín hiệu cho thấy phổ của nhiễu hẹp hơn so với phổ của tín hiệu, dẫn đến việc nhiễu bị chìm trong tín hiệu, khiến cho việc phát hiện nhiễu qua biến đổi Wavelet trở nên khó khăn.
Trong thực nghiệm 3, do phổ tín hiệu rộng, chúng ta đã điều chỉnh tín hiệu để tạo ra các điểm nhiễu trắng có tần số lớn, vượt trội hơn so với tín hiệu sạch.
Hình 3 7 :Tín hiệu sạch, Tín hiệu có nhiễu, Tín hiệu sau lọc, Sai lệch giữa tín hiệu sạch và sau lọc
Hình 3.8: Phổ của tín hiệu, Phổ của nhiễu và Phổ của tín hiệu có nhiễu
Trong thực nghiệm 3, chúng ta nhận thấy khả năng phát hiện điểm kỳ dị trong tín hiệu âm thanh được cải thiện rõ rệt, đặc biệt là khi đối mặt với nhiễu tần số cao Biến đổi Wavelet đã chứng minh hiệu quả trong việc phân tích và xử lý tín hiệu này.