Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 24 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
24
Dung lượng
3,18 MB
Nội dung
Trường Đại Học Bách Khoa Hà Nội VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG =======&&&======= Báo cáo đồ án Đề tài: Tăngcườngchấtlượngtínhiệutiếngnói GVHD : PGS.TS Trịnh Văn Loan SV thực hiện : Nguyễn Hưng 20071458 LỚP : KTMT – K52 1 Người Nhận : PGS.TS Trịnh Văn Loan Người Gửi : Nguyễn Hưng Đề tài: TăngCườngChấtLượngTínHiệuTiếngNói I. Tăngcườngchấtlượngtínhiệutiếngnói là gì: Tăngcườngchấtlượngtínhiệutiếngnói liên quan đến việc cải thiện cảm nhận của người nghe với tiếngnói bị suy giảm chấtlượng do sự ảnh hưởng của nhiễu có trong tiếng nói. Trong hầu hết các ứng dụng thì việc tăngcườngchấttínhiệutiếngnói chính là cải thiện về chấtlượng và tính dễ nghe của tiếngnói đã bị suy giảm do nhiễu gây ra. Việc xử lý mà tốt thì sẽ giúp cho người nghe dễ nghe hơn. Kể cả trong môi trường có mức độ nhiễu cao và liên tục trong thời gian dài. Trong thực tế có rất nhiều nguồn nhiễu như là nhiễu trên tàu hỏa,trên máy bay, trong phòng , trong bệnh viện…Tùy vào mỗi môi trường sẽ có yêu cầu tăngcườngchấtlượng và xử lý khác nhau. Ví dụ : với thông tin thoại thì chịu ảnh hưởng của nhiễu nền từ ô tô, nhà hàng khi truyền tới đich. Vì thế thuất toán tăngcườngchấtlượngtínhiệu có thể được xử lý ngay tại điểm thu, trong các khối tiền xử lý. Tuy nhiên nếu xét về phương diện thực tế thì các thuật toán Speed Enhancement chỉ có thể cải thiện được chấtlượng của tiếng nói. Nó có thể giảm được nhiễu nền trong tiếng nói. Tuy nhiên nó sẽ làm tăng độ méo của tiếng nói. Do đó yêu cầu chính của việc thiết kế một thuật toán là việc đảm bảo nén được nhiễu và không được gây ra méo trong sự cảm nhận tínhiệutiếng nói. Giái pháp đưa ra còn phụ thuộc vào ứng dụng chúng ta sử dụng. Các vấn đề như là nguồn nhiễu, giao thoa nhiễu, mối liên hệ giữa nhiễu và tiếngnói sạch. 2 II. Lý thuyết về nhiễu: II.1.Nguồn nhiễu : Nguồn nhiễu tồn tại ở mọi nơi, trên phố, văn phòng, nhà hàng, các bến xe, khu vui chơi giải trí, các công trường xây dựng…Nó tồn tại dưới nhiều hình dạng và hình thức khác nhau. Nhiễu có thể hình thành ở một nơi cố định và không thay đổi theo thời gian. Ví dụ tiếng ồn phát ra từ quạt máy tính. Nhiễu có thể ở nhiều chỗ khác nhau, như trong các quán ăn, nhà hàng. Các đặc tính về phổ trong nhà hàng thay đổi không theo quy luật nên việc nén nhiễu trong các môi trường có nhiễu thay đổi như vậy sẽ gặp nhiều khó khăn. Các đặc tính đặc biệt khác nhau của các loại nhiễu đó là hình dạng của phổ và sự phân bố của năng lượng nhiễu trong miền tần số. Ví dụ nhiễu gây ra bởi gió thì năng lượng nó tập trung ở tần số thấp hơn 500 Hz. Nhưng đối với nhiễu trong nhà hàng,trên xe lửa…thì nó lại phân bố trên một dải tần số rộng. Hình1 : Dạng và sự phân bố năng lượng trung bình nhiễu trên xe Hình 2.Dạng và sự phân bố năng lượng trung bình trên tàu. 3 Hình 3.Dạng và sự phân bố năng lượng trung bình trong nhà hàng. 2.2.Nhiễu và mức tínhiệutiếngnói trong các môi trường khác nhau: Điểm tới hạn trong việc thiết kế các thuật toán của Speed Enhancement là sự nhận biết sự biến thiên của tiếngnói và mức độ cường độ nhiễu trong môi trường thực tế. Từ đó chúng ta có thể mô tả miền biến thiên của mức độ tỷ số tínhiệu trên nhiễu (SNR) được bắt gặp trong môi trường thực tế. Mức độ của tiếngnói và nhiễu được đo bằng mức độ âm thanh. Phép đo ở đây là đo mức độ áp suất của âm thanh tính bằng dB SPL(Sound Pressure Level). Khoảng cách cũng ảnh hưởng tới cường độ âm thanh. Khoảng cách đặc trưng trong giao tiếp mặt giáp mặt là 1m. Khi khoảng cách tăng gấp đôi thì mức cường độ âm giảm đi 6 dB. Hình 4:Mức nhiễu và tiếng nói(được đo bằng SPL dB) trong các môi trường khác nhau Hình trên là sự tổng hợp về mức độ âm trung bình giữa tiếngnói và nhiễu trong các môi trường khác nhau. Mức độ nhiễu nhỏ nhất trong các môi trường phòng học trong nhà 4 ở trong bệnh viện và trong các tòa nhà. Trong các môi trương khác nhau thì mức độ nhiễu nằm trong khoảng 50-55 dB SPL. Và mức độ của tiếngnói là 60-70 dB SPL. Và ta đưa ra mức tỷ số tínhiệu trên nhiễu là 5-15 dB. Mức độ âm của nhiễu cao trong các môi trường tàu điện, trên máy bay nó đạt 70-75 dB SPL. Do đó mức tỷ số SNR() là bằng 0 dB. III. Một số phương pháp đánh giá chấtlươngtínhiệutiếng nói. III.1 . Đánh giá chủ quan III.1.1 .Phương pháp đánh giá tuyệt đối ACR: -MOS (Mean Opinion Scores ): là phép đo chấtlượng thoại nổi tiếng. Mang tính chất chủ quan. Có 2 phương pháp kiểm tra là đánh giá đàm thoại và đánh giá độ nghe. Score Quality of the Speed Level of Distortion 5 Excellent Imperceptible 4 Good Just perceptible,but not annoying 3 Fair Perceptible and slight annoying 2 Poor Annoying but not Objectinable 1 Bad Very annoying and Objectionable III.1.2 Các phương pháp đánh giá tương đối III.1.2.1 Đánh giá bằng phương pháp so sánh mẫu tínhiệu Đó là thích nghe mẫu nào hơn. Hay thường gọi là so sánh đánh giá theo từng cặp tín hiệu. Phương pháp này thì người nghe sẽ được nghe 2 mẫu thoại và sẽ đánh giá thích mẫu nào hơn. Một biến thể của phương pháp này là Theshold Test. Phương pháp này thì so sánh tínhiệu đã qua xử lý với tínhiệu gốc chuẩn mà độ suy giảm của nó có thể được kiểm soát. Rating Quality of speech 3 Much better 2 Better 1 Slightly Better 0 About the Same -1 Slightly Worse -2 Worse -3 Much Worse III.1.2.2 Phương pháp đánh giá theo suy giảm chấtlượng Degradation Category Rating (DCR) đó là sự giảm sút về chấtlượng của tínhiệu đã qua xử lý so với tínhiệuchấtlượng cao chưa được xử lý 5 Rating Degradation 1 Very Annoying 2 Annoying 3 Sightly annoying 4 Audible but not annoying 5 Inaudible III.2 Đánh giá Khách quan Là phương pháp đánh giá dựa trên các phép đo thuộc tính của tínhiệu 3.2.1 PESQ Là 1 trong các phương pháp đánh giá khách quan.Nó có độ phức tạp tính toán nhất. Được khuyến nghị bởi ITU-T cho việc đánh giá chấtlượngtiếngnói với tần số 3.2kHz (narrow-band) máy thu phát điện thoại cầm tay và narrow-band speech codecs.Thuật ngữ PESQ được tính như phương trình tuyến tính kết hợp giữa giá trị nhiễu loạn trung bình D ind và giá trị nhiễu loạn bất đối xứng A ind như công thức bên dưới: PESQ=a 0 + a 1 D ind + a 2 A ind (1) Khi mà a 0 = 4.5 , a 1 = -0.1 và a 2 = -0.0309. Giá trị a 0, a 1, a 2 là optimized cho việc xử lý tiếngnói trên mạng và không cho việc xử lý tiếngnói bởi các thuật toán nén. Một cách không mong muốn PESQ lien quan tới 3 tiêu chí cho các phương pháp đo lường đó là: méo tíêng nói, méo tiếng ồn, và toàn bộ chất lượng. Chúng ta hãy tối ưu hóa phương pháp PESQ bằng việc quan tâm tới 1 trong 3 tiêu chí trên. Ứng với mỗi tiêu chí sẽ có 1 tập (a 0, a 1, a 2 ) khác nhau. Nhiều bộ hồi quy tuyến tính thường quyết định tham số a 0, a 1 và a 2 . Giá trị D ind , A ind được tính toán như giá trị độc lập trong phân tích hồi quy. Thực tế thì điểm chủ quan cho 3 tiêu chí được sử dụng trong phân tích hồi quy. 3.2.2 Đo tỷ số tínhiệu trên nhiễu từng khung: Đo SNR trên từng khung trong miền thời gian là phương pháp đánh giá về mặt toán đơn giản nhất. Quan trong là tínhiệu gốc và đã qua xử lý phải trong cùng miền thời gian, độ lệch pha hiện thời phải được hiệu chỉnh chính xác. Công thức: 6 SNR seg = (2) Trong đó : x(n) là tínhiệu gốc( tínhiệu thu được có nhiễu). là tínhiệu đã được tăngcường đã loại nhiễu. N : là chiều dài khung. M : là số khung của tín hiệu. Một cách khác xác định SNRseg do Richards đề xuất: SNR segR = ) (3) Như vậy có thể tránh được các giá trị sai lệch lớn trong suốt các khoảng lặng của tínhiệutiếng nói. Chú ý rằng giá trị nhỏ nhất có thể đạt được bây giờ là 0 đã tốt hơn nhiều so với các giá trị âm vô cùng. Ưu điểm chính của việc xác định trước phân đoạn SNR là tránh được việc phải làm rõ ràng giữa các khoảng tiếngnói và khoảng lặng. Đo SNR cho từng khung có thể mở rộng trong miền tần số: fwSNR seg = (4) trong đó : B j là trọng lượng tại dải tần thứ j K: số dải tần. M: tổng số khung tín hiệu. F(m,j): Dãy tínhiệu gốc qua bộ lọc đã được khuếch đại tại dải lần thứ j và khung thứ m. 7 : dãy tínhiệu đã được tăngcường qua lọc khuếch đại ở cùng một dải tần với F(m,j). Ưu điểm chính của việc sử dụng SNRseg trên miền tần số thay vì miền thời gian tăng thêm tính linh động của việc phân bố trọng số của phổ khác nhau cho những dải tần khác nhau. 3.2.3 Đo khoảng cách dựa trên LPC 3.2.3.1.Phương Pháp LLR Được định nghĩa theo công thức sau. d LLR ( p , c ) = log( ) (5) trong đó c là vector LPC của khung tínhiệu ban đầu. p là vector LPC của khung tínhiệu đã được tăngcường và R c là ma trận tự tương quan của tínhiệutiếngnói ban đầu. Chỉ 1 khoảng nhỏ 95% giá trị của khung LLR là được sử dụng để tính giá trị trung bình LLR, giá trị LLR được giới hạn trong [0, 2] để giảm bớt giá trị ngoại lệ. 3.2.3.2Phương pháp IS(Itakura Saito) Là phương pháp đo khoảng cách dựa trên LPC của 2 khung tínhiệu tương ứng. d IS ( p , c ) = ( ) + log( ) -1 (6) trong đó là sự gia tăng LPC của tínhiệu sạch và tínhiệu được tăngcường tương ứng. Giá trị IS được giới hạn trong khoảng [0,100] . Đó là cần thiết để cực tiểu hóa giá trị ngoại lệ. 3.2.3.3 Phương pháp Cepstrum distance provides(CEP) Là 1 sự ước lượng log spectral distance giữa 2 phổ. Nó tồn tại đệ quy từ hệ số tiên đoán LPC { a m } sử dụng biểu thúc bên duwois. c(m)= a m + c(k) a m-k 1<= m<=p (7) 8 với p là bậc của phân tích LPC. d CEP ( c , p ) = (8) với c , p là vector cepstrum coefficient của tínhiệu sạch và tăng cường. Khoảng cách Cepstrum được giới hạn trong khoảng [0,10] để cực tiểu hóa giá trị không mong muốn. 3.2.4 Đánh giá theo mô phỏng cảm nhận nghe của con người Phương pháp này chú ý tới khă năng nghe của con người.mà các phương pháp khác không có. 3.2.4.1Phương pháp đo Weighted spectral Slope Weighted spectral Slope Measure (WSSM) được định nghĩa là phương pháp đo số lần giá trị trung bình mà chỉ những khung tínhiệu tốt được tính. WSSM có khác biệt so với Spectral Slope ở trên 25 dải tần số tới hạn giữa 2 khung tínhiệu tương ứng. Đấu tiên năng lượng của 25 dải tần số này là được tính toán cả 2 tínhiệu s(n) gốc sạch và tínhiệu được tăngcường và kết quả là E s (f) và độc lập với nhau. Độ dốc phổ của mỗi dải tần số được định nghĩa như sau. (9) (f)= (f+1) - (f) (10) Sau đó đỉnh gần nhất P(f) được xác định tìm kiếm đi lên nếu E(f)>0 và đi xuống còn lại. Sau đó trọng lượng của mỗi dải sẽ được tính : W(f) = (11) Với : = (12) 9 (13) Độ lớn trọng lượng hoạc là đỉnh của dải gần nhất hoặc là các chân( chỗ trũng như thung lũng) và có thể là đỉnh lớn nhất trong phổ. Cuối cùng WSSM được tính như là WSS = (14) Giá trị trung bình được tính dựa trên sự đồng bộ giữa các khung tínhiệu tốt. 3.2.4.2 Phương pháp đo Bark Distortion Phương pháp đánh giá WSS làm mẫu cho việc đánh giá bằng cách nào con người nhận biết được tiếng nói, đặc biệt là nguyên âm . Các phương pháp về sau thì càng dựa vào sự xử lý âm thanh của tai người, cách mà thính giác của con người xử lý âm thanh và nhiễu. Các lập luận đưa ra là : + Sự phân tích tần số của tai người là không đổi. + Độ nhạy của tai người phụ thuộc vào tần số âm thanh. + Âm thanh lớn ứng với độ mạnh của tínhiệu trong miền phi tuyến tính. Thính giác thì mô phỏng theo 1 loạt biến đổi của tínhiệu âm thanh.Cả tínhiệu gốc và qua xử lý phải trải qua hang loạt biến đổi này. Xuất hiện cái gọi là phổ âm lượng. Phương pháp BS sử dụng khoảng cách giữa các phổ này như là đánh giá chấtlượng chủ quan. 10 [...]... lý tiếngnói như là tăngcườngchấtlượngtínhiệu nhờ loại bỏ nhiễu Tiếngnói tạm ngừng hay chỉ có nhiễu là được ước lượng để ước lượng cập nhật nhiễu Do đó việc ước lượng là chính xác hơn.Trong kỹ thuật mã hóa tiếng nói, mục đích của cách làm này là làm tăng tốc độ truyền tải thông tin Chỉ những đoạn có tiếngnói mới được truyền đi Do đó làm tăng tính dễ nghe của tín hiệu. Thông tin chứa trong tín hiệu. .. có thể thay thế bằng giá trị trung bình của nó được tính trong khi không có tiếng nói, và pha của tínhiệu nhiễu có thể thay thế bằng pha của tínhiệu bị nhiễu (18) Ký hiệu ‘^’ để chỉ rằng giá trị đó là giá trị ước tính gần đúng Tín hiệutiếngnói được tăngcường có thể được bằng cách biến đổi IDFT của Chú ý biên độ phổ của tínhiệu đã được tăngcường có thể bị âm Tuy nhiên, biên độ của phổ thì không... trong tínhiệu Nó dựa trên một nguyên tắc cơ bản là,thừa nhận sự có mặt của nhiễu,ước lượng phổ của tiếngnói sạch bằng cách tiếngnói đã bị nhiễu trừ đi phổ của nhiễu Phổ của nhiễu có thể được ước lượng cập nhật trong nhiều chu kỳ khi không có mặt của tín hiệu( áp dụng với nhiễu có tốc độ biến thiên chậm) Việc tăngcườngtínhiệu đã đạt được bằng cách tính IDFT của phổ tínhiệu đã được ước lượng có... detection Một vấn đề quan trọng trong ứng dụng xử lý tiếngnói là xác định thời gian có tiếngnói trong 1 tínhiệu âm thanh nhất định Đặc điểm của tiếngnói có thể coi như đoạn tínhiệu không liên tục Nó chỉ mang thông tin khi ai đó đang nói Các phần mà tồn tại tiếngnói gọi là vùng có tiếng nói, ngược lại là khoảng lặng Một thuật toán để xác định nơi nào có tiếngnói hoạt động, nơi nào không có ví dụ như là...IV.Thuật toán tăngcườngchấtlượng tín hiệutiếng nói: 4.1.Sơ đồ khối chung của Spectral Subtraction và Wienner Filtering: Phân tích tínhiệu thành các frame Overlap và FFT Hàm xử lý giảm nhiễu IDFT adding Tínhiệu sạch Ước lượng nhiễu Tínhiệu bị nhiễu Cả 2 thuật toán Spectral Subtraction và Wiener filter chỉ khác nhau ở khối... biên độ điển hình.p=2 là phương pháp trừ phổ công suất Sơ đồ khối : Ước lượng, cập nhật nhiễu Tínhiệu bị nhiễu Y (ω ) FFT |.|p ^ | D(ω ) | p + Pha của tín hiệuTínhiệu sau khi tăngcường IFFT |.|1/p 4.3 Thuật toán Wiener Filtering: Nguyên lý cơ bản ,giả sử y(n) là tínhiệu vào đã bị nhiễu,nó là tổng của tínhiệu sạch và tínhiệu nhiễu d(n): y(n)=x(n) + d(n) (25) Y(ω)=X(ω)+D(ω) (26) thực hiện F ta... sử dụng tổng năng lượngtínhiệu để so sánh với 1 mức ngưỡng được tính toán Bên cạnh việc tính tổng năng lượng thuật toán được bổ sung bởi đo chu kỳ tínhiệu và tỷ lệ năng lượng tần số cao tới năng lượng tần số thấp cho viếc xác định chính xác hơn sự có mặt của nhiễu 5.1.1Những yếu tố cơ bản của thuật toán Những yếu tố cơ bản đó là một phần của những đặc tính hay chấtlượng của tínhiệu đầu vào sau... lượng và cập nhật nhiễu Phương pháp ước lượng nhiễu ảnh hưởng lớn đến chấtlượng của tínhiệu sau khi đã được tăngcường Nếu nhiễu được ước lượng quá nhỏ thì nhiễu vẫn còn Còn nếu quá lớn thì tiếngnói sẽ bị méo ảnh hưởng đến sự dễ nghe của nó Sử dụng thuật toán thăm dò (voice actity detection –VAD).Phương pháp này chỉ thỏa mãn với nhiễu không thay đổi Giảm tính hiệu quả trong các môi trường thực (ngoài... nhiễu Tiếngnói được phát hiện khi mà năng lượng ước tính lớn hơn ngưỡng If( E j> k E r ) với k > 1, frame là có tiếngnói (39) Else frame là không có tiếngnói Trong công thức này thì E r là biểu diễn cho năng lượng của frame nhiễu, khi k E r là ngưỡng được sử dụng trong sự phát hiện tiếngnói Có hệ số tỷ lệ k cho phép một dải an toàn cho việc sửa lại Er ( sửa lại giá trị ngưỡng ) Sự khác biệt năng lượng. .. (http://sound.eti.pg.gda.pl/denoise/noise.html ) Mục lục 2.2.Nhiễu và mức tín hiệutiếngnói trong các môi trường khác nhau: 4 3.2.3.1.Phương Pháp LLR 8 3.2.4 Đánh giá theo mô phỏng cảm nhận nghe của con người 9 3.2.4.1Phương pháp đo Weighted spectral Slope 9 3.2.4.2 Phương pháp đo Bark Distortion 10 IV.Thuật toán tăngcườngchấtlượng tín hiệutiếng nói: 11 4.1.Sơ đồ khối chung của Spectral . Loan Người Gửi : Nguyễn Hưng Đề tài: Tăng Cường Chất Lượng Tín Hiệu Tiếng Nói I. Tăng cường chất lượng tín hiệu tiếng nói là gì: Tăng cường chất lượng tín hiệu tiếng nói liên quan đến việc cải thiện. với tiếng nói bị suy giảm chất lượng do sự ảnh hưởng của nhiễu có trong tiếng nói. Trong hầu hết các ứng dụng thì việc tăng cường chất tín hiệu tiếng nói chính là cải thiện về chất lượng và tính. thuật xử lý tiếng nói như là tăng cường chất lượng tín hiệu nhờ loại bỏ nhiễu. Tiếng nói tạm ngừng hay chỉ có nhiễu là được ước lượng để ước lượng cập nhật nhiễu. Do đó việc ước lượng là chính