Nghiên ứu á phương pháp nâng ao hất lượng tiếng nói

Phương pháp này không thể cải thiện chất lượng và tính hiểu được intelligibility của tín hiệu tại cùng một thời gian.Trong thực tế, công việc nghiên cứu gần đây đã chứng minh rằng việc g

Trang 1

NGÔ THỊ LÊ

NGHIÊN CỨU CÁC PHƯƠNG PHÁP NÂNG CAO CHẤT

LƯỢNG TIẾNG NÓI

LUẬN VĂN THẠC SĨ KHOA HỌC CHUYÊN NGÀNH: ĐO LƯỜNG VÀ CÁC HỆ THỐNG

ĐIỀU KHIỂN

Người hướng dẫn: TS.Nguyễn Quốc Cường

Hà Nội – Năm 2012

Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan quyển luận văn “Nghiên cứu các phương pháp nâng cao

chất lượng tiếng nói” là công trình nghiên cứu của riêng tôi, dưới sự hướng dẫn

kết quả nghiên cứu trình bày trong luận văn là trung thực và chưa từng được ai công

bố trong bất kỳ một công trình nghiên cứu nào khác

Học viên

Ngô Thị Lê

Trang 3

MỤC LỤC

LỜI CAM ĐOAN 1

DANH MỤC KÍ HIỆU, CÁC CHỮ VIẾT TẮT 4

DANH MỤC HÌNH VẼ 5

PHẦN MỞ ĐẦU 6

Chương 1 Giới thiệu tổng quan về nâng cao chất lượng tiếng nói 8

1.1 Nâng cao chất lượng tiếng nói là gì 8

1.2 Tại sao phải nâng cao chất lượng tiếng nói 9

1.3 Lịch sử phát triển nâng cao chất lượng tiếng nói 10

1.4 Ứng dụng của nâng cao chất lượng tiếng nói. 10

1.5 Đánh giá chất lượng của các hệ thống nâng cao chất lượng tiếng nói như thế nào 11

Chương 2 Trình bày khái quát về các phương pháp nâng cao chất lượng tiếng nói sử dụng mảng míc 12

2.1 Loại bỏ nhiễu thích nghi (ANC) 13

2.1.1 Multichannel adaptive noise cancellation (MANC) 14

2.1.2 Multichannel crosstalk resistant ANC (MCRANC) 16

2.2 Nâng cao chất lượng tiếng nói sử dụng phương pháp băng thông nhỏ subband. 22

2.3 Phân tích các thành phần độc lập 24

2.3.1 Mô hình phân tích và trộn 24

2.3.2 Phân tách nguồn 26

2.4 Beamforming 29

Chương 3 Trình bày các thuật toán sử dụng trong phương pháp beamformer 31

3.1 Delay and Sum beamforming (DSB) 31

3.2 Generalized Sidelobe Canceller GSC 34

3.2.1 Cấu trúc GSC 34

3.2.2 Thuật toán tìm các hàm truyền 37

3.3 MVDR (minimum variance distortionless response) 38

3.4 Post-filter 40

3.4.1 Nguyên lý 40

Trang 4

3.4.2 Zelinski post-filter 41

3.4.3 Bộ lọc post filter dựa vào sự gắn kết trong môi trường nhiễu - 43

3.4.4 Multimicrophone postfilter 44

Chương 4 Các thuật toán xác định vị trí nguồn và thời gian trễ của tín hiệu 49

4.1 Thuật toán xác định vị trí nguồn 49

4.1.1 Hàm trọng lượng GCC và PHAT 49

4.1.2 Xác định vị trí nguồn dựa vào ML TDOA 50

4.1.3 Xác định vị trí của nguồn dựa vào SRP 51

4.1.4 Thuật toán SRP-PHAT 52

4.2 Thuật toán ước lượng thời gian trễ TDE 54

4.2.1 Tương quan chéo CC (Cross-correlation) 54

4.2.2 Phương pháp generalized cross-correlation GCC 54

Chương 5 Kết quả mô phỏng 56

Chương 6 Thuật toán cải thiện từ thuật toán GSC 58

6.1 Tần số của âm thanh 58

6.2 Bộ lọc thích nghi ràng buộc (LCAF) 58

6.3 Phương pháp đề xuất 60

6.4 Kết quả mô phỏng. 62

Chương 7 Hướng phát triển của nâng cao chất lượng tiếng nói 64

Tài liệu tham khảo 65

Trang 5

DANH MỤC KÍ HIỆU, CÁC CHỮ VIẾT TẮT

MCRANC : Multichannel crosstalk resistant ANC

Trang 6

DANH MỤC HÌNH VẼ

Hình 2.1 S ơ đồ loại bỏ nhiễu thích 15

Hình 2.2 Lan truyền tín hiệu nhiễu và tiếng nói từ nguồn phát tới các míc thu 16

Hình 2.3 Cấu trúc MCRANC 18

Hình 2.4 Cấu trúc ph ng pháp nâng cao chất lượng tiếng nói sử dụng băng thông con ươ dùng 23

Hình 2.5 Mô hình BSS trộn tức 24

Hình 2.6 Mô hình BSS trộn xoắn 25

Hình 2.7 Mô hình phân tích Feed- forward 27

Hình 2.8 Mô hình cấu trúc feedback 28

Hình 3.1 H ướng truyền sóng 31

Hình 3.2 Delay and sum beamformer 32

Hình 3.3 Cấu trúc GSC 34

Hình 3.4 Nguồn và nhiễu trong mảng nhiều míc, nhiều đường truyền 40

Hình 3.5 Fixed – sum beamforming với post - filter 41

Hình 3.6 S ơ đồ multimicrophone postfilter 45

Hình 5.1 Tín hiệu thu được sau mảng míc 56

Hình 5.2 Tín hiệu thu được sau khi sử dụng phươ ng pháp DSB 56

Hình 5.3 Tín hiệu thu được sau khi sử dụng phươ ng pháp GSC 57

Hình 6.1 Cấu trúc bộ lọc ràng buộc 59

Hình 6.2 S ơ đồ thuật toán 61

Hình 6.3 Tín hiệu thu được từ mảng míc 62

Hình 6.4 Sau khi sử dụng phươ ng pháp GSC cải tiến kết quả thu đư ợc sau 63

Hình 6.5 Tín hiệu trên sau khi sử dụng phươ ng pháp OLMSA 63

Trang 7

PHẦN MỞ ĐẦU

Lí do chọn đề tài

Tiếng nói là phương tiện giao tiếp tự nhiên của con người, việc sử dụng nó trong các bài toán điều khiển các thiết bị là mong muốn của con người Tuy nhiên, trong môi trường luôn tồn tại nhiễu như tiếng ô tô, tiếng động cơ,… với cường độ khác nhau làm cho chất lượng tiếng nói bị giảm xuống Một bài toán được đặt ra là làm sao có thể nâng cao được chất lượng của tiếng nói tốt nhất có thể

Nâng cao chất lượng tiếng nói là một lĩnh vực nghiên cứu tồn tại từ lâu và

đã đạt được nhiều thành tựu đáng kể, ứng dụng nhiều trong thực tế Một số ứng dụng có thể kể đến như áp dụng cho các máy trợ thính, mã hóa tiếng nói hay trong các hệ thống nhận dạng tiếng nói tự động mà ứng dụng cho các bài toán giao tiếp giữa người và robot, các hệ thống truyền nhận tiếng nói như VoiIP… Việc nghiên cứu và triển khai các phương pháp nâng cao chất lượng tiếng nói trên PC đã có một nền tảng khá vững chắc, cùng với sự phát triển nhanh chóng của khoa học và kĩ thuật, tốc độ tính toán của các phương pháp này trên máy PC ngày càng được cải

Lịch sử nghiên cứu

Các phương pháp nâng cao chất lượng tiếng nói đã được nghiên cứu trong được 30 năm trên thế giới và có những kết quả khả quan

Mục đích nghiên cứu của luận văn

Nghiên cứu đánh giá các phương pháp nâng cao chất lượng tiếng nói sử dụng mảng míc Lựa chọn phương pháp phù hợp cho hệ thống nhận dạng tiếng nói

Các đóng góp mới

Đã đề xuất được một thuật toán nâng cao chất lượng tiếng nói có những ưu điểm hơn so với các phương pháp hiện có đặc biệt là trong ứng dụng cho các hệ thống nhận dạng tiếng nói và thuật toán mới còn có những cải tiến khi được đánh giá cảm nhận bởi tai người

Trang 8

Phương pháp nghiên cứu

Nghiên cứu dựa trên phương pháp beamformer đã được nghiên cứu rất nhiều Đặc biệt thuật toán này được sử dụng rất nhiều trong thực tế vì nó là một trong những thuật toán bám sát sự thay đổi của nhiễu, sự di chuyển của nguồn phát

ra tiếng nói

Nâng cao chất lượng tiếng nói là một trong những vấn đề quan trọng trong giao tiếp và trong lĩnh vực xử lý tiếng nói Nó thường được biết đến như là sự làm suy yếu tín hiệu nhiễu so với tín hiệu tiếng nói, hoặc tách tín hiệu nhiễu ra khỏi tín hiệu thu được từ microphone Tuy nhiên, hiện nay các nghiên cứu để nâng cao chất

hoặc tách tiếng ồn xung quanh là do đối tượng phát ra tiếng nói không đứng yên để

mô hình hóa

Trong lĩnh vực này, hai kỹ thuật nâng cao tín hiệu tiếng nói được giới thiệu như là nền tảng cơ bản Một là phương pháp trừ phổ, là phương pháp phổ biến nhất

là phương pháp sử dụng bộ lọc không gian và thời gian, sử dụng nhiều míc Trừ phổ

trong việc nâng cao tín hiệu tiếng nói, đơn giản là tạo thành một chùm tia tới người nói Tuy nhiên, trừ phổ có nhược điểm quan trọng không thể tránh khỏi là sự biến

người Beamforming không thể nâng cao tín hiệu tiếng nói mà không cần một số lượng lớn míc

Trang 9

Chương 1 Giới thiệu tổng quan về nâng cao chất lượng tiếng n ói

1.1 Nâng cao chất lượng tiếng nói là gì

Lời nói là công cụ hiệu quả nhất và thuận tiện nhất cho giao tiếp của con người Nó đóng vai trò quan trọng trong cuộc sống hàng ngày của chúng ta Tuy nhiên, “chúng ta sống trong thế giới ồn ào” Tín hiệu tiếng nói bị xuống cấp bởi tiếng ồn Ví dụ, khi sử dụng máy ghi âm, bộ đàm, giao diện máy tính và nhiều công

cụ phát triển khác, các tín hiệu tiếng nói mong muốn thường bị xuống cấp bởi môi trường tiếng ồn, và tiếng ồn bộ máy nội bộ Rất cần thiết phải ngăn chặn hoặc hủy

bỏ tiếng ồn trong tín hiệu thu được trước khi chúng ta chuyển, phục hồi hoặc hiểu

nó Vì vậy, gọi là nâng cao tiếng nói nhằm mục đích nâng cao chất lượng và hiểu tín

bàn, điện thoại di động, VoIP, máy trợ thính, các viễn thông địa phương và đường dài, điều khiển máy bằng giọng nói, nhận dạng giọng nói tự động…

Tuy nhiên, nâng cao tín hiệu tiếng nói là một mục tiêu khá phức tạp và khó khăn cho các nhà nghiên cứu Nghiên cứu làm việc trong lĩnh vực này bắt đầu vào những năm 1960 Đến bây giờ, rất nhiều công việc đã được thực hiện và nhiều cách tiếp cận đã được đề xuất Tuy nhiên các cách này vẫn chưa giải quyết hết các vấn đề trong lĩnh vực này Nhiều thuật toán sử dụng 1 kênh tín hiệu để nâng cao tiếng nói Phương pháp này không thể cải thiện chất lượng và tính hiểu được (intelligibility) của tín hiệu tại cùng một thời gian

Trong thực tế, công việc nghiên cứu gần đây đã chứng minh rằng việc giảm tiếng ồn chỉ có thể đạt được với việc chấp nhận sự biến dạng giọng nói nếu chỉ sử dụng một kênh tín hiệu Nói cách khác, chúng ta không thể tránh biến dạng giọng nói trong khi đàn áp tiếng ồn Kết quả là, hiệu quả của phương pháp tiếp cận một kênh nâng cao tiếng nói khá hạn chế mặc dù một số các phương pháp tiếp cận đã được sử dụng trong các ứng dụng thực tế

Để nâng cao hiệu quả của việc tăng cường tiếng nói, một trong những phương pháp sử dụng míc là một mảng nhiều míc Rõ ràng là một mảng míc có thể

Trang 10

đạt được hiệu suất tốt hơn vì nó cung cấp cho chúng ta nhiều hơn một kênh tín hiệu

đó Trong những năm gần đây đã chứng minh về mặt lý thuyết rằng, một mảng míc

có thể ngăn chặn việc tiếng ồn bóp méo tiếng nói là tối thiểu

Hầu hết các phương pháp hoặc thuật toán cho mảng nhiều míc phát biểu nâng cao chất lượng tiếng nói sử dụng mảng míc khá lớn Một mảng míc có kích thước lớn có nhiều hạn chế trong các ứng dụng Nếu mảng míc được ứng dụng trong điện thoại di động, nghe viện trợ PDA, các mảng míc này phải đủ nhỏ để nhúng vào thiết bị nhỏ Vì vậy, nghiên cứu các phương pháp hoặc thuật toán nâng cao chất lượng tiếng nói sử dụng mảng nhiều míc có kích thước nhỏ có tầm quan trọng rất lớn và có giá trị lớn

Chúng ta gọi là các mảng micro, có thể được nhúng vào trong một điện thoại, điện thoại di động, máy trợ thính… Mảng míc này có khoảng cách giữa 2 míc xa nhau nhất nói chung là ít hơn 8cm và thường sử dụng ít hơn 8 míc Nhưng cũng có một số ứng dụng sử dụng mảng míc dài vài mét và sử dụng hàng trăm míc Luận án này sẽ tập trung vào việc nghiên cứu các phương pháp và thuật toán cho

nghiệm đánh giá về hiệu năng cũng như chất lượng của thuật toán nâng cao tín hiệu tiếng nói sử dụng mảng míc

1.2 Tại sao phải nâng cao chất lượng tiếng nói

Chất lượng của việc trao đổi thông tin bằng tiếng nói giữa người nói và người nghe, giữa người và máy thường bị giảm sút rất nhiều nếu trong môi trường

có nhiều tiếng ồn, do chất lượng của đường truyển, do đó sẽ gây đến một cảm giác khó chịu cho người nghe cũng như làm giảm chất lượng của các hệ thống giao tiếp giữa người và máy Trong các hệ thống giao tiếp người máy nếu chất lượng của các quá trình trao đổi thông tin bị kém dẫn đến thông tin đưa ra là sai lệch và làm cho

hệ thống hoạt động không theo mong muốn Do đó vấn đề cải thiện chất lượng của quá trình trao đổi thông tin bằng tiếng nói được đặt ra cấp thiết nhằm đưa lại kết quả

Trang 11

• Cải thiện tính hiểu được của tiếng nói để con người nghe

• Cải thiện chất lượng của lời nói, mà có thể chấp nhận được để con người nghe

• Sửa đổi tiếng nói để cải thiện hiệu suất của hệ thống nhận dạng tự động tiếng nói

• Sửa đối tiếng nói để có thể mã hóa hiệu quả hơn để lưu trữ hoặc truyền đi

1.3 L ịch sử phát triển nâng cao chất lượng tiếng nói

Do thực tế yêu cầu nên nghiên cứu phương pháp nâng cao chất lượng tiếng nói thực sự bắt đầu từ những năm 1960 Lĩnh vực nghiên cứu được mở rộng dần và đặc biệt có những bước đột phá trong những năm gần đây

Trong khoảng 50 năm qua, một số lượng lớn các thuật toán nâng cao chất lượng tiếng nói đã được đề xuất Có nhiều cách phân loại các thuật toán này Tuy nhiên, theo số lượng míc sử dụng, các thuật toán có thể phân loại thành: thuật toán một kênh (sử dụng 1 míc) và các thuật toán đa kênh (sử dụng mảng míc)

Những năm 1980, chủ yếu phát triển các thuật toán nâng cao chất lượng tiếng nói sử dụng 1 míc Trong các thuật toán này có, phương pháp trừ phổ năng lượng, bộ lọc Weiner và các thuật toán dựa vào mô hình tĩnh (statistical) Sau những năm 1990, các thuật toán đa kênh (sử dụng mảng míc) đã phát triển mạnh mẽ với nhiều thuật toán được đề xuất

Trong những năm gần đây, nhiều trường đại học và viện nghiên cứu tham gia nghiên cứu lĩnh vực này Các thuật toán mới liên tục được đưa ra cho cả phương pháp 1 míc và mảng nhiều míc

1.4 Ứng dụng của nâng cao chất lượng tiếng nói

Một số sản phẩm có sử dụng phương pháp nâng cao chất lượng tiếng nói như máy trợ thính kỹ thuật số, míc định hướng (super directive microphone), điện thoại

di động chống tiếng ồn, các thuật toán được sử dụng chủ yếu là phương pháp 1 kênh tín hiệu Nhóm nghiên cứu Windrow tại trường đại học Stanford đã thiết kế vòng cổ

Trang 12

mảng micro cho các máy trợ thính kỹ thuật số Các míc siêu định hướng đã được Audio – technica công bố năm 2004 trong đó có 5 míc tạo thành beamforming Tập đoàn Microsoft cũng giới thiệu kỹ thuật mảng míc cho máy tính để bàn năm 2005, tăng chất lượng tiếng nói và tăng tỉ lệ nhận dạng giọng nói…

1.5 Đánh giá chất lượng của các hệ thống nâng cao chất lượng tiếng nói như thế nào

Để đánh giá chất lượng của các hệ thống nâng cao chất lượng tiếng nói hầu hết là dựa vào việc đánh giá chất lượng của tiếng nói sau khi đã được xử lí bởi các

hệ thống Một yếu tố cũng quan trọng không kém trong việc đánh giá chất lượng của các hệ thống nâng cao chất lượng tiếng nói đó là tính đáp ứng thời gian thực của

hệ thống Chỉ riêng việc đánh giá chất lượng của tiếng nói sau khi xử lí cũng đã có rất nhiều tiêu chí đánh giá Nhưng tựu chung lại thì tiếng nói có thể được đánh giá khách quan dựa trên tính hiểu được của tiếng nói (Inteligibility) và chất lượng tổng thể của tiếng nói (speech quality) [1] Một số phương pháp đánh giá khách quan được sử dụng nhiều trong những đánh giá gần đây đó là đánh giá dựa trên so sánh tỉ

số tín hiệu trên nhiễu phân đoạn (segmented SNR), độ méo trên thang logarithm (log-spectral distortion) và chỉ số PESQ (Perceptual Evaluation of Speech Quality ) Ngoài ra cũng có một đánh giá dựa trên [36] cũng được tham chiếu đến nhiều

nếu nó thỏa mãn đồng thời cả ba tiêu chí : chỉ số tín hiệu trên nhiễu phân đoạn lớn,

độ méo trên thang logarithm nhỏ, và chỉ số PESQ là cao Ngoài ra còn có một số tiêu chí đánh giá dựa vào tăng tỉ lệ nhận dạng ở các hệ thống nhận dạng tiếng nói tự động Có thể một thuật toán tăng tỉ số tín hiệu trên nhiễu nhưng chưa đảm bảo có thể làm tăng chất lượng của hệ thống nhận dạng Do đó việc đánh giá khách quan không phản ánh hoàn toàn đúng chất lượng của hệ thống cải thiện tiếng nói khi đưa vào kết hợp với hệ thống nhận dạng Trong khuôn khổ luận văn này, nhằm hướng đến là các hệ thống nhận dạng tiếng nói nên tôi cũng sử dụng một số đánh giá thử nghiệm không những trực tiếp phụ thuộc vào tai người nghe mà còn cả thử nghiệm trên các hệ thống nhận dạng tiếng nói

Trang 13

Chương 2 Trình bày khái quát về các phương pháp nâng cao chất lượng tiếng nói sử dụng mảng míc

Các phương pháp nâng cao chất lượng tiếng nói truyền thống chủ yếu xoay quanh việc xử lý tín hiệu một kênh Các thuật toán này chỉ cần 1 míc do đó rất dễ dàng nhúng vào nhiều thiết bị âm thanh như điện thoại bàn, điện thoại di động, máy tính… Độ tính toán của phương pháp này thấp Có rất nhiều thuật toán cho phương

• Thuật toán dựa vào phổ thời gian ngắn

• Thuật toán dựa vào mô hình thống kê

• Thuật toán dựa vào mô hình tai nghe

• Thuật toán dựa vào mô hình phát tiếng nói

• Thuật toán trừ không gian con

• Thuật toán sử dụng phân tích sóng con

• Thuật toán phân tích tín hiệu một kênh

Phương pháp phổ thời gian ngắn có nội dung phong phú trong bài toán nâng cao tiếng nói 1 kênh Nó bao gồm một số thuật toán như phép trừ phổ, phép trừ phổ được cải thiện, lọc Weiner Năm 1979 Boll đề xuất một thuật toán đơn giản nhưng

hiệu tinh khiết và tính được quang phổ của nó Sau đó trừ quang phổ nhiễu được nâng cao từ phổ của tín hiệu thu được để ước lượng phổ của tín hiệu sạch Nó chuyển phổ tiếng nói được ước lượng vào trong miền thời gian để lấy tín hiệu trong miền thời gian đã được nâng cao Nhược điểm chính của phương pháp SS là gây ra

nhiễu nhỏ hơn năng lượng của tín hiệu tiếng nói, thì loại nhiễu âm nhạc là nhỏ và thậm chí là không thể cảm nhận bằng tai Một nhược điểm nữa của thuật toán SS là

Trang 14

cần VAD (Detector Voice Activity) Nếu không những sai sót trong ước lượng phổ nhiễu gây ra thiệt hại nghiêm trọng cho tín hiệu tiếng nói

Thuật toán dựa vào mô hình thống kê sử dụng ước lượng thống kê để ước lượng phổ của tín hiệu sạch trong môi trường có nhiễu Các thuật toán thực hiện sử dụng việc ước lượng xác suất phổ tín hiệu tiếng nói giống như ước lượng maximum

Virag đề xuất một thuật toán nâng cao chất lượng tiếng nói dựa trên tính chất mặt nạ

hệ thống thính giác của con người Sau đó, các thuật toán dựa vào bộ lọc cảm nhận

Các thuật toán dựa vào mô hình phát tiếng nói làm việc bằng cách sử dụng

mô hình theo đó tín hiệu tiếng nói được phát thông qua bộ lọc tuyến tính biến thiên theo thời gian kích thích bởi tín hiệu nguồn Nó ước lượng các thông số của bộ lọc

và sau đó phát ra tín hiệu tiếng nói đã được nâng cao thông qua các thông số đã được ước lượng

Các thuật toán không gian con phân tích không gian của tín hiệu mong đợi

và không gian con của nhiễu bởi việc phân hủy giá trị riêng của tín hiệu thu được Sau đó xây dựng lại tín hiệu tiếng nói sạch trong không gian tín hiệu mong muốn

Các thuật toán wavelet denoising bắt đầu là biến đổi wavelet tín hiệu thu được Sau đó loại bỏ các hệ số nhỏ trong biến đổi wavelet dựa vào đặc tính khác nhau hệ số của tín hiệu tiếng nói và hệ số của nhiễu Sau đó biến đổi ngược lại

2.1 Loại bỏ nhiễu thích nghi (ANC)

Trong các thuật toán nâng cao chất lượng tiếng nói, loại bỏ nhiễu thích nghi ANC là một trong những phương pháp quan trọng nhất Nó có thể được sử dụng với nhiều nhiễu khác nhau, dễ dàng đáp ứng tính năng thời gian thực cũng như độ tính toán ít phức tạp Không giống với các thuật toán yêu cầu một mảng míc lớn, nó có thể thực hiện tốt với một mảng míc có kích thước nhỏ

Trang 15

2.1.1 Multichannel adaptive noise cancellation (MANC)

Do sự phức tạp của việc lan truyền âm thanh, tín hiệu nhiễu được thu lại bởi kênh chính và kênh tham chiếu có thể không được hoàn toàn tương quan nhau trong các hệ thống ANC 2 míc Cùng một kết quả, hiệu suất của nâng cao chất lượng tiếng nói sử dụng 2 kênh bị hạn chế Đối với hiệu suất lớn, chúng ta nên sử dụng

Trong các thuật toán ANC, các kênh tham chiếu lý tưởng nên chỉ chứa tín hiệu nhiễu Mức độ cao hơn là tín hiệu tiếng nói chọn kênh tham chiếu, loại bỏ phần lớn tín hiệu tiếng nói trong các kênh chính, do đó tín hiệu tiếng nói được nâng cao càng tồi tệ hơn Tuy nhiên trong môi trường thực, ít khi xảy ra kênh tham chiếu chỉ chứa nhiễu Trong một mảng míc nhỏ, kênh tham chiếu chứa một lượng tín hiệu tiếng nói gần như bằng kênh chính

Trang 16

Hình 2.1 Sơ đồ loại bỏ nhiễu thíchTương tự, trong miền thời gian rời rạc, tín hiệu x(t) được thay bằng x(k)

Trang 17

Và

( )k 1( )k , 2( )k , , N( )k T

2.1.2 Multichannel crosstalk resistant ANC (MCRANC)

Chúng ta giả thiết rằng không có tín hiệu tiếng nói trong kênh tham chiếu Nhưng trong phần lớn môi trường thực, tín hiệu tiếng nói có thể lan truyền đến kênh tham chiếu, do đó tín hiệu trong kênh tham chiếu chứa cả tín hiệu tiếng nói, đặc biệt với mảng míc có kích thước nhỏ Do đó thuật toán ANC không còn phù hợp trong điều kiện này

Nếu như tín hiệu ở kênh chính và kênh tham chiếu chứa cả tín hiệu nhiễu và tiếng nói, chúng ta gọi là “crosstalk” của tín hiệu tiếng nói (hoặc của nhiễu)

Giả thiết, tín hiệu tiếng nói s(k) và nhiễu n(k) được phát ra từ các nguồn độc

Trang 18

Đáp ứng xung của môi trường trung gian giữa tín hiệu tín hiệu vào si(k) và

H z

( ) ( )

H z

Trong môi trường thực, tiếng ồn phát ra từ một nguồn nào đó có thể lan truyền tới míc thông qua nhiều đường dẫn bao gồm: lan truyền thẳng, phản xạ, khúc

xạ Tiếng ồn cũng có thể phát ra từ nhiều nguồn Chúng ta xem các tiếng ồn này được phát ra từ một nguồn kết hợp và tất cả các đường truyền được bao gồm trong

Giả sử, tín hiệu trên kênh chính tương quan với tín hiệu trên kênh tham chiếu, đó là giả định hợp lệ nếu các míc đặt gần nhau Khi tín hiệu tham chiếu có chứa cả tiếng nói thì phương pháp MANC không còn là phương pháp phù hợp cho bài toán nâng cao chất lượng tiếng nói Vì do hiệu ứng nhiễu xuyên âm trong điều kiện làm việc và do đó cả tín hiệu tiếng nói và nhiễu đều bị hủy bỏ

Thuật toán MCRANC trong hình vẽ dưới Nó chứa bộ VAD và hai bộ lọc thích nghi A và B Nó sử dụng đặc tính của tín hiệu tiếng nói là chỉ số thời gian có thể chia thành một loạt giai đoạn không tiếng nói NSP (non speech periods) và giai đoạn có tiếng nói HSP (having speech periods)

Trang 19

Trong giai đoạn không có tín hiệu tiếng nói NSP, các míc M0, M1, …, MN

giá trị 0, ta có:

Trang 20

( ) ( ) ( )

e k =n k − n k =n k0( )−w i i n ( )k =e k i1( )

(2.23)

1 i1

hoặc được lan truyền bằng nhiều đường Điều này có nghĩa, nhiễu dư trong kênh chính, sau khi loại bỏ bằng N nhiễu trong kênh tham chiếu, nhỏ hơn nhiễu dư trong bất kỳ kênh tham chiếu nào Thực tế này chỉ ra rằng, việc tăng số míc tham chiếu có thể làm tăng sự tương quan giữa nhiễu trong kênh chính và nhiễu trong kênh tham chiếu

Tuy nhiên, N quá lớn và L quá lớn sẽ làm cho việc tối ưu w trở nên khó khăn

và thiếu chính xác trong quá trình tính toán thực tế Vì thế, giá trị riêng số lượng míc và số lượng mẫu trễ thực sự cần chính xác

Véc to hệ số tối ưu của bộ lọc A cho việc cực tiểu hóa năng lượng tín hiệu

Trong suốt chu kỳ có tiếng nói Having Speech Period HSP, sau phần thời gian NSP, chúng ta giả thiết môi trường không thay đổi hoặc thay đổi chậm cho quá

Trang 21

trình lan truyền nhiễu Kết quả, đáp ứng xung nhiễu h n n i 0 ( )k trong đoạn HSP cũng tương tự như trong đoạn NSP trước đó Do đó:

Trang 22

Từ đó, chúng ta thấy p(k) thực sự làm cho tín hiệu tiếng nói bị méo, và nó có

Hơn nữa, năng lượng của p(k) thường là không nhỏ bằng năng lượng của ( )

1

sẽ không giảm như năng lượng của tiếng ồn Điều này có được là do tín hiệu tiếng nói có các đường lan truyền khác đường lan truyền của nhiễu Đó là sự bị ảnh hưởng của môi trường tuyền, vị trí của mảng míc, vị trí của nguồn tiếng nói và nguồn nhiễu Nó có thể coi là kỹ thuật dạng điểm không trong xử lý tín hiệu mảng Sau giai đoạn đầu tiên xử lý bộ lọc A, mảng míc định hình các điểm không tới các hướng trực tiếp của nhiễu từ đường truyền dẫn nhiễu tới míc bởi hướng trực tiếp, khúc xạ và phản xạ Tuy nhiên, các hướng lan truyền của tín hiệu tiếng nói sẽ không hoàn toàn rơi vào điểm không này

hiệu thương là việc tăng số lượng míc Trong giai đoạn thứ hai với bộ lọc B được sử

Để đạt được mục đích này, chúng ta chỉ cần điều chỉnh hệ số của bộ lọc B để

Trang 23

Để vượt qua sự biến động của nhiễu còn lại trong tiếng nói đã được nâng

Chúng ta có thể chỉ cần sử dụng một bộ VAD chung trong môi trường âm thanh cho hệ MCRANC Chúng ta có thể điều chỉnh hệ số của bộ lọc A chỉ khi NSP được đảm bảo bởi VAD và đóng băng hệ số của chúng ở tất cả các thởi điểm khác

2.2 Nâng cao chất lượng tiếng nói sử dụng phương pháp băng thông nhỏ subband

Hệ thống băng thông con phân chia tín hiệu có băng thông rộng thành một số

con là cho phép quá trình xử lý khác nhau trong mỗi băng thông con phụ thuộc vào các yếu tố như năng lượng của tín hiệu, năng lượng của nhiễu và mức độ tương quan giữa tín hiệu và nhiễu

Trang 24

Ngoài ra, việc thực hiện một sơ đồ loại bỏ nhiễu thích nghi thông thường trong một số băng con có tần số giới hạn cho phép hội tụ nhanh hơn các hệ số của

bộ lọc do sự suy giảm của năng lượng tín hiệu và chiều dài bộ lọc thích nghi trong

được tổng hợp lại bởi bộ lọc tổng hợp để hình thành nên tín hiệu tiếng nói đã được nâng cao trên toàn dải băng

Phương pháp băng thông con thường kết kợp với các phương pháp khác để giải bài toán nâng cao chất lượng tiếng nói

Trang 25

2.3 Phân tích các thành phần độc lập

Các phương pháp tách nguôn mù BSS thì thực hiện việc lọc lấy tín hiệu tiếng nói dựa trên các đặc tính thống kê của tiếng nói mà cụ thể là dựa vào tính độc lập thống kê giữa các nguồn âm mà không quan tâm đến vị trí của các nguồn âm trong không gian

2.3.1 Mô hình phân tích và trộn

Khó khăn lớn của phương pháp phân tích nguồn mù là phụ thuộc vào cách các tín hiệu được trộn lẫn trong môi trường vật lý Cách trộn đơn giản nhất là trộn tức thời, các thuật toán BSS đã được thiết kế Mặc dầu có đầy đủ cơ sở lý thuyết, các thuật toán bị hạn chế trong việc áp dụng thực tế phân tích tín hiệu trừ khi nỗ lực đưa vào việc thực thi hệ thống Các đường truyền dẫn âm thanh trong thế giới thực dẫn đến trộn xoắn các tín hiệu khi sử dụng các cảm biến âm thanh để đo, mức độ trộn lẫn rất có ý nghĩa trong vấn đề thời gian phản xạ của các căn phòng lớn Thêm một khó khăn gặp phải là số người nói lớn Kinh nghiệm cho thấy là tách bốn người

Mô hình phân tích và trộn tức thời

1 i m≤ ≤ , được kết hợp với nhau trong n tín hiệu mà míc thu được {xj(k)}, 1 j n≤ ≤

Trang 26

Trong đó {aji} là các hệ số của hệ thống trộn bất biến theo thời gian tuyến

Trong khi nhiều thuật toán phát triển cho trường hợp trộn tức thời, các thuật toán thực tế cho phân tích nguồn phải đưa mô hình trộn xoắn của đường truyền âm thanh vào trong quá trình tính toán

Mô hình phân tích và trộn xoắn

Trộn xoắn phát sinh trong môi trường âm thanh do kết quả của thời gian trễ

từ việc lan truyền âm thanh trong không gian và nhiều đường lan truyền được tạo ra bởi sự phản xạ âm thanh của các đối tượng khác nhau, đặc biệt là trong phòng Kết quả, m nguồn được trộn lẫn bởi hệ thống đa kênh phân tán theo thời gian

Trang 27

Với {xj(k)}, 1 j n≤ ≤ , là n tín hiệu mà míc thu được và {aijl} là hệ số của hệ

kích thước (n x m) Ở đây chúng ta có giả thiết các tín hiệu bị giới hạn băng thông nên tín hiệu lấy mẫu có thể thay thể liên tục (continous-time one)

Các thuật toán BSS trộn phải xem xét cả 2 vấn đề: sự không trộn lẫn về mặt không gian và sự thay đổi về mặt thời gian giới thiệu bởi hệ thống trộn Lý tưởng nhất, cấu trúc không gian của nguồn tín hiệu nguyên thủy sẽ được bảo quản trong kết quả ra của hệ thống phân tích, mặc dù tính năng này đòi hỏi một số kiến thức về các cấu trúc thời gian của tín hiệu nguồn Thuật toán BSS trộn phải khai thác cả đặc tính không gian và thời gian để hoạt động đúng, đó là lý do tại sao đôi khi gọi là

Nếu không có bất kỳ hạn chế bổ sung, hệ thống BSS trộn xử lý tín hiệu trộn:

Mối quan hệ trong biểu thức trên là một dạng dạng xoắn đa kênh, hệ số

biến đổi Fourier, có thể diễn tả hệ thống trộn lại (demixing) trên trong miền tần số nơi mà hệ số Fourier của bộ lọc hệ thống phân tích đa kênh là các thông số không biết trước

2.3.2 Phân tách nguồn

Phân tách nguồn dựa vào thống kê bậc với trên giả thiết rằng các nguồn thống kê là độc lập Nhiều thuật toán dựa vào hàm bậc hai và bốn phụ thuộc giữa

Mục tiêu của tách nguồn mù là tìm ước lượng y(k), nó là mô hình của tín hiệu nguồn s(k) Đối với điều này, không cần thiết xác định rõ ràng bộ lọc trộn

hồi với một đáp ứng xung vô hạn (IIR) hoặc đáp ứng xung hữu hạn (FIR)

Trang 28

Hình 2.7 Mô hình phân tích Feed-forward

Mối quan hệ giữa nguồn và tín hiệu được phân tích

Mục đích của phân tách nguồn không nhất thiết phải phục hồi bản sao giống hệt tín hiệu gốc Thay vào đó, mục đích là để phục hồi nguồn mô hình không cần sự

hiệu có nguồn gốc từ nguồn đơn duy nhất Vì vậy, mỗi tín hiệu nguồn mô hình có thể là phiên bản lọc của tín hiệu nguồn gốc

Trang 29

Với P là ma trận hoán vị, Λ( )z là ma trận đường chéo với các bộ lọc trên đường chéo của ma trận Nếu có thể xác định A(z) chính xác thì chọn W(z) là nghịch đảo

Nguyên lý phân tách

Các thuật toán tách nguồn mù dựa trên các giả định khác nhau về các nguồn

và hệ thống pha trộn Nói chung, các nguồn được giả thiết là độc lập hoặc ít tương

Trang 30

quan Sự phân tách này có thể chia thành các phương pháp: phương pháp dựa vào xác suất bậc cao và xác suất bậc hai Trong phân tách nguồn xoắn, các cảm biến độc lập với nguồn tín hiệu gốc Điều này có nghĩa, nguồn nên bắt đầu từ nhiều vị trí trong không gian, số nguồn ít hơn số cảm biến

số liệu thống kê của nguồn mục tiêu, nhưng chỉ phụ thuộc vào hướng Cả hai beamformer tối ưu và thích nghi xác định trọng lượng của nó dựa trên các số liệu thống kê để giảm thiểu sai lệch giữa tín hiệu ra mong muốn và tín hiệu ra khỏi beamformer

Một kỹ thuật sử dụng mảng míc đơn giản và mạnh mẽ là delay and sum beamformer, nó bù thời gian trễ giữa tín hiệu giữa các míc và tính trung bình các tín hiệu này Do đó, nó tạo thành một chùm nguồn tín hiệu mục tiêu trong khi giảm nhẹ bất kỳ nguồn âm thanh nào từ hướng khác đến bằng cách lấy trung bình không đồng

bộ pha Tuy nhiên, hiệu suất của chùm tia là tỷ lệ thuận với số lượng míc làm tăng chi phí Beamforming tối ưu và thích nghi xuất hiện để tăng hiệu suất với một số lượng míc nhỏ hơn Các phương pháp mang tính thông dụng là Linear Constrained

thể dễ dàng bị suy thoái, trừ khi nguồn nhiễu là đúng hướng và tín hiệu tiếng nói không có tiếng vang Phương pháp beamforming này phù hợp với tín hiệu cho các

Trang 31

đài phát thanh và tín hiệu siêu âm thường có dải thông hẹp; tín hiệu tiếng nói có dải thông rộng thì phương pháp beamforming thích nghi khó có thể loại bỏ nhiễu Tuy nhiên, mảng míc sử dụng phương pháp beamforming có tiềm năng nâng cao chất lượng tiếng nói bằng cách kết hợp với các thuật toán đơn kênh và đa kênh khác

Trang 32

Chương 3 Trình bày các thuật toán sử dụng trong phương pháp beamform er 3.1 Delay and Sum beamforming (DSB)

Delay and Sum beamforming, là loại beamforming cổ điển nhất, là một trong những công nghệ cổ điển và lâu đời nhất thực hiện cho hệ thống mảng quan tâm đến hướng Mặc dầu, về cơ bản không giới hạn băng thông, nhưng DSB sớm sử dụng băng thông hẹp tập trung vào một điểm hoặc một hướng cụ thể Sự chậm trễ về thời gian cho các ứng dụng dải băng thông hẹp có thể thực hiện bằng cách dịch pha cho mỗi tín hiệu sau míc

Theo giả thiết tín hiệu có băng thông hẹp, đáp ứng phổ của tín hiệu xử lý bằng mảng míc tương đương đáp ứng phổ của bộ lọc đáp ứng xung hữu hạn FIR

Hình trên là một mảng míc tuyến tính thẳng hàng, với tín hiệu phía trước các

s d c

θ

cách giữa 2 míc kề nhau, θ là hướng đến của nguồn âm và c là tốc độ truyền âm Để

Trang 33

ngăn ngừa đặc tính răng cưa của phổ thì

ax

c d f

nguồn âm Nhìn vào hình trên, tín hiệu mà M míc thu được là:

Tương tự tín hiệu nhiễu thu được từ các míc là:

Hình 3.2 Delay and sum beamformer

Trang 34

[ , ] H [ , ]

d k ω =w u k ω =w s k H{ [ ,ω] [+n k,ω] }

nhiễu SNR của beamforming này phụ thuộc vào tần số của tín hiệu SNR đã được

được:

{ } { }

Tiêu đề	Nghiên Cứu Các Phương Pháp Nâng Cao Chất Lượng Tiếng Nói
Tác giả	Ngô Thị Lê
Người hướng dẫn	TS. Nguyễn Quốc Cường
Trường học	Đại học Bách Khoa Hà Nội
Chuyên ngành	Đo Lường Và Các Hệ Thống Điều Khiển
Thể loại	Luận Văn Thạc Sĩ
Năm xuất bản	2012
Thành phố	Hà Nội

Định dạng
Số trang	68
Dung lượng	2,99 MB