8 DANH MỤC CÁC HÌNH VẼ Hình 1.1 Hoạt động ghi âm của Microphone Hình 1.2 Quá trình xử lý âm thanh trong VOIP Hình 1.3 Hình ảnh một cuộc trao đổi trực tuyến Hình 1.4 Hiện tượng tiếng vọn
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
NGÔ HOÀNG LÊ MINH
NGHIÊN CỨU XỬ LÝ TÁCH ÂM THANH ĐƯỢC THU TỪ HAI NGUỒN PHÁT
ĐỀ CƯƠNG KHÓA LUẬN THẠC SĨ
Ngành: Khoa Học Máy Tính
Mã ngành: 60.48.01.01
Người hướng dẫn khoa học: TS Đàm Quang Hồng Hải
TP HỒ CHÍ MINH – 2016
Trang 22
MỤC LỤC
MỤC LỤC 2
DANH MỤC CÁC CÔNG THỨC 4
DANH MỤC CÁC HÌNH VẼ 8
DANH MỤC CÁC CHỮ VIẾT TẮT 10
LỜI CAM ĐOAN 12
LỜI CÁM ƠN 13
MỞ ĐẦU 14
Chương I: TỔNG QUAN ÂM THANH SỐ 16
1.1 Tín hiệu âm thanh số 16
1.2 Các kỹ thuật nâng cao chất lượng tiếng nói 21
1.2.1 Kỹ thuật nâng cao chất lượng tiếng nói đơn kênh 22
1.2.2 Kỹ thuật nâng cao chất lượng tiếng nói đa kênh 30
1.3 Beamformer 36
1.3.1 TDOA 38
1.3.2 GCC 39
1.3.3 PHAT 39
1.3.4 GCC-PHAT 39
1.3.5 SRP-PHAT 40
Chương II: XỬ LÝ ÂM THANH TRONG MIỀN THỜI GIAN VÀ TẦN SỐ 41
2.1 Biến đổi rời rạc Fourier (Discrete-Time Fourier Transform-DTFT) 41
Trang 33
2.2 Biến đổi theo dải tần (Subband transform) 42
2.3 Dàn Microphone và các mô hình âm thanh 46
Chương III: XÂY DỰNG ỨNG DỤNG TÁCH TÍN HIỆU ÂM THANH TỪ HAI NGUỒN PHÁT 52
3.1 Đặt vấn đề 53
3.2 SRP-PHAT cải tiến 54
3.3 Tối ưu chùm tia sử dụng thông tin nguồn hoạt động 57
3.4 Các kỹ thuật xác định nguồn âm 59
3.5 So sánh kết quả thực nghiệm 63
Chương IV: KẾT LUẬN VÀ KHUYẾN NGHỊ 66
TÀI LIỆU THAM KHẢO 68
Trang 44
DANH MỤC CÁC CÔNG THỨC
(1.1) Tín hiệu rời rạc được biến đổi từ tín hiệu âm thanh liên tục theo thời gian
(1.2) Tín hiệu tại Microphone thứ m
(1.3) Biểu diễn tín hiệu âm thanh thu được từ Microphone
(1.4) Biểu diễn tín hiệu âm thanh thu được từ Microphone
(1.5) PSD của tín hiệu thu được
(1.6) PSD của tín hiệu tiếng nói
(1.7) Hàm loại bỏ âm thanh nhiễu
(1.8) Tín hiệu âm thanh sau khi trừ phổ
(1.9) Hệ số Cepstrum của tín hiệu âm thanh
(1.10) Trung bình của và
(1.11) Vector chuẩn hóa của x t và y t
(1.12) Vector đặc trưng của tín hiệu âm thanh
(1.13) Tín hiệu âm thanh sau khi xử lý
(1.14) Tín hiệu âm thanh x m (t) thu được tại Microphone thứ m
(1.15) Tín hiệu âm thanh thu được đối với nguồn âm thứ n
(1.16 )Trọng số của bộ lọc Wienner
(1.17) Tín hiệu đầu ra của bộ lọc
(1.18) Trọng số của bộ lọc Wienner
(1.19) Tín hiệu đầu ra sau khi xử lý bằng LCMV
(1.20) Hệ phương trình giải quyết bài toán tối ưu
Trang 55
(1.21) Trọng số bộ lọc w opt (ω)
(1.22) Độ trễ thời gian của tín hiệu từ nguồn đến Microphone m
(1.23) Khoảng lệch thời gian tới giữa Microphone m và n
(1.24) Tín hiệu tại Microphone n
(1.25) Sự tương quan chéo của 2 tín hiệu Microphone m,n
(1.26) Hàm trọng số PHAT
(1.27) Hàm GCC-PHAT
(1.28) Hàm SRP-PHAT
(1.29) Góc tới của chùm âm thanh
(2.1) Biến đổi Fourier của tín hiệu âm thanh trên miền thời gian
(2.2) Biến đổi Fourier của tín hiệu âm thanh trên miền thời gian
(2.3) Nghịch đảo của biến đổi Fourier
(2.4) Đáp xung của bộ lọc phân tích
(2.5) z biến đổi của bộ lọc phân tích
(2.6) Bộ lọc phân tích dải tần con
(2.7) Tín hiệu của mỗi dải tần con sau khi qua bộ lọc
Trang 6(2.18) Tín hiệu thu được tại Microphone x 1
(2.19) Tín hiệu thu được tại Microphone x 2
(2.20) Tín hiệu x 1 theo miền tần số
(2.21) Tín hiệu x 2 theo miền tần số
(2.22) Tín hiệu x 2 theo miền tần số
(2.23) Tín hiệu thu được tại Microphone l kèm theo tín hiệu phản dội (2.24) Tín hiệu thu được tại Microphone l kèm theo tín hiệu phản dội
(3.1) Tín hiệu âm thanh đến Microphone từ 2 nguồn phát
(3.2) Tín hiệu âm thanh trên miền tần số đến Microphone từ 2 nguồn phát (3.3) SRP-PHAT cải tiến
(3.9) SRP-PHAT của nguồn 1
(3.10) SRP-PHAT của nguồn 2
(3.11) Sự tương quan chéo của các cặp Microphone của nguồn 1
Trang 77
(3.12) Sự tương quan chéo của các cặp Microphone của nguồn 2
(3.13) PSD của nguồn âm 1
(3.14) PSD của nguồn âm 2
(3.15) Sự tương quan chéo giữa các cặp Microphone
(3.16) PSD của tín hiệu p x (ω,q)
(3.17)SRP-PHAT cải tiến
(3.18) SRP-PHAT cải tiến
(3.19) SRP-PHAT cải tiến
(3.20) Xác định mức vượt trội của 2 nguồn âm
(3.21) SPR-PHAT cho đoạn tần [ω1 ,ω2 ]
(3.22) Ma trận tương quan của nguồn 1
(3.23) Ma trận tương quan của nguồn 2
(3.24) Hệ phương trình tối ưu nguồn 1
(3.25) Hệ phương trình tối ưu nguồn 2
(3.26) Trọng số tối ưu nguồn 1
(3.27) Trọng số tối ưu nguồn 2
(3.28) Tín hiệu đầu ra nguồn 1
(3.29) Tín hiệu đầu ra nguồn 2
Trang 88
DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Hoạt động ghi âm của Microphone
Hình 1.2 Quá trình xử lý âm thanh trong VOIP
Hình 1.3 Hình ảnh một cuộc trao đổi trực tuyến
Hình 1.4 Hiện tượng tiếng vọng (Echo) khi người dùng trao đổi trực tuyến Hình 1.5 Vị trí giữa nguồn âm và Microphone trong không gian 3 chiều Hình 1.6 Kỹ thuật bộ lọc thích nghi Wiener
Hình 1.7 Mô tả đường đi từ nguồn đến dàn Microphone
Hình 2.1 Các bộ lọc phân tích và tổng hợp theo dải tần đồng nhất
Hình 2.2 Tín hiệu âm thanh
Hình 2.3 Một dàn Microphone được lắp đặt trong xe ô tô
Hình 2.4 Một dàn Microphone được lắp đặt trong phòng thu âm
Hình 2.5 Hướng lan truyền sóng âm đến các Microphone
Hình 2.6 Mô hình sóng âm với dàn tuyến tính
Hình 2.7 Mô hình sóng âm với dàn tuyến tính
Hình 2.8 Mô hình sóng âm, sóng phản dội
Hình 3.1 Hình ảnh một buổi Talkshow
Hình 3.2 Hình giáo sư Chuck
Hình 3.3 Mô tả các SRP-PHAT trong khoảng từ 800 – 900 Hz
Hình 3.4 Kết quả khi xác định các đoạn tần
Hình 3.5 Kết quả khi xác định các đoạn tần
Hình 3.6 So sánh các phương pháp nâng cao chất lượng tiếng nói
Trang 99
Hình 3.7 Tín hiệu âm thanh thu được tại dàn 6 Microphone
Hình 3.8 Tín hiệu âm thanh từ 2 nguồn sau khi tách
Bảng 1 So sánh kết quả giữa các thuật toán
Trang 1010
DANH MỤC CÁC CHỮ VIẾT TẮT
A/D: Tương tự/Số-Analog/Digital
AR: Tự hồi quy-AutoRegressive
BSS: Tách nguồn mù-Blind Source Separation
CHN: Chuẩn hóa biểu đồ giả phổ-Cepstral Histogram Normalization
CMN: Chuẩn hóa trung bình hệ số giả phổ-Cepstral Mean Normalization
CVN: Chuẩn hóa phương sai hệ số giả phổ-Cepstral Variance Normalization
DTFT: Biến đổi rời rạc Fourier-Discrete Time Fourier Transform
GCC: Tương quan chéo-Generalized Cross Correction
GMM: Mô hình hỗn hợp Gaus-Gaus Mixture Models
GSC: Tổng quát hoá việc giãm sóng phụ-Generalized Sidelobe Canceller
HMM: Mô hình Markov ẩn
IDFT: Biến đổi ngược của biến đổi DTFT-Inverse Discrete Fourier Transform
IS:Độ triệt nhiễu-Interference Suppression
LCMV: Tuyến tính hạn chế tối thiểu phương sai-Linearly Constrained Minimum Variance MLLR: Hồi quy tuyến tính ước lượng cực đại -Maximum Likelihood Linear Regression MSE: Sai số toàn phương trung bình-Mean Square Error
MVDR: Đáp ứng biến đổi không méo nhỏ nhất-Minimum Variance Distortoinless Response
PHAT: Chuyển pha-Phase Transform
PMC: Mô hình song công-Parrallel Model Combination
PSD:Mật độ phổ công suất-Power Spectral Density
SD: Độ biến dạng âm-Source Distortion
SRP: Công suất hướng phản hồi-Steered Reponse Power
STFT: Biến đổi Fourier ngắn-Short-Time Fourier Transform
TDOA: Khoảng lệch về thời gian-Time Difference Of Arrival
UMAF: Bộ lọc phân tích đồng nhất- Uniformly Modulated Analysis Filterbank
UMF: Bộ lọc đồng nhất-Uniformly Modulated Filterbank
UMSF: Bộ lọc tổng hợp đồng nhất- Uniformly Modulated Synthesis Filterbank
Trang 1111 VAD: Bộ dò hoạt động giọng nói-Voice Activity Detector
VTS: Chuỗi Vector Taylor-Vector Taylor Series
Trang 1212
LỜI CAM ĐOAN
Tôi, Ngô Hoàng Lê Minh xin cam đoan tất cả nội dung trình bài trong báo cáo khóa luận tốt nghiệp này đều dựa trên việc nghiên cứu, tổng hợp các kiến thức
lý thuyết và thực nghiệm với sự hướng dẫn, giúp đỡ của thầy TS Đàm Quang Hồng Hải và bản thân Mọi thông tin trích dẫn đều đã được tôi chú thích, liệt kê rõ ràng và đầy đủ trong dang mục tài liệu tham khảo
Tôi xin xác nhận khóa luận này là sản phẩm của bản thân xây dựng dưới sự hướng dẫn nhiệt tình của thầy Tiến sĩ Đàm Quang Hồng Hải và của trường Đại học Công nghệ thông tin thành phố Hồ Chí Minh
Nội dung trong khóa luận này cũng là một phần trong đề tài nghiên cứu khoa học loại C của Đại học Quốc gia TP Hồ Chí Minh (VNU-HCM) số C2014-26-01
mà tôi được tham gia dưới sự hướng dẫn của thầy TS Đàm Quang Hồng Hải
TP.Hồ Chí Minh, ngày 01 tháng 10 năm 2016
Sinh viên thực hiện đề tài
Ngô Hoàng Lê Minh
Trang 1313
LỜI CÁM ƠN
Trước hết tôi xin được bày tỏ lòng biết ơn đối với thầy TS Đàm Quang Hồng Hải, người đã nhiệt tình hướng dẫn, chỉ bảo tôi trong quá trình nghiên cứu và thực hiện khóa luận tốt nghiệp này
Tiếp theo tôi xin chân thành cảm ơn hỗ trợ của đề tài nghiên cứu khoa học loại C của Đại học Quốc gia TP Hồ Chí Minh (VNU-HCM) số C2014-26-01 đã hỗ trợ tôi hoàn thành tốt khóa luận này
Tôi cũng xin chân thành cám ơn các thầy cô trong khoa đào tạo sau đại học cũng như các thầy cô khác trong trường Đại học Công nghệ thông tin- Đại học Quốc gia thành phố Hồ Chí Minh đã tận tình giảng dạy và truyền đạt những kiến thức và kinh nghiệm quý báo cho tôi trong quá trình học tập tại trường và tạo điều kiện tốt nhất cho tôi thực hiện tốt khóa luận tốt nghiệp này
Sau cùng, tôi xin chân thành cảm ơn gia đình, bạn bè và đồng nghiệp đã giúp
đỡ, động viên và chia sẽ những kiến thức, kinh nghiệm giúp tôi trong thời gian học tập và hoàn thành khóa luận này
Tôi xin chân thành cám ơn tất cả mọi người
TP.Hồ Chí Minh, ngày 01 tháng 10 năm 2016
Sinh viên thực hiện đề tài
Ngô Hoàng Lê Minh
Trang 1414
MỞ ĐẦU
Ngôn ngữ âm thanh là một trong những ngôn ngữ giao tiếp linh hoạt và hiệu quả nhất giữa con người với nhau Âm thanh không chỉ được dùng trong mục đích truyền tải ngôn ngữ mà còn được dùng để truyền tải các thông tin về giải trí như là
âm nhạc hay phim ảnh Tín hiệu âm thanh khi được truyền từ nguồn phát âm đến tai người hoặc thiết bị thu nhận thường bị bóp méo bởi các tín hiệu nhiễu như là bởi các nguồn âm khác, sóng phản xạ (tiếng vang, dội âm )… làm ảnh hưởng đến khả năng tiếp nhận các thông tin cần truyền tải của người hay thiết bị thu nhận
Sự thông dụng và ứng dụng linh hoạt của các công nghệ xử lý thông minh đã khuyến khích việc tích hợp hệ thống xử lý âm thanh trên thiết bị di động như Smartphone và các thiết bị nhận dạng giọng nói trong các ứng dụng hàng ngày Với
sự phát triển nhanh chóng về công nghệ ghi âm thì chất lượng các Microphone dùng
để thu lại tín hiệu âm thanh đã được nâng cao rất nhiều và ngày nay nhiều loại Microphone khác nhau đã được sử dụng rộng rãi trong các thiết bị dân dụng Việc khai thác các tín hiệu âm thanh nguồn thu được bởi các Microphone đóng một vai trò quan trọng trong quá trình tối ưu nâng cao chất lượng tiếng nói [1],[3]
Hiện nay việc nghiên cứu các phương pháp nâng cao chất lượng tiếng nói (Speech Enhancement) đang được chú ý quan tâm rất nhiều vì nó đóng vai trò rất quan trọng trong lĩnh vực xử lý âm thanh Mục tiêu của việc nâng cao chất lượng tiếng nói là xử lý các tín hiệu âm thanh thu được nhằm nâng cao các tín hiệu có ích
và giãm đi các tín hiệu nhiễu sao cho âm thanh sau khi xử lý vẫn phải cung cấp đầy
đủ nội dung thông tin cho đối tượng tiếp nhận [3,6]
Trong bài khóa luận này, mục tiêu của chúng tôi là sẽ sử dụng kỹ thuật Beamforming kết hợp với SRP-PHAT để xác định vị trí nguồn phát âm của hai người nói qua đó nâng cao tín hiệu của người nói mong muốn và giãm đi tín hiệu
Trang 15lý giọng nói hay các robot điều khiển bằng giọng nói [3] Các phương pháp đề xuất
và kết quả thực nghiệm đã được trình bài trong hội nghị khoa học lần thứ 18 ICSPCVG 2016 tại Thái Lan [2]
Về điều kiện thực nghiệm thì chúng tôi đã áp dụng các phương pháp đề xuất
để thử nghiệm với dữ liệu âm thanh được thu từ mảng Microphone bao gồm 6 Microphone từ phòng thí nghiệm âm thanh của trường Đại học Curtin, Australia (Curtin University of Technology ), để ghi âm tiếng nói từ hai người nói ở hai vị trí khác nhau với khoảng cách tới mảng các Microphone là 1,5m Các tín hiệu âm thanh được ghi đều có chất lượng cao, đã được kiểm tra và sử dụng trong nhiều công bố quốc tế Các vấn đề này sẽ được trình bài trong chương III
Trang 1616
Chương I: TỔNG QUAN ÂM THANH SỐ
1.1 Tín hiệu âm thanh số
1.1.1 Tổng quan tín hiệu âm thanh số
Tín hiệu âm thanh được truyền tới Microphone dưới dạng sóng âm Ta có tín hiệu thu được tại mỗi Microphone là một trường lấy mẫu âm thanh theo không gian
x a (s 0 ,t) trong đó s0 là một điểm trong không gian và t là biến liên tục theo thời gian
Chúng ta sử dụng một thiết bị gọi là Microphone để ghi lại tín hiệu âm thanh Đây
là thiết bị cho phép chuyển năng lượng âm thanh sang năng lượng điện để có thể truyền tới các hệ thống lưu trữ âm thanh và các hệ thống xử lý tín hiệu âm thanh Với sự phát triển nhanh chóng về công nghệ ghi âm thì chất lượng các Microphone dùng để thu lại tín hiệu âm thanh đã được nâng cao rất nhiều và ngày nay nhiều loại Microphone khác nhau đã được sử dụng rộng rãi trong các thiết bị dân dụng
Khi một người nói, âm thanh tiếng nói được truyền tới Microphone dưới dạng sóng âm và được ghi lại dưới dạng các tín hiệu điện có sóng giao động tương ứng với các âm của tiếng nói Tín hiệu âm thanh thu được tại Microphone là một
hàm âm thanh không gian x a (s 0 ,t) tại vị trí s 0 và t là biến thời gian
Các hàm âm thanh với biến thời gian liên tục được chuyển đổi thành các hàm tín hiệu số rời rạc và hữu hạn theo thời gian bằng bộ chuyển đổi A/D Hàm âm
thanh số rời rạc x(n) thu được từ hàm âm thanh với biến thời gian liên tục x a (s 0 ,t)
tại vị trí s 0 như sau:
Trong đó n là biến thời gian rời rạc của hàm tín hiệu số x(n), T là thời gian lấy mẫu với fs là tần số lấy mẫu tương ứng cho quá trình lấy mẫu hay còn gọi là bitrate của âm thanh Nói cách khác f s =
là số lượng mẫu lấy được trên 1 giây từ
hàm liên tục theo thời gian x a (s 0 ,t)
Trang 1717
Hình 1.1: Hoạt động ghi âm của Microphone
Khi thu tiếng nói bằng Microphone, chúng ta đồng thời thu được các âm thanh nhiễu và các tạp âm, điều này làm âm thanh tiếng nói thu được đã bị suy giảm
do nhiễu từ đó làm giảm tính dễ nghe của tiếng nói và gây khó khăn cho người nghe Trong thực tế cuộc sống, nhiễu là âm thanh tồn tại ở mọi nơi như trên đường phố, trên xe ô tô, trong phòng làm việc, trong nhà hàng, trong các toà nhà Vì vậy, việc nghiên cứu các kỹ thuật xử lý âm thanh trong các hệ thống thu âm là một việc làm cần thiết trong việc nâng cao chất lượng tiếng nói [2]
1.1.2 Sóng lan truyền đa hướng
Trong môi trường thực tế, sóng âm bị ảnh hưởng bởi nhiều vật cản như tường, bàn ghế, con người… Vì thế trong các môi trường này tạo ra nhiều sóng phản dội hay gọi là sóng lan truyền đa hướng Các sóng phản dội này ảnh hưởng rất nhiều đến các quá trình xử lý tín hiệu trên các dữ liệu của dàn Microphone Vì vậy cần phải xác định và đưa các tín hiệu phản dội này vào trong quá trình xử lý âm thanh [4],[5]
Ta gọi
, ) là kí hiệu đáp xung của cả hướng âm chính và hướng
mô tả các thuộc tính của Microphone m Vì trong mô hình này thì vị trí và hướng
của Microphone m là biết trước và cố định nên hàm phản hồi chỉ còn phụ thuộc vào yếu tố vị trí nguồn phát Vì thế tín hiệu tại Microphone m được mô tả như sau:
Trang 181.1.3 Xử lý âm thanh thu bằng Microphone
Thông thường, khi thu tiếng nói bằng Microphone thì âm nhiễu luôn tồn tại với các hình dạng và hình thức khác nhau Ngay khi thu tiếng nói trong trong nhà, nhiễu có thể là tiếng xe chạy trên đường, tiếng ồn trên các thiết bị xây dựng trên công trường, âm thanh phát ra từ loa, Radio hay Tivi [20], [21]… Trong xử lý
tiếng nói, tín hiệu âm thanh x(t) thu được từ Microphone được biểu diễn như sau:
(1.3)
Trong đó, s(t) là âm thanh tiếng nói mà hệ thống cần thu, v(t) là âm thanh nhiễu, t là biến thời gian Để nâng cao chất lượng tiếng nói cần thu, thành phần âm nhiễu v(t) là cần loại bỏ, chúng ta đưa ra các thuật toán nhằm triệt tiêu âm nhiễu
cùng tạp âm nhưng vẫn đảm bảo chất lượng tiếng nói cần thu, điều này làm giảm đi
sự khó khăn cho người nghe trong môi trường có nhiễu Đặc biệt là trong các ứng dụng truyền thông qua mạng, người dùng thường sử dụng loa ngoài để trao đổi thông tin và âm thanh từ loa ngoài đã trở thành một nguồn âm nhiễu mạnh và gây nên hiện tượng tiếng vọng (echo) cho người nghe, đây là một yếu tố ảnh hưởng
nhiều tới chất lượng trao đổi trực tuyến [18]
1.1.4 Xử lý tín hiệu âm thanh trong truyền thông
Ngày nay, công nghệ truyền thông trên nền mạng Internet đang mang lại nhiều tín hiệu khả quan tích cực bằng cách truyền các tín hiệu âm thanh với các gói tin IP qua mạng với tên gọi là công nghệ thoại IP Các phần mềm thoại IP Softphone có thể được cài đặt trên máy tính, điện thoại thông minh (Smartphone)
Trang 1919
hay trên thiết bị chuyên dụng, khi đó máy tính này trở thành các điện thoại IP (IP Phone) có thể thực hiện việc quay số nội bộ, đường dài, di động hay quốc tế và thực hiện nhiều dịch vụ gia tăng Công nghệ thoại IP cho phép tạo cuộc gọi đường dài qua mạng Internet thay vì phải được truyền qua mạng điện thoại chuyển mạch công cộng Ngày nay nhiều công ty đã thực hiện giải pháp với Công nghệ thoại IP của họ
để giảm chi phí cho những cuộc gọi đường dài giữa các chi nhánh
Hình 1.2: Quá trình xử lý âm thanh trong VOIP
Với công nghệ thoại IP, người dùng có thể sử dụng kết nối Internet để thực hiện các cuộc đàm thoại và không đòi hỏi băng thông quá lớn Với các ứng dụng IP Phone cài đặt trên máy tính, người dùng cần có một số điện thoại theo chuẩn của nhà cung cấp dịch vụ và có thể quay số để thực hiện cuộc gọi như các cuộc gọi điện thoại thông thường Khi gọi ra ngoài, người được gọi đến sẽ không thấy có sự khác nhau so với các cuộc gọi từ các máy điện thoại chuyển mạch công cộng
Phương thức hoạt động của IP phone là tín hiệu giọng nói thu được từ Microphone được truyền đi thông qua môi trường mạng IP (IP network) Đầu tiên,
âm giọng nói (voice) thu được tại máy tính gửi sẽ được chuyển đổi thành tín hiệu số
là các dãy bit số ( digital bits) và được đóng gói thành các gói tin (packet) để sau đó được truyền tải qua mạng IP Phần mềm IP phone tại máy tính nhận, các gói tin nhận được được lấy dữ liệu và chuyển lại thành tín hiệu âm thanh phát ra qua loa đến với người nghe Âm thanh tiếng nói sẽ được số hóa sang dữ liệu âm thanh và được đóng gói thành các gói tin trước khi gửi đi Các gói tin chứa dữ liệu âm thanh được vận chuyển trên mạng và giao thức thường được dùng cho chuyển vận trong mạng IP là giao thức RTP (Real-Time Transport Protocol) Ở phần mềm IP Phone trong máy tính nhận cuối, tiến trình giải mã và giải nén được thực hiện ngược lại với máy tính gửi trước khi tín hiệu âm thanh được tổng hợp để phát ra qua loa đến với người nghe
Trang 2020
Các công nghệ truyền âm thanh và hình ảnh trên mạng Internet thông dụng như công nghệ hội thảo trực tuyến, công nghệ truyền hình tương tác, công nghệ dậy học trực tuyến đã nhận được sự quan tâm rất lớn của người sử dụng Công nghệ dậy học trực tuyến với việc sử dụng âm thanh và hình ảnh là một giải pháp giúp cho việc tổ chức các lớp học từ xa mà không cần tập trung tất cả mọi người tại phòng học
Hình 1.3 Hình ảnh một cuộc trao đổi trực tuyến
Việc xây dựng hệ thống đào tạo trực tuyến cho phép những người ở xa cũng truy cập vào lớp học cùng tham dự với những người tại chỗ thông qua máy tính hoặc Smartphone nối mạng Trong các hệ thống đào tạo trực tuyến, chúng ta sử dụng đồng thời cả âm thanh và hình ảnh để truyền nội dung trong lớp học Mỗi người học tham gia lớp học trực tuyến sẽ sử dụng một định danh cho các tiến trình truyền nhận truyền nội dung âm thanh và hình ảnh của buổi học và người học trực tuyến có thể trao đổi với giảng viên qua mạng [18]
Hình 1.4 Hiện tượng tiếng vọng (Echo) khi người dùng trao đổi trực tuyến
Trang 2121
Trong các hệ thống đào tạo trực tuyến, việc xử lý các âm thanh thu được từ các Microphone nhằm nâng cao chất lượng tiếng nói có ích và loại bỏ các âm thanh nhiễu là một việc đang rất được quan tâm Thông thường, người học và giảng viên trong các hệ thống đào tạo trực tuyến sử dụng Microphone để thu âm tiếng nói và loa ngoài (Loudspeaker) hoặc tai nghe (Head phone) để nghe Việc sử dụng loa ngoài để nghe sẽ rất thuận tiện cho người dùng đặc biệt là với các Laptop đều có tích hợp loa ngoài chất lượng cao Tuy nhiên, khi người dùng trao đổi trực tuyến sử dụng loa ngoài thì âm thanh phát ra từ loa sẽ được thu lại bởi Microphone và trở thành âm nhiễu đối với tiếng nói của người dùng, điều này gậy ra hiện tượng tiếng vọng (Echo) và ảnh hưởng rất nhiều đến chất lượng của việc học tập Việc nâng cao chất lượng tiếng nói là một trong những yêu cầu cần thiết trong các ứng dụng xử lý
âm thanh trực tuyến nói chung và các ứng dụng đào tạo trực tuyến nói riêng [6]
1.2 Các kỹ thuật nâng cao chất lượng tiếng nói
Nâng cao chất lượng tiếng nói (Speech Enhancement) là một trong những lĩnh vực được nghiên cứu nhiều trong thời gian vừa qua Việc nghiên cứu các kỹ thuật nâng cao chất lượng tiếng nói có một vai trò rất quan trọng trong lĩnh vực xử
lý tín hiệu âm thanh vì tiếng nói là một trong những phương tiện chủ yếu để con người trao đổi với thế giới xung quanh Mục tiêu của việc nâng cao chất lượng tiếng nói là phát triển các thuật toán cho phép xử lý tín hiệu âm thanh thu được để tăng cường được chất lượng tín hiệu tiếng nói có ích và giảm bớt âm nhiễu, trong đó tín hiệu âm thanh sau khi xử lý vẫn có đầy đủ nội dung thông tin và dễ dàng tiếp nhận đối với người nghe (Hình ) Các kỹ thuật nâng cao chất lượng tiếng nói hiện được sử dụng trong việc cải thiện chất lượng âm thanh trước khi phát cho người nghe hoặc trong các khối tiền xử lý của hệ thống xử lý âm thanh như nhận dạng tiếng nói hay mã hoá tiếng nói [9,21]
Các kỹ thuật nâng cao chất lượng tiếng nói thường được chia ra thành 2 loại chính là kỹ thuật nâng cao chất lượng tiếng nói đơn kênh và kỹ thuật nâng cao chất lượng tiếng nói đa kênh Với kỹ thuật nâng cao chất lượng tiếng nói đơn kênh, hệ thông ghi âm chỉ sử dụng 1 Microphone, và tín hiệu âm thanh thu được xử lý bằng các kỹ thuật dựa trên sự khác biệt phổ và thời gian của tiếng nói và âm thanh nhiễu
Trang 2222
Với kỹ thuật nâng cao chất lượng tiếng nói đa kênh thì hệ thông ghi âm sử dụng nhiều Microphone hoạt động đồng thời như một thiết bị ghi âm trong cùng một khoảng thời gian
1.2.1 Kỹ thuật nâng cao chất lượng tiếng nói đơn kênh
Kỹ thuật nâng cao chất lượng tiếng nói đơn kênh sử dụng 1 Microphone để thu tín hiệu âm thanh từ 1 vị trí trong không gian với yêu cầu thông thường được đặt ra là phải làm sao nâng cao chất lượng âm thanh thu được qua việc lọc âm thanh nhiễu và nâng cao chất lượng âm thanh tiếng nói Thông thường, các kỹ thuật nâng cao chất lượng tiếng nói đơn kênh xây dựng dựa trên các đặc tính của phổ và sự phân bố của năng lượng nhiễu trong miền tần số Ví dụ, các nhiễu trắng trong các tín hiệu âm thanh thường có phân bố Gaussian hay các âm nhiễu của gió có năng lượng tập trung ở tần số thấp hơn 0.5 KHz Trên cở sở đánh giá các tham số và phương sai của nhiễu, chúng ta phát triển nhiều bộ lọc tín hiệu âm thanh như bộ lọc Kalman trong miền thời gian hay bộ lọc Wiener trong miền tần số [4]
Kỹ thuật nâng cao chất lượng tiếng nói đơn kênh có thể được chia thành 2 nhóm chính là kỹ thuật có tham số và phi tham số Với kỹ thuật tham số thì các tín hiệu âm thanh ghi nhận sẽ được mô hình hóa theo quy trình tự hồi quy (Autoregressive –AR) và hàm âm thanh nhiễu có phân bố Gaussian Dựa vào việc xác định các tham số AR và phương sai hàm âm thanh nhiễu, chúng ta có thể lựa chọn thiết bị lọc nhiễu phù hợp như là thiết bị lọc theo miền thời gian Kalman hay miền tần số Wiener để giảm thiểu âm thanh nhiễu Kỹ thuật nâng cao chất lượng tiếng nói phi tham số chỉ sử dụng các thống kê về phổ âm hoặc tương quan về âm
để cải thiện tín hiệu âm thanh mà không cần mô hình hóa âm thanh Kỹ thuật nâng cao chất lượng tiếng nói phi tham số ước lượng các đặc tính của âm thanh và âm nhiễu trong phạm vi nhỏ sau đó áp dụng các tiêu chí tối ưu hóa để nâng cao tín hiệu
âm thanh Một kỹ thuật nâng cao chất lượng tiếng nói đơn kênh thông dụng là kỹ thuật giảm trừ phổ (Spectral subtraction) Ngoài ra, kỹ thuật nâng cao chất lượng tiếng nói đơn kênh còn có một số kỹ thuật như kỹ thuật chuẩn hóa Vector đặc trưng,
kỹ thuật thích nghi mô hình âm học… [1]
Trang 23Mục tiêu của nâng cao chất lượng tiếng nói là trích xuất tín hiệu tiếng nói
s(n) từ tín hiệu thu được x(n) Thông thường có thể giả định rằng tín hiệu tiếng nói
và tín hiệu âm thanh nhiễu không tương quan nhau (Uncorrelated) Khi đó có thể trích xuất được âm thanh tiếng nói sau khi trừ đi các thành phần gây nhiễu trong phổ âm thu được
Để thực hiện được yêu cầu giảm trừ âm thanh nhiễu thì phổ của các thành phần nhiễu cần được xác định bởi kỹ thuật giảm nhiễu trên từng khung âm trong miền tần số Trong miền tần số, với biến đổi STFT (Short-Time Fourier Transform)
M tần số của x(n) như sau:
x(ω,k)=s(ω,k)+v(ω,k)
Trong đó ω là dải tần số, ω ∈[ω0 ,ω1 ,…,ωM-1 ], với M là số tần số của biến
đổi STFT và k là chỉ số thời gian của STFT Các giá trị x(ω,k),s(ω,k) và v(ω,k) là các giá trị trong miền tần số của tín hiệu thu được, tín hiệu tiếng nói và tín hiệu âm thanh nhiễu Thông thường, chúng ta cần quan tâm xem xét về mật độ phổ công suất (Power Spectral Density-PSD), đây là giá trị dùng để mô tả độ lớn của tín hiệu hoặc chuỗi thời gian được phân bố trong các tần số Với tính chất không tương quan lẫn nhau của tín hiệu tiếng nói và tín hiệu âm thanh nhiễu, khi đó PSD của tín hiệu
âm thanh thu được p x (ω,k) có thể được viết như sau:
p x (ω,k)= p s (ω,k)+ p v (ω,k) (1.5)
Trong đó p s (ω,k) và p v (ω,k) là PSD của tín hiệu tiếng nói và tín hiệu âm thanh nhiễu tương ứng Khi ta ước lượng được phổ của các thành phần nhiễu
̂v (ω,k) thì khi đó ta có công thức:
Trang 2424
̂s (ω,k)= ̂x (ω,k)- ̂v (ω,k) (1.6)
Với ̂s (ω,k) và ̂x (ω,k) là PSD ước lượng của tín hiệu tiếng nói và tín hiệu
âm thanh thu được Biểu thức (1.6) có thể được viết lại như sau:
1.2.1.2 Kỹ thuật ước lượng phổ âm thanh nhiễu
Trong đa số các kỹ thuật nâng cao chất lượng tiếng nói bằng kỹ thuật trừ phổ đều phụ thuộc vào các thông tin biết trước về các đặc tính của âm thanh nhiễu Tuy nhiên, trong một vài trường hợp thực tế thì chúng ta không có các thông tin này Trong các trường hợp đó chúng ta đánh giá các thông tin về các đặc tính của âm thanh nhiễu bằng cách sử dụng bộ dò hoạt động giọng nói(Voice Activity Detector-VAD) Bộ dò VAD nhằm mục đích xác định các khoảng lặng trong tiếng nói Khi xác định được các khoảng lặng này, chúng ta sẽ có thể có được các thông tin nhiễu Tóm lại, trong trường hợp này thì tín hiệu nhiễu được giả định là không có nhiều biến động trong khi tín hiệu âm thanh thì thay đổi Một kỹ thuật ước lượng phổ âm thanh nhiễu khác để xác định phổ nhiễu là sử dụng các các cực tiểu và cực tiểu của
Trang 2525
phổ năng lượng tạm thời để phân biệt vùng có tiếng nói và vùng chỉ có âm thanh nhiễu Kỹ thuật ước lượng phổ âm thanh nhiễu này sẽ không cần các thông tin của VAD [1]
1.2.1.3 Kỹ thuật chuẩn hóa Vector đặc trưng
Mục tiêu của kỹ thuật chuẩn hóa Vector đặc trưng là sử dụng phép biến đổi sao cho loại bỏ bớt các thông tin không liên quan đến tiếng nói có ích và giảm sự sai khác của các Vector đặc trưng của tiếng nói huấn luyện và tiếng nói thu được
Sự sai khác ở đây có thể do âm thanh nhiễu của môi trường, khoảng cách của Microphone , do người nói… [1,19]
1.2.1.3.1 Kỹ thuật chuẩn hóa trung bình hệ số giả phổ (Cepstral Mean Normalization-CMN)
Kỹ thuật chuẩn hóa trung bình hệ số giả phổ dựa trên yếu tố tín hiệu âm
thanh thu được tại Microphone y[m] là do tín hiệu tiếng nói cần thu bị ảnh hưởng bởi bộ lọc đáp ứng xung h[m], bộ lọc này mô hình hóa cho việc lan truyền từ người nói đến Microphone [1] Nếu đáp ứng xung của bộ lọc h[m] là ngắn hơn so với cửa
sổ phân tích thì khi đó hệ số Cepstrum y tsẽ là:
Trang 2626
Có cùng ý tưởng như như kỹ thuật chuẩn hóa trung bình nhưng các hệ số Cepstrum của Vector đặc trưng được chuẩn hóa phương sai thay vì giá trị trung bình
Thông thường trong các hệ thống xử lý nhận dạng âm thanh thì hệ số Cepstrum được kết hợp từ 2 kỹ thuật chuẩn hóa trung bình và phương sai Kết quả sau khi chuẩn hóa hệ số Cepstrum có giá trị trung bình bằng không và phương sai bằng một Một số kết quả cho thấy khi kết hợp 2 kỹ thuật này có thể giãm hệ số nhận sai xuống 8% so với việc chỉ sử dụng kỹ thuật chuẩn hóa trung bình
1.2.1.3.3 Kỹ thuật chuẩn hóa biểu đồ giả phổ (Cepstral Histogram Normalization-CHN)
Kỹ thuật chuẩn hóa biểu đồ giả phổ dựa trên ý tưởng là đối với mỗi phần tử của các Vector đặc trưng của tín hiệu âm thanh, biểu đồ được ước lượng sau đó được biến đổi đưa về dạng chuẩn Phép biến đổi này nhằm để bù lại các ảnh hưởng của việc nhiễu tác động đến các phần tử của Vector đặc trưng, nâng cao chất lượng của âm thanh thu được
Với p(x) là hàm mật độ xác suất mong muốn, F x (x) là hàm phân bố của
Vector x của dữ liệu huấn luyện
Vector âm thanh y của dữ liệu kiểm tra được biến đổi bằng hàm f(), tạo ra Vector đặc trưng y’ có hàm mật độ xác suất bằng p(x)
Với Fy(y) là hàm phân bố của dữ liệu kiểm tra y và ,'( là hàm ngược của
hàm phân bố x
Ngoài việc áp dụng các kỹ thuật chuẩn hóa trên thì chúng ta có thể kết hợp
sử dụng bộ dò hoạt động giọng nói(Voice Activity Detection-VAD) để tăng hiệu suất của hệ thống Vì trong thực tế khi tín hiệu giọng nói đưa vào hệ thống luôn bao gồm những đoạn có chứa tiếng nói và những đoạn là những khoảng lặng Trong môi trường ít hoặc không nhiễu thì những đoạn không phải là tiếng nói thường là những
Trang 2727
khoảng lặng Chúng ta hoàn toàn có thể nhận biết những khoảng lặng này qua các mức năng lượng vì năng lượng của các khoảng lặng nhỏ hơn nhiều so với tiếng nói Tuy nhiên, trong mỗi trường nhiễu thì sự khác biệt mức năng lượng giữa các đoạn thường rất nhỏ nên việc nhận biết sẽ khó khăn hơn
Trong các kỹ thuật chuẩn hóa và biến đổi Vector đặc trưng kể trên đều giả thiết rằng các Vector đặc trưng đều là các đoạn tiếng nói Tuy nhiên nếu Vector đặc trưng không phải là tiếng nói nhưng do tác động của tín hiệu nhiễu làm cho hệ thống nhận là tiếng nói sẽ ảnh hưởng đến chất lượng của chương trình Do đó trước khi đưa tín hiệu tiếng nói vào hệ thống nhận dạng thì một thuật toán VAD được sử dụng để tách các đoạn tiếng nói và không phải tiếng nói qua đó giúp nâng cao chất lượng của hệ thống
Một số thuật toán VAD dựa trên các thông số năng lượng để phân biệt các đoạn tiếng nói và không phải tiếng nói thông qua các giá trị ngưỡng thu được từ các kết quả thực nghiệm Tuy nhiên, đối với các môi trường bị ảnh hưởng nhiễu cao thì
kỹ thuật thường dùng là các mô hình hỗn hợp Gaus (Gaussian Mixture GMM) hoặc sử dụng mạng Neuron để đưa tra quyết định Ngoài ra bên cạnh sử dụng mức năng lượng có thể mở rộng kết hợp thêm các thông số của âm học như là tần số cơ bản, hệ số phổ,thời gian…
Models-1.2.1.4 Kỹ thuật thích nghi mô hình âm học
Các mô hình âm học của các hệ thống nhận dạng thường được huấn luyện trong môi trường thí nghiệm, do đó rất nhiều các yếu tố nhiễu trong mội trường thực tế có thể tác động đến tiếng nói có thể bị bỏ qua Điều này làm giảm chất lượng của hệ thống khi triển khai trong môi trường thực tế Một số kỹ thuật thích nghi mô hình âm học nhằm nâng cao chất lượng của chương trình với môi trường như là huấn luyện mô hình âm học với cơ sở dữ liệu nhiễu của môi trường, kỹ thuật chuỗi Vector (Vector Taylor Series –VTS), kỹ thuật MLLR (Maximum Likelihood Linear Regression), kỹ thuật kết hợp mô hình song song (Parallel Model Combination-PMC), huấn luyện mô hình âm học với cơ sở dữ liệu của âm thanh nhiễu của môi trường [1]
Trang 2828
Với từng loại môi trường thực tế khác nhau chúng ta sẽ xây dựng hệ thống nhận dạng tương ứng với dữ liệu thu được tại môi trường đó Ưu điểm của kỹ thuật này là sẽ cải thiện chất lượng của hệ thống nhận dạng Nhưng nó cũng có nhiều khuyết điểm như là phải tốn nhiều thời gian và công sức để thu tín hiệu từ môi trường thực tế Mỗi hệ thống nhận dạng cụ thể chỉ phát huy tốt khi áp dụng cho đúng môi trường đó Bên cạnh đó các yếu tố môi trường này phải ít biến động vì khi
có những biến động trong môi trường thực tế mà các biến động này không được đưa vào tập dữ liệu huấn luyện sẽ giảm chất lượng của của chương trình
Trong trường hợp không biết rõ môi trường áp dụng cho chương trình chúng
ta có thể dùng kỹ thuật đa huấn luyện Trong kỹ thuật này chúng ta sử dụng nhiều
cơ sở dữ liệu của nhiều môi trường khác nhau Với kỹ thuật này, chương trình có thể được ứng dụng ở nhiều môi trường thực tế khác nhau và cho kết quả tốt Tuy nhiên, kỹ thuật này đòi hỏi cơ sở dữ liệu thực tế dùng để phải đa dạng và lớn
1.2.1.4.1 Kỹ thuật chuỗi Vector (Vector Taylor VTS)
Series-Kỹ thuật chuỗi Vector dùng chuỗi Taylor để ước lượng các thông tin về nhiễu và kênh truyền của môi trường cụ thể sau đó kết hợp với bộ tham số của mô hình sạch để cập nhật lại các tham số của mô hình nhận dạng Qua đó làm cho mô hình nhận dạng phù hợp với các thông tin về âm thanh nhiễu của môi trường thực
tế
Kỹ thuật VTS có 2 bước chính là:
Bước 1: Ước lượng các thông tin nhiễu và kênh truyền
Bước 2: Tính toán lại các thông số mean và variance của mô hình dựa trên các kết quả có được ở bước 1 và bộ tham số của mô hình sạch
VTS là kỹ thuật thích nghi bộ tham số mô hình với mỗi câu nói cần nhận dạng Có nghĩa là với từng câu nói đưa vào nhận dạng, VTS sẽ ước lượng lại các thông tin về nhiễu và kênh truyền xuất hiện trong câu đó nên các bộ thông số nhận dạng sẽ phù hợp với câu cần nhận dạng Do đó khả năng nhận dạng của chương
Trang 2929
trình sẽ cải thiện rất nhiều Tuy nhiên vì VTS phải luôn ước lượng lại các thông tin cho từng câu nói nên thời gian nhận dạng và xử lý của chương trình cũng tăng lên đáng kể
1.2.1.4.2 Kỹ thuật MLLR (Maximum Likelihood Linear Regression)
MLLR là kỹ thuật thích nghi bằng cách ước lượng chuyển đổi tuyến tính cho các thông số kỳ vọng và phương sai của phân bố Gauss trong HMM Bằng cách ước lượng một sự thiết lập các ma trận chuyển đổi cho các tham số Gauss HMM của dữ liệu thích nghi Nhờ đó mà MLLR đã chuyển dịch được các thành phần kỳ vọng và biến đổi phương sai trong hệ thống nhận dạng để cho mỗi trạng thái trong hệ thống HMM giống hơn với bộ dữ liệu thích nghi Trong đó dữ liệu thích nghi là tập nhỏ trong dữ liệu tiếng nói được lấy từ môi trường thực tế cần thích nghi
Với kỹ thuật MLLR, chỉ cần tập nhỏ dữ liệu từ môi trường mới, MLLR có thể cập nhật lại bộ tham số của hệ thống để phù hợp với môi trường thực tế Kỹ thuật này cải thiện độ chính xác của hệ thống với môi trường mới bên cạnh đó không cần tốn thời gian huấn luyện lại mô hình từ đầu
Độ chính xác của hệ thống dùng MLLR phụ thuộc vào độ lớn của bộ dữ liệu thích nghi Bộ dữ liệu càng lớn thì bộ tham số của hệ thống càng gần với môi trường thực tế hơn Tuy nhiên nếu bộ dữ liệu quá lớn sẽ làm tăng quá trình tính toán
và làm cho hệ thống nhận dạng thích nghi với môi trường mới lâu hơn Vì vậy bài toán đặt ra là lựa chọn độ lớn của bộ dữ liệu sao cho vừa đủ đáp ứng nhu cầu cập nhật được bộ tham số của môi trường mới vừa có thời gian thích nghi phù hợp [8,19]
1.2.1.4.3 Kỹ thuật kết hợp mô hình song song (Parallel Model Combination- PMC)
Kỹ thuật PMC có ý tưởng giống với kỹ thuật VTS Trong đó VTS ước lượng thông tin nhiễu trong miền giả phổ Cepstrum, còn PMC ước lượng thông tin nhiễu trong miền phổ
Trang 3030
PMC là kỹ thuật thu nhận phân bố của đặc trưng tín hiệu tiếng nói có nhiễu
từ phân bố của đặc trưng tín hiệu tiếng nói sạch và phân bố của nhiễu PMC dùng phân bố log-nomal để xấp xỉ thông tin về nhiễu trong miền log-spectral, sau đó cập nhật lại bộ tham số của mô hình HMM trong miền log-spectral.Từ đó, bộ tham số của mô hình HMM đã được cập nhật trong miền log-spectral sẽ được biến đổi sang miền cepstral để đưa vào bộ giải mã
Tuy nhiên, các thử nghiệm về kỹ thuật PMC đa số cho thấy tính hiệu quả và chính xác của các hệ thống sử dụng PMC đều kém hơn so với kỹ thuật VTS và MLLR
1.2.2 Kỹ thuật nâng cao tiếng nói đa kênh
Kỹ thuật nâng cao chất lượng tiếng nói đa kênh được nghiên cứu để xử lý các tín hiệu âm thanh thu được khi sử dụng nhiều Microphone ghi âm đồng thời Trong trường hợp này, tín hiệu âm thanh thu được có sự hiện diện của thuộc tính không gian và thuộc tính về phổ của âm thanh tiếng nói và âm thanh nhiễu Trong trường hợp thuộc tính phổ của âm thanh tiếng nói và âm thanh nhiễu giống nhau thì thuộc tính không gian là thuộc tính chính dùng để giảm trừ nhiễu Trường hợp này thường xảy ra khi trong âm thanh thu được có hai hay nhiều tiếng nói mà trong đó chúng ta chỉ cần tín hiệu tiếng nói của một người [4,8,10]
Các kỹ thuật nâng cao chất lượng âm thanh đa kênh thường được chia thành các kỹ thuật nâng cao chất lượng tiếng nói dùng thông tin vị trí và các kỹ thuật không có thông tin vị trí hay còn học là kỹ thuật tách âm mù tiếng nói (Blind Speech Separation) Ở đây các thông tin vị trí là các thông tin của vị trí các nguồn
âm và dàn Microphone, ví dụ như vị trí của người nói và vị trí của dàn Microphone [11,12]
Các kỹ thuật nâng cao chất lượng tiếng nói dùng thông tin vị trí thường dùng
là kỹ thuật nâng cao chất lượng âm thanh theo chùm tia (Beamforming), các kỹ thuật này thường được chia thành 2 loại là kỹ thuật chùm tia với tham số cố định (Fixed Beamforming) và kỹ thuật chùm tia với tham số thích nghi (Adaptive Beamforming) Trong kỹ thuật chùm tia với tham số cố định (Fixed Beamforming),
Trang 3131
có 2 phương pháp thông dụng dùng để tính toán tham số cố định là phương pháp tính toán không phụ thuộc vào dữ liệu và phương pháp tính toán tối ưu Với phương pháp tính toán không phụ thuộc vào dữ liệu, các tham số được tính toán hoàn toàn chỉ dựa vào vị trí đã biết của các nguồn âm và của từng Microphone trong dàn Microphone Các khoảng cách có thể được tính toán trong không gian 3 chiều
và trên cơ sở các khoảng cách chúng ta có thể tính được thời gian đến đích của âm thanh từ khi nói ra đến khi tới được Microphone [2,6,11]
1.2.2.1 Kỹ thuật “delay and sum”
Một kỹ thuật nâng cao chất lượng tiếng nói theo chùm tia không phụ thuộc vào dữ liệu được phát triển rất sớm là kỹ thuật “delay and sum”
Hình 1.5 Vị trí giữa nguồn âm và Microphone trong không gian 3 chiều
Trong kỹ thuật “delay and sum” với x(t)=[ x 1 (t) x 2 (t)… x M (t ] là tín hiệu âm
thanh thu được (Hình 1.5) Tín hiệu âm thanh sau khi xử lý như sau:
∑/
Với là thời gian chênh lệch khi đến đích của tiếng nói cần thu tới
Microphone thứ m và Microphone thứ 1 Với kỹ thuật tính toán tính toán tối ưu, các
tham số của bộ lọc số được tính toán bằng một bài toán tối ưu dựa trên các dữ liệu
Trang 321 2.2.3 Kỹ thuật tách nguồn mù-Blind Source Separation
Kỹ thuật tách âm mù tiếng nói (Blind Speech Separation-BSS) được phát triển dựa trên tính độc lập về vị trí giữa các nguồn âm thanh trong không gian và tính khác biệt về phổ để tách các âm thanh ra khỏi nhau trong tin hiệu thu được Đây là một dạng của bài toán phân chia các thành phần khi hoàn toàn mù thông tin với các thành phần là tín hiệu âm thanh Ở đây, tín hiệu âm thanh thu được là tín hiệu được tổng hợp từ các âm thanh phát ra từ nhiều nguồn có vị trí khác nhau so với vị trí của các Microphone Việc đánh giá các tín hiệu âm thanh của các nguồn được thực hiện hoàn toàn không có thông tin về vị trí và thời gian hoạt động
Ta có N nguồn âm s n (t) với 1≤n≤N, các nguồn âm này có vị trí khác nhau
được hòa trộn với nhau trong không gian và được thu bằng một dàn Microphone có
kích thước là M Thông thường bài toán tách âm được với trường hợp N<M và tín hiệu âm thanh x m (t) thu được tại Microphone thứ m với 1≤m≤M được biểu diễn như
Trang 3333
thanh gốc ra khỏi tín hiệu âm thanh thu được, tín hiệu âm thanh thu được đối với
nguồn âm thứ n sau khi xử lý là
1 ∑ ∑2(614 4
3)*
/
Hệ số của các bộ lọc w nm (l) cần được xác định khi hoàn toàn mù thông tin
có nghĩa là không có được các thông tin về h mn (l) và s n (t)
Nhiều thuật toán được phát triển dựa trên các ước lượng và đánh giá phổ tín
hiệu âm thanh thu được x m (t) theo từng khoảng thời gian và dải tần số Nhiều kết quả có giá trị đã thu được đặc biệt là các thuật toán phát triển trong miền tần số Với việc sử dụng các biến đổi Fourier rời rạc ngắn (Short Time Fourrier Transform - STFT) hoăc thuật toán biến đổi theo dải tần (Subband Transform), các tín hiệu âm thanh trong miền thời gian sẽ được biến đổi sang miền tần số
Trong các kỹ thuật tách mù tiếng nói, các kỹ thuật tìm thành phần độc lập như ICA (Independent Component Analysis) có thể được áp dụng khi phần lớn các tín hiệu tiếng nói có phân bố khác với phân bố Gaussian của âm thanh nhiễu Tuy nhiên các kỹ thuật tách âm mù âm thanh về cơ bản thì khó có thể mang lại được chất lượng lọc nhiễu cao, để nâng cao chất lượng xử lý âm thanh, nhiều nghiên cứu
sử dụng kết hợp với một số phương pháp xử lý khác đã được nghiên cứu và mang lại được nhiều kết quả tốt
và tín hiệu đầu ra của hệ thống là nhỏ nhất Đối với bộ lọc Wiener cố định, các hệ
số bộ lọc được tính toán dựa vào các giá trị tiếng nói nguồn và các thông tin biết trước về âm thanh nhiễu Còn đối với bộ lọc Wiener thích nghi, các hệ số bộ lọc được thay đổi để thích nghi với môi trường cụ thể sao cho sai số toàn phương trung bình (MSE) là nhỏ nhất
Trang 3434
Hình 1.6 Kỹ thuật bộ lọc thích nghi Wiener
Với bộ lọc thích nghi Wiener, w(n) là trọng số lọc và n là chỉ số thời gian
rời rạc trong miền thời gian rời rạc
w l (n)=[w 1,0 (n) w l,1 (n) …w l,M-1 (n)] T , 1 ≤ l ≤L
L là số lượng các Microphone của dàn và M là chiều dài bộ lọc Tín hiệu đầu
y(n) ra của bộ lọc được tín như sau:
)*
2
Tín hiệu lỗi e(n) giữa tín hiệu đầu ra y(n) và tín hiệu tham chiếu s(n) được
dùng trong các chương trình cập nhật trong số bộ lọc Trọng số bộ lọc được tính như sau
w(n)= 9:;<=> ?@1 [|y(n)-s(n) 2
)| ]= 9:; <=>?@1 [|e(n)| 2
] (1.18)
Trong đó thành phần E[.] là toán tử kỳ vọng thống kê Nếu trọng số của
Wiener không thay đổi trong quá trình lọc thì khi đó bộ lọc trở thành bộ lọc cố định
Trang 35Trường hợp đặc biệt của LCMV là kỹ thuật MVDR(Minimum Variance Distortionless Response) Kỹ thuật MVDR sử dụng một ràng buộc để duy trì đáp ứng không nhiễu từ hướng nguồn âm mong muốn Thông thường kỹ thuật MVDR
xử lý các tín hiệu âm thanh trong miền tần số như sử dụng phép biến đổi STFT với
M điểm
Với w opt (ω) là L x1 Vector trọng số của MVDR trong từng đoạn dải tần số
ω Khi đó tín hiệu đầu ra y(ω,k) được tín như sau
Trong đó x(ω,k) là tín hiệu đang xét trong miền tần số và (.) H là phép biến đổi Hermitan Với Rx (ω) là ma trận tương quan của tín hiệu x(ω,k)
Với E[.] là phép toán thống kê kì vọng Gọi d(ω) là Vector điều hướng của
nguồn âm mong muốn Khi đó trọng số bộ lọc w opt (ω) trở thành giải pháp để giải quyết vấn đề tối ưu sau