SE Subjective Evaluation Đánh giá chủ quan OE Objective Evaluation Đánh giá khách quan IS Itakura_Saito LLR Log likehook Raito WSS Weighted Spectral Slope Đo theo trọng số của phổ LPC Li
Trang 1ĐỀ TÀI
XỬ LÝ TIẾNG NÓI
SVTH: NGUYỄN THỊ NGỌC DIỆP
Trang 2CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
LỜI CAM ĐOAN
Kính gửi: Hội đồng bảo vệ đồ án tốt nghiệp Khoa Điện tử _ Viễn thông _
Trường Đại học Bách Khoa Đà Nẵng
Em tên là: Nguyễn Thị Ngọc Diệp
Hiện đang học lớp 04ĐT1- Khoa: Điện tử - Viễn thông – Trường: Đại họcBách Khoa Đà Nẵng
Nhóm em xin cam đoan nội dung của đồ án này không phải là bản sao chépcủa bất cứ đồ án hoặc công trình đã có từ trước
Sinh viên thực hiện
Nguyễn Thị Ngọc Diệp
Trang 31.1 Giới thiệu chương 14
1.2 Nâng cao chất lượng tiếng nói là gì ? 14
1.3 Lý thuyết về tín hiệu và nhiễu 16
Trang 41.5.1 Tín hiệu bước nhảy đơn vị 22
1.5.2 Tín hiệu xung đơn vị 22
1.5.3 Tín hiệu hàm mũ 22
1.5.4 Tín hiệu hàm sin rời rạc 22
1.6 Phép biến đổi Fourier của tín hiệu rời rạc DTFT 23
1.6.1 Sự hội tụ của phép biến đổi Fourier 23
1.6.2 Quan hệ giữa biến đổi Z và biến đổi Fourier 23
1.6.3 Phép biến đổi Fourier ngược 24
1.6.4 Các tính chất của phép biến đổi Fourier 24
1.6.5 Phân tích tần số (phổ) cho tín hiệu rời rạc 25
1.6.6 Phổ tín hiệu và phổ pha 26
1.7 Các thuật toán sử dụng nâng cao chất lượng tiếng nói 27
1.7.2 Mô hình thống kê 27
1.8 Tín hiệu tiếng nói 27
1.9 Cơ chế tạo tiếng nói 29
1.9.1.1 Bộ máy phát âm của con người 29
1.9.2 Mô hình kỹ thuật của việc tạo tiếng nói 29
1.9.3 Phân loại âm 30
1.9.4 Thuộc tính âm học của tiếng nói 30
1.10 Kết luận chương 30
CHƯƠNG 2 : ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI 31
2.1 Giới thiệu chương 31
2.2 Phương pháp đánh giá chủ quan 31
Trang 52.2.1 Các phương pháp đánh giá tuyệt đối 32
2.2.1.1 Phương pháp đánh giá tuyệt đối ACR 32
2.2.2 Các phương pháp đánh giá tương đối 32
2.2.2.1 Đánh giá bằng phương pháp so sánh các mẫu tín hiệu 32
2.2.2.2 Phương pháp đánh giá theo sự suy giảm chất lượng 33
2.3 Phương pháp đánh giá khách quan34
2.3.1 Đo tỷ số tín hiệu trên nhiễu trên từng khung 34
2.3.2 Đo khoảng cách phổ dựa trên LPC 36
2.3.2.1 Phương pháp đo LLR 36
2.3.2.2 Phương pháp đo IS 37
2.3.2.3 Phương pháp đo theo khoảng cách cepstrum 37
2.3.3 Đánh giá mô phỏng theo cảm nhận nghe của con người 382.3.3.1 Phương pháp đo Weighted Spectral Slope 38
2.3.3.2 Phương pháp đo Bark Distortion 39
2.3.3.3 Phương pháp đánh giá cảm nhận chất lượng thoại PESQ 402.4 Kết luận chương 40
CHƯƠNG 3: THUẬT TOÁN SPECTRAL–SUBTRACTION VÀ WIENERFILTERING 42
3.1 Giới thiệu chương 42
3.2 Sơ đồ khối chung của Spectral Subtraction và Wiener Filtering 423.3 Thuật toán Spectral Subtraction 42
3.3.1 Giới thiệu chung 42
3.3.2 Spectral subtraction đối với phổ biên độ 43
3.3.3 Spectral subtraction đối với phổ công suất 44
Trang 63.4 Thuật toán Wiener Filtering 46
3.4.1 Giới thiệu chung 46
3.4.2 Nguyên lý cơ bản của Wiener Filtering47
3.5 Overlap và Adding trong quá trình xử lý tín hiệu tiếng nói 49
3.5.1 Phân tích tín hiệu theo từng frame 49
3.5.2 Overlap và Adding 50
3.6 Ước lượng và cập nhật nhiễu 51
3.6.1 Voice activity detection 52
3.6.2 Quá trình ước lượng và cập nhật nhiễu 52
3.7 Kết luận chương 53
CHƯƠNG 4: THỰC HIỆN VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN 54
4.1 Giới thiệu chương 54
4.2 Quy trình thực hiện và đánh giá thuật toán 54
4.3 Lưu đồ thuật toán Spectral Subtraction 56
4.4 Lưu đồ thuật toán Wiener Filtering 57
4.5 Thực hiện thuật toán58
4.6 Đánh giá chất lượng tiếng nói đã được xử lý 60
4.6.1 Cơ sở dữ liệu cho việc đánh giá 60
4.6.2 Tổng quan về quy trình đánh giá 60
4.6.3 Kiểm tra độ tin cậy của các phương pháp đánh giá 61
4.6.4 Thực hiện đánh giá63
4.6.4.1 Đánh giá thuật toán với các hệ số dự đoán ban đầu 63
4.6.4.2 Tối ưu hệ số alpha cho thuật toán WF 66
4.6.4.3 Hệ số gamma cho thuật toán SS 68
Trang 74.6.4.4 Đánh giá thuật toán sau khi đã tối ưu 69
4.6.4.5 Đánh giá độ ổn định của thuật toán trong môi trường nhiễu khác 70
4.6.5 Kết luận chương 72
TÀI LIỆU THAM KHẢO 73
KẾT LUẬN ĐỒ ÁN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI 76
PHỤ LỤC 77
DANH MỤC CÁC HÌNH VẼ VÀ BẢNG
Hình 1.1 Tín hiệu tiếng nói [2] 16
Hình 1.2 Dạng và sự phân bố phổ năng lượng trung bình nhiễu trên xe [4] 19
Hình 1.3 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trên tàu [4]. .19
Hình 1.4 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trong nhà hàng[4] 20
Hình 1.5 Mức nhiễu và tiếng nói (được đo bằng SPL dB) trong các môi trường khác nhau [4] 21
Hình 1.6 Mẫu tiếng nói “eee” được lấy mẫu với tần số lấy mẫu 8kHz [11] 26
Hình 1.7 Dạng sóng tín hiệu tiếng nói của câu “The wife helped her husband” và dạng sóng của phụ âm “f” trong từ “wife, dạng sóng của đoạn nguyên âm “er” trong từ “her” [11] 28
Hình 1.8 mặt cắt dọc của cơ quan tạo tiếng nói [11] 29
Hình 1.9 mô hình kỹ thuật tạo tiếng nói[11] 29
Hình 1.10 bảng phân loại âm vị trong tiếng Anh của người Mỹ [11] 30
Bảng 2.1.Thang điểm đánh giá chất lượng tiếng nói theo MOS [12] 32
Bảng 2.4 Thang điểm đánh giá chất lượng tín hiệu tiếng nói theo CCR 33
Bảng 2.5 Thang đánh giá DCR 33
Hình 3.1 Sơ đồ khối cho hai thuật toán SS và WF 42
Trang 8Hình 3.3 Sơ đồ khối của thuật toán Wiener Filtering 49
Hình 3.4 Phân tích tín hiệu thành các frame [31] 50
Hình 3.5 quá trình thực hiện overlap và adding [32] 51
Hình 4.1 Sơ đồ thực hiện và đánh giá thuật toán tăng cường 54
Hình 4.2 Lưu đồ thuật toán SS 56
Hình 4.3 Lưu đồ thuật toán WF 57
Hình 4.4 dạng sóng và spectrogram của tín hiệu sạch 58
Hình 4.5 Dạng sóng và phổ của tín hiệu bị nhiễu xe hơi với SNR = 10dB 58
Hình 4.6 Dạng sóng và spectrogram của tín hiệu sau khi xử lý nhiễu xe hơi bằng SS với SNR = 10dB 59
Hình 4.7 Dạng sóng và spectrogram của tín hiệu sau khi xử lý nhiễu xe hơi bằng WF với SNR = 10dB 59
Hình 4.8 Quy trình thực hiện đánh giá 61
Hình 4.9 Đồ thị kiểm tra độ ổn định của đánh giá OE đối với nhiễu xe hơi 62
Hình 4.10 Đồ thị kiểm tra độ ổn định của đánh giá OE đối với nhiễu người nói xung quanh 62
Hình 4.11 Đồ thị đánh giá Objective với hệ số IS=0.2, NoiseMargin=3 64
Hình 4.12 Đồ thị đánh giá Objective với hệ số IS=0.15, NoiseMargin=2 65
Hình 4.14 Đồ thị đánh giá objective với hệ số alpha=0.5, 0.8,0.9 với IS=0.15 và NoiseMargin = 2 67
Hình 4.15 Đồ thị đánh giá objective với hệ số gamma = 1 và gamma = 2 68
Hình 4.16 Đồ thị đánh giá với IS=0.15 NoiMargin= 2 và alpha = 0.8 cho thuật toán WF, gama=1 cho thuật toán SS 70
Hình 4.17 Đồ thị đánh giá OE với nhiễu người nói xung quanh 71
Trang 9DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG
ANH
Từ viết
SNR Signal Noise Ratio Tỉ số tín hiệu trên nhiễu
SPL Sound Pressure Level Mức áp suất của âm thanhMMSE Minium Mean-Squared Error Tối thiểu hoá sai lệch trung
bình bình phươngSVD Singular Value Decomposition Phép phân tích giá trị đơnDFT Discrete Fourier Transform Phép biến đổi Fourier rời rạcFFT Fast Fourier Transform Phép biến đổi Fourier nhanhDTFT Discrete-Time Fourier Transform Phép biến đổi Fourier của tín
hiệu rời rạc
ROC Region of Convergence Miền hội tụ
IDTFT Inverse Discrete Fourier
Transform
Phép biến đổi ngược Fourier rời rạc
LTI Linear Time-Invariant Hệ thống tuyến tính và bất
biến theo thời gianITU-T InternationalTelecommunications
Trang 10SE Subjective Evaluation Đánh giá chủ quan
OE Objective Evaluation Đánh giá khách quan
IS Itakura_Saito
LLR Log likehook Raito
WSS Weighted Spectral Slope Đo theo trọng số của phổ
LPC Linear Prediction Coefficients Hệ số dự đoán tuyến tính
VAD Voice Activity Detection Thăm dò sự hoạt động của
tiếng nóiSpeech Enhancement Nâng cao chất lượng tiếng nói
SS Spectral Subtraction
Thuật toán giảm nhiễu tín hiệu tiếng nói bằng phương pháp trừ phổ
WF Wiener Filter
Thuật toán giảm nhiễu tín hiệu tiếng nói bằng cách sử dụng bộ lọc Wiener
Statistical-model-based
Thuật toán giảm nhiễu tín hiệu tiếng nói dựa trên nguyên lý thống kê
Overlap và Adding Xếp chồng và cộng
MỞ ĐẦU
Trong cuộc sống, tiếng nói đóng một vai trò rất quan trọng đối với conngười Cùng với tiếng nói là sự xuất hiện của rất nhiều các loại dịch vụ thoại nhưngày nay Tuy nhiên việc bảo toàn được tín hiệu tiếng nói trên các dịch vụ này làđiều vô cùng khó khăn do sự mất mát và suy giảm tín hiệu và nhất là ảnh hưởngcủa nhiễu sẽ làm cho tín hiệu tiếng nói không còn như ban đầu Vì lý do đó mà
Trang 11các thuật toán về Speech Enhancement ra đời Tuy không thể bảo toàn được ynguyên tín hiệu ban đầu nhưng sử dụng các thuật toán này ta có thể tăng cườngđược chất lượng tiếng nói và giảm bớt nhiễu nền để tín hiệu sau khi xử lý đếnngười nghe vẫn mang đầy đủ nội dung thông tin và không gây khó chịu bởi nhiễuđối với người nghe Vì vậy, Speech Enhancement đóng một vai trò rất quan trọngtrong lĩnh vực thoại.
Xuất phát từ thực tế này nhóm đã bắt tay vào tìm hiểu về SpeechEnhancement, nghiên cứu các thuật toán của nó để thực hiện và đánh giá hiệuquả của các thuật toán đó trong môi trường thực tế
Để thực hiện được đồ án, nhóm đã phân chia thành 3 phần tương ứng với 3thành viên :
- Nguyễn Ngọc Trung : nghiên cứu và thực hiện thuật toán xử lý tiếng nói
sử dụng phương pháp Spectral Subtraction
- Nguyễn Phúc Nguyên : nghiên cứu và thực hiện thuật xử lý tiếng nói sử
dụng bộ lọc Wiener
- Nguyễn Thị Ngọc Diệp : nghiên cứu và thực hiện các phương pháp đánh
giá từ các kết quả đạt được của 2 thuật toán trên trong môi trường thực tế
Để thực hiện được nội dung phần của em thì đồ án của em được kết cấuthành 2 phần, gồm 5 chương :
Phần 1 : Lý thuyết
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói Chương này giớithiệu một số khái niệm cơ bản về tín hiệu số, các phép biến đổi, tìm hiểu về cácloại nhiễu , tín hiệu tiếng nói và sự hình thành tiếng nói Bên cạnh đó còn giớithiệu khái quát về một số thuật toán trong Speech Enhancement
Chương 2 : Đánh giá chất lượng tiếng nói Chương này giới thiệu một sốphương pháp đánh giá hiệu quả của thuật toán giảm nhiễu trong tiếng nói Gồm
có đánh giá chủ quan và đánh giá khách quan
Chương 3 : Thuật toán Spectral Subtraction và Wiener Filtering Chươngnày đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán
Trang 12Phần 2 : Thực hiện và đánh giá
Chương 4 : Thực hiện và đánh giá thuật toán Chương này trình bày các kếtquả nhóm đã làm được gồm có thực hiện giảm nhiễu tín hiệu tiếng nói bằng haithuật toán đã nghiên cứu ở chương 3 Đồng thời so sánh kết quả thu được bằngcách dùng các phương pháp đánh giá đã được giới thiệu ở chương 2
Phương pháp nghiên cứu của đồ án là xây dựng lưu đồ của thuật toán, thựchiện xử lý tiếng nói bằng các thuật toán đó Dựa trên các kết quả đạt được sau khi
xử lý, sau đó sử dụng các phương pháp đánh giá khách quan để đánh giá tínhhiệu quả của các thuật toán xử lý trong môi trường thực tế
Đồ án của nhóm đã thực hiện được 2 thuật toán xử lý tiếng nói trongSpeech Enhancement và đưa ra được các kết quả đánh giá khách quan làm cơ sở
để đánh giá tính hiệu quả của 2 thuật toán trên Đó chính là điểm mới trong đồ áncủa nhóm so với các đồ án đã có trước trong cùng chủ đề nghiên cứu
Trang 14CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI
1.1 Giới thiệu chương
Nội dung của chương trình bày mục đích của nâng cao chất lượng tiếng nói
là gì, các loại nhiễu trong tiếng nói, cách hình thành của tiếng nói và các đặcđiểm cuả tín hiệu tiếng nói Chương này còn giới thiệu khái quát về các thuậttoán sử dụng trong speech enhancement
1.2 Nâng cao chất lượng tiếng nói là gì ?
Nâng cao chất lượng tiếng nói liên quan đến việc cải thiện cảm nhận đối vớitiếng nói bị suy giảm chất lượng do sự có mặt của nhiễu trong tiếng nói Tronghầu hết các ứng dụng, thì mục đích của nâng cao chất lượng tiếng nói là sự cảithiện chất lượng và tính dễ nghe của tiếng nói đã bị suy giảm do nhiễu Sự cảithiện về chất lượng mà tốt thì nó làm giảm đi sự khó khăn cho người nghe khinghe và trong nhiều trường hợp nó còn giúp cho người nghe có thể nghe trongmôi trường có nhiễu với mức độ cao và nhiễu đó tồn tại trong thời gian dài Cácthuật toán âng cao chất lượng tiếng nói làm giảm và nén nhiễu nền đến một mức
độ nào đó và nó được xem như là các thuật toán nén nhiễu
Trong nhiều trường hợp, sự cần thiết của việc tăng cường trong tín hiệutiếng nói xuất hiện khi tín hiệu tiếng nói hình thành trong vùng có nhiễu hoặc ảnhhưởng bởi nhiễu trong các kênh truyền thông Có rất nhiều kịch bản yêu cầu đặt
ra đối với Speech enhancement trong nhiều trường hợp khác nhau, ví dụ đối vớithông tin thoại, trên các hệ thống điện thoại tế bào thì chịu sự ảnh hưởng nhiễunền từ ô tô, nhà hàng, khi truyền đến đích Chính vì vậy mà các thuật toán trongnâng cao chất lượng tiếng nói có thể được sử dụng để cải thiện chất lượng củatiếng nói tại điểm thu, mặt khác, nó có thể được sử dụng trong các khối tiền xử lýcủa hệ thống mã hoá tiếng nói dùng trong các điện thoại tế bào chuẩn [1] Khinhận dạng tiếng nói, tiếng nói bị nhiễu được tiền xử lý bởi các thuật toán nângcao chất lượng trước khi được nhận dạng Trong thông tin liên lạc hàng không,các kỹ thuật nâng cao tiếng nói cần được sử dụng để cải thiện chất lượng và tính
Trang 15dễ nghe của tiếng nói của phi công bị ảnh hưởng bởi nhiễu trong buồng lái Vìvậy mà nâng cao chất lượng tiếng nói cũng rất cần thiết trong thông tin liên lạccủa quân sự Trong hệ thống hội nghị qua thoại, thì nguồn nhiễu xuất hiện ở mộtvùng nào đó thì nó sẽ được truyền đến tất cả các vùng khác Các thuật toán nângcao chất lượng tiếng nói được sử dụng như tiền xử lý hoặc làm sạch nhiễu trongtiếng trước khi được khuếch đại
Như các ví dụ minh họa ở trên thì mục tiêu của các thuật toán tăng cườngtuỳ thuộc vào các ứng dụng mà chúng ta đang dùng Xét trên phương diện lýtưởng, thì chúng ta mong muốn Speech enhancement cải thiện được cả chấtlượng và tính dễ nghe hay sự trong suốt của tiếng nói Tuy nhiên, xét trênphương diện thực tế thì các thuật toán Speech enhancement chỉ có thể cải thiệnđược chất lượng của tiếng nói Nó có thể làm giảm được nhiễu nền trong tiếngnói nhưng nó sẽ làm gia tăng thêm độ méo của tín hiệu tiếng nói, chính điều nàylàm giảm đi tính dễ nghe của tiếng nói Do đó, yêu cầu chính trong việc thiết kếmột thuật toán Speech enhancement phải đảm bảo nén được nhiễu và không đượcgây ra méo trong sự cảm nhận tín hiệu tiếng nói
Giải pháp tổng quát trong các vẩn đề của Speech enhancement phụ thuộcrất lớn vào ứng dụng chúng ta cần sử dụng, đó là các vần đề như là nguồn nhiễu
và giao thoa gây ra nhiễu, mối liên hệ giữa nhiễu và tín hiệu sạch, số microphone
và cảm biến có thể có Sự giao thoa có thể xem như là nhiễu hoặc được xem nhưtín hiệu tiếng nói, nó tuỳ thuộc vào môi trường ta đang xét, nó có thể được xemnhư là sự tranh chấp giữa các speaker Đặc tính âm nhiễu có thể được cộng thêmvào tín hiệu sạch nếu âm thanh được hình thành trong căn phòng bị dội âm thanh.Hơn nữa, nhiễu có thể có tính tương quan hoặc không tương quan về mặt thống
kê với tín hiệu sạch Số lượng microphone cũng có khả năng ảnh hưởng đến tínhhiệu quả của các thuật toán Speech enhancement
Trang 161.3 Lý thuyết về tín hiệu và nhiễu
1.3.1 Tín hiệu, hệ thống và xử lý tín hiệu
1.3.1.1 Tín hiệu
Tín hiệu(signal) dùng để chỉ một đại lượng vật lý mang tin tức Về mặt toán
học, ta có thể mô tả tín hiệu như một hàm theo biến thời gian, không gian hay cácbiến độc lập khác Chẳng hạn như, hàm: x(t) = 20t2 mô tả tín hiệu biến thiên theobiến thời gian t Hay một ví dụ khác, hàm: s(x,y) = 3x + 5xy + y2 mô tả tín hiệu làhàm theo hai biến độc lập x và y, trong đó x và y biểu diễn cho hai tọa độ trongmặt phẳng [2]
Hai tín hiệu trong ví dụ trên về lớp tín hiệu được biểu diễn chính xác bằnghàm theo biến độc lập Tuy nhiên, trong thực tế, các mối quan hệ giưa các đạilượng vật lý và các biến độc lập thường rất phức tạp nên không thể biểu diễn tínhiệu như trong hai ví dụ vừa nêu trên
Hình 1.1 Tín hiệu tiếng nói [2].
Lấy ví dụ tín hiệu tiếng nói – đó là sự biến thiên của áp suất không khí theothời gian Chẳng hạn khi ta phát âm từ “away”, dạng sóng của nó được biểu diễnnhư hình trên
1.3.1.2 Nguồn tín hiệu
Tất cả các tín hiệu đều do một nguồn nào đó tạo ra, theo một cách thức nào
đó Ví dụ tín hiệu tiếng nói được tạo ra băngg cách ép không khí đi qua dây thanh
Trang 17âm Một bức ảnh có được bằng cách phơi sáng một tấm phim chụp một cảnh/đốitượng nào đó Quá trình tạo tín hiệu như vậy thường liên quan đến một hệ thống,
hệ thống này đáp ứng lại một kích thích nào đó Trong tín hiệu tiếng nói, hệthống là hệ thống phát âm, gồm môi, răng, lưỡi, dây thanh…Kích thích liên quan
đến hệ thống được gọi là nguồn tín hiệu Như vậy ta có nguồn tiếng nói, nguồn
ảnh và các nguồn tín hiệu khác
1.3.1.3 Hệ thống và xử lý tín hiệu
Hệ thống là một thiết bị vật lý thực hiện một tác động nào đó lên tín hiệu.
Ví dụ, bộ lọc dùng để giảm nhiễu trong tín hiệu mang tin được gọi là một hệthống Khi ta truyền tín hiệu qua một hệ thống, như bộ lọc chẳng hạn, ta nói rằng
đã xử lý tín hiệu đó Trong trường này, xử lý tín hiệu liên quan đến lọc nhiễu rakhỏi tín hiệu mong muốn
Xử lý tín hiệu là ý muốn nói đến một loạt các công việc hay các phép toán
được thực hiện trên các tín hiệu nhằm đạt mục đích nào đó, như là tách tin tứcchứa bên trong tín hiệu hoặc là truyền tín hiệu mang tin từ nơi này đến nơi khác
Ở đây ta cần lưu ý đến định nghĩa hệ thống, nó không chỉ đơn thuần là thiết
bị vật lý mà còn là phần mềm xử lý tín hiệu hoặc là sự kết hợp giữa phần cứng vàphần mềm Ví dụ khi xử lý số tín hiệu bằng mạch logic, hệ thống xử lý ở đây làphần cứng Khi xử lý bằng máy tính số, tác động lên tín hiệu bao gồm một loạtcác phép toán thực hiện bởi chương trình phần mềm Khi xử lý bằng các bộ vi xửlý-hệ thống bao gồm kết hợp cả phần cứng và phần mềm, mỗi phần thực hiện cáccông việc riêng nào đó
1.3.1.4 Phân loại tín hiệu
Các phương pháp ta sử dụng trong xử lý tín hiệu phụ thuộc chặt chẽ vàođặc điểm của tín hiệu Có những phương pháp riêng áp dụng cho một loại tínhiệu nào đó Do vậy, trước tiên ta cần xem qua cách phân loại tín hiệu liên quanđến những ứng dụng cụ thể Chúng ta có thể phân tín hiệu thành các loại :
- Tín hiệu nhiều hướng và tín hiệu đa kênh
- Tín hiệu liên tục và tín hiệu rời rạc
Trang 18- Tín hiệu biên độ liên tục và tín hiệu biên độ rời rạc
- Tín hiệu xác định và tín hiệu ngẫu nhiên
1.4 Lý thuyết về nhiễu
1.4.1 Nguồn nhiễu
Nhiễu một hiện thực, nó tồn tại ở mọi nơi, trên đường phố, trên xe, trongvăn phòng, trong nhà hàng, trong các toà nhà Nó có thể là tiếng xe chạy trênđường, tiếng ồn trên các công trường xây dựng, tiếng ồn phát ra từ các quạt chạytrong PC, chuông điện thoại…, nó tồn tại với các hình dạng và hình thức khácnhau trong cuộc sống hằng ngày của chúng ta
Nhiễu có thể hình thành ở một nơi cố định, và không thay đổi theo thờigian, ví dụ như là tiếng ồn phát ra từ quạt chạy trong PC Nhiễu cũng có thểkhông đứng yên một chỗ, ví dụ như nhiễu trong nhà hàng, đó là tiếng nói củanhiều người xen lẫn với nhiều cách khác nhau với tiếng ồn phát ra từ nhà bếp.Các đặc tính về phổ cũng như thời gian của nhiễu trong nhà hàng thay đổi khôngtheo quy luật nên việc nén nhiễu trong các môi trường có nhiễu thay đổi như vậy
sẽ khó khăn hơn nhiều so với các nguồn nhiễu đứng yên không thay đổi
Các đặc tính đặc biệt khác nhau của các loại nhiễu đó là hình dạng của phổ
và sự phân bố của năng lượng nhiễu trong miền tần số Ví dụ, nhiễu gây ra bởigió thì năng lượng của nó tập trung ở tần số thấp dưới 500Hz Nhưng đối vớinhiễu trong nhà hàng, trên xe, trên tàu thì khác, năng lượng của nó được phân bốtrên một dải tần số rộng [3]
Trang 19Hình 1.2 Dạng và sự phân bố phổ năng lượng trung bình nhiễu trên xe [4].
Hình 1.3 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trên
tàu [4].
Trang 20Hình 1.4 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trong
nhà hàng[4].
1.4.2 Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau
Điểm tới hạn trong việc thiết kế các thuật toán của Speech enhancement là
sự nhận biết dải biến thiên của tiếng nói và mức độ cường độ nhiễu trong môitrường thực tế Từ đó, chúng ta có thể mô tả miền biến thiên của mức độ tỷ số tínhiệu trên nhiễu(SNR) được bắt gặp trong môi trường thực tế Điều này rất quantrọng để đánh giá tính hiệu quả của các thuật toán Speech enhancement trongviệc nén nhiễu và cải thiện chất lượng của tiếng nói trong dải biến thiên của mứcSNR
Mức độ của tiếng nói và nhiễu được đo lường bằng mức độ âm thanh Phép
đo lường ở đây là đo mức độ áp suất của âm thanh tính bằng dB SPL(soundpressure level)[4] Khoảng cách giữa người nói và người nghe cũng ảnh hưởngđến mức cường độ âm thanh, nó tương ứng với phép đo được thực hiện khimicrophone được đặt tại những vị trí có khoảng cách khác nhau Khoảng cáchđặc trưng trong giao tiếp face-to-face là 1m, khi khoảng cách đó tăng gấp đôi thìmức cường độ âm giảm đi 6 dB[6]
Trang 21Hình bên dưới này là sự tổng hợp về mức độ âm trung bình giữa tiếng nói
và nhiễu trong các môi trường khác nhau Mức độ của nhiễu nhỏ nhất ở trong cácmôi trường như phòng học, trong nhà ở, trong bệnh viện và trong các toà nhà.Trong các môi trường khác nhau, thì mức độ âm của nhiễu nằm trong phạm vibiến thiên từ 50 đến 55 dB SPL, và mức độ âm của tiếng nói là 60 đến 70 dBSPL Và khuyến nghị đưa ra là mức tỷ số SNR có hiệu quả trong các môi trườngnày là 5 đến 15 dB Mức độ âm của nhiễu rất cao trong các môi trường ở tàu điệnngầm, ở trên máy bay, nó đạt khoảng 70 đến 75 dB SPL Và mức độ âm củatiếng nói trong các môi trường này cũng đạt mức đó, nên mức tỷ số SNR trongcác môi trường này gần như là 0 dB
Hình 1.5 Mức nhiễu và tiếng nói (được đo bằng SPL dB) trong các môi
trường khác nhau [4].
1.5 Tín hiệu rời rạc theo thời gian
Tín hiệu rời rạc theo thời gian x(n) có thể tạo ra bằng cách lấy mẫu tín hiệuliên tục theo thời gian xa(t) với chu kỳ lấy mẫu là Ts (tần số lấy mẫu Fs = 1/ T) Ta
có
xa(t)|t=nT = xa(nT) = x(n) , -∞ < n< ∞ (1.1)Lưu ý n là biến nguyên, x(n) là hàm theo biến nguyên, chỉ định tại các giátrị n nguyên Khi n không nguyên, thì x(n) không xác định, chứ không phải bằng
0 Trong nhiều sách về xử lý tín hiệu số, người ta quy ước: khi biến nguyên thì
Trang 22biến được đặt trong dấu ngoặc vuông và khi biến liên tục thì được đặt trong dấungoặc tròn Từ đây trở đi, ta ký hiệu tín hiệu rời rạc là: x[n].[7]
Một số tín hiệu rời rạc cơ bản
1.5.1 Tín hiệu bước nhảy đơn vị
u[n] =
0 ,
2
0 ,
1
n n
(1.2) Tín hiệu bước nhảy dịch chuyển có dạng sau:
, 0 , 1
0
0 ,
1 ] [
n n n
n
, 0 , 1 ] [
1.5.3 Tín hiệu hàm mũ
x[n] = C.an (C,a : là những hằng số) (1.7)Tín hiệu hàm mũ phía phải : x[n] = C.an.u[n]
Tín hiệu hàm mũ phía trái : x[n] = C.an.u[-n]
1.5.4 Tín hiệu hàm sin rời rạc
A : là biên độ của tín hiệu sin
: pha ban đầu của tín hiệu sin
f : tần số số, f =
s F
F
, F : là tần số của tín hiệu, Fs : tần số lấy mẫu
-0.5 < f < 0.5
1.6 Phép biến đổi Fourier của tín hiệu rời rạc DTFT
Phép biến đổi này áp dụng để phân tích cho cả tín hiệu và hệ thống Nóđược dùng trong trường hợp dãy rời rạc dài vô hạn và không tuần hoàn
Trang 23e n x
1.6.1 Sự hội tụ của phép biến đổi Fourier
Không phải là tất cả DTFT đều tồn tại (hội tụ) vì DTFT chỉ hội tụ khi
n j n
n j n
n j n
n j n
n j
n x e
n x
e n x e
n x
e n x e
n x
| ] [
| ]
[
|
||
] [
| ]
[
] [ ]
[
(1.11)Như vậy, nếu x[n] thoả điều kiện
X( ) [ ]
(1.12)Giả sử ROC có chứa đường tròn đơn vị Tính X(Z) trên đường tròn đơn vị,
ta được
) ( ]
[ )
n
n j e
Trang 241.6.3 Phép biến đổi Fourier ngược
- Biểu thức tính biến đổi Fourier ngược
Ta thấy X() là một hàm tuần hoàn với chu kỳ 2 , doe jtuần hoàn với
Vậy ta có thể khai triển X() thành chuỗi Fourier trong khoảng ( , )
hay( 0 , 2 )nếu điều kiện tồn tại của X() thoả mãn Các hệ số Fourier là x[n],
ta có thể tính được x[n] từ X() theo cách sau:
Nhân 2 vế của biểu thức DTFT với e jl
1 ] [ ]
[ 2
1 )
( 2
n
l j n
n j l
cần khoảng giữa cân trên và dưới là 2 , ta được biểu thức tính biến đổi Fourier
ngược (IDTFT) như sau
Ta có thể tính IDFT bằng hai cách : một là tính trực tiếp tích phân trên, hai
là chuyển về biến đổi Z rồi tính như biến đổi Z ngược Tuỳ vào từng trường hợp
cụ thể mà ta chọn phương pháp nào cho thuận tiện
1.6.4 Các tính chất của phép biến đổi Fourier
Tính tuyến tính ax1[n] bx2[n] aX1( ) bX2( )
(1.17)
Tính dịch thời gian
Trang 25(1.18)Qua đây ta thấy sự dịch chuyển tín hiệu trong miền thời gian sẽ không ảnhhưởng biên độ của DTFT, tuy nhiên pha được thêm một lượng.
Tính dịch tần số / điều chế
) (
2
1 ) (
2
1 ] [ ) cos(
) (
] [
) ( ] [
0 0
n x n
X n x e
X n x n j
[
* ]
x
(1.20)
1.6.5 Phân tích tần số (phổ) cho tín hiệu rời rạc
Trong miền tần số, mỗi tín hiệu đều có một đặc điểm riêng của nó Ví dụnhư, tín hiệu sin chỉ có duy nhất một tần số đơn, trong khi nhiễu trắng chứa tất cảcác thành phần tần số Sự biến thiên chậm của tín hiệu là do tần số thấp, trong khi
sự biến thiến nhanh và những xung nhọn là do tần số cao Như xung vuông chẳnghạn, nó chứa tất cả tần số và cả tần số cao
Phổ của tín hiệu là mô tả chi tiết các thành phần tần số chứa bên trong tínhiệu Ví dụ như tín hiệu xung vuông, phổ của nó chỉ ra tất cả các đỉnh nhọn củacác sóng sin riêng có thể kết hợp lại hợp với nhau tạo ra xung vuông Thông tinnày quan trọng vì nhiều lý do Ví dụ, thành phần tần số trong một mẫu nhạc chỉcho ta biết các đặc trưng của loa, để từ đó khi sản xuất ta lại có cải tiến cho hayhơn Để dự đoán các ảnh hưởng của bộ lọc trên tín hiệu, cần phải biết không chỉbản chất của bộ lọc mà còn phải biết cả phổ của tín hiệu nữa
Trang 261.6.6 Phổ tín hiệu và phổ pha
Phổ của tín hiệu gồm hai phần: phổ biên độ (magnitude spectrum) và phổpha (phase spectrum) Phổ biên độ chỉ ra độ lớn của từng thành phần tần số Phổpha chỉ quan hệ pha giữa các thành phần tần số khác nhau Công cụ để tính phổtín hiệu rời rạc không tuần hoàn là DTFT
Để tính phổ tín hiệu , ta qua hai bước : một là tính DTFT của tín hiệu – làX(), hai là tính biên độ và pha của X()
) (
) ( ) ( X e j
ở đây |X()| là phổ biên độ và () là phổ pha
Ta dễ dàng chứng minh được rằng đối với tín hiệu thực, phổ biên độ là mộthàm chẵn theo tần số và phổ pha là một hàm lẻ theo
Do đó, nếu biết phổ X() trong khoảng 0 đến , ta có thể suy ra phổtrong toàn dải tần số Để dễ giải thích phổ, tần số số từ 0 đến thường đượcchuyển đổi thành tần số tương tự từ 0 đến fs/2 nếu tần số lấy mẫu là fs
Hình 1.6 Mẫu tiếng nói “eee” được lấy mẫu với tần số lấy mẫu 8kHz [11].
Trang 271.7 Các thuật toán sử dụng nâng cao chất lượng tiếng nói
1.7.1 Trừ phổ
Spectral-subtraction (SS) hay còn gọi là trừ phổ là một thuật toán giảmnhiễu đơn giản nhất Nó dựa trên nguyên lý cơ bản là nó sẽ mô tả và cập nhậtnhiễu trong tín hiệu có nhiễu bằng cách thu nhiễu khi không có sự hiện diện củatín hiệu Và nhiễu đó sẽ được trừ với tín hiệu có nhiễu, kết quả là tín hiệu củachúng ta sau khi xử lý bằng thuật toán này sẽ được loại đi nhiễu và xét trênphương diện lý tưởng thì nó là tín hiệu sạch SS lúc ban đầu được đề xuất bởiWeiss[8] trong miền tương quan, và sau đó được đề xuất bởi Boll [9] trong miềnchuyển đổi Fourier
1.7.2 Mô hình thống kê
Vấn đề của nâng cao chất lượng tiếng nói là phải đề ra được khung mô tảmang tính thống kê Nó là một tập các phép đo tương ứng với hệ chuyển đổiFourier của tín hiệu nhiễu, và chúng ta mong muốn sẽ tìm ra được một phươngthức ước lượng tuyến tính hoặc phi tuyến các tham số có lợi, đó là hệ chuyển đổicủa tín hiệu sạch Hai thuật toán được sử dụng đó là thuật toán Wiener vàminium mean-squared error(MMSE)[10]
1.8 Tín hiệu tiếng nói
Tín hiệu tiếng nói là tín hiệu liên tục và có phổ năng lượng thay đổi theothời gian Tuy nhiên khi khảo sát trong một khoảng thời gian đủ ngắn (khoảng 10đến 30 ms) thì đặc tính phổ của nó coi như không thay đổi
Trang 28Hình 1.7 Dạng sóng tín hiệu tiếng nói của câu “The wife helped her
husband” và dạng sóng của phụ âm “f” trong từ “wife, dạng sóng của đoạn
nguyên âm “er” trong từ “her” [11].
Dạng sóng của tín hiệu có thể được chia thành một số phân đoạn tương ứngvới các âm/từ Trong ví dụ trên ta thấy một số phân đoạn có dạng sóng gần nhưtuần hoàn còn số khác thì không có tính tuần hoàn và bị nhiễu
Những kiểu của đoạn tiếng nói_chu kỳ, nhiễu, khoảng lặng… thường đượctìm thấy trong tiếng nói trôi chảy với sự thay đổi về cường độ, khoảng thời gian
và đặc tính phổ
Trang 291.9 Cơ chế tạo tiếng nói
1.9.1.1 Bộ máy phát âm của con người
Hình 1.8 mặt cắt dọc của cơ quan tạo tiếng nói [11].
1.9.2 Mô hình kỹ thuật của việc tạo tiếng nói
Hình 1.9 mô hình kỹ thuật tạo tiếng nói[11].
Trang 301.9.3 Phân loại âm
Các âm trong tiếng Anh được phân loại gồm: nguyên âm và nguyên âm đôi,bán nguyên âm, âm mũi, âm stops, fricative, africatives, whisper
Hình 1.10 bảng phân loại âm vị trong tiếng Anh của người Mỹ [11]
1.9.4 Thuộc tính âm học của tiếng nói
Tín hiệu tiếng nói là tín hiệu tương tự, biểu diễn cho thông tin về mặt ngônngữ và được thể hiện bằng các âm vị khác nhau Số lượng các âm vị tuỳ thuộcvào từng ngôn ngữ, vào khoảng 20 đến 30 và không vượt quá 50 Đối với từngloại âm vị nó có đặc tính âm thanh khác nhau.Tổ hợp các âm vị tạo nên âm tiết
Âm tiết đóng vai trò một từ trọn vẹn mang ngữ nghĩa
1.10 Kết luận chương
Chương này đã trình bày được mục đích chính của speech enhancement làtriệt nhiễu hoặc là nén nhiễu trong tín hiệu tiếng nói đã bị nhiễu Ngoài ra, nộidung của chương cũng đã nêu rõ được các loại nhiễu xuất hiện trong từng môitrường cụ thể để từ đó chúng ta có tìm ra được thuật toán xử lý thích hợp ứng vớimỗi trường hợp cụ thể
Trang 31CHƯƠNG 2 : ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI
1.11 Giới thiệu chương
Cho đến nay đã có rất nhiều thuật toán nâng cao chất lượng tiếng nói, nhưnglàm thế nào để đánh giá đúng hiệu quả của chúng Phần này cung cấp các phươngpháp đánh giá khác nhau được sử dụng để đánh giá hiệu quả của thuật toán nângcao tiếng nói
Đánh giá chất lượng có thể thực hiện bằng cách sử dụng phương pháp đánhgiá theo cảm nhận của người nghe theo một thang đo đã được xác định trước(Subjective Evaluation_ SE) hoặc dựa trên phép đo các thuộc tính của tín hiệu(Objective Evaluation_ OE) Dù OE có giá trị thì nó vẫn phải tương quan vớicảm nhận của người nghe
Phần này sẽ cung cấp một cái nhìn tổng quan về các phương pháp đánh giáchất lượng của tiếng nói đã được xử lý
1.12 Phương pháp đánh giá chủ quan
Đánh giá chất lượng chủ quan là đánh giá chất lượng dựa trên cảm nhậnnghe của con người đối với tiếng nói
Chất lượng là một trong các thuộc tính của tín hiệu tiếng nói Về bản chấtthì chất lượng có tính chủ quan cao và khó có thể đánh giá một cách đáng tincậy.Nó chỉ đóng vai trò phần nào trong kỹ thuật đánh giá vì mỗi cá nhân ngườinghe có những tiêu chuẩn riêng về chất lượng “tốt” hay “xấu”, chất lượng là kếtquả của sự cảm nhận và phán đoán chủ quan của người nghe, dẫn đến sự chênhlệch lớn trong kết quả đánh giá Chất lượng có rất nhiều chỉ tiêu không thể đếmhết được Tùy vào các mục đích thực tế và tùy vào mỗi ứng dụng mà chỉ tậptrung vào một số chỉ tiêu chất lượng tiếng nói
Đánh giá chất lượng tiếng nói là một công việc đầy khó khăn do tính đa chỉtiêu và tính chủ quan cao Có một số lượng lớn các đặc trưng để đánh giá khithực hiện phương pháp nghe chủ quan này Để kết quả đánh giá là đáng tin cậythì sự lựa chọn đúng đắn các tham số cho việc đánh giá là điều cần thiết Dựa
Trang 32trên thực tế đó ITU-T đã đưa ra các khuyến nghị ban hành trong các chuẩn từITU-T Rec P.800 đến ITU-T Rec P.899 Có hai loại đánh giá chính là Tuyệt đối
và Tương đối Sự đánh giá dựa trên các thang điểm chuẩn đã được đề ra trongchuẩn ITU-T Rec.P.800[11]
1.12.1 Các phương pháp đánh giá tuyệt đối
1.12.1.1 Phương pháp đánh giá tuyệt đối ACR
ACR được sử dụng rộng rãi ITU-T[11] đã khuyến nghị dùng phươngpháp này trong hầu hết các ứng dụng Thang đo được khuyến là
Mean Opinion Scores (MOS)
Được mô tả trong khuyến nghị P.800 của ITU-T, MOS là mộtphép đo chất lượng thoại nổi tiếng Đây là một phương pháp đo chấtlượng mang tính chất chủ quan Có hai phương pháp kiểm tra là đánhgiá đàm thoại và đánh giá độ nghe
Bảng 2.1.Thang điểm đánh giá chất lượng tiếng nói theo MOS [12]
Score Quality of the Speech Level of Distortion
4 Good Just perceptible, but not annoying
1.12.2 Các phương pháp đánh giá tương đối
Nhìn chung phương pháp đánh giá này có độ nhạy cao hơn đối với sự suygiảm chất lượng của tín hiệu đã qua xử lý
1.12.2.1 Đánh giá bằng phương pháp so sánh các mẫu tín hiệu
Dạng đơn giản nhất của phương pháp này là thích nghe mẫu nào hơn
Preference test hay còn gọi là so sánh đánh giá theo từng cặp tín hiệu Paired Comparison Test Đối với phương pháp này thì người nghe sẽ được nghe hai mẫu
thoại và sẽ đánh giá thích mẫu tín hiệu nào hơn
Trang 33Đánh giá bằng cách so sánh Comparison Category Rating (CCR) được
khuyến nghị bởi ITU-T để đánh giá các hệ thống dùng nâng cao chất lượng tiếngnói [13]
Bảng 2.4 Thang điểm đánh giá chất lượng tín hiệu tiếng nói theo CCR
Theshold Test hay còn gọi là Isopreference Test là một biến thể của Preference Test Phương pháp này là so sánh tín hiệu đã qua xử lý với tín hiệu
gốc chuẩn mà độ suy giảm chất lượng của nó có thể được kiểm soát Được đề ratrong chuẩn ITU-T Rec.P.810
1.12.2.2 Phương pháp đánh giá theo sự suy giảm chất lượng
Đánh giá sự suy giảm chất lượng Degradation Category Rating (DCR) Sự
giảm sút về chất lượng của tín hiệu đã qua xử lý so với tín hiệu chất lượng caochưa qua xử lý được xác định qua năm thang điểm
Trang 341.13 Phương pháp đánh giá khách quan
Đánh giá chất lượng khách quan là phương pháp đánh giá chất lượng dựatrên các phép đo thuộc tính của tín hiệu
1.13.1 Đo tỷ số tín hiệu trên nhiễu trên từng khung
Đo SNR trên từng khung trong miền thời gian là một trong những phươngpháp đánh giá về mặt toán đơn giản nhất Để phương pháp này có hiệu quả thìđiều quan trọng là tín hiệu gốc và tín hiệu đã qua xử lý phải trong cùng miền thờigian và độ lệch pha hiện tại phải được hiệu chỉnh chính xác SNRseg được xácđịnh như sau
Trong đó : tín hiệu gốc (tín hiệu sạch)
: tín hiệu đã được tăng cường
N: chiều dài khung (thường được chọn từ 15-20ms)M: số khung của tín hiệu
Một vấn đề tiềm ẩn với phương pháp đánh giá SNRseg là năng lượng củatín hiệu trong suốt khoảng lặng của tín hiệu thoại (xuất hiện nhiều trong các đoạnhội thoại) sẽ rất bé, dẫn đến kết quả là giá trị của ai số SNRseg lớn làm sai lệchtoàn bộ đánh giá Phương án giải quyết duy nhất là loại trừ những khung lặngtrong biểu thức trên bằng cách đo mức năng lượng trong thời gian ngắn nén giátrị SNRseg ngưỡng đến một giá trị bé Nếu giá trị SNRseg được giới hạn trongkhoảng [-10dB, 35dB] [14] sẽ tránh được việc cần phải dùng bộ tách tín hiệuthoại và khoảng lặng
Sự xác định trước của SNRseg dựa trên tín hiệu vào gốc và tín hiệu đã được
xử lý Ta có thể dùng tín hiệu được xử lý qua bộ lọc dự đoán thường được sử
Trang 35dụng trong thuật toán CELP [15] Sau khi đưa tín hiệu gốc và tín hiệu đã qua xử
lý qua các bộ lọc này, ta có thể tính toán SNRseg dựa trên tín hiệu ra của các bộlọc[16] Sự ước tính SNR này mang lại hệ số tương quan cao đối với các phươngpháp đánh giá chủ quan
Một cách xác định SNRseg khác được đề xuất bởi Richards [17] trong đóhàm log có thay đổi so với công thức 3.1
(2.2)
Như vậy có thể tránh được các giá trị sai lệch lớn trong suốt các khoảnglặng của tín hiệu tiếng nói Chú ý rằng giá trị nhỏ nhất có thể đạt được củaSNRsegR bây giờ là 0 thì đã tốt hơn nhiều so với những giá trị âm vô cùng Ưuđiểm chính của việc xác định trước phân đoạn SNR là tránh được việc cần thiếtphải làm rõ ràng giữa các khoảng tiếng nói và khoảng lặng
Đo SNR cho từng khung có thể được mở rộng trong miền tần số theo
(2.3)
Trong đó B j : Trọng lượng tại dải tần số thứ j
K : Số dải tần
M : Tổng số khung tín hiệu F(m,j) : Dãy tín hiệu gốc qua bọ lọc đã được khuếch đại tại
dải
lần thứ j và khung thứ m
: Dãy tín hiệu đã được tăng cường qua lọc khuếch
đại ở cùng một dải tần với F(m,j)
Trang 36Ưu điểm chính của việc sử dụng SNRseg trên miền tần số thay vì miềnthời gian tăng thêm tính linh động của việc phân bố trọng số của phổ khác nhaucho những dải tần khác nhau
Một cách khác, trọng số của mỗi dải có thể thu được bằng cách dùngphương pháp phân tích hồi quy, còn gọi là phương pháp đánh giá chủ quan biếnđổi tần số Bằng cách này , trọng số có thể được chọn để có hệ số tương quan lớnnhất giữa đánh giá khách quan và đánh giá chủ quan Với phương pháp này, tổngcủa K (cho mỗi dải) của các phương pháp đánh giá khách quan khác nhau và Dj
được ước tính cho mỗi dãy, tại Dj được cho như sau[12]
(2.4)
Trọng lượng tối ưu cho mỗi Dj của mỗi dải đạt được khi dùng phươngpháp phân tích hồi quy tuyến tính bậc K, cho ra đánh giá chủ quan biến đổi tầnsố:
: Các hệ số hồi quy, D j : được cho bởi (3.4), K là số dải Phân tích hồi
quy không tuyến tính cũng có thể được sử dụng như một cách để chuyển hóađánh giá khách quan biến đổi tần số
1.13.2 Đo khoảng cách phổ dựa trên LPC
LPC (Linear Prediction Coefficient)s :Hệ số dự đoán tuyến tính
Gồm các phương pháp phổ biến là LLR (Log Likelihood Ratio) , IS (Itakura
Saito) và đo theo khoảng cách cepstrum
1.13.2.1 Phương pháp đo LLR
(2.6)
Trang 37:hệ số LPC của tín hiệu sạch
:hệ số của tín hiệu đã được
tăng cường chất lượng
R x là (p+1)*(p+1)ma trận tự tương quan(Toeplitz) của tín hiệu sạch
Biểu thức trên được viết lại trong miền tần số như sau[9]
[17] (2.7)
và lần lượt là phổ của và Biểu thức trên chỉ ra sự
khác nhau giữa phổ tín hiệu và phổ tăng cường có ảnh hưởng nhiều hơn khi
lớn, thường gần với đỉnh tần số formant Do đó, cách đo này xácđịnh sự khác nhau vị trí của đỉnh tần số formant
1.13.2.2 Phương pháp đo IS
Đo IS được xác định như sau
[12] (2.8)
và lần lượt là hệ số khuếch đại của tín hiệu sạch và tín hiệu
tăng cường Hệ số khuếch đại có thể được tính như sau:
Trang 38chứa hệ số tự tương quan của
tín hiệu sạch (nó cũng là hàng đầu tiên của ma trận tự tương quan )
1.13.2.3 Phương pháp đo theo khoảng cách cepstrum
Không giống với đo LLR, IS chú trọng sự khác nhau giữa hệ số khuếchđại , sự khác nhau về mức phổ của tín hiệu sạch và tín hiệu tăng cường Bên cạnh
đó cũng có thể là hạn chế của đánh giá IS, sự khác nhau giữa các mức phổ có tácđộng nhỏ đến chất lượng[18]
Hệ số LPC cũng có thể xuất phát từ khoảng cách đo được dựa trên hệ sốcepstrum Khoảng cách này quy định sự ước lượng khoảng cách log của phổ củagiữa hai phổ tín hiệu Hệ số cepstrum có thể thu được từ phép đệ quy hệ số LPC{aj} sử dụng công thức sau
Với p là bậc của phân tích LPC Phép đo dựa trên hệ số cepstrum có thể
được tính như sau [19]
(2.11)
Với và lần lượt là hệ số của tín hiệu sạch và tín hiệu đã đượctăng cường
Trang 391.13.3 Đánh giá mô phỏng theo cảm nhận nghe của con người
Những phương pháp đánh giá đã được đề cập trên được ưa dùng vì tính đơngiản để thực hiện và dễ dàng đánh giá Tuy nhiên, khả năng dự đoán chất lượngchủ quan của chúng thì hạn chế khi mà các phương pháp xử lý tín hiệu đó khôngtính đến phạm vi nghe của con người
1.13.3.1 Phương pháp đo Weighted Spectral Slope
Phương pháp đánh giá này được tính bởi dốc phổ đầu tiên được tìm thấy
của mỗi dải phổ Xét C x (k) là phổ dải tới hạn của tín hiệu sạch và là của tínhiệu tăng cường, xét trong đơn vị dB Phương trình sai phân bậc nhất được dùng
để tính độc dốc phổ được cho như sau:
(2.12)
Với và lần lượt biểu diễn cho độ dốc dải tần thứ k của tín hiệu
sạch và tín hiệu tăng cường Sự khác nhau giữa các độ dốc phổ phụ thuộc vàotrọng số một là dải tần gần với đỉnh hoặc rãnh, hai là đỉnh là đỉnh lớn nhất của
phổ Trọng số của dải thứ k, ký hiệu W(k) được tính như sau
[12] (2.13)
độ rộng loga lớn nhất của phổ trong tất cả các băng, là giá trị
của đỉnh gần với băng k nhất, và , là hằng số có được bằng phépphân tích hồi quy để cực đại hóa sự tương quan giữa đánh giá chủ quan và giá trị