1. Trang chủ
  2. » Luận Văn - Báo Cáo

thuật toán spectral subtraction và wiener filtering. chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán

92 552 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 92
Dung lượng 3,16 MB

Nội dung

Tuy không thể bảo toàn được y nguyên tín hiệu ban đầu nhưng sử dụng các thuật toán này ta có thể tăng cường được chất lượng tiếng nói và giảm bớt nhiễu nền để tín hiệu sau khi xử lý đến

Trang 1

Đồ án tốt nghiệp PDF by http://www ebook.edu.vn

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập – Tự do – Hạnh phúc

LỜI CAM ĐOAN

Kính g ửi: Hội đồng bảo vệ đồ án tốt nghiệp Khoa Điện tử _ Viễn thông _

Trường Đại học Bách Khoa Đà Nẵng

Em tên là: Nguyễn Thị Ngọc Diệp

Hiện đang học lớp 04ĐT1- Khoa: Điện tử - Viễn thông – Trường: Đại họcBách Khoa Đà Nẵng

Nhóm em xin cam đoan nội dung của đồ án này không phải là bản sao chép của bất cứ đồ án hoặc công trình đã có từ trước

Sinh viên thực hiện

Nguyễn Thị Ngọc Diệp

Trang 2

SVTH: Nguyễn Thị Ngọc Diệp Trang 2

MỤC LỤC

LỜI CAM ĐOAN 1

MỤC LỤC 2

DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG ANH 8

MỞ ĐẦU 10

CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI 13

1.1 Giới thiệu chương 13

1.2 Nâng cao chất lượng tiếng nói là gì ? 13

1.3 Lý thuyết về tín hiệu và nhiễu 15

1.3.1 Tín hiệu, hệ thống và xử lý tín hiệu 15

1.3.1.1 Tín hiệu 15

1.3.1.2 Nguồn tín hiệu 15

1.3.1.3 Hệ thống và xử lý tín hiệu 16

1.3.1.4 Phân loại tín hiệu 16

1.4 Lý thuyết về nhiễu 17

1.4.1 Nguồn nhiễu 17

1.4.2 Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau 19

1.5 Tín hiệu rời rạc theo thời gian 20

1.5.1 Tín hiệu bước nhảy đơn vị 21

1.5.2 Tín hiệu xung đơn vị 21

1.5.3 Tín hiệu hàm mũ 21

1.5.4 Tín hiệu hàm sin rời rạc 21

1.6 Phép biến đổi Fourier của tín hiệu rời rạc DTFT 22

1.6.1 Sự hội tụ của phép biến đổi Fourier 22

Trang 3

SVTH: Nguyễn Thị Ngọc Diệp Trang 3

1.6.2 Quan hệ giữa biến đổi Z và biến đổi Fourier 22

1.6.3 Phép biến đổi Fourier ngược 23

1.6.4 Các tính chất của phép biến đổi Fourier 23

1.6.5 Phân tích tần số (phổ) cho tín hiệu rời rạc 24

1.6.6 Phổ tín hiệu và phổ pha 25

1.7 Các thuật toán sử dụng nâng cao chất lượng tiếng nói 26

1.7.1 Trừ phổ 26

1.7.2 Mô hình thống kê 26

1.8 Tín hiệu tiếng nói 26

1.9 Cơ chế tạo tiếng nói 28

1.9.1.1 Bộ máy phát âm của con người 28

1.9.2 Mô hình kỹ thuật của việc tạo tiếng nói 28

1.9.3 Phân loại âm 29

1.9.4 Thuộc tính âm học của tiếng nói 29

1.10 Kết luận chương 29

CHƯƠNG 2 : ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI 30

2.1 Giới thiệu chương 30

2.2 Phương pháp đánh giá chủ quan 30

2.2.1 Các phương pháp đánh giá tuyệt đối 31

2.2.1.1 Phương pháp đánh giá tuyệt đối ACR 31

2.2.2 Các phương pháp đánh giá tương đối 31

2.2.2.1 Đánh giá bằng phương pháp so sánh các mẫu tín hiệu 31

2.2.2.2 Phương pháp đánh giá theo sự suy giảm chất lượng 32

2.3 Phương pháp đánh giá khách quan 33

Trang 4

SVTH: Nguyễn Thị Ngọc Diệp Trang 4

2.3.1 Đo tỷ số tín hiệu trên nhiễu trên từng khung 33

2.3.2 Đo khoảng cách phổ dựa trên LPC 35

2.3.2.1 Phương pháp đo LLR 35

2.3.2.2 Phương pháp đo IS 36

2.3.2.3 Phương pháp đo theo khoảng cách cepstrum 36

2.3.3 Đánh giá mô phỏng theo cảm nhận nghe của con người 37

2.3.3.1 Phương pháp đo Weighted Spectral Slope 37

2.3.3.2 Phương pháp đo Bark Distortion 38

2.3.3.3 Phương pháp đánh giá cảm nhận chất lượng thoại PESQ 39

2.4 Kết luận chương 39

CHƯƠNG 3: THUẬT TOÁN SPECTRAL–SUBTRACTION VÀ WIENER FILTERING 41

3.1 Giới thiệu chương 41

3.2 Sơ đồ khối chung của Spectral Subtraction và Wiener Filtering 41

3.3 Thuật toán Spectral Subtraction 41

3.3.1 Giới thiệu chung 41

3.3.2 Spectral subtraction đối với phổ biên độ 42

3.3.3 Spectral subtraction đối với phổ công suất 43

3.4 Thuật toán Wiener Filtering 45

3.4.1 Giới thiệu chung 45

3.4.2 Nguyên lý cơ bản của Wiener Filtering 46

3.5 Overlap và Adding trong quá trình xử lý tín hiệu tiếng nói 48

3.5.1 Phân tích tín hiệu theo từng frame 48

3.5.2 Overlap và Adding 49

Trang 5

SVTH: Nguyễn Thị Ngọc Diệp Trang 5

3.6 Ước lượng và cập nhật nhiễu 50

3.6.1 Voice activity detection 51

3.6.2 Quá trình ước lượng và cập nhật nhiễu 51

3.7 Kết luận chương 52

CHƯƠNG 4: THỰC HIỆN VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN 53

4.1 Giới thiệu chương 53

4.2 Quy trình thực hiện và đánh giá thuật toán 53

4.3 Lưu đồ thuật toán Spectral Subtraction 55

4.4 Lưu đồ thuật toán Wiener Filtering 56

4.5 Thực hiện thuật toán 57

4.6 Đánh giá chất lượng tiếng nói đã được xử lý 59

4.6.1 Cơ sở dữ liệu cho việc đánh giá 59

4.6.2 Tổng quan về quy trình đánh giá 59

4.6.3 Kiểm tra độ tin cậy của các phương pháp đánh giá 60

4.6.4 Thực hiện đánh giá 62

4.6.4.1 Đánh giá thuật toán với các hệ số dự đoán ban đầu 62

4.6.4.2 Tối ưu hệ số alpha cho thuật toán WF 65

4.6.4.3 Hệ số gamma cho thuật toán SS 67

4.6.4.4 Đánh giá thuật toán sau khi đã tối ưu 68

4.6.4.5 Đánh giá độ ổn định của thuật toán trong môi trường nhiễu khác 69

4.6.5 Kết luận chương 71

TÀI LIỆU THAM KHẢO 72

KẾT LUẬN ĐỒ ÁN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI 75

PHỤ LỤC 76

Trang 6

SVTH: Nguyễn Thị Ngọc Diệp Trang 6

DANH MỤC CÁC HÌNH VẼ VÀ BẢNG

Hình 1.1 Tín hiệu tiếng nói [2] 15

Hình 1.2 Dạng và sự phân bố phổ năng lượng trung bình nhiễu trên xe [4] 18

Hình 1.3 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trên tàu [4]. 18

Hình 1.4 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trong nhà hàng[4] 19

Hình 1.5 Mức nhiễu và tiếng nói (được đo bằng SPL dB) trong các môi trường khác nhau [4] 20

Hình 1.6 Mẫu tiếng nói “eee” được lấy mẫu với tần số lấy mẫu 8kHz [11] 25

Hình 1.7 Dạng sóng tín hiệu tiếng nói của câu “The wife helped her husband” và dạng sóng của phụ âm “f” trong từ “wife, dạng sóng của đoạn nguyên âm “er” trong từ “her” [11] 27

Hình 1.8 mặt cắt dọc của cơ quan tạo tiếng nói [11] 28

Hình 1.9 mô hình kỹ thuật tạo tiếng nói[11] 28

Hình 1.10 bảng phân loại âm vị trong tiếng Anh của người Mỹ [11] 29

Bảng 2.1.Thang điểm đánh giá chất lượng tiếng nói theo MOS [12] 31

Bảng 2.4 Thang điểm đánh giá chất lượng tín hiệu tiếng nói theo CCR 32

Bảng 2.5 Thang đánh giá DCR 32

Hình 3.1 Sơ đồ khối cho hai thuật toán SS và WF 41

Hình 3.2 Sơ đồ khối của thuật toán Spectral subtraction [26] 45

Hình 3.3 Sơ đồ khối của thuật toán Wiener Filtering 48

Hình 3.4 Phân tích tín hiệu thành các frame [31] 49

Hình 3.5 quá trình thực hiện overlap và adding [32] 50

Hình 4.1 Sơ đồ thực hiện và đánh giá thuật toán tăng cường 53

Hình 4.2 Lưu đồ thuật toán SS 55

Hình 4.3 Lưu đồ thuật toán WF 56

Hình 4.4 dạng sóng và spectrogram của tín hiệu sạch 57

Hình 4.5 Dạng sóng và phổ của tín hiệu bị nhiễu xe hơi với SNR = 10dB 57

Trang 7

SVTH: Nguyễn Thị Ngọc Diệp Trang 7

xung quanh 61

Hình 4.11 Đồ thị đánh giá Objective với hệ số IS=0.2, NoiseMargin=3 63 Hình 4.12 Đồ thị đánh giá Objective với hệ số IS=0.15, NoiseMargin=2 64 Hình 4.14 Đồ thị đánh giá objective với hệ số alpha=0.5, 0.8,0.9 với IS=0.15 và

NoiseMargin = 2 66

Hình 4.15 Đồ thị đánh giá objective với hệ số gamma = 1 và gamma = 2 67 Hình 4.16 Đồ thị đánh giá với IS=0.15 NoiMargin= 2 và alpha = 0.8 cho thuật

toán WF, gama=1 cho thuật toán SS 69

Hình 4.17 Đồ thị đánh giá OE với nhiễu người nói xung quanh 70

Trang 8

SVTH: Nguyễn Thị Ngọc Diệp Trang 8

DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG

ANH

Từ viết

SNR Signal Noise Ratio Tỉ số tín hiệu trên nhiễu

SPL Sound Pressure Level Mức áp suất của âm thanh

MMSE Minium Mean-Squared Error Tối thiểu hoá sai lệch trung

bình bình phươngSVD Singular Value Decomposition Phép phân tích giá trị đơnDFT Discrete Fourier Transform Phép biến đổi Fourier rời rạcFFT Fast Fourier Transform Phép biến đổi Fourier nhanh

DTFT Discrete-Time Fourier Transform Phép biến đổi Fourier của tín

hiệu rời rạc

IDTFT Inverse Discrete Fourier

Transform

Phép biến đổi ngược Fourierrời rạc

LTI Linear Time-Invariant Hệ thống tuyến tính và bất

biến theo thời gian

ITU-T InternationalTelecommunications

Union-Telecommunication

Hiệp hội tiêu chuẩn viễnthông quốc tế

ACR Absolute Categories Rating Đánh giá theo giá trị tuyệt đối

người ngheCCR Comparison Category Rating Đánh giá bằng cách so sánhDCR Degradation Category Rating Đánh giá suy giảm chất lượng

Trang 9

SVTH: Nguyễn Thị Ngọc Diệp Trang 9

LLR Log likehook Raito

WSS Weighted Spectral Slope Đo theo trọng số của phổ

LPC Linear Prediction Coefficients Hệ số dự đoán tuyến tính

VAD Voice Activity Detection Thăm dò sự hoạt động của

tiếng nóiSpeech Enhancement Nâng cao chất lượng tiếng nói

SS Spectral Subtraction

Thuật toán giảm nhiễu tínhiệu tiếng nói bằng phương pháp trừ phổ

Thuật toán giảm nhiễu tínhiệu tiếng nói bằng cách sửdụng bộ lọc Wiener

Statistical-model-based

Thuật toán giảm nhiễu tínhiệu tiếng nói dựa trên nguyên lý thống kê

Trang 10

SVTH: Nguyễn Thị Ngọc Diệp Trang 10

MỞ ĐẦU

Trong cuộc sống, tiếng nói đóng một vai trò rất quan trọng đối với con người Cùng với tiếng nói là sự xuất hiện của rất nhiều các loại dịch vụ thoại như ngày nay Tuy nhiên việc bảo toàn được tín hiệu tiếng nói trên các dịch vụ này là điều vô cùng khó khăn do sự mất mát và suy giảm tín hiệu và nhất là ảnh hưởng của nhiễu sẽ làm cho tín hiệu tiếng nói không còn như ban đầu Vì lý do

đó mà các thuật toán về Speech Enhancement ra đời Tuy không thể bảo toàn được y nguyên tín hiệu ban đầu nhưng sử dụng các thuật toán này ta có thể tăng cường được chất lượng tiếng nói và giảm bớt nhiễu nền để tín hiệu sau khi xử lý đến người nghe vẫn mang đầy đủ nội dung thông tin và không gây khó chịu bởi nhiễu đối với người nghe Vì vậy, Speech Enhancement đóng một vai trò rất quan trọng trong lĩnh vực thoại

Xuất phát từ thực tế này nhóm đã bắt tay vào tìm hiểu về Speech Enhancement, nghiên cứu các thuật toán của nó để thực hiện và đánh giá hiệu quả của các thuật toán đó trong môi trường thực tế

Để thực hiện được đồ án, nhóm đã phân chia thành 3 phần tương ứng với 3thành viên :

- Nguyễn Ngọc Trung : nghiên cứu và thực hiện thuật toán xử lý tiếng nói

sử dụng phương pháp Spectral Subtraction

- Nguyễn Phúc Nguyên : nghiên cứu và thực hiện thuật xử lý tiếng nói sử

dụng bộ lọc Wiener

- Nguyễn Thị Ngọc Diệp : nghiên cứu và thực hiện các phương pháp đánh

giá từ các kết quả đạt được của 2 thuật toán trên trong môi trường thực tế

Để thực hiện được nội dung phần của em thì đồ án của em được kết cấu thành 2 phần, gồm 5 chương :

Phần 1 : Lý thuyết

Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói Chương này giới thiệu một số khái niệm cơ bản về tín hiệu số, các phép biến đổi, tìm hiểu về các

Trang 11

SVTH: Nguyễn Thị Ngọc Diệp Trang 11

có đánh giá chủ quan và đánh giá khách quan

Chương 3 : Thuật toán Spectral Subtraction và Wiener Filtering Chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán

Phần 2 : Thực hiện và đánh giá

Chương 4 : Thực hiện và đánh giá thuật toán Chương này trình bày các kết quả nhóm đã làm được gồm có thực hiện giảm nhiễu tín hiệu tiếng nói bằng hai thuật toán đã nghiên cứu ở chương 3 Đồng thời so sánh kết quả thu được bằng cách dùng các phương pháp đánh giá đã được giới thiệu ở chương 2

Phương pháp nghiên cứu của đồ án là xây dựng lưu đồ của thuật toán, thực hiện xử lý tiếng nói bằng các thuật toán đó Dựa trên các kết quả đạt được sau khi

xử lý, sau đó sử dụng các phương pháp đánh giá khách quan để đánh giá tính hiệu quả của các thuật toán xử lý trong môi trường thực tế

Đồ án của nhóm đã thực hiện được 2 thuật toán xử lý tiếng nói trongSpeech Enhancement và đưa ra được các kết quả đánh giá khách quan làm cơ sở

để đánh giá tính hiệu quả của 2 thuật toán trên Đó chính là điểm mới trong đồ án của nhóm so với các đồ án đã có trước trong cùng chủ đề nghiên cứu

Trang 12

SVTH: Nguyễn Thị Ngọc Diệp Trang 12

Trang 13

Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói

CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI

1.1 Giới thiệu chương

Nội dung của chương trình bày mục đích của nâng cao chất lượng tiếng nói

là gì, các loại nhiễu trong tiếng nói, cách hình thành của tiếng nói và các đặc điểm cuả tín hiệu tiếng nói Chương này còn giới thiệu khái quát về các thuật toán sử dụng trong speech enhancement

1.2 Nâng cao chất lượng tiếng nói là gì ?

Nâng cao chất lượng tiếng nói liên quan đến việc cải thiện cảm nhận đối với tiếng nói bị suy giảm chất lượng do sự có mặt của nhiễu trong tiếng nói Trong hầu hết các ứng dụng, thì mục đích của nâng cao chất lượng tiếng nói là sự cải thiện chất lượng và tính dễ nghe của tiếng nói đã bị suy giảm do nhiễu Sự cải thiện về chất lượng mà tốt thì nó làm giảm đi sự khó khăn cho người nghe khi nghe và trong nhiều trường hợp nó còn giúp cho người nghe có thể nghe trong môi trường có nhiễu với mức độ cao và nhiễu đó tồn tại trong thời gian dài Các thuật toán âng cao chất lượng tiếng nói làm giảm và nén nhiễu nền đến một mức

độ nào đó và nó được xem như là các thuật toán nén nhiễu

Trong nhiều trường hợp, sự cần thiết của việc tăng cường trong tín hiệu tiếng nói xuất hiện khi tín hiệu tiếng nói hình thành trong vùng có nhiễu hoặc ảnh hưởng bởi nhiễu trong các kênh truyền thông Có rất nhiều kịch bản yêu cầu đặt

ra đối với Speech enhancement trong nhiều trường hợp khác nhau, ví dụ đối với thông tin thoại, trên các hệ thống điện thoại tế bào thì chịu sự ảnh hưởng nhiễu nền từ ô tô, nhà hàng, khi truyền đến đích Chính vì vậy mà các thuật toán trong nâng cao chất lượng tiếng nói có thể được sử dụng để cải thiện chất lượng của tiếng nói tại điểm thu, mặt khác, nó có thể được sử dụng trong các khối tiền xử lý của hệ thống mã hoá tiếng nói dùng trong các điện thoại tế bào chuẩn [1] Khi nhận dạng tiếng nói, tiếng nói bị nhiễu được tiền xử lý bởi các thuật toán nâng cao chất lượng trước khi được nhận dạng Trong thông tin liên lạc hàng không,các kỹ thuật nâng cao tiếng nói cần được sử dụng để cải thiện chất lượng và tính

Trang 14

SVTH: Nguyễn Thị Ngọc Diệp Trang 14

Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói

dễ nghe của tiếng nói của phi công bị ảnh hưởng bởi nhiễu trong buồng lái Vìvậy mà nâng cao chất lượng tiếng nói cũng rất cần thiết trong thông tin liên lạc của quân sự Trong hệ thống hội nghị qua thoại, thì nguồn nhiễu xuất hiện ở một vùng nào đó thì nó sẽ được truyền đến tất cả các vùng khác Các thuật toán nâng cao chất lượng tiếng nói được sử dụng như tiền xử lý hoặc làm sạch nhiễu trong tiếng trước khi được khuếch đại

Như các ví dụ minh họa ở trên thì mục tiêu của các thuật toán tăng cường tuỳ thuộc vào các ứng dụng mà chúng ta đang dùng Xét trên phương diện lý tưởng, thì chúng ta mong muốn Speech enhancement cải thiện được cả chất lượng và tính dễ nghe hay sự trong suốt của tiếng nói Tuy nhiên, xét trên phương diện thực tế thì các thuật toán Speech enhancement chỉ có thể cải thiện được chất lượng của tiếng nói Nó có thể làm giảm được nhiễu nền trong tiếng nói nhưng

nó sẽ làm gia tăng thêm độ méo của tín hiệu tiếng nói, chính điều này làm giảm

đi tính dễ nghe của tiếng nói Do đó, yêu cầu chính trong việc thiết kế một thuật toán Speech enhancement phải đảm bảo nén được nhiễu và không được gây ra méo trong sự cảm nhận tín hiệu tiếng nói

Giải pháp tổng quát trong các vẩn đề của Speech enhancement phụ thuộcrất lớn vào ứng dụng chúng ta cần sử dụng, đó là các vần đề như là nguồn nhiễu

và giao thoa gây ra nhiễu, mối liên hệ giữa nhiễu và tín hiệu sạch, số microphone

và cảm biến có thể có Sự giao thoa có thể xem như là nhiễu hoặc được xem nhưtín hiệu tiếng nói, nó tuỳ thuộc vào môi trường ta đang xét, nó có thể được xem như là sự tranh chấp giữa các speaker Đặc tính âm nhiễu có thể được cộng thêm vào tín hiệu sạch nếu âm thanh được hình thành trong căn phòng bị dội âm thanh Hơn nữa, nhiễu có thể có tính tương quan hoặc không tương quan về mặt thống

kê với tín hiệu sạch Số lượng microphone cũng có khả năng ảnh hưởng đến tínhhiệu quả của các thuật toán Speech enhancement

Trang 15

SVTH: Nguyễn Thị Ngọc Diệp Trang 15

Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói

1.3 Lý thuyết về tín hiệu và nhiễu

1.3.1 Tín hiệu, hệ thống và xử lý tín hiệu

Tín hiệu(signal) dùng để chỉ một đại lượng vật lý mang tin tức Về mặt toán

học, ta có thể mô tả tín hiệu như một hàm theo biến thời gian, không gian hay các biến độc lập khác Chẳng hạn như, hàm: x(t) = 20t2 mô tả tín hiệu biến thiên theo biến thời gian t Hay một ví dụ khác, hàm: s(x,y) = 3x + 5xy + y2 mô tả tín hiệu

là hàm theo hai biến độc lập x và y, trong đó x và y biểu diễn cho hai tọa độ trong mặt phẳng [2]

Hai tín hiệu trong ví dụ trên về lớp tín hiệu được biểu diễn chính xác bằng hàm theo biến độc lập Tuy nhiên, trong thực tế, các mối quan hệ giưa các đại lượng vật lý và các biến độc lập thường rất phức tạp nên không thể biểu diễn tín hiệu như trong hai ví dụ vừa nêu trên

Hình 1.1 Tín hiệu tiếng nói [2].

Lấy ví dụ tín hiệu tiếng nói – đó là sự biến thiên của áp suất không khí theo thời gian Chẳng hạn khi ta phát âm từ “away”, dạng sóng của nó được biểu diễn như hình trên

Tất cả các tín hiệu đều do một nguồn nào đó tạo ra, theo một cách thức nào

đó Ví dụ tín hiệu tiếng nói được tạo ra băngg cách ép không khí đi qua dây thanh

Trang 16

SVTH: Nguyễn Thị Ngọc Diệp Trang 16

Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói

âm Một bức ảnh có được bằng cách phơi sáng một tấm phim chụp một cảnh/đốitượng nào đó Quá trình tạo tín hiệu như vậy thường liên quan đến một hệ thống,

hệ thống này đáp ứng lại một kích thích nào đó Trong tín hiệu tiếng nói, hệ thống là hệ thống phát âm, gồm môi, răng, lưỡi, dây thanh…Kích thích

liên quan đến hệ thống được gọi là nguồn tín hiệu Như vậy ta có nguồn tiếng

nói, nguồn ảnh và các nguồn tín hiệu khác

Hệ thống là một thiết bị vật lý thực hiện một tác động nào đó lên tín hiệu.

Ví dụ, bộ lọc dùng để giảm nhiễu trong tín hiệu mang tin được gọi là một hệ

thống Khi ta truyền tín hiệu qua một hệ thống, như bộ lọc chẳng hạn, ta nói rằng

đã xử lý tín hiệu đó Trong trường này, xử lý tín hiệu liên quan đến lọc nhiễu ra khỏi tín hiệu mong muốn

Xử lý tín hiệu là ý muốn nói đến một loạt các công việc hay các phép toán

được thực hiện trên các tín hiệu nhằm đạt mục đích nào đó, như là tách tin tức chứa bên trong tín hiệu hoặc là truyền tín hiệu mang tin từ nơi này đến nơi khác

Ở đây ta cần lưu ý đến định nghĩa hệ thống, nó không chỉ đơn thuần là thiết

bị vật lý mà còn là phần mềm xử lý tín hiệu hoặc là sự kết hợp giữa phần cứng và phần mềm Ví dụ khi xử lý số tín hiệu bằng mạch logic, hệ thống xử lý ở đây là phần cứng Khi xử lý bằng máy tính số, tác động lên tín hiệu bao gồm một loạt các phép toán thực hiện bởi chương trình phần mềm Khi xử lý bằng các bộ vi xửlý-hệ thống bao gồm kết hợp cả phần cứng và phần mềm, mỗi phần thực hiện các công việc riêng nào đó

Các phương pháp ta sử dụng trong xử lý tín hiệu phụ thuộc chặt chẽ vào đặc điểm của tín hiệu Có những phương pháp riêng áp dụng cho một loại tín hiệu nào đó Do vậy, trước tiên ta cần xem qua cách phân loại tín hiệu liên quan đến những ứng dụng cụ thể Chúng ta có thể phân tín hiệu thành các loại :

- Tín hiệu nhiều hướng và tín hiệu đa kênh

Trang 17

SVTH: Nguyễn Thị Ngọc Diệp Trang 17

Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói

- Tín hiệu liên tục và tín hiệu rời rạc

Trang 18

SVTH: Nguyễn Thị Ngọc Diệp Trang 18

Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói

- Tín hiệu biên độ liên tục và tín hiệu biên độ rời rạc

- Tín hiệu xác định và tín hiệu ngẫu nhiên

1.4 Lý thuyết về nhiễu

1.4.1 Nguồn nhiễu

Nhiễu một hiện thực, nó tồn tại ở mọi nơi, trên đường phố, trên xe, trong văn phòng, trong nhà hàng, trong các toà nhà Nó có thể là tiếng xe chạy trên đường, tiếng ồn trên các công trường xây dựng, tiếng ồn phát ra từ các quạt chạy trong PC, chuông điện thoại…, nó tồn tại với các hình dạng và hình thức khác nhau trong cuộc sống hằng ngày của chúng ta

Nhiễu có thể hình thành ở một nơi cố định, và không thay đổi theo thời gian, ví dụ như là tiếng ồn phát ra từ quạt chạy trong PC Nhiễu cũng có thể không đứng yên một chỗ, ví dụ như nhiễu trong nhà hàng, đó là tiếng nói của nhiều người xen lẫn với nhiều cách khác nhau với tiếng ồn phát

ra từ nhà bếp Các đặc tính về phổ cũng như thời gian của nhiễu trong nhà hàng thay đổi không theo quy luật nên việc nén nhiễu trong các môi trường có nhiễu thay đổi như vậy

sẽ khó khăn hơn nhiều so với các nguồn nhiễu đứng yên không thay đổi

Các đặc tính đặc biệt khác nhau của các loại nhiễu đó là hình dạng của phổ

và sự phân bố của năng lượng nhiễu trong miền tần số Ví dụ, nhiễu gây ra bởi gió thì năng lượng của nó tập trung ở tần số thấp dưới 500Hz Nhưng đối với nhiễu trong nhà hàng, trên xe, trên tàu thì khác, năng lượng của nó được phân bốtrên một dải tần số rộng [3]

Trang 19

SVTH: Nguyễn Thị Ngọc Diệp Trang 19

Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói

Hình 1.2 Dạng và sự phân bố phổ năng lượng trung bình nhiễu trên xe [4].

Hình 1.3 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trên

tàu [4].

Trang 20

SVTH: Nguyễn Thị Ngọc Diệp Trang 20

Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói

Hình 1.4 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trong

nhà hàng[4].

1.4.2 Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau

Điểm tới hạn trong việc thiết kế các thuật toán của Speech enhancement là

sự nhận biết dải biến thiên của tiếng nói và mức độ cường độ nhiễu trong môi trường thực tế Từ đó, chúng ta có thể mô tả miền biến thiên của mức độ tỷ số tín hiệu trên nhiễu(SNR) được bắt gặp trong môi trường thực tế Điều này rất quan trọng để đánh giá tính hiệu quả của các thuật toán Speech enhancement trong việc nén nhiễu và cải thiện chất lượng của tiếng nói trong dải biến thiên của mức

SNR

Mức độ của tiếng nói và nhiễu được đo lường bằng mức độ âm thanh Phép

đo lường ở đây là đo mức độ áp suất của âm thanh tính bằng dB SPL(sound pressure level)[4] Khoảng cách giữa người nói và người nghe cũng ảnh hưởng đến mức cường độ âm thanh, nó tương ứng với phép đo được thực hiện khi microphone được đặt tại những vị trí có khoảng cách khác nhau Khoảng cách đặc trưng trong giao tiếp face-to-face là 1m, khi khoảng cách đó tăng gấp đôi thì

Trang 21

SVTH: Nguyễn Thị Ngọc Diệp Trang 21

Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói

mức cường độ âm giảm đi 6 dB[6]

Trang 22

SVTH: Nguyễn Thị Ngọc Diệp Trang 22

Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói

Hình bên dưới này là sự tổng hợp về mức độ âm trung bình giữa tiếng nói

và nhiễu trong các môi trường khác nhau Mức độ của nhiễu nhỏ nhất ở trong các môi trường như phòng học, trong nhà ở, trong bệnh viện và trong các toà nhà Trong các môi trường khác nhau, thì mức độ âm của nhiễu nằm trong phạm vi biến thiên từ 50 đến 55 dB SPL, và mức độ âm của tiếng nói là 60 đến 70 dB SPL Và khuyến nghị đưa ra là mức tỷ số SNR có hiệu quả trong các môi trường này là 5 đến 15 dB Mức độ âm của nhiễu rất cao trong các môi trường ở tàu điện ngầm, ở trên máy bay, nó đạt khoảng 70 đến 75 dB SPL Và mức độ

âm của tiếng nói trong các môi trường này cũng đạt mức đó, nên mức tỷ số SNR trong các môi trường này gần như là 0 dB

Hình 1.5 Mức nhiễu và tiếng nói (được đo bằng SPL dB) trong các môi

trường khác nhau [4].

1.5 Tín hiệu rời rạc theo thời gian

Tín hiệu rời rạc theo thời gian x(n) có thể tạo ra bằng cách lấy mẫu tín hiệu liên tục theo thời gian xa(t) với chu kỳ lấy mẫu là Ts (tần số lấy mẫu Fs = 1/ T)

Ta có

xa(t)|t=nT = xa(nT) = x(n) , -∞ < n< ∞ (1.1) Lưu ý n là biến nguyên, x(n) là hàm theo biến nguyên, chỉ định tại các giátrị n nguyên Khi n không nguyên, thì x(n) không xác định, chứ không phải bằng

0 Trong nhiều sách về xử lý tín hiệu số, người ta quy ước: khi biến nguyên thì

Trang 23

SVTH: Nguyễn Thị Ngọc Diệp Trang 23

Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói

biến được đặt trong dấu ngoặc vuông và khi biến liên tục thì được đặt trong dấungoặc tròn Từ đây trở đi, ta ký hiệu tín hiệu rời rạc là: x[n].[7]

Một số tín hiệu rời rạc cơ bản

1.5.1 Tín hiệu bước nhảy đơn vị

1, n ≥ 0u[n] = 

δ [n]=

0,

n = 0

Tín hiệu xung dịch chuyển có dạng sau

1,

δ [n− no] = 

0,

k =−∞

(1.6)

x[n] = C.an (C,a : là những hằng số) (1.7) Tín hiệu hàm mũ phía phải : x[n] = C.an.u[n]

Tín hiệu hàm mũ phía trái : x[n] = C.an.u[-n]

1.5.4 Tín hiệu hàm sin rời rạc

Trang 24

Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói

Trang 25

1.6 Phép biến đổi Fourier của tín hiệu rời rạc DTFT

Phép biến đổi này áp dụng để phân tích cho cả tín hiệu và hệ thống Nóđược dùng trong trường hợp dãy rời rạc dài vô hạn và không tuần hoàn

1.6.1 Sự hội tụ của phép biến đổi Fourier

Không phải là tất cả DTFT đều tồn tại (hội tụ) vì DTFT chỉ hội tụ khi

Trang 26

n = X ( ) (1.13)Như vậy, biến đổi Fourier chính là biến đổi Z tính trên đường tròn đơn vị.Dựa vào đây, ta có thể phát biểu lại điều kiện tồn tại của DTFT như sau :

Trang 27

Biến đổi Fourier của một tín hiệu chỉ tồn tại khi ROC của biến Z của tínhiệu đó có chứa đường tròn đơn vị

1.6.3 Phép biến đổi Fourier ngược

- Biểu thức tính biến đổi Fourier ngược

Ta thấy X( ) là một hàm tuần hoàn với chu kỳ 2π , do e

Nhân 2 vế của biểu thức DTFT với 1 e j l

2π rồi lấy tích phân trong khoảng( −π ,π

(1.15)Thay l = n và thay cận tích phân, không nhất thiết phải là ( −π ,π ) mà chỉ cần khoảng giữa cân trên và dưới là 2 π , ta được biểu thức tính biến đổi Fourier

ngược (IDTFT) như sau

Ta có thể tính IDFT bằng hai cách : một là tính trực tiếp tích phân trên, hai

là chuyển về biến đổi Z rồi tính như biến đổi Z ngược Tuỳ vào từng trường hợp

cụ thể mà ta chọn phương pháp nào cho thuận tiện

Trang 28

1.6.4 Các tính chất của phép biến đổi Fourier

Tính tuyến tính ax1[n] + bx2 [n] ↔ aX 1

(

) + bX 2 ( )

(1.17)

Trang 29

F

Tính dịch thời gian

(1.18)Qua đây ta thấy sự dịch chuyển tín hiệu trong miền thời gian sẽ không ảnh hưởng biên độ của DTFT, tuy nhiên pha được thêm một lượng

1.6.5 Phân tích tần số (phổ) cho tín hiệu rời rạc

Trong miền tần số, mỗi tín hiệu đều có một đặc điểm riêng của nó Ví dụ như, tín hiệu sin chỉ có duy nhất một tần số đơn, trong khi nhiễu trắng chứa tất cả các thành phần tần số Sự biến thiên chậm của tín hiệu là do tần số thấp, trong khi

sự biến thiến nhanh và những xung nhọn là do tần số cao Như xung vuông chẳng hạn, nó chứa tất cả tần số và cả tần số cao

Phổ của tín hiệu là mô tả chi tiết các thành phần tần số chứa bên trong tín hiệu Ví dụ như tín hiệu xung vuông, phổ của nó chỉ ra tất cả các đỉnh nhọn của các sóng sin riêng có thể kết hợp lại hợp với nhau tạo ra xung vuông Thông tin này quan trọng vì nhiều lý do Ví dụ, thành phần tần số trong một mẫu nhạc chỉ cho ta biết các đặc trưng của loa, để từ đó khi sản xuất ta lại có cải tiến cho hay hơn Để dự đoán các ảnh hưởng của bộ lọc trên tín hiệu, cần phải biết không chỉbản chất của bộ lọc mà còn phải biết cả phổ của tín hiệu nữa

Trang 30

1.6.6 Phổ tín hiệu và phổ pha

Phổ của tín hiệu gồm hai phần: phổ biên độ (magnitude spectrum) và phổ pha (phase spectrum) Phổ biên độ chỉ ra độ lớn của từng thành phần tần số Phổ pha chỉ quan hệ pha giữa các thành phần tần số khác nhau Công cụ để tính phổtín hiệu rời rạc không tuần hoàn là DTFT

Để tính phổ tín hiệu , ta qua hai bước : một là tính DTFT của tín hiệu – làX( ), hai là tính biên độ và pha của X( )

X ( ) = X

jθ ( )

(1.21)

ở đây |X( )| là phổ biên độ và θ ( ) là phổ pha

Ta dễ dàng chứng minh được rằng đối với tín hiệu thực, phổ biên độ là một hàm chẵn theo tần số và phổ pha là một hàm lẻ theo

Do đó, nếu biết phổ X( ) trong khoảng 0 đến π , ta có thể suy ra phổ trong toàn dải tần số Để dễ giải thích phổ, tần số số từ 0 đến π thường được chuyểnđổi thành tần số tương tự từ 0 đến fs/2 nếu tần số lấy mẫu là fs

Hình 1.6 Mẫu tiếng nói “eee” được lấy mẫu với tần số lấy mẫu 8kHz [11].

Trang 31

1.7 Các thuật toán sử dụng nâng cao chất lượng tiếng nói

1.7.1 Trừ phổ

Spectral-subtraction (SS) hay còn gọi là trừ phổ là một thuật toán giảm nhiễu đơn giản nhất Nó dựa trên nguyên lý cơ bản là nó sẽ mô tả và cập nhật nhiễu trong tín hiệu có nhiễu bằng cách thu nhiễu khi không có sự hiện diện của

tín hiệu Và nhiễu đó sẽ được trừ với tín hiệu có nhiễu, kết quả là tín hiệu của chúng ta sau khi xử lý bằng thuật toán này sẽ được loại đi nhiễu và xét trên phương diện lý tưởng thì nó là tín hiệu sạch SS lúc ban đầu được đề xuất bởi Weiss[8] trong miền tương quan, và sau đó được đề xuất bởi Boll [9] trong miền chuyển đổi Fourier

1.7.2 Mô hình thống kê

Vấn đề của nâng cao chất lượng tiếng nói là phải đề ra được khung mô tả mang tính thống kê Nó là một tập các phép đo tương ứng với hệ chuyển đổi Fourier của tín hiệu nhiễu, và chúng ta mong muốn sẽ tìm ra được một phương thức ước lượng tuyến tính hoặc phi tuyến các tham số có lợi, đó là hệ chuyển đổi của tín hiệu sạch Hai thuật toán được sử dụng đó là thuật toán Wiener và minium mean-squared error(MMSE)[10]

1.8 Tín hiệu tiếng nói

Tín hiệu tiếng nói là tín hiệu liên tục và có phổ năng lượng thay đổi theo thời gian Tuy nhiên khi khảo sát trong một khoảng thời gian đủ ngắn (khoảng 10đến 30 ms) thì đặc tính phổ của nó coi như không thay đổi

Trang 32

Hình 1.7 Dạng sóng tín hiệu tiếng nói của câu “The wife helped her

husband” và dạng sóng của phụ âm “f” trong từ “wife, dạng sóng của đoạn

nguyên âm “er” trong từ “her” [11].

Dạng sóng của tín hiệu có thể được chia thành một số phân đoạn tương ứng với các âm/từ Trong ví dụ trên ta thấy một số phân đoạn có dạng sóng gần như tuần hoàn còn số khác thì không có tính tuần hoàn và bị nhiễu

Những kiểu của đoạn tiếng nói_chu kỳ, nhiễu, khoảng lặng… thường được tìm thấy trong tiếng nói trôi chảy với sự thay đổi về cường độ, khoảng thời gian

và đặc tính phổ

Trang 33

1.9 Cơ chế tạo tiếng nói

Hình 1.8 mặt cắt dọc của cơ quan tạo tiếng nói [11].

1.9.2 Mô hình kỹ thuật của việc tạo tiếng nói

Hình 1.9 mô hình kỹ thuật tạo tiếng nói[11].

Trang 34

1.9.3 Phân loại âm

Các âm trong tiếng Anh được phân loại gồm: nguyên âm và nguyên âm đôi, bán nguyên âm, âm mũi, âm stops, fricative, africatives, whisper

Hình 1.10 bảng phân loại âm vị trong tiếng Anh của người Mỹ [11]

1.9.4 Thuộc tính âm học của tiếng nói

Tín hiệu tiếng nói là tín hiệu tương tự, biểu diễn cho thông tin về mặt ngôn ngữ và được thể hiện bằng các âm vị khác nhau Số lượng các âm vị tuỳ thuộc vào từng ngôn ngữ, vào khoảng 20 đến 30 và không vượt quá 50 Đối với từng loại âm vị nó có đặc tính âm thanh khác nhau.Tổ hợp các âm vị tạo nên âm tiết

Âm tiết đóng vai trò một từ trọn vẹn mang ngữ nghĩa

1.10 Kết luận chương

Chương này đã trình bày được mục đích chính của speech enhancement là triệt nhiễu hoặc là nén nhiễu trong tín hiệu tiếng nói đã bị nhiễu Ngoài ra, nội dung của chương cũng đã nêu rõ được các loại nhiễu xuất hiện trong từng môi trường cụ thể để từ đó chúng ta có tìm ra được thuật toán xử lý thích hợp ứng vớimỗi trường hợp cụ thể

Trang 35

Chương 2 : Đánh giá chất lượng tiếng nói

CHƯƠNG 2 : ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI

2.1 Giới thiệu chương

Cho đến nay đã có rất nhiều thuật toán nâng cao chất lượng tiếng nói, nhưng làm thế nào để đánh giá đúng hiệu quả của chúng Phần này cung cấp các phương pháp đánh giá khác nhau được sử dụng để đánh giá hiệu quả của thuật toán nâng cao tiếng nói

Đánh giá chất lượng có thể thực hiện bằng cách sử dụng phương pháp đánhgiá theo cảm nhận của người nghe theo một thang đo đã được xác định trước (Subjective Evaluation_ SE) hoặc dựa trên phép đo các thuộc tính của tín hiệu (Objective Evaluation_ OE) Dù OE có giá trị thì nó vẫn phải tương quan với cảm nhận của người nghe

Phần này sẽ cung cấp một cái nhìn tổng quan về các phương pháp đánh giá chất lượng của tiếng nói đã được xử lý

2.2 Phương pháp đánh giá chủ quan

Đánh giá chất lượng chủ quan là đánh giá chất lượng dựa trên cảm nhận nghe của con người đối với tiếng nói

Chất lượng là một trong các thuộc tính của tín hiệu tiếng nói Về bản chấtthì chất lượng có tính chủ quan cao và khó có thể đánh giá một cách đáng tin cậy.Nó chỉ đóng vai trò phần nào trong kỹ thuật đánh giá vì mỗi cá nhân người nghe có những tiêu chuẩn riêng về chất lượng “tốt” hay “xấu”, chất lượng là kết quả của sự cảm nhận và phán đoán chủ quan của người nghe, dẫn đến sự chênh lệch lớn trong kết quả đánh giá Chất lượng có rất nhiều chỉ tiêu không thể đếmhết được Tùy vào các mục đích thực tế và tùy vào mỗi ứng dụng mà chỉ tập trung vào một số chỉ tiêu chất lượng tiếng nói

Đánh giá chất lượng tiếng nói là một công việc đầy khó khăn do tính đa chỉ tiêu và tính chủ quan cao Có một số lượng lớn các đặc trưng để đánh giá khi thực hiện phương pháp nghe chủ quan này Để kết quả đánh giá là đáng tin cậythì sự lựa chọn đúng đắn các tham số cho việc đánh giá là điều cần thiết Dựa

Trang 36

Chương 2 : Đánh giá chất lượng tiếng nói

trên thực tế đó ITU-T đã đưa ra các khuyến nghị ban hành trong các chuẩn từITU-T Rec P.800 đến ITU-T Rec P.899 Có hai loại đánh giá chính là Tuyệt đối

và Tương đối Sự đánh giá dựa trên các thang điểm chuẩn đã được đề ra trong chuẩn ITU-T Rec.P.800[11]

2.2.1 Các phương pháp đánh giá tuyệt đối

ACR được sử dụng rộng rãi ITU-T[11] đã khuyến nghị dùng phương pháp này trong hầu hết các ứng dụng Thang đo được khuyến là

 Mean Opinion Scores (MOS)

Được mô tả trong khuyến nghị P.800 của ITU-T, MOS là một phép đo chất lượng thoại nổi tiếng Đây là một phương pháp đo chất lượng mang tính chất chủ quan Có hai phương pháp kiểm tra là đánh giá đàm thoại và đánh giá độ nghe

Bảng 2.1.Thang điểm đánh giá chất lượng tiếng nói theo MOS [12]

Score Quality of the Speech Level of Distortion

2.2.2 Các phương pháp đánh giá tương đối

Nhìn chung phương pháp đánh giá này có độ nhạy cao hơn đối với sự suy giảm chất lượng của tín hiệu đã qua xử lý

Dạng đơn giản nhất của phương pháp này là thích nghe mẫu nào

hơn Preference test hay còn gọi là so sánh đánh giá theo từng cặp tín hiệu Paired Comparison Test Đối với phương pháp này thì người nghe sẽ được

nghe hai mẫu

thoại và sẽ đánh giá thích mẫu tín hiệu nào hơn

Trang 37

Chương 2 : Đánh giá chất lượng tiếng nói

Đánh giá bằng cách so sánh Comparison Category Rating (CCR) được

khuyến nghị bởi ITU-T để đánh giá các hệ thống dùng nâng cao chất lượng tiếng nói [13]

Bảng 2.4 Thang điểm đánh giá chất lượng tín hiệu tiếng nói theo CCR

Rating Quality of Speech

hiệu gốc chuẩn mà độ suy giảm chất lượng của nó có thể được kiểm soát Được

đề ra trong chuẩn ITU-T Rec.P.810

Đánh giá sự suy giảm chất lượng Degradation Category Rating (DCR) Sự

giảm sút về chất lượng của tín hiệu đã qua xử lý so với tín hiệu chất lượng cao chưa qua xử lý được xác định qua năm thang điểm

Trang 38

Chương 2 : Đánh giá chất lượng tiếng nói

2.3 Phương pháp đánh giá khách quan

Đánh giá chất lượng khách quan là phương pháp đánh giá chất lượng dựa trên các phép đo thuộc tính của tín hiệu

2.3.1 Đo tỷ số tín hiệu trên nhiễu trên từng khung

Đo SNR trên từng khung trong miền thời gian là một trong những phương pháp đánh giá về mặt toán đơn giản nhất Để phương pháp này có hiệu quả thì điều quan trọng là tín hiệu gốc và tín hiệu đã qua xử lý phải trong cùng miền thời gian và độ lệch pha hiện tại phải được hiệu chỉnh chính xác SNRseg được xác định như sau

[12] (2.1)

Trong đó : tín hiệu gốc (tín hiệu sạch)

: tín hiệu đã được tăng cườngN: chiều dài khung (thường được chọn từ 15-20ms) M: số khung của tín hiệu

Một vấn đề tiềm ẩn với phương pháp đánh giá SNRseg là năng lượng củatín hiệu trong suốt khoảng lặng của tín hiệu thoại (xuất hiện nhiều trong các đoạn hội thoại) sẽ rất bé, dẫn đến kết quả là giá trị của ai số SNRseg lớn làm sai lệch toàn bộ đánh giá Phương án giải quyết duy nhất là loại trừ những khung lặng trong biểu thức trên bằng cách đo mức năng lượng trong thời gian ngắn nén giátrị SNRseg ngưỡng đến một giá trị bé Nếu giá trị SNRseg được giới hạn trong khoảng [-10dB, 35dB] [14] sẽ tránh được việc cần phải dùng bộ tách tín hiệu thoại và khoảng lặng

Sự xác định trước của SNRseg dựa trên tín hiệu vào gốc và tín hiệu đã được

xử lý Ta có thể dùng tín hiệu được xử lý qua bộ lọc dự đoán thường được sửdụng trong thuật toán CELP [15] Sau khi đưa tín hiệu gốc và tín hiệu đã qua xử

lý qua các bộ lọc này, ta có thể tính toán SNRseg dựa trên tín hiệu ra của các bộ

Trang 39

Chương 2 : Đánh giá chất lượng tiếng nói

lọc[16] Sự ước tính SNR này mang lại hệ số tương quan cao đối với các phươngpháp đánh giá chủ quan

Một cách xác định SNRseg khác được đề xuất bởi Richards [17] trong đó hàm log có thay đổi so với công thức 3.1

(2.2)

Như vậy có thể tránh được các giá trị sai lệch lớn trong suốt các khoảng lặng của tín hiệu tiếng nói Chú ý rằng giá trị nhỏ nhất có thể đạt được của SNRsegR bây giờ là 0 thì đã tốt hơn nhiều so với những giá trị âm vô cùng

Ưu điểm chính của việc xác định trước phân đoạn SNR là tránh được việc cần thiết phải làm rõ ràng giữa các khoảng tiếng nói và khoảng lặng

Đo SNR cho từng khung có thể được mở rộng trong miền tần số theo

(2.3)

Trong đó B j : Trọng lượng tại dải tần số thứ j

K : Số dải tần

M : Tổng số khung tín hiệu F(m,j) : Dãy tín hiệu gốc qua bọ lọc đã được khuếch đại tại

dải

lần thứ j và khung thứ m

: Dãy tín hiệu đã được tăng cường qua lọc khuếch

đại ở cùng một dải tần với F(m,j)

Ưu điểm chính của việc sử dụng SNRseg trên miền tần số thay vì miền thời gian tăng thêm tính linh động của việc phân bố trọng số của phổ khác nhau cho những dải tần khác nhau

Một cách khác, trọng số của mỗi dải có thể thu được bằng cách dùng phương pháp phân tích hồi quy, còn gọi là phương pháp đánh giá chủ quan biến đổi tần số Bằng cách này , trọng số có thể được chọn để có hệ số tương quan lớn

Trang 40

Chương 2 : Đánh giá chất lượng tiếng nói

nhất giữa đánh giá khách quan và đánh giá chủ quan Với phương pháp này, tổng

Ngày đăng: 02/07/2014, 16:35

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[3].Hu, Y. and Loizou, P(2006), Subjective comparison of speech enhancement algorithms, Proc. IEEE Int.Conf. Acoust. Speech Signal Process, I Sách, tạp chí
Tiêu đề: Proc. IEEE Int.Conf. Acoust. Speech Signal Process
Tác giả: Hu, Y. and Loizou, P
Năm: 2006
[5]. Long, M. (2005), Dinner Conversation (An oxymoron?), Acoustics Today,l(1), pp. 25-27 Sách, tạp chí
Tiêu đề: AcousticsToday
Tác giả: Long, M
Năm: 2005
[6]. Lombard, E.(1911), Le signe de lelevation de la voix, Ann. Mal. Oreil. Larynx.,37, 101-119 Sách, tạp chí
Tiêu đề: Ann. Mal. Oreil. "Larynx
Tác giả: Lombard, E
Năm: 1911
[8]. Lim, J. and Oppenheim, A.V.(1979), Enhancement and bandwidth compression of noisy speech, Proc. IEEE, 67(12),pp. 1586-1604 Sách, tạp chí
Tiêu đề: Proc. IEEE
Tác giả: Lim, J. and Oppenheim, A.V
Năm: 1979
[10]. Boll, S.F. (1979), Suppression of acoustic noise in speech using spectral subtraction, IEEE Trans, Acoust. Speech Signal Process.,27(2), 113-120 Sách, tạp chí
Tiêu đề: IEEE Trans, Acoust. Speech Signal Process
Tác giả: Boll, S.F
Năm: 1979
[11] “Methods for Subjective Determination of Transmission Quality”, ITU_T Recommendation P.800, August 1996 Sách, tạp chí
Tiêu đề: Methods for Subjective Determination of Transmission Quality
[12] Philipos C.Loizou, “Speech Enhancement Theory and Practice”, CRC Press, Taylor and Francis Group Sách, tạp chí
Tiêu đề: Speech Enhancement Theory and Practice
[13] Friedrich Schafer, “Artificial Bandwidth Extension of Narrowband Speech”, Signal Processing and Speech Communication Lab, Technical University Graz Sách, tạp chí
Tiêu đề: Artificial Bandwidth Extension of Narrowband Speech
[14] Hansen J. and Pellon B. , “An effective quality evaluation protocol for Speech Enhancement algorithms”, Proc. Int Conf. Spoken Language Process, 1998 Sách, tạp chí
Tiêu đề: An effective quality evaluation protocol forSpeech Enhancement algorithms
[16] Beey Y. , Shpiro Z. , Simchony T. , Shatz L. and Piasetzky J., “An efficient variable_bit_rate_low_delay (VBR_LP_CELP) code” , New York, Marcel Pekker, 1990 Sách, tạp chí
Tiêu đề: An efficient variable_bit_rate_low_delay (VBR_LP_CELP) code
[17] Yi Hu and Philipos C. Loizou, “Evaluation of Objective Quality Measures for Speech Enhancement”, IEEE Sách, tạp chí
Tiêu đề: Evaluation of Objective Quality Measures for Speech Enhancement
[18] Klatt D., “Prediction of perceived phonetic distance from critical band spectra”, Proc IEEE Int. Conf. Acoust. Speech Signal Process Sách, tạp chí
Tiêu đề: Prediction of perceived phonetic distance from critical band spectra
[19] Kitawaki N., Nagabuchi H., and Itoh K., “Objective Evaluation for low bit_rate Speech Coding systems”, IEEE J, Sel. Areas Commun Sách, tạp chí
Tiêu đề: Objective Evaluation for low bit_rate Speech Coding systems
[20] Quackenbush S., Barnwell T. and Clements M., “Objective Measure of Speech Quality”, Englewood Cliffs NJ: Prenticư Hall Sách, tạp chí
Tiêu đề: Objective Measure ofSpeech Quality
[21]. Boll, S.F(1979), Suppression of acoustic noise in speech using spectral subtraction, IEEE Trans. Acoust. Speech Signal Process., 27(2), 113-120 Sách, tạp chí
Tiêu đề: IEEE Trans. Acoust. Speech Signal Process
Tác giả: Boll, S.F
Năm: 1979
[22]. Paliwal, K. and Alsteris, L.(2005), On the usefulness of STFT phase spectrum in human listening tests, Speech Commun., 45(2), 153-170 Sách, tạp chí
Tiêu đề: Speech Commun
Tác giả: Paliwal, K. and Alsteris, L
Năm: 2005
[24]. Deller, J., Hansen, J.H.L., and Proakis, J. (2000), Discrete –time Processing of Speech Signals, New York : IEEE Press Sách, tạp chí
Tiêu đề: Discrete –time Processingof Speech Signals
Tác giả: Deller, J., Hansen, J.H.L., and Proakis, J
Năm: 2000
[25]. Guastafsson, H., Nordholm, S., and Claesson, I.(2001), Spectral subtraction using reduced delay convolution and adaptive averaging, IEEE Trans.Speech Audio Process., 9(8), 799-807 Sách, tạp chí
Tiêu đề: IEEE Trans. "Speech Audio Process
Tác giả: Guastafsson, H., Nordholm, S., and Claesson, I
Năm: 2001
[27]. Paliwal, K. and Alsteris, L.(2005), On the usefulness of STFT phase spectrum in human listening tests, Speech Commun., 45(2), 153-170 Sách, tạp chí
Tiêu đề: Speech Commun
Tác giả: Paliwal, K. and Alsteris, L
Năm: 2005
[28]. Lim, Oppenheim, Speech Enhancement Using a Soft-Decision noise Suppression EEE Trans. Acoustics, Speech and Signal Processing, vol. assp-28, no. 2, april 1980 Sách, tạp chí
Tiêu đề: EEE Trans. Acoustics, Speech and Signal Processing

HÌNH ẢNH LIÊN QUAN

Hình 1.1 Tín hiệu tiếng nói [2]. - thuật toán spectral subtraction và wiener filtering. chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán
Hình 1.1 Tín hiệu tiếng nói [2] (Trang 15)
Hình 1.2 Dạng và sự phân bố phổ năng lượng trung bình nhiễu trên xe [4]. - thuật toán spectral subtraction và wiener filtering. chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán
Hình 1.2 Dạng và sự phân bố phổ năng lượng trung bình nhiễu trên xe [4] (Trang 19)
Hình 1.3 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trên  tàu [4]. - thuật toán spectral subtraction và wiener filtering. chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán
Hình 1.3 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trên tàu [4] (Trang 19)
Hình 1.4 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trong nhà hàng[4]. - thuật toán spectral subtraction và wiener filtering. chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán
Hình 1.4 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trong nhà hàng[4] (Trang 20)
Hình 1.5 Mức nhiễu và tiếng nói (được đo bằng SPL dB) trong các môi  trường khác nhau [4]. - thuật toán spectral subtraction và wiener filtering. chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán
Hình 1.5 Mức nhiễu và tiếng nói (được đo bằng SPL dB) trong các môi trường khác nhau [4] (Trang 22)
Hình 1.6 Mẫu tiếng nói “eee” được lấy mẫu với tần số lấy mẫu 8kHz [11]. - thuật toán spectral subtraction và wiener filtering. chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán
Hình 1.6 Mẫu tiếng nói “eee” được lấy mẫu với tần số lấy mẫu 8kHz [11] (Trang 30)
Hình 1.7 Dạng sóng tín hiệu tiếng nói của câu “The wife helped her husband” và dạng sóng của phụ âm “f” trong từ “wife, dạng sóng của đoạn - thuật toán spectral subtraction và wiener filtering. chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán
Hình 1.7 Dạng sóng tín hiệu tiếng nói của câu “The wife helped her husband” và dạng sóng của phụ âm “f” trong từ “wife, dạng sóng của đoạn (Trang 32)
Hình 1.8 mặt cắt dọc của cơ quan tạo tiếng nói [11]. - thuật toán spectral subtraction và wiener filtering. chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán
Hình 1.8 mặt cắt dọc của cơ quan tạo tiếng nói [11] (Trang 33)
Hình 1.9 mô hình kỹ thuật tạo tiếng nói[11]. - thuật toán spectral subtraction và wiener filtering. chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán
Hình 1.9 mô hình kỹ thuật tạo tiếng nói[11] (Trang 33)
Hình 1.10 bảng phân loại âm vị trong tiếng Anh của người Mỹ [11] - thuật toán spectral subtraction và wiener filtering. chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán
Hình 1.10 bảng phân loại âm vị trong tiếng Anh của người Mỹ [11] (Trang 34)
Bảng 2.4. Thang điểm đánh giá chất lượng tín hiệu tiếng nói theo CCR - thuật toán spectral subtraction và wiener filtering. chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán
Bảng 2.4. Thang điểm đánh giá chất lượng tín hiệu tiếng nói theo CCR (Trang 37)
Sơ đồ khối chung cho cả 2 thuật toán : - thuật toán spectral subtraction và wiener filtering. chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán
Sơ đồ kh ối chung cho cả 2 thuật toán : (Trang 47)
Sơ đồ khối của thuật toán Spectral Subtraction : - thuật toán spectral subtraction và wiener filtering. chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán
Sơ đồ kh ối của thuật toán Spectral Subtraction : (Trang 55)
Sơ đồ khối của thuật toán Wiener Filtering: - thuật toán spectral subtraction và wiener filtering. chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán
Sơ đồ kh ối của thuật toán Wiener Filtering: (Trang 61)
Hình 3.5 quá trình thực hiện overlap và adding [32]. - thuật toán spectral subtraction và wiener filtering. chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán
Hình 3.5 quá trình thực hiện overlap và adding [32] (Trang 64)
Hình 4.1. Sơ đồ thực hiện và đánh giá thuật toán tăng cường - thuật toán spectral subtraction và wiener filtering. chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán
Hình 4.1. Sơ đồ thực hiện và đánh giá thuật toán tăng cường (Trang 67)
Hình 4.2 Lưu đồ thuật toán SS - thuật toán spectral subtraction và wiener filtering. chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán
Hình 4.2 Lưu đồ thuật toán SS (Trang 69)
Hình 4.3 Lưu đồ thuật toán WF - thuật toán spectral subtraction và wiener filtering. chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán
Hình 4.3 Lưu đồ thuật toán WF (Trang 70)
Hình 4.5 Dạng sóng và phổ của tín hiệu bị nhiễu xe hơi với SNR = 10dB - thuật toán spectral subtraction và wiener filtering. chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán
Hình 4.5 Dạng sóng và phổ của tín hiệu bị nhiễu xe hơi với SNR = 10dB (Trang 71)
Hình 4.6 Dạng sóng và spectrogram của tín hiệu sau khi xử lý nhiễu xe hơi bằng SS với SNR = 10dB. - thuật toán spectral subtraction và wiener filtering. chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán
Hình 4.6 Dạng sóng và spectrogram của tín hiệu sau khi xử lý nhiễu xe hơi bằng SS với SNR = 10dB (Trang 72)
Hình 4.8 Quy trình thực hiện đánh giá - thuật toán spectral subtraction và wiener filtering. chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán
Hình 4.8 Quy trình thực hiện đánh giá (Trang 74)
Hình 4.10. Đồ thị kiểm tra độ ổn định của đánh giá OE đối với nhiễu người nói xung quanh - thuật toán spectral subtraction và wiener filtering. chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán
Hình 4.10. Đồ thị kiểm tra độ ổn định của đánh giá OE đối với nhiễu người nói xung quanh (Trang 75)
Hình 4.9. Đồ thị kiểm tra độ ổn định của đánh giá OE đối với nhiễu xe hơi - thuật toán spectral subtraction và wiener filtering. chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán
Hình 4.9. Đồ thị kiểm tra độ ổn định của đánh giá OE đối với nhiễu xe hơi (Trang 75)
Hình 4.11 Đồ thị đánh giá Objective với hệ số IS=0.2, NoiseMargin=3 - thuật toán spectral subtraction và wiener filtering. chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán
Hình 4.11 Đồ thị đánh giá Objective với hệ số IS=0.2, NoiseMargin=3 (Trang 77)
Hình 4.12 Đồ thị đánh giá Objective với hệ số IS=0.15, NoiseMargin=2. - thuật toán spectral subtraction và wiener filtering. chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán
Hình 4.12 Đồ thị đánh giá Objective với hệ số IS=0.15, NoiseMargin=2 (Trang 78)
Hình 4.14 Đồ thị đánh giá objective với hệ số alpha=0.5, 0.8,0.9 với IS=0.15 và NoiseMargin = 2 - thuật toán spectral subtraction và wiener filtering. chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán
Hình 4.14 Đồ thị đánh giá objective với hệ số alpha=0.5, 0.8,0.9 với IS=0.15 và NoiseMargin = 2 (Trang 80)
Hình 4.15 Đồ thị đánh giá objective với hệ số gamma = 1 và gamma = 2. - thuật toán spectral subtraction và wiener filtering. chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán
Hình 4.15 Đồ thị đánh giá objective với hệ số gamma = 1 và gamma = 2 (Trang 81)
Hình 4.16 Đồ thị đánh giá với IS=0.15 NoiMargin= 2 và alpha = 0.8 cho thuật toán WF, gama=1 cho thuật toán SS. - thuật toán spectral subtraction và wiener filtering. chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán
Hình 4.16 Đồ thị đánh giá với IS=0.15 NoiMargin= 2 và alpha = 0.8 cho thuật toán WF, gama=1 cho thuật toán SS (Trang 83)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w