LỜI CAM ĐOAN
CÁC TỪ VIẾT TẮT………………….…………………………………………….…...1
LỜI MỞ ĐẦU……………...……………………………………………………………..2
CÁC TỪ VIẾT TẮT
LỜI MỞ ĐẦU
CHƯƠNG 1: LÝ THUYẾT VỀ NHẬN DẠNG TIẾNG NÓI
1.1. Giới thiệu chương
1.2. Tiếng nói và các đặc tính cơ bản của tiếng nói
1.2.1. Cơ chế tạo thành tiếng nói
1.2.2. Các đặc tính của tiếng nói
1.2.3. Biểu diễn tín hiệu tiếng nói
1.3. Hệ thống nhận dạng tiếng nói
1.3.1. Nhận dạng tiếng nói là gì?
1.3.2. Lịch sử phát triển của các hệ thống nhận dạng tiếng nói
1.3.3. Các nguyên tắc cơ bản trong nhận dạng tiếng nói
1.3.4. Mô hình tổng quát của hệ thống nhận dạng tiếng nói
1.3.4.1. Cấu trúc của bộ nhận dạng
1.3.4.2. Khối tiền xử lý
1.3.4.3. Trích chọn đặc trưng
1.3.4.4. Mô hình âm học (Acoustic Model)
1.3.4.5. Từ điển (Word Lexicon)
1.3.4.6. Mô hình ngôn ngữ (Language Model)
1.3.4.7. Khối tìm và giải mã
1.3.4.8. Đánh giá nhận dạng
1.4. Ứng dụng của nhận dạng tiếng nói trong thực tế
1.5. Kết luận chương
CHƯƠNG 2: KHỐI FRONT-END VÀ CÁC THUẬT TOÁN GIẢM NHIỄU ĐỂ TĂNG HIỆU SUẤT BỘ NHẬN DẠNG
2.1. Giới thiệu chương
2.2. Thuật toán Standard Front-end (ETSI DSR ES 201 108)
2.2.1. Giới thiệu
2.2.2. Mô tả thuật toán Standard front-end
2.2.2.1. Sơ đồ khối
2.2.2.2. Chuyển đổi A/D
2.2.2.3. Bù lệch DC
2.2.2.4. Phân khung
2.2.2.5. Tính Log mức năng lượng
2.2.2.6. Tiền nhấn
2.2.2.7. Lấy cửa sổ Hamming
2.2.2.8. Biến đổi Fourier
2.2.2.9. Bộ lọc thang Mel
2.2.2.10. Biến đổi phi tuyến
2.2.2.11. Biến đổi cosine rời rạc (DCT)
2.2.2.12. Nén các đặc tính
2.3. Thuật toán Advanced front-end (ETSI DSR ES 202 050)
2.3.1. Giới thiệu
2.3.2. Mô tả thuật toán Advanced Front-end
2.3.3. Khối giảm nhiễu
2.3.3.1. Sơ đồ khối
2.3.3.2. Khối tính toán phổ
2.3.3.3. Tính trung bình phổ công suất
2.3.3.4. Thiết kế bộ lọc Wiener
2.3.3.5. Kĩ thuật phát hiện tiếng nói VAD ESTI- Nest
2.3.3.6. Dải lọc Mel
2.3.3.7. Tìm độ lợi
2.3.3.8. Biến đổi cosine ngược
2.3.3.9. Thực hiện bộ lọc
2.3.3.10. Bù lệch DC
2.3.4. Cân bằng kênh với thuật toán cân bằng mù
2.4. Các thuật toán nén nhiễu dùng trong tầng tiền xử lý
2.4.1. Kĩ thuật tối ưu MMSE
2.4.2. Thuật toán MMSE-STSA
2.4.2.1. MMSE-STSA 84
2.4.2.2. MMSE-STSA 85
2.4.3. Thuật toán MMSE_MS
2.4.4. Thuật toán Wiener
2.5. Kết luận chương
CHƯƠNG 3: MÔ HÌNH MARKOV ẨN VÀ ỨNG DỤNG TRONG NHẬN DẠNG TIẾNG NÓI
3.1. Giới thiệu chương
3.1. Chuỗi Markov
3.1. Mô hình Markov ẩn (HMM)
3.3.1. Định nghĩa
3.3.2. Các thành phần của mô hình Markov ẩn
3.3.3. Ba vấn đề cơ bản của HMM
3.3.4. Giải pháp cho các vấn đề của HMM
3.3.4.1. Giải quyết vấn đề 1 - Thuật toán Forward
3.3.4.2. Giải quyết vấn đề 2 - Thuật toán Viterbi
3.3.4.3. Giải quyết vấn đề 3 – Thuật toán Baum-Welch
3.4. Áp dụng HMM vào nhận dạng tiếng nói
3.4.1. Nhận dạng từ đơn
3.4.2. Nhận dạng tiếng nói liên tục
3.4.2.1.Tổng quan
3.4.2.2. Quá trình huấn luyện
3.4.2.3. Quá trình nhận dạng
3.5. Kết luận chương
CHƯƠNG 4: NHẬN DẠNG TIẾNG NÓI BẰNG PHẦN MỀM HTK VÀ ĐÁNH GIÁ HIỆU SUẤT NHẬN DẠNG.
4.1. Giới thiệu chương
4.2. Phần mềm HTK
4.2.1. Giới thiệu chung
4.2.2. Các công cụ dùng trong quá trình chuẩn bị cơ sở dữ liệu
4.2.2.1. HSLab
4.2.2.2. HCopy
4.2.3. Các công cụ dùng quá trình huấn luyện
4.2.3. 1. HInit
4.2.3.2. HCompV
4.2.3.3. Hrest
4.2.4. Các công cụ dùng trong quá trình định nghĩa từ điển và cấu trúc văn phạm
4.2.4.1. Hparse
4.2.4.2. HSGen
4.2.5. Công cụ dùng trong quá trình nhận dạng HVite
4.2.6. Công cụ dùng trong quá trình đánh giá hiệu suất nhận dạng HResults
4.3. Giới thiệu về cơ sở dữ liệu AURORA-3 SpeechDat Car
4.4. Quy trình thực nghiệm
4.5. Đánh giá kết quả thu được
4.5.1. Điều kiện hm
Bảng 1. WRR trong điều kiện hm
Bảng 2. WAC trong điều kiện hm
4.5.2. Điều kiện mm
Bảng 3. WRR trong điều kiện mm
Bảng 4. WAC trong điều kiện mm
4.5.3. Điều kiện hm
Bảng 5. WRR trong điều kiện wm
Bảng 6. WAC trong điều kiện wm
4.5.4. Giao diện đồ họa
Hình 4.1. Giao diện kiểm tra thuật toán Wiener
Hình 4.2. Giao diện khi kiểm tra thuật toán MMSE-STSA85
4.5.5. Nhận xét chung
4.6. Kết luận chương
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI
TÀI LIỆU THAM KHẢO
[4] ETSI ES 201 108 V1.1.1 Speech Processing, Transmission and Quality Aspects (STQ), Distributed speech recognition, Front-end feature extraction algorithm, Compression algorithms, ETSI, 2000.
[5] ETSI ES 202 050 V1.1.3 Speech Processing, Transmission and Quality Aspects (STQ), Distributed speech recognition, Advanced front-end feature extraction algorithm, Compression algorithms, ETSI, 2003.
[6] J. Benesty, S. Makino, J. Chen, “Speech Enhancement”, Springer, 2005.
[7] Yariv Ephraim, David Malah, “Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator”, IEEE Trans. Acoustics, Speech, and Signal Processing, Vol. ASSP-32, No.6, December, 1984.
[8] Yariv Ephraim, David Malah, “Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator”, IEEE Trans. Acoustics, Speech, and Signal Processing, Vol. ASSP-33, No.2, April, 1985.
[9] Rainer Martin, Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics, IEEE Trans. Speech and Audio Processing, Vol.9, No.5, July, 2001
[10] S. Young and et. al., The HTK Book (for HTK Version 3.3). Microsoft Corporation Cam-bridge University, Engineering Department, Cambridge University, 2005.
[11] “AURORA Project Database - Subset of SpeechDat-Car German database (AURORA/CD0003-03),” Evaluations and Language resources Distribution Agency, Tech. Rep., 2001.
[12] Phạm Văn Tuấn, Hoàng Lê Uyên Thục, “Giải pháp giảm nhiễu trong miền Wavelet để nâng cao hiệu suất nhận dạng tiếng nói tự động”, số 4(39), 2010.