Giáo trình xử lý tiếng nói
1 xö lý tiÕng nãi xö lý tiÕng nãi TrÞnh V¨n Loan TrÞnh V¨n Loan FIT-HUT FIT-HUT 2 Xö lý tiÕng nãi Tµi liÖu tham kh¶o Tµi liÖu tham kh¶o ! ! " " #$% %&& #$% %&& %%'()* %%'()* 3 Xö lý tiÕng nãi Néi dung Néi dung 1. 1. Mét sè kh¸i niÖm c¬ b¶n Mét sè kh¸i niÖm c¬ b¶n 2. 2. Xö lý tin hiÖu tiÕng nãi Xö lý tin hiÖu tiÕng nãi 3. 3. M· ho¸ tiÕng nãi M· ho¸ tiÕng nãi 4. 4. Tæng hîp tiÕng nãi Tæng hîp tiÕng nãi 5. 5. NhËn d¹ng tiÕng nãi NhËn d¹ng tiÕng nãi 4 Xử lý thông tin chứa trong tín Xử lý thông tin chứa trong tín hiệu tiếng nói nhằm hiệu tiếng nói nhằm truyền, lu trữ truyền, lu trữ tín hiệu này hoặc tín hiệu này hoặc tổng hợp, nhận tổng hợp, nhận dạng dạng tiếng nói. tiếng nói. 1. 1. Một số khái niệm cơ bản Một số khái niệm cơ bản Các nghiên cứu đợc tiến hành Các nghiên cứu đợc tiến hành để xử lý tiếng nói yêu cầu những để xử lý tiếng nói yêu cầu những hiểu biết trên nhiều lĩnh vực ngày hiểu biết trên nhiều lĩnh vực ngày càng đa dạng: từ càng đa dạng: từ ngữ âm ngữ âm và và ngôn ngôn ngữ học ngữ học cho đến cho đến xử lý tín hiệu xử lý tín hiệu 5 Mã hoá Mã hoá một cách có hiệu quả tín một cách có hiệu quả tín hiệu tiếng nói để truyền và lu trữ tiếng hiệu tiếng nói để truyền và lu trữ tiếng nói. nói. 1. 1. Một số khái niệm cơ bản Một số khái niệm cơ bản Tổng hợp Tổng hợp và và nhận dạng nhận dạng tiếng nói tiến tiếng nói tiến tới giao tiếp ngời-máy bằng tiếng nói. tới giao tiếp ngời-máy bằng tiếng nói. Tất cả các ứng dụng của xử lý tiếng Tất cả các ứng dụng của xử lý tiếng nói đều cần phải dựa trên các kết quả nói đều cần phải dựa trên các kết quả của của phân tích phân tích tiếng nói tiếng nói 6 1. 1. Một số khái niệm cơ bản Một số khái niệm cơ bản Tiếng nói đợc phân biệt với các âm thanh Tiếng nói đợc phân biệt với các âm thanh khác bởi các đặc tính âm học có nguồn gốc khác bởi các đặc tính âm học có nguồn gốc từ cơ chế tạo tiếng nói. từ cơ chế tạo tiếng nói. ! ! tuần hoàn (dây thanh rung) tuần hoàn (dây thanh rung) tạp âm (dây thanh không rung) tạp âm (dây thanh không rung) 7 "#$%&$ "#$%&$ 1. 1. Mét sè kh¸i niÖm c¬ b¶n Mét sè kh¸i niÖm c¬ b¶n Họng Thực quản Nắp thanh quản Khí quản Dây thanh Vòm miệng cứng Vòm miệng mềm Khoang mũi Lưỡi 8 '(!)*#$%&$ '(!)*#$%&$ 1. 1. Mét sè kh¸i niÖm c¬ b¶n Mét sè kh¸i niÖm c¬ b¶n 9 +, / +, / 1. 1. Mét sè kh¸i niÖm c¬ b¶n Mét sè kh¸i niÖm c¬ b¶n Thanh môn Dây thanh 10 +,-/ +,-/ 0$12303&$34 0$12303&$34 1. 1. Mét sè kh¸i niÖm c¬ b¶n Mét sè kh¸i niÖm c¬ b¶n [...]... Một số khái niệm cơ bản Bi tp a) Xỏc nh bin i z ca g(n): Tra bng 25 2 Xử lý tín hiệu tiếng nói 2 Xử lý tín hiệu tiếng nói Phân tích phổ tín hiệu tiếng nói Bộ lọc Bộ lọc hiệu chỉnh hiệu chỉnh Cửa sổ Cửa sổ FFT FFT Hamming H(z)=1-az-1 Log10|.| Log10|.| a = 0,95 0,98 26 x(n)= x(n).w(n) X(f) = X(f) * W(f) 27 2 Xử lý tín hiệu tiếng nói Xử lý đồng hình (homomorphisme) s(n) = h(n) * e(n) S() = H().E() log[S()]=... 1,2, , p a i i =1 n 31 2 Xử lý tín hiệu tiếng nói Xác định tần số cơ bản Fo Giọng nam: 80 250 Hz Giọng nữ: 150 500 Hz Tiền Tiền xử lý xử lý Xác định Xác định Fo Fo Đánh giá Đánh giá kết quả kết quả Một số phương pháp xác định Fo Dựa vào hàm tự tương quan Dựa vào hàm vi sai biên độ trung bình Dùng bộ lọc đảo và hàm tự tương quan Xử lý đồng hình 32 2 Xử lý tín hiệu tiếng nói Dựa vào hàm tự tương... ) FFT-1{log[H()]}: thụng tin vờ`h(n): h(n) ) -1 FFT {log[E()]}: thụng tin vờ`nguụ`n: e(n) 28 2 Xử lý tín hiệu tiếng nói Sơ đồ khối xử lý đồng hình ? Bộ lọc Bộ lọc hiệu chỉnh hiệu chỉnh Cửa sổ Cửa sổ FFT FFT Log10|.| Log10|.| FFT FFT-1-1 FFT c(n) 29 = h(n) + s(n) e(n) T0 ) h(n) 30 2 Xử lý tín hiệu tiếng nói Tiên đoán tuyến tính (Linear Prediction Coding) p Mô hình toàn điểm cực x( n ) + a i x( n... Biểu diễn tín hiệu tiếng nói Dạng sóng theo thời gian 12 1 Một số khái niệm cơ bản Biểu diễn tín hiệu tiếng nói Phổ tín hiệu tiếng nói 13 1 Một số khái niệm cơ bản Biểu diễn tín hiệu tiếng nói Spectrogram (Sonagram) 14 1 Một số khái niệm cơ bản Tạo âm hữu thanh Formant và antiformant 15 Tạo âm vô thanh 1 Một số khái niệm cơ bản 16 1 Một số khái niệm cơ bản Một số đặc điểm ngữ âm tiếng Việt Đơn âm... tiếng nói Dựa vào hàm tự tương quan r (k ) = N 1 k x(n) x(n + k ) k = 0,1, , K n =1 Fs = 10 kHz, N = 300, K = 150 Tìm cực đại trong khoảng (0, K) 33 2 Xử lý tín hiệu tiếng nói Dựa vào hàm tự tương quan Hạn chế, loại bỏ |x| . tiÕng nãi 3. 3. M· ho¸ tiÕng nãi M· ho¸ tiÕng nãi 4. 4. Tæng hîp tiÕng nãi Tæng hîp tiÕng nãi 5. 5. NhËn d¹ng tiÕng nãi NhËn d¹ng tiÕng nãi 4 Xử lý thông tin chứa trong tín Xử lý thông. +,-/ +,-/ 0$12303&$34 0$12303&$34 1. 1. Mét sè kh¸i niÖm c¬ b¶n Mét sè kh¸i niÖm c¬ b¶n 11 5 %2# )67# 5 %2# )67# 1. 1. Mét sè kh¸i niÖm c¬ b¶n Mét. #>*?8:@ #>*?8:@ 56 72 56 72 - 81394:28/ - 81394:28/ 81(;