Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 31 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
31
Dung lượng
550 KB
Nội dung
Multimedia Engineering Lecture 2: Fundamental of Speech Signal Processing Lecturer: Dr Đỗ Văn Tuấn Department of Electronics and Telecommunications Email: tuandv@epu.edu.vn Lecture contents Introduction Speech signal analysis Speech signal synthesis Introduction to Vietnamese analysis and synthesis Introduction Speech signal is complicated: Noise + periodic segments Nonlinear Time variant Bộ máy phát âm Hốc mũi Vòm miệng Ổ Vòm miệng mềm Đầu lưỡi Thân lưỡi Lưỡi gà Cơ miệng Yết hầu 10 Nắp đóng quản 11 Dây giả 12 Dây 13 Thanh quản 14 Thực quản 15 Khí quản Bợ máy phát âm Bộ máy phát âm bao gồm thành phần riêng rẽ phổi, khí quản, quản, đường dẫn miệng, mũi Trong đó: Thanh quản chứa đơi dây dao động tạo cộng hưởng cần thiết để tạo âm Tuyến âm ống không môi, kết thúc dây thanh quản Khoang mũi ống không mơi, kết thúc vòm miệng, có độ dài cố định khoảng 12cm người lớn Vòm miệng nếp chuyển động Cơ chế phát âm Trong q trình tạo âm khơng phải âm mũi, vòm miệng mở, khoang mũi đóng lại, dòng khí qua khoang miệng Khi phát âm mũi, vòm miệng hạ thấp dòng khí qua khoang mũi Tuyến âm kích thích (excitation) nguồn lượng mơn Tiếng nói tạo tín hiệu nguồn từ mơn phát ra, đẩy khơng khí có phổi lên tạo thành dòng khí, va chạm vào hai dây tuyến âm Hai dây dao động tạo cộng hưởng, dao động âm lan truyền theo tuyến âm (tính từ mơn đến khoang miệng) sau qua khoang mũi, mơi, tạo tiếng nói Tín hiệu tiếng nói hình thành thơng qua yếu tố: Excitation Signal shaping Excitation Voiced excitation by its periodicity, voiceless excitation by its noise-like waveform, transient excitation by a certain sequence in the temporal course Signal shaping A speech sound is not only determined by the excitation signal, but also strongly by the "forming" of the air stream in the vocal tract The most important components are the lips and tongue The components in the vocal tract contributing substantially to the timbre (âm sắc) of the speech signal are: tongue position lip position Presentation of speech signal Speech signal is continuous Presentation of the speech signal digitally in order to maintain the characteristics of signal is very important Speech signal presentation Wave form Parametric Parametric excitation Parameters of vocal tract Presentation of speech signal Speech signal needs presenting in discrete form following three required steps: Sampling Quantizing Compressing Sampling: in order to recover the signal without loosing information, sampling rate f0 ≥2Fmax (Shannon theorem) (for example: telephone – 8Kz, music and voice – 48Kz) Quantizing: Each sample needs to be quantized for efficient processing and transmission This will produce white noise Compressing: When transmitted, the speech signal contains a huge ‘redundancy’ Hence, the signal normally is compressed with a compression technique to have a compact signal for delivery 10 Đặc điểm của tín hiệu tiếng nói Formant Với phổ tín hiệu tiếng nói, đỉnh có biên độ lớn xét khoảng (cực đại cục bộ) tương ứng với formant Ngoài tần số, formant xác định biên độ dải thông chúng Về mặt vật lý formant tương ứng với tần số cộng hưởng tuyến âm Tần số formant biến đổi khoảng rộng phụ thuộc vào giới tính người nói phụ thuộc vào dạng âm vị tương ứng với formant 17 Lecture contents Introduction Speech signal analysis Speech signal synthesis Introduction to Vietnamese analysis and synthesis 18 Bộ lọc nguồn Tuyến âm người lọc phi tuyến phụ thuộc thời gian (tham số thay đổi theo thời gian) phức tạp kích thích nhiều nguồn lượng khác Mơ hình thực cho tính chất âm học vô phức tạp Để tạo mơ hình đơn giản hóa sau Tuyến âm biểu diễn lọc tuyến tính khơng mát với đầu vào Nguồn kích thích dãy xung tuần hồn nhiễu, phụ thuộc vào tiếng nói hữu hay vơ Các đặc tính lọc nguồn kích thích tĩnh (khơng biến đổi) chu kỳ khoảng 10 ms 19 Bợ lọc nguồn Mơ hình Khi dùng cho tổng hợp, tham số lọc cập nhật theo chu kỳ khoảng 10 ms Khi dùng cho phân tích, tín hiệu tiếng nói phân chia thành khung độ dài khoảng 10-25 ms Với khung, tập tham số lọc xác định cách tối thiểu khác biệt tiếng nói tạo mơ hình tiếng nói thực 20 Mơ hình tồn cực Là mơ hình lọc–nguồn tuyến âm biểu diễn lọc số phụ thuộc thời gian có đáp ứng tần số là: S ( z) H z U ( z) 1 G p k a z k k 1 Hệ thống kích thích dãy xung tiếng nói hữu hay dãy nhiễu ngẫu nhiên tiếng nói vơ Tần số tham số hữu thanh/ vơ xác định sử dụng phân tích tiên đốn tuyến tính Các mẫu tiếng nói s(n) có cách sử dụng phương trình: p s n a k s n k G.u n k 1 21 Hàm tương quan Hàm tương quan dùng để khảo sát tính tương quan hai hàm cách so sánh chồng hai hàm lên với hai hàm dịch sang trái hay sang phải Liên tục r ( x) g (u )h( x u )du Rời rạc r(k) g(m).h(m k) m - Với tín hiệu ngắn hạn chiều dài N mẫu, hàm tương quan xác định sau: N1 R (k ) g ( k m)h(m) k 0 22 Hàm tự tương quan Định nghĩa R (k ) x m .x m k m Nếu tín hiệu x(n) tuần hồn với chu kỳ P hàm tự tương quan tuần hoàn với chu kỳ P: Tính chất Là hàm chẵn R(k) đạt giá trị cực đại Giá trị R(0) lượng tín hiệu: R x m m Sử dụng hàm tự tương quan để phân tích tần số 23 Kỹ thuật tiên đoán tuyến tính (LP) Tiên đốn tuyến tính Bộ tiên đốn tuyến tính với hệ số tiên đốn thống có đầu là: p k bậc p hệ ~ s (n) k s n k k 1 Sai số tiên đoán e n s n ~ s n e n s ( n ) p s n k k k 1 Bộ lọc sai số tiên đoán hệ thống có hàm truyền đạt A z 1 p k z k k 1 hàm truyền đạt mơ hình tồn cực H z S ( z) U ( z) 1 G p a k z k k 1 24 Kỹ thuật tiên đoán tuyến tính (LP) Tiên đoán tuyến tính Tín hiệu đầu hàm truyền đạt p s n a k s n k G.u n k 1 Nếu k a k e(n) G u (n) với điều kiện đó, lọc lỗi tiên đoán A(z) lọc đảo hệ H(z): G H ( z) A( z ) 25 Giải toán LP Xét mẫu tín hiệu s(n), ta tìm cách biểu diễn mẫu tín hiệu thành tổ hợp tuyến tính mẫu trước Lỗi tiên đốn trung bình ngắn hạn E s ( n) ~ s ( n) E e ( n) n n E s ( n ) n Tối thiểu lỗi tuyến tính bình phương để tìm giá trị E 0 i s ( n ) s ( n i ) a n Đặt p k s n k k 1 k i p p a k s n k s n i n k 1 n i, k s n i s n k n p Thì i, k i,0 k k 1 n n phương trình tiên đốn tuyến tính (Yuke-Walker) 26 Tự đọc thêm Tìm hiểu cách giải tốn tiên đốn tuyến tính LP Sử dụng hàm tự tương quan (giải thuật đệ quy Levison-Durbin ) Sử dụng phương pháp covariant Đọc thêm phổ tiên đoán tuyến tính 27 Lecture contents Introduction Speech signal analysis Speech signal synthesis Introduction to Vietnamese analysis and synthesis 28 Phương pháp tổng hợp tiếng nói Được chia làm nhóm: Tổng hợp mơ máy phát âm: Mơ lại q trình xử lý vật lý máy phát âm người cách trực tiếp Tổng hợp Formant: Mô tần số điểm cực tín hiệu tiếng nói hàm truyền đạt tuyến âm dựa mơ hình lọc-nguồn Tổng hợp trực tiếp: Sử dụng mẫu tiếng nói ghi âm có chiều dài khác từ tiếng nói tự nhiên Phương pháp tổng hợp LP (mã hóa tổng hợp LP - Presentation) 29 Lecture contents Introduction Speech signal analysis Speech signal synthesis Introduction to Vietnamese analysis and synthesis – your task 30 End of the lecture 31 ... to the timbre (âm sắc) of the speech signal are: tongue position lip position Presentation of speech signal Speech signal is continuous Presentation of the speech signal digitally in order... characteristics of signal is very important Speech signal presentation Wave form Parametric Parametric excitation Parameters of vocal tract Presentation of speech signal Speech signal needs presenting...Lecture contents Introduction Speech signal analysis Speech signal synthesis Introduction to Vietnamese analysis and synthesis Introduction Speech signal is complicated: Noise +