MỤC LỤC 1. PHƯƠNG PHÁP PHÂN TÍCH TIẾNG NÓI THEO CÁC ĐẶC TRƯNG 1 1.1. Các phương pháp trích chọn đặc tính .......................................................1 1.1.1. Phương pháp tính hệsốMFCC ..................................................................... 1 1.1.2. Phương pháp tính hệsốPLP .......................................................................... 4 1.1.3. Các kĩthuật khửnhiễu.................................................................................... 6 1.2. Các đơn vịxửlý tiếng nói..........................................................................7 1.2.1. Tần sốlấy mẫu ................................................................................................ 7 1.2.2. Nhiễu................................................................................................................ 7 1.2.3. Tần sốcơbản .................................................................................................. 8 1.2.4. Formant............................................................................................................ 8 1.3. Định dạng âm thanh ..................................................................................9 1.4. Thu tín hiệu âm thanh trong thời gian thực.............................................11 1.5. Xác định giá trịhằng – ngưỡng theo môi trường tín hiệu.......................12 1.5.1. Thông sốngưỡng zero .................................................................................. 12 1.5.2. Thông số độ ồn nhiễu ................................................................................... 13 1.6. Lọc nhiễu..................................................................................................13 1.7. Xác định dãy tín hiệu sốcó chứa dữliệu tiếng nói và xác định các điểm đầu - cuối của tiếng nói.................................................................................................14 1.8. Chuẩn hoá biên độ...................................................................................15 1.8.1. Biến đổi FFT ................................................................................................. 16 1.8.2. Làm rõ tín hiệu và cửa sổhoá ...................................................................... 19 1.8.3. Định lý lấy mẫu............................................................................................. 20 1.8.4. Phổdẹt của tiếng nói..................................................................................... 20 1.8.5. Biểu diễn tiếng nói theo mô hình LPC và các hệsốdựbáo tuyến tính..... 22 2. CÁC MÔ HÌNH ỨNG DỤNG CHO NHẬN DẠNG TIẾNG NÓI 28 2.1. Phương pháp VQ .....................................................................................28 2.1.1. Khái niệm phép lượng tửhoá....................................................................... 28 2.1.2. Độbiến dạng ................................................................................................. 29 2.1.3. Tính chất........................................................................................................ 29 2.1.4. Thiết kếcodebook theo phương pháp LBG................................................ 30 2.1.5. Ứng dụng VQ trong xửlý tín hiệu tiếng nói............................................... 33 2.2. Phương pháp căn chỉnh thời gian động ..................................................34 2.2.1. Khái quát vềtiếp cận đối sánh mẫu và kĩthuật căn chỉnh thời gian động 34 2.2.2. Kĩthuật căn chỉnh thời gian động ................................................................ 36 2.2.3. Các ràng buộc................................................................................................ 41 2.2.4. Thuật toán căn chỉnh thời gian động ........................................................... 46 2.3. Mô hình Markov ẩn..................................................................................52 2.3.1. Quá trình Markov.......................................................................................... 52 2.3.2. Mô hình Markov ẩn ...................................................................................... 54 2.3.3. Ba bài toán cơbản của mô hình Markov ẩn................................................ 57 2.3.4. Các loại mô hình Markov ẩn........................................................................ 67 2.3.5. Giới hạn của mô hình Markov ẩn ................................................................ 69 2.4. Mạng Nơron.............................................................................................69 2.4.1. Các khảnăng của mạng nơron..................................................................... 69 2.4.2. Cấu trúc mạng nơron nhân tạo ..................................................................... 70 2.4.3. Phân loại mạng nơron................................................................................... 73 2.4.4. Ứng dụng mạng nơron lan truyền ngược cho nhận dạng tiếng nói.......... 73 3. HUẤN LUYỆN VÀ NHẬN DẠNG TIẾNG NÓI 75 3.1. Huấn luyện và nhận dạng theo mô hình Markov.....................................75 3.1.1. Giới thiệu vềHTK ........................................................................................ 75 3.1.2. Huấn luyện hệthống nhận dạng .................................................................. 75 3.1.3. Nhận dạng...................................................................................................... 91 3.1.4. Tổng kết......................................................................................................... 95 3.2. Mô hình lai ghép ANN/HMM...................................................................98 3.2.1. Hệthống nhận dạng dùng HMM liên tục ................................................... 98 3.2.2. Huấn luyện hệthống nhận dạng dùng ANN............................................. 102 3.2.3. Hệthống nhận dạng dùng HMM/ANN .................................................... 103 3.2.4. Nhận dạng.................................................................................................... 106 3.3. So sánh hai phương pháp nhận dạng CD-HMM và HMM/ANN...........110 4. MÔI TRƯỜNG TÍN HIỆU TIẾNG NÓI TRÊN ĐIỆN THOẠI 118 4.1. Giới thiệu vềcard Dialogic ...................................................................118 4.2. Các khái niệm cơbản ............................................................................119 4.2.1. Event............................................................................................................ 119 4.2.2. Event Handlers ............................................................................................ 121 4.2.3. Dialogic device handle............................................................................... 122 4.2.4. Kênh (device channel)................................................................................ 122 4.3. Các mô hình lập trình ............................................................................122 4.3.1. Lập trình đồng bộ........................................................................................ 123 4.3.2. Lập trình bất đồng bộ.................................................................................. 124 4.3.3. Mô hình bất đồng bộmởrộng ................................................................... 128 4.3.4. Các mô hình kết hợp................................................................................... 129 4.4. Sơlược vềcác hàm và cấu trúc dữliệu trong SRL ...............................130 4.4.1. Các hàm quản lý sựkiện ............................................................................ 130 4.4.2. Các hàm thuộc tính chuẩn .......................................................................... 137 4.4.3. Termination Parameter Table DV_TPT.................................................... 139 4.4.4. Call status event block structure: DX_EBLK........................................... 141 4.4.5. User digit buffer:DV_DIGIT ..................................................................... 142 4.4.6. Thưviện âm thanh của C (Voice library of C functions)......................... 142 4.4.7. Chi tiết một sốhàm đã được đềcập........................................................... 145 5. TÍCH HỢP MODULE TỔNG HỢP TIẾNG VIỆT VÀ CÁC CHUẨN TÍCH HỢP TIẾNG NÓI 149 5.1. Hệthống thông điệp tích hợp (Unified Message System)......................149 5.2. Cổng thoại 3i .........................................................................................154 5.2.1. Điều khiển voice menu – Callflow............................................................ 154 5.2.2. Xửlý đồng thời nhiều cuộc gọi.................................................................. 155 5.2.3. Phát tiếng nói trên điện thoại...................................................................... 155 5.2.4. Lập trình tích hợp card Dialogic vào ứng dụng ........................................ 157 5.2.5. Một sốthuật ngữ......................................................................................... 158 5.2.6. Tích hợp điện thoại và máy tính ................................................................ 159 6. CƠSỞDỮLIỆU NGỮÂM CHO NHẬN DẠNG VÀ TỔNG HỢP TIẾNG VIỆT 163 6.1. Giới thiệu ...............................................................................................163 6.2. Ghi âm cho CSDL ..................................................................................164 6.3. Dữliệu cho nhận dạng tiếng Việt ..........................................................166 6.3.1. Nhận dạng lệnh ........................................................................................... 166 6.3.2. Nhận dạng chính tả..................................................................................... 170 6.4. Dữliệu tiếng nói cho phântích và nhận dạng thanh điệu.....................182 6.4.1. Thanh điệu tiếng Việt trong câu................................................................. 182 6.4.2. Xác định đường nét đặc trưng của thanh điệu .......................................... 186 6.4.3. Xác định ảnh hưởng của thanh điệu do ngữcảnh..................................... 186 6.5. Dữliệu tiếng nói cho tổng hợp ................................................................188 6.5.1. Xác định đơn vịâm cho tổng hợp tiếng Việt ............................................ 189 6.5.2. Hiện tượng liên cấu âm giữa âm tiết tiếng Việt ........................................ 191 6.6. Kết luận ..................................................................................................191 7. TỔNG HỢP TIẾNG VIỆT 192 7.1. Nhập môn ...............................................................................................192 7.2. Khái quát vềtổng hợp tiếng nói từvăn bản TTS (Text To Speech).......194 7.2.1. Các loại âm.................................................................................................. 195 7.2.2. Các tham sốâm thanh................................................................................. 196 7.2.3. Nhắc lại các khái niệm ngữâm.................................................................. 196 7.2.4. Tổng hợp tiếng nói từvăn bản ................................................................... 198 7.3. Các phương pháp tổng hợp tiếng nói ....................................................200 7.3.1. Tổng hợp theo cấu âm ................................................................................ 200 7.3.2. Tổng hợp formant theo quy luật ................................................................ 202 7.3.3. Tổng hợp xích chuỗi................................................................................... 204 7.4. Chuẩn hoá văn bản ................................................................................218 7.5. Phân tích văn bản ..................................................................................222 7.6. Các mô hình ngôn ngữ...........................................................................226 8. PHÂN TÍCH ĐẶC TRƯNG ÂM HỌC VÀ ÂM VỊHỌC CỦA TIẾNG NÓI 233 8.1. Đặc trưng âm học của tiếng nói ............................................................233 8.1.1. Bản chất của âm.......................................................................................... 233 8.1.2. Các thuộc tính biên độcơbản của sóng âm.............................................. 236 8.1.3. Các thuộc tính trường thời gian của các sóng âm..................................... 241 8.1.4. Các thuộc tính trường tần sốcủa các sóng âm.......................................... 243 8.1.5. Một sốthuộc tính thẩm nhận cơbản của sóng âm.................................... 249 8.1.6. Mô hình âm học của quá trình phát âm lời nói ......................................... 253 8.1.7. Bộlọc bộmáy phát âm trong quá trình sản sinh nguyên âm................... 254 8.1.8. Những thuộc tính âm học của chất lượng nguyên âm.............................. 265 8.2. Các đặc trưng âm vịhọc của tiếng nói..................................................275 8.2.1. Phân tích tiếng nói thành các đơn vịcơbản.............................................. 275 8.2.2. Các nét khu biệt ngôn điệu và cốhữu........................................................ 291 8.2.3. Các đặc trưng khu biệt so với các đặc trưng khác của âm ....................... 292 8.2.4. Ranh giới âm vị........................................................................................... 294 8.2.5. Đột dừng đối lập với không đột dừng........................................................ 294 8.2.6. Giọng the thé đối lập với giọng dịu ........................................................... 295 8.2.7. Nguồn bổsung - Hữu thanh đối lập với vô thanh..................................... 299 8.2.8. Các nét vang ................................................................................................ 300 8.2.9. Các nét thanh tính ....................................................................................... 303 8.2.10. Dẹt đối lập với bằng phẳng ........................................................................ 305 8.2.11. Điếc đối lập với bằng phẳng....................................................................... 306 9. ĐẶC ĐIỂM NGỮÂM CƠBẢN TIẾNG VIỆT 242 9.1. Âm tiết tiếng Việt....................................................................................242 9.1.1. Dẫn luận....................................................................................................... 242 9.1.2. Phương pháp................................................................................................ 242 4.1.3. Kết quả............................................................................................................. 244 4.2. Hệformant của nguyên âm tiếng Việt .........................................................248 4.3. Một sốvấn đềvềphụâm tiếng Việt hiện đại...............................................255 4.3.1. Đặt vấn đề........................................................................................................ 255 4.3.2. Phương pháp ................................................................................................... 257 4.3.3. Giới hạn ........................................................................................................... 258 4.3.4. Kết quả............................................................................................................. 258 4.3.5. Kết luận............................................................................................................ 266 4.4. Các thanh điệu của tiếng Việt......................................................................269 TÀI LIỆU THAM KHẢO275
Viện công nghệ thông tin Báo cáo tổng kết khoa học công nghệ đề tài nhánh tổng hợp nhận dạng tiếng Việt thuộc đề tài cấp nhà nớc nghiên cứu phát triển côngnghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng việt MÃ số: KC 01.03 Chủ nhiệm đề tài: gs.tskh bạch hng khang 6455-2 07/8/2007 Hµ Néi- 2004 MỤC LỤC PHƯƠNG PHÁP PHÂN TÍCH TIẾNG NĨI THEO CÁC ĐẶC TRƯNG 1.1 Các phương pháp trích chọn đặc tính .1 1.1.1 Phương pháp tính hệ số MFCC 1.1.2 Phương pháp tính hệ số PLP 1.1.3 Các kĩ thuật khử nhiễu 1.2 Các đơn vị xử lý tiếng nói 1.2.1 Tần số lấy mẫu 1.2.2 Nhiễu 1.2.3 Tần số 1.2.4 Formant 1.3 Định dạng âm 1.4 Thu tín hiệu âm thời gian thực 11 1.5 Xác định giá trị – ngưỡng theo mơi trường tín hiệu .12 1.5.1 Thông số ngưỡng zero 12 1.5.2 Thông số độ ồn nhiễu 13 1.6 Lọc nhiễu 13 1.7 Xác định dãy tín hiệu số có chứa liệu tiếng nói xác định điểm đầu - cuối tiếng nói .14 1.8 Chuẩn hoá biên độ 15 1.8.1 Biến đổi FFT 16 1.8.2 Làm rõ tín hiệu cửa sổ hố 19 1.8.3 Định lý lấy mẫu 20 1.8.4 Phổ dẹt tiếng nói 20 1.8.5 Biểu diễn tiếng nói theo mơ hình LPC hệ số dự báo tuyến tính 22 CÁC MƠ HÌNH ỨNG DỤNG CHO NHẬN DẠNG TIẾNG NÓI 28 2.1 Phương pháp VQ .28 2.1.1 Khái niệm phép lượng tử hoá 28 2.1.2 Độ biến dạng 29 2.1.3 Tính chất 29 2.1.4 Thiết kế codebook theo phương pháp LBG 30 2.1.5 Ứng dụng VQ xử lý tín hiệu tiếng nói 33 2.2 Phương pháp chỉnh thời gian động 34 2.2.1 Khái quát tiếp cận đối sánh mẫu kĩ thuật chỉnh thời gian động 34 2.2.2 Kĩ thuật chỉnh thời gian động 36 2.2.3 Các ràng buộc 41 2.2.4 Thuật toán chỉnh thời gian động 46 2.3 Mơ hình Markov ẩn 52 2.3.1 Quá trình Markov 52 2.3.2 Mơ hình Markov ẩn 54 2.3.3 Ba tốn mơ hình Markov ẩn 57 2.3.4 Các loại mô hình Markov ẩn 67 2.3.5 Giới hạn mơ hình Markov ẩn 69 2.4 Mạng Nơron 69 2.4.1 Các khả mạng nơron 69 2.4.2 Cấu trúc mạng nơron nhân tạo 70 2.4.3 Phân loại mạng nơron 73 2.4.4 Ứng dụng mạng nơ ron lan truyền ngược cho nhận dạng tiếng nói 73 HUẤN LUYỆN VÀ NHẬN DẠNG TIẾNG NĨI 75 3.1 Huấn luyện nhận dạng theo mơ hình Markov 75 3.1.1 Giới thiệu HTK 75 3.1.2 Huấn luyện hệ thống nhận dạng 75 3.1.3 Nhận dạng 91 3.1.4 Tổng kết 95 3.2 Mơ hình lai ghép ANN/HMM 98 3.2.1 Hệ thống nhận dạng dùng HMM liên tục 98 3.2.2 Huấn luyện hệ thống nhận dạng dùng ANN 102 3.2.3 Hệ thống nhận dạng dùng HMM/ANN 103 3.2.4 Nhận dạng 106 3.3 So sánh hai phương pháp nhận dạng CD-HMM HMM/ANN 110 MƠI TRƯỜNG TÍN HIỆU TIẾNG NĨI TRÊN ĐIỆN THOẠI 118 4.1 Giới thiệu card Dialogic 118 4.2 Các khái niệm 119 4.2.1 Event 119 4.2.2 Event Handlers 121 4.2.3 Dialogic device handle 122 4.2.4 Kênh (device channel) 122 4.3 Các mơ hình lập trình 122 4.3.1 Lập trình đồng 123 4.3.2 Lập trình bất đồng 124 4.3.3 Mơ hình bất đồng mở rộng 128 4.3.4 Các mơ hình kết hợp 129 4.4 Sơ lược hàm cấu trúc liệu SRL .130 4.4.1 Các hàm quản lý kiện 130 4.4.2 Các hàm thuộc tính chuẩn 137 4.4.3 Termination Parameter Table DV_TPT 139 4.4.4 Call status event block structure: DX_EBLK 141 4.4.5 User digit buffer:DV_DIGIT 142 4.4.6 Thư viện âm C (Voice library of C functions) 142 4.4.7 Chi tiết số hàm đề cập 145 TÍCH HỢP MODULE TỔNG HỢP TIẾNG VIỆT VÀ CÁC CHUẨN TÍCH HỢP TIẾNG NĨI 149 5.1 Hệ thống thơng điệp tích hợp (Unified Message System) 149 5.2 Cổng thoại 3i 154 5.2.1 Điều khiển voice menu – Callflow 154 5.2.2 Xử lý đồng thời nhiều gọi 155 5.2.3 Phát tiếng nói điện thoại 155 5.2.4 Lập trình tích hợp card Dialogic vào ứng dụng 157 5.2.5 Một số thuật ngữ 158 5.2.6 Tích hợp điện thoại máy tính 159 CƠ SỞ DỮ LIỆU NGỮ ÂM CHO NHẬN DẠNG VÀ TỔNG HỢP TIẾNG VIỆT 163 6.1 Giới thiệu .163 6.2 Ghi âm cho CSDL 164 6.3 Dữ liệu cho nhận dạng tiếng Việt 166 6.3.1 Nhận dạng lệnh 166 6.3.2 Nhận dạng tả 170 6.4 Dữ liệu tiếng nói cho phân tích nhận dạng điệu 182 6.4.1 Thanh điệu tiếng Việt câu 182 6.4.2 Xác định đường nét đặc trưng điệu 186 6.4.3 Xác định ảnh hưởng điệu ngữ cảnh 186 6.5 Dữ liệu tiếng nói cho tổng hợp 188 6.5.1 Xác định đơn vị âm cho tổng hợp tiếng Việt 189 6.5.2 Hiện tượng liên cấu âm âm tiết tiếng Việt 191 6.6 Kết luận 191 TỔNG HỢP TIẾNG VIỆT 192 7.1 Nhập môn .192 7.2 Khái quát tổng hợp tiếng nói từ văn TTS (Text To Speech) .194 7.2.1 Các loại âm 195 7.2.2 Các tham số âm 196 7.2.3 Nhắc lại khái niệm ngữ âm 196 7.2.4 Tổng hợp tiếng nói từ văn 198 7.3 Các phương pháp tổng hợp tiếng nói 200 7.3.1 Tổng hợp theo cấu âm 200 7.3.2 Tổng hợp formant theo quy luật 202 7.3.3 Tổng hợp xích chuỗi 204 7.4 Chuẩn hoá văn 218 7.5 Phân tích văn 222 7.6 Các mơ hình ngơn ngữ 226 PHÂN TÍCH ĐẶC TRƯNG ÂM HỌC VÀ ÂM VỊ HỌC CỦA TIẾNG NÓI 233 8.1 Đặc trưng âm học tiếng nói 233 8.1.1 Bản chất âm 233 8.1.2 Các thuộc tính biên độ sóng âm 236 8.1.3 Các thuộc tính trường thời gian sóng âm 241 8.1.4 Các thuộc tính trường tần số sóng âm 243 8.1.5 Một số thuộc tính thẩm nhận sóng âm 249 8.1.6 Mơ hình âm học q trình phát âm lời nói 253 8.1.7 Bộ lọc máy phát âm trình sản sinh nguyên âm 254 8.1.8 Những thuộc tính âm học chất lượng nguyên âm 265 8.2 Các đặc trưng âm vị học tiếng nói 275 8.2.1 Phân tích tiếng nói thành đơn vị 275 8.2.2 Các nét khu biệt ngôn điệu cố hữu 291 8.2.3 Các đặc trưng khu biệt so với đặc trưng khác âm 292 8.2.4 Ranh giới âm vị 294 8.2.5 Đột dừng đối lập với không đột dừng 294 8.2.6 Giọng the thé đối lập với giọng dịu 295 8.2.7 Nguồn bổ sung - Hữu đối lập với vô 299 8.2.8 Các nét vang 300 8.2.9 Các nét tính 303 8.2.10 Dẹt đối lập với phẳng 305 8.2.11 Điếc đối lập với phẳng 306 ĐẶC ĐIỂM NGỮ ÂM CƠ BẢN TIẾNG VIỆT 242 9.1 Âm tiết tiếng Việt 242 9.1.1 Dẫn luận 242 9.1.2 Phương pháp 242 4.1.3 Kết 244 4.2 Hệ formant nguyên âm tiếng Việt 248 4.3 Một số vấn đề phụ âm tiếng Việt đại .255 4.3.1 Đặt vấn đề 255 4.3.2 Phương pháp 257 4.3.3 Giới hạn 258 4.3.4 Kết 258 4.3.5 Kết luận 266 4.4 Các điệu tiếng Việt 269 TÀI LIỆU THAM KHẢO 275 Hình 1-1 Các bước xử lý phương pháp tính tốn hệ số MFCC Hình 1-2 Các bước xử lý phương pháp tính tốn hệ số PLP Error! No bookmark name given Hình 1-4 Mơ hình phổ dẹt tiếng nói 21 Hình 1-5 Sơ đồ phân tích tiếng nói 21 Hình 1-6 Sơ đồ xử lý LPC dùng cho trích đặc trưng tiếng nói 22 Hình 2-1 Ví dụ VQ chiều 28 Hình 2-2 Ví dụ VQ chiều 28 Hình 2-3 Sơ đồ khối chung trình huấn luyện phân lớp tín hiệu tiếng nói sử dụng VQ .33 Hình 2-4 Đồ thị chuỗi vector phổ mã hóa VQ phát âm từ tiếng Anh 34 Hình 2-5 Sơ đồ cách tiếp cận đối sánh mẫu 35 Hình 2-6- Các frame gối lên 37 Hình 2-7- So sánh khác thời gian từ “speech” .37 Hình 2-8- Lưới minh họa quy hoạch động .39 Hình 2-9- Các ràng buộc điểm đầu cuối (Endpoint Constraints) 42 Hình 2-10- Minh họa so khớp không đặn .42 Hình 2-11- Minh họa so khớp khơng liên tục 43 Hình 2-12- Các ràng buộc đường cục 44 Hình 2-13- Ràng buộc đường cục Itakura 44 Hình 2-14- Các ràng buộc đường tồn cục .45 Hình 2-15- Minh họa chỉnh thời gian động mẫu chuẩn “SPEECH” mẫu nhận dạng có nhiễu “SsPEEhH” .46 Hình 2-16- Các hướng SDTW 47 Hình 2-17- Ba cách từ (i, j) đến khác DTW phản đối xứng 49 Hình 2-18- Các hướng DTW phản đối xứng 50 Hình 2-19- Đường qua vùng hợp lệ 50 Hình 2-20- Xích Markov với trạng thái S1, S2, , S5 xác suất chuyển trạng thái 53 Hình 2-21-Ví dụ mơ hình Markov ẩn với sáu trạng thái 56 Hình 2-22- Miêu tả dãy phép tốn thực để tính biến αt (i) 59 Hình 2-23- Miêu tả dãy phép tốn thực để tính biến βt(i) 60 Hình 2-24- Miêu tả phép tính cần thiết để tính ξt(i, j) 63 Hình 2-25- Mơ hình nhiều tầng mạng nơron 71 Hình 2-26- Các thành phần sở mạng nơron 71 Hình 3-1- Thuật tốn Hinit 80 Hình 3-2- Các hoạt động Hnit 81 Hình 3-3- Mơ hình hoạt động Hcompv .82 Hình 3-4- Sơ đồ buộc hai âm vị sil sp .83 Hình 3-5- Hoạt động Herest 83 Hình 3-6- Dùng Hhed chuyển âm đơn sang âm ba 86 Hình 3-7- Quá trình buộc âm ba Hhed 87 Hình 3-8- Buộc trạng thái .88 Hình 3-9- Sơ đồ ngữ pháp hệ thống nhận dạng mười chữ số liên tục .91 Hình 3-10- Sơ đồ mạng word-loop với xác suất bigram 93 Hình 3-11- Cấu trúc ba lớp mạng từ nhận dạng 94 Hình 3-12- Mơ hình mạng lai ghép HMM/ANN 104 Hình 3-13-Huấn luyện mạng lai ghép HMM/ANN 105 Hình 3-14- Sơ đồ mạng word-loop với xác suất bigram 107 Hình 3-15- Cấu trúc ba lớp mạng từ nhận dạng 108 Hình 3-16- Minh họa thuật toán chuyển thẻ .109 Hình 7-1- Giao diện chương trình kiểm tra ETTVSNAM 150 Hình 7-2- Hệ thống thao tác dọc duyệt thư thoại 155 Hình 7-3- Kiến trúc phân tầng TAPI .160 Hình 5-1 Phổ tiếng nói câu 164 Hình 5-2 Ảnh phổ âm tiết kết thúc âm tắc /p/: “hấp tấp” 173 Hình 5-3 Ảnh phổ âm tiết “bắt” .174 Hình 5-4 Ảnh phổ hai âm tiết đọc liền 177 PHƯƠNG PHÁP PHÂN TÍCH TIẾNG NĨI THEO CÁC ĐẶC TRƯNG 1.1 Các phương pháp trích chọn đặc tính Phần giới thiệu hai phương pháp sử dụng rộng rãi hệ thống nhận dạng để tính tốn hệ số MFCC (Mel Scale Frequency Cepstral Coefficients) hệ số PLP (Perceptual Linear Prediction) Hai kĩ thuật xử lý tiếng nói RASTA (RelAtive SpecTral) CMS (Cepstral Mean Subtraction) giới thiệu Đây hai kĩ thuật loại bỏ nhiễu hay sử dụng đặc biệt phát âm có nhiều nhiễu câu thu âm qua điện thoại 1.1.1 Phương pháp tính hệ số MFCC Hình 2.1 miêu tả bước tính tốn hệ số MFCC Nhấn mạnh tín hiệu (pre-emphasis) Trong bước xử lý này, tín hiệu đưa qua lọc số: H pre ( z ) = + a pre z −1 Trong a pre hệ số nhấn mạnh, thường có giá trị 0,9700002861 Bộ lọc có tác dụng tăng cường tín hiệu tần số cao (trên 1KHz) với hai lý chính: • Giọng nói có suy giảm khoảng 20dB/decade lên tần số cao đặc điểm sinh lý hệ thống phát âm người Bước xử lý tăng cường tín hiệu lên giá trị gần 20dB/decade để khắc phục suy giảm này, • Hệ thống thính giác người nhạy cảm với vùng tần số cao, bước xử lý nhấn mạnh vùng tần số cao, trợ giúp cho q trình mơ hình hố âm sau hệ thống nhận dạng Hình 1-1 Các bước xử lý phương pháp tính tốn hệ số MFCC Tạo khung tín hiệu (framing) Tín hiệu tiếng nói ln biến thiên theo thời gian, nhiên, khoảng thời gian khoảng 10-20ms, tín hiệu tiếng nói coi tương đối ổn định Do đó, tín hiệu thường chia thành khung kích thước 20-30 ms với vùng gối lên khoảng 10-15 ms Làm cửa sổ (frame windowing) Cửa sổ Hamming thường áp dụng cho khung tín hiệu để giảm tác động việc chia khung tín hiệu: sn' = {0.54 − 0.46cos( 2π ( n − 1) )}sn N −1 Trong đó, N số mẫu liệu (sample) cửa sổ DFT (Discrete Fourier Transform) Tại bước này, với khung tín hiệu, biến đổi Fourier áp dụng để chuyển tín hiệu miền tần số Cơng việc tính tốn thực thuật toán FFT (Fast Fourier Transform) Lọc theo thang tần số Mel (Mel-frequency bandpass filter) Các lọc số áp dụng để lọc tín hiệu theo giải tần số khác Phản ứng tai người với thành phần tần số khơng tuyến tính Sự khác tần số vùng tần số thấp (