ĐỒ ÁN XÂY DỰNG BỘ NHẬN DẠNG TIẾNG NÓI TỤ ĐỘNG BỀN VỮNG VỚI MÔI TRƯỜNG NHIỄU

NHẬN XÉT CỦA GVHD NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN ………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………… Đà Nẵng, ngày tháng năm 2011 Kí tên TS Phạm Văn Tuấn I LỜI CAM ĐOAN NHẬN XÉT CỦA GVHD CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc LỜI CAM ĐOAN Kính gửi: Hội đồng bảo vệ đồ án tốt nghiệp Khoa Điện tử - Viễn thông, Trường Đại Học Bách Khoa Đà Nẵng Em tên là: Nguyễn Thị Bích Ngọc Hiện học lớp 06DT4, Khoa Điện tử - Viễn thông, Trường Đại Học Bách Khoa Đà Nẵng Em xin cam đoan nội dung đồ án chép đồ án cơng trình có từ trước Đà Nẵng, tháng năm 2011 Sinh viên thực Nguyễn Thị Bích Ngọc II LỜI CẢM ƠN LỜI CẢM ƠN Em xin chân thành cảm ơn thầy giáo, TS Phạm Văn Tuấn hướng dẫn chúng em tận tình, cung cấp tài liệu, tạo điều kiện thuận lợi để em hồn thành đồ án Em xin chân thành cảm ơn thầy cô giáo khoa Điện tử - Viễn thông, Trường Đại Học Bách Khoa Đà Nẵng truyền đạt kiến thức bổ ích cho em suốt thời gian học trường để em có đủ kiến thức để hồn thành đồ án III MỤC LỤC MỤC LỤC CÁC TỪ VIẾT TẮT………………….…………………………………………….… LỜI MỞ ĐẦU…………… …………………………………………………………… IV CÁC TỪ VIẾT TẮT CÁC TỪ VIẾT TẮT AFE : Advanced Front-End ASR : Automatic Speech Recognition DCT : Discrete Cosine Transform DSR : Distribution Speech Recognition DTW : Dynamic Time Warping ETSI : European Telecommunications Standards Institude ETSI-Nest : ETSI noise estimation FFT : Fast Fourier Transform FSN : Finite State Network HMM : Hidden Markov Model HTK : Hidden Markov Model Toolkit LPC : Linear Prediction Coded MFCC : Mel-Frequency Cepstral Coefficient ML : Maximum Likelihood MMSE : Minimum Mean Square Error SFE : Standard Front-End SNR : Signal to Noise Ratio SNRpri : Priori SNR SNRpost : Postiriori SNR STSA : Short-time Spectral Amplitude VAD VQ WAC WER WRR : Voice Activity Detection : Vector Quantilization : Word Accuracy : Word Error Rate : Word Recognition Rate Trang LỜI MỞ ĐÀU LỜI MỞ ĐẦU Việc thiết kế hệ thống máy móc có khả hiểu ngơn ngữ nói đáp ứng u cầu người nói tham vọng nhà khoa học kĩ sư nhiều thập kỉ qua Công xây dựng hệ thống nhận dạng tiếng nói tự động (ASR) năm 30 kỉ thứ 19 tiếp tục phát triển ngày Hiện tại, hệ thống nhận dạng tiếng nói sử dụng nhiều thực tế, đặc biệt ứng dụng đòi hỏi giao diện máy móc người sử dụng Các ứng dụng đa dạng xuất nhiều lĩnh vực khác nhau: Tự động xử lý gọi mạng điện thoại, quay số giọng nói, định tuyến cho gọi, tìm kiếm giọng nói (ví dụ tìm file podcast tương ứng với từ nói ra), nhập số thẻ tín dụng vào hệ thống, chuyển lời nói thành văn (ví dụ ghi bảng điều trị y khoa), nhiều ứng dụng khác Được sử dụng rộng rãi vậy, hiệu suất hệ thống ASR lại bị giảm rõ rệt môi trường bất lợi, chẳng hạn nhiễu,… Vì thế, việc nghiên cứu xây dựng nhận dạng bền vững, có khả làm việc hiệu môi trường mang ý nghĩa lớn Trên thực tế, có nhiều phương pháp đề xuất nhằm xây dựng ASR bền vững giảm nhiễu khối tiền xử lý, thích nghi mơ hình âm học, trích chọn thuộc tính âm học bền vững nhiễu, Trong đó, giảm nhiễu phương pháp cho hiệu cao với hệ thống ASR Vì vậy, chúng tơi chọn nghiên cứu phương pháp giảm nhiễu với thuật toán dựa lý thuyết tối thiểu hóa bình phương độ lệch trung bình, ví dụ: lọc Wiener, MMSE-STSA, MMSE-MS,…, để đánh giá vai trò việc giảm nhiễu nâng cao hiệu suất nhận dạng so sánh hiệu thuật toán Nội dung đồ án gồm chương, chương giới thiệu hệ thống nhận dạng tiếng nói tự động, chương tóm tắt quy trình xử lý khối Front-end trình bày ngun lý thuật tốn giảm nhiễu, chương trọng vào lý thuyết mơ hình Markov ẩn (HMM) cách giải toán HMM Cuối Trang LỜI MỞ ĐÀU cùng, chương phần thực nhận dạng tiếng nói dựa sở liệu thực đánh giả kết nhận dạng Đồ án thực sinh viên: Đinh Hữu Trọng: Lý thuyết nhận dạng tiếng nói, tổng quan hệ thống nhận dạng, Mơ hình Markov ẩn ứng dụng, Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng, Xây dựng giao diện mô chạy demo LINUX Nguyễn Thị Bích Ngọc: Lý thuyết nhận dạng tiếng nói, tổng quan hệ thống nhận dạng, Mơ hình Markov ẩn ứng dụng, Khối Front-end thuật toán giảm nhiễu để nâng cao hiệu suất nhận dạng, Tìm hiểu tiêu chuẩn SFE, Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng Phạm Quốc Việt: Lý thuyết nhận dạng tiếng nói, tổng quan hệ thống nhận dạng, Khối Front-end thuật toán giảm nhiễu để nâng cao hiệu suất nhận dạng, Tìm hiểu tiêu chuẩn AFE, Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng Trang Chương 1: Lý thuyết nhận dạng tiếng nói CHƯƠNG 1: LÝ THUYẾT VỀ NHẬN DẠNG TIẾNG NÓI 1.1 Giới thiệu chương Phần đầu chương tóm lược cách khái quát đặc tính, chế tạo thành tiếng nói đồng thời đưa giới thiệu sơ lược hệ thống nhận dạng tiếng nói, bao gồm lịch sử phát triển lẫn cấu trúc, nguyên lý hoạt động ứng dụng thực tế Phần chương sâu vào phân tích thuật toán, nguyên tắc số khối chức nhận dạng Phần trang bị cho kiến thức cần thiết để hiểu rõ cách thức hoạt động nhận dạng 1.2 Tiếng nói đặc tính tiếng nói 1.2.1 Cơ chế tạo thành tiếng nói Tiếng nói tạo thành từ tín hiệu sóng âm phát từ miệng mũi người nói, hỗ trợ loạt quan thể người, gồm: - Phổi đóng vai trò bơm khơng khí, tạo lượng hình thành âm Các dây âm: hai nhỏ cuống họng, có hai đầu dính nhau, hai đầu dao động (thanh mơn mở đóng lại) với tần số - (pitch/fundamental frequency) F0 Thanh quản vòm miệng: đóng vai trò giống hốc cộng hưởng, tạo phân biệt tần số tín hiệu dao động từ đơi dây âm phát Đáp ứng tần số hốc cộng hưởng có nhiều đỉnh cộng hưởng khác gọi formant, chứa thành phần tần số quan trọng tín - hiệu tiếng nói Miệng: đóng vai trò phát tán âm bên Lưỡi: thay đổi để tạo tần số formant khác Khi nói, dòng khơng khí từ phổi, qua mơn đến cổ họng, thoát miệng Tùy thuộc vào chế phát âm, tín hiệu tiếng nói chia làm loại: Âm hữu (voiced sounds), cụ thể nguyên âm phụ âm hữu /b/, /d/, /g/, /v/, /z/, /m/, /n/, /l/, /r/, phát với rung động dây âm Ngược lại âm phát mà rung động dây gọi âm vơ (unvoiced), ví dụ /k/, /p/, /t/, /s/, Trang Chương 1: Lý thuyết nhận dạng tiếng nói 1.2.2 Các đặc tính tiếng nói - Dải tần tín hiệu tiếng nói nằm khoảng từ kHz đến 20 kHz, nhiên phần lớn công suất tín hiệu tập trung vùng từ 0.3kHz đến 3.4 kHz - Tần số trung tâm F0: Là tần số rung động môn, F tần số âm hữu F thay đổi theo điệu phụ thuộc giới tính, độ tuổi người nói F nam giới khoảng 60-200 Hz, nữ giới trẻ em cỡ 300Hz cao - Tần số formant (còn gọi peak): Các tần số tương ứng với tần số cộng hưởng dao động từ đôi dây âm Trong phổ tần số tín hiệu tiếng nói, formant đỉnh (biên độ lớn) biểu diễn thành phần tần số chủ chốt tiếng nói, mang thơng tin để nhận diện âm Vì đỉnh đường cong nối liền đỉnh, gọi đường bao phổ, đóng vai trò quan trọng nhận dạng tiếng nói Tần số formant biến đổi dải rộng phụ thuộc vào giới tính, độ tuổi người nói, vào âm vị 1.2.3 Biểu diễn tín hiệu tiếng nói - Trong khoảng thời gian đủ ngắn (khoảng từ đến 100ms), xem tín hiệu tiếng nói tín hiệu biến đổi chậm với đặc tính khơng biến đổi Ngược lại, xét khoảng thời gian dài (cỡ 1/5 giây trở lên) đặc tính tiếng nói thay đổi tương ứng với âm nói Ngồi ra, âm khác biến đổi tín hiệu diễn khác Ví dụ minh họa [1]: Trang Chương 1: Lý thuyết nhận dạng tiếng nói Hình 1.1 Dạng sóng câu nói “It’s time” Phần tín hiệu “S” khoảng 100ms ban đầu gần không đổi tương ứng với khoảng lặng (khi khơng có tiếng nói) có biên độ nhỏ Với tín hiệu tiếng nói, phần khởi tạo thường biểu diễn dang khoảng lặng Tiếp đến, phần tín hiệu kí hiệu “U” biểu diễn cho âm vơ /s/, /t/ ; kí hiệu “V” biểu diễn cho âm hữu /i/, /m/, /e/ ví dụ - Cách thứ hai để mơ tả đặc tính tiếng nói: biểu diễn dạng biên độ theo tần số, gọi phổ (spectrum) Để trực quan hơn, người ta sử dụng loại biểu đồ 3-D, tên gọi giản đồ phổ (spectrogram) để biểu thị cường độ tiếng nói theo thời gian, tần số khác Trong giản đồ phổ, âm hữu tuần hoàn với tần số F0 Vì phổ nguyên âm phổ vạch, khoảng cách vạch F Với âm vơ thanh, phổ tín hiệu có dạng gần giống nhiễu trắng, lượng phân bố vùng tần số cao Phổ âm hữu thường tập trung nhiều lượng phổ âm vơ Trang 10 Chương 4: Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng 4.2.3 HInit Được dùng để khởi tạo tham số cho HMM sử dụng tập chuỗi quan sát Nó thực phép lặp cách sử dụng thuật toán Viterbi để chia chuỗi huấn luyện tính tốn lại tham số HInit sử dụng để cung cấp ước lượng ban đầu mơ hình từ vựng trường hợp chuỗi quan sát từ vựng Cú pháp HInit [options] hmm trainFiles Phương sai giá trị trung bình HMM ước lượng nhiều lần sử dụng liệu trainFiles đạt số lần lặp lớn hay giá trị ước lượng hội tụ 4.2.3.2 HCompV Dùng để tính tốn giá trị trung bình phương sai toàn cục tập liệu huấn luyện.Về bản,nó sử dụng để khởi tạo tham số HMM giống HInit tất giá trị trung bình phương sai thành phần thiết lập với giá trị trung bình phương sai toàn cục HcompV sử dụng lượng liệu dùng để huấn luyện bị giới hạn nhận dạng mơi trường có nhiễu Cú pháp HCompV [options] [hmm] trainFiles Trong đó:hmm tên HMM vật lý mà tồn thơng số khởi tạo Câu lệnh dùng để tính hiệp phương sai liệu huấn luyện tiếng nói chép vào thành phần HMM Gaussian 4.2.3.3 Hrest Trang 61 Chương 4: Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng HRest dùng thuật toán Baum-Welch ước lượng lại tham số HMM dùng tập chuỗi quan sát HRest sử dụng huấn luyện từ riêng rẻ mà chuỗi quan sát thể cho từ vựng tướng ứng Cú pháp HRest [options] hmm trainFiles Các tham số hmm ước lượng nhiều lần sử dụng liệu trainFiles đạt số lần lặp lớn hay giá trị ước lượng hội tụ 4.2.4 Các công cụ dùng trình định nghĩa từ điển cấu trúc văn phạm 4.2.4.1 Hparse HParse tạo mạng lưới mức word từ file mô tả cú pháp, chứa tập quy tắc dựa dạng Backus-Naur mở rộng (EBNF) Các quy tắc EBNF sử dụng để tạo mạng lưới tương ứng với mạng trạng thái hữu hạn, nút mạng tạo HParse biễu diễn từ Sau đó, mạng HParse chuyển thành mạng HTK V2 mức từ Cú pháp HParse [options] syntaxFile latFile Trong : - Options : thiết lập lựa chọn ( có không ) - syntaxFile : File cú pháp - latFile : File mạng lưới tạo Trang 62 Chương 4: Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng 4.2.4.2 HSGen Tạo mẫu câu từ văn phạm từ điển khai báo, dùng để kiểm tra tính xác văn phạm tạo câu mẫu để test Cú pháp HSGen [options] wdnet dictfile Trong đó: dictfile thư mục chứa tất từ sử dụng tạo nên hệ thống mạng từ lưu wdnet 4.2.5 Cơng cụ dùng q trình nhận dạng HVite HVite công cụ dùng để nhận dạng đoạn âm chưa biết Có thể nhận dạng liệu tạo trước thực nhận dạng trực tiếp thông qua micro Cú pháp HVite [options] dictFile hmmList testFiles 4.2.6 Cơng cụ dùng q trình đánh giá hiệu suất nhận dạng HResults Là công cụ dùng để phân tích hiệu HTK HResults đọc file nhãn so sánh với file chép nhận dạng tướng ứng Cú pháp HResults [options] hmmList recFiles HResults dùng cho recFiles hmmList chứa danh sách tất mơ hình có thông tin kết cần đánh giá 4.3 Giới thiệu sở liệu AURORA-3 SpeechDat Car Mục đích việc lựa chọn Aurora-3 [11] để thử nghiệm muốn đánh giá hiệu làm việc khối front-end cở liệu thu thập từ môi trường thực tế Cơ sở liệu Aurora3 - vốn từ vựng nhỏ trích từ tập sở liệu lớn tên SpeechDat Car - bao gồm chuỗi chữ số ghi âm môi trường thực bên xe hơi, kể nhiễu thực tế lẫn tác động lên kênh truyền, với loại ngôn ngữ: Italia, Đan Mạch, Đức, Phần Lan, Tây Ban Nha Trang 63 Chương 4: Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng Dữ liệu tiếng nói ghi âm điều kiện nhiễu khác lúc lái xe : nhiễu hoàn toàn, nhiễu mức cao nhiễu mức thấp Mỗi lời nói ghi lại đồng thời hai mic: mic đặt gần (close-talk) mic để xa (hand-free) người nói Tiếp đến, liệu tiếng nói phân loại thành phân mục : - Well-matched : Để thu liệu huấn luyện kiểm tra, người ta sử dụng mic đặt xa (nhận nhiều nhiễu so với mic đặt gần) xe chạy với tốc độ khác Cả pha huấn luyện lẫn pha kiểm tra thực điều kiện nhiễu nhau, nghĩa liệu hai pha có độ tương đồng cao (well-matched) cho hiệu suất nhận dạng tốt so với hai - phân mục lại, dùng thuật toán để đánh giá Medium mismatch : hai tập liệu để huấn luyện kiểm tra thu từ mơt mic đặt xa có mức nhiễu khác nhau: liệu có mức nhiễu thấp (lái xe tốc độ thấp) dùng cho pha huấn luyện liệu có mức - nhiễu cao (lái xe tốc độ cao) cho pha kiểm tra High mismatch : Tập liệu để huấn luyện kiểm tra thu mic khác nhau, mức nhiễu cao thấp khác Cụ thể dùng mic đặt gần để thu kiệu huấn luyện mức nhiễu, dùng mic đặt xa để thu liệu cho pha kiểm tra hai điều kiện: nhiễu mức thấp mức cao 4.4 Quy trình thực nghiệm Trong nghiên cứu này, khối front-end ETSI tiêu chuẩn hóa, bao gồm Standard front-end (SFE) [4] Advanced front-end (AFE) [5] kết hợp với nhận dạng tiếng nói HTK [10] Hiệu suất nhận dạng đánh giá thông qua tỉ lệ nhận dạng từ (WRR) tỉ lệ xác từ (WAC) Các thuật tốn trình bày tích hợp vào tầng tiền xử lý khối frontend Hiệu thuật toán ngồi việc đem so sánh với kiểm chứng cách so sánh chúng với thân thuật toán dùng SFE AFE Tất lượt kiểm tra thực sở liệu SpeechDat Car Aurora3 [11] gồm chuỗi số ghi âm hai micro đặt xe chạy tốc độ khác Dữ liệu Aurora3 chia thành điều kiện: hm (high - mismatch), mm (medium mismatch), wm (well-matched) Chúng dùng phân mục để thực hai chế độ kiểm tra wo wi, đó: Trang 64 Chương 4: Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng - wo (without) : khơng huấn luyện lại mơ hình âm học, nghĩa khử nhiễu - cho tập liệu kiểm tra mà không khử nhiễu cho tập huấn luyện wi (with) : có huấn luyện lại mơ hình âm học, tức khử nhiễu đồng thời cho tập huấn luyện lẫn tập kiểm tra Ngoài ra, chế độ, lọc Wiener tầng – thuật toán giảm nhiễu dùng chuẩn AFE– thay thuật toán đề cập để có đánh giá hiệu nhận dạng chúng [12] 4.5 Đánh giá kết thu 4.5.1 Điều kiện hm • Từ thiết lập trên, bảng hiệu suất nhận dạng thu qua lần kiểm tra: Bảng WRR điều kiện hm Trang 65 Chương 4: Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng Bảng WAC điều kiện hm Trong lần kiểm tra với điều kiện hm, từ bảng kết nhận dạng, nhận thấy:  Khi sử dụng thuật toán giảm nhiễu kết hợp SFE tầng tiền xử lí khối front-end cho file kiểm tra (wo_SFE) WRR/WAC tăng lên khơng đáng kể so với không sử dụng (wo.NR) sử dụng đồng thời file kiểm tra file huấn luyện (wi_SFE) WRR/WAC tăng rõ rệt, chẳng hạn từ 66.70/63.23(%) lên 78.49/76.50(%) thuật toán MMSE_MS, 71.83/70.59(%) thuật toán MMSE_STSA85, 69.47/68.41(%) thuật toán WienerFilter Nếu kết hợp với AFE (wi_AFE) hiệu suất cải thiện lên nhiều, chẳng hạn tăng từ 66.70/63/23% lên 86.77/85.71% dùng MMSE_MS hay 86.03/85.38(%) thuật toán MMSE_STSA84,  WRR/WAC dùng AFE cao nhiều so với dùng SFE, tăng lên từ 66.70/63.13(%) đến 89.78/89.45(%) Nguyên nhân khối làm việc giống với SFE, AFE tích hợp thêm số bước xử lý làm mịn dạng sóng, cân mù để chống méo kênh,…nên cho hiệu tốt  Khi dùng wi_AFE tỉ lệ WRR/WAC cao nhiều so với wo_AFE cụ thể thuật toán MMSE_MS tăng lên 85.80/81.41(%) so với 86.77/85.71(%), tăng từ 84.14/82.70% đến 86.03/85.38% thuật toán MMSE_STSA84 từ 80.71/79(% ) đến 85.89/85.01(%) thuật toán MMSE_STSA85, dùng WienerFilter tăng từ 62.53/57.31(%) đến 84.55/83.07(%) Trang 66 Chương 4: Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng  Xét riêng thuật tốn, nhìn chung WRR/WAC kiểu wi cao wo Điều lý giải việc giảm nhiễu tập huấn luyện tập kiểm tra làm tăng độ tương quan chúng Thuật toán MMSE-MS xét tổng thể cho hiệu cao so với thuật tốn lại, khơng thể tiêu chuẩn ETSI Điều chứng tỏ cho tối ưu giải pháp ước lượng nhiễu khơng dùng VAD MMSE-MS Hai thuật tốn MMSESTSA84 MMSE-STSA85 áp dụng kiểu wi cho hiệu xấp xỉ Trong đó, thuật tốn Wiener dùng wo lại cho hiệu suất thấp không giảm nhiễu (WRR 42.51% so với 66.70% WAC 41.44% so với 63.23% wo.NR) Chúng cho rằng, thuật tốn có hàm độ lợi VAD hoạt động không hiệu quả, khiến số khung tiếng nói bị hiểu nhầm nhiễu bị loại bỏ, khiến độ bất tương đồng file huấn luyện file test tăng cao, làm từ nhận dạng đầu khơng xác 4.5.2 Điều kiện mm Bảng WRR điều kiện mm Trang 67 Chương 4: Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng Bảng WAC điều kiện mm Khi sử dụng wo_SFE hiệu suất nhận dạng bị giảm so với wo.NR, cụ thể giảm từ 78.48/76.43% xuống 74.96/72.55% thuật toán MMSE_STSA85, thuật toán WienerFilter giảm xuống đến 20.50/20.08% Khi kết hợp với AFE(wo_AFE) hiệu suất tăng lên đáng kể, tăng từ 78.48/76.43% đến 84.92/78.33% thuật toán MMSE_MS đến 83.09/81.11% thuật toán MMSE_STSA84 Đặc biệt giảm nhiễu kết hợp AFE cho file huấn luyện file kiểm tra hiệu suất tăng lên cao 88.85/83.24(%) so với 78.48/76.43(%) (wo.NR) thuật toán MMSE_MS, 82.50/81.11(%) so với 78.48/76.43(%) thuật toán MMSE_STSA85,…  WRR/WAC dùng AFE cao nhiều so với dùng SFE, tăng lên  từ 78.48/76.43% đến 89.53/89.02% Xét riêng thuật tốn, nhìn chung WRR/WAC kiểu wo cao thấp so với wi, chẳng hạn thuật toán MMSE_STSA tỉ lệ WRR/WAC wo_SFE 74.96/72.55 (%) so với 77.23/76.43 (%) wi_SFE thuật tốn MMSE_SA wi_SFE lại giảm  81.04/69.40 (%) xuống 80.67/79.28(%) Qua nhận xét ta thấy thuật toán giảm nhiễu phát huy hiệu cao điều khiện hm so với điều kiện mm 4.5.3 Điều kiện hm Trang 68 Chương 4: Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng Bảng WRR điều kiện wm Bảng WAC điều kiện wm  Khi sử dụng wi_SFE hiệu suất gần khơng đổi so với trường hợp wo_SFE wo.NR, cụ thể 90.48/87.92 (%) so với 91.10/85.35(%) thuật toán MMSE_MS, giá trị thuật toán MMSE_STSA84  89.94/86.60 (%),… Trong điều kiện wm file huấn luyện file kiểm tra có độ tương quan cao nên tỉ lệ WRR/WAC cao, wi_AFE dùng thuật toán Trang 69 Chương 4: Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng MMSE_MS WRR/WAC 94.67/93.41 (%), 95.55/94.65 (%)  wi_AFE không dung thuật toán giảm nhiễu Xét riêng thuật tốn kiểu wi wo cho kết nhận dạng gần tương đương nhau: MMSE_MS wo_AFE 92.83/88.62 (%) so với 94.67/83.41(%) wi_AFE, thuật toán MMSE_STSA84 91.66/88.8(%) so với 93.17/90.94 (%),… 4.5.4 Giao diện đồ họa Được xây dựng tảng LINUX, sử dụng công cụ Perl/Tk, gồm phần:  Phần giảm nhiễu cho file ghi âm tiếng nói thuật toán nêu  Phần nhận dạng tiếng nói  Phần hiển thị kết nhận dạng Giao diện người dùng có dạng sau: Hình 4.1 Giao diện kiểm tra thuật toán Wiener Trang 70 Chương 4: Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng Hình 4.2 Giao diện kiểm tra thuật toán MMSE-STSA85 4.5.5 Nhận xét chung Với kết trên, nhận thấy hiệu suất nhận dạng sử dụng phương pháp khử nhiễu điều kiện mm wm có cải thiện không tốt so với khơng dùng thuật tốn nào.Trong đó, điều kiện hm, vài thuật tốn, hiệu suất có giảm nhiễu nhiều khơng giảm nhiễu đến 12% Điều có nghĩa việc giảm nhiễu thực phát huy tác dụng liệu điều kiện hm Tuy nhiên, không hẳn tất trường hợp dùng thuật toán nén nhiễu cho kết mong đợi, đặc biệt khơng huấn luyện lại mơ hình âm học Cụ thể, trường hợp mm, với giải thuật Wiener, WRR/WAC 20.05/20.08 (%), trường hợp wm, WRR/WAC có 73.39/70.73 (%), thấp wo.NR nhiều 4.6 Kết luận chương Chương trình bày thiết lập cần phải có tiến hành kiểm tra tiêu chuẩn thuật toán nén nhiễu dựa vào phần mềm HTK sở liệu thực nghiệm Aurora 3, nhằm thu kết chân thực khách quan Thông qua Trang 71 Chương 4: Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng kết đó, vai trò khối giảm nhiễu tích hợp nhận dạng tiếng nói hiệu thuật tốn bộc lộ rõ nên việc so sánh chúng trở nên trực quan dễ dàng Từ chúng tơi nhận thấy thuật toán giảm nhiễu cho hiệu khác điều kiện không giống nhau, cụ thể hm, mm, wm Trong đó, thuật tốn nêu thực phát huy tác dụng điều kiện hm (bằng chứng hiệu suất giảm nhiễu tăng so với khơng giảm nhiễu có trường hợp lên đến 12%), hai điều kiện mm wm hiệu suất nhận dạng khơng tăng nhiều KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI Các hệ thống nhận dạng tiếng nói (ASR) sử dụng gần gũi với đời sống người Tính đa dạng mục đích sử dụng đồng nghĩa với việc tồn ứng dụng đòi hỏi ASR phải có độ ổn định tính xác cao làm việc môi trường bất lợi Vì vậy, nhiều kĩ thuật xử lý tiếng nói nghiên cứu nhằm cải thiện hiệu suất hoạt động chúng Trong khn khổ đề tài, nhóm chọn nghiên cứu phương pháp giảm nhiễu cách tích hợp thuật tốn nén nhiễu vào tầng tiền xử lý nhận dạng tiếng nói HTK tìm hiểu tiêu chuẩn DSR ETSI Qua tiến hành kiểm tra sở liệu thực để đánh giá hiệu suất tiêu chuẩn, thuật toán, đồng thời so sánh chúng với Từ kết thực nghiệm thu được, rút số nhận xét sau:  Việc áp dụng thuật toán giảm nhiễu cải thiện đáng kể hiệu  suất nhận dạng tiếng nói mơi trường nhiều nhiễu tiếng ồn Các thuật tốn tích hợp vào khối front-end AFE (khi khơng dùng lọc Wiener tầng) cho hiệu suất cao tích hợp vào SFE Trang 72 Chương 4: Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng   Việc xử lý nhiễu có ý nghĩa thực điều kiện hm Trong thuật toán đem kiểm tra, MMSE_MS cho kết nhận dạng cao nhất, xấp xỉ với giải thuật Wiener tầng chuẩn AFE ETSI đề  xuất cao so với chuẩn SFE Những giải thuật lại cho kết tốt có huấn luyện lại  mơ hình âm học Q trình giảm nhiễu có khả làm biến đổi tiếng nói nên kết thu trường hợp không huấn luyện lại mơ hình âm học khơng cao mong đợi Từ đó, chúng tơi đề nghị nên áp dụng giải thuật vào khối front-end giống AFE, nhận dạng nên huấn luyện lại mơ hình âm học để có hệ thống nhận dạng bền vững với môi trường nhiễu, đạt mục tiêu mà đề tài hướng tới Với mong muốn phát triển đề tài lên cao hơn, số hướng giải vạch ra:  Trong thuật toán MMSE-STSA 84, lọc Wiener, tối ưu hóa kĩ thuật VAD, sử dụng phương pháp ước lượng nhiễu tốt hơn, trường hợp MMSE-MS, hiệu nhận dạng cải thiện nhiều  Trong q trình kiểm tra, chúng tơi nhận thấy có trường hợp cho hiệu suất nhận dạng cao, cho thuật tốn kết hợp với khối AFE, giữ nguyên lọc Wiener tầng khơng huấn luyện lại mơ hình âm học, điều thể qua bảng sau: WRR/WAC (%) hm mm wm MMSE-MS 93.05/90.16 85.94/84.11 93.73/91.79 MMSE-STSA84 92.91/90.36 83.89/82.87 92.33/90.20 MMSE-STSA85 82.47/81.91 82.21/81.26 91.12/88.64 Bộ lọc Wiener 72.06/68.92 64.20/56.00 77.86/69.49 Chúng tiếp tục nghiên cứu kĩ trường hợp để có  lý giải hợp lý hướng đề xuất tốt sau Xây dựng nhận dạng tiếng nói bền vững dựa sở liệu tiếng Việt Trang 73 Chương 4: Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng  Ứng dụng hệ thống ASR vào nhà thông minh, cho phép điều khiển qua mạng internet với độ xác cao TÀI LIỆU THAM KHẢO [1] Lawrence R Rabiner, Fellow, IEEE, “a Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition”, IEEE, Vol.77, No.2, February 1989 [2] Jacob Benesty, M Mohan Sondhi, Yiteng Huang, “Springer Handbook of Speech Processing”, Springer, 2008 [3] Xuedong Huang, Alex Acen, Hsiao-wuen Hon, “Spoken Language Processing, a Guide to Theory, Algorithm, and System Development”, Prentice Hall, Inc, 2001 [4] ETSI ES 201 108 V1.1.1 Speech Processing, Transmission and Quality Aspects (STQ), Distributed speech recognition, Front-end feature extraction algorithm, Compression algorithms, ETSI, 2000 [5] ETSI ES 202 050 V1.1.3 Speech Processing, Transmission and Quality Aspects (STQ), Distributed speech recognition, Advanced front-end feature extraction algorithm, Compression algorithms, ETSI, 2003 [6] J Benesty, S Makino, J Chen, “Speech Enhancement”, Springer, 2005 [7] Yariv Ephraim, David Malah, “Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator”, IEEE Trans Trang 74 Chương 4: Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng Acoustics, Speech, and Signal Processing, Vol ASSP-32, No.6, December, 1984 [8] Yariv Ephraim, David Malah, “Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator”, IEEE Trans Acoustics, Speech, and Signal Processing, Vol ASSP-33, No.2, April, 1985 [9] Rainer Martin, Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics, IEEE Trans Speech and Audio Processing, Vol.9, No.5, July, 2001 [10] S Young and et al., The HTK Book (for HTK Version 3.3) Microsoft Corporation Cam-bridge University, Engineering Department, Cambridge University, 2005 [11] “AURORA Project Database - Subset of SpeechDat-Car German database (AURORA/CD0003-03),” Evaluations and Language resources Distribution Agency, Tech Rep., 2001 [12] Phạm Văn Tuấn, Hoàng Lê Uyên Thục, “Giải pháp giảm nhiễu miền Wavelet để nâng cao hiệu suất nhận dạng tiếng nói tự động”, số 4(39), 2010 [13] Lawrence R Rabiner and Ronald W Schafer, “Introduction to Digital Speech Processing”, Vol.1, No.1-2, 2007 Trang 75 ... Chương 1: Lý thuyết nhận dạng tiếng nói 1.3 Hệ thống nhận dạng tiếng nói 1.3.1 Nhận dạng tiếng nói gì? Nhận dạng tiếng nói q trình xử lý tiếng nói nhằm biến đổi tín hiệu tiếng nói ghi âm thành chuỗi... TOÁN GIẢM NHIỄU ĐỂ TĂNG HIỆU SUẤT BỘ NHẬN DẠNG 2.1 Giới thiệu chương Chương giới thiệu phương pháp xử lý tiếng nói khối frontend nhận dạng tiếng nói tự động (ASR) nhằm mục đích xây dựng nhận dạng. .. thống nhận dạng, Mơ hình Markov ẩn ứng dụng, Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng, Xây dựng giao diện mô chạy demo LINUX Nguyễn Thị Bích Ngọc: Lý thuyết nhận dạng tiếng nói,

Định dạng
Số trang	75
Dung lượng	1,73 MB