Xây dựng hệ thống nhận dạng giọng nói tự động

1 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM - HOÀNG SONG CẨM THẠCH XÂY DỰNG HỆ THỐNG NHẬN DẠNG GIỌNG NÓI TỰ ĐỘNG Nghành : KHOA HỌC MÁY TÍNH LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng năm 2010 CƠNG TRÌNH ĐUỢC HỊAN THÀNH TẠI TRUỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán huớng dẫn khoa học : TS Quản Thành Thơ … Cán chấm nhận xét : TS Nguyễn Đức Cuờng … Cán chấm nhận xét : ………………………….……… Luận văn thạc sĩ đuợc bảo vệ Truờng Đại Học Bách Khoa, ĐHQG Tp HCM ngày 25 tháng năm 2010 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm : TS Nguyễn Hứa Phùng TS Quản Thành Thơ TS Nguyễn Đức Cuờng PGS TS Trần Văn Lăng TS Bùi Hoài Thắng TRUỜNG ĐH BÁCH KHOA TP HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÒNG ĐÀO TẠO SĐH Độc lập – Tự – Hạnh phúc Tp HCM, ngày tháng năm 2010 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên : Hòang Song Cẩm Thạch Phái : Nam Ngày, tháng , năm sinh : 18/10/1980 Nơi Sinh : Huế Chuyên Nghành : Khoa Học Máy Tính MSHV: 00708208 I-TÊN ĐỀ TÀI : Xây dựng hệ thống nhận dạng giọng nói tự động II- NHIỆM VỤ VÀ NỘI DUNG : Sử dụng phuơng pháp mơ hình Markov ẩn (HMM) để xây dựng hệ thống nhận dạng giọng nói tự động cho tiếng Anh III- NGÀY GIAO NHIỆM VỤ : 25/1/2010 IV- NGÀY HÒAN THÀNH NHIỆM VỤ : 2/7/2010 V- CÁN BỘ HUỚNG DẪN : TS Quản Thành Thơ CÁN BỘ HUỚNG DẪN TS Quản Thành Thơ CN BỘ MƠN QL CHUN NGÀNH LỜI CẢM ƠN Tơi xin bày tỏ lòng biết ơn chân thành sâu sắc đến TS Quản Thành Thơ – giáo viên huớng dẫn đề tài tơi – thầy tận tình huớng dẫn giúp đỡ cho tơi hồn thành luận văn Tôi xin gởi lời cám ơn chân thành đến quý thầy cô Khoa Công Nghệ Thông Tin- Truờng Đại Học Bách Khoa Thành Phố Hồ Chí Minh, giảng dạy truyền đạt kiến thức q báu cho tơi suốt q trình học tập Tơi xin bày tỏ lịng biết ơn sâu sắc đến anh Nguyễn Ngọc Thịnh – Tổng Giám Đốc công ty phần mềm PSD, nơi công tác, tạo điều kiện cho tơi đuợc hịan thành khóa học cao học Cuối tơi xin bày tỏ lòng biết ơn sâu sắc gia đình, ba mẹ tơi động viên giúp đỡ cho tơi suốt q trình học tập thực luận văn Sinh Viên Thực Hiện Hịang Song Cẩm Thạch Tp.HCM 07-2010 MỤC LỤC CƠNG TRÌNH ĐUỢC HỊAN THÀNH TẠI TRUỜNG ĐẠI HỌC BÁCH KHOA LỜI CẢM ƠN MỤC LỤC MỞ ĐẦU 12 CHƯƠNG TỔNG QUAN 14 1.1 Đặt vấn đề 14 1.2 Mục tiêu đề tài 14 1.3 Nội dung nghiên cứu 15 1.4 Những đóng góp luận văn 15 CHUƠNG CƠ SỞ LÝ THUYẾT 16 2.1 Các khái niệm 16 2.1.1 Nhận dạng giọng nói tự động (Automatic Speech Recognition – ASR) 16 2.1.2 Nghiên cứu xử lý tín hiệu âm 16 2.1.3 Mơ hình phát âm (tạo âm thanh) nguời 18 2.1.4 Cơ chế nghe hiểu âm nguời 20 2.1.4.2 Cảm nhận độ lớn (loudness) âm 22 2.1.5 Các băng tần quan trọng 22 2.1.6 Cảm nhận cao độ (pitch perception) âm 23 2.2 Các kỹ thuật phân tích âm 24 2.2.1 Phuơng pháp Phân tích giọng nói tức thời (short-time analysis of speech) 24 2.2.2 Biến đổi Fourier tức thời (Short-time Fourier Transform- STFT) 26 2.2.3 Hình ảnh hóa tín hiệu giọng nói 27 2.2.4 Kỹ thuật phân tích đồng hình giọng nói (Homomorphic Speech Analysis) 27 2.2.5 Hệ số Cepstrum Mel-Frequency (Mel-frequency Cepstrum Coefficients) 31 CHUƠNG LỊCH SỬ PHÁT TRIỂN CỦA NGHIÊN CỨU NHẬN DẠNG GIỌNG NÓI 33 3.1 Phân lọai hệ thống ASR 33 3.2 Lịch sử phát triển nghiên cứu nhận dạng giọng nói tự động 34 Giai đọan thứ I 34 Giai đọan thứ II 35 Giai đọan thứ III – Phuơng pháp nhận dạng mẫu nhận dạng giọng nói 36 Giai đọan thứ IV – Kỷ ngun mơ hình thống kê 38 Giai đọan thứ V – Các kỹ thuật tuơng lai 43 CHUƠNG PHƯƠNG PHÁP NHẬN DẠNG GIỌNG NĨI SỬ DỤNG MƠ HÌNH MARKOV ẨN (HMM) 46 4.1 Đặc tả tốn nhận dạng giọng nói tự động 46 4.2 Phuơng pháp xây dựng hệ thống nhận dạng giọng nói 47 4.3 Xây dựng tập đặc trưng biễu diễn tín hiệu (Recognition Feature Set) 48 4.4 Nhiệm vụ nhận dạng 49 4.5 Huấn luyện mơ hình 49 4.6 Kiểm tra đánh giá hiệu suất hệ thống 49 4.7 Quá trình định hệ thống ASR 50 4.7.1 Mơ hình tóan học tóan ASR 50 4.7.2 Mơ hình Markov ẩn ( The Hidden Markov Chain) 51 4.7.3 Mơ hình âm (Accoustic Modeling) 53 4.7.4 Mơ hình ngơn ngữ (Language Model) 53 4.7.5 Bài tóan tìm kiếm (Search Problem) 54 CHUƠNG NHẬN DẠNG NHIỀU GIỌNG NÓI ĐỒNG THỜI 55 5.1 Các phuơng pháp phân tách nguồn tín hiệu giọng nói (Voice Source Separation) 55 5.2 Xử lý nhiễu tín hiệu âm 56 CHUƠNG HIỆN THỰC HỆ THỐNG 57 6.1 Cơng Cụ lập trình hệ thống 57 6.2 Các Giải thuật sở lý thuyết 57 6.3 Các tính hệ thống 57 6.4 Quy trình xây dựng hệ thống nhận dạng giọng nói mơ hình thống kê HMM 58 6.5 Phương pháp xây dựng mơ hình âm mơ hình ngơn ngữ Framework HTK Toolkit 59 6.5.1 Quy trình xây dựng mơ hình âm (accoustic model) Framework HTK Toolkit 59 Giới thiệu công cụ HTK 59 6.5.2 Quy trình xây dựng mơ hình ngơn ngữ (language model) Framework HTK Toolkit 71 CHUƠNG THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 75 7.1 Các tiêu chí đánh giá hệ thống 75 Tỷ lệ từ sai (WER-Word Error Rate) : số đo phổ biến để đánh giá hiệu suất hệ thống nhận dạng giọng nói 75 7.2 Kết thử nghiệm 75 7.3 Phân tích kết 76 CHUƠNG KẾT LUẬN VÀ HUỚNG NGHIÊN CỨU TIẾP THEO 77 8.1 Kết Luận 77 8.2 Huớng Nghiên Cứu Tiếp Theo 78 8.2.1 Điều chỉnh thông số động 79 8.2.2 Sử dụng nhiều microphone 80 8.2.3 Sử dụng kỹ thuật xử lý tín hiệu mơ họat động tai nguời 81 8.2.4 Một số ý tuởng đề xuất khác nhằm nâng cao độ xác hệ thống ASR 81 TÀI LIỆU THAM KHẢO 82 DANH MỤC HÌNH Hình 2.1 - Bảng âm vị biểu diễn phát âm ngôn ngữ tiếng Anh – Bắc Mỹ 17 Hình 2.2- Dạng sóng âm câu “should we chase” đuợc phát âm 18 Hình 2.3– Mơ hình quan phát âm nguời 19 Hình 2.4 – Mơ hình nguồn/hệ thống cho tín hiệu giọng nói 20 Hình 2.5 – Cấu trúc giải phẫu tai nguời 21 Hình 2.6 – Mơ hình trừu tuợng mơ chế xử lý nhận dạng âm tai nguời 21 Hình 2.7– Mối quan hệ độ lớn âm vớ tần số cuờng độ 22 Hình 2.8 – Biểu diễn lọc băng tần theo lý thuyết băng tần quan trọng 23 Hình 2.9 – Sự tuơng quan âm vực tần số âm 24 Hình 2.10 – Mơ hình tổng hợp giọng nói 24 Hình 2.11 - Hình (a) cửa sổ Hamming đọan tín hiệu (b) Biển đổi Fourier rời rạc mẫu tín hiệu 26 Hình 2.12 – Dạng sóng tín hiệu giọng nói cửa sổ phân tích tức thời 26 Hình 2.13– Spectogram tín hiệu âm 27 Hình 2.14– Tính cepstrum phức biến đổi DTFT 28 Hình 2.15- Chuỗi STFT Cepstrum hai đọan tín hiệu voiced unvoiced 29 Hình 2.16– Chuỗi cepstra tức thời STFT tuơng ứng 15 đọan tín hiệu 30 Hình 2.17– So sánh phuơng pháp biểu diễn tín hiệu âm 32 Hình 3.1 – Sơ đồ khối mơ hình thống kê hệ thống Tagora 38 Hình 3.2–các trạng thái FSN phát âm “Show all alerts” 39 Hình 3.3– Cấu trúc nhiều lớp mạng neuron MLP với lớp input hai lớp xử lý 40 Hình 3.4 – Hiệu suất nhận dạng tác vụ nhận dạng khác 43 10 Hình 3.5 – Lịch sử phát triển nghiên cứu nhận dạng giọng nói 45 Hình 4.1– Mơ hình ý niệm q trình tạo nhận dạng giọng nói 46 Hình 4.2– Sơ đồ khối hệ thống nhận dạng giọng nói 47 Hình 4.3– Q trình rút trích đặc trưng để tạo vector đặc trưng gồm hệ số MFCC dẫn xuất 48 Hình 4.4 – HMM trạng thái 51 Hình 4.5 – Các thủ tục huấn luyện Baum-Welch tập phát âm cho truớc 52 Hình 4.6– HMM ba trạng thái âm vị 52 Hình 4.7– HMM từ “is” tạo thành từ HMM âm vị thành viên /IH/ /Z/ 53 Hình 5.1 – Mơ hình huấn luyện họat động hệ thống nhận dạng giọng nói 58 Hình 5.2 Sử dụng cơng cụ HDMan để xây dựng từ điển phát âm từ từ điển mẫu 60 Hình 5.3 Sơ đồ tạo file liệu ghi âm training testing công cụ HSLAB HSGEN 62 Hình 5.4 Quá trình tạo file chuyển âm cấp độ âm vị công cụ HLED 64 Hình 5.5 – Q trình mã hóa file ghi âm đầu vào công cụ HCOPY 65 Hình 5.6- Topology mơ hình HMM sử dụng training cho monophone 66 Hình 5.7- Quá trình training mơ hình HMM sử dụng cơng cụ HEREST HCOMPV 67 Hình 5.8 Các mơ hình âm lặng (Silence Models) 68 Hình 5.9- Sơ đồ tạo file chuyển âm cấp độ âm vị tái xếp công cụ HVITE 69 Hình 5.10 – Gom cụm triphone tương tự sử dụng cơng cụ HHED 70 Hình 5.11 – Quy trình tạo triphone HMM từ monophone HMM , sử dụng công cụ HHED HLED 71 Hình 5.12 - Các giai đọan để xây dựng mơ hình ngơn ngữ n-gram 72 72 Tổng quan trình xây dựng mơ hình ngơn ngữ n-Gram Q trình xây dựng mơ hình ngơn ngữ n-Gram gồm giai đọan đuợc trình bày , duới sơ đồ minh họa cho trình : Hình 5.12 - Các giai đọan để xây dựng mơ hình ngơn ngữ n-gram Cơng cụ LGPrep qt qua tất text input đếm tần số xuất chuỗi n-gram , số đếm đuợc lưu gram file , sau trình đếm kết thúc LGPrep đồng thời tạo file word map : entry file word map ánh xạ từ số nguyên ( từ đuợc biểu diễn số ngun) Sau sử dụng cơng cụ Lbuild để tạo file mơ hình ngơn ngữ n-gram Sau trình bày chi tiết quy trình xây dựng mơ hình ngơn ngữ n-gram sử dụng công cụ Framework HTK Toolkit Buớc : Chuẩn bị liệu Trong buớc liệu text cần đuợc đánh nhãn để phân định thành câu riêng biệt Sử dụng token để đánh dấu bắt đầu kết thúc câu Sau sử dụng cơng cụ LGPREP để qt qua file liệu text đầu vào để tạo file n-gram sơ 73 khởi đuợc xếp , công cụ LGPREP cần file word map để thực việc ánh xạ từ tuơng ứng với số nguyên Ta sử dụng công cụ LNewMap để tạo file word map trống LNewMap -f WFC Holmes empty.wmap Định dạng file word map sau : Name = Holmes SeqNo = Entries = 18080 EscMode = RAW Fields = ID,WFC \Words\ 65536 IT 65537 WAS 65538 33669 8106 7595 Truờng SeqNo cho biết số bắt đầu để gán cho từ , lần có từ thêm vào file word map truờng tăng thêm đơn vị , truờng Entries cho biết số từ có file word map Sử dụng lệnh LGPREP để tạo file n-gram sơ khởi Ví dụ : LGPrep -T -a 100000 -b 200000 -d holmes.0 -n -s "Sherlock Holmes" empty.wmap train/*.txt Lệnh sau lấy liệu văn có tên “Sherlock Holmes” thu muc train sinh cac file n-gram thư mục holmes.0 Buớc : Ánh xạ từ OOV (Out Of Vocabulary) Buớc quan trọng trình xây dựng mơ hình ngơn ngữ xác định tập từ vựng cho hệ thống nhận dạng , định nghĩa tập từ vựng hỗ trợ , ta sử dụng công cụ LGCOPY để lọc từ OOV liệu text training Các từ OOV đuợc đánh dấu ký hiệu “!!UNK” file word map $ LGCopy -T -o -m lm_5k/5k.wmap -b 200000 -d lm_5k -w 5k.wlist holmes.0/wmap holmes.1/data.* 74 Input file holmes.1/data.0 added, weight=1.0000 Input file holmes.1/data.1 added, weight=1.0000 Input file holmes.1/data.2 added, weight=1.0000 Copying input files to output files with 200000 entries Class map = 5k.wlist [Class mappings only] saving 75400 ngrams to file lm_5k/data.0 92918 out of 489516 ngrams stored in files Lệnh tạo file word map tên 5k.wmap từ file từ điển hỗ trợ 5.000 từ có tên 5k.wlist Buớc : Sinh file mơ hình ngơn ngữ Ta sử dụng công cụ LBUILD để sinh file mô hình ngơn ngữ unigram, bigram , trigram ,… LBuild -T -n lm_5k/5k.wmap lm_5k/ug holmes.1/data.* lm_5k/data.* Lệnh sinh mơ hình ngơn ngữ unigram (n=1) thư mục lm_5k/ug 75 CHUƠNG THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 7.1 Các tiêu chí đánh giá hệ thống Tỷ lệ từ sai (WER-Word Error Rate) : số đo phổ biến để đánh giá hiệu suất hệ thống nhận dạng giọng nói WER đuợc tính cơng thức sau : Trong : S : số từ bị thay trình nhận dạng (Substitution Error) D: số từ bị xóa khỏi chuỗi phát âm q trình nhận dạng (Deletion Error) I : số từ đuợc thêm vào chuỗi từ trình nhận dạng (Insertion Error) N : tổng số từ thực có phát âm Cũng sử dụng số đo tỷ lệ từ nhận dạng (WRR-Word Recogntion Rate) , WRR đuợc tính cơng thức sau : Trong : H = N-(S+D) số từ đụơc nhận dạng phát âm Cách thức tiến hành đánh giá hiệu suất hệ thống Hiệu suất hệ thống ASR đuợc đánh giá tập liệu training gồm từ điển 20 nghìn từ , mơ hình âm lọai 16 mixture triphone , mơ hình ngơn ngữ 3-gram , sử dụng 200 file ghi âm giọng nói theo định dạng wav 7.2 Kết thử nghiệm Kết đánh giá đuợc tóm tắt bảng duới , gồm số đo tỷ lệ từ sai, substitution error, Insertion error, Deletion error tuơng ứng với thay đổi cấu hình hai thống số Beam1 Beam2 giải thuật tìm kiếm so trùng âm vị 76 Beam1 Beam2 Substituion Insertion Deletion Word Accuracy 1000 100 15.2% 4.2% 1.4% 79.3% 2000 200 13.4% 3.5% 1.5% 81.6% 3000 250 13.2% 3.5% 1.4% 81.9% 4000 300 13.2% 3.4% 1.4% 82.1% 7.3 Phân tích kết Qua kết thử nghiệm thu đuợc ta rút đuợc kết luận sau : Độ xác hệ thống nhận dạng phuơng pháp mô hình thống kê HMM sử dụng đặc trưng MFCC cho âm vị phụ thuộc vào yếu tố : • Nhiễu tín hiệu : tín hiệu audio bị nhiễu chất luợng đầu thu microphone, tạp âm mơi truờng độ xác suy giảm • Tốc độ phát âm : phát âm chậm độ xác cao (isolated recognition xác continuous recognition) • Mật độ phân bố tập liệu training … • Khi kính thuớc từ điển lớn, tốc độ đáp ứng hệ thống giảm • Kích thuớc tập liệu training để xây dựng mơ hình ngơn ngữ (và âm thanh) 77 CHUƠNG KẾT LUẬN VÀ HUỚNG NGHIÊN CỨU TIẾP THEO 8.1 Kết Luận Phuơng pháp xây dựng hệ thống ASR mơ hình thống kê HMM sử dụng đặc trưng MFCC cho âm vị có nhiều ưu điểm : -Có mơ hình tốn học vững -Khơng địi hỏi kiến thức chun sâu xử lý tín hiệu âm (cần nhiều kiến thức thống kê) -Các lỗi q trình phân tích khơng truyền tích lũy -Bảo tồn đặc tính thời gian tín hiệu âm -Khơng cần số luợng cực lớn template giọng nói -Cho kết nhận dạng tốt (tốc độ độ xác ) Tuy nhiên phuơng pháp bộc lộ nhuợc điểm , nhiều nghiên cứu đụơc tiến hành để vuợt qua nhuợc điểm : -Giả định First-Order (First-Order Assumption) :cho tất xác suất phụ thuộc vào trạng thái Điều khơng xác với lĩnh vực nhận dạng giọng nói Và kết HMM khơng mơ hình tốt tuợng chuyển tiếp âm vị (coarticulation) thực phân bố xác suất âm phụ thuộc mạnh vào trạng thái âm vị truớc Một hệ khác giả định First-Order độ rộng thời gian (duration) âm vị đuợc mơ hình khơng xác (theo phân bố lũy thừa ) thay phân bố xác Poisson hay phân bố dạng hình chng khác (bellshaped distribution) -Giả định độc lập (Independence Assumption):giả định cho khơng có tuơng quan frame tín hiệu âm kế cận Điều sai với ứng dụng nhận dạng giọng nói Theo giả định HMMs xem xét frame âm thời điểm Do để sử dụng ngữ cảnh frame lân cận , HMMs phải “hấp thụ” (absorb) frames vào frame (nghĩa cần sử dụng nhiều stream liệu để khai thác hệ số delta hay sử dụng LDA để biến đổi dòng liệu thành dòng ) 78 -Mơ hình mật độ xác suất HMMs (rời rạc, liên tục, bán liên tục ) có độ xác tối ưu cục Cụ thể mơ hình mật độ xác suất HMMs rời rạc có lỗi định luợng , mơ hình HMMs liên tục bán liên tục mắc lỗi so trùng mô hình (model mismatch) -Tiêu chí training Maximum Likelihood dẫn tới khả phân biệt khác mơ hình âm (tức khơng có khả phân biệt hai từ có cách phát âm tuơng đối giống nhau) -Sử dụng luợng lớn thông số để biểu diễn mơ hình HMMs ( âm & ngơn ngữ ) dẫn đến q trình training phức tạp tốn nhiều thời gian , trình tìm kiếm so trùng âm vị tốn nhiều thời gian từ vựng lớn Bởi phuơng pháp HMMs mắc nhược điểm nên hệ thống nhận dạng đạt đuợc hiệu suất cao cách dựa vào mơ hình âm phụ thuộc ngữ cảnh tức hệ thống đuợc training sử dụng ngữ cảnh đạt độc xác cao nguợc lại cho độ xác thấp Ví dụ : hệ thống ASR đuợc training với tập liệu giọng Mỹ (American accent) cho kết nhận dạng tốt nguời sử dụng phát âm giọng Mỹ nguời sử dụng phát âm giọng Anh (English accent) hiệu suất hệ thống suy giảm rõ rệt Nhận dạng giọng nói tự động tạo nên cách mạng phuơng thức giao tiếp nguời với máy tính Các hệ thống ASR đuợc ứng dụng rộng rãi nhiều lĩnh vực khác giúp tăng suất lao động nguời Trong nhiều thập niên qua có nhiều tiến kỹ thuật vượt bậc lĩnh vực nhận dạng giọng nói để xây dựng đuợc hệ thống nhận dạng mạnh xác cần thêm nhiều nghiên cứu lĩnh vực khoa học máy tính để giải triệt để tóan 8.2 Huớng Nghiên Cứu Tiếp Theo Mặc dù hệ thống ASR xây dựng theo mơ hình HMM đạt đuợc tiến đáng kể hiệu suất độ xác chúng cịn tồn nhiều nhuợc điểm huớng nghiên cứu khác lĩnh vực nhận dạng giọng nói đuợc tiến hành nhằm khắc phục nhuợc điểm Phần trình bày huớng nghiên cứu ý tuởng đề xuất tác giả nhằm khắc phục nhuợc điểm phuơng pháp HMM 79 Tính ổn định (robustness) hệ thống nhận dạng giọng ý muốn nói đến độ xác cao việc nhận dạng truờng hợp chất luợng tín hiệu đầu vào suy giảm hay có khác biệt đặc tính âm học mơi truờng training testing Những khó khăn khiển cho hệ thống ASR ổn định bao gồm việc suy giảm chất luợng tín hiệu đầu vào nhiễu , hiệu ứng lọc tuyến tính, tính phi tuyến việc điều biến truyền tín hiệu , biến đổi kiểu phát âm (acccent) Một số phuơng pháp đuợc sử dụng để giúp tăng tính ổn định hệ thống ASR xây dựng mô hình HMM đuợc giới thiệu duới 8.2.1 Điều chỉnh thông số động Điều chỉnh động (dynamic adaptation) đặc trưng tín hiệu đầu vào thơng số mơ hình hệ thống nhằm làm giảm khác biệt môi truờng training testing để tăng tính xác việc nhận dạng Có cách tiếp cận khác để điều chỉnh tính thích nghi mơi truờng nguời nói : sử dụng giải thuật uớc luợng tối ứu để đạt đuợc giá trị thông số môi truờng thử nghiệm (testing condition), phát triển giải thuật bù (compensation) dựa so sánh thực nghiệm độ sai khác tín hiệu giọng nói mơi truờng training testing , sử dụng lọc băng tầng cao (high-pass filtering) cảu giá trị thông số nhằm cải thiện tính ổn định Ước tính thơng số tối ưu(Optimal parameter estimation) Nhiều kỹ thuật điều chỉnh nhằm tăng tính ổn định cho trình nhận dạng dựa mơ hình thống kê chuẩn để đặc tả hóa sai biệt giọng nói đuợc sử dụng training testing Các giá trị tham số của mơ hình đuợc ước luợng từ mẫu giọng nói mơi truờng testing từ đặc trưng tín hiệu đầu vào Các mơ hình cấu trúc điển hình cho việc điều chỉnh động biển đổi âm học dựa giả thiết cho tín hiệu giọng nói bị suy giảm nhiễu cộng có phổ luợng chưa biết truớc hay kết hợp nhiễu cộng lọc tuyến tính Do phuơng pháp điểu chỉnh động liên quan đến việc lọai bỏ nhiễu cộng (additive noise) Thực nghiệm cho thấy cách tiếp cận giúp giảm đáng kể tỷ lệ nhận dạng sai hệ thống ASR nhiên làm tăng khối luợng tính tốn hệ thống Kỹ thuật đuợc sử dụng hầu hết phần mềm ASR thuơng mại Dragon Naturally , Micrsoft Speech, IBM Via Voice Phần mềm sử dụng kỹ thuật đòi hỏi nguời sử dụng phải trải qua q trình training hệ thống giọng nói giúp hệ thống điều chỉnh thơng số mơ hình nhằm giảm sai khác liệu training testing Tuy nhiên trình training gây nhiều bất tiện vài áp dụng nhiều truờng hợp thực tế So sánh đặc trưng dựa kinh nghiệm (Empirical Feature Comparison) 80 Việc so sánh đặc trưng đuợc sinh từ tính hiệu giọng nói chất luợng cao với đặc trưng tín hiệu đuợc ghi âm đồng thời điều kiện có nhiễu đuợc sử dụng để bù vào sai khác tín hiệu (mismatch) hai môi truờng training testing Trong phuơng pháp , ảnh huởng kết hợp biến đổi mơi truờng giọng nói đuợc đặc tả nhiễu cộng cho đặc trưng Nhiều giải thuật điều chỉnh sử dụng vector sửa nhiễu cộng (additive correction vectors) cho đặc trưng đuợc sinh từ tín hiệu âm đầu vào hay áp dụng cho thơng số thống kê mơ hình HMMs lưu trữ bên hệ thống ASR Độ xác nhận dạng đuợc cải thiện đáng kể áp dụng kỹ thuật hệ thống ASR Cách tiếp cận đuợc mở rộng mơi truờng testing chưa biết truớc , ta tạo tập vector sửa nhiễu cộng đồng thời nhiều điều kiện testing khác sau chọn tập vector sửa nhiễu điều kiện môi truờng training gần giống với môi truờng testing Trong truờng hợp điều kiện môi truờng testing không giống với điều kiện đuợc sử dụng để sinh tập vector sửa nhiễu, lúc ta sử dụng kỹ thuật nội suy hay xác suất thống kê để suy tập vector phù hợp cho điều kiện testing Kỹ thuật bù tín hiệu dựa thực nghiệm đơn giản hiệu điều kiện testing gần giống với điều kiện đuợc sử dụng để sinh vector sửa nhiễu Tỷ lệ nhận dạng sai giảm tới 40% so với hệ thống ASR không áp dụng kỹ thuật Tuy nhiên cách tiếp cận có nhuợc điểm phải tạo sở liệu lớn giọng nói ghi âm đồng thời môi truờng testing training Lọc cepstral băng tần cao (Cepstral High-pass Filtering) Kỹ thuật điều chỉnh quan trọng thứ lọc băng high-pass cepstral giúp tăng tính ơn định đáng kể với chi phí tính tốn gần Trong phương pháp RASTA tiếng, lọc high-pass đuợc áp dụng có cách biểu diễn tín hiệu trền miền logarit (log-spectral) Kỹ thuật đuợc thực cách trừ hệ số MFCC tín hiệu đầu vào với trung bình ngắn hạn (short-term average) vector cepstral Kỹ thuật lọc high-pass cepstral không phức tạp , dễ thực , đuợc sử dụng nhiều hệ thống ASR 8.2.2 Sử dụng nhiều microphone Có thể tăng độ xác nhận dạng mơi truờng có độ SNR(signal-to-noice ratio) thấp cách sử dụng nhiều microphone đồng thời Dãy microphone giúp tạo pattern nhằm tăng tính nhạy cảm huớng tín hiệu âm giúp giảm ảnh huởng huớng có nguồn tạp âm 81 Dãy microphone có sử dụng kỹ thuật lọc lỗi trung bình bình phuơng tối thiểu (MMSE-minimum mean square error) họat động tốt độ suy giảm tín hiệu nhiễu cộng gây họat động mơi truờng có tiếng vang (reverberant environments) 8.2.3 Sử dụng kỹ thuật xử lý tín hiệu mơ họat động tai nguời Nhiều mơ hình xử lý tín hiệu đuợc phát triển cho hệ thống nhận dạng giọng nói dựa bắt chuớc hệ thống nghe hiểu tiếng nói nguời Các mơ hình bao gồm dải lọc bandpass đuợc theo sau tuơng tác phi tuyến qua kênh truyền tín hiệu Việc xử lý phi tuyến đuợc theo sau chế rút trích thơng tin thời gian hàm theo tần số Các đánh giá gần cho thấy mơ hình thính giác cho độ xác nhận dạng tốt cách biểu diễn cepstral truyền thống chất luợng tín hiệu đầu vào bị suy giảm nhiễu hay có khác biệt môi truờng training testing Tuy nhiên mô hình thính giác chưa cho độ xác tốt phương pháp điều chỉnh động truyền thống Có thể hạn chế mơ hình thính giác phần lớn đánh giá đuợc thực dựa vào phân lọai mơ hình Markov ẩn (HMM) – khơng có tuơng hợp tốt với thuộc tính thống kê đặc trưng tạo mơ hình thính giác Một vài nhà nghiên cứu cho chưa hiểu rõ hết output từ đặc trưng mơ hình thính giác mà tạo hiệu suất nhận dạng siêu việt (superior performance) Cách tiếp cận mô hình thính giác gây đuợc ý nhiều nhà nghiên cứu việc tìm cách khắc phục yếu điểm hệ thống ASR 8.2.4 Một số ý tuởng đề xuất khác nhằm nâng cao độ xác hệ thống ASR - Nghiên cứu đặc trưng âm khác hệ số MFCC nhằm biểu diễn tín hiệu giọng nói - Mơ hay bắt chuớc khả đóan từ nguời Kỹ thuật đòi hỏi hiểu biết ngữ cảnh nội dung đuợc nói từ đốn phán đốn lập từ có khả đuợc phát âm ngữ cảnh cụ thể 82 TÀI LIỆU THAM KHẢO [1] J B Allen and L R Rabiner, “A unified theory of short-time spectrum analysis and synthesis,” Proceedings of IEEE,vol 65, no 11, pp 1558–1564,November 1977 [2] B S Atal, “Predictive coding of speech at low bit rates,” IEEE Transactions on Communications, vol COM-30, no 4, pp 600–614, April 1982 [3] B S Atal and S L Hanauer, “Speech analysis and synthesis by linear prediction of the speech wave,” Journal of the Acoustical Society of America, vol 50,pp 561–580, 1971 [4] B S Atal and J Remde, “A new model of LPC exitation for producing naturalsounding speech at low bit rates,” Proceedings of IEEE ICASSP,pp 614–617, 1982 [5] B S Atal and M R Schroeder, “Adaptive predictive coding of speech signals,” Bell System Technical Journal, vol 49, pp 1973–1986, October 1970 [6] B S Atal and M R Schroeder, “Predictive coding of speech signals and subjective error criterion,” IEEE Transactions on Acoustics, Speech, and Signal Processing, vol ASSP-27, pp 247–254, June 1979 [7] B S Atal and M R Schroeder, “Improved quantizer for adaptive predictive coding of speech signals at low bit rates,” Proceedings of ICASSP, pp 535–538, April 1980 [8] T B Barnwell III, “Recursive windowing for generating autocorrelation analysis for LPC analysis,” IEEE Transactions on Acoustics, Speech and Signal Processing, vol ASSP-29, no 5, pp 1062–1066, October 1981 [9] T B Barnwell III, K Nayebi, and C H Richardson, Speech Coding, A Computer Laboratory Textbook John Wiley and Sons, 1996 [10] L E Baum, “An inequality and associated maximization technique in statistical estimation for probabilistic functions of Markov processes,” Inequalities, vol 3, pp 1–8, 1972 [11] L E Baum, T Petri, G Soules, and N Weiss, “A maximization technique occurring in the statistical analysis of probabilistic functions of Markov chains,” Annals in Mathematical Statistics, vol 41, pp 164–171, 1970 [12] W R Bennett, “Spectra of quantized signals,” Bell System Technical Journal, vol 27, pp 446–472, July 1948 83 [13] M Berouti, H Garten, P Kabal, and P Mermelstein, “Efficient computation and encoding of the multipulse excitation for LPC,” Proceedings of ICASSP, pp 384–387, March 1984 [14] M Beutnagel, A Conkie, and A K Syrdal, “Diphone synthesis using unit selection,” Third Speech Synthesis Workshop, Jenolan Caes, Australia, November 1998 [15] M Beutnatel and A Conkie, “Interaction of units in a unit selection database,” Proceedings of Eurospeech ’99, Budapest, Hungary, September 1999 [16] B P Bogert, M J R Healy, and J W Tukey, “The quefrency alanysis of times series for echos: Cepstrum, pseudo-autocovariance, cross-cepstrum, and saphe cracking,” in Proceedings of the Symposium on Time Series Analysis, (M Rosenblatt, ed.), New York: John Wiley and Sons, Inc., 1963 [17] E Bresch, J Nielsen, K Nayak, and S Narayanan, “Synchornized and noiserobust audio recordings during realtime MRI scans,” Journal of the Acoustical Society of America, vol 120, no 4, pp 1791–1794, October 2006 [18] C S Burrus and R A Gopinath, Introduction to Wavelets and Wavelet Transforms Prentice-Hall Inc., 1998 [19] J P Campbell Jr., V C Welch, and T E Tremain, “An expandable errorpretected 4800 bps CELP coder,” Proceedings of ICASSP, vol 2, pp 735–738, May 1989 [20] F Charpentier and M G Stella, “Diphone synthesis using an overlap-add technique for speech waveform concatenation,” Proceedings of International Conference on Acoustics, Speech and Signal Processing, pp 2015–2018, 1986 [21] J H Chung and R W Schafer, “Performance evaluation of analysis-bysynthesis homomorphic vocoders,” Proceedings of IEEE ICASSP, vol 2, pp 117–120, March 1992 [22] C H Coker, “A model of articulatory dynamics and control,” Proceedings of IEEE, vol 64, pp 452–459, 1976 [23] R V Cox, S L Gay, Y Shoham, S Quackenbush, N Seshadri, and N Jayant, “New directions in subband coding,” IEEE Journal of Selected Areas in Communications, vol 6, no 2, pp 391–409, February 1988 [24] R E Crochiere and L R Rabiner, Multirate Digital Signal Processing Prentice-Hall Inc., 1983 84 [25] R E Crochiere, S A Webber, and J L Flanagan, “Digital coding of speech in subbands,” Bell System Technical Journal, vol 55, no 8, pp 1069–1085, October 1976 [26] C C Cutler, “Differential quantization of communication signals,” U.S Patent 2,605,361, July 29, 1952 [27] S B Davis and P Mermelstein, “Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences,” IEEE Transactions on Acoustics, Speech and Signal Processing, vol 28, pp 357–366, August 1980 [28] F deJager, “Delta modulation — a new method of PCM transmission using the 1unit code,” Philips Research Reports, pp 442–466, December 1952 [29] P B Denes and E N Pinson, The speech chain W H Freeman Company, 2nd Edition, 1993 [30] H Dudley, “The vocoder,” Bell Labs Record, vol 17, pp 122–126, 1939 [31] T Dutoit, An Introduction to Text-to-Speech Synthesis Netherlands: Kluwer Academic Publishers, 1997 [32] G Fant, Acoustic Theory of Speech Production The Hague: Mouton & Co.,1960; Walter de Gruyter, 1970 [33] J D Ferguson, “Hidden Markov Analysis: An Introduction,” Hidden Markov Models for Speech, Princeton: Institute for Defense Analyses, 1980 [34] J L Flanagan, Speech Analysis, Synthesis and Perception Springer-Verlag,1972 [35] J L Flanagan, C H Coker, L R Rabiner, R W Schafer, and N Umeda,“Synthetic voices for computers,” IEEE Spectrum, vol 7, pp 22–45, October 1970 [36] J L Flanagan, K Ishizaka, and K L Shipley, “Synthesis of speech from a dynamic model of the vocal cords and vocal tract,” Bell System Technical Journal, vol 54, no 3, pp 485–506, March 1975 [37] H Fletcher and W J Munson, “Loudness, its definition, measurement and calculation,” Journal of Acoustical Society of America, vol 5, no 2, pp 82–108, October 1933 [38] G D Forney, “The Viterbi algorithm,” IEEE Proceedings, vol 61, pp 268–278, March 1973 85 [39] S Furui, “Cepstral analysis technique for automatic speaker verification,” IEEE Transactions on Acoustics Speech, and Signal Processing, vol ASSP-29, no 2, pp 254– 272, April 1981 [40] S Furui, “Speaker independent isolated word recognition using dynamic features of speech spectrum,” IEEE Transactions on Acoustics, Speech, Signal Processing, vol ASSP-26, no 1, pp 52–59, February 1986 [41] O Ghitza, “Audiotry nerve representation as a basis for speech processing,” in Advances in Speech Signal Processing, (S Furui and M Sondhi, eds.), pp 453–485, NY: Marcel Dekker, 1991 [42] J J Godfrey, E C Holliman, and J McDaniel, “SWITCHBOARD: Telephone Speech corpus for research and development,” Proceedings of ICASSP 1992,pp 517– 520, 1992 [43] B Gold and L R Rabiner, “Parallel processing techniques for estimating pitch period of speech in the time domain,” Journal of Acoustical Society of America, vol 46, no 2, pt 2, pp 442–448, August 1969 [44] A L Gorin, B A Parker, R M Sachs, and J G Wilpon, “How may I help you?,” Proceedings of the Interactive Voice Technology for Telecommunications Applications (IVTTA), pp 57–60, 1996 [45] R M Gray, “Vector quantization,” IEEE Signal Processing Magazine, pp 4–28, April 1984 [46] R M Gray, “Toeplitz and circulant matrices: A review,” Foundations and Trends in Communications and Information Theory, vol 2, no 3, pp 155–239, 2006 [47] J A Greefkes and K Riemens, “Code modulation with digitally controlled companding for speech transmission,” Philips Technical Review, pp 335–353, 1970 [48] H Hermansky, “Auditory modeling in automatic recognition of speech,” in Proceedings of First European Conference on Signal Analysis and Prediction, pp 17–21, Prague, Czech Republic, 1997 [49] X Huang, A Acero, and H.-W Hon, Spoken Language Processing Prentice-Hall Inc., 2001 86 [50] A Hunt and A Black, “Unit selection in a concatenative speech synthesis system using a large speech database,” Proceedings of ICASSP-96, Atlanta, vol 1, pp 373–376, 1996 [51] K Ishizaka and J L Flanagan, “Synthesis of voiced sounds from a twomass model of the vocal cords,” Bell System Technical Journal, vol 51, no 6, pp 1233–1268, 1972 [52] F Itakura, “Line spectrum representation of linear predictive coefficients of speech signals,” Journal of Acoustical Society of America, vol 57, pp 535(a), p s35(A) [53] F Itakura and S Saito, “Analysis-synthesis telephony based upon the maximum likelihood method,” Proceedings of 6th International of Congress on Acoustics, pp C17– C20, 1968 [54] F Itakura and S Saito, “A statistical method for estimation of speech spectral density and formant frequencies,” Electronics and Communications in Japan, vol 53-A, no 1, pp 36–43, 1970 [55] F Itakura and T Umezaki, “Distance measure for speech recognition based on the smoothed group delay spectrum,” in Proceedings of ICASSP87, pp 1257–1260, Dallas TX, April 1987 [56] N S Jayant, “Adaptive delta modulation with a one-bit memory,” Bell System Technical Journal, pp 321–342, March 1970 [57] N S Jayant, “Adaptive quantization with one word memory,” Bell System Technical Journal, pp 1119–1144, September 1973 [58] N S Jayant and P Noll, Digital Coding of Waveforms Prentice-Hall, 1984 [59] F Jelinek, Statistical Methods for Speech Recognition Cambridge: MIT Press, 1997 [60] F Jelinek, R L Mercer, and S Roucos, “Principles of lexical language modeling for speech recognition,” in Advances in Speech Signal Processing, (S Furui and M M Sondhi, eds.), pp 651–699, Marcel Dekker, 1991 [61] T.Kristjansson,J.Hershey,P.Olsen,S.Rennie,R.Gopinath , "Super-Human MultiTalker Speech Recognition-The IBM 2006 Speech Separation Challenge System" IBM Watson Research Center, Yorktown Heights, NY10598, USA ... tín hiệu giọng nói • Các lọai hệ thống nhận dạng giọng nói tự động ứng dụng thực tiễn • Ưu điểm nhuợc điểm phuơng pháp nhận dạng giọng nói tự động • Phương pháp nhận dạng giọng nói tự động sử... tác với máy móc : hệ thống trả lời tự động, hệ thống xác thực danh tính giọng nói, hệ thống điều khiển , hệ thống hỗ trợ nguời khiếm thính, … Hệ thống nhận dạng giọng nói tự động (Automatic Speech... I-TÊN ĐỀ TÀI : Xây dựng hệ thống nhận dạng giọng nói tự động II- NHIỆM VỤ VÀ NỘI DUNG : Sử dụng phuơng pháp mơ hình Markov ẩn (HMM) để xây dựng hệ thống nhận dạng giọng nói tự động cho tiếng

Định dạng
Số trang	86
Dung lượng	2,13 MB