NGHIÊN cứu về NHẬN DẠNG TIẾNG nói và xây DỰNG PHẦN mềm DEMO NHẬN DẠNG TIẾNG nói TIẾNG VIỆT

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN KHOA KHOA HỌC MÁY TÍNH  KHOÁ LUẬN TỐT NGHIỆP NGHIÊN CỨU VỀ NHẬN DẠNG TIẾNG NÓI VÀ XÂY DỰNG PHẦN MỀM DEMO NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT Giảng viên hướng dẫn : TS VŨ ĐỨC LUNG Nhóm sinh viên thực hiện: HỒNG LINH – NGUYỄN HỮU NHẬT Lớp : CNTN02 Khoá : 2007-2011 TP Hồ Chí Minh, tháng 07 năm 2011 MỞ ĐẦU Tiếng nói phương tiện giao tiếp người, sử dụng lời nói cách diễn đạt đơn giản hiệu Đã từ lâu, người mơ ước đến hệ thống máy điều khiển tự động giao tiếp tiếng nói tự nhiên người Ngày nay, với phát triển khoa học kỹ thuật công nghệ, đặc biệt lĩnh vực tin học Các hệ thống máy tự động dần thay người nhiều công việc Nhu cầu giao tiếp với thiết bị máy tiếng nói cần thiết, phương thức giao tiếp văn minh tự nhiên Vấn đề nghiên cứu phương pháp nhận dạng tiếng nói thu hút nhiều đầu tư nghiên cứu nhà khoa học khắp giới Ý tưởng xây dựng hệ thống nhận dạng tiếng nói có từ năm 50 kỷ 20 đến đạt nhiều kết đáng kể Trên giới có nhiều hệ thống nhận dạng tiếng nói tiếng Anh ứng dụng hiệu như: Via Voice IBM, Spoken Toolkit CSLU (Central of Spoken Laguage Under-standing), Speech Recognition Engine Microsoft, Hidden Markov Model toolkit đại học Cambridge, CMU Sphinx đại học Carnegie Mellon,… ra, số hệ thống nhận dạng tiến nói tiếng Pháp, Đức, Trung Quốc, phát triển Đối với nước ta, nhận dạng tiếng nói lĩnh vực mẻ Đến có nhiều nghiên cứu nhận dạng tiếng nói tiếng Việt đạt số thành tựu, nhìn chung chưa đạt kết cần thiết để tạo sản phẩm mang tính ứng dụng cao Khóa luận nghiên cứu thử ý tưởng phương pháp sử dụng nhận dạng tiếng nói xây dựng chương trình demo nhận dạng tiếng nói tiếng Việt sử dụng mơ hình Markov ẩn dựa tảng CMUSphinx4 đại học Carnegie Mellon Trong thời gian hạn chế với mức độ phức tạp vấn đề nhận dạng tiếng nói tiếng Việt, khóa luận bước nghiên cứu ban đầu cho nhận dạng tiếng nói tiếng Việt, hệ thống nhận dạng tiếng nói tiếng Việt khơng thể dừng từ vừng nhỏ Tuy nhiên đề tài hồn tồn có khả mở rộng với việc triển khai áp dụng mô hình cho từ vựng lớn hơn, liệu huấn luyện tốt để đạt đến hệ thống nhận dạng tiếng nói giải vấn đề nhận dạng tiếng nói tiếng Việt Khóa luận bao gồm chương với nội dung sau: Chương 1: Tổng quan tiếng nói nhận dạng tiếng nói Trong giới thiệu sơ i lược nguồn gốc tiếng nói, khái niệm hướng nghiên cứu nhận dạng tiếng nói Chương 2: Trình bày số kiến thức xử lý tiếng nói, bao gồm sở xử lý tín hiệu số, biểu diễn tiếng nói ảnh phổ phương pháp rút trích đặc trưng tiếng nói phương pháp MFCC (Mel-scale Frequency Cepstral Coefficient) LPC (Linear Predictive Coding) Chương 3: Tiếp cận phương pháp nhận dạng tiếng nói dựa mơ hình Markov ẩn bao gồm khái niệm, sử dụng thực tế số hạn chế Bên cạnh đề cập đến mơ hình quan trọng xây dựng nên ngôn ngữ cho hệ thống nhận dạng mô hình âm học mơ hình ngơn ngữ Chương 4: Giới thiệu công cụ hỗ trợ nghiên cứu nhận dạng tiếng nói CMU Sphinx4 đại học Carnegie Mellon, thành phần kiến trúc để có nhìn tổng quan hệ thống nhận dạng tiếng nói, đồng thời hỗ trợ cho việc xây dựng chương trình demo nhận dạng tiếng nói Chương 5: Thực chương trình demo nhận dạng tiếng nói tiếng Việt sử dụng cơng cụ Sphinx, mơ tả q trình xây dựng mơ hình ngơn ngữ huấn luyện mơ hình âm học cho chương trình nhận dạng Phụ lục: Bảng phiên âm phiên âm tiếng Việt mức âm vị theo dạng ASCII dựa bảng mẫu tự phiên âm quốc tế IPA (International Phonetic Alphabet) sử dụng chương trình ii LỜI CẢM ƠN Đầu tiên, chúng em xin bày tỏ lòng biết ơn chân thành đến thầy Vũ Đức Lung, người tận tình hướng dẫn, tạo điều kiện thuận lợi để chúng em hồn thành tốt khóa luận tốt nghiệp Thầy định hướng cho chúng em từ cách đặt vấn đề, phương pháp nghiên cứu khoa học, công việc cụ thể Chúng em biết ơn dạy dỗ giúp đỡ tận tình tất q thầy trường Đại học Cơng Nghệ Thơng Tin, đặc biệt q thầy khoa Khoa Học Máy Tính Tất kiến thức mà nhà trường q thầy truyền đạt hành trang to lớn chúng em đường học tập, làm việc nghiên cứu sau Cuối xin gửi lời cảm ơn sâu sắc đến gia đình, anh chị, bạn bè, người sát cánh động viên chúng em bước đường học tập sống Chúng em xin tri ơn tất Thành phố Hồ Chí Minh, tháng 07 năm 2011 Nhóm sinh viên: Hồng Linh - Nguyễn Hữu Nhật iii NHẬN XÉT (Của giảng viên hướng dẫn) ……………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… ………………………… iv NHẬN XÉT (Của giảng viên phản biện) ……………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… ………………………… v MỤC LỤC MỞ ĐẦU I LỜI CẢM ƠN III NHẬN XÉT IV MỤC LỤC VI DANH MỤC CÁC BẢNG X DANH MỤC CÁC HÌNH XI CHƯƠNG 1:TỔNG QUAN 1.1.SƠ LƯỢC VỀ TIẾNG NÓI: 1.1.1Nguồn gốc tiếng nói: 1.1.2.Cơ chế phát âm cảm nhận âm người: 1.1.2.1.Cơ quan phát âm: 1.1.2.2.Cơ quan thính giác người: 1.1.3.Quá trình phát sinh hiểu tiếng nói Các thành phần tương ứng máy tính: 1.2.TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI: 1.2.1.Phân loại nhận dạng tiếng nói: 1.2.1.1.Nhận dạng từ liên tục nhận dạng từ tách biệt: 1.2.1.2.Nhận dạng phụ thuộc người nói độc lập người nói: 1.2.2.Các hướng nghiên cứu: 1.2.2.1.Hướng ngữ âm học: 1.2.2.2.Hướng kết hợp mẫu: 1.2.2.3.Hướng thông minh nhân tạo: 1.2.3.Hệ thống nhận dạng tiếng nói tự động: 1.2.4.Bộ máy nhận dạng tiếng nói : CHƯƠNG 2:XỬ LÝ TIẾNG NÓI 11 2.1.CƠ SỞ XỬ LÝ TÍN HIỆU SỐ: 11 2.1.1.Các hệ thống tín hiệu số: 11 2.1.1.1.Các tín hiệu dạng sin: 11 2.1.1.2.Hệ thống số: 13 2.1.2.Phép biến đổi tần số liên tục: 13 2.1.2.1.Biến đổi Fourier: 13 2.1.2.2.Biến đổi Z: 16 2.1.2.3.Quan hệ biến đổi Fourier biến đổi Z 18 2.1.3.Phép biến đổi tần số rời rạc: 19 2.1.3.1.Biến đổi Fourier rời rạc (Discrete Fourier Transform – DFT): 19 2.1.3.2.Biến đổi Fourier nhanh: 20 2.1.3.3.Biến đổi Cosine rời rạc: 22 2.1.4.Các lọc số cửa sổ: 23 vi 2.1.4.1.Bộ lọc lý tưởng thông thấp: 23 2.1.4.2.Các phương pháp cửa sổ: 24 2.1.4.3.Bộ lọc FIR IIR: 25 2.1.5.Xác suất trình ngẫu nhiên: 26 2.1.5.1.Cơ sở xác suất: 26 2.1.5.2.Biến ngẫu nhiên: 27 2.2.BIỂU DIỄN TÍN HIỆU TIẾNG NĨI 28 2.2.1.Biến đổi Fourier thời gian ngắn: 29 2.2.2.Phân tích Fourier thời gian ngắn: 30 2.3.RÚT TRÍCH ĐẶC TRƯNG TIẾNG NĨI: 32 2.3.1.Trích đặc trưng MFCC (Mel-scale Frequency Cepstral Coefficient) : 33 2.3.1.1.Tiền nhấn (Pre-emphasis): 33 2.3.1.2.Cửa sổ hóa (Windowing): 34 2.3.1.3.Biến đổi Fourier nhanh (Fast Fourier Transform – FFT): 34 2.3.1.4.Lọc qua lọc Mel-scale : 34 2.3.1.5.Tính log lượng phổ: 35 2.3.1.6.Biến đổi Cosine rời rạc: 35 2.3.2.Phương pháp mã hóa dự báo tuyến tính LPC (Linear Predictive Coding): 36 2.3.2.1.Phân tích tự tương quan: 37 2.3.2.2.Phân tích LPC: 37 2.3.2.3.Phân tích cepstral: 38 2.3.2.4.Đặt trọng số cho hệ số cepstral: 38 CHƯƠNG 3:NHẬN DẠNG TIẾNG NÓI 40 3.1.MƠ HÌNH MARKOV ẨN: 40 3.1.1.Chuỗi Markov: 40 3.1.2.Định nghĩa mô hình Markov ẩn: 43 3.1.2.1.Lập trình động DTW: 45 3.1.2.2.Đánh giá HMM – Thuật toán tiến: 47 3.1.2.3.Giải mã HMM – Thuật toán Viterbi: 48 3.1.2.4.Ước lượng tham biến HMM – Thuật toán Baum-Welch: 49 3.1.3.Vấn đề thực tế sử dụng HMM: 52 3.1.3.1.Ước lượng ban đầu: 52 3.1.3.2.Cấu trúc liên kết mơ hình: 52 3.1.3.3.Tiêu chí huấn luyện: 53 3.1.3.4.Phép nội suy loại bỏ: 54 3.1.3.5.Tối ưu toán tử: 54 3.1.3.6.Biểu diển xác suất: 55 3.1.4.Những hạn chế HMM: 56 3.1.4.1.Mô khoảng thời gian tồn tại: 57 3.1.4.2.Giả định bậc đầu tiên: 58 3.1.4.3.Giả định độc lập có điều kiện: 59 3.2.MỘT SỐ VẤN ĐỀ TRÊN MƠ HÌNH ÂM HỌC: 59 vii 3.2.1.Lựa chọn đơn vị thích hợp cho mơ hình âm học: 60 3.2.1.1.So sánh đơn vị khác nhau: 61 3.2.1.2.Lựa chọn đơn vị huấn luyện cho tiếng Việt: 62 3.2.2.Đánh giá đặc trưng âm học: 62 3.2.2.1.Lựa chọn phân phối đầu HMM: 62 3.2.2.2.Huấn luyện tiếng nói rời rạc so với liên tục: 64 3.2.3.Phương pháp tính tốn lỗi: 67 3.3.MƠ HÌNH NGƠN NGỮ: 68 3.3.1.Lý thuyết ngơn ngữ hình thức: 68 3.3.1.1.Hệ thống cấp bậc Chomsky: 69 3.3.1.2.Phân tích cú pháp đồ thị cho ngữ pháp ngữ cảnh tự (CFG-context free grammars): 70 3.3.2.Mơ hình ngơn ngữ Stochastic: 72 3.3.2.1.Xác suất ngữ pháp ngữ cảnh tự (CFG): 73 3.3.2.2.Mơ hình ngơn ngữ n-gram: 75 3.3.3.Độ phức tạp mơ hình ngơn ngữ: 76 CHƯƠNG 4:CÔNG CỤ HỖ TRỢ NHẬN DẠNG TIẾNG NÓI PHINX4 77 4.1.GIỚI THIỆU VỀ SPHINX4 FRAMEWORK: 77 4.2.KIẾN TRÚC SPHINX4: 78 4.2.1.Bộ ngoại vi - FrontEnd: 79 4.2.2.Bộ ngôn ngữ - Linguist: 81 4.2.2.1.Mơ hình ngơn ngữ: 81 4.2.2.2.Từ điển: 82 4.2.2.3.Mơ hình âm học: 82 4.2.2.4.Đồ thị tìm kiếm - SearchGraph: 83 4.2.3.Bộ giải mã - Decoder: 85 4.3.QUẢN LÝ CẤU HÌNH SPHINX: 86 CHƯƠNG 5:XÂY DỰNG CHƯƠNG TRÌNH DEMO NHẬN DẠNG TIẾNG NĨI 88 5.1.XÂY DỰNG BỘ NGÔN NGỮ CHO CHƯƠNG TRÌNH NHẬN DẠNG: 89 5.1.1.Xây dựng từ điển: 89 5.1.2.Xây dựng mơ hình ngơn ngữ thống kê sử dụng CMUclmtk: 90 5.1.2.1.Chuẩn bị tập tin văn dùng để phát sinh mơ hình ngơn ngữ: 90 5.1.2.2.Phát sinh từ vựng: 91 5.1.2.3.Phát sinh mơ hình ngôn ngữ theo định dạng arpa: 91 5.1.3.Xây dựng mơ hình âm học: 92 5.1.3.1.Chuẩn bị liệu: 93 5.1.3.2.Cấu hình huấn luyện: 94 5.1.3.3.Thực thi huấn luyện: 95 5.2.KẾT QUẢ HUẤN LUYỆN: 96 viii KẾT LUẬN 98 PHỤ LỤC 99 TÀI LIỆU THAM KHẢO 104 ix NHẬN DẠNG TIẾNG NÓI GVHD: TS VŨ ĐỨC LUNG CHỦ NHẬT NGÀY MỘT THÁNG GIÊNG MƯỜI HAI GIỜ HAI MƯƠI BA PHÚT Để đảm bảo công cụ CMUclmk xử lý tốt tập tin này, ký tự không thuộc ASCII chuyển thành mã hexa sau: TH/1EE8/ S/C1/U NG/C0/Y M/1AF//1EDC/I BA CH/1EE6/ NH/1EAC/T NG/C0/Y M/1ED8/T TH/C1/NG GI/CA/NG M/1AF//1EDC/I HAI GI/1EDC/ HAI M/1AF//1A0/I BA PH/DA/T 5.1.2.2 Phát sinh từ vựng: Bộ từ vựng tập tin vocab, chứa tất từ tiếng tập tin văn Nó tạo CMUclmk dùng để tạo mơ hình ngơn ngữ Tạo từ vựng lệnh: text2wfreq < DateNum.txt > DateNum.wfreq wfreq2vocab < DateNum.wfreq > DateNum.vocab Ta thu tập tin DateNum.wfreq chứa danh sách tất từ (tiếng) kèm theo số lần xuất văn Tập tin từ vựng DateNum.vocab chứa tất từ văn xếp theo thứ tự alphabet DateNum.wfreq: BA NGH/cc/N TRI/1ec6/U DateNum.vocab: B/1ea2/Y B/1ed0/N BA 5.1.2.3 Phát sinh mơ hình ngơn ngữ theo định dạng arpa: Sử dụng lệnh sau: text2idngram DateNum.txt -vocab DateNum.vocab -idngram DateNum.idngram < idngram2lm -vocab_type -idngram DateNum.idngram -vocab DateNum.vocab -arpa DateNum.arpa Định dạng ARPA (hay Doug Paul) cho mơ hình N-gram backoff có cấu trúc sau: \data\ NHĨM SVTH: HỒNG LINH – NGUYỄN HỮU NHẬT Trang 91 NHẬN DẠNG TIẾNG NÓI GVHD: TS VŨ ĐỨC LUNG ngram 1=n1 ngram 2=n2 ngram N=nN \1-grams: p w \2-grams: p w1 w2 [bow] [bow] \N-grams: p w1 wN \end\ Tập tin có phần mở đầu với từ khóa \data\, liệt kê số lượng N-gram Sau N-gram liệt kê dòng, nhóm lại thành phần theo chiều dài Mỗi phần bắt đầu với từ khóa \N-gram; N chiều dài 1, 2, … Mỗi dòng N-gram bắt đầu với logarit (cơ số 10) điều kiện xác suất p N-gram đó, theo sau từ w1, w2, … wN tạo nên N-gram Từ khóa \end\ kết thúc biểu diễn mơ hình Có thể chuyển tập tin thành dạng nhị phân mà Sphinx sử dụng công cụ sphinxbase sau: sphinx_lm_convert -i DateNum.arpa -o DateNum.lm.DMP 5.1.3 Xây dựng mơ hình âm học: Mơ hình âm học bao gồm biểu diễn thống kê âm riêng biệt tạo nên từ mơ hình ngơn ngữ hay ngữ pháp Mỗi âm riêng biệt tướng ứng với âm vị Phần trình bày q trình huấn luyện mơ hình âm học sử dụng cơng cụ SphinxTrain Để huấn luyện mơ hình âm học cho CMUSphinx, ta cần cài đặt gói: sphinxbase, SphinxTrain pocketsphinx Ngồi gói thư viện: perl libsndfile NHĨM SVTH: HỒNG LINH – NGUYỄN HỮU NHẬT Trang 92 NHẬN DẠNG TIẾNG NÓI GVHD: TS VŨ ĐỨC LUNG 5.1.3.1 Chuẩn bị liệu: Dữ liệu âm thanh: Dùng chương trình ghi âm để ghi âm câu nói sử dụng từ (tiếng) cần huấn luyện Âm ghi vào với thông số sau: - Default Sample Rate Format : 16000Hz - Default Sample Format : 16-bit - Channels : 1(Mono) - File Format : wav, raw sph Cấu trúc thư mục huấn luyện: etc your_db.dic your_db.phone your_db.lm.DMP your_db.fillers your_db_train.fileids your_db_train.transcription your_db_test.fileids your_db_test.transcription wav train speaker_1 file_1.wav test speaker_1 file_1.wav Định dạng tập tin: Tập tin fileids tập tin liệt kê đường dẫn đến tập tin ghi âm dòng: speaker_1/file_1 speaker_2/file_2 NHĨM SVTH: HỒNG LINH – NGUYỄN HỮU NHẬT Trang 93 NHẬN DẠNG TIẾNG NÓI GVHD: TS VŨ ĐỨC LUNG Tập tin transcription liệt kê ghi âm kèm theo tên tập tin âm tương ứng dòng Các câu bao thẻ : M/1AF//1EDC/I B/1EA2/Y TRI/1EC6/U T/1EC8/ (file_1) T/C1/M V/1EA0/N B/1ED0/N NGH/CC/N T/1EC8/ (file_2) Tập tin filler gồm ký tự âm tố nhiễu, âm thanh: SIL SIL SIL Tập tin dic tập tin từ điển chuẩn bị từ đầu, tập tin phone liệt kê ký tự phiên âm tập tin lm.DMP mô hình ngơn ngữ thống kê xây dựng từ trước 5.1.3.2 Cấu hình huấn luyện: Để bắt đầu trình huấn luyện, sử dụng lệnh SphinxTrain pocketsphinx để cấu hình thư mục huấn luyện: /SphinxTrain/scripts_pl/setup_SphinxTrain.pl -task DateNum /pocketsphinx/scripts/setup_sphinx.pl -task DateNum Với DateNum tên thư mục huấn luyện Lệnh chép phần cần thiết lên thư mục huấn luyện: bin bwaccumdir etc feat logdir model_parameters model_architecture python scripts_pl wav LICENSE README Điều chỉnh tham số: Thơng tin cấu hình nằm tập tin sphinx_train.cfg Sau số cấu hình quan trọng: - Cấu hình để huấn luyện tập tin âm định dạng wav: NHĨM SVTH: HỒNG LINH – NGUYỄN HỮU NHẬT Trang 94 NHẬN DẠNG TIẾNG NÓI GVHD: TS VŨ ĐỨC LUNG $CFG_WAVFILES_DIR = "$CFG_BASE_DIR/wav"; $CFG_WAVFILE_EXTENSION = 'wav'; $CFG_WAVFILE_TYPE = 'mswav'; - Điều chỉnh loại mơ hình (huấn luyện HMM liên tục, bán liên tục), bỏ dấu # trước mơ hình cần huấn luyện: $CFG_HMM_TYPE = '.cont.'; # Sphinx 4, Pocketsphinx #$CFG_HMM_TYPE = '.semi.'; # PocketSphinx #$CFG_HMM_TYPE = '.ptm.'; # PocketSphinx (larger data sets) - Cấu hình tham số mật độ CFG nhận giá trị 4, 8, 16, 32, 64 tùy theo độ lớn liệu: $CFG_FINAL_NUM_DENSITIES = 8; - Cấu hình số lượng senone để huấn luyện mơ hình Số lượng senone lớn, sphinx phân biệt âm xác Nhưng mặt khác, bạn có nhiều senone, mơ hình khơng tổng qt đủ để nhận dạng tiếng nói vơ hình Nghĩa số từ lỗi tăng cao liệu chưa huấn luyện Đó lý quan trọng để khơng nên huấn luyện q mức mơ hình Trong trường hợp có q nhiều senone vơ hình phát sinh cảnh báo lỗi # Number of tied states (senones) to create in decision-tree clustering $CFG_N_TIED_STATES = 200; Theo nghiên cứu nhóm CMUSphinx cấu hình dựa theo bảng sau: Kích thước Số từ vựng huấn luyện Senones Densities Ví dụ 20 200 Mơ hình nhận dạng số 100 20 2000 Mơ hình lệnh điều khiển 5000 30 4000 16 Mơ hình đọc tả 5000 từ 20000 80 4000 32 Mơ hình đọc tả 20000 từ 60000 200 6000 16 Mơ hình HUB 60000 2000 12000 64 Mơ hình Fisher Rich Telephone Transcription Bảng 5.1 Thơng số cấu hình 5.1.3.3 Thực thi huấn luyện: Tạo vector đặc trưng: Hệ thống không làm việc trực tiếp với tín hiệu âm Trước tiên, tín hiệu chuyển thành chuỗi vector đặc trưng, dùng thay cho tín NHĨM SVTH: HOÀNG LINH – NGUYỄN HỮU NHẬT Trang 95 NHẬN DẠNG TIẾNG NÓI GVHD: TS VŨ ĐỨC LUNG hiệu âm thực Để thực thi biến đổi (hay tham số hóa) này, thư mục huấn luyện, thực thi lệnh sau: /scripts_pl/make_feats -ctl etc/an4_train.fileids /scripts_pl/make_feats -ctl etc/an4_test.fileids Tập tin kịch tính tốn chuỗi vector 13 hướng (các vector đặc trưng) cho cách nói, bao gồm Mel-frequency cepstral coefficients (MFCCs) Các tập tin chứa đường dẫn tuyệt đối tới tập tin âm Các MFCC tự động đặt vào thư mục /feat Huấn luyện: Sử dùng lệnh /scripts_pl/RunAll.pl Lệnh duyệt qua phần yêu cầu Quá trình huấn luyện xuất thông báo dạng sau: Baum welch starting for Gaussian(s), iteration: (1 of 1) 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Normalization for iteration: Current Overall Likelihood Per Frame = 30.6558644286942 Convergence Ratio = 0.633864444461992 Baum welch starting for Gaussian(s), iteration: (1 of 1) 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Normalization for iteration: 5.2 KẾT QUẢ HUẤN LUYỆN: Chương trình demo xây dựng hệ thống với thông số sau: - Máy Laptop intel core dual, 2.6 GHz, 2GB ram - Hệ điều hành Linux XP - Card âm onboard - Micro dùng để thu nhận dạng dạng micro kèm headphone - Tiếng nói thu với tần số lấy mẫu 16000Hz, kích thước mẫu 16bit Hiện khóa luận xây dựng chương trình demo nhận dạng tiếng Việt gồm 32 tiếng chữ số ngày tháng gồm: NHĨM SVTH: HỒNG LINH – NGUYỄN HỮU NHẬT Trang 96 NHẬN DẠNG TIẾNG NÓI GVHD: TS VŨ ĐỨC LUNG - Khoảng 700 câu nói ngày, số để xây dựng mơ hình ngơn ngữ unigram, bigram trigram - Dữ liệu ghi âm khoảng 2000 câu nói ghi thành viên nhóm, cố gắng thể cách nói, độ nhanh chậm âm lượng khác - Tổng thời gian ghi âm giờ, theo tiêu chuẩn CMUSphinx đưa - Dữ liệu kiểm tra khoảng 300 câu nói Kết thử nghiệm mơi trường bình thường với mơ hình ngơn ngữ sau: Nhận dạng với mơ hình ngơn ngữ phẳng (khơng tính xác suất):  Số lượng câu 98/300 Độ xác câu 32,667%  Số lượng tiếng 3650/3756 Tỷ lệ lỗi 7,774%  Độ xác 97,178% Nhận dạng với mơ hình ngơn ngữ unigram:  Số lượng câu 150/300 Độ xác câu 50,000%  Số lượng tiếng 3651/3756 Tỷ lệ lỗi 4,526%  Độ xác 97,204% Nhận dạng với mơ hình ngơn ngữ bigram:  Số lượng câu 189/300 Độ xác câu 63%  Số lượng tiếng 3682/3756 Tỷ lệ lỗi 4,526%  Độ xác 98,030% Nhận dạng với mơ hình ngơn ngữ trigram:  Số lượng câu 250/300 Độ xác câu 83,333%  Số lượng tiếng 3665/3756 Tỷ lệ lỗi 4,526%  Độ xác 97,577% Như thấy kết nhận dạng câu thấp, độ xác đạt khoảng 32% đến 83%, mơ hình trigram cho kết nhận dạng câu tốt Tuy nhiên kết nhận dạng tiếng cao, 97% NHĨM SVTH: HỒNG LINH – NGUYỄN HỮU NHẬT Trang 97 NHẬN DẠNG TIẾNG NÓI GVHD: TS VŨ ĐỨC LUNG KẾT LUẬN KẾT QUẢ ĐẠT ĐƯỢC: Qua trình nghiên cứu phương pháp nhận dạng tiếng nói xây dựng chương trình demo nhận dạng tiếng Việt, khóa luận làm số cơng việc sau: - Nghiên cứu tiếng nói, phương pháp xử lý tiếng nói, rút trích đặc trưng - Nghiên cứu thực huấn luyện mơ hình âm học theo âm vị, áp dụng cho tiếng Việt - Nghiên cứu phương pháp xây dựng mơ hình ngơn ngữ thống kê nhận dạng tiếng nói - Nghiên cức kiến trúc hệ thống nhận dạng tiếng nói qua công cụ CMUSphinx - Xây dựng chương trình demo nhận dạng tiếng nói tiếng Việt liên tục Do nhóm bắt đầu nghiên cứu trễ chưa có nhiều kiến thức xử lý tín hiệu số xử lý tiếng nói nên khóa luận khơng tránh khỏi nhiều thiếu sót Tuy nhiên, với số kết đạt hy vọng khóa luận góp phần nhỏ vào việc nghiên cứu nhận dạng tiếng nói tiếng Việt HƯỚNG PHÁT TRIỂN: Do thời gian ngắn người nên việc thu âm xử lý liệu chưa phong phú nên kết chưa tốt Việc khắc phục cách thu nhiều mẫu huy động thêm người tình nguyện để thu âm Có thể xem xét tận dụng nguồn âm tiếng nói radio, internet để làm phong phú thêm liệu huấn luyện Ngoài cần phát triển thêm phần sau: -Khảo sát thêm đặc điểm ngữ âm tiếng Việt quan sát ảnh phổ để tìm đặc trưng ảnh hưởng đến điệu, cải thiện việc nhận dạng điệu -Cải tiến phương pháp tách từ câu để có kết nhận dạng tốt -Tìm hiểu thêm mơ hình ngơn ngữ thuật tốn tìm kiếm nhận dạng tiếng nói để tăng tốc độ nhận dạng NHĨM SVTH: HỒNG LINH – NGUYỄN HỮU NHẬT Trang 98 NHẬN DẠNG TIẾNG NÓI GVHD: TS VŨ ĐỨC LUNG PHỤ LỤC BẢNG PHIÊN ÂM TIẾNG VIỆT DƯỚI DẠNG MÃ ASCII Âm vị STT Chữ IPA Ví dụ Mơ tả ASCII Âm đầu b b b ba phụ âm tắc, hai môi, hữu thanh, không bật hơi, xuất âm tiết khơng có âm đệm d dd đ đẩy phụ âm tắc, đầu lưỡi lợi, hữu thanh, không bật t t t tùng phụ âm tắc, đầu lưỡi răng, vô thanh, không bật t’ th th thích phụ âm tắc, vơ thanh, bật hơi, đầu lưỡi ɟ tr tr trăng phụ âm tắc, đầu lưỡi vòm miệng, vơ thanh, không bật c ch ch phụ âm tắc, vô thanh, mặt lưỡi, không bật k k k (trước i, e, ê) keo c (trước u, ư, a, o, ) cảnh phụ âm tắc, vô thanh, gốc lưỡi, không bật q (trước u) quậy m m m mềm phụ âm vang mũi, hai môi, xuất âm tiết khơng có âm đệm n n n nóng phụ âm vang mũi, đầu lưỡi lợi 10 ɲ nh nh nhà phụ âm vang mũi, mặt lưỡi 11 ɳ ng ng (trước u, ư, o, ô, ơ, a, ă, â) ngủ phụ âm vang mũi, gốc lưỡi ngh (trước i, e, ê) nghỉ ph phê 12 f f NHĨM SVTH: HỒNG LINH – NGUYỄN HỮU NHẬT phụ âm xát, vô thanh, môi răng, Trang 99 NHẬN DẠNG TIẾNG NÓI GVHD: TS VŨ ĐỨC LUNG xuất âm tiết khơng có âm đệm 13 v v v vội phụ âm xá, hữu thanh, môi răng, xuất âm tiết khơng có âm đệm 14 s x x xa phụ âm xát, vô thanh, đầu lưỡi lợi 15 z d d dễ gi giỏi g (trước i) phụ âm xát, hữu thanh, đầu lưỡi lợi 16 l l l phụ âm vang bên, đầu lưỡi 17 ş s s sơn phụ âm xát, vơ thanh, dầu lưỡi vòm miệng, uốn lưỡi 18 ʐ r r rằm phụ âm xát, hữu thanh, đầu lưỡi vòng miệng, uốn lưỡi 19 χ kh kh phụ âm xát, vô thanh, gốc lưỡi 20 ɣ g g (trước u, ư, o, ô, ơ, a, ă, â) găm gh (trước i, e, ê) ghế phụ âm xát cuối lưỡi, hữu 21 h h h hòa Phụ âm xát, vô thanh, họng 22 p p p pi phụ âm tắc, hai môi, Âm đệm 23 w w o (trước nguyên âm rộng a, ă, e) hoa u (còn lại) hủy có cấu tạo giống ngun âm /u/, có độ mở hẹp, phát âm cực trầm, tròn mơi, thuộc hàng sau Âm 24 i i y (đứng sau u) suy i (còn lại) tính ngun âm đơn dài, hàng trước, hẹp, khơng tròn mơi, có tính bổng, trước /k, ŋ/ bị rút ngắn 25 e ee ê chê nguyên âm đơn, dài, hàng trước, hẹp, khơng mơi, có tính chất bổng, trước /k, ŋ/ bị rút ngắn 26 ε e e chè nguyên âm đơn, dài, hàng trước, rộng, khơng tròn mơi, có tính chất bổng 27 εˇ ea a (trước ch, nh) sách nguyên âm đơn, ngắn Gần NHÓM SVTH: HOÀNG LINH – NGUYỄN HỮU NHẬT Trang 100 NHẬN DẠNG TIẾNG NÓI GVHD: TS VŨ ĐỨC LUNG thể ngắn /ε/ 28 u u u sung nguyên âm đơn, dài, hàng sau, hẹp, tròn mơi, có âm sắc trầm Đứng trước /k, ŋ/ bị rút ngắn 29 o oo ô cô nguyên âm đơn, dài, hàng sau, hẹp, tròn mơi, có âm sắc trầm Thể dài khơng đứng trước /k, ŋ/ 30 ɔ o o nguyên âm đơn, dài, hàng sau, rộng, tròn mơi, có âm sắc trầm Thể dài không đứng trước /k, ŋ/ 31 ɔˇ oa o (trước c, ng) cọc nguyên âm đơn, ngắn 32 ɯ uw từ nguyên âm đơn, dài, hàng sau, hẹp, khơng tròn mơi, âm sắc trầm vừa 33 ɤ ow tơ nguyên âm đơn, dài, hàng sau, hẹp, khơng tròn mơi, có âm sắc trầm vừa 34 ɤˇ aa â ấm nguyên âm đơn, ngắn, hàng sau, hẹp, khơng tròn mơi, có âm sắc trầm vừa Xuất âm tiết trừ âm tiết mở 35 a a a tan nguyên âm đơn, dài, hàng sau, rộng, khơng tròn mơi, có âm sắc trầm vừa xuất tất âm tiết 36 ă aw ă chặn a (trước u, y) tay nguyên âm đơn, ngắn, hàng sau, rộng, không tròn mơi, có âm sắc trầm vừa xuất tất âm tiết trừ âm tiết mở ia bia 37 ie ie ya (khi trước có khuya âm đệm) iê (khi trước khơng có âm đệm sau có âm cuối) tiền (khi trước có u NHĨM SVTH: HỒNG LINH – NGUYỄN HỮU NHẬT ngun âm đơi yếu dàn, hàng trước, khơng tròn mơi, yếu tố sau ngun âm hàng trước, hẹp, khơng tròn mơi Trang 101 NHẬN DẠNG TIẾNG NÓI GVHD: TS VŨ ĐỨC LUNG âm đệm sau có âm cuối bán nguyên âm 38 39 uo ɯɤ uo wa ua (khi khơng có âm cuối) chua (khi só âm cuối) ưa (khi khơng có âm cuối) trưa ươ (khi có âm cuối) lười ngun âm đơi yếu dần, hàng sau, tròn mơi, yếu tố đầu ngun âm hàng sau, hẹp, khơng tròn mơi ngun âm đơi yếu dần, hàng sau, khơng tròn mơi, yếu tố đầu ngun âm hàng sau, hẹp, khơng tròn mơi Yếu tố sau ngun âm hàng sau, hẹp, khơng tròn môi Âm cuối 40 p pc p mập phụ âm cuối, 41 t tc t chật phụ âm cuối, 42 m mz m câm phụ âm cuối vang, mũi, môi 43 n nz n nản phụ âm cuối vang, mũi, đầu luỡi 44 k kc ch (đứng sau i, e, ê, a) phụ âm cuối ồn, mặt lưỡi c (trường hợp lại) cục nh (đứng sau i, e, ê, a) vành ng (trường hợp lại) vàng o (đứng sau e, a) leo u (trường hợp lại) cứu y (đứng sau nguyên âm ngắn a, â) bay i (trường hợp lại) cài 45 46 47 ŋ -w -j ngz uz iz Tên điệu Ngang Sắc NHĨM SVTH: HỒNG LINH – NGUYỄN HỮU NHẬT phụ âm cuối vang, mũi, mặt lưỡi bán nguyên âm cuối vang, môi bán nguyên âm cuối vang, lợi Huyền Hỏi Ngã Nặng Trang 102 NHẬN DẠNG TIẾNG NÓI Ký hiệu số GVHD: TS VŨ ĐỨC LUNG NHÓM SVTH: HOÀNG LINH – NGUYỄN HỮU NHẬT Trang 103 NHẬN DẠNG TIẾNG NÓI GVHD: TS VŨ ĐỨC LUNG TÀI LIỆU THAM KHẢO  TIẾNG VIỆT: [1] Phương pháp phân tích xử lý nhận dạng tiếng nói, GSTS Quách Tuấn Ngọc, Phạm Xuân Trường, lớp cao học CNTT, 1998 [2] Hệ thống nhận dạng tiếng nói, Phan Nguyễn Phục Quốc, Hà Thúc Phùng, Luận văn tốt nghiệp, Đại học Bách Khoa TPHCM, 2009 [3] Bài giảng xử lý tiếng nói, Cao Quyết Thắng, Khoa cơng nghệ thông tin, trường đại học Hàng Hải Việt Nam [4] Xử lý tín hiệu số, Ths Đặng Hồi Bắc, Học viện bưu viễn thơng, 2006 [5] Mơ hình phiên âm tiếng Việt mức âm vị, Đặng Ngọc Đức, Nguyễn tiến Dũng, Lương Chi Mai, Institute of Information Technology, Vietnamese Academy of Science and Technology [6] Nghiên cứu đặc trưng tiếng Việt áp dụng vào nhận dạng tiếng nói tiếng Việt, Ths Thái Hùng Văn, Đỗ Xuân Đạt, Võ Văn Tuấn, đại học KHTN, 2003 [7] Tài liệu tham khảo xử lý tiếng nói, Lê Bá Dũng, ĐH Hàng Hải [8] Nhận dạng lời nói liên tục với từ vựng lớn, GSTS Quách Tuấn Ngọc, Mai Công Nguyên, 1998  TIẾNG ANH: [1] Spoken language Processing, Dr Roj Reddy, Xuedong Huang, Alex Acero, Hsiaowuen Hon, Carnegie Mellon University, 2001 [2] Fundamentals of speech recognition, Lawrence Rabiner, Biing-Hwang Juang [3] Fundamentals of speech recognition: a short course, Dr.Joseph Picone, 1996 [4] SphinxWhitepaper, Willie Walker, Paul Lamere, Philip Kwok, Bhiksha Raj, Rita Singh, Evrando Gouvea, Peter Wolf, Joe Woelfel, Sun Microsystem, 2004 [5] Digital signal processing, John G Proakis, Dimitris G.Manolakis, Prentice-Hall Inc, 1996  Internet: [1] Website http://ngonngu.net/ NHĨM SVTH: HỒNG LINH – NGUYỄN HỮU NHẬT Trang 104 NHẬN DẠNG TIẾNG NÓI GVHD: TS VŨ ĐỨC LUNG [2] CMUSPhinx website http://cmusphinx.sourceforge.net/wiki/ [3] VoxForge website http://voxforge.org/ [4] Website http://www-speech.sri.com/ NHĨM SVTH: HỒNG LINH – NGUYỄN HỮU NHẬT Trang 105 ... với mức độ phức tạp vấn đề nhận dạng tiếng nói tiếng Việt, khóa luận bước nghiên cứu ban đầu cho nhận dạng tiếng nói tiếng Việt, hệ thống nhận dạng tiếng nói tiếng Việt khơng thể dừng từ vừng... tổng quan hệ thống nhận dạng tiếng nói, đồng thời hỗ trợ cho việc xây dựng chương trình demo nhận dạng tiếng nói Chương 5: Thực chương trình demo nhận dạng tiếng nói tiếng Việt sử dụng cơng cụ... để đạt đến hệ thống nhận dạng tiếng nói giải vấn đề nhận dạng tiếng nói tiếng Việt Khóa luận bao gồm chương với nội dung sau: Chương 1: Tổng quan tiếng nói nhận dạng tiếng nói Trong giới thiệu

Định dạng
Số trang	118
Dung lượng	8,85 MB