BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG - - LÊ NGỌC HUY ỨNG DỤNG HTK TOOLKIT XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI RỜI RẠC VỚI BỘ TỪ VỰNG HỮU HẠN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Đà Nẵng - Năm 2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG - - LÊ NGỌC HUY ỨNG DỤNG HTK TOOLKIT XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI RỜI RẠC VỚI BỘ TỪ VỰNG HỮU HẠN Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60480101 LUẬN VĂN THẠC SĨ Người hướng dẫn khoa học: TS.Ninh Khánh Duy Đà Nẵng - Năm 2018 i LỜI CAM ĐOAN Tôi xin cam đoan luận văn nghiên cứu hướng dẫn khoa học TS.Ninh Khánh Duy Các kết phần kết luận hoàn toàn trung thực thân thực nghiên cứu, so sánh đánh giá Các nguồn tài liệu tham khảo nước trích dẫn đầy đủ, phù hợp với quy định hành Bộ Giáo dục Đào tạo, Trường Đại học Bách khoa Đà Nẵng Người cam đoan Lê Ngọc Huy ii LỜI CẢM ƠN Lời đầu tiên, em xin chân thành cảm ơn Quý thầy, cô Trường Đại học Bách khoa Đà Nẵng Khoa Công nghệ tin thời gian qua tận tình hướng dẫn, truyền đạt kiến thức để em hiểu, nghiến cứu sâu lĩnh vực công nghệ thông tin, đặc biệt lĩnh vực ứng dụng Cảm ơn thầy - TS.Ninh Khách Duy dành nhiều thời gian, công sức để hướng dẫn em tìm hiểu sâu mơn học xử lý tiếng nói thực nghiên cứu thực nghiệm xử lý tiếng nói rời rạc để hồn chỉnh luận văn định hướng nghiên cứu ứng dụng sau Xin cảm ơn gia đình, bạn bè khóa tạo điều kiện thời gian, trao dồi kiến thức toàn quãng thời gian học tập nghiêu cứu luận văn Kính chúc Quý thầy cô nhiều sức khỏe, hạnh phúc, tiếp tục gặt hái nhiều thành công đường nghiêu cứu, giảng dạy Kính chúc gia đình, bạn bè thực thành công nhiều ước mơ tươi đẹp sống Người thực luận văn Lê Ngọc Huy iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii TÓM TẮT LUẬN VĂN vii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT viii DANH MỤC BẢNG ix DANH MỤC HÌNH VẼ x MỞ ĐẦU 1 Lý chọn đề tài Mục đích ý nghĩa đề tài 2.1 Mục đích 2.2 Ý nghĩa khoa học thực tiễn đề tài Mục tiêu nhiệm vụ 3.1 Mục tiêu 3.2 Nhiệm vụ Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu 5.1 Phương pháp lý thuyết 5.2 Phương pháp thực nghiệm Kết luận 6.1 Kết đề tài iv 6.2 Hướng phát triển đề tài Cấu trúc luận văn Chương I CƠ SỞ LÝ THUYẾT CỦA XỬ LÝ TIẾNG NÓI 1.1 Tổng quan xử lý tiếng nói 1.1.1 Các lĩnh vực xử lý tín hiệu tiếng nói 1.1.2 Phân loại kỹ thuật nhận dạng tiếng nói 1.2 Tín hiệu tiếng nói 1.2.1 Đặc điểm 1.2.2 Tiếng nói tiếng Việt 1.2.3 Các đặc tính tín hiệu tiếng nói 11 1.3 Phân tích phổ ngắn hạn tín hiệu tiếng nói – đặc trưng MFCC 13 1.3.1 Tiền nhấn mạnh 14 1.3.2 Phân khung tín hiệu 15 1.3.3 Lấy cửa sổ tín hiệu 15 1.3.4 Biến đổi Fourier nhanh 16 1.3.5 Bộ lọc thang tần số Mel 17 1.3.6 Tính lượng phổ Mel 18 1.3.7 Biến đổi Cosine rời rạc 19 1.4 Rút trích đặc trưng lượng khung tín hiệu 19 Chương 2: MƠ HÌNH MARKOV ẨN VÀ ỨNG DỤNG TRONG NHẬN DẠNG TIẾNG NÓI 20 2.1 Tổng quan mơ hình Markov ẩn HMM 20 2.1.1 Chuỗi Markov 20 2.1.2 Mơ hình HMM 21 2.2 Các thành phần HMM 22 v 2.2.1 Các thành phần 22 2.2.2 Hàm mật độ xác suất hỗn hợp Gauss 24 2.3 Ba toán HMM 25 2.3.1 Bài toán đánh giá 25 2.3.2 Bài toán giải mã 26 2.3.3 Bài toán huấn luyện 28 2.4 Ứng dụng HMM nhận dạng tiếng nói rời rạc 29 2.4.1 Giai đoạn huấn luyện mơ hình 30 2.4.2 Giai đoạn nhận dạng 31 Chương BỘ CÔNG CỤ HTK TOOLKIT 32 3.1 Chuẩn bị liệu 33 3.2 Huấn luyện 34 3.2.1 Modules định nghĩa mơ hình HMM gắn nhãn liệu tiếng nói 35 3.2.2 Các modules phục vụ huấn luyện mơ hình 37 3.3 Các modules phục vụ nhận dạng tiếng nói 39 3.3.1 HParse 39 3.3.2 HDMan 40 3.3.3 HBuild 40 3.3.4 HVite 41 3.4 Phân tích kết nhận dạng 41 Chương 4: CÀI ĐẶT VÀ ĐÁNH GIÁ HỆ THỐNG NHẬN DẠNG 43 4.1 Xây dựng liệu huấn luyện kiểm thử hệ thống 43 4.1.1 Thu âm liệu 43 4.1.2 Đặc tính file liệu 43 4.2 Cài đặt hệ thống 43 vi 4.3 Cấu hình hệ thống nhận dạng 45 4.4 Kết thực nghiệm 45 Chương 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 47 5.1 Kết luận 47 5.2 Hướng phát triển 47 DANH MỤC TÀI LIỆU THAM KHẢO 48 vii TĨM TẮT LUẬN VĂN Tóm tắt - Luận văn thực nghiên cứu, ứng dụng công cụ HTK Toolkit để xây dựng hệ thống nhận dạng tiếng nói rời rạc với từ vựng hữu hạn nhằm bước đầu tìm hiểu cơng nghệ nhận dạng tiếng nói tiếng Việt Bên cạnh đó, luận văn cịn tìm hiểu đặc điểm tín hiệu tiếng nói tiếng Việt, mơ hình Markov ẩn, phương pháp rút trích đặc trưng tín hiệu tiếng nói MFCC, đồng thời tiến hành khảo sát tham số có khả ảnh hưởng lớn đến hiệu suất nhận dạng hệ thống gồm: số trạng thái HMM, số phân bố mơ hình hỗn hợp Gauss trạng thái Luận văn góp phần nhỏ vào lĩnh vực nghiên cứu, ứng dụng cải tiến hệ thống nhận dạng tiếng nói tiếng Việt rời rạc Từ khóa - Nhận dạng tiếng nói tự động; Cơng cụ HTK Toolkit; Mơ hình Markov ẩn Summary - This thesis is a study and application of the HTK Toolkit to build a isolated speech recognition system for Vietnamese with limited vocabulary with the aim to learn about automatic speech recognition technology Besides, the thesis also investigates the characteristics of Vietnamese speech signals, the Hidden Markov Model, the MFCC speech extraction method and the two parameters that have important effects on system performance including: the number of states of an HMM, the number of distributions in the Gauss mixture model of each state The thesis has contributed to the research, application and improvement of isolated speech recognition systems for Vietnamese Keywords - Automatic Speech Recognition (ASR); HTK Toolkit; Hidden Markov Models (HMM) viii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT ASR Automatic Speech Recognition DCT Discrete Cosine Transform DTW Dynamic Time Warping FFT Fast Fourier Transform HMM Hidden Markov Model HTK Hidden Markov Model Toolkit LPC Linear Prediction Coded MFCC Mel-Frequency Cepstral Coefficient VQ Vec tơ Quantilization WAC Word Accuracy WER Word Error Rate WRR Word Recognition Rate NN Neural Network DNN Deep Neural Network PLP Perceptual Linear Prediction GMM Gaussian Mixture Model Δ Delta 45 Hình 4.2 Các thư mục chương trình demo 4.3 Cấu hình hệ thống nhận dạng Các cấu hình cố định gồm: o Loại tham số phổ: Đặc trưng MFCC o Kích thước véc tơ tham số: 39 chiều (gồm 13 hệ số tĩnh, 13 hệ số delta, 13 hệ số delta-delta) o Ma trận phương sai: Đường chéo (giả sử chiều độc lập thống kê với nhau) o Ngữ cảnh: Không phụ thuộc ngữ cảnh (vì hệ thống nhận dạng từ phát âm rời rạc) Các cấu hình thay đổi để so sánh hiệu suất hoạt động hệ thống: o Số trạng thái HMM: Từ đến o Số phân bố Gauss mơ hình hỗn hợp Gauss cho trạng thái HMM: Từ đến Việc thay đổi tham số liên quan đến độ phức tạp mơ hình HMM: Số trạng thái HMM số phân bố Gauss tăng mơ hình phức tạp (càng có nhiều tham số) 4.4 Kết thực nghiệm Bảng 4.1 thể hiệu suất nhận dạng hệ thống thay đổi cấu hình Các trường hợp khơng có kết nhận dạng hệ thống bị lỗi huấn luyện mơ hình liệu huấn luyện khơng đủ để huấn luyện mơ hình có độ phức tạp cao Nó thể độ xác nhận dạng thay đổi số trạng thái HMM số phân bố Gauss Với số trạng thái HMM số phân bố Gauss hệ thống có hiệu suất nhận dạng cao nhất, đạt 96.82% 46 Đơn vị tính: % Số trạng thái HMM 96.06 95.61 96.21 96.21 96.82 95.45 95.15 95.00 94.55 95.91 95.76 - - 95.91 - 95.15 - - - - 95.91 95.45 - - - Số phân bố Gauss Bảng 4.1 Độ xác nhận dạng theo số trạng thái HMM số phân bố Gauss 47 Chương 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Mục đích đề tài nhằm thử nghiệm công cụ HTK Toolkit nhận dạng tiếng nói rời rạc với từ vựng hữu hạn Trong khuôn khổ luận văn, từ vựng gồm 10 từ đơn 10 chữ số từ “khơng” đến “chín” Ngồi ra, đề tài cịn khảo sát tham số có khả ảnh hưởng lớn đến hiệu suất nhận dạng hệ thống gồm: số trạng thái HMM, số phân bố mơ hình hỗn hợp Gauss trạng thái Kết thực nghiệm cho thấy hệ thống nhận dạng đạt độ xác cao 96.82% trường hợp số trạng thái HMM 7, số phân bố Gauss Hạn chế đề tài liệu huấn luyện tiếng nói chủ yếu ghi âm với chất giọng Quảng Nam Đà Nẵng nên cho hiệu suất nhận dạng không cao cho nhận dạng với chất giọng vùng miền khác Đề tài dừng việc thử nghiệm nhận dạng chế độ offline (tín hiệu tiếng nói thu âm lưu vào file trước thực nhận dạng) chưa thử nghiệm nhận dạng online (tín hiệu tiếng nói thu vào micro thực nhận dạng) 5.2 Hướng phát triển Cùng với chiều hướng phát triển hệ thống nhận dạng tiếng nói tiếng Việt phát âm rời rạc nước, tiếp tục nghiên cứu số tham số khác có khả ảnh hưởng đến hiệu suất hệ thống nhận dạng phù hợp với đặc điểm phát âm tiếng Việt như: băng lọc tam giác, tham số tiền nhấn, chiều dài khung tín hiệu (kích thước cửa sổ), kiểu tham số đầu đặc trưng MFCC… mở rộng giới hạn liệu huấn luyện (về kích thước, phong phú chất giọng) để mang lại hiệu suất nhận dạng cao Bên cạnh đó, việc thực nghiên cứu hệ thống nhận dạng tiếng nói phát âm liên tục để nâng cao tính ứng dụng lĩnh vực điều khiển thiết bị giọng nói, phương pháp chống nhiễu mơi trường, nhận dạng theo thời gian thực (online) hướng triển khai cần xem xét tương lai 48 DANH MỤC TÀI LIỆU THAM KHẢO [1] Ling Feng “Speeech Recognition”, Technical University of Denmark Informatics and Mathematical Modelling, Kgs Lyngby, 2004 [2] Mai Ngọc Chữ, Vũ Đức Nghiệu, Hoàng Trọng Phiến, Cơ sở ngôn ngữ học tiếng Việt NXB Giáo dục, 2008 [3] Bạch Hưng Khang, “Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt”, Viện Công nghệ thông tin, 2004 [4] Malay Kumar “Comparative Study of Feature Extraction Techniques for Hindi Speech Recognition System on HTK-Toolkit”, International Journal of Advanced Research in Computer and Communication Engineering ISO 3297:2007 Certified Vol 5, Issue 8, August 2016 [5] Vibha Tiwari “MFCC and its applications in speaker recognition”, International Journal on Emerging Technologies 1(1) 19-22, 2010 [6] Ben J Shannon, Kuldip K Paliwal “A Comparative Study of Filter Bank Spacing for Speech Recognition”, Microelectronic Engineering Research Conference, 2003 [7] Prashanth Kannadaguli,Vidya Bhat “A Comparison of Gaussi an Mixture Modeling (GMM) and Hidden Markov Modeling (HMM) based approaches for Automatic Phoneme Recognition in Kannada”, Department of Electronics and Communication Engineering Manipal Institute of Technology, Manipal, India, 2015 [8] Mariano Marufo da Silva, “Diego A Evin, Sebastián Verrastro “Speakerindependent embedded speech recognition using Hidden Markov Models”, 978-1-50902938-©2016 IEEE, 2016 [9] Devi Handaya, Hanif Fakhruroja, Egi Muhammad Idris Hidayat, Carmadi Machbub “Comparison of Indonesian Speaker Recognition Using Véc tơ Quantization and Hidden Markov Model for Unclear Pronunciation Problem”, 2016 IEEE 6th International Conference on System Engineering and Technology (ICSET), Oktober 34, 2016 Bandung – Indonesia, 2016 [10] Steve Young, Gunnar Evermann, Mark Gales, Thomas Hain, Dan Kershaw, Xunying (Andrew) Liu, Gareth Moore, Julian Odell, Dave Ollason, Dan Povey, Valtcho Valtchev, Phil Woodland, “KTK book V3.4”, copyright 1995-1999 Microsoft Corporation, copyright 2001-2009 Cambridge University Engineering Department [11] D Satya Ganesh, Dr Prasant Kumar Sahu, “A Study on Automatic Speech Recognition Toolkit”, International Conference on Microwave, Optical and Communcation Engineering, December 18-20, 2015, IIT Bhubaneswar, India, 2015 49 [12] Christian Gaida, Patrick Lange, Rico Petrick, Patrick Proba, Ahmed Malatawy, David Suendermann-Oeft “Comparing Open-Source Speech Recognition Toolkit”, This work was supported by a grant from the Baden-Wuerttemberg Ministry of Sci-ence and Arts as part of the research project OASIS [13] Ananthakrishna T, Maithri M, Dr Kumara shama “Kannada Word Recognition System Using HTK”, IEEE INDICON 2015 1570157619, 2015 [14] Lê Vũ Cơng Hịa, Hồng Thị Minh Khanh, Lê Quang Tam, Ninh Khánh Duy (2017), Xây dựng mô-đun điều khiển bằng giọng nói ứng dụng đọc báo điện tử cho người khiếm thị, Kỷ yếu Hội thảo Khoa học Quốc gia CITA 2017 - Công nghệ thông tin Ứng dụng lĩnh vực [15] Preeti Saini1, Parneet Kaur, MohitDua “Hindi Automatic Speech Recognition Using HTK”, International Journal of Engineering Trends and Technology (IJETT) Volume Issue 6, June 2013 [16] Nguyen Hong Quang, Trinh Van Loan, Le The Dat “Automatic Speech Recognition for Vietnamese using HTK system”, 978-1-4244-8075-3/10 ©2010 IEEE, 2010 [17] Giampiero Salvi, “HTK Tutorial”, Royal Institute of Technology, Dep.of Speech, Music and Hearing v 31, 2003 ... văn thực nghiên cứu, ứng dụng công cụ HTK Toolkit để xây dựng hệ thống nhận dạng tiếng nói rời rạc với từ vựng hữu hạn nhằm bước đầu tìm hiểu cơng nghệ nhận dạng tiếng nói tiếng Việt Bên cạnh... đồ hệ thống xử lý tiếng nói [1] 1.1.2 Phân loại kỹ thuật nhận dạng tiếng nói Nhận dạng tiếng nói chia làm loại sau: 1.1.2.1 Nhận dạng từ phát âm liên tục nhận dạng từ phát âm rời rạc - Nhận dạng. .. hỗn hợp [10] 2.4 Ứng dụng HMM nhận dạng tiếng nói rời rạc Tổng quan quy trình ứng dụng ba toán nhận dạng từ rời rạc thể hình 2.8 30 Hình 2.8 Ứng dụng toán nhận dạng từ rời rạc 2.4.1 Giai đoạn