Luận văn này thực hiện nghiên cứu ứng dụng mô hình Markov ẩn để xây dựng hệ thống nhận dạng tiếng nói rời rạc với bộ từ vựng hữu hạn nhằm bước đầu tìm hiểu công nghệ nhận dạng tiếng nói tiếng Việt Bên cạnh đó luận văn còn tìm hiểu về đặc điểm tín hiệu tiếng nói tiếng Việt phương pháp rút trích đặc trưng tín hiệu tiếng nói MFCC đồng thời tiến hành khảo sát các tham số có khả năng ảnh hưởng lớn đến hiệu suất nhận dạng của hệ thống gồm số trạng thái của một HMM số phân bố trong mô hình hỗn hợp Gauss của mỗi trạng thái Từ đó góp phần nhỏ vào lĩnh vực nghiên cứu ứng dụng và cải tiến các hệ thống nhận dạng tiếng nói tiếng Việt rời rạc
ĐẠI HỌC ĐÀ NẴNG TRƢỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN VĂN TIN NHẬN DẠNG LỆNH ĐIỀU KHIỂN BẰNG GIỌNG NÓI VỚI TẬP LỆNH TỪ ĐƠN HỮU HẠN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Đà Nẵng - 2018 ĐẠI HỌC ĐÀ NẴNG TRƢỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN VĂN TIN NHẬN DẠNG LỆNH ĐIỀU KHIỂN BẰNG GIỌNG NÓI VỚI TẬP LỆNH TỪ ĐƠN HỮU HẠN Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ Ngƣời hƣớng dẫn khoa học: TS Ninh Khánh Duy Đà Nẵng - 2018 i LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung luận văn thực dƣới hƣớng dẫn trực tiếp TS.Ninh Khánh Duy Mọi tham khảo luận văn đƣợc trích dẫn rõ ràng trung thực tên tác giả, cơng trình, thời gian, địa điểm cơng bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay khơng trung thực, tơi chịu hồn tồn trách nhiệm Ngƣời thực Nguyễn Văn Tin ii LỜI CẢM ƠN Đầu tiên, em xin bày tỏ lòng biết ơn chân thành đến thầy Ninh Khánh Duy, ngƣời tận tình hƣớng dẫn, tạo điều kiện thuận lợi để em hoàn thành tốt luận văn tốt nghiệp Em xin cảm ơn dạy dỗ giúp đỡ tận tình tất q thầy trƣờng Đại học Bách khoa, Đại học Đà Nẵng Tất kiến thức mà em đƣợc truyền đạt hành trang quí giá đƣờng học tập, làm việc nghiên cứu sau Em xin đƣợc tri ơn tất Ngƣời thực Nguyễn Văn Tin iii TÓM TẮT LUẬN VĂN Tóm tắt - Luận văn thực nghiên cứu, ứng dụng mơ hình Markov ẩn để xây dựng hệ thống nhận dạng tiếng nói rời rạc với từ vựng hữu hạn nhằm bƣớc đầu tìm hiểu cơng nghệ nhận dạng tiếng nói tiếng Việt Bên cạnh đó, luận văn cịn tìm hiểu đặc điểm tín hiệu tiếng nói tiếng Việt, phƣơng pháp rút trích đặc trƣng tín hiệu tiếng nói MFCC, đồng thời tiến hành khảo sát tham số có khả ảnh hƣởng lớn đến hiệu suất nhận dạng hệ thống gồm: số trạng thái HMM, số phân bố mơ hình hỗn hợp Gauss trạng thái Từ đó, góp phần nhỏ vào lĩnh vực nghiên cứu, ứng dụng cải tiến hệ thống nhận dạng tiếng nói tiếng Việt rời rạc Từ khóa -Nhận dạng tiếng nói tự động; Mơ hình Markov ẩn; Phân tích phổ Mel; Mơ hình hỗn hợp Gauss Summary - This thesis is a study and application the Hidden Markov Model to build discrete speech recognition system with limited vocabulary to start learn technology of Vietnamese speech recognition Besides, the thesis also find out the characteristics of Vietnamese voice signals, the MFCC voice extraction method and tested two affect parameters have important implicationsto system performance include: the number of states of one HMM, the number distributed in the Gauss mixture model of each state From that, it has contributed to the study area, application and improvement of discrete speech recognition systems in Vietnamese Keywords - Automatic Speech Recognition (ASR); Hiden Markov Models (HMM); Mel-Frequency Cepstral Coefficient(MFCC); Gaussian Mixture Model(GMM) iv MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii TÓM TẮT LUẬN VĂN iii MỤC LỤC iv DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT vi DANH MỤC BẢNG vii DANH MỤC HÌNH VẼ viii MỞ ĐẦU 1 Lý chọn đề tài Mục đích ý nghĩa đề tài Mục tiêu nhiệm vụ Đối tƣợng phạm vi nghiên cứu Phƣơng pháp nghiên cứu Kết luận Cấu trúc luận văn CHƢƠNG - CƠ SỞ LÝ THUYẾT XỬ LÝ TIẾNG NÓI 1.1 Tổng quan xử lý tiếng nói 1.2 Nhận dạng tiếng nói tự động 1.3 Ngữ âm tiếng Việt 1.4 Thanh điệu 1.5 Phân loại âm vị theo đặc tính âm học 1.5.1 Âm hữu 1.5.2 Âm vô 1.5.3 Âm bật 1.6 Các thành phần ngữ điệu tiếng nói 1.6.1 Ngữ điệu thành phần ngữ điệu 1.6.2 Mơ hình ngữ điệu 1.7 Phân tích tiếng nói 10 1.7.1 Mơ hình phân tích tiếng nói 10 1.7.2 Phân tích tiếng nói ngắn hạn 10 1.8 Các đặc tính tiếng nói 13 1.8.1 Tần số 13 1.8.2 Biểu diễn tín hiệu tiếng nói 13 1.9 Kết chƣơng 16 v CHƢƠNG - NHẬN DẠNG TIẾNG NÓI RỜI RẠC DÙNG MƠ HÌNH MARKOV ẨN 17 2.1 Mơ hình Markov ẩn 17 2.1.1 Chuỗi Markov 17 2.1.2 Mơ hình Markov ẩn: 18 2.1.3 Ba toán HMM 21 2.2 Ứng dụng HMM nhận dạng tiếng nói rời rạc 27 2.2.1 Tổng quan 27 2.2.2 Giai đoạn huấn luyện mô hình 28 2.2.3 Giai đoạn nhận dạng 29 2.3 Kết chƣơng 29 CHƢƠNG - XÂY DỰNG HỆ THỐNG NHẬN DẠNG LỆNH ĐIỀU KHIỂN BẰNG GIỌNG NÓI 30 3.1 Ngữ cảnh ứng dụng 30 3.2 Thiết kế tập lệnh 30 3.2.1 Nhóm điều hƣớng 31 3.2.2 Nhóm điều khiển 32 3.2.3 Nhóm tƣơng tác 33 3.3 Thu âm liệu tiếng nói 33 3.3.1 Dữ liệu cho hệ thống nhận dạng phụ thuộc ngƣời nói 33 3.2.2 Dữ liệu cho hệ thống nhận dạng độc lập ngƣời nói 33 3.4 Cài đặt hệ thống nhận dạng 33 3.5 Cấu hình hệ thống nhận dạng 35 3.6 Kết thực nghiệm 35 CHƢƠNG - KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 37 4.1 Kết luận 37 4.2 Hƣớng phát triển 37 DANH MỤC TÀI LIỆU THAM KHẢO 38 vi DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT HMM : Hidden Markov Model HTK : Hidden Markov Model Toolkit MFCC : Mel-Frequency Cepstral Coefficient vii DANH MỤC BẢNG Tên bảng biểu Tên bảng Trang 3.1 Tập lệnh điều khiển 30 3.2 Thống kê kết nhận dạng phụ thuộc ngƣời nói 35 3.3 Thống kê kết nhận dạng độc lập ngƣời nói 36 viii DANH MỤC HÌNH VẼ Số hiệu hình Tên hình Trang 1.1 (a) tần số, đƣờng lƣợng âm vô thanh; (b) tần số, đƣờng lƣợng âm hữu 1.2 Mơ hình tổng qt việc xử lý tín hiệu tiếng nói [11] 11 1.3 Phân tích tín hiệu khung chồng lên [11] 12 1.4 Dạng sóng theo thời gian 13 1.5 Âm đƣợc thu micro khác 14 1.6 Âm hai ngƣời khác phát 14 1.7 Âm ngƣời phát hai thời điểm khác 14 1.8 Minh họa khung tín hiệu (trên) phổ tƣơng ứng (dƣới) [11] 15 1.9 Đƣờng bao phổ Formant 16 2.1 Minh họa mơ hình Markov [7] 17 2.2 Mơ hình Markov ẩn [5] 19 2.3 Hàm forward [7] 22 2.4 Hàm backward [7] 23 2.5 Minh họa thuật toán Viterbi để tìm chuỗi trạng thái tối ƣu [12] 25 2.6 Biến Forward-backward [7] 26 2.7 Sơ đồ khối hệ nhận dạng tiếng nói rời rạc [7] 28 2.8 Giai đoạn huấn luyện mơ hình [7] 28 2.9 Giai đoạn nhận dạng [7] 29 3.1 Hình minh họa trang web 32 3.2 Các modules HTK 34 3.3 Các thƣ mục chƣơng trình demo 34 39 [12] Steve Young, Gunnar Evermann, Mark Gales, Thomas Hain, Dan Kershaw, Xunying (Andrew) Liu, Gareth Moore, Julian Odell, Dave Ollason, Dan Povey, Valtcho Valtchev, Phil Woodland (2009), HTK book V3.4.1, Cambridge University Engineering Department ... tốt với cộng đồng, tơi chọn đề tài nghiên cứu là: ? ?Nhận dạng lệnh điều khiển giọng nói với tập lệnh từ đơn hữu hạn? ?? Mục đích ý nghĩa đề tài a Mục đích - Nghiên cứu đề xuất phƣơng pháp nhận dạng. ..ĐẠI HỌC ĐÀ NẴNG TRƢỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN VĂN TIN NHẬN DẠNG LỆNH ĐIỀU KHIỂN BẰNG GIỌNG NÓI VỚI TẬP LỆNH TỪ ĐƠN HỮU HẠN Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 LUẬN VĂN... HMM nhận dạng tiếng nói rời rạc 30 CHƢƠNG - XÂY DỰNG HỆ THỐNG NHẬN DẠNG LỆNH ĐIỀU KHIỂN BẰNG GIỌNG NÓI 3.1 Ngữ cảnh ứng dụng Có nhiều ngữ cảnh ứng dụng khác cần ngƣời dùng lệnh điều khiển giọng