1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nhận dạng lệnh điều khiển bằng giọng nói với tập lệnh từ đơn hữu hạn

63 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 63
Dung lượng 3,2 MB

Nội dung

Luận văn này thực hiện nghiên cứu ứng dụng mô hình Markov ẩn để xây dựng hệ thống nhận dạng tiếng nói rời rạc với bộ từ vựng hữu hạn nhằm bước đầu tìm hiểu công nghệ nhận dạng tiếng nói tiếng Việt Bên cạnh đó luận văn còn tìm hiểu về đặc điểm tín hiệu tiếng nói tiếng Việt phương pháp rút trích đặc trưng tín hiệu tiếng nói MFCC đồng thời tiến hành khảo sát các tham số có khả năng ảnh hưởng lớn đến hiệu suất nhận dạng của hệ thống gồm số trạng thái của một HMM số phân bố trong mô hình hỗn hợp Gauss của mỗi trạng thái Từ đó góp phần nhỏ vào lĩnh vực nghiên cứu ứng dụng và cải tiến các hệ thống nhận dạng tiếng nói tiếng Việt rời rạc

ĐẠI HỌC ĐÀ NẴNG TRƢỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN VĂN TIN NHẬN DẠNG LỆNH ĐIỀU KHIỂN BẰNG GIỌNG NÓI VỚI TẬP LỆNH TỪ ĐƠN HỮU HẠN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Đà Nẵng - 2018 ĐẠI HỌC ĐÀ NẴNG TRƢỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN VĂN TIN NHẬN DẠNG LỆNH ĐIỀU KHIỂN BẰNG GIỌNG NÓI VỚI TẬP LỆNH TỪ ĐƠN HỮU HẠN Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ Ngƣời hƣớng dẫn khoa học: TS Ninh Khánh Duy Đà Nẵng - 2018 i LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung luận văn thực dƣới hƣớng dẫn trực tiếp TS.Ninh Khánh Duy Mọi tham khảo luận văn đƣợc trích dẫn rõ ràng trung thực tên tác giả, cơng trình, thời gian, địa điểm cơng bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay khơng trung thực, tơi chịu hồn tồn trách nhiệm Ngƣời thực Nguyễn Văn Tin ii LỜI CẢM ƠN Đầu tiên, em xin bày tỏ lòng biết ơn chân thành đến thầy Ninh Khánh Duy, ngƣời tận tình hƣớng dẫn, tạo điều kiện thuận lợi để em hoàn thành tốt luận văn tốt nghiệp Em xin cảm ơn dạy dỗ giúp đỡ tận tình tất q thầy trƣờng Đại học Bách khoa, Đại học Đà Nẵng Tất kiến thức mà em đƣợc truyền đạt hành trang quí giá đƣờng học tập, làm việc nghiên cứu sau Em xin đƣợc tri ơn tất Ngƣời thực Nguyễn Văn Tin iii TĨM TẮT LUẬN VĂN Tóm tắt - Luận văn thực nghiên cứu, ứng dụng mơ hình Markov ẩn để xây dựng hệ thống nhận dạng tiếng nói rời rạc với từ vựng hữu hạn nhằm bƣớc đầu tìm hiểu cơng nghệ nhận dạng tiếng nói tiếng Việt Bên cạnh đó, luận văn cịn tìm hiểu đặc điểm tín hiệu tiếng nói tiếng Việt, phƣơng pháp rút trích đặc trƣng tín hiệu tiếng nói MFCC, đồng thời tiến hành khảo sát tham số có khả ảnh hƣởng lớn đến hiệu suất nhận dạng hệ thống gồm: số trạng thái HMM, số phân bố mơ hình hỗn hợp Gauss trạng thái Từ đó, góp phần nhỏ vào lĩnh vực nghiên cứu, ứng dụng cải tiến hệ thống nhận dạng tiếng nói tiếng Việt rời rạc Từ khóa -Nhận dạng tiếng nói tự động; Mơ hình Markov ẩn; Phân tích phổ Mel; Mơ hình hỗn hợp Gauss Summary - This thesis is a study and application the Hidden Markov Model to build discrete speech recognition system with limited vocabulary to start learn technology of Vietnamese speech recognition Besides, the thesis also find out the characteristics of Vietnamese voice signals, the MFCC voice extraction method and tested two affect parameters have important implicationsto system performance include: the number of states of one HMM, the number distributed in the Gauss mixture model of each state From that, it has contributed to the study area, application and improvement of discrete speech recognition systems in Vietnamese Keywords - Automatic Speech Recognition (ASR); Hiden Markov Models (HMM); Mel-Frequency Cepstral Coefficient(MFCC); Gaussian Mixture Model(GMM) iv MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii TÓM TẮT LUẬN VĂN iii MỤC LỤC iv DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT vi DANH MỤC BẢNG vii DANH MỤC HÌNH VẼ viii MỞ ĐẦU 1 Lý chọn đề tài Mục đích ý nghĩa đề tài Mục tiêu nhiệm vụ Đối tƣợng phạm vi nghiên cứu Phƣơng pháp nghiên cứu Kết luận Cấu trúc luận văn CHƢƠNG - CƠ SỞ LÝ THUYẾT XỬ LÝ TIẾNG NÓI 1.1 Tổng quan xử lý tiếng nói 1.2 Nhận dạng tiếng nói tự động 1.3 Ngữ âm tiếng Việt 1.4 Thanh điệu 1.5 Phân loại âm vị theo đặc tính âm học 1.5.1 Âm hữu 1.5.2 Âm vô 1.5.3 Âm bật 1.6 Các thành phần ngữ điệu tiếng nói 1.6.1 Ngữ điệu thành phần ngữ điệu 1.6.2 Mơ hình ngữ điệu 1.7 Phân tích tiếng nói 10 1.7.1 Mơ hình phân tích tiếng nói 10 1.7.2 Phân tích tiếng nói ngắn hạn 10 1.8 Các đặc tính tiếng nói 13 1.8.1 Tần số 13 1.8.2 Biểu diễn tín hiệu tiếng nói 13 1.9 Kết chƣơng 16 v CHƢƠNG - NHẬN DẠNG TIẾNG NÓI RỜI RẠC DÙNG MƠ HÌNH MARKOV ẨN 17 2.1 Mơ hình Markov ẩn 17 2.1.1 Chuỗi Markov 17 2.1.2 Mơ hình Markov ẩn: 18 2.1.3 Ba toán HMM 21 2.2 Ứng dụng HMM nhận dạng tiếng nói rời rạc 27 2.2.1 Tổng quan 27 2.2.2 Giai đoạn huấn luyện mơ hình 28 2.2.3 Giai đoạn nhận dạng 29 2.3 Kết chƣơng 29 CHƢƠNG - XÂY DỰNG HỆ THỐNG NHẬN DẠNG LỆNH ĐIỀU KHIỂN BẰNG GIỌNG NÓI 30 3.1 Ngữ cảnh ứng dụng 30 3.2 Thiết kế tập lệnh 30 3.2.1 Nhóm điều hƣớng 31 3.2.2 Nhóm điều khiển 32 3.2.3 Nhóm tƣơng tác 33 3.3 Thu âm liệu tiếng nói 33 3.3.1 Dữ liệu cho hệ thống nhận dạng phụ thuộc ngƣời nói 33 3.2.2 Dữ liệu cho hệ thống nhận dạng độc lập ngƣời nói 33 3.4 Cài đặt hệ thống nhận dạng 33 3.5 Cấu hình hệ thống nhận dạng 35 3.6 Kết thực nghiệm 35 CHƢƠNG - KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 37 4.1 Kết luận 37 4.2 Hƣớng phát triển 37 DANH MỤC TÀI LIỆU THAM KHẢO 38 vi DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT HMM : Hidden Markov Model HTK : Hidden Markov Model Toolkit MFCC : Mel-Frequency Cepstral Coefficient vii DANH MỤC BẢNG Tên bảng biểu Tên bảng Trang 3.1 Tập lệnh điều khiển 30 3.2 Thống kê kết nhận dạng phụ thuộc ngƣời nói 35 3.3 Thống kê kết nhận dạng độc lập ngƣời nói 36 viii DANH MỤC HÌNH VẼ Số hiệu hình Tên hình Trang 1.1 (a) tần số, đƣờng lƣợng âm vô thanh; (b) tần số, đƣờng lƣợng âm hữu 1.2 Mơ hình tổng qt việc xử lý tín hiệu tiếng nói [11] 11 1.3 Phân tích tín hiệu khung chồng lên [11] 12 1.4 Dạng sóng theo thời gian 13 1.5 Âm đƣợc thu micro khác 14 1.6 Âm hai ngƣời khác phát 14 1.7 Âm ngƣời phát hai thời điểm khác 14 1.8 Minh họa khung tín hiệu (trên) phổ tƣơng ứng (dƣới) [11] 15 1.9 Đƣờng bao phổ Formant 16 2.1 Minh họa mơ hình Markov [7] 17 2.2 Mơ hình Markov ẩn [5] 19 2.3 Hàm forward [7] 22 2.4 Hàm backward [7] 23 2.5 Minh họa thuật toán Viterbi để tìm chuỗi trạng thái tối ƣu [12] 25 2.6 Biến Forward-backward [7] 26 2.7 Sơ đồ khối hệ nhận dạng tiếng nói rời rạc [7] 28 2.8 Giai đoạn huấn luyện mơ hình [7] 28 2.9 Giai đoạn nhận dạng [7] 29 3.1 Hình minh họa trang web 32 3.2 Các modules HTK 34 3.3 Các thƣ mục chƣơng trình demo 34 39 [12] Steve Young, Gunnar Evermann, Mark Gales, Thomas Hain, Dan Kershaw, Xunying (Andrew) Liu, Gareth Moore, Julian Odell, Dave Ollason, Dan Povey, Valtcho Valtchev, Phil Woodland (2009), HTK book V3.4.1, Cambridge University Engineering Department ... tốt với cộng đồng, tơi chọn đề tài nghiên cứu là: ? ?Nhận dạng lệnh điều khiển giọng nói với tập lệnh từ đơn hữu hạn? ?? Mục đích ý nghĩa đề tài a Mục đích - Nghiên cứu đề xuất phƣơng pháp nhận dạng. ..ĐẠI HỌC ĐÀ NẴNG TRƢỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN VĂN TIN NHẬN DẠNG LỆNH ĐIỀU KHIỂN BẰNG GIỌNG NÓI VỚI TẬP LỆNH TỪ ĐƠN HỮU HẠN Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 LUẬN VĂN... HMM nhận dạng tiếng nói rời rạc 30 CHƢƠNG - XÂY DỰNG HỆ THỐNG NHẬN DẠNG LỆNH ĐIỀU KHIỂN BẰNG GIỌNG NÓI 3.1 Ngữ cảnh ứng dụng Có nhiều ngữ cảnh ứng dụng khác cần ngƣời dùng lệnh điều khiển giọng

Ngày đăng: 27/04/2021, 18:41

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Abimbola A. Fisusi, Thomas K. Yesufu (2007), Speaker Recognition Systems A Tutorial, African Journal of Information and Communication Technology, Vol. 3, No. 2, June 2007 Sách, tạp chí
Tiêu đề: Speaker Recognition Systems A Tutorial
Tác giả: Abimbola A. Fisusi, Thomas K. Yesufu
Năm: 2007
[2] Andrew McCallu (2004), Hidden Markov Models Baum Welch Algorithm, Introduction to Natural Language Processing CS 585, March 9, 2004 Sách, tạp chí
Tiêu đề: Hidden Markov Models Baum Welch Algorithm
Tác giả: Andrew McCallu
Năm: 2004
[3] Mai Ngọc Chữ, Vũ Đức Nghiệu, Hoàng Trọng Phiến (2008), Cơ sở ngôn ngữ học và Tiếng Việt, NXB Giáo dục Sách, tạp chí
Tiêu đề: Cơ sở ngôn ngữ học và Tiếng Việt
Tác giả: Mai Ngọc Chữ, Vũ Đức Nghiệu, Hoàng Trọng Phiến
Nhà XB: NXB Giáo dục
Năm: 2008
[4] Lê Vũ Công Hoà, Hoàng Thị Minh Khanh, Lê Quang Tam, Ninh Khánh Duy (2017), â d ng mô-đun điều khiển bằng giọng nói trong ứng dụng đọc báo điện tử cho người khiếm thị, Kỷ yếu Hội thảo Khoa học Quốc gia CITA 2017 - Công nghệ thông tin và Ứng dụng trong các lĩnh vực Sách, tạp chí
Tiêu đề: â d ng mô-đun điều khiển bằng giọng nói trong ứng dụng đọc báo điện tử cho người khiếm thị
Tác giả: Lê Vũ Công Hoà, Hoàng Thị Minh Khanh, Lê Quang Tam, Ninh Khánh Duy
Năm: 2017
[5] G. David Forney, JR (1973), The Viterbi Algorithm, Proceedings of the IEEE, VOL. 61, NO. 3, March 1973 Sách, tạp chí
Tiêu đề: The Viterbi Algorithm
Tác giả: G. David Forney, JR
Năm: 1973
[6] Bạch Hƣng Khang (2004), Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng Việt, Báo cáo đề tài, Viện Công nghệ thông tin Sách, tạp chí
Tiêu đề: Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng Việt
Tác giả: Bạch Hƣng Khang
Năm: 2004
[7] Lawrence R. Rabiner (1989), A tutorial on Hidden Markov Models and selected application in speech recognition, Processding of IEEE, vol.77, No.2, Freruary, 1989 Sách, tạp chí
Tiêu đề: A tutorial on Hidden Markov Models and selected application in speech recognition
Tác giả: Lawrence R. Rabiner
Năm: 1989
[8] Ling Feng (2004), Speeech Recognition, Technical University of Denmark Informatics and Mathematical Modelling Sách, tạp chí
Tiêu đề: Speeech Recognition
Tác giả: Ling Feng
Năm: 2004
[9] Malay Kumar (2016), Comparative Study of Feature Extraction Techniques for Hindi Speech Recognition System on HTK-Toolkit, International Journal of Advanced Research in Computer and Communication Engineering, Vol. 5, Issue 8, August 2016 Sách, tạp chí
Tiêu đề: Comparative Study of Feature Extraction Techniques for Hindi Speech Recognition System on HTK-Toolkit
Tác giả: Malay Kumar
Năm: 2016
[10] Mark Gales, Steve Young (2008), The Application of Hidden Markov Models in Speech Recognition, Foundations and Trends in Signal Processing, Vol. 1, No. 3 (2007) 195–304 Sách, tạp chí
Tiêu đề: The Application of Hidden Markov Models in Speech Recognition
Tác giả: Mark Gales, Steve Young
Năm: 2008
[11] Phạm Văn Sự, Lê Xuân Thành, “Bài giảng Xử lý tiếng nói”, HỌC VIỆN CÔNG NGHỆ BƯU CH NH VIỄN TH NG, 2010 Sách, tạp chí
Tiêu đề: Bài giảng Xử lý tiếng nói
w