1. Trang chủ
  2. » Luận Văn - Báo Cáo

Hướng tiếp cận dựa trên phổ tần số cho bài toán nhận thức tiếng nói

141 11 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN QUANG TRUNG HƯỚNG TIẾP CẬN DỰA TRÊN PHỔ TẦN SỐ CHO BÀI TỐN NHẬN THỨC TIẾNG NĨI LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2019 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN QUANG TRUNG HƯỚNG TIẾP CẬN DỰA TRÊN PHỔ TẦN SỐ CHO BÀI TỐN NHẬN THỨC TIẾNG NĨI Chuyên ngành: Khoa học máy tính Mã số: 9480101.01 LUẬN ÁN TIẾN SĨ: CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: 1.PGS TS Bùi Thế Duy Hà Nội - 2019 LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu tơi thực hướng dẫn PGS., TS Bùi Thế Duy mơn Khoa học máy tính, Khoa Cơng nghệ Thơng tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà nội Các số liệu kết trình bày luận án trung thực, chưa công bố tác giả hay công trình khác Tác giả Nguyễn Quang Trung LỜI CẢM ƠN Kết đạt Luận án không nỗ lực cá nhân, mà cịn có hỗ trợ giúp đỡ tập thể người hướng dẫn, sở đào tạo, quan chủ quản, đồng nghiệp gia đình Trước tiên, tơi xin bày tỏ biết ơn sâu sắc đến PGS.TS Bùi Thế Duy Được làm việc với thầy hội lớn cho tơi học hỏi phương pháp nghiên cứu, tính kiên trì phương pháp làm việc nghiêm túc, khoa học Tôi xin trân trọng cảm ơn Khoa Công nghệ thơng tin, Phịng Đào tạo, Ban Giám hiệu trường đại học công nghệ, đại học Quốc gia Hà Nội tạo điều kiện thuận lợi cho suốt trình thực luận án Tơi xin cảm ơn Ban Giám đốc Học viện Thanh thiếu niên Việt Nam bạn bè, đồng nghiệp cổ vũ, động viên tạo điều kiện thuận lợi cho q trình học tập, nghiên cứu Tơi bày tỏ lời cảm ơn sâu sắc tới hỗ trợ đề tài “Nghiên cứu ứng dụng công nghệ đa phương tiện bảo tồn phát huy di sản văn hóa phi vật thể”, mã số “ĐTĐL-CN.34/16” giúp đỡ nhiệt tình thành viên tham gia đề tài Cuối cùng, tơi xin bày tỏ lịng biết ơn gia đình tơi ln bên cạnh ủng hộ, giúp đỡ, chia sẻ với lúc khó khăn Xin chân thành cảm ơn! MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỞ ĐẦU 14 Tính cấp thiết đề tài 14 Mục tiêu, phạm vi nghiên cứu luận án 15 Phương pháp nội dung nghiên cứu 16 Kết đạt luận án 17 Cấu trúc luận án 18 Chương TỔNG QUAN VỀ NHẬN THỨC TIẾNG NÓI 19 1.1 Giới thiệu 19 1.2 Q trình nhận thức tiếng nói người 20 1.2.1 Tai thu nhận tín hiệu tiếng nói từ 20 1.2.2 Tai 20 1.2.3 Tai chế truyền sóng âm ốc tai 20 1.3 Q trình mơ nhận thức tiếng nói máy tính 23 1.3.1 Lấy mẫu tín hiệu tiếng nói 24 1.3.2 Lượng tử hoá mẫu 25 1.3.3 Mã hóa mẫu lượng tử hóa 25 1.3.4 Biểu diễn tín hiệu tiếng nói 25 1.3.5 Trích chọn đặc trưng tiếng nói 27 1.3.6 Phân lớp, phân cụm liệu 27 1.4 Tổng quan tình hình nghiên cứu nhận thức tiếng nói 28 1.5 Bài tốn nhận thức tiếng nói khoa học máy tính 33 1.5.1 Bài tốn nhận dạng người nói 33 1.5.2 Bài tốn nhận dạng tiếng nói 34 1.5.3 Bài toán nhận thức tiếng nói 35 1.6 Một số khó khăn nhận thức tiếng nói 36 1.6.1 Tính tuyến tính 36 1.6.2 Phân đoạn tiếng nói 36 1.6.3 Vấn đề phụ thuộc người nói 36 1.6.4 Vấn đề nhiễu 36 1.6.5 Đơn vị nhận thức 37 1.7 Mơ hình nhận thức tiếng nói dựa học quan hệ tín hiệu tiếng nói với tín hiệu khác 37 Chương MỘT SỐ HƯỚNG TIẾP CẬN HỌC MÁY CHO BÀI TỐN NHẬN THỨC TIẾNG NĨI 39 2.1 Giới thiệu 39 2.2 Một số mơ hình học máy cho tốn nhận thức tiếng nói 39 2.2.1 Mơ hình Markov ẩn 39 2.2.2 Mơ hình ngơn ngữ 41 2.2.3 Mơ hình mạng nơ-ron 43 2.2.4 Mạng học sâu 45 2.3 Trích chọn đặc trưng tiếng nói cho mơ hình học máy 54 2.3.1 Đặc trưng MFCC 54 2.3.2 Phương pháp mã dự đốn tuyến tính LPC 56 2.3.3 Đặc trưng PLP 58 2.4 Kết luận 60 Chương HƯỚNG TIẾP CẬN DỰA TRÊN PHỔ TẦN SỐ CHO BÀI TỐN NHẬN THỨC TIẾNG NĨI TRONG MỐI LIÊN HỆ VỚI CÁC KHÁI NIỆM 61 3.1 Giới thiệu 61 3.2 Phổ tần số tín hiệu tiếng nói 62 3.3 Đặc trưng bất biến SIFT 64 3.4 Phương pháp phân lớp NBNN 68 3.5 Phương pháp phân lớp LNBNN 70 3.6 Hướng tiếp cận trích chọn đặc trưng tiếng nói dựa phổ tần số cho tốn nhận thức tiếng nói 72 3.7 Hướng tiếp cận mạng tích chập dựa phổ tần số cho tốn nhận thức tiếng nói 75 3.8 Thực nghiệm kết 75 3.8.1 Dữ liệu thực nghiệm 76 3.8.2 Thí nghiệm so sánh độ xác phân lớp đặc trưng SIFT với đặc trưng MFCC sử dụng LNBNN 76 3.8.3 Thí nghiệm với liệu co dãn theo thời gian 79 3.8.4 Thí nghiệm so sánh LNBNN phương pháp phân lớp khác 80 3.8.5 Thí nghiệm khả học tăng cường LNBNN 81 3.8.6 Thí nghiệm với mạng tích chập tín hiệu tiếng nói 82 3.9 Kết luận 84 Chương MƠ HÌNH NHẬN THỨC TIẾNG NĨI THƠNG QUA HỌC MỐI QUAN HỆ GIỮA TÍN HIỆU TIẾNG NĨI VÀ HÌNH ẢNH 86 4.1 Giới thiệu 86 4.2 Các phương pháp học mối quan hệ 87 4.2.1 Học mối quan hệ mạng nhân tạo 87 4.2.2 Học mối quan hệ HMM 90 4.2.3 Học mối quan hệ dựa luật 91 4.2.4 Học mối quan hệ dựa thống kê 91 4.3 Đề xuất mơ hình nhận thức tiếng nói 93 4.3.1 Cơ sở đề xuất mơ hình 93 4.3.2 Mơ hình nhận thức tiếng nói dựa học quan hệ tín hiệu âm tín hiệu hình ảnh 96 4.3.3 Mơ hình nhận thức tiếng nói dựa ánh xạ tín hiệu âm tín hiệu hình ảnh mạng tích chập 99 4.4 Thực nghiệm kết 100 4.4.1 Thực nghiệm mô hình nhận thức tiếng nói dựa học quan hệ tín hiệu âm tín hiệu hình ảnh 100 4.4.2 Thực nghiệm mô hình nhận thức dựa mạng tích chập 102 4.5 Kết luận 106 Chương MỘT SỐ CẢI TIẾN CHO BÀI TỐN NHẬN THỨC TIẾNG NĨI DỮ LIỆU LỚN 108 5.1 Giới thiệu 108 5.2 Rút gọn đặc trưng 109 5.2.1 Giới thiệu rút gọn đặc trưng 109 5.2.2 Rút gọn đặc trưng SIFT 110 5.2.3 Bảng băm đa số 113 5.2.4 Thực nghiệm kết 115 5.3 Cài đặt phương pháp phân lớp LNBNN cho tốn nhận thức tiếng nói liệu lớn 116 5.3.1 Giới thiệu Framework Hadoop 116 5.3.2 Cài đặt thuật toán phân lớp LNBNN Hadoop 117 5.3.3 Thực nghiệm 121 5.4 Kết luận 124 DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT TT Viết tắt ANN BAM CNN Từ tiếng Anh Artificial Neural Network Bi-directional Assosiation Memory Convolution Neural Network CFG Context Free Grammar CSLU DNN DoG DCT Center for Spoken Language Understanding Deep Neural Network Different-of-Gaussian Discrete Cosin Transform DFT Discrete Fourier Transform 10 DTW Dynamic Time Warping 11 12 FA FFT Factor Analysis Fast Fourier Transform 13 GMM Gaussian Mixture Model 14 HDFS 15 HMM 16 HOG 17 ICA 18 LBG Hadoop Distributed File System Hidden Markov Model Histogram of Oriented Gradients Independent Component Analysis Linde–Buzo–Gray 19 LDA Linear Discriminant Analysis 20 LNBNN 21 LPC 22 MFCC 23 MPCA Local Naïve Bayes Nearest Neighbor Linear Predictive Coding Mel-frequency cepstral coefficients Multiple Principal Component Analysis Nghĩa tiếng Việt Mạng trí tuệ nhân tạo Mạng nhớ kết hợp hai chiều Mạng tích chập Văn phạm phi ngữ cảnh Trung tâm nghiên cứu tiếng nói Mạng học sâu Bộ lọc DoG Biến đổi Cosin rời rạc Biến đổi Fourier rời rạc Phương pháp lập trình động Phân tích nhân tố Biến đổi Fuutier nhanh Mơ hình Gaussian hỗn hợp Hệ thống tệp phân tán Mơ hình Markov ẩn Đặc trưng lược đồ độ dốc theo hướng Phân tích thành phần độc lập Thuật tốn LBG Phân tích biệt thức tuyến tính Phương pháp phân lớp NBNN cục Mã dự báo tuyến tính Hệ số Mel Phân tích đa thành phần 24 NBNN Naïve Bayes Nearest Neighbor 25 PCA Principal Component Analysis 26 PLP Perceptual Linear Prediction 27 RNN 28 SIFT 29 30 31 SOM SURF SVM Recurrent Neural Network Scale Invariant Feature Transform Self Organizing Map Speeded Up Robust Features Support Vector Machine 32 VOT Voice On Set time Phương pháp phân lớp NBNN Phân tích thành phần Mã nhận thức tuyến tính Mạng hồi quy Đặc trưng bất biến phép biến đổi Bản đồ tự tổ chức Đặc trưng ảnh nhanh Máy véc tơ hỗ trợ Thời gian bắt đầu nguyên âm ... 70 3.6 Hướng tiếp cận trích chọn đặc trưng tiếng nói dựa phổ tần số cho tốn nhận thức tiếng nói 72 3.7 Hướng tiếp cận mạng tích chập dựa phổ tần số cho toán nhận thức tiếng nói ... hiệu cho mơ hình nhận thức tiếng nói - Nghiên cứu đề xuất giải pháp cho toán nhận thức tiếng nói liệu lớn 38 Chương MỘT SỐ HƯỚNG TIẾP CẬN HỌC MÁY CHO BÀI TOÁN NHẬN THỨC TIẾNG NÓI 2.1 Giới thiệu Nhận. .. thuyết, mơ hình cho tốn nhận thức tiếng nói ứng dụng tốn nhận thức tiếng nói Chương 2: Giới thiệu kiến thức sở nhận thức tiếng nói phương pháp học máy sử dụng toán nhận thức tiếng nói, số phương pháp

Ngày đăng: 09/03/2021, 17:45

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w