Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 81 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
81
Dung lượng
2,79 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG HỌC VIỆN KỸ THUẬT QUÂN SỰ NGÔ VĂN CƯƠNG NGHIÊN CỨU KỸ THUẬT NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT VÀ ỨNG DỤNG Chuyên ngành: Hệ thống thông tin Mã số: 60 48 01 04 LUẬN VĂN THẠC SĨ KỸ THUẬT Hà Nội - Năm 2015 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI HỌC VIỆN KỸ THUẬT QUÂN SỰ Cán hướng dẫn chính: PGS.TS Bùi Thế Hồng Cán chấm phản biện 1: TS Trần Nguyên Ngọc Cán chấm phản biện 2: TS Trần Thị Thu Hà Luận văn thạc sĩ bảo vệ tại: HỘI ĐỒNG CHẤM LUẬN VĂN THẠC SĨ HỌC VIỆN KỸ THUẬT QUÂN SỰ Ngày tháng năm 2015 Tôi xin cam đoan: Những kết nghiên cứu trình bày luận văn hoàn toàn trung thực, tôi, không vi phạm điều luật sở hữu trí tuệ pháp luật Việt Nam Nếu sai, hoàn toàn chịu trách nhiệm trước pháp luật TÁC GIẢ LUẬN VĂN Ngô Văn Cương MỤC LỤC Trang Trang phụ bìa Bản cam đoan Mục lục Các thuật ngữ viết tắt Mở đầu Chương CƠ SỞ LÝ THUYẾT XỬ LÝ TIẾNG NÓI 1.1 Lý thuyết âm tiếng nói 1.1.1 Nguồn gốc âm thanh: 1.1.2 Các đại lượng đặc trưng cho âm thanh: 1.1.2.1 Tần số âm thanh: 1.1.2.2 Chu kì âm thanh: 1.1.2.3 Tốc độ truyền âm: 1.1.2.4 Cường độ âm thanh: 1.1.2.5 Thanh áp: 1.1.2.6 Âm sắc: 1.1.2.7 Âm lượng: 1.1.3 Các tần số âm thanh: 1.1.4 Cơ chế tạo lập tiếng nói người: 1.1.5 Mô hình lọc nguồn tạo tiếng nói: 1.1.6 Hệ thống nghe người: 1.1.7 Quá trình sản xuất tiếng nói thu nhận tiếng nói: 1.1.8 Các âm tiếng nói đặc trưng: 10 1.1.8.1 Nguyên âm: 10 1.1.8.2 Các âm vị khác: 10 1.2 Giới thiệu xử lý tiếng nói 11 1.3 Nhận dạng tiếng nói 12 1.3.1 Bài toán nhận dạng tiếng nói 12 1.3.2 Các phương pháp nhận dạng tiếng nói 14 1.3.2.1 Phương pháp âm học ngữ âm học 14 1.3.2.2 Phương pháp nhận dạng mẫu 16 1.3.2.3 Phương pháp ứng dụng trí tuệ nhân tạo 18 1.4 Nhận dạng tiếng Việt 19 1.4.1 Một số đặc điểm ngữ âm tiếng Việt 19 1.4.2 Những thuận lợi khó khăn nhận dạng tiếng Việt 20 1.4.2.1 Thuận lợi 20 1.4.2.2 Khó khăn 20 Chương MÔ HÌNH NHẬN DẠNG TIẾNG NÓI 2.1 Các kiểu mô hình mạng nơron 22 2.1.1 Perceptron 24 2.1.2 Mạng nhiều tầng truyền thẳng (MLP) 25 2.2 Huấn luyện mạng nơron 26 2.2.1 Các phương pháp học 26 2.2.2 Học có giám sát mạng nơron 28 2.2.3 Thuật toán lan truyền ngược 29 2.3 Các vấn đề xây dựng mạng MLP 30 2.3.1 Chuẩn bị liệu 30 2.3.1.1 Kích thước mẫu 30 2.3.1.2 Mẫu 32 2.3.2 Xác định tham số cho mạng 32 2.3.2.1 Chọn hàm truyền 32 2.3.2.2 Xác định số nơron tầng ẩn 33 2.3.2.3 Khởi tạo trọng 34 2.3.3 Vấn đề lãng quên (catastrophic forgetting) 35 2.3.4 Vấn đề khớp 36 2.3.4.1 Khái niệm khớp 36 2.3.4.2 Giải khớp 36 Chương QUÁ TRÌNH TIỀN XỬ LÝ TIẾNG NÓI 3.1 Phát tiếng nói 38 3.1.1 Năng lượng ngắn hạn 38 3.1.2 Tốc độ qua điểm không 39 3.1.3 Lượng thông tin 39 3.1.3.1 Tính FFT 39 3.1.3.2 Mật độ xác suất phổ lượng 40 3.1.3.3 Tính Entropy 40 3.1.4 Giải thuật phát tiếng nói 40 3.2 Phân tích cepstral thông qua thang độ mel 41 3.2.1 Mô hình tính toán hệ số MFCC 42 3.2.2 Quá trình tiền xử lý tín hiệu 42 3.2.2.1 Bộ lọc thích nghi 42 3.2.2.2 Chuẩn hóa biên độ 43 3.2.2.3 Phân khung 43 3.2.2.4 Lấy cửa sổ 43 3.2.2.5 Phổ lượng 43 3.2.2.6 Băng lọc Mel 44 3.2.2.7 Logarit hệ số lượng qua băng lọc 44 3.2.2.8 Biến đổi Cosine rời rạc ngược 45 3.2.2.9 Cepstral có trọng số 45 3.2.2.10 Đạo hàm Cepstral theo thời gian 45 3.3 Lượng tử hóa vector 46 3.3.1 Tập vector huấn luyện 46 3.3.2 Khoảng cách hai vector 47 3.3.3 Nhân tập vector 48 3.3.4 Phân cụm vector 48 Chương ỨNG DỤNG XÂY DỰNG HỆ THỐNG MÔ PHỎNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT BẰNG MẠNG NƠRON MLP TRÊN MATLAB 4.1 Giới thiệu 50 4.2 Xây dựng hệ thống nhận dạng demo 50 4.2.1 Mô tả chung hệ thống 50 4.2.2 Sơ đồ khối hệ thống 51 4.2.3 Thu thập tiền xử lí tín hiệu tiếng nói 52 4.2.4 Trích chọn đặc trưng MFCC 54 4.2.5 Tính đầu vào cho mạng 56 4.2.6 Xây dựng huấn luyện thử nghiệm mạng nơron MLP 58 4.2.7 Sử dụng mạng nhận dạng 59 4.2.8 Giao diện hệ thống demo: 59 4.3 Kết thử nghiệm 62 4.4 Hướng mở rộng đề tài 65 4.4.1 Xây dưng liêu huấn luyện lớn 65 4.4.2 Xây dựng phần mềm nhận dạng dưa kết nghiên cứu 65 4.4.3 Nghiên cứu phương pháp xác định đặc trưng khác 66 4.4.4 Nghiên cứu phương pháp nhận dạng khác 66 DANH MỤC HÌNH Hình 1-1: Mô hình lọc nguồn tạo tiếng nói Hình 1-2: Quá trình sản xuất thu nhận tiếng nói Hình 1-3: Mô hình toán xử lý tiếng nói 12 Hình 1-4: Hệ thống nhận dạng tiếng nói theo phương pháp nhận dạng mẫu 16 Hình 1-6: Tích hợp tri thức nhận dạng tiếng nói 19 Hình 2-1: Mạng tự kết hợp 22 Hình 2-2: Mạng kết hợp khác kiểu 23 Hình 2-3: Mạng truyền thẳng 23 Hình 2-4: Mạng phản hồi 24 Hình 2-5: Perceptron 24 Hình 2-6: Mạng MLP tổng quát 25 Hình 2-7: Mối liên hệ sai số kích thước mẫu 31 Hình 2-8: Huấn luyện luân phiên hai tập mẫu 35 Hình 3-1: Sơ đồ khối tính toán hệ số MFCC 42 Hình 4-1: Sơ đồ khối hệ thống nhận dạng tiếng nói chữ số tiếng Việt mạng nơron MLP môi trường Matlab 51 Hình 4-2: Từ ‘hai’ thu âm – bao gồm nhiễu 52 Hình 4-3: Từ ‘hai’ sau loại bỏ nhiễu 53 Hình 4-4: Xác định nhiễu từ môi trường thu âm 53 Hình 4-5: wav trước sau chuẩn hóa ngưỡng max(wav)=1 55 Hình 4-6: Mạng MLP gồm 40 đầu vào 11 đầu 56 Hình 4-7: Vector đầu vào gồm 40 phần tử, vector đầu gồm 11 phần tử 57 Hình 4-8: Các vector đầu vào đầu để huấn luyện mạng MLP 57 Hình 4-9: Giao diện hệ thống demo 59 Hình 4-10: Chức nhận dạng 60 Hình 4-11: Mẫu bảng điểm Excel (chưa có điểm) 61 Hình 4-12: Ứng dụng nhập điểm xuất sang Excel 61 Hình 4-13: Mẫu bảng điểm Excel (đã có điểm) 62 Tóm tắt luận văn: Họ tên học viên: Ngô Văn Cương Lớp: Hệ thống thông tin Khoá: 25A Cán hướng dẫn: PGS TS Bùi Thế Hồng Tên đề tài: Nghiên cứu kỹ thuật nhận dạng tiếng nói tiếng Việt ứng dụng Tóm tắt: Xây dựng hệ thống nhận dạng tiếng nói tiếng Việt dựa kỹ thuật sử dụng mạng nơron MLP (trên môi trường Matlab) Hệ thống vừa nhận dạng trực tuyến (thu âm trực tiếp nhận dạng) nhận dạng từ tệp âm có sẵn Ứng dụng hệ thống đọc điểm kết điểm số xuất sang bảng điểm Excel CÁC THUẬT NGỮ VIẾT TẮT Viết tắt Viết đầy đủ Tạm dịch nghĩa ASR Automatic Speech Recognition Nhận dạng tiếng nói tự động HMM Hide Markov Model Mô hình Markov ẩn IDFT Inverse Discrete Fourier Transform Biến đổi Fourier rời rạc ngược LPC Linear Prediction Coding Mã dự đoán tuyến tính MFCC Mel Frequency Cepstral Coefficients Hệ số phân tích phổ tần Mel TTS Text To Speech Chuyển văn thành tiếng nói STT Speech To Text Chuyển tiếng nói thành văn STE Short Time Energy Năng lượng ngắn hạn 57 liệu huấn luyện thuộc lớp k, thành phần thứ k vector 1, thành phần lại Ví dụ hình sau thể vector đầu vào vector đầu để huấn luyện số 1: Hình 4-7: Vector đầu vào gồm 40 phần tử, vector đầu gồm 11 phần tử Trong hệ thống thử nghiệm, tác giả chuẩn bị tập mẫu để huấn luyện chữ số 30 file âm mẫu Như chữ số có 30 vector đầu vào 30 vector đầu ra; 11 chữ số có 330 vector đầu vào với kích thước 40 phần tử (330x40) 330 vector đầu với kích thước 11 phần tử (330x11) Hình 4-8: Các vector đầu vào đầu để huấn luyện mạng MLP 58 4.2.6 Xây dựng huấn luyện thử nghiệm mạng nơron MLP Xây dựng huấn luyện thử nghiệm mạng có cấu trúc khác (về số nơron ẩn, kiểu hàm kích hoạt) tiến hành script sau: ketquaktra1=[]; erro1=[]; for hnodekt=1:30; kq=[];tl=[]; inode=40; onode=11; hnode=hnodekt*5; net = mlp(inode, hnode, onode, func, alpha); load data1; [net, error] = mlptrain(net, x, t, loop); %huan luyen mang moi dem=0; for i=1:onode for j=1:10 if i