Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 120 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
120
Dung lượng
3,82 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phùng Trung Nghĩa NHẬN DẠNG TIẾNG VIỆT SỬ DỤNG BIẾN ĐỔI WAVELET VÀ MƠ HÌNH MARKOV ẨN LUẬN VĂN THẠC SĨ Hà Nội - 2006 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phùng Trung Nghĩa NHẬN DẠNG TIẾNG VIỆT SỬ DỤNG BIẾN ĐỔI WAVELET VÀ MƠ HÌNH MARKOV ẨN Ngành: Cơng nghệ Điện tử - Viễn thông Chuyên ngành: Kỹ thuật vô tuyến điện tử thông tin liên lạc Mã số:2.07.00 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS TRỊNH ANH VŨ Hà Nội - 2006 MỤC LỤC Lời cam đoan Mục lục Danh mục ký hiệu, chữ viết tắt Danh mục bảng Danh mục hình vẽ, đồ thị MỞ ĐẦU 13 Chương TỔNG QUAN 17 1.1 Nhận dạng 17 1.2 Nhận dạng tiếng nói 18 1.2.1 Xử lý âm 18 1.2.2 Phân loại nhận dạng tiếng nói 19 1.2.2.1 Nhận dạng từ liên tục nhận dạng từ cách biệt 19 1.2.2.2 Nhận dạng phụ thuộc người nói độc lập người nói 20 1.2.3 Hệ thống nhận dạng tiếng nói tự động 21 1.2.4 Lý thuyết nhận dạng tiếng nói .23 1.2.4.1 Rút trích vector đặc trưng 23 1.2.4.2 Phân lớp .25 Chương XỬ LÝ TIẾNG NÓI - RÚT TRÍCH VECTOR ĐẶC TRƯNG 28 2.1 Xử lý tiếng nói 28 2.1.1 Lấy mẫu tín hiệu 28 2.1.2 Bộ lọc tín hiệu 29 2.1.3 Dị tìm điểm cuối (end-point detection) .30 2.2 Rút trích đặc trưng 31 2.2.1 Các bước rút trích đặc trưng 32 2.2.1.1 Làm rõ tín hiệu 33 2.2.1.2 Phân đoạn thành khung 33 2.2.1.3 Lấy cửa sổ 34 2.2.2 Các dạng đặc trưng tiếng nói 38 2.2.2.1 Biến đổi tín hiệu sang miền tần số 39 2.2.2.2 Đặc trưng lượng 41 2.2.2.3 Đặc trưng MFCC .42 2.2.2.4 Đặc trưng LPC 44 2.2.2.5 Đặc trưng tần số 47 Chương MƠ HÌNH MARKOV ẨN VÀ ỨNG DỤNG TRONG NHẬN DẠNG TIẾNG NÓI 55 3.1 Mơ hình Markov ẩn 55 3.2 Ứng dụng Mơ hình Markov vào nhận dạng tiếng nói .57 3.2.1 Thuật tốn tiến .58 3.2.2 Thuật toán lùi 59 3.2.3 Phương pháp tìm chuỗi trạng thái tối ưu .60 3.2.4 Thuật toán Viterbi 61 3.2.5 Ước lượng Baum-Welch 63 Chương BIẾN ĐỔI WAVELET VÀ ỨNG DỤNG TRONG XỬ LÝ VÀ NHẬN DẠNG TIẾNG NÓI 65 4.1 Mục đích ứng dụng phân tich wavelet 65 4.1.1 Biến đổi Fourier .65 4.1.2 Biến đổi Fourier thời gian ngắn .65 4.1.3 Biến đối wavelet .66 4.2 Các loại biến đổi Wavelet 67 4.2.1 Biến đổi Wavelet liên tục CWT .67 4.2.2.Biến đổi Wavelet rời rạc DWT 70 4.2.3 Biến đổi Wavelet gói 72 4.3 Ứng dụng biến đổi Wavelet xử lý nhiễu nâng cao chất lượng tiếng nói 73 4.3.1 Phương pháp truyền thống Dohono Johnstone 73 4.3.2 Phương pháp khử nhiễu kết hợp kỹ thuật trừ phổ wavelet .75 4.4 Ứng dụng biến đổi Wavelet nhận dạng tiếng nói 79 4.4.1 Tổng quan 79 4.4.2 Nhận dạng tiếng nói dùng CWT 79 4.4.3 Nhận dạng tiếng nói dùng DWT 81 4.4.4 So sánh SCWT, FWT vector đặc trưng truyền thống 83 4.5 Rút trích đặc trưng tiếng Việt dùng biến đổi Wavelet 84 4.5.1 Trích formant dùng CWT 84 4.5.2 Trích chu kỳ Pitch dùng CWT .87 Chương KHẢO SÁT VỀ NGỮ ÂM TIẾNG VIỆT ỨNG DỤNG XÂY DỰNG HỆ THỐNG NHẬN DẠNG THANH ĐIỆU TIẾNG VIỆT 90 5.1 Một số đặc trưng ngữ âm tiếng Việt 90 5.1.1 Thanh điệu 90 5.1.2 Âm vị 90 5.1.3 Trường độ 91 5.2 Một số khảo sát điệu tiếng Việt .91 5.2.1 Tổng quan 91 5.2.2 Thanh 1(thanh ngang) 91 5.2.3 Thanh (thanh huyền) 92 5.2.4 Thanh (thanh ngã) 92 5.2.5 Thanh (thanh hỏi) .94 5.2.6 Thanh (thanh sắc) .95 5.2.7 Thanh (thanh nặng) 96 5.3 Giải pháp nhận dạng theo mô hình âm vị .99 5.4 Xây dựng mơ hình nhận dạng điệu tiếng Việt 100 5.4.1 Khối tiền xử lý 100 5.4.2 Khối trích chu kỳ Pitch .101 5.4.3 Tạo vector đặc trưng V(F0) .101 5.4.4 Huấn luyện mơ hình 102 5.4.5 Nhận dạng 103 5.5 Các kết nhận dạng điệu 104 Chương XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT NGUYÊN TỪ RỜI RẠC HOÀN CHỈNH 106 6.1 Phương pháp sử dụng 106 6.1.1 Tổng quát 106 6.1.2 Tiền xử lý 106 6.1.3 Huấn luyện mẫu 106 6.1.4 Công đoạn nhận dạng 107 6.2 Cài đặt hệ thống nhận dạng tiếng Việt nguyên từ rời rạc hoàn chỉnh .108 6.2.1 Môi trường xây dựng 108 6.2.2 Bộ từ dùng cho huấn luyện nhận dạng 108 6.2.3 Tạo vector đặc trưng V(SCWT) 109 6.2.4 Phân lớp .109 6.2.5 Mơ hình HMM cho từ nhận dạng 109 6.2.6 Kết nhận dạng 110 KẾT LUẬN 112 Các kết đạt luận văn 112 Những vấn đề tồn biện pháp khắc phục 112 Các đề xuất .113 Hướng phát triển 113 Tài liệu tham khảo 115 DANH MỤC CÁC TỪ VIẾT TẮT VIẾT TẮT AMDF TIẾNG ANH Average Magnitude TIẾNG VIỆT Hàm hiệu biên độ trung bình Difference Function ANN Affriciant Neural Network Mạng Neural nhân tạo ASR Automatic Speech Recognition Hệ thống nhận dạng tiếng nói tự động CLIP Center Clipping Pitch Detector Phương pháp trích chu kỳ pitch CLIP COR Autocorrelation coefficients Các hệ số tự tương quan CTR Cofficient to Thershold Ratio Tỷ lệ hệ số ngưỡng CWT Continuous Wavelet Transform Biến đổi Wavelet liên tục DP Dynamic Programming Phương pháp lập trình Dynamic DTW Dynamic Time Warping Phương pháp nhận dạng tiếng nói DTW DWT Discrete Wavelet Transform Biến đổi Wavelet rời rạc FCT Fast Cosine Transform Biến đổi Cosine nhanh FFT Fast Fourier Transform Biến đổi Fourier nhanh FIR Finite Impulse Response Bộ lọc đáp ứng xung hữu hạn FT Fourier Transform Biến đổi Fourier FWT Fast Wavelet Transform Biến đổi Wavelet nhanh GMM Gausian Mixture Model Phương pháp nhận dạng GMM HMM Hidden Markov Model Mơ hình Markov ẩn IDWT Inverse Discrete Wavelet Biến đổi wavelet rời rạc ngược Transform IIR Infinite Impulse Response Bộ lọc đáp ứng xung vô hạn JPEG Joint Photographic Experts Chuẩn nén ảnh JPEG Group LAR Log Area Ratio coefficients Vector đặc trưng tiếng nói miền Logarit LPC Linear Prediction Filter Cofficient Hệ số tiên đốn tuyến tính LSP Line Spectrum Pairs Vector đặc trưng tiếng nói miền tần số LSP MFCC Mel Frequency Ceptral Hệ số tần số Ceptral thang Mel Cofficient MRA Multi-Resolution Analysis Phân tích đa phân giải PARCOR Partial Correlation Cofficients Hệ số tương quan thành phần PLP Perceptional Linear Prediction Hệ số tiên đoán tri giác tuyến tính SCWT Sampled Continuous Wavelet Biến đổi Wavelet liên tục rút gọn Transform SIFT Simplified Inverse Filter Phương pháp ước lượng lỗi SIFT Tracking STFT Short Time Fourier Transform Biến đổi Fourier thời gian ngắn SVM Support Vector Machine Phương pháp nhận dạng SVM VAD Voice Activity Detector Bộ phát tiếng nói VQ Vector Quantilization Phương pháp nhận dạng ước lượng vector VQ VUS Voice, Unvoice and Silence Kỹ thuật dị tìm điểm cuối theo mức lượng VUS WT Wavelet Transform Biến đổi Wavelet DANH SÁCH BẢNG BIỂU Bảng 2.1 Phân chia FFT chuỗi tín hiệu 16 điểm 41 Bảng 5.1 Kết nhận dạng điệu 105 Bảng 6.1 Kết phân lớp điệu 110 Bảng 6.2 Kết nhận dạng tập liệu huấn luyện 110 Bảng 6.3 Kết nhận dạng tập liệu .111 DANH SÁCH HÌNH VẼ Hình 1.1: Sơ đồ nhận dạng tổng qt .17 Hình 1.2: Các lĩnh vực xử lý tiếng nói 18 Hình 1.3: Ranh giới “cô” “ấy” không rõ ràng 19 Hình 1.4: Người nói khác phát âm khác 21 Hình 1.5: Mơ hình nhận dạng bán độc lập người nói 21 Hình 1.6: Các thành phần hệ thống ASR .22 Hình 1.7: Các dạng cửa sổ thường dùng 24 Hình 1.8: Tổng quát trình rút trích vector đặc trưng 25 Hình 1.9: Các kỹ thuật nhận dạng tiếng nói xu hướng phát triển .25 Hình 1.10: HMM với trạng thái trọng số chuyển trạng thái 27 Hình 2.1: Ví dụ lấy mẫu tín hiệu f(t) miền thời gian 28 Hình 2.2: Minh họa hoạt động lọc FIR 30 Hình 2.3: Minh họa hoạt động lọc IIR .30 Hình 2.4: Dị tìm điểm cuối dựa vào mức lượng 31 Hình 2.5: Sơ đồ rút trích vector đặc trưng tổng quát .32 Hình 2.6: Sơ đồ rút trích đặc trưng chi tiết 32 Hình 2.7: Phân đoạn tiếng nói thành khung chồng lấp 34 Hình 2.8a Âm „a‟ cửa sổ chữ nhật 512 điểm (45ms trái) 64 điểm (5,6ms phải) .36 Hình 2.8b Âm „a‟ cửa sổ Hamming 512 điểm (45ms trái) 64 điểm (5,6ms phải) .36 Hình 2.8c Âm „a‟ cửa sổ Hanning 512 điểm (45ms trái) 64 điểm (5,6ms phải) .37 Hình 2.9: Sự khác biệt dạng cửa sổ tín hiệu 38 Hình 2.10: Đồ thị biểu diễn mối quan hệ Mel Hz 42 Hình 2.11: Các bước trích đặc trưng MFCC 43 ... số 47 Chương MƠ HÌNH MARKOV ẨN VÀ ỨNG DỤNG TRONG NHẬN DẠNG TIẾNG NÓI 55 3.1 Mơ hình Markov ẩn 55 3.2 Ứng dụng Mơ hình Markov vào nhận dạng tiếng nói .57 3.2.1... 63 Chương BIẾN ĐỔI WAVELET VÀ ỨNG DỤNG TRONG XỬ LÝ VÀ NHẬN DẠNG TIẾNG NÓI 65 4.1 Mục đích ứng dụng phân tich wavelet 65 4.1.1 Biến đổi Fourier .65 4.1.2 Biến đổi Fourier... dụng cao thực tiễn Vì nghiên cứu nhận dạng tiếng Việt hướng nghiên cứu “nóng” thời gian tới Việt Nam Biến đổi wavelet đời ví cách mạng lĩnh vực xử lý tín hiệu, biến đổi wavelet sử dụng thay biến