MỤC LỤC Trang MỤC LỤC ................................................................................................................. i DANH MỤC CÁC TỪVIẾT TẮT VÀ THUẬT NGỮ........................................ v DANH MỤC BẢNG ............................................................................................. viii DANH MỤC HÌNH ẢNH ...................................................................................... ix TÓM TẮT LUẬN VĂN ......................................................................................... xi Chương 1 – GIỚI THIỆU ....................................................................................... 1 1.1. Dẫn nhập ................................................................................................. 1 1.2. Sinh trắc học ............................................................................................ 2 1.2.1. Khái quát ...................................................................................... 2 1.2.2. Kiến trúc cơbản của một hệthống sinh trắc ............................... 3 1.3. Bài toán nhận dạng người nói ................................................................. 4 1.4. Các hướng tiếp cận .................................................................................. 7 1.4.1. Nhóm phụthuộc văn bản ............................................................. 7 1.4.2. Nhóm độc lập văn bản ................................................................. 8 1.5. Tiếp cận của đềtài .................................................................................. 8 Chương 2 – HỆTHỐNG ĐỊNH DANH NGƯỜI NÓI ...................................... 11 2.1. Mô hình tổng quát ................................................................................. 11 ii 2.2. Lấy mẫu tiếng nói ................................................................................. 12 2.3. Rút trích đặc trưng ................................................................................ 12 2.3.1. Chia frame ................................................................................. 14 2.3.2. Biến đổi Fourier rời rạc ............................................................. 16 2.3.3. Mel filter bank ........................................................................... 18 2.3.4. Biến đổi Cosine rời rạc .............................................................. 20 2.4. Dò tìm năng lượng ................................................................................ 21 2.5. Chuẩn hóa đặc trưng ............................................................................. 21 2.6. Xây dựng mô hình người nói ................................................................ 21 2.7. Nhận dạng ............................................................................................. 22 2.7.1. Identification .............................................................................. 23 2.7.2. Verification ................................................................................ 24 2.8. Score normalization .............................................................................. 25 2.8.1. World Model Normalization ..................................................... 25 2.8.2. Cohort Normalization ................................................................ 26 2.8.3. Unconstraint Cohort Normalization .......................................... 26 2.9. Một sốhệthống định danh người nói ................................................... 27 2.9.1. Hệthống Vector Quantization ................................................... 27 2.9.2. Hệthống GMM .......................................................................... 28 2.9.3. Các hệthống khác ...................................................................... 29 Chương 3 – MÔ HÌNH MARKOV ẨN HỢP GAUSS ....................................... 30 3.1. Gaussian Mixture Model ....................................................................... 30 3.1.1. Đặc tảmô hình ........................................................................... 30 3.1.2. Ước lượng tham số.................................................................... 33 iii 3.2. Hidden Markov Model .......................................................................... 34 3.2.1. Mô hình Markov ........................................................................ 34 3.2.2. Mô hình Markov ẩn ................................................................... 36 3.2.3. Ba bài toán cơbản của HMM .................................................... 39 3.2.3.1. Bài toán 1 – evaluation problem .................................. 40 3.2.3.2. Bài toán 2 – decoding problem .................................... 42 3.2.3.3. Bài toán 3 – learning problem ..................................... 44 3.3. Mixture of Gaussians Hidden Markov Model ...................................... 46 3.3.1. Đặc tảmô hình ........................................................................... 46 3.3.2. Huấn luyện tham số................................................................... 48 3.3.3. Khởi tạo tham số........................................................................ 51 3.3.3.1. Thuật toán k-means ..................................................... 51 3.3.3.2. Khởi tạo mô hình MGHMM ....................................... 52 3.4. MGHMM và bài toán định danh người nói .......................................... 53 3.4.1. Xây dựng mô hình ..................................................................... 53 3.4.2. Identification .............................................................................. 54 3.4.3. Verification ................................................................................ 55 Chương 4 – THỰC NGHIỆM .............................................................................. 57 4.1. Dữliệu thực nghiệm .............................................................................. 57 4.2. Các độ đo đánh giá ................................................................................ 59 4.3. Tham sốmô hình ................................................................................... 61 4.3.1. Sốvòng lặp huấn luyện .............................................................. 62 4.3.2. Kích thước nhóm K của phương pháp UCN ............................. 63 4.3.3. Cấu hình MGHMM ................................................................... 64 4.4. Hiệu suất hệthống ................................................................................. 65
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN PHẠM MINH NHỰT ĐỊNH DANH NGƯỜI NĨI ĐỘC LẬP VĂN BẢN BẰNG MƠ HÌNH THỐNG KÊ LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thành phố Hồ Chí Minh – 2009 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN PHẠM MINH NHỰT ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MƠ HÌNH THỐNG KÊ Ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC TS VŨ HẢI QUÂN Thành phố Hồ Chí Minh – 2009 LỜI CẢM ƠN Xin chân thành cám ơn khoa Công nghệ Thông tin trường Đại học Khoa học Tự nhiên tạo điều kiện thuận lợi giúp đỡ em hoàn thành tốt khóa luận tốt nghiệp Xin chân thành cám ơn Thầy Vũ Hải Quân tận tình dạy giúp đỡ em q trình làm khóa luận, khơng có hướng dẫn tận tình thầy, khóa luận khơng thể hồn thành tốt Xin chân thành cám ơn thầy cô khoa Công nghệ Thơng tin tận tình dạy, trang bị kiến thức cho em suốt khóa học Xin chân thành cám ơn gia đình, ơng bà, cha mẹ chăm sóc, ni dưỡng tạo điều kiện cho hồn thành tốt khóa luận Xin cảm ơn anh chị trước để lại kiến thức bổ ích Cảm ơn anh chị bạn nhóm nghiên cứu xử lý tiếng nói giúp đỡ trình làm luận văn Xin cám ơn người bạn giúp đỡ cho việc thu âm xây dựng liệu tiếng nói Mặc dù cố gắng để hồn thành khóa luận, song khơng thể tránh khỏi sai sót Kính mong nhận nhận xét đóng góp quý Thầy Cô bạn bè Học viên thực Phạm Minh Nhựt i MỤC LỤC Trang MỤC LỤC i DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ v DANH MỤC BẢNG viii DANH MỤC HÌNH ẢNH ix TÓM TẮT LUẬN VĂN xi Chương – GIỚI THIỆU 1.1 Dẫn nhập 1.2 Sinh trắc học 1.2.1 Khái quát 1.2.2 Kiến trúc hệ thống sinh trắc 1.3 Bài tốn nhận dạng người nói 1.4 Các hướng tiếp cận 1.4.1 Nhóm phụ thuộc văn 1.4.2 Nhóm độc lập văn 1.5 Tiếp cận đề tài Chương – HỆ THỐNG ĐỊNH DANH NGƯỜI NÓI 11 2.1 Mơ hình tổng qt 11 ii 2.2 Lấy mẫu tiếng nói 12 2.3 Rút trích đặc trưng 12 2.3.1 Chia frame 14 2.3.2 Biến đổi Fourier rời rạc 16 2.3.3 Mel filter bank 18 2.3.4 Biến đổi Cosine rời rạc 20 2.4 Dị tìm lượng 21 2.5 Chuẩn hóa đặc trưng 21 2.6 Xây dựng mơ hình người nói 21 2.7 Nhận dạng 22 2.7.1 Identification 23 2.7.2 Verification 24 2.8 Score normalization 25 2.8.1 World Model Normalization 25 2.8.2 Cohort Normalization 26 2.8.3 Unconstraint Cohort Normalization 26 2.9 Một số hệ thống định danh người nói 27 2.9.1 Hệ thống Vector Quantization 27 2.9.2 Hệ thống GMM 28 2.9.3 Các hệ thống khác 29 Chương – MƠ HÌNH MARKOV ẨN HỢP GAUSS 30 3.1 Gaussian Mixture Model 30 3.1.1 Đặc tả mơ hình 30 3.1.2 Ước lượng tham số 33 iii 3.2 Hidden Markov Model 34 3.2.1 Mơ hình Markov 34 3.2.2 Mơ hình Markov ẩn 36 3.2.3 Ba toán HMM 39 3.2.3.1 Bài toán – evaluation problem 40 3.2.3.2 Bài toán – decoding problem 42 3.2.3.3 Bài toán – learning problem 44 3.3 Mixture of Gaussians Hidden Markov Model 46 3.3.1 Đặc tả mơ hình 46 3.3.2 Huấn luyện tham số 48 3.3.3 Khởi tạo tham số 51 3.3.3.1 Thuật toán k-means 51 3.3.3.2 Khởi tạo mơ hình MGHMM 52 3.4 MGHMM tốn định danh người nói 53 3.4.1 Xây dựng mô hình 53 3.4.2 Identification 54 3.4.3 Verification 55 Chương – THỰC NGHIỆM 57 4.1 Dữ liệu thực nghiệm 57 4.2 Các độ đo đánh giá 59 4.3 Tham số mô hình 61 4.3.1 Số vòng lặp huấn luyện 62 4.3.2 Kích thước nhóm K phương pháp UCN 63 4.3.3 Cấu hình MGHMM 64 4.4 Hiệu suất hệ thống 65 iv Chương – KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 66 5.1 Kết luận 66 5.2 Hướng phát triển 66 TÀI LIỆU THAM KHẢO 67 v DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ Ký hiệu - Thuật ngữ Tạm dịch ANN Artificial Neural Network Mạng neuron nhân tạo ASI Automatic Speaker Identification Định danh người nói tự động ASR Automatic Speaker Recognition Nhận dạng người nói tự động ASV Automatic Speaker Verification Xác minh người nói tự động - Biometrics Sinh trắc học - Closed-set Speaker Identification Định danh người nói tập liệu đóng CN Cohort Normalization Chuẩn hóa nhóm DCT Discrete Cosine Transform Biến đổi Cosine rời rạc DET Detection Error Trade-off Đường tương quan lỗi DFT Discrete Fourier Transform Biến đổi Fourier rời rạc DTW Dynamic Time Warping - EER Equal Error Rate Tỉ lệ cân lỗi EM Expectation Maximization - FAR False Acceptance Rate Tỉ lệ nhận sai mẫu giả FFT Fast Fourier Transform Biến đổi Fourier (nhanh) vi Ký hiệu - Thuật ngữ Tạm dịch FRR False Rejection Rate Tỉ lệ bỏ sai mẫu thật - Feature Extraction Rút trích đặc trưng GHMM Gaussian Hidden Markov Model Mơ hình Markov ẩn đơn Gauss GMM Gaussian Mixture Model Mơ hình hợp Gauss HMM Hidden Markov Model Mơ hình Markov ẩn - Identification Định danh IER Identification Error Rate Tỉ lệ định danh/phân lớp sai LSP Line Spectral Pairs - MFCC Mel-Frequency Cepstral - Coefficients MGHMM Mixture of Gaussians Hidden Mơ hình Markov ẩn hợp Gauss Markov Model - Open-set Speaker Identification Định danh người nói tập liệu mở - Pitch Contour / Đường tần số gốc Fundamental Frequency Contour - Score Normalization Chuẩn hóa điểm - Speaker Người nói vii Ký hiệu - Thuật ngữ Tạm dịch - Speaker Model Mơ hình người nói SVM Support Vector Machine - - Text-Dependent Phụ thuộc văn - Text-Independent Độc lập văn UCN Unconstraint Cohort Chuẩn hóa nhóm tự Normalization VQ Vector Quantization - - Verification Xác minh WMN World Model Normalization - ... 63 Hình 4.6 Hiệu suất xác minh hệ thống 65 xi TÓM TẮT LUẬN VĂN Luận văn áp dụng mơ hình Markov ẩn hợp Gauss giải tốn định danh người nói độc lập văn tập liệu mở Mỗi người nói mơ hình. .. HỌC KHOA HỌC TỰ NHIÊN PHẠM MINH NHỰT ĐỊNH DANH NGƯỜI NĨI ĐỘC LẬP VĂN BẢN BẰNG MƠ HÌNH THỐNG KÊ Ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC TS VŨ HẢI QUÂN... thuộc Văn (theo thể thức lời thoại) Định danh Người nói (theo thể thức nhận dạng) N.N Độc lập Văn (theo thể thức lời thoại) - N.N : Nhận dạng Người nói Hình 1.3: Các lĩnh vực nhận dạng tiếng nói