1. Trang chủ
  2. » Luận Văn - Báo Cáo

ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ

84 716 4

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 84
Dung lượng 2,43 MB

Nội dung

MỤC LỤC Trang MỤC LỤC ................................................................................................................. i DANH MỤC CÁC TỪVIẾT TẮT VÀ THUẬT NGỮ........................................ v DANH MỤC BẢNG ............................................................................................. viii DANH MỤC HÌNH ẢNH ...................................................................................... ix TÓM TẮT LUẬN VĂN ......................................................................................... xi Chương 1 – GIỚI THIỆU ....................................................................................... 1 1.1. Dẫn nhập ................................................................................................. 1 1.2. Sinh trắc học ............................................................................................ 2 1.2.1. Khái quát ...................................................................................... 2 1.2.2. Kiến trúc cơbản của một hệthống sinh trắc ............................... 3 1.3. Bài toán nhận dạng người nói ................................................................. 4 1.4. Các hướng tiếp cận .................................................................................. 7 1.4.1. Nhóm phụthuộc văn bản ............................................................. 7 1.4.2. Nhóm độc lập văn bản ................................................................. 8 1.5. Tiếp cận của đềtài .................................................................................. 8 Chương 2 – HỆTHỐNG ĐỊNH DANH NGƯỜI NÓI ...................................... 11 2.1. Mô hình tổng quát ................................................................................. 11 ii 2.2. Lấy mẫu tiếng nói ................................................................................. 12 2.3. Rút trích đặc trưng ................................................................................ 12 2.3.1. Chia frame ................................................................................. 14 2.3.2. Biến đổi Fourier rời rạc ............................................................. 16 2.3.3. Mel filter bank ........................................................................... 18 2.3.4. Biến đổi Cosine rời rạc .............................................................. 20 2.4. Dò tìm năng lượng ................................................................................ 21 2.5. Chuẩn hóa đặc trưng ............................................................................. 21 2.6. Xây dựng mô hình người nói ................................................................ 21 2.7. Nhận dạng ............................................................................................. 22 2.7.1. Identification .............................................................................. 23 2.7.2. Verification ................................................................................ 24 2.8. Score normalization .............................................................................. 25 2.8.1. World Model Normalization ..................................................... 25 2.8.2. Cohort Normalization ................................................................ 26 2.8.3. Unconstraint Cohort Normalization .......................................... 26 2.9. Một sốhệthống định danh người nói ................................................... 27 2.9.1. Hệthống Vector Quantization ................................................... 27 2.9.2. Hệthống GMM .......................................................................... 28 2.9.3. Các hệthống khác ...................................................................... 29 Chương 3 – MÔ HÌNH MARKOV ẨN HỢP GAUSS ....................................... 30 3.1. Gaussian Mixture Model ....................................................................... 30 3.1.1. Đặc tảmô hình ........................................................................... 30 3.1.2. Ước lượng tham số.................................................................... 33 iii 3.2. Hidden Markov Model .......................................................................... 34 3.2.1. Mô hình Markov ........................................................................ 34 3.2.2. Mô hình Markov ẩn ................................................................... 36 3.2.3. Ba bài toán cơbản của HMM .................................................... 39 3.2.3.1. Bài toán 1 – evaluation problem .................................. 40 3.2.3.2. Bài toán 2 – decoding problem .................................... 42 3.2.3.3. Bài toán 3 – learning problem ..................................... 44 3.3. Mixture of Gaussians Hidden Markov Model ...................................... 46 3.3.1. Đặc tảmô hình ........................................................................... 46 3.3.2. Huấn luyện tham số................................................................... 48 3.3.3. Khởi tạo tham số........................................................................ 51 3.3.3.1. Thuật toán k-means ..................................................... 51 3.3.3.2. Khởi tạo mô hình MGHMM ....................................... 52 3.4. MGHMM và bài toán định danh người nói .......................................... 53 3.4.1. Xây dựng mô hình ..................................................................... 53 3.4.2. Identification .............................................................................. 54 3.4.3. Verification ................................................................................ 55 Chương 4 – THỰC NGHIỆM .............................................................................. 57 4.1. Dữliệu thực nghiệm .............................................................................. 57 4.2. Các độ đo đánh giá ................................................................................ 59 4.3. Tham sốmô hình ................................................................................... 61 4.3.1. Sốvòng lặp huấn luyện .............................................................. 62 4.3.2. Kích thước nhóm K của phương pháp UCN ............................. 63 4.3.3. Cấu hình MGHMM ................................................................... 64 4.4. Hiệu suất hệthống ................................................................................. 65

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN PHẠM MINH NHỰT ĐỊNH DANH NGƯỜI NĨI ĐỘC LẬP VĂN BẢN BẰNG MƠ HÌNH THỐNG KÊ LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thành phố Hồ Chí Minh – 2009 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN PHẠM MINH NHỰT ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MƠ HÌNH THỐNG KÊ Ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC TS VŨ HẢI QUÂN Thành phố Hồ Chí Minh – 2009 LỜI CẢM ƠN Xin chân thành cám ơn khoa Công nghệ Thông tin trường Đại học Khoa học Tự nhiên tạo điều kiện thuận lợi giúp đỡ em hoàn thành tốt khóa luận tốt nghiệp Xin chân thành cám ơn Thầy Vũ Hải Quân tận tình dạy giúp đỡ em q trình làm khóa luận, khơng có hướng dẫn tận tình thầy, khóa luận khơng thể hồn thành tốt Xin chân thành cám ơn thầy cô khoa Công nghệ Thơng tin tận tình dạy, trang bị kiến thức cho em suốt khóa học Xin chân thành cám ơn gia đình, ơng bà, cha mẹ chăm sóc, ni dưỡng tạo điều kiện cho hồn thành tốt khóa luận Xin cảm ơn anh chị trước để lại kiến thức bổ ích Cảm ơn anh chị bạn nhóm nghiên cứu xử lý tiếng nói giúp đỡ trình làm luận văn Xin cám ơn người bạn giúp đỡ cho việc thu âm xây dựng liệu tiếng nói Mặc dù cố gắng để hồn thành khóa luận, song khơng thể tránh khỏi sai sót Kính mong nhận nhận xét đóng góp quý Thầy Cô bạn bè Học viên thực Phạm Minh Nhựt i MỤC LỤC Trang MỤC LỤC i DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ v DANH MỤC BẢNG viii DANH MỤC HÌNH ẢNH ix TÓM TẮT LUẬN VĂN xi Chương – GIỚI THIỆU 1.1 Dẫn nhập 1.2 Sinh trắc học 1.2.1 Khái quát 1.2.2 Kiến trúc hệ thống sinh trắc 1.3 Bài tốn nhận dạng người nói 1.4 Các hướng tiếp cận 1.4.1 Nhóm phụ thuộc văn 1.4.2 Nhóm độc lập văn 1.5 Tiếp cận đề tài Chương – HỆ THỐNG ĐỊNH DANH NGƯỜI NÓI 11 2.1 Mơ hình tổng qt 11 ii 2.2 Lấy mẫu tiếng nói 12 2.3 Rút trích đặc trưng 12 2.3.1 Chia frame 14 2.3.2 Biến đổi Fourier rời rạc 16 2.3.3 Mel filter bank 18 2.3.4 Biến đổi Cosine rời rạc 20 2.4 Dị tìm lượng 21 2.5 Chuẩn hóa đặc trưng 21 2.6 Xây dựng mơ hình người nói 21 2.7 Nhận dạng 22 2.7.1 Identification 23 2.7.2 Verification 24 2.8 Score normalization 25 2.8.1 World Model Normalization 25 2.8.2 Cohort Normalization 26 2.8.3 Unconstraint Cohort Normalization 26 2.9 Một số hệ thống định danh người nói 27 2.9.1 Hệ thống Vector Quantization 27 2.9.2 Hệ thống GMM 28 2.9.3 Các hệ thống khác 29 Chương – MƠ HÌNH MARKOV ẨN HỢP GAUSS 30 3.1 Gaussian Mixture Model 30 3.1.1 Đặc tả mơ hình 30 3.1.2 Ước lượng tham số 33 iii 3.2 Hidden Markov Model 34 3.2.1 Mơ hình Markov 34 3.2.2 Mơ hình Markov ẩn 36 3.2.3 Ba toán HMM 39 3.2.3.1 Bài toán – evaluation problem 40 3.2.3.2 Bài toán – decoding problem 42 3.2.3.3 Bài toán – learning problem 44 3.3 Mixture of Gaussians Hidden Markov Model 46 3.3.1 Đặc tả mơ hình 46 3.3.2 Huấn luyện tham số 48 3.3.3 Khởi tạo tham số 51 3.3.3.1 Thuật toán k-means 51 3.3.3.2 Khởi tạo mơ hình MGHMM 52 3.4 MGHMM tốn định danh người nói 53 3.4.1 Xây dựng mô hình 53 3.4.2 Identification 54 3.4.3 Verification 55 Chương – THỰC NGHIỆM 57 4.1 Dữ liệu thực nghiệm 57 4.2 Các độ đo đánh giá 59 4.3 Tham số mô hình 61 4.3.1 Số vòng lặp huấn luyện 62 4.3.2 Kích thước nhóm K phương pháp UCN 63 4.3.3 Cấu hình MGHMM 64 4.4 Hiệu suất hệ thống 65 iv Chương – KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 66 5.1 Kết luận 66 5.2 Hướng phát triển 66 TÀI LIỆU THAM KHẢO 67 v DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ Ký hiệu - Thuật ngữ Tạm dịch ANN Artificial Neural Network Mạng neuron nhân tạo ASI Automatic Speaker Identification Định danh người nói tự động ASR Automatic Speaker Recognition Nhận dạng người nói tự động ASV Automatic Speaker Verification Xác minh người nói tự động - Biometrics Sinh trắc học - Closed-set Speaker Identification Định danh người nói tập liệu đóng CN Cohort Normalization Chuẩn hóa nhóm DCT Discrete Cosine Transform Biến đổi Cosine rời rạc DET Detection Error Trade-off Đường tương quan lỗi DFT Discrete Fourier Transform Biến đổi Fourier rời rạc DTW Dynamic Time Warping - EER Equal Error Rate Tỉ lệ cân lỗi EM Expectation Maximization - FAR False Acceptance Rate Tỉ lệ nhận sai mẫu giả FFT Fast Fourier Transform Biến đổi Fourier (nhanh) vi Ký hiệu - Thuật ngữ Tạm dịch FRR False Rejection Rate Tỉ lệ bỏ sai mẫu thật - Feature Extraction Rút trích đặc trưng GHMM Gaussian Hidden Markov Model Mơ hình Markov ẩn đơn Gauss GMM Gaussian Mixture Model Mơ hình hợp Gauss HMM Hidden Markov Model Mơ hình Markov ẩn - Identification Định danh IER Identification Error Rate Tỉ lệ định danh/phân lớp sai LSP Line Spectral Pairs - MFCC Mel-Frequency Cepstral - Coefficients MGHMM Mixture of Gaussians Hidden Mơ hình Markov ẩn hợp Gauss Markov Model - Open-set Speaker Identification Định danh người nói tập liệu mở - Pitch Contour / Đường tần số gốc Fundamental Frequency Contour - Score Normalization Chuẩn hóa điểm - Speaker Người nói vii Ký hiệu - Thuật ngữ Tạm dịch - Speaker Model Mơ hình người nói SVM Support Vector Machine - - Text-Dependent Phụ thuộc văn - Text-Independent Độc lập văn UCN Unconstraint Cohort Chuẩn hóa nhóm tự Normalization VQ Vector Quantization - - Verification Xác minh WMN World Model Normalization - ... 63 Hình 4.6 Hiệu suất xác minh hệ thống 65 xi TÓM TẮT LUẬN VĂN Luận văn áp dụng mơ hình Markov ẩn hợp Gauss giải tốn định danh người nói độc lập văn tập liệu mở Mỗi người nói mơ hình. .. HỌC KHOA HỌC TỰ NHIÊN PHẠM MINH NHỰT ĐỊNH DANH NGƯỜI NĨI ĐỘC LẬP VĂN BẢN BẰNG MƠ HÌNH THỐNG KÊ Ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC TS VŨ HẢI QUÂN... thuộc Văn (theo thể thức lời thoại) Định danh Người nói (theo thể thức nhận dạng) N.N Độc lập Văn (theo thể thức lời thoại) - N.N : Nhận dạng Người nói Hình 1.3: Các lĩnh vực nhận dạng tiếng nói

Ngày đăng: 08/12/2013, 10:04

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Ariyaeeinia A., Fortuna J., Sivakumaran P. and Malegaonkar A. (2006), “Verification effectiveness in open-set speaker identification,” Vision, Image and Signal Processing, IEE Proceedings, vol. 153, issue 5, pp. 618-624 Sách, tạp chí
Tiêu đề: Verification effectiveness in open-set speaker identification,” "Vision, Image and Signal Processing, IEE Proceedings
Tác giả: Ariyaeeinia A., Fortuna J., Sivakumaran P. and Malegaonkar A
Năm: 2006
[2] Bilmes J.A. ( 1998 ), “A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models,” Technical Report ICSI-TR-97-021, University of Berkeley , California Sách, tạp chí
Tiêu đề: A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models,” "Technical Report ICSI-TR-97-021
[3] Bonastre J.F., Scheffer N., Matrouf D., Fredouille C., Larcher A., Preti A., Pouchoulin G., Evans N., Fauve B., and Mason J.S. (2008), “Alize/spkdet: a state-of-the-art open source software for speaker recognition,” Proc. Speaker Odyssey Sách, tạp chí
Tiêu đề: Alize/spkdet: a state-of-the-art open source software for speaker recognition,”
Tác giả: Bonastre J.F., Scheffer N., Matrouf D., Fredouille C., Larcher A., Preti A., Pouchoulin G., Evans N., Fauve B., and Mason J.S
Năm: 2008
[4] Campbell J.P. (1997) "Speaker Recognition: A Tutorial", Proceedings of The IEEE, Vol. 85, No. 9, pp. 1437 - 1462 Sách, tạp chí
Tiêu đề: Speaker Recognition: A Tutorial
[5] Doddington G. (1985), “Speaker recognition - Identifying people by their voices,” Proceedings of the IEEE 73, 11, pp. 1651–1164 Sách, tạp chí
Tiêu đề: Speaker recognition - Identifying people by their voices,” "Proceedings of the IEEE
Tác giả: Doddington G
Năm: 1985
[6] Duda R.O., Hart P.E., Stork D.G. (2001), Pattern Classification, A Wiley- Interscience Publication, Wiley-Interscience, New York Sách, tạp chí
Tiêu đề: Pattern Classification
Tác giả: Duda R.O., Hart P.E., Stork D.G
Năm: 2001
[7] Farrell K., Mammone R., Assaleh K. (1994), “Speaker recognition using neural networks and conventional classifiers,” IEEE Trans. on Speech and Audio Processing 2, 1, pp. 194–205 Sách, tạp chí
Tiêu đề: Speaker recognition using neural networks and conventional classifiers,” "IEEE Trans. on Speech and Audio Processing
Tác giả: Farrell K., Mammone R., Assaleh K
Năm: 1994
[8] Furui S. (1981), “Cepstral analysis technique for automatic speaker verification,” IEEE Transactions on Acoustics, Speech and Signal Processing 29, 2, pp. 254–272 Sách, tạp chí
Tiêu đề: Cepstral analysis technique for automatic speaker verification,” "IEEE Transactions on Acoustics, Speech and Signal Processing
Tác giả: Furui S
Năm: 1981
[9] Gannert T. (2007), A Speaker Verification System under the Scope: Alize, Master’s Thesis, KTH Computer Science and Communication, Sweden Sách, tạp chí
Tiêu đề: A Speaker Verification System under the Scope: Alize
Tác giả: Gannert T
Năm: 2007
[10] Gersho A., Gray R. (1991), Vector Quantization and Signal Compression, Kluwer Academic Publishers, Boston Sách, tạp chí
Tiêu đề: Vector Quantization and Signal Compression
Tác giả: Gersho A., Gray R
Năm: 1991
[11] Gish H. and Schmidt M. (1994) “Text-independent Speaker Identification,” IEEE Signal Processing Magazine 11, pp. 18–32 Sách, tạp chí
Tiêu đề: Text-independent Speaker Identification,” "IEEE Signal Processing Magazine
[12] Kinnunen T. (2003), Spectral Features for Automatic Text-independent Speaker Recognition, Licentiate’s Thesis, University of Joensuu, Finland Sách, tạp chí
Tiêu đề: Spectral Features for Automatic Text-independent Speaker Recognition
Tác giả: Kinnunen T
Năm: 2003
[13] Lapidot I., Guterman H. and Cohen A. (2002), “Unsupervised speaker recognition based on competition between self-organizing maps,” IEEE Transactions on Neural Networks 13, pp. 877–887 Sách, tạp chí
Tiêu đề: Unsupervised speaker recognition based on competition between self-organizing maps,” "IEEE Transactions on Neural Networks
Tác giả: Lapidot I., Guterman H. and Cohen A
Năm: 2002
[14] Mammone R., Zhang X., Ramachandran R. (1996), “Robust speaker recognition: a feature based approach,” IEEE Signal Processing Magazine 13, 5, pp. 58–71 Sách, tạp chí
Tiêu đề: Robust speaker recognition: a feature based approach,” "IEEE Signal Processing Magazine
Tác giả: Mammone R., Zhang X., Ramachandran R
Năm: 1996
[15] Price R.C., Willmore J.P., Roberts W.J.J., Zyga K.J. (2000), “Genetically optimised Feedforward Neural Networks for Speaker Identification,”Proceedings of Fourth International Conference on Knowledge-Based Intelligent Engineering Systems and Allied Technologies, vol. 2, pp. 479-482 Sách, tạp chí
Tiêu đề: Genetically optimised Feedforward Neural Networks for Speaker Identification,”"Proceedings of Fourth International Conference on Knowledge-Based Intelligent Engineering Systems and Allied Technologies
Tác giả: Price R.C., Willmore J.P., Roberts W.J.J., Zyga K.J
Năm: 2000
[16] Rabiner L.R. (1989), “A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition,” Proceeding of the IEEE, vol. 77, no. 2, pp. 257-286 Sách, tạp chí
Tiêu đề: A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition,” "Proceeding of the IEEE
Tác giả: Rabiner L.R
Năm: 1989
[17] Reynolds D.A., Heck L.P. (2000), “Automatic Speaker Recognition - Recent Progress, Current Applications, and Future Trends,” AAAS 2000 Meeting - Humans, Computers and Speech Symposium Sách, tạp chí
Tiêu đề: Automatic Speaker Recognition - Recent Progress, Current Applications, and Future Trends,”
Tác giả: Reynolds D.A., Heck L.P
Năm: 2000
[18] Reynolds D.A., Quatieri T.F., Dunn R.B. (2000), “Speaker Verification Using Adapted Gaussian Mixture Models,” Digital Signal Processing 10, pp. 19–41 Sách, tạp chí
Tiêu đề: Speaker Verification Using Adapted Gaussian Mixture Models,” "Digital Signal Processing
Tác giả: Reynolds D.A., Quatieri T.F., Dunn R.B
Năm: 2000
[19] Reynolds D.A., Rose R.C. (1995), “Robust Text-independent Speaker Identification Using Gaussian Mixture Speaker Models,” IEEE Transactions on Speech and Audio Processing, vol. 3, no. 1, pp. 72-83 Sách, tạp chí
Tiêu đề: Robust Text-independent Speaker Identification Using Gaussian Mixture Speaker Models,” "IEEE Transactions on Speech and Audio Processing
Tác giả: Reynolds D.A., Rose R.C
Năm: 1995
[20] Sanchez J.B. (2005), Speaker Identification based on an Integrated System Combining Cepstral Feature Extraction and Vector Quantization, Master’s Thesis, The Florida State University College of Engineering, USA Sách, tạp chí
Tiêu đề: Speaker Identification based on an Integrated System Combining Cepstral Feature Extraction and Vector Quantization
Tác giả: Sanchez J.B
Năm: 2005

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Phân loại sinh trắc học. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 1.1 Phân loại sinh trắc học (Trang 17)
Hình 1.2: Các thành phần chính của một hệ thống sinh trắc. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 1.2 Các thành phần chính của một hệ thống sinh trắc (Trang 18)
Hình 1.3: Các lĩnh vực về nhận dạng tiếng nói. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 1.3 Các lĩnh vực về nhận dạng tiếng nói (Trang 19)
Hình 1.4: Phân biệt ASV và ASI. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 1.4 Phân biệt ASV và ASI (Trang 20)
Hình 1.6: Phân loại mô hình Markov ẩn. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 1.6 Phân loại mô hình Markov ẩn (Trang 23)
Hình 2.1: Cơ chế hoạt động của một hệ thống định danh người nói trên tập mở. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 2.1 Cơ chế hoạt động của một hệ thống định danh người nói trên tập mở (Trang 25)
Hình 2.3 thể hiện các bước rút trích đặc trưng MFCC. Tín hiệu thô sẽ trải qua các  bước xử lý chính: chia frame, biến đổi Fourier, áp dụng các Mel filter-banks, lấy log  và biến đổi cosin rời rạc - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 2.3 thể hiện các bước rút trích đặc trưng MFCC. Tín hiệu thô sẽ trải qua các bước xử lý chính: chia frame, biến đổi Fourier, áp dụng các Mel filter-banks, lấy log và biến đổi cosin rời rạc (Trang 27)
Hình 2.4: Tín hiệu wave trước và sau khi lọc thông cao. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 2.4 Tín hiệu wave trước và sau khi lọc thông cao (Trang 28)
Hình 2.3: Các bước rút trích đặc trưng MFCC. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 2.3 Các bước rút trích đặc trưng MFCC (Trang 28)
Hình 2.5: Cơ chế chia frame. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 2.5 Cơ chế chia frame (Trang 29)
Hình 2.8: Tương quan giữa tần số mel và tần số tuyến tính. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 2.8 Tương quan giữa tần số mel và tần số tuyến tính (Trang 32)
Hình 2.10: Mel filter banks trên miền tần số tuyến tính. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 2.10 Mel filter banks trên miền tần số tuyến tính (Trang 33)
Hình 2.11: Các mô hình người nói. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 2.11 Các mô hình người nói (Trang 36)
Hình 2.12: Các bước nhận dạng. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 2.12 Các bước nhận dạng (Trang 38)
Hình 3.1: Hàm mật độ Gauss. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 3.1 Hàm mật độ Gauss (Trang 44)
Hình 3.2: Mô hình GMM. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 3.2 Mô hình GMM (Trang 45)
Hình 3.3 cho thấy mức độ ảnh hưởng của từng phân phối Gauss lên GMM. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 3.3 cho thấy mức độ ảnh hưởng của từng phân phối Gauss lên GMM (Trang 46)
Hình 3.4: Mô hình Markov 3 trạng thái. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 3.4 Mô hình Markov 3 trạng thái (Trang 49)
Hình 3.5: Mô hình Markov ẩn 3 trạng thái. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 3.5 Mô hình Markov ẩn 3 trạng thái (Trang 51)
Hình 3.6: Hệ thống Urn-Ball. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 3.6 Hệ thống Urn-Ball (Trang 52)
Hình 3.7: Chuỗi Q tối ưu cục bộ. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 3.7 Chuỗi Q tối ưu cục bộ (Trang 57)
Hình 3.8: Mô hình MGHMM 3 trạng thái. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 3.8 Mô hình MGHMM 3 trạng thái (Trang 61)
Hình 3.9: Các bước xây dựng một MGHMM từ dữ liệu huấn luyện. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 3.9 Các bước xây dựng một MGHMM từ dữ liệu huấn luyện (Trang 68)
Hình 4.1: Các đường pitch của tiếng nói ba miền. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 4.1 Các đường pitch của tiếng nói ba miền (Trang 72)
Hình 4.2: Spectrogram của từ “tâm” phát âm theo tiếng ba miền khác nhau. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 4.2 Spectrogram của từ “tâm” phát âm theo tiếng ba miền khác nhau (Trang 73)
Hình 4.3: Một ví dụ về đường DET và điểm EER. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 4.3 Một ví dụ về đường DET và điểm EER (Trang 75)
Hình 4.4: Độ tăng log-likelihood qua các vòng lặp huấn luyện. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 4.4 Độ tăng log-likelihood qua các vòng lặp huấn luyện (Trang 76)
Hình 4.5: Tương quan giữa K và EER. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 4.5 Tương quan giữa K và EER (Trang 77)
Bảng 4.2: Hai chuỗi cấu hình MGHMM. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Bảng 4.2 Hai chuỗi cấu hình MGHMM (Trang 78)
Hình 4.6: Hiệu suất xác minh của hệ thống. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 4.6 Hiệu suất xác minh của hệ thống (Trang 79)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w