1. Trang chủ
  2. » Luận Văn - Báo Cáo

TỔNG QUAN VỀ NHẬN DẠNG NGƯỜI NÓI

70 35 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 70
Dung lượng 1,62 MB

Nội dung

Chương 1 TỔNG QUAN VỀ NHẬN DẠNG NGƯỜI NÓI 1.1. Các lĩnh vực của xử lý tiếng nói 4 1.2. Nhận dạng người nói 5 1.2.1. Cơ sở lý thuyết của nhận dạng người nói 5 1.2.2. Phân loại bài toán nhận dạng người nói 6 1.2.3. Các ứng dụng của bài toán nhận dạng người nói 9 1.3. Xác thực người nói không phụ thuộc vào từ khóa 11 1.3.1. Giới thiệu chung 11 1.3.2. Các thành phần của một hệ thống xác thực người nói không phụ vào từ khóa 11 1.3.3. Các giai đoạn xử lý của một hệ thống xác thực người nói không phụ thuộc vào từ khóa 12 Chương 2 TRÍCH CHỌN ĐẶC TRƯNG NGƯỜI NÓI 2.1. Đặc điểm vật lý, âm học của tiếng nói 14 2.1.1. Đặc điểm vật lý của tiếng nói 14 2.1.2. Đặc điểm âm học của tiếng nói 17 2.2. Tiền xử lý tín hiệu tiếng nói. 22 2.2.1. Chuyển từ tín hiệu tương tự sang tín hiệu số 22 2.2.2. Chuẩn hóa biên độ 25 2.2.3. Biến đổi Fourier 26 2.2.4. Lọc nhiễu 27 2.2.5. Làm rõ tín hiệu 27 2.3. Trích chọn đặc trưng người nói. 28 2.3.1. Mục đích của trích chọn đặc trưng 28 2.3.2. Phân loại đặc trưng 29 2.3.3. Trích chọn đặc trưng MFCC 30 Chương 3 CÁC MÔ HÌNH ỨNG DỤNG XÁC THỰC NGƯỜI NÓI KHÔNG PHỤ THUỘC VÀO TỪ KHÓA 3.1. Phân loại các mô hình 39 3.1.1. Mô hình mẫu (Template Modeling) 39 3.1.2. Mô hình thống kê (Statistical Modeling) 39 3.2. Mô hình lượng tử hóa vector (Vector Quantization VQ) 40 3.2.1. Khái niệm phép lượng tử hóa 40 3.2.2. Độ biến dạng 42 3.2.3. Tính chất 42 3.2.4. Thiết kế codebook theo phương pháp LBG (Linde, Buzo, and Gray) 43 3.3. Mô hình hỗn hợp Gauss 46 3.3.1. Bài toán ước lượng mật độ 46 3.3.2. Thuật toán EM (Expectation Maximization) 48 3.4. Xây dựng mô hình người nói 49 3.4.1. Giới thiệu chung 49 3.4.2. Sử dụng mô hình VQ 49 3.4.3. Sử dụng GMM 51 3.5. So khớp 51 3.5.1. Giới thiệu chung 51 3.5.2. Phương pháp VQ 52 3.5.3. Phương pháp GMM 53 3.6. Tạo quyết định 53 Chương 4 CẤU HÌNH HỆ THỐNG VÀ KẾT QUẢ THỬ NGHỆM 4.1. Cấu trúc tổng quát của hệ thống 56 4.1.1. Module trích chọn đặc trưng MFCC 56 4.1.2. Module huấn luyện 57 4.1.3. Module xác thực 57 4.2. Dữ liệu tiếng nói 57 4.3. Tỷ lệ lỗi (Error rate) 58 4.4. Kết quả thực nghiệm 58 4.4.1. Số các hệ số MFCC 58 4.4.2. Mô hình VQ và GMM 59 4.4.3. Thời gian huấn luyện 59 4.4.4. Số các cụm của mô hình VQ 60 4.4.5. Số cụm của mô hình GMM 60

Ngày đăng: 14/01/2021, 00:53

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
2. Ngô Minh Dũng, Đặng Văn Chuyết (2004), “Khảo sát tính ổn định của một số đặc trưng ngữ âm trong nhận dạng người nói”, Tạp chí BCVT &CNTT, (kỳ 3 10/2004), tr. 12-18 Sách, tạp chí
Tiêu đề: Khảo sát tính ổn định của mộtsố đặc trưng ngữ âm trong nhận dạng người nói”, "Tạp chí BCVT &"CNTT
Tác giả: Ngô Minh Dũng, Đặng Văn Chuyết
Năm: 2004
3. Ngô Minh Dũng, Đặng Văn Chuyết (2007), “Xây dựng và khảo sát độ dài từ khóa trong nhận dạng người nói phụ thuộc vào từ khóa tiếng Việt theo mô hình Markov ẩn”, Tạp chí BCVT & CNTT, (kỳ 3 10/2007), tr. 93-99 Sách, tạp chí
Tiêu đề: Xây dựng và khảo sát độ dàitừ khóa trong nhận dạng người nói phụ thuộc vào từ khóa tiếng Việt theomô hình Markov ẩn”," Tạp chí BCVT & CNTT
Tác giả: Ngô Minh Dũng, Đặng Văn Chuyết
Năm: 2007
4. Viện công nghệ thông tin Việt Nam (2004), Tổng hợp và nhận dạng tiếng Việt, Đề tài nghiên cứu cấp nhà nước KC01- 03D, Hà Nội.Tiếng Anh Sách, tạp chí
Tiêu đề: Tổng hợp và nhận dạng tiếngViệt
Tác giả: Viện công nghệ thông tin Việt Nam
Năm: 2004
5. Atal, B.S (1976), “Automatic recognition of speakers from their voices”, Proc. IEEE, (Vol. 64, No. 4), pp. 460-475 Sách, tạp chí
Tiêu đề: Automatic recognition of speakers from their voices”,"Proc. IEEE
Tác giả: Atal, B.S
Năm: 1976
6. A. V. Oppenheim and R.W. Schafer (1968), “Homomorphic analysis of speech”, IEEE Transactions on Audio and Electroacoustics, (vol. 16, no. 2), pp. 221–226 Sách, tạp chí
Tiêu đề: Homomorphic analysis ofspeech”, "IEEE Transactions on Audio and Electroacoustics
Tác giả: A. V. Oppenheim and R.W. Schafer
Năm: 1968
7. A. F. Martin and M. A. Przybocki (2001), “The NIST speaker recognition evaluations: 1996–2001”, A Speaker Odyssey—The Speaker Recognition Workshop, pp. 39–43 Sách, tạp chí
Tiêu đề: The NIST speaker recognitionevaluations: 1996–2001”, "A Speaker Odyssey—The Speaker RecognitionWorkshop
Tác giả: A. F. Martin and M. A. Przybocki
Năm: 2001
8. B. Robertson and G. A. Vignaux, Interpreting Evidence(1995), Evaluating Forensic Science in the Courtroom, John Wiley & Sons, Chichester, UK Sách, tạp chí
Tiêu đề: EvaluatingForensic Science in the Courtroom
Tác giả: B. Robertson and G. A. Vignaux, Interpreting Evidence
Năm: 1995
9. CAMPBELL, Joseph(1997), ”Speaker Recognition: A Tutorial”, Proceedings of IEEE, (vol. 85,no. 9), pp. 1437-1462 Sách, tạp chí
Tiêu đề: Proceedings of IEEE
Tác giả: CAMPBELL, Joseph
Năm: 1997
10. D.Meuwly (2001),Speaker recognition in forensic sciences the contribution of an automatic approach, Ph.D. thesis, Institut de Po-lice Scientifique et de Criminologie, Universit´ edeLausanne, Lausanne, Switzerland Sách, tạp chí
Tiêu đề: Speaker recognition in forensic sciences thecontribution of an automatic approach
Tác giả: D.Meuwly
Năm: 2001
12. D.A. Reynolds and R.C. Rose(1995), “Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models,” IEEE Trans.Speech & Audio Processing, pp. 72-83 Sách, tạp chí
Tiêu đề: Robust Text-Independent SpeakerIdentification Using Gaussian Mixture Speaker Models,” "IEEE Trans."Speech & Audio Processing
Tác giả: D.A. Reynolds and R.C. Rose
Năm: 1995
13. F.K. Soong and A.E. Rosenberg A.E. and B.-H. Juang and L.R. Rabiner (1987), “A Vector Quantization Approach to Speaker Recognition,” AT& T Technical Journal, (vol. 66), pp. 14-26 Sách, tạp chí
Tiêu đề: A Vector Quantization Approach to Speaker Recognition,” "AT"& T Technical Journal
Tác giả: F.K. Soong and A.E. Rosenberg A.E. and B.-H. Juang and L.R. Rabiner
Năm: 1987
14. REYNOLDS, Douglas (1995),”A. Robust Text-IndependentSpeaker Identification Using Gaussian Mixture Speaker Model”, IEEE Transactions on Speech and Audio Processing, (vol. 3, n. 1), pp72-83 Sách, tạp chí
Tiêu đề: IEEETransactions on Speech and Audio Processing
Tác giả: REYNOLDS, Douglas
Năm: 1995
15. T. Kinnunen and P. Frọnti (2001), “Speaker Discriminative Weighting Method for VQ-Based Speaker Identification,” Proc. Audio- and Video- Based Biometric Person Authentication, (AVBPA 2001), pp. 150-156 Sách, tạp chí
Tiêu đề: Speaker Discriminative WeightingMethod for VQ-Based Speaker Identification,” "Proc. Audio- and Video-Based Biometric Person Authentication, (AVBPA 2001)
Tác giả: T. Kinnunen and P. Frọnti
Năm: 2001
16. T. Kinnunen and I. Kọrkkọinen (2002), “Class-Discriminative Weighted Distortion Measure for VQ-Based Speaker Identification,” Proc. Joint IAPR Int.Workshop on Stat. Pattern Recognition,(S+SPR2002), pp.681- 688 Sách, tạp chí
Tiêu đề: Class-Discriminative WeightedDistortion Measure for VQ-Based Speaker Identification,” "Proc. JointIAPR Int.Workshop on Stat. Pattern Recognition
Tác giả: T. Kinnunen and I. Kọrkkọinen
Năm: 2002

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w