TỔNG QUAN VỀ NHẬN DẠNG NGƯỜI NÓI

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	70
Dung lượng	1,62 MB

Nội dung

Chương 1 TỔNG QUAN VỀ NHẬN DẠNG NGƯỜI NÓI 1.1. Các lĩnh vực của xử lý tiếng nói 4 1.2. Nhận dạng người nói 5 1.2.1. Cơ sở lý thuyết của nhận dạng người nói 5 1.2.2. Phân loại bài toán nhận dạng người nói 6 1.2.3. Các ứng dụng của bài toán nhận dạng người nói 9 1.3. Xác thực người nói không phụ thuộc vào từ khóa 11 1.3.1. Giới thiệu chung 11 1.3.2. Các thành phần của một hệ thống xác thực người nói không phụ vào từ khóa 11 1.3.3. Các giai đoạn xử lý của một hệ thống xác thực người nói không phụ thuộc vào từ khóa 12 Chương 2 TRÍCH CHỌN ĐẶC TRƯNG NGƯỜI NÓI 2.1. Đặc điểm vật lý, âm học của tiếng nói 14 2.1.1. Đặc điểm vật lý của tiếng nói 14 2.1.2. Đặc điểm âm học của tiếng nói 17 2.2. Tiền xử lý tín hiệu tiếng nói. 22 2.2.1. Chuyển từ tín hiệu tương tự sang tín hiệu số 22 2.2.2. Chuẩn hóa biên độ 25 2.2.3. Biến đổi Fourier 26 2.2.4. Lọc nhiễu 27 2.2.5. Làm rõ tín hiệu 27 2.3. Trích chọn đặc trưng người nói. 28 2.3.1. Mục đích của trích chọn đặc trưng 28 2.3.2. Phân loại đặc trưng 29 2.3.3. Trích chọn đặc trưng MFCC 30 Chương 3 CÁC MÔ HÌNH ỨNG DỤNG XÁC THỰC NGƯỜI NÓI KHÔNG PHỤ THUỘC VÀO TỪ KHÓA 3.1. Phân loại các mô hình 39 3.1.1. Mô hình mẫu (Template Modeling) 39 3.1.2. Mô hình thống kê (Statistical Modeling) 39 3.2. Mô hình lượng tử hóa vector (Vector Quantization VQ) 40 3.2.1. Khái niệm phép lượng tử hóa 40 3.2.2. Độ biến dạng 42 3.2.3. Tính chất 42 3.2.4. Thiết kế codebook theo phương pháp LBG (Linde, Buzo, and Gray) 43 3.3. Mô hình hỗn hợp Gauss 46 3.3.1. Bài toán ước lượng mật độ 46 3.3.2. Thuật toán EM (Expectation Maximization) 48 3.4. Xây dựng mô hình người nói 49 3.4.1. Giới thiệu chung 49 3.4.2. Sử dụng mô hình VQ 49 3.4.3. Sử dụng GMM 51 3.5. So khớp 51 3.5.1. Giới thiệu chung 51 3.5.2. Phương pháp VQ 52 3.5.3. Phương pháp GMM 53 3.6. Tạo quyết định 53 Chương 4 CẤU HÌNH HỆ THỐNG VÀ KẾT QUẢ THỬ NGHỆM 4.1. Cấu trúc tổng quát của hệ thống 56 4.1.1. Module trích chọn đặc trưng MFCC 56 4.1.2. Module huấn luyện 57 4.1.3. Module xác thực 57 4.2. Dữ liệu tiếng nói 57 4.3. Tỷ lệ lỗi (Error rate) 58 4.4. Kết quả thực nghiệm 58 4.4.1. Số các hệ số MFCC 58 4.4.2. Mô hình VQ và GMM 59 4.4.3. Thời gian huấn luyện 59 4.4.4. Số các cụm của mô hình VQ 60 4.4.5. Số cụm của mô hình GMM 60

Ngày đăng: 14/01/2021, 00:53

Nguồn tham khảo

Tài liệu tham khảo

Loại

Chi tiết

2. Ngô Minh Dũng, Đặng Văn Chuyết (2004), “Khảo sát tính ổn định của một số đặc trưng ngữ âm trong nhận dạng người nói”, Tạp chí BCVT &CNTT, (kỳ 3 10/2004), tr. 12-18

Sách, tạp chí

Tiêu đề:	Khảo sát tính ổn định của mộtsố đặc trưng ngữ âm trong nhận dạng người nói”, "Tạp chí BCVT &"CNTT
Tác giả:	Ngô Minh Dũng, Đặng Văn Chuyết
Năm:	2004

3. Ngô Minh Dũng, Đặng Văn Chuyết (2007), “Xây dựng và khảo sát độ dài từ khóa trong nhận dạng người nói phụ thuộc vào từ khóa tiếng Việt theo mô hình Markov ẩn”, Tạp chí BCVT & CNTT, (kỳ 3 10/2007), tr. 93-99

Sách, tạp chí

Tiêu đề:	Xây dựng và khảo sát độ dàitừ khóa trong nhận dạng người nói phụ thuộc vào từ khóa tiếng Việt theomô hình Markov ẩn”," Tạp chí BCVT & CNTT
Tác giả:	Ngô Minh Dũng, Đặng Văn Chuyết
Năm:	2007

4. Viện công nghệ thông tin Việt Nam (2004), Tổng hợp và nhận dạng tiếng Việt, Đề tài nghiên cứu cấp nhà nước KC01- 03D, Hà Nội.Tiếng Anh

Sách, tạp chí

Tiêu đề:	Tổng hợp và nhận dạng tiếngViệt
Tác giả:	Viện công nghệ thông tin Việt Nam
Năm:	2004

5. Atal, B.S (1976), “Automatic recognition of speakers from their voices”, Proc. IEEE, (Vol. 64, No. 4), pp. 460-475

Sách, tạp chí

Tiêu đề:	Automatic recognition of speakers from their voices”,"Proc. IEEE
Tác giả:	Atal, B.S
Năm:	1976

6. A. V. Oppenheim and R.W. Schafer (1968), “Homomorphic analysis of speech”, IEEE Transactions on Audio and Electroacoustics, (vol. 16, no. 2), pp. 221–226

Sách, tạp chí

Tiêu đề:	Homomorphic analysis ofspeech”, "IEEE Transactions on Audio and Electroacoustics
Tác giả:	A. V. Oppenheim and R.W. Schafer
Năm:	1968

7. A. F. Martin and M. A. Przybocki (2001), “The NIST speaker recognition evaluations: 1996–2001”, A Speaker Odyssey—The Speaker Recognition Workshop, pp. 39–43

Sách, tạp chí

Tiêu đề:	The NIST speaker recognitionevaluations: 1996–2001”, "A Speaker Odyssey—The Speaker RecognitionWorkshop
Tác giả:	A. F. Martin and M. A. Przybocki
Năm:	2001

8. B. Robertson and G. A. Vignaux, Interpreting Evidence(1995), Evaluating Forensic Science in the Courtroom, John Wiley & Sons, Chichester, UK

Sách, tạp chí

Tiêu đề:	EvaluatingForensic Science in the Courtroom
Tác giả:	B. Robertson and G. A. Vignaux, Interpreting Evidence
Năm:	1995

9. CAMPBELL, Joseph(1997), ”Speaker Recognition: A Tutorial”, Proceedings of IEEE, (vol. 85,no. 9), pp. 1437-1462

Sách, tạp chí

Tiêu đề:	Proceedings of IEEE
Tác giả:	CAMPBELL, Joseph
Năm:	1997

10. D.Meuwly (2001),Speaker recognition in forensic sciences the contribution of an automatic approach, Ph.D. thesis, Institut de Po-lice Scientiﬁque et de Criminologie, Universit´ edeLausanne, Lausanne, Switzerland

Sách, tạp chí

Tiêu đề:	Speaker recognition in forensic sciences thecontribution of an automatic approach
Tác giả:	D.Meuwly
Năm:	2001

12. D.A. Reynolds and R.C. Rose(1995), “Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models,” IEEE Trans.Speech & Audio Processing, pp. 72-83

Sách, tạp chí

Tiêu đề:	Robust Text-Independent SpeakerIdentification Using Gaussian Mixture Speaker Models,” "IEEE Trans."Speech & Audio Processing
Tác giả:	D.A. Reynolds and R.C. Rose
Năm:	1995

13. F.K. Soong and A.E. Rosenberg A.E. and B.-H. Juang and L.R. Rabiner (1987), “A Vector Quantization Approach to Speaker Recognition,” AT& T Technical Journal, (vol. 66), pp. 14-26

Sách, tạp chí

Tiêu đề:	A Vector Quantization Approach to Speaker Recognition,” "AT"& T Technical Journal
Tác giả:	F.K. Soong and A.E. Rosenberg A.E. and B.-H. Juang and L.R. Rabiner
Năm:	1987

14. REYNOLDS, Douglas (1995),”A. Robust Text-IndependentSpeaker Identiﬁcation Using Gaussian Mixture Speaker Model”, IEEE Transactions on Speech and Audio Processing, (vol. 3, n. 1), pp72-83

Sách, tạp chí

Tiêu đề:	IEEETransactions on Speech and Audio Processing
Tác giả:	REYNOLDS, Douglas
Năm:	1995

15. T. Kinnunen and P. Frọnti (2001), “Speaker Discriminative Weighting Method for VQ-Based Speaker Identification,” Proc. Audio- and Video- Based Biometric Person Authentication, (AVBPA 2001), pp. 150-156

Sách, tạp chí

Tiêu đề:	Speaker Discriminative WeightingMethod for VQ-Based Speaker Identification,” "Proc. Audio- and Video-Based Biometric Person Authentication, (AVBPA 2001)
Tác giả:	T. Kinnunen and P. Frọnti
Năm:	2001

16. T. Kinnunen and I. Kọrkkọinen (2002), “Class-Discriminative Weighted Distortion Measure for VQ-Based Speaker Identification,” Proc. Joint IAPR Int.Workshop on Stat. Pattern Recognition,(S+SPR2002), pp.681- 688

Sách, tạp chí

Tiêu đề:	Class-Discriminative WeightedDistortion Measure for VQ-Based Speaker Identification,” "Proc. JointIAPR Int.Workshop on Stat. Pattern Recognition
Tác giả:	T. Kinnunen and I. Kọrkkọinen
Năm:	2002