Thời gian huấn luyện

Một phần của tài liệu nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm (Trang 65 - 70)

Ta tiến hành thử thời gian huấn luyện khác nhau: sử dụng GMM, MFCC15 và thời gian test là 10s, 3s. Ta có kết quả như bảng sau:

Bảng 4.3. Tỷ lệ lỗi với thời gian huấn luyện khác nhau

Test

60s 30s 10s

FR FA ERR FR FA ERR FR FA ERR

10s 1.31 2.62 3.93 2.62 5.24 7.86 9.17 7.86 17.03 3s 1.31 3.93 5.24 9.17 3.93 13.1 11.79 10.48 22.27 Từ bảng 4.2 ta nhận thấy thời gian huấn luyện càng dài thì độc chính xác của hệ thống càng tăng.

4.4.4. Số các cụm của mô hình VQ

MFCC15 và thời gian huấn luyện là 60s. Ta có kết quả như bảng sau:

Bảng 4.4. Tỷ lệ lỗi với số cụm khác nhau trong mô hình VQ

Số cụm ERR 32 4 64 2.3 128 2.1 256 1.9 512 1.8

Từ bảng 4.2 ta nhận thấy số cụm của VQ càng lớn thì độ chính xác của hệ thống càng tăng.

4.4.5. Số cụm của mô hình GMM

Ta tiến hành thử với số cụm khác nhau của mô hình GMM: sử dụng MFCC15 và thời gian huấn luyện là 60s. Ta có kết quả như bảng sau:

Bảng 4.5. Tỷ lệ lỗi với số cụm khác nhau trong GMM

Số cụm ERR 8 3 16 2.1 32 1.8 Từ bảng 4.2 ta nhận thấy số cụm của GMM càng lớn thì độ chính xác của hệ thống càng tăng.

KẾT LUẬN VÀ KIẾN NGHỊ 1. Kết luận

a. Những nội dung chính đã được giải quyết trong luận văn - Nghiên cứu tổng quan bài toán nhận dạng tiếng nói

- Nghiên cứu các phương pháp trích chọn đặc trưng người nói, chi tiết phương pháp trích chọn đặc trưng MFCC

- Nghiên cứu mô hình VQ và mô hình GMM ứng dụng trong xác thực người nói không phụ phụ vào từ khóa

- Cài đặt các mô hình, thuật toán và tiến hành thử nghiệm trên cơ sở dữ liệu tiếng Việt

b. Những đóng góp khoa học và tính thực tiễn của luận văn

- Phương pháp trích chọn đặc trưng MFCC với cơ sở dữ liệu tiếng Việt

- Ứng dụng mô hình VQ và GMM xây dựng hệ thống xác thực người nói không phụ thuộc vào từ khóa với cơ sở dữ liệu tiếng Việt

- Đề tài có tính thực tiễn cao trong việc xây dựng các hệ thống thanh toán thẻ tín dụng qua điện thoại; đăng nhập vào các hệ thống an ninh, máy tính bằng tiếng nói; giám định tư pháp tiếng nói…

c. Những hạn chế của luận văn

- Số lượng dữ liệu tiếng nói để kiểm thử hệ thống chưa nhiều.

- Một số mô hình, thuật toán như mạng nơron nhân tạo, SVM, GA.. ứng dụng trong bài toán xác thực người nói chưa được nghiên cứu. - Nghiên cứu các phương pháp xử lý khi dữ liệu tiếng nói có nhiễu.

2. Kiến nghị

- Thu thập số lượng lớn dữ liệu âm tiếng nói để tiến hành kiểm thử, điều chỉnh các tham số của hệ thống cho chính xác.

tạo, SVM, GM.. ứng dụng cho bài toán xác thực người nói.

- Kết hợp các mô hình, thuật toán đã có với hi vọng sẽ tạo ra được mô hình tốt hơn.

- Nghiên cứu bài toán xác thực người nói phụ thuộc từ khóa, kết hợp với bài toán không phụ thuộc từ khóa nhằm làm tăng tính chính xác của các hệ thống xác thực người nói.

TÀI LIỆU THAM KHẢO Tiếng Việt

1. Dương Tử Cường (2003), Xử lý tín hiệu số, Nxb Quân đội nhân dân, Hà Nội

2. Ngô Minh Dũng, Đặng Văn Chuyết (2004), “Khảo sát tính ổn định của một số đặc trưng ngữ âm trong nhận dạng người nói”, Tạp chí BCVT &

CNTT, (kỳ 3 10/2004), tr. 12-18.

3. Ngô Minh Dũng, Đặng Văn Chuyết (2007), “Xây dựng và khảo sát độ dài từ khóa trong nhận dạng người nói phụ thuộc vào từ khóa tiếng Việt theo mô hình Markov ẩn”, Tạp chí BCVT & CNTT, (kỳ 3 10/2007), tr. 93-99. 4. Viện công nghệ thông tin Việt Nam (2004), Tổng hợp và nhận dạng tiếng

Việt, Đề tài nghiên cứu cấp nhà nước KC01- 03D, Hà Nội.

Tiếng Anh

5. Atal, B.S (1976), “Automatic recognition of speakers from their voices”,

Proc. IEEE, (Vol. 64, No. 4), pp. 460-475.

6. A. V. Oppenheim and R.W. Schafer (1968), “Homomorphic analysis of speech”, IEEE Transactions on Audio and Electroacoustics, (vol. 16, no. 2), pp. 221–226.

7. A. F. Martin and M. A. Przybocki (2001), “The NIST speaker recognition evaluations: 1996–2001”, A Speaker Odyssey—The Speaker Recognition

Workshop, pp. 39–43.

8. B. Robertson and G. A. Vignaux, Interpreting Evidence(1995), Evaluating

Forensic Science in the Courtroom, John Wiley & Sons, Chichester, UK.

9. CAMPBELL, Joseph(1997), ”Speaker Recognition: A Tutorial”,

Proceedings of IEEE, (vol. 85,no. 9), pp. 1437-1462.

10. D.Meuwly (2001),Speaker recognition in forensic sciences the

contribution of an automatic approach, Ph.D. thesis, Institut de Po-lice

Scientifique et de Criminologie, Universit´ edeLausanne, Lausanne, Switzerland.

verification using adapted Gaussian mixture models,” Digital Sinal

Processing, (vol. 10, no. 1), pp. 19–41.

12. D.A. Reynolds and R.C. Rose(1995), “Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models,” IEEE Trans.

Speech & Audio Processing, pp. 72-83.

13. F.K. Soong and A.E. Rosenberg A.E. and B.-H. Juang and L.R. Rabiner (1987), “A Vector Quantization Approach to Speaker Recognition,” AT

& T Technical Journal, (vol. 66), pp. 14-26.

14. REYNOLDS, Douglas (1995),”A. Robust Text-IndependentSpeaker Identification Using Gaussian Mixture Speaker Model”, IEEE

Transactions on Speech and Audio Processing, (vol. 3, n. 1), pp72-83.

15. T. Kinnunen and P. Fränti (2001), “Speaker Discriminative Weighting Method for VQ-Based Speaker Identification,” Proc. Audio- and Video-

Based Biometric Person Authentication, (AVBPA 2001), pp. 150-156.

16. T. Kinnunen and I. Kärkkäinen (2002), “Class-Discriminative Weighted Distortion Measure for VQ-Based Speaker Identification,” Proc. Joint

IAPR Int.Workshop on Stat. Pattern Recognition,(S+SPR2002), pp.681-

Một phần của tài liệu nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm (Trang 65 - 70)

Tải bản đầy đủ (DOC)

(70 trang)
w