Phương pháp GMM

Giả sử:

X = {x1, … , xN} là các vector đặc trưng của một người nói chưa biết

λ = {λ1, … , λK}, trong đó λj = (Pj , µj , ∑j) là các tham số của GMM Khi đó hàm phân bố xác suất được định nghĩa như sau:

∑ = = K j j i j i PN x x p 1 ) | ( ) | ( λ λ (3.29)

Trong đó N(xi |λj) là hàm phân bố Gauss nhiều chiều:

)) ( ) ( 2 / 1 exp( | | ) 2 ( ) | ( /4 1/2 1 j i j T j i j d j i x x x N λ = π − ∑ − − −µ ∑− −µ (3.30) Khi đó tính log độ hợp giữa X với mô hình λ như sau:

∑ = = N i xi p X P 1 ) | ( log ) | ( λ λ (3.31) Nếu P(X|λ) càng lớn thì X càng hợp với λ 3.6. Tạo quyết định

Hình 3.9. Giai đoạn tạo quyết định

Hình 3.9 cho ta thấy bước tạo quyết định nằm trong giai đoạn kiểm thử nhưng sau khi đã thực hiện bước so khớp mẫu. Mục đích của bước này trong các hệ thống xác thực người nói là tạo ra quyết định chấp nhận hay không chấp nhận cho người cần kiểm tra đăng nhập vào hệ thống.

Gọi score(X,Si) là số điểm đo mức độ hợp giữa tập vector đặc trưng X và mô hình người nói Si. Chúng ta cũng giả thiết rằng score(X,Si) càng lớn thì X càng hợp với Si. Trong trường hợp phân lớp dựa trên khoảng cách(ví dụ như phương pháp VQ) thì tiến hành đổi dấu score mà vẫn không làm mất tính tổng quát của giả thiết. Khi đó:

   Θ < Θ ≥ = i i Decide i ) S score(X, , Reject ) S score(X, , Accept i (3.32) Trong đó Θilà ngưỡng xác thực. Ngưỡng xác thực này có thể đặt giống

nhau với tất cả mọi người nói hoặc phụ thuộc vào từng người nói. Ngưỡng được thiết kế phải cố gắng cân bằng giữa các chấp nhận sai (false acceptances) và các bác bỏ sai (false rejections). Chấp nhận sai nghĩa là cho phép kẻ mạo danh truy cập vào hệ thống, còn bác bỏ sai nghĩa là không cho phép người nói đúng được truy cập vào hệ thống. Có một sự thỏa hiệp giữa hai lỗi này: khi quyết định ngưỡng Θi tăng thì lỗi chấp nhận sai sẽ giảm,

nhưng ngược lại lỗi bác bỏ sai sẽ tăng và ngược lại. Sự cân bằng giữa hai lỗi này phụ thuộc vào từng ứng dụng.

Trong thực tế thì score không sử dụng là đầu ra thô của quá trình phân lớp, thay vì đó một score chuẩn hóa được sử dụng:

Hình 3.10 cho thấy động cơ của việc chuẩn hóa score. Giả thiết rằng giai đoạn huấn luyện được ghi âm trong môi trường lý tưởng, nhưng trong giai đoạn kiểm thử xảy ra trong điều kiện có nhiễu. Trong trường hợp này score nhận được rất xấu, bởi vì các vector đặc trưng của người cần kiểm tra khác với các đặc trưng trong giai đoạn huấn luyện. Nếu score thô được sử dụng để so sánh với ngưỡng thì tốc độ của việc bác bỏ sai sẽ tăng. Chính vì vậy score chuẩn được sử dụng để chuẩn hóa score của người nói để phù hợp với môi trường mới. Score chuẩn hóa được định nghĩa như sau:

score’(X, Si) = score(X, Si) - maxj∈Ref{score(X, Sj)} (3.33) Trong đó Ref là tập các người giả mạo với người kiểm tra và nó được gọi là tập cohort của người cần kiểm tra. Có một vài phương pháp được sử dụng để xác định tập cohort và kích thước của cohort. Phương pháp thông dụng nhất được sử dụng là lựa chọn một tập cố định khoảng 10 người giả mạo với người cần kiểm tra.

Chương 4 CẤU HÌNH HỆ THỐNG VÀ KẾT QUẢ THỬ NGHỆM

Các nội dung chính được trình bày trong chương bốn: - Cấu trúc tổng quát của hệ thống xác thực người nói

- Dự liệu tiếng nói: trình bày cách thu thập dữ liệu tiếng nói để phục vụ cho hệ thống

- Tần số lỗi: trình bày cách đánh giá mức độ gây lỗi của hệ thống xác thực người nói

- Kết quả thực nghiệm: trình bày kết quả thực nghiệm được tiến hành với nhiều tiêu chí khác nhau.

4.1. Cấu trúc tổng quát của hệ thống

Hình 4.1. Các thành phần của một hệ thống xác thực người nói

Từ sơ đồ của hình 4.1 một hệ thống xác thực người nói không phụ thuộc được xây dựng thành các module:

4.1.1. Module trích chọn đặc trưng MFCC

- Đầu vào:

 Dữ liệu tiếng nói sau khi được thu âm và tiền xử lý

 Kích thước của một frame (tính bằng ms, thường lấy bằng 30ms)

 Phần trăm lồng giữu hai khung liên tiếp (thường lấy bằng 50%)

- Đầu ra: là một tập các vector MFCC

4.1.2. Module huấn luyện

- Đầu vào:

 Là tập các vector MFCC của bước trích chọn đặc trưng

 Số cụm cần co cụm

- Đầu ra: tùy từng mô hình được sử dụng để mô hình hóa người nói mà sẽ có đầu ra tương ứng:

 Với mô hình VQ: là tập các vector sau khi co cụm sử dụng thuật toán LBG

 Với GMM: là bộ các thông số sau khi sử dụng thuật toán EM

4.1.3. Module xác thực

- Đầu vào:

 ID của người cần kiểm tra

 Dữ liệu tiếng nói sau khi đã được thu âm và tiền xử lý

- Đầu ra: chấp nhận hay từ chối cho người cần kiểm tra truy cập vào hệ thống.

4.2. Dữ liệu tiếng nói

Để có dữ liệu tác giả đã tiến hành thu âm 76 người: 40 nam và 36 nữ. Mỗi người trải qua hai giai đoạn thu âm:

- Giai đoạn cung cấp dữ liệu cho huấn luyện: mỗi người được tiến hành ba lần thu âm với các khoảng thời gian 60s, 30s và 10s

- Giai đoạn cung cấp dữ liệu cho kiểm thử: mỗi người được tiến hành ba lần thu âm với các khoảng thời gian: 30s, 10s và 3s.

Tiếng nói được thu âm với tần số lấy mẫu 44100 Hz và sau khi thu âm tín hiệu tiếng nói được tiền xử lý để nâng cao chất lượng trước khi được đưa vào cho giai đoạn trích chọn đặc trưng.

4.3. Tỷ lệ lỗi (Error rate)

Các hệ thống xác người nói được đánh giá dựa trên tỷ lệ chấp nhận lỗi (false acceptance rate – FA%) và tỷ lệ từ chối lỗi (false rejection rate – FR%):

100 ) ( × = T A I I FA (4.1) Trong đó:

- IA là số người bị từ chối, nhưng thực tế họ phải được chấp nhận - IT là tổng số người kiểm tra

100 ) ( × = T A C C FR (4.2) Trong đó:

- CA là số người được chấp nhận, nhưng thực tế họ phải bị từ chối. - CT là tổng số người kiểm tra.

Khi đó tổng lỗi của hệ thống xác thực được tính như sau:

R A F F EER= + (4.3) 4.4. Kết quả thực nghiệm 4.4.1. Số các hệ số MFCC Tiến hành thử số các hệ số MFCC với các mức: 12, 15, 19; sử dụng GMM và thời gian huấn luyện là 60s. Ta có kết quả như bảng sau:

Bảng 4.1. Tỷ lệ lỗi với số các hệ số MFCC khác nhau

Test

MFCC12 MFCC15 MFCC19

FR FA ERR FR FA ERR FR FA ERR

30s 0 1.31 1.31 0 0 0 0 0 0

10s 1.31 1.31 2.62 1.31 2.62 3.93 1.31 2.62 3.93 3s 2.62 5.24 7.86 1.31 3.93 5.24 1.31 3.93 5.24

Từ bảng 4.1 ta nhận thấy với mô hình GMM thì:

với 30s và 3s nhưng không tốt bằng trong trường hợp kiểm thử 10s. - MFCC15 và MFCC19 có độ tốt bằng nhau trong các trường hợp

kiểm thử.

Chính vì vậy các lần kiểm thử sau sẽ sử dụng MFCC15 tức là một vector MFCC có 15 hệ số.

4.4.2. Mô hình VQ và GMM

Ta tiến hành thử mức độ tốt của hai mô hình VQ và GMM: sử dụng MFCC15, thời gian huấn luyện là 60s. Ta có kết quả như bảng sau:

Bảng 4.2. Tỷ lệ lỗi với hai mô hình VQ và GMM

Test VQ GMM FR FA ERR FR FA ERR 30s 1.31 0 1.31 0 0 0 10s 2.62 3.93 6.55 1.31 2.62 3.93 3s 5.24 5.24 10.48 1.31 3.93 5.24

Từ bảng 4.2 ta nhận thấy mô hình GMM cho kết quả tốt hơn mô hình VQ trong tất cả các lần kiểm thử.

4.4.3. Thời gian huấn luyện

Ta tiến hành thử thời gian huấn luyện khác nhau: sử dụng GMM, MFCC15 và thời gian test là 10s, 3s. Ta có kết quả như bảng sau:

Bảng 4.3. Tỷ lệ lỗi với thời gian huấn luyện khác nhau

Test

60s 30s 10s

FR FA ERR FR FA ERR FR FA ERR

10s 1.31 2.62 3.93 2.62 5.24 7.86 9.17 7.86 17.03 3s 1.31 3.93 5.24 9.17 3.93 13.1 11.79 10.48 22.27 Từ bảng 4.2 ta nhận thấy thời gian huấn luyện càng dài thì độc chính xác của hệ thống càng tăng.

4.4.4. Số các cụm của mô hình VQ

MFCC15 và thời gian huấn luyện là 60s. Ta có kết quả như bảng sau:

Bảng 4.4. Tỷ lệ lỗi với số cụm khác nhau trong mô hình VQ

Số cụm ERR 32 4 64 2.3 128 2.1 256 1.9 512 1.8

Từ bảng 4.2 ta nhận thấy số cụm của VQ càng lớn thì độ chính xác của hệ thống càng tăng.

4.4.5. Số cụm của mô hình GMM

Ta tiến hành thử với số cụm khác nhau của mô hình GMM: sử dụng MFCC15 và thời gian huấn luyện là 60s. Ta có kết quả như bảng sau:

Bảng 4.5. Tỷ lệ lỗi với số cụm khác nhau trong GMM

Số cụm ERR 8 3 16 2.1 32 1.8 Từ bảng 4.2 ta nhận thấy số cụm của GMM càng lớn thì độ chính xác của hệ thống càng tăng.

KẾT LUẬN VÀ KIẾN NGHỊ 1. Kết luận

a. Những nội dung chính đã được giải quyết trong luận văn - Nghiên cứu tổng quan bài toán nhận dạng tiếng nói

- Nghiên cứu các phương pháp trích chọn đặc trưng người nói, chi tiết phương pháp trích chọn đặc trưng MFCC

- Nghiên cứu mô hình VQ và mô hình GMM ứng dụng trong xác thực người nói không phụ phụ vào từ khóa

- Cài đặt các mô hình, thuật toán và tiến hành thử nghiệm trên cơ sở dữ liệu tiếng Việt

b. Những đóng góp khoa học và tính thực tiễn của luận văn

- Phương pháp trích chọn đặc trưng MFCC với cơ sở dữ liệu tiếng Việt

- Ứng dụng mô hình VQ và GMM xây dựng hệ thống xác thực người nói không phụ thuộc vào từ khóa với cơ sở dữ liệu tiếng Việt

- Đề tài có tính thực tiễn cao trong việc xây dựng các hệ thống thanh toán thẻ tín dụng qua điện thoại; đăng nhập vào các hệ thống an ninh, máy tính bằng tiếng nói; giám định tư pháp tiếng nói…

c. Những hạn chế của luận văn

- Số lượng dữ liệu tiếng nói để kiểm thử hệ thống chưa nhiều.

- Một số mô hình, thuật toán như mạng nơron nhân tạo, SVM, GA.. ứng dụng trong bài toán xác thực người nói chưa được nghiên cứu. - Nghiên cứu các phương pháp xử lý khi dữ liệu tiếng nói có nhiễu.

2. Kiến nghị

- Thu thập số lượng lớn dữ liệu âm tiếng nói để tiến hành kiểm thử, điều chỉnh các tham số của hệ thống cho chính xác.

tạo, SVM, GM.. ứng dụng cho bài toán xác thực người nói.

- Kết hợp các mô hình, thuật toán đã có với hi vọng sẽ tạo ra được mô hình tốt hơn.

- Nghiên cứu bài toán xác thực người nói phụ thuộc từ khóa, kết hợp với bài toán không phụ thuộc từ khóa nhằm làm tăng tính chính xác của các hệ thống xác thực người nói.

TÀI LIỆU THAM KHẢO Tiếng Việt

1. Dương Tử Cường (2003), Xử lý tín hiệu số, Nxb Quân đội nhân dân, Hà Nội

2. Ngô Minh Dũng, Đặng Văn Chuyết (2004), “Khảo sát tính ổn định của một số đặc trưng ngữ âm trong nhận dạng người nói”, Tạp chí BCVT &

CNTT, (kỳ 3 10/2004), tr. 12-18.

3. Ngô Minh Dũng, Đặng Văn Chuyết (2007), “Xây dựng và khảo sát độ dài từ khóa trong nhận dạng người nói phụ thuộc vào từ khóa tiếng Việt theo mô hình Markov ẩn”, Tạp chí BCVT & CNTT, (kỳ 3 10/2007), tr. 93-99. 4. Viện công nghệ thông tin Việt Nam (2004), Tổng hợp và nhận dạng tiếng

Việt, Đề tài nghiên cứu cấp nhà nước KC01- 03D, Hà Nội.

Tiếng Anh

5. Atal, B.S (1976), “Automatic recognition of speakers from their voices”,

Proc. IEEE, (Vol. 64, No. 4), pp. 460-475.

6. A. V. Oppenheim and R.W. Schafer (1968), “Homomorphic analysis of speech”, IEEE Transactions on Audio and Electroacoustics, (vol. 16, no. 2), pp. 221–226.

7. A. F. Martin and M. A. Przybocki (2001), “The NIST speaker recognition evaluations: 1996–2001”, A Speaker Odyssey—The Speaker Recognition

Workshop, pp. 39–43.

8. B. Robertson and G. A. Vignaux, Interpreting Evidence(1995), Evaluating

Forensic Science in the Courtroom, John Wiley & Sons, Chichester, UK.

9. CAMPBELL, Joseph(1997), ”Speaker Recognition: A Tutorial”,

Proceedings of IEEE, (vol. 85,no. 9), pp. 1437-1462.

10. D.Meuwly (2001),Speaker recognition in forensic sciences the

contribution of an automatic approach, Ph.D. thesis, Institut de Po-lice

Scientiﬁque et de Criminologie, Universit´ edeLausanne, Lausanne, Switzerland.

veriﬁcation using adapted Gaussian mixture models,” Digital Sinal

Processing, (vol. 10, no. 1), pp. 19–41.

12. D.A. Reynolds and R.C. Rose(1995), “Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models,” IEEE Trans.

Speech & Audio Processing, pp. 72-83.

13. F.K. Soong and A.E. Rosenberg A.E. and B.-H. Juang and L.R. Rabiner (1987), “A Vector Quantization Approach to Speaker Recognition,” AT

& T Technical Journal, (vol. 66), pp. 14-26.

14. REYNOLDS, Douglas (1995),”A. Robust Text-IndependentSpeaker Identiﬁcation Using Gaussian Mixture Speaker Model”, IEEE

Transactions on Speech and Audio Processing, (vol. 3, n. 1), pp72-83.

15. T. Kinnunen and P. Fränti (2001), “Speaker Discriminative Weighting Method for VQ-Based Speaker Identification,” Proc. Audio- and Video-

Based Biometric Person Authentication, (AVBPA 2001), pp. 150-156.

16. T. Kinnunen and I. Kärkkäinen (2002), “Class-Discriminative Weighted Distortion Measure for VQ-Based Speaker Identification,” Proc. Joint

IAPR Int.Workshop on Stat. Pattern Recognition,(S+SPR2002), pp.681-

Mục đích của trích chọn đặc trưng

Tỷ lệ lỗi (Error rate)