Nâng cao độ chính xác gán nhãn tự động

Một phần của tài liệu Nghiên cứu một số phương pháp trong nhận dạng tiếng nói (Trang 40 - 43)

Hệ thống nhận dạng dùng để gán nhãn cưỡng bức ở trên mới chỉ sử dụng một hàm mật độ xác suất Gaussian duy nhất. Trong khi đó cơ sở dữ liệu được gán nhãn có độ đa dạng cao, do nhiều người nói, trong môi trường khác nhaụ Một hàm Gaussian không đủ khả năng để mô hình hóa sự đa dạng của giọng nói trong cơ sở dữ liệụ Để

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnụedụvn

nâng cao hiệu quả của gán nhãn tự động hệ thống nhận dạng được cải tiến bằng cách dùng hàm phát xa quan sát gồm nhiều thành phần trộn là hàm Gaussian.

Việc tăng số lượng hàm Gaussian được tiến hành bằng công cụ Hhed của HTK. Hhed sẽ sao chép từ hàm Gaussian ở bước trên tạo thành hàm gồm có hai hàm Gaussian, sau đó các âm đơn được huấn luyện lại bằng Herest trên hàm hai thành phần nàỵ Sau đó Hhed lại sao chép các hàm Gaussiab này và tạo thành hàm trộn gồm 4 hàm Gaussian, cứ tiếp tục lặp lại như vậy cho đến khi số lượng hàm trộn đạt tới con số mong muốn.

Hệ thống nhận dạng dùng để gán nhãn tự động đã được cải tiến từ hệ thống ở trên, hệ thống này dùng hàm trộn với 8 hàm Gaussian. Kết quả gán nhãn tự động của hệ thống này như sau:

Bảng 2.4. Tỷ lệ trùng khớp các âm vị với giới hạn cho phép là 5ms, 10ms, 15ms, 20ms

<5ms <10ms <15ms <20ms

55.85 78.35 85.02 89.36

Bảng 2.5. Tỷ lệ lỗi các loại âm vị với giới hạn khác nhau

Loại âm vị <5ms <10ms <15ms <20ms Âm tắc 35.23 7.15 5.96 2.14 Âm mũi 48.57 24.33 13.22 7.11 Âm xát 53.63 29.37 19.28 12.21 Nguyên âm 45.55 15.24 8.15 4.63 Âm đóng 54.65 31.40 23.33 16.25

Hai Bảng 2.4 và Bảng 2.5 cho ta thấy một cải thiện đáng kể độ chính xác của gán nhãn tự động. Sự khác nhau giữa các nhãn thời gian tạo bằng tay và tạo tự động là

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnụedụvn

xấp xỉ so với sự khác nhau giữa những người gán nhãn khác nhaụ Tỷ lệ sai khác này là chấp nhận được.

2.4.5 Kết luận

Để khẳng định kết quả đạt được của gán nhãn tự động, hai hệ thống nhận dạng đã được xây dựng để đánh giá ảnh hưởng của các nhãn thời gian tạo bằng tay và nhãn thời gian tạo bằng máy tới độ chính xác nhận dạng của hệ thống nhận dạng.

Hai hệ thống nhận dạng được xây dựng dùng bộ công cụ CSLU, dùng mạng ANN. Hai hệ thống làm việc trên cùng một cơ sở dữ liệu, nhận dạng các chữ số tiếng Việt liên tục, dùng đơn vị nhận dạng cơ bản là âm vị phụ thuộc ngữ cảnh. Cả hai hệ thống dùng chung một qui luật ngữ pháp, phương pháp trích chọn đặc điểm MFCC, số lượng category là như nhau, các nhóm ngữ cảnh giống nhaụ Chỉ một khác biệt duy nhất giữa hai hệ thống là một hệ thống dùng các nhãn thời gian tạo bằng tay và hệ thống kia dùng nhãn thời gian tạo tự động.

Hai tín hiệu được huấn luyện bằng tập dữ liệu huấn luyện gồm 318 câu và được kiểm tra trên tập dữ liệu gồm 124 câụ Kết quả nhận dạng của hai hệ thống là như sau:

Bảng 2.6. Kết quả nhận dạng của hai hệ thống nhận dạng dùng các nhãn thời gian khác nhau

Hệ thống nhận dạng Độ chính xác mức từ Độ chính xác mức câu

Hệ thống nhận dạng dùng

các nhãn tạo bằng tay 96.34 80.34

Hệ thống nhận dạng dùng

các nhãn tạo tự động 95.97 80.04

Kết quả nhận dạng cho thấy hệ thống nhận dạng dùng các nhãn thời gian tạo bằng tay có độ chính xác cao hơn so với hệ thống nhận dạng dùng các nhãn thời gian tạo bằng máỵ Tuy nhiên sự sai khác này là không nhiềụ Điều này cũng cho thấy một độ tin cậy nhất định đối với các nhãn thời gian được sinh tự động.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnụedụvn

Một phần của tài liệu Nghiên cứu một số phương pháp trong nhận dạng tiếng nói (Trang 40 - 43)