Kết quả thử nghiệm

Một phần của tài liệu Nghiên cứu một số phương pháp trong nhận dạng tiếng nói (Trang 39 - 40)

Để tiến hành đánh giá phương pháp nhãn này, một thử nghiệm đã được tiến hành để gán nhãn một cơ sở dữ liệụ Cơ sở dữ liệu được dùng bao gồm: 442 câu, 2340 từ, được trích ra từ hai cơ sở dữ liệu tiếng nói điện thoại “22 Language v1.2”, và “Multi- Language Telephone Speech v1.2” của trung tâm CSLU (Center for Speech Language Understanding), Viện Sau Đại Học Oregon, Hoa Kỳ. Các câu trong cơ sở dữ liệu tiếng nói được thu âm theo hình thức phỏng vấn qua điện thoại từ 213 người nói (135 nam, 78 nữ).

Tất cả các câu trong cơ sở dữ liệu đã được gán nhãn bằng tay và các thông tin nhãn thời gian tạo bằng tay được coi là chuẩn dùng để so sánh với các nhãn thời gian tạo bằng máỵ

Bảng 2.2 dưới đây cho ta kết quả so sánh giữa các nhãn thời gian được tạo bằng tay và các nhãn thời gian tạo bằng máỵ Các nhãn thời gian tạo bằng tay có độ chính xác với đơn vị là 1ms, ngược lại do kích thước khung tín hiệu trong hệ thống nhận dạng là 10ms, nên đơn vị nhãn thời gian tạo bằng máy là 10ms. Bảng 2.2 miêu tả tỷ lệ

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnụedụvn

trùng khớp (agreement) ranh giới của các âm vị. Đơn vị đo được tính là % các ranh giới trùng khớp nhau trong khoảng cho phép là 5ms, 10ms, 15ms và 20ms.

Bảng 2.2. Tỷ lệ trùng khớp các âm vị với giới hạn cho phép là 5ms, 10ms, 15ms, 20ms

<5ms <10ms <15ms <20ms

55.85 65.35 72.73 77.81

Bảng 2.3 miêu tả tỷ lệ lỗi các loại âm vị được gán nhãn tự động so với âm vị gán nhãn bằng tay với các giới hạn cho phép khác nhaụ Từ bảng ta thấy, âm vị có tỷ lệ lỗi cao là âm đóng, sau đó theo thứ tự thấp dần là: âm xát, âm mũi, nguyên âm và âm tắc.

Bảng 2.3. Tỷ lệ lỗi các loại âm vị với giới hạn khác nhau

Loại âm vị <5ms <10ms <15ms <20ms Âm tắc 46.82 15.49 9.35 3.61 Âm mũi 57.69 33.93 22.51 11.59 Âm xát 63.83 37.52 28.95 21.51 Nguyên âm 55.75 24.43 15.62 6.62 Âm đóng 65.36 40.72 33.57 25.61

Kết quả trên cho thấy một độ chính xác còn thấp của gán nhãn tự động so với gán nhãn bằng taỵ

Một phần của tài liệu Nghiên cứu một số phương pháp trong nhận dạng tiếng nói (Trang 39 - 40)