2.3.1 Giới thiệu
Nếu ghi âm chính tả chỉ dừng ở việc ghi lại nội dung của các phát âm theo một phương thức nào đó, không bao gồm các nhãn thời gian thì quá trình gán nhãn đòi hỏi mất nhiều thời gian hơn. Các phát âm được ghi lại dưới dạng một dãy các âm vị, mỗi âm vị được gắn với các nhãn thời gian biểu thị thời gian bắt đầu và kết thúc của âm vị đó.
Gán nhãn âm vị đóng một vai trò quan trọng trong quá trình xây dựng cơ sở dữ liệu tiếng nóị Tất cả các hệ thống xử lý tiếng nói đều giả thiết rằng đơn vị cơ bản của tiếng nói là các âm vị. Hầu hết các hệ thống nhận dạng tiếng nói liên tục đều định
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnụedụvn
nghĩa các từ bằng các âm vị. Các hệ thống tổng hợp tiếng nói tổng hợp lên một từ xuất phát từ các âm vị tương ứng. Các hệ thống mô phỏng nét mặt cũng dựa vào các đơn vị gọi là “âm vị nhìn thấy được” (visible phonemems). Do vậy các nghiên cứu về tiếng nói thường được tiến hành trên một hệ cơ sở dữ liệu tiếng nói mà các phát âm đã được gán nhãn tại mức âm vị. Ví dụ sau đây là nội dung của một tệp phiên âm ở mức âm vị của một phát âm trong cơ sở dữ liệu TIMIT.
0 2250 h# 2250 2540 d 2250 2540 d 2540 4920 ow 4920 5320 nx 5320 7910 ae 7910 9170 s 9170 10320 kcl
Trong mỗi tệp phiên âm, mỗi một dòng ghi một âm vị với hai nhãn thời gian ghi bằng đơn vị 100ns. Các nhãn thời gian này có thể được tạo bằng gán nhãn bằng tay hoặc gán nhãn cưỡng bức. Trong quá trình gán nhãn bằng tay, người gán nhãn (labeler hay transcriber) xác định ranh giới giữa các âm vị bằng cách đọc biểu đồ sóng và biểu đồ phổ của phát âm tương ứng. Gán nhãn tự động được thực hiện bởi hệ thống nhận dạng bằng quá trình gán nhãn cưỡng bức.
Các nghiên cứu cho thấy các nhãn thời gian do hai người gán nhãn chuyên nghiệp thực hiện trên cùng một cơ sở dữ liệu có sự sai số tương đối lớn [Cole 1997, Lander 1997b]: tới gần 30% các nhãn khác nhaụ Như vậy có thể nói là không tồn tại một dãy các nhãn âm vị chính xác cố định cho mỗi phát âm, một phát âm có thể được phiên âm theo nhiều cách phụ thuộc vào người gán nhãn.
Tuy có sự khó khăn trong việc đánh giá độ chính xác của gán nhãn, các nghiên cứu cho thấy độ chính xác của gán nhãn bằng tay thường cao hơn so với gán nhãn tự động. Theo Ljolje [Ljolje 1984] thì “do những hạn chế về tham số hóa tín hiệu tiếng nói cũng như cấu trúc mô hình tiếng nói, độ chính xác của gán nhãn tự động kém hơn
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnụedụvn
so với gán nhãn do người gán nhãn thực hiện”. Các hệ thống nhận dạng được xây dựng trên cơ sở dữ liệu gán nhãn bằng tay cho độ chính xác cao hơn so với hệ thống nhận dạng với cùng một cơ sở dữ liệu mà được gán nhãn tự động [Hosom 2000a]. Một hệ thống nhận dạng được coi là không bị ảnh hưởng với các nhãn thời gian sai khác nhau một giá trị là 5ms [Hosom 2000b].