2.4.1 Giới thiệu
Mặc dù như đã trình bày ở trên, gán nhãn bằng tay tuy có độ chính xác cao hơn so với gán nhãn tự động, việc gán nhãn bằng tay cho cả một cơ sở dữ liệu lớn sẽ là một khối lượng công việc khổng lồ và mất nhiều thời gian và tốn kém. Công việc gán nhãn bằng tay đã được tính toán là cần một thời gian là từ 11ms tới 30ms với mỗi âm vị [Hosom 2000b]. Ngoài việc tiêu tốn thời gian, gán nhãn bằng tay còn có nhược điểm là có sự khác nhau đáng kể giữa những người gán nhãn do ý chủ quan của mỗi ngườị
Do những lý do trên gán nhãn tự động là một yêu cầu tất yếu khi xây dựng một cơ sở dữ liệụ Gán nhãn tự động được thực hiện bởi một hệ thống nhận dạng được gọi là quá trình gán nhãn cưỡng bức (force-alignment). Quá trình gán nhãn cưỡng bức tương tự như một quá trình nhận dạng. Đối với quá trình nhận dạng, với dữ liệu vào là một phát âm liên tục, hệ thống phải nhận dạng ra các từ của phát âm đó. Trong quá trình gán nhãn cưỡng bức, các từ của một phát âm đã được biết trước và với mỗi dữ liệu vào là một phát âm liên tục, hệ thống nhận dạng cần tìm ra các nhãn thời gian tương ứng với các âm vị của các từ đó.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnụedụvn
Khi nghiên cứu về gán nhãn tự động, tiến sĩ Nguyễn Thành Phúc trong luận án tiến sĩ của mình đã đề nghị phương pháp gán nhãn tự động để xây dựng cơ sở dữ liệu tiếng nói gồm các bước như sau:
- Gán nhãn một phần cơ sở dữ liệu bằng taỵ Dựa vào thông tin về thời gian của một phát âm, số lượng âm tiết trong phát âm đó được biết từ phiên âm chính tả của phát âm, chia đều thời gian một phát âm thành các phần đều nhau để nhận được phiên âm âm tiết với nhãn thời gian của các âm tiết. Hiệu chỉnh thủ công các tệp phiên âm nàỵ Sau đó từ các âm tiết, chia đều các âm tiết thành các âm vị tương ứng. Quá trình gán nhãn kết thúc bằng hiệu chỉnh thủ công một lần nữa tệp phiên âm âm vị với nhãn thời gian. Như vậy quá trình sản sinh các tệp phiên âm âm tiết và âm vị được tự động hóạ Từ các tệp này tiến hành chỉnh sửa bằng tay các tệp này vị trí các nhãn thời gian.
- Xây dựng hệ thống nhận dạng từ phần dữ liệu được gán nhãn bằng taỵ
- Dùng hệ thống nhận dạng đã được huấn luyện để gán nhãn cưỡng bức cơ sở dữ liệu còn lạị
Phương pháp gán nhãn tự động trên dựa vào bộ công cụ CSLU, dùng mạng ANN, do đó quá trình huấn luyện hệ thống nhận dạng bắt buộc phải cần có sẵn các phiên âm âm vị của các phát âm. Do đó phương pháp trên vẫn phải cần một giai đoạn gán nhãn thủ công một phần cơ sở dữ liệụ
Sau đây là phương pháp gán nhãn tự động cơ sở dữ liệu mà không cần tệp phiên âm âm vị. Tất cả quá trình đều được thực hiện tự động. Phương pháp này dùng bộ công cụ HTK.