5. CHƢƠNG 5: XÂY DỰNG CƠ SỞ DỮ LIỆU ÂM
5.3.2 Gán nhãn tự động
Tuy nhiên với một CSDL âm lớn thì việc gán nhãn bằng tay là một công việc đòi hỏi rất nhiều thời gian, do vậy chúng ta phải tự động hoá quá trình gán nhãn này. Hiện phƣơng pháp gán nhãn cƣỡng bức đƣợc sử dụng khá phổ biến.
Tuy nhiên phƣơng pháp tự động thƣờng không cho kết quả nhƣ ý muốn bởi nó phụ thuộc rất nhiều vào chất lƣợng của âm cũng nhƣ chất giọng ngƣời đọc, một giải pháp trung hoà đƣợc đặt ra là kết hợp giữa gán nhãn tự động và gán nhãn bằng tay. Ta có thể chia ra các bƣớc để thực hiện công việc này nhƣ sau:
Bƣớc 1: Phiên âm chính tả: Ghi lại nội dung của file tiếng nói, sau đấy chuyển ra dƣới dạng text. Thông thƣờng bƣớc này làm thủ công hoặc dựa một hệ thống nhận dạng tiếng nói.
Bƣớc 2: Tự động phân đoạn và gán nhãn ở mức độ âm tiết có gắn với thời gian nhƣng chƣa chính xác thông qua việc phân tích phổ trên mỗi khung tín hiệu. Đây là bƣớc nhận dạng phiên âm chính tả của từng âm tiết.
Bƣớc 3: Hiệu chỉnh bằng tay kết quả đã đạt đƣợc ở bƣớc 2.
Bƣớc 4: Tiếp tục quá trình tự động gán nhãn ở mức âm vị có gắn với thời gian. Đây là bƣớc nhận dang phiên âm âm vị học của từng âm tiết.
Bƣớc 5: Hiệu chỉnh bằng tay kết quả đã đạt đƣợc ở bƣớc 4. Đây cũng là công đoạn đòi hỏi sự tỉ mỉ và chính xác của ngƣời thực hiện.
Tuy nhiên để thực hiện đƣợc các bƣớc này, tại mỗi bƣớc đều là các quá trình đòi hỏi xây dựng công phu và áp dụng các thuật toán phức tạp. Đối với các quá trình thực hiện bằng tay cần phải xây dựng các tiêu chí phân đoạn và mức độ chính xác mà quá trình tổng hợp đòi hỏi. Đối với quá trình thực hiện tự động phải xây dựng các thuật toán tự động phân đoạn gán nhãn ở mức âm tiết và thuật toán tự động phân đoạn và gán nhãn ở mức âm vị.