5. Nhiệm vụ nghiên cứu
1.1. Tổng quan các bƣớc thực hiện
Sphinx cho phép ngƣời dùng có thể chọn nhiều cách để tối ƣu hóa nhận dạng. Đề tài sẽ sử dụng cách thay đổi cấu trúc phát âm của từ điển, với các cấu hình khác nhaụ Sau đó lựa chọn một từ điển tối ƣu nhất. Về cơ bản khi làm việc với Sphinx ngƣời dùng sẽ đi qua các bƣớc sau:
Hình 2.1 Các bƣớc tiến hành của quá trình nhận dạng tiếng nói trong Sphinx
Chuẩn bị dữ liệu: đây là quá trình quan trọng và đòi hỏi nhiều thời gian, dữ liệu phải đủ nhiều - để quá trình nhận dạng chính xác, vì quá trình nhận dạng sẽ dựa trên xác suất. Ngoài ra dữ liệu cũng phải đủ đa dạng nhƣ: giọng nam, giọng nữ để hệ thống có đầy đủ thông tin khi nhận dạng.
Huấn luyện âm học: bƣớc này sử dụng công cụ SphinxTrain để huấn luyện dữ liệu đã chuẩn bị ở bƣớc trƣớc. Thời gian huấn luyện có thể mất nhiều giờ nếu nhƣ tập dữ liệu lớn.
Tạo mô hình ngôn ngữ: sử dụng dữ liệu ở bƣớc một và kết hợp một số công cụ của CMU SLM để tạo mô hình ngôn ngữ cho hệ thống. Bƣớc này không đòi hỏi nhiều thời gian nhƣ bƣớc trên.
18
Bƣớc cuối cùng là nhận dạng: sử dụng mô hình ngôn ngữ, mô hình âm học, PocketSphinx để tiến hành nhận dạng. Dữ liệu nhận dạng có thể là những dữ liệu không đƣợc huấn luyện từ trƣớc. Sau khi nhận dạng sẽ ra đƣợc tỷ lệ nhận dạng là đúng hoặc sai bao nhiêu phần trăm. Dựa vào kết quả nhận dạng để đánh giá phƣơng pháp và sửa đổi phƣơng pháp để có tỷ lệ nhận dạng đúng cao hơn.
Đề tài thực hiện nhiều thử nghiệm với các cách phát âm tiếng Việt khác nhau nhƣ: nhận diện thanh điệu, từ đa âm tiết, nhận diện tiếng nói điều kiện bình thƣờng hoặc phòng thụ Vì vậy, các bƣớc trong hình trên sẽ đƣợc lặp lại nhiều lần, mỗi lần với một cấu hình khác nhaụ Kết quả sẽ đƣợc ghi chép lại để so sánh.