• Tiến hành xây dựng và thử nghiệm thuật toán với toàn bộ CSDL các từ vựng đã xây dựng.
• Khắc phục các sai số do chuyển đổi thuật toán từ Matlab sang C để cài đặt cho DSP. Tối ưu code để việc thực hiện được nhanh hơn.
• Xây dựng một số bộ lọc cho DSP
• Hoàn thiện bài toán nhận dạng trên DSP.
• Sử dụng thuật toán so sánh thời gian động DTW trong khâu tiền xử lý tín hiệu nhằm nâng cao độ chính xác. Có thể mô tả ý tưởng của thuật toán này như sau:
Cũng xét với bài toán nhận dạng 10 từ điều khiển như chương 3 đã xây dựng. Tuy nhiên, ởđây, chúng ta không xây dựng một mạng Neuron cho cả 10 từ và mỗi đầu ra tương ứng với một từ mà ta sẽ xây dựng 10 mạng neuron riêng biệt cho từng từ. Như vậy, khối lượng tính toán ở phần mô hình mạng cũng sẽ không thay đổi bởi vì mỗi mạng neuron chỉ có 1 đầu ra.
Quá trình học đối với mỗi từ sẽ cho ta mô hình của 1 mạng neuron (Ni) và độ dài thời gian chuẩn của từng từ (Ti). Từ đó ta có mô hình nhận dạng cho một từ như sau:
Hình 5.1: Mô hình nhận dạng kết hợp DTW và mạng Neuron cho 1 từ
Trong mô hình này tín hiệu tiếng nói đưa vào có độ dài T, kết quảđầu ra thu được gồm 3 thông số:
- Kết quả nhận dạng (true/false)
- Sai số do làm tròn kết quả nhận dạng. - Sai số thời gian so với từđược giả thiết.
Trong đó Kết quả nhận dạng là quan trọng và được xét trước tiên. Nếu kết quả là False thì tiếng nói đưa vào mô hình không phải là từ của mô hình nên không xét đến hai tham số tiếp theo. Nếu kết quả là True thì phải sử dụng 2 tham số tiếp theo để tiếp tục so sánh. Tiếng nói cần nhận dạng được đưa qua cả 10 mô hình ứng với 10 từ. Mô hình nào cho kết quả tốt nhất thì kết luận đó là từ được nhận dạng cho tín hiệu tiếng nói đưa vào.