Hạn chế và hướng phát triển

Một phần của tài liệu Tổng hợp tiếng nói trên T-Engine (Trang 76 - 77)

. P(S1| S1 ) P(S3| S1 ) P(S2| S3 ) P(S3| S2) = π3 a33 a33 a31 a11 a13 a32 a

5.2Hạn chế và hướng phát triển

Mặc dù đã đạt được những kết quả nhất định, tuy nhiên vẫn còn một số các vấn đề cần xem xét và khắc phục để có thể hoàn thiện sản phẩm:

• Module nhận dạng:

Mới nhận dạng từ rời rạc, khả năng chống nhiễu còn chưa cao

Độ chính xác đạt được chưa được bằng kết quả thu được trên desktop hiện nay là do KIT T-Engine có nhiễu khi thu âm nên để có thể nâng cao kết quả ma không cần mong chờ một sự cải thiện về phân cứng thì cần tăng cường khả năng lọc nhiễu tiền nhận dạng

• Module tổng hợp

Tần số cơ bản của các từ khi đặt trong một câu vẫn còn chưa thực sự mượt, để giải quyết vấn đề này cần nghe và phát hiện các từ có tần số cơ bản quá cao hoặc thấp, sau đó tiến hành thu lại các âm vị liên quan cho đến khi tần số cơ bản của các từ trong một câu không biến thiên đột ngột

• Tốc độ tổng hợp chưa được mức thời gian thực, nên chưa điều chỉnh được tốc độ cũng như khoảng cách giữa các từ một cách tốt nhất

• Cơ sở dữ liệu mới chỉ cắt được một số các chu kỳ gần điểm ghép nối âm vị, chưa cắt được toàn bộ các chu kỳ, do công việc này đòi hỏi một thời gian rất dài cùng với một sử tỉ mỉ rất cao để đảm bảo độ chính xác khi có tới gần 1000 từ và mỗi từ có trung bình 10-50 chu kỳ. Khi tạo được CSDL âm vị đầy đủ như trên thì ngoài việc tổng hợp, các kỹ thuật biến đổi tần số cơ bản của câu có thể thực hiện được để tạo ra các câu mang tính biểu cảm.

Một phần của tài liệu Tổng hợp tiếng nói trên T-Engine (Trang 76 - 77)