Chi tiết các bước được thể hiện như sau:
1. Chọn năm pitch có sai số phổ nhỏ nhất của khung tương lai thứ hai. Giả thiết rằng ta cũng đã có các dãy pitch ở các khung quá khứ, hiện tại và tương lai thứ nhất;
2. Tìm node ở khung hiện tại có đường pitch đi qua nó có trọng số nhỏ nhất; 3. Cập nhật lại giá trị pitch và sai số phổ các khung sẵn sàng cho khung tiếp theo.
Kết quả mơ phỏng
So sánh tiếng nói tổng hợp của bộ mã hoá iMELP cải tiến sử dụng thuật toán xác định pitch mới nói trên so với MELP chuẩn cho thấy tiếng nói tổng hợp nghe rõ và tự nhiên hơn. Có thể nhận thấy sự khác biệt rõ khi nghe so sánh hai tiếng nói tổng hợp dùng MELP và IMELP. Hình 2.5 thể hiện ưu điểm của MELP cải tiến so với MELP. Các âm đột biến khó chịu do xác định sai pitch (thể hiện rõ nhất tại vùng cạnh đường chấm, tức là các vùng mà MELP bắt đầu xác định sai pitch) trong MELP đã được loại trừ trong MELP cải tiến.
Bước tìm pitch nguyên khơng u cầu tìm ngay được pitch thực sự, giá trị pitch tìm được trong bước này là bội hay chỉ gần pitch thực sự cũng là đạt yêu cầu. Thủ tục tìm pitch phân và tìm pitch cuối cùng sẽ xác định làm tinh và xác định pitch thực sự
(a)
(b)
(c)
Hình 2.5. So sánh chất lượng MELP chuẩn và iMELP cải tiến; (a) Tín hiệu gốc; (b) Tín hiệu MELP chuẩn; (c) Tín hiệu iMELP cải tiến ở tốc độ 1200bps
Kiến trúc phần cứng thực nghiệm
Bộ nén thoại vocoder iMELP được thực hiện trên nển tảng ARM. Quá trình thực thực thi nén thoại và bộ giải nén được thực hiện trên chip của hãng ST là STM32F437. Chip STM32F437 sử dụng công nghệ ARM Cortex-M4 nền tảng RISC 32bit có tốc độ Clock 180MHz, hỗ trợ dấu chấm động, bộ nhớ trong 2MB. Toàn bộ quá trình được thực hiện trên vi xử ARM theo sơ đồ khối sau:
False True False True True True