Cũng như trong nhận dạng thanh điệu tiếng Việt, tín hiệu tiếng nói cũng phải qua bước tiền xử lý, công đoạn huấn luyện cho mô hình, côngđoạn nhận dạng mẫu.
Hình 6.2: Côngđoạn huấn luyện mẫu
Bộ dữ liệu sau khi thu, được tạo thành 2 bộ từ điển tương ứng với 2 lớp thanh
điệu: thanh cao và thanh thấp. Trong đó bộ từđiển thanh cao gồm: thanh sắc và thanh ngã, bộ từ điển thanh thấp gồm: thanh ngang (thanh không dấu), thanh huyền, thanh ngã, thanh hỏi, thanh nặng, thanh ngã. Ở đây chúng tôi phân thanh ngã ở cả hai từ điển, bởi vì:
Theo tài liệu thống kê của I. S. Bystrov và M. V. Gordina (1976) thì tần số xuất hiện của thanh ngã là thấp nhất trong các thanh (chỉ 7%).
Thanh ngã là thanh nếu chỉ phân lớp vào lớp thanh cao thì làm cho tỉ lệ
nhận dạng đúng bị giảm xuống và ngược lại, vì sự biến đổi của nó chạy dài từ vùng tần số thấp đến vùng tần số cao.
Do đó cách giải quyết của chúng tôi là đưa thanh ngã vào cả hai bộ từ điển
Tín hiệu tiếng nói sau khi qua các bước tiền xử lý được tiến hành rút trích đặc trưng. Tất cả dãy dữ liệu của tín hiệu được chia thành các khung (frame) và dùngLPC
phân tích thành các vector với số phần tử ít hơn hẳn.
Các vector đặc trưng này sẽ được dùng để huấn luyện. Kết quả huấn luyện là các mô hình HMM cho các từ theo từng lớp từ điển. Ứng với mỗi lớp từ điển, chúng ta có một bộ các mô hình HMM.
Mặt khác, để sử dụng việc phân lớp, chúng tôi sử dụng đặc trưng F0. Theo khảo sát của luận văn, thanh điệu tiếng Việt được chia làm hai lớp phân tách nhau bỡi thanh ngang. Do đó, dữ liệu đưa vào sau khi tiền xử lý, chúng tôi tách riêng các từ
thanh ngang đem trích F0. Giá trị trung bình của F0 của các thanh ngang sẽ là giá trị
ngưỡng phân lớp. Giá trị này sẽ được cộng thêm P trong quá trình phân lớp, (P là phương sai của F0). (Tham khảo phần IV).
Theo khảo sát, giá trị phương sai của tần số cơ bản của thanh ngang: ở giọng nữ (8 – 16) Hz, ở giọng nam (20 – 24) Hz. Trong chương trình Demo, dữ liệu tiếng nói là giọng nam nên chúng tôi chọn P = 20.