Một trong những mô hình xác suất được sử dụng phổ biến cho mô hình âm học là mô hình Markov ẩn HMM (Hidden Markov Model). Chương trình demo luận văn sử dụng là mô hình kết hợp Hidden Markov Model và Gaussian Mixtrue Model (HMM-GMM).
2.3.1. Mô hình toán học của hệ thống nhận dạng
Để có một hệ thống nhận dạng tự động có độ chính xác cao cần có mô hình âm học tốt. Hầu hết các hệ thống nhận dạng tiếng nói thống kê ngày nay đều dựa trên mô hình toán học của một hệ thống nhận dạng tiếng nói theo nguyên lý xác suất của Bayes.
(2.1)
Tín hiệu tiếng nói sau khi qua bước tiền xử lý như rời rạc hóa và trích chọn ra các thông tin đặc trưng, ta thu được là một chuỗi các vector đặc trưng tương ứng X={X1, X2, X3,…, XN}. Sau đó nhiệm vụ của hệ thống nhận dạng tiếng nói là tìm ra một chuỗi các từ W = { W1, W2, W3,…, WN} có nội dung tương ứng với X về mặt ngữ nghĩa, sao cho P(W | X) cực đại. P(W) là xác suất của chuỗi W, giá trị này có thể được tính toán thông qua một mô hình ngôn ngữ n-gram và nó hoàn toàn độc lập với tín hiệu tiếng nói X. P(X|W) là xác suất để X là W được xác định thông qua mô hình âm học (acoustic model). Giá trị P(X) có thể được bỏ qua do giá trị của nó không thay đổi trong một bộ dữ liệu cụ thể với tất các chuỗi dự đoán W.
2.3.2 Đơn vị huấn luyện cho Tiếng Việt
THANH ĐIỆU
ÂM ĐẦU
VẦN
Âm đệm Âm chính Âm cuối
Trong Tiếng Việt tiếng là đơn vị tự nhiên nhất cấu tạo nên lời nói, số lượng tiếng trong tiếng Việt khá lớn khoảng 6000 đến 8000 tiếng. Âm vị trong tiếng Việt gồm:
+ 22 phụ âm làm nhiệm vụ âm đầu. Đó là /b, m, f, v, t, t’, d, n, z, ‘…’, s, ‘…’, c, ‘…’, ‘…’, l, k, x, ‘…’, ‘…’, h, ‘…’/
+ 1 âm đệm /w/ có cấu tạo gần giống như nguyên âm làm âm chính /u/ + 16 nguyên âm gồm 13 âm đơn và 3 nguyên âm đôi làm âm chính. Đó là /i, e, ε, ‘...’, ‘...’,‘...’, a, ă, u, o, ɔ,‘...’, ‘...’, ie, ‘...’, uo/.
+ 8 âm cuối
+ Có 6 thanh điệu là không, ngã, hỏi, nặng, huyền, sắc
Có thể thấy số lượng âm vị không nhiều như tiếng, lựa chọn âm vị để huấn luyện là giải pháp tối ưu hơn. Khó khăn ở đây là thanh điệu, tuy nhiên thanh điệu ảnh hưởng nhiều nhất ở các nguyên âm. Khi dây thanh dao động, âm được tạo nên nếu đi ra ngoài tự do, có một âm hưởng êm ái, dễ nghe ta sẽ có các nguyên âm, ví dụ: [i], [e], [a], [u], [o]. Về mặt âm học, các nguyên âm bao giờ cũng là tiếng thanh. Bởi vậy có thể chia 6 nguyên âm ra thành 6 âm, tương ứng với 6 thanh điệu.