Mô hình Markov ẩn được dùng để mô hình hóa tín hiệu tiếng nói, và được áp dụng vào nhận dạng tiếng nói. Một mô hình Markov ẩn được dùng để biểu diễn cho một đơn vị của ngôn ngữ, như là từ hay là âm vị. Một khi biểu diển một chuỗi mẫu quan sát, mô hình có thể xác định xác suất gặp các mẫu quan sát đó.
Một mô hình Markov có thể coi là một máy trạng thái hữu hạn, trong đó sự thay đổi trạng thái được xảy ra theo từng đơn vị thời gian, và tại mỗi thời điểm t thì
một trạng thái j được tạo ra, một vector tiếng nói OTđược tạo ra từ xác suất bj(OT). Hơn nữa, sự chuyển đổi từ trạng thái i sang trạng thái j cũng được mô tả theo xác suất và bị chi phối bởi xác suất rời rạc aij. Xác suất chuyển trạng thái và sự phân bố xác suất phụ thuộc vào các tham số của của mô hình. Trong quá trình huấn luyện các tham số này được tối ưu hóa cho phù hợp với dữ liệu huấn luyện. Hình
Lựa chọn đơn vị tiếng nói cho mô hình
HMM có thể mô hình hóa bất cứđơn vị tiếng nói nào như từ, âm vị.. Lựa chọn đơn vịđể mô hình hóa dựa trên các tiêu chuẩn sau:
- Tính chính xác: biểu diễn được các thể hiện âm học xuất hiện trong các ngữ cảnh khác nhau.
- Tính huấn luyện được: phải có đủ dữ liệu huấn luyện để tính toán các thông số của các HMM.
- Tính khái quát hóa được: có thể xây dựng được HMM của các thành phần ngôn ngữ lớn hơn dựa trên các HMM đơn vị.
Mô hình hóa đơn vị tiếng nói
Mô hình mức từ (word): Mỗi từ tương ứng với một mô hình HMM, số lượng tham số của các mô hình khá lớn. Trường hợp này khi áp dụng vào nhận dạng sẽ cho độ chính xác cao nếu số lượng từ vựng nhỏ, ngược lại, ví dụ như xét bộ từ vựng Tiếng Việt khá lớn (khoảng hơn 2000 từ) thì lại cho độ chính xác thấp hơn. Mặt
khác, nếu thay đổi số lượng từ vựng (thêm các từ mới, chưa có trong bộ từ vựng, đây là trường hợp ứng với hệ nhận dạng tiếng nói với bộ từ vựng mở) thì phải huấn luyện lại mô hình, điều này khá vất vảđối với một bộ từ vựng tương đối lớn.
Mô hình mức dưới từ (subword): Ta có thể hình dung rằng, một mô hình từ được tạo thành từ các mô hình mức dưới từ, do đó, mô hình mức dưới từ là một thành phần con của mô hình mức từ. Do vậy, khi cần bổ sung từ mới trong bộ từ vựng, ta chỉ cần ghép các mô hình subword theo trật tự nhất định là tạo được một mô hình mức từứng với từ mới, không cần phải xây dựng lại toàn bộ các mô hình. Ngoài ra, cũng do đặc trưng của các subword là thành phần cấu tạo các word, nó xuất hiện ở nhiều từ, do vậy chỉ cần rất ít dữ liệu huấn luyện. Xây dựng mô hình HMM cho mức dưới từ còn có một lợi thế trong các hệ thống nhận dạng không phụ thuộc vào bộ từ vựng.
Như vậy, tiêu chí để lựa chọn đơn vị tiếng nói để mô hình hóa là phụ thuộc vào kích thước từđiển, nếu từ điển có kích thước nhỏ, ta sẽ chọn mô hình từ, ngược lại với từđiển kích thước lớn, chọn mô hình mức dưới từ (subword).