Thành phần mô hình âm học

Thành phần này mô hình âm học cung cấp một ánh xạ giữa một đơn vị tiếng nói và một HMM (Hidden Markov Model) có thể được đánh giá dựa vào các đặc trưng được cung cấp bởi bộ ngoại vi. Các ánh xạ có thể đưa thông tin vị trí của từ và ngữ cảnh từ thành phần mô hình ngôn ngữ. Định nghĩa ngữ cảnh này được xây dựng từ cấu trúc ngữ pháp của mô hình ngôn ngữ

Khác với các hệ nhận dạng khác, mô hình HMM trong Sphinx có cấu trúc cố định trong bộ nhớ và đơn thuần chỉ là một đồ thị có hướng của các đối tượng. Trong đồ thị này, mỗi nút tương ứng với một trạng thái HMM và mỗi cung biễu diễn xác suất biến đổi từ trạng thái này sang trạng thái khác trong HMM. Bằng cách biểu diễn HMM như là các đồ thị có hướng của các đối tượng thay vì một cấu trúc cố định, một bổ sung của mô hình âm học có thể dễ dàng cung cấp các HMM với các dạng hình học tôpô khác.

Mỗi trạng thái HMM có khả năng phát sinh một đánh giá từ một đặc trưng quan sát. Quy tắc để tính toán điểm số được thực hiện bởi chính trạng thái HMM, do đó che dấu các thực thi của nó đối với phần còn lại của hệ thống, thậm chí cho phép các hàm mật độ xác suất khác nhau được sử dụng trên mối trạng thái HMM. Mô hình âm học cũng cho phép chia sẻ các thành phần khác nhau trên tất cả các cấp độ. Nghĩa là các thành phần tạo nên một trạng thái HMM như các hợp Gaussian (Gaussian mixture), các ma trận biến đổi và các trọng số hỗn hợp (mixture weight) có thể được chia sẽ bởi bất kỳ trạng thái HMM nào.

Biến đổi cosin rời rạc

Thành phần mô hình ngôn ngữ