Hệ thống nhận dạng tiếng nói từ vựng lớn phát âm liên tục, thường sử dụng mô hình xác suất để mô hình hóa các đơn vị nhận dạng. Mỗi mô hình ngữ âm có thể coi như một hàm xác suất P(O|W) để đi xác định xác suất để một vector đặc trưng đầu vào O là đầu ra W. Các tham số của P(O|W) được xác định thông qua quá trình huấn luyện trên một tập mẫu có trước. Dữ liệu huấn luyện ảnh hưởng trực tiếp đến độ chính xác của mô hình ngữ âm. Thực tế, trong các hệ thống nhận dạng cho tập từ vựng lớn, thì mô hình ngữ âm thường được áp dụng để mô hình hóa các âm vị độc lập ngữ cảnh (mono-phone) hay phụ thuộc ngữ cảnh (tri-phone). Khi đó tất cả các từ sẽ được phân tách ra thành các đơn vị cơ bản gọi là âm vị. Việc phân tách này giúp giảm số lượng các đơn vị nhận dạng trong hệ thống. Ví dụ: một hệ thống nhận dạng cho tập từ vựng khoảng 100.000 từ, nếu mỗi từ là một đơn vị thì sẽ có 100.000 mô hình P(O|W) với hệ thống độc lập ngữ cảnh. Nếu phân tích các từ thành âm vị trong một tập gồm 54 âm vị thì tổng số mô hình độc lập ngữ cảnh sẽ chỉ còn 54. Như vậy vừa làm giảm kích thước của hệ thống, đồng thời tăng số lượng mẫu huấn luyện cho mỗi âm vị do các từ khác nhau có thể sử dụng chung một âm vị. Nếu cần bổ sung thêm từ vựng cho hệ thống cũng không cần thiết phải bổ sung dữ liệu huấn
luyện vì mọi từ trong một ngôn ngữ đều được tổng hợp từ tập âm vị đã có. Như vậy về mặt lý thuyết hệ thống không bị giới hạn về số từ vựng.
Một trong những mô hình xác suất được sử dụng phổ biến cho mô hình ngữ âm là mô hình Markov ẩn HMM (Hidden Markov Model).