Việc quyết định chọn lựa chuỗi từ ứng với tín hiệu ngữ âm về mặt bản chất là việc tìm kiếm tối ưu trên đồ thị được xây dựng bằng cách kết-ghép các mô hình ngôn ngữ, mô hình ngữ âm và từ điển phát âm. Ở mức chi tiết nhất, đồ thị là phép kết ghép của những HMM như minh hoạ trong hình 2.8. Từ hình ta thấy, việc xây dựng đồ thị kết-ghép cho tiến trình nhận dạng bao gồm ba bước:
Bước 1: LM được biểu diễn theo đồ thị trong đó các cạnh sẽ được gán nhãn
là các từ tương ứng. Chúng cũng có thể được gán nhãn là NULL, với một giá trị xác suất nào đó.
Bước 2: mỗi cạnh trong đồ thị LM sẽ được thay thế bằng một chuỗi hoặc
thậm chí một đồ thị trong đó các cạnh của đồ thị mới này sẽ được gán nhãn là các phone hay syllable, tương ứng với tập các qui tắc trong từ điển phát âm. Bước 3: là bước cuối cùng trong đó mỗi cạnh được gán nhãn phone từ bước 2
sẽ được thay thế bằng tập các HMM tương ứng.
Kết quả cuối cùng chính là đồ thị kết ghép như minh hoạ trong hình 2.8. Với kiến trúc đồ thị này, tất cả các tri thức về ngữ âm, về ngôn ngữ, về thống kê đều được tích hợp trong đó. Bài toán nhận dạng tiếng nói trở thành bài toán tổ chức và tìm kiếm trên đồ thị. Các thách thức ở đây bao gồm:
Kích thước: đồ thị cần được tổ chức và tối ưu sao cho có kích thước càng nhỏ
(thông qua số đỉnh và số cạnh) càng tốt. Tuy nhiên vẫn phải đảm bảo tính đầy đủ cho toàn bộ thông tin tri thức được tích hợp trong đó.
Độ chính xác: phép tìm kiếm trên đồ thị tuân theo ràng buộc cơ bản, đó là
phải đảm bảo sao cho kết quả tìm kiếm là gần giống với chuỗi từ đã được phát âm nhất.
Hình 2.8. Tiến trình xây dựng đồ thị kết ghép từ LM, AC và từ điển phát âm