Hình 2.12 thể hiện ý tưởng của mô hình bi-gram. Mô hình xây dựng dựa trên thông tin ngữ cảnh có xét "từ" đứng trước đó là xác suất P(W2 | W1), xác suất W2 biết trước W1 đã xuất hiện trước đó. Tuy nhiên, không phải lúc nào thông tin P(W2|W1) cũng tốt. Chính vì vậy, nếu P(W2 | W1) quá nhỏ thì nên dùng lại P(W2).
2.2.7 Đồ thị tìm kiếm với ngữ cảnh một âm vị (monophone), ngữ cảnh có xét âm vị trái phải chỉ trong từ (triphone within-word) và ngữ cảnh có xét âm vị trái phải trong câu nói (triphones cross-word)
Quay lại bài toán giãn đồ thị, xét bước chuyển từ đồ thị "từ" sang đồ thị "âm vị", nếu chỉ thay đồ thị âm vị của "từ" một cách thuần túy, đồ thị âm vị sinh ra là đồ thị đơn
âm vị (monophone). Hình 2.13 là đồ thị âm vị được chuyển từ đồ thị "từ" trong hình
2.10.
Hình 2.13. Đồ thị đơn âm vị
Khi làm việc trên dữ liệu tiếng nói liên tục, âm vị của các từ đều có thay đổi vì ảnh hưởng bởi các âm lân cận. Đặc biệt là tiếng Việt, một ngôn ngữ hữu thanh. Các âm vị có thanh đi chung sẽ thay đổi rất nhiều. Chính vì điều này, các mô hình âm vị có xét đến ngữ cảnh được đề xuất.
Có hai hướng tiếp cận khi giải quyết vấn đề này. Hướng thứ nhất là phiên âm trực tiếp các âm vị có liên quan đến ngữ cảnh vào trong từ điển. Hướng tiếp cận thứ hai
là dùng mô hình ngữ âm đơn giản nhưng khi chuyển qua đồ thị âm vị, thì tạo ra âm có xét ngữ cảnh. Luận văn đi theo hướng tiếp cận thứ hai. Đồ thị trong hình 2.14 diễn tả đồ thị trong hình 2.13 nhưng có xét đến ngữ cảnh.
Hình 2.14. Đồ thị tri-gram within-word
Những trường hợp đầu từ và cuối từ sẽ thiếu đi một ngữ cảnh trái hoặc phải. Trường hợp này là trường hợp biphones. Còn các trường hợp đủ ngữ cảnh trái phải thì được gọi là triphones. Tuy nhiên, trong dữ liệu tiếng nói liên tục, giữa 2 từ không đảm bảo luôn có khoảng lặng, hoặc khoảng lặng này rất ngắn và việc âm vị cuối của từ trước ảnh hưởng lên âm vị đầu của từ sau là hoàn toàn có. Trường hợp đồ thị trong hình 2.14 là trường hợp tri-phones within-word. Hình 2.15 sẽ diễn tả trường hợp đồ thị tri-phones crossword.
Rõ ràng đồ thị tri-phone cross-word thể hiện mô hình ngữ âm chính xác hơn. Tuy nhiên, đồ thị khá phức tạp và tốc độ nhận dạng lại chậm hơn các mô hình khác.