Việc so sánh hiệu quả giữa các mô hình ngôn ngữ khác nhau là cần thiết trong quá trình xây dựng hệ thống nhận dạng tiếng nói. Cách đơn giản nhất là áp dụng chúng trên cùng một trình nhận dạng. Mô hình ngôn ngữ tốt là mô hình ngôn ngữ cho kết quả nhận dạng với độ chính xác cao. Đây được xem như cách tốt nhất để đánh giá tính hiệu quả của một LM. Tuy nhiên chi phí cho phép đánh giá này là quá lớn. Một cách tiếp cận khác trong việc đánh giá tính hiệu quả của LM là dựa vào lí thuyết thông tin mà cụ thể là độ đo entropy. Ý tưởng chính của phép đánh giá này là dựa trên giá trị trung bình của logarit của xác suất trên mỗi từ, nằm trong đoạn văn bản mới, không tham gia vào quá trình huấn luyện.
Kí hiệu p là phân bố xác suất chính xác của đoạn văn bản x chứa k từ. Khi đó độ
(21) Để xác định xác suất của đoạn văn bản này, ta sẽ sử dụng LM của mình, kí hiệu
p ~ , khác với phân bố p. Trước tiên, ta có thể tính giá trị logarit trung bình của xác suất cho mỗi từ như sau:
(22) Ta có thể chứng minh rằng , nghĩa là giá trị logarit trung bình của xác suất không nhỏ hơn độ đo entropy của dữ liệu test. Hiển nhiên, mục tiêu của ta là tìm LM sao cho giá trị logarit trung bình của xác suất càng gần với độ đo entropy của dữ liệu văn bản càng tốt.
Một phép đo liên quan đến giá trị logarit trung bình của xác suất, gọi là độ rối
perplexity, định nghĩa bởi: rất thường được dùng để đánh giá tính hiệu quả của các
LM. Theo định nghĩa ta có thể thấy: giá trị perplexity càng nhỏ thì LM càng có khả năng dự báo chính xác từ sẽ xuất hiện. Các LM cho tiếng Việt trong luận văn này cũng được đánh giá bằng độ đo perplexity.