Trong khuôn khổ luận án, một số mô hình ngôn ngữ được khai thác và sử dụng do tính hiệu quả của các mô hình này trong thời gian gần đây, đặc biệt là các mô hình ngôn ngữ mạng nơ ron. Các mô hình này phù hợp với dữ liệu lớn. Với xu hướng hiện nay, học sâu là mô hình tự động trích rút đặc trưng ngữ nghĩa của dữ liệu và kết hợp với dự đoán được tích hợp trong một mô hình duy nhất.
Mô hình ngôn ngữ là mô hình học dự đoán xác suất trên các tập văn bản. Có nghĩa là mô hình ngôn ngữ cho biết xác suất một câu (hoặc cụm từ) của một ngôn ngữ là bao nhiêu. Mô hình ngôn ngữ là thành phần cốt lõi của NLP. Nó là công cụ thống kê cho phép phân tích ngôn ngữ tự nhiên qua việc dự đoán từ. Mô hình ngôn ngữ ứng dụng vào các bài toán trong NLP như dịch máy, nhận dạng giọng nói, tóm tắt văn bản, hỏi đáp, phân tích ngữ nghĩa.
Ngôn ngữ hình thức là ngôn ngữ được định nghĩa trước, tất cả những từ sử dụng đều được định nghĩa trước trong hệ thống, ví dụ như ngôn ngữ lập trình. Trong khi đó, cách dùng từ trong ngôn ngữ tự nhiên rất đa dạng và phong phú tùy vào từng cá nhân nhưng vẫn được hiểu bởi con người. Trong khi đó máy chỉ hiểu được các số nên chúng ta tìm cách chuyển từ về dãy các số. Do đó, mô hình ngôn ngữ tìm xác suất của từ tiếp theo trong việc phân tích dữ liệu dạng văn bản. Mô hình dự đoán từ tiếp theo thông qua việc phân tích các đặc trưng của ngôn ngữ. Mô hình ngôn ngữ có hai hướng tiếp cận: mô hình ngôn ngữ thống kê và mô hình ngôn ngữ mạng nơ ron. Trong đó, mô hình ngôn ngữ sử dụng mạng nơ ron được lựa chọn sử dụng trong luận án.