Mô hình ngôn ngữ mạng nơron truyền thẳng

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu mô hình ngôn ngữ dựa trên mạng nơron (Trang 31 - 32)

Sử dụng mạng nơron mà Bengio đƣa ra đã thay thế “bảng xác suất có điều kiện” của các mô hình ngôn ngữ trƣớc đây. Cải tiến này đạt đƣợc hiểu quả tốt (10- 20%) là do lợi dụng đƣợc việc học các “biểu diễn phân bố của từ” (distributed representation of word). Tuy nhiên mô hình bị hạn chế bởi tính toán phức tạp, làm tăng thời gian tính toán.

2.2 Mô hình ngôn ngữ mạng nơron hồi quy

Mô hình ngôn ngữ mạng nơron hồi quy (Recurrent Neural Network Language Model - RNNLM) đƣợc Tomas Mikolov đƣa ra năm 2010 [11] [12]. Sự khác nhau chính giữa mô hình ngôn ngữ mạng nơron truyền thẳng và mạng nơron hồi quy là trong mô hình ngôn ngữ mạng nơron truyền thẳng chỉ tính toán dựa trên một số từ đằng trƣớc (history), còn đối với mô hình ngôn ngữ mạng nơron hồi quy (RNNLM) đƣợc học từ tất cả các từ trong dữ liệu huấn luyện. Tầng ẩn của RNNLM biểu diễn toàn bộ các từ tình từ thời điểm ban đầu đến từ hiện tại, không phải của (n-1) từ phía trƣớc.

Một ƣu điểm quan trọng của mạng nơron hồi quy đó là có thể biểu diễn các mẫu trên bộ dữ liệu liên tiếp nhau. Ví dụ, các mẫu là các cụm từ xuất hiện nhiều lần thì mạng hồi quy có thể nhớ đƣợc một số từ đặc biệt trên trạng thái của tầng ẩn. Mạng

nơron hồi quy không bị giới hạn bởi chiều dài ngữ cảnh do sử dụng kết nối hồi quy, thông tin đƣợc quay vòng trong mạng.

Điểm khác biệt nữa giữa mô hình ngôn ngữ mạng nơron truyền thẳng và mạng nơron hồi quy đó là số lƣợng các biến sử dụng khi tính toán. Mạng nơron truyền thẳng cần tối ƣu các tham số: số từ đầu vào (n-1), kích thƣớc ma trận C, kích thƣớc tầng ẩn. Còn đối với mạng nơron hồi quy chỉ phụ thuộc vào kích thƣớc của tầng ẩn.

Kiến trúc của RNNLM đƣợc biểu diễn trên hình 3.2. Tầng vào bao gồm một vector w(t) biểu diễn cho từ wt, vector w(t) có kích thƣớc bằng kích thƣớc của bộ từ điển từ vựng V, và một vector s(t-1) biểu diễn trạng thái của tầng ẩn ở bƣớc trƣớc đó. Sau khi dữ liệu đƣợc huấn luyện thì tầng ra y(t) biểu diễn xác suất P(wt+1|wt , s(t-1).

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu mô hình ngôn ngữ dựa trên mạng nơron (Trang 31 - 32)

Tải bản đầy đủ (PDF)

(62 trang)