Các giá trị gradient được lan truyền trong mạng nơ- 123docz.net

Để cho quá trình tính toán đƣợc ổn định nên sử dụng giá trị có độ chính xác gấp đôi thay cho độ chính xác đơn. Vì mạng nơron hồi quy tính toán phức tạp hơn rất nhiều so với mạng nơron truyền thẳng, sau mỗi bƣớc các trọng số đƣợc cộng thêm một giá trị lớn nên cá giá trị gradient lỗi đƣợc giới hạn trong khoảng [-15;15].

2.2.3 Một số nhƣợc điểm của mạng nơron hồi quy

Mạng nơron hồi quy có một số trở ngại:

 Thời gian huấn luyện: quá trình huấn luyện RNNLM rất lâu do số phép toán lớn và số lần huấn luyện mạng lặp lại nhiều lần. Theo công thức 2.6 và thuật toán huấn luyện trình bày trong mục 2.2.1 thì độ phức tạp tính toán của mạng nơron

(epochs). Thông thƣờng phải mất từ 10-50 lần lặp lại để đạt đƣợc điểm cực tiểu. Ngoài ra, kích thƣớc bộ từ vựng V thƣờng rất lớn làm cho thời gian huấn luyện tăng lên đáng kể.

 Cố định kích thƣớc tầng ẩn: kích thƣớc tầng ẩn thƣờng đƣợc cố định trƣớc khi huấn luyện mạng. Tuy nhiên không có một đánh giá thực tế nào cho biết việc lựa chọn kích thƣớc tầng ẩn bao nhiêu thì hệ thống tối ƣu. Đây cũng là hạn chế của mạng nơron hồi quy.

 Kích thƣớc ngữ cảnh (context) nhỏ: mặc dù trên lý thuyết không giới hạn ngữ cảnh nhƣng thực tế khi thực hiện phải giới hạn ngữ cảnh tránh hiện tƣợng triệt tiêu gradient.

2.3 Một số kỹ thuật cải tiến mô hình ngôn ngữ mạng nơron

2.3.1 Giảm kích thƣớc bộ từ vựng

Các mô hình mạng nơron ban đầu tính toán khá phức tạp làm giới hạn tính khả thi của hệ thống thực. Rất nhiều kỹ thuật đƣa ra để giảm tính toán ở tầng ẩn và tầng ra, tức là giảm H×V phép toán. Đây chính là thắt cổ chai trong khi sử dụng mạng nơron truyền thẳng và mạng nơron hồi quy. Ví dụ với tầng ẩn H=200 và bộ từ vựng là

V=50K, thì thời gian thực hiện quá trình huấn luyện dữ liệu cỡ vài triệu từ là rất lâu. Một giải pháp đơn giản là giảm kích thƣớc của bộ từ vựng V. Bengio [1] đƣa ra một giải pháp là nhóm các từ có tần suất xuất hiện thấp vào trong một lớp riêng, lớp này có xác suất bằng xác suất của tất từ hiếm gặp. Các từ này đƣợc nhóm vào lớp đó dựa trên tần suất xuất hiện 1-gram.

Kỹ thuật này làm giảm đáng kể tốc độ tính toán nhƣng làm giảm độ chính xác.

2.3.2 Phân tách tầng ra của mạng nơron (Factorization)

Thay vì tính xác suất của tất cả các từ trong bộ từ vựng V hoặc giảm kích thƣớc bằng bỏ qua những từng ít gặp, xác suất đƣợc tính qua xác suất của lớp từ vựng và xác suất của từ nằm trong lớp đó. Ý tƣởng ban đầu đƣợc Goodman [6] sử dụng phân lớp từ để tăng tốc độ tính toán cho mô hình entropy cực đại (maximum entropy model). Kỹ thuật này đƣợc mô tả trong hình 2.5. Đầu tiên tính xác suất của lớp, tiếp theo tính xác

suất của từ nằm trong lớp. Do đó, thay vì tính V đầu ra, ta chỉ việc tính C+V’ đầu ra và hàm softmax sử dụng tính cho cả C vàV’ , trong đó C bằng tổng các lớp, V’ bằng tổng các từ thuộc về lớp đó. C là một hằng số còn V’ là biến.

Các giá trị gradient được lan truyền trong mạng nơron hồi quy

Mô hình ngôn ngữ mạng nơron truyền thẳng

Mô hình ngôn ngữ mạng nơron truyền thẳng