trong đó b, c là độ lệch (bias). Nhược điểm của mơ hình RNN là vấn đề phụ thuộc xa. Tức là mơ hình RNN cơ bản khơng có khả năng ghi nhớ thơng tin từ các dữ liệu có khoảng cách xa. Nguyên nhân của vấn đề này là do giá trị đạo hàm sau khi lan truyền qua nhiều giai đoạn có xu hướng bị tiêu biến hoặc rất lớn gây ảnh hưởng lớn đến q trình tối ưu hóa. Ngồi ra nếu các tham số giúp mạng RNN có tính ổn định thì có khả năng dẫn tới việc các trọng số nhỏ dần theo cấp số nhân do các tương tác dài. Một mơ hình được đề xuất để khắc phục nhược điểm này là mơ hình LSTM (Long Short-Term Memory) - mạng bộ nhớ ngắn hạn hướng tới dài hạn.
1.6.2. Mơ hình LSTM
Mạng LSTM được đề xuất bởi Hochreiter và Schmidhuber vào năm 1997 [24] để khắc phục nhược điểm của mơ hình RNN. Mơ hình được đề xuất có dạng như hình 1.510
Mạng LSTM bao gồm nhiều tế bào LSTM liên kết với nhau thay vì chỉ tương tác với nhau qua đơn vị tầng ẩn như mạng RNN. LSTM bao gồm trạng thái tế bào giống như băng chuyền chạy xuyên suốt các nút mạng. Do đó các thơng tin được truyền đi dễ dàng thơng suốt. LSTM có khả năng loại bỏ hoặc thêm các thơng tin cho trạng thái tế bào thơng qua các nhóm gọi là cổng. Cổng là nơi
10
Hình 1.5: Mơ hình LSTM
sàng lọc thơng tin qua nó thơng qua phép tốnsigmoid và phép nhân. Các công thức lan truyền trong mạng LSTM như sau:
ik =σ(Wixk +Vihk−1+bi ), fk =σ(Wfxk +Vfhk−1+bf ), ok =σ(Woxk +Vohk−1+bo ), ck =fk⊙ck−1+ik⊙tanh(Wcxk+Vchk−1+bc ), hk =ok ⊙tanh(ck), (1.5)
trong đói, f, o là cổng vào, cổng quên và cổng ra tương ứng, σ là hàm sigmoid, ⊙ là phép toán nhân (element wise) của hai véc tơ, W ∈ Rd×l, V ∈ Rd×d, b ∈ Rd là các ma trận trọng số và các véc tơ được học từ mơ hình, l là chiều của véc tơ từ, d là số chiều của lớp ẩn.
Véc tơ ck là bộ nhớ trong của đơn vị. Nó là sự kết hợp của bộ nhớ trước đó và đầu vào mới. Chúng ta có thể chọn bỏ qua hồn tồn bộ nhớ cũ (cổng quên bằng 0) hoặc bỏ qua hồn tồn trạng thái mới được tính tốn (cổng đầu vào bằng 0), hoặc một giá trị ở giữa hai thái cực này.
Mạng LSTM đã chứng tỏ khả năng khắc phục hạn chế vấn đề phụ thuộc dài của mình qua nhiều thử nghiệm thực tế, giải quyết một số bài tốn trong học máy nói chung và trong xử lý ngơn ngữ tự nhiên nói riêng.
Nhược điểm của mơ hình RNN và LSTM khó bắt được sự phụ thuộc xa giữa các từ trong câu. Hơn nữa tốc độ xử lý chậm do phải xử lý đầu vào một cách tuần tự, khơng thực hiện song song hóa được
1.6.3. Mơ hình mạng tích chập
Mơ hình mạng tích chập (Convolutional Neural Network - CNN) được đề xuất đầu tiên trong thị giác máy tính. Mơ hình này cũng cho thấy nó làm việc
hiệu quả trên một số bài tốn NLP như phân tích ngữ nghĩa, tìm kiếm thơng tin [25], biểu diễn câu [26]. Mơ hình này sử dụng các tầng với các bộ lọc (convolving filters) để khai thác các đặc trưng cục bộ. Hình 1.6 mơ tả các tầng trong mơ hình CNN.