Mơ hình Long Short-Term Memory - CƠ SỞ KIẾN THỨC- 123docz.net

Chương 2 CƠ SỞ KIẾN THỨC

2.3. Mơ hình Long Short-Term Memory

Mơ hình RNN là mơ hình được thiết kế để xử lý các dữ liệu dạng chuỗi. Tuy nhiên, với yêu cầu về kết quả dự đốn ngày càng cao của con người thì RNN vẫn chưa đáp ứng được nếu dữ liệu dạng chuỗi đầu vào có độ dài tương đối lớn. Vì đặc điểm của dữ liệu chuỗi là thơng tin đứng sau phụ thuộc vào các thông tin đứng trước nên cần một mơ hình có khả năng nhớ được các từ phía trước lâu hơn và dài hơn. Bên cạnh đó, mơ hình cần chọn lọc thơng tin để nhớ tại mỗi bước xử lý chứ không nhớ tất cả các thông tin vì trong thực tế thơng tin đứng sau chỉ liên hệ đến một phần trong số các thông tin đứng trước.

Nhằm giải quyết vấn đề này, mơ hình Long Short-Term Memory (LSTM) [6] ra đời dựa trên kiến trúc của mơ hình RNN. Tuy nhiên, dữ liệu đầu vào của mơ hình LSTM khơng chỉ là xt và ht−1 như mơ hình RNN mà cịn cần giá trị cell statect−1. Cụ thể hơn, phương thức hoạt động của từng percep-

tron trong mơ hình LSTM được thiết kế phức tạp với cơ chế gating như mơ tả trong Hình 4.5 theo từng bước như sau:

1. Bước đầu tiên sẽ tính tốn và tổng hợp thơng tin từ hidden state trước đóht−1và dữ liệu đầu vàoxt như cách perceptron trong mơ hình RNN thực hiện:

Ct =tanh(Wc [ht−1, xt] +bc) (2.5) 2. Cổng quên(forget gate) là phần quyết định sẽ giữ lại bao nhiêu phần

của vector cell state trước ct−1 với việc thực hiện phép tính tốn đối với vector hidden state trước ht−1 và vector biểu diễn thành phần dữ liệu thứ t, sau đó đưa kết quả qua hàm sigmoid:

ft =σ(Wf [ht−1, xt] +bf) (2.6) 3. Cổng cập nhật (update gate) là phần quyết định sẽ giữ lại bao nhiêu phần từ vector hidden state trước ht−1 và vector dữ liệu xt với phép tính sau:

ut =σ(Wu [ht−1, xt] +bu) (2.7) 4. Từ kết quả của bước 1, 2 và 3 có thể xác định được giá trị của cell

state ct bằng công thức:

ct = ft∗ct−1+ut ∗Cet (2.8) 5. Cổng xuất(output gate) là phần quyết định lấy bao nhiêu phần giá trị cell state trước ct−1 để trở thành giá trị của hidden state ht bằng phép tính:

ot =σ(Wo [ht−1, xt] +bo) (2.9) 6. Cuối cùng là phép tính giá trị hidden state ht từ giá trị của cell statect

ở bước 4 vàot ở bước 5 như sau:

Hình 2.7: Cơ chế hoạt động của perceptron trong mơ hình Long Short-Term Memory

Kết hợp các perceptron có cấu trúc như Hình 4.5 sẽ cấu tạo thành mơ hình LSTM với chiều huấn luyện từ trái sang phải (chiều xi). Mơ hình này gọi là mơ hình LSTM một chiều. Điểm yếu của mơ hình này là chỉ có khả năng dự đốn với độ chính xác cao khi được cung cấp một vài thông tin ở phần đầu của chuỗi dữ liệu. Nhằm khắc phục điểm yếu này, các nhà nghiên cứu khoa học đã đề xuất việc kết hợp hai mơ hình LSTM ngược chiều nhau. Điều này có nghĩa là hệ thống sẽ huấn luyện dữ liệu với mơ hình LSTM chiều từ trái sang phải, đồng thời huấn luyện dữ liệu với mơ hình LSTM chiều từ phải sang trái, sau đó kết hợp kết quả của cả hai mơ hình và thực hiện tác vụ dự đốn của bài tốn. Mơ hình kết hợp này được gọi làBidirec-

tional LSTM - BiLSTM có kiến trúc như Hình 2.8.

Hình 2.8: Kiến trúc mơ hình Bidirectional LSTM