Giới thiệu mạng LSTM xếp chồng

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt (Trang 28 - 32)

1.2.5.1 Hạn chế của mạng nơ ron hồi quy RNN

Trong qũ trớnh huấn luyện mạng để tối ưu hụa trọng số mạng dựa trởn Gradient [156], một số trường hợp thời gian huấn luyện cụ thể kờo dỏi hay kết quả trả về cụ độ chợnh xõc khừng như mong muốn. Một trong những nguyởn nhĩn gĩy nởn những hiện tượng trởn lỏ Gradient biến mất (Vanishing Gradient) vỏ Gradient bỳng nổ (Exploding Gradient).

Cõc vấn đề nỏy thường gặp phải do việc lựa chọn cõc hỏm kợch hoạt khừng hợp lý hoặc số lượng cõc lớp ẩn của mạng qũ lớn. Đặc biệt, cõc vấn đề nỏy thường hay xuất hiện trong qũ trớnh huấn luyện cõc mạng nơ ron hồi quy. Trong thuật tõn lan truyền ngược liởn hồi BPTT(Backpropagation Through Time)

[141], khi chỷng ta cỏng quay lỳi về cõc bước thời gian trước đụ thớ cõc giõ trị gradient cỏng giảm dần, điều nỏy lỏm giảm tốc độ hội tụ của cõc trọng số do sự thay đổi hầu như rất nhỏ.

Trong một số trường hợp khõc, cõc gradient cụ giõ trị rất lớn khiến cho qũ trớnh cập nhật cõc trọng số bị phĩn kỳ vỏ vấn đề nỏy được gọi lỏ Gradient bỳng nổ. Cõc vấn đề về Gradient biến mất thường được quan tĩm hơn vấn đề Gradient bỳng nổ do vấn đề gradient biến mất khụ cụ thể được nhận biết trong khi Gradient bỳng nổ cụ thể dễ dỏng quan sõt vỏ nhận biết hơn. Cụ nhiều nghiởn cứu đề xuất cõc giải phõp để giải quyết những vấn đề nỏy như lựa chọn hỏm kợch hoạt hợp lý, thiết lập cõc kợch thước cho mạng hợp lý hoặc khởi tạo cõc trọng số ban đầu phỳ hợp khi huấn luyện. Một trong cõc giải phõp cụ thể cụ thể chỉ ra lỏ thuật tõn

Truncated BPTT [59], một biến thể cải tiến của BPTT được õp dụng trong qũ trớnh huấn luyện mạng nơ ron hồi quy trởn cõc chuỗi dỏi. Ngoỏi ra, cơ chế hoạt động của mạng LSTM được đề xuất cụ thể khắc phục được cõc vấn đề nỏy sẽ được giới thiệu trong phần tiếp theo.

1.2.5.2 Giới thiệu mạng LSTM

Xuất phõt từ hạn chế của mạng nơ ron hồi quy RNN (Recurrent Neural Network) lỏ khừng cụ khả năng ghi nhớ thừng tin từ cõc bước cụ khoảng cõch xa dẫn đến những phần tử đầu tiởn trong chuỗi đầu vỏo khừng cụ nhiều ảnh hưởng đến cõc kết quả tợnh tõn dự đõn phần tử cho chuỗi đầu ra trong cõc bước sau. Mạng LSTM được thiết kế để khắc phục cõc hạn chế nởu trởn thừng qua việc giải quyết cõc bỏi tõn về phụ thuộc xa (long-term dependencies) trong mạng RNN.

Mạng LSTM được giới thiệu bởi Hochreiter vỏ Schmidhuber [55] hoạt động rất hiệu quả trởn nhiều bỏi tõn khõc nhau nhờ việc cắt bỏ những Gradient dư thừa thừng qua tập hằng số lỗi [55]. Mạng LSTM bao gồm nhiều tế bỏo LSTM liởn kết với nhau. Kiến trỷc của mỗi tế bỏo được biểu diễn như trong Hớnh 1.4.

Ý tưởng của LSTM lỏ bổ sung thởm trạng thõi bởn trong tế bỏo (cell internal state)st vỏ ba cổng sỏng lọc cõc thừng tin đầu vỏo vỏ đầu ra cho tế bỏo bao gồm cổng quởn (forget gate) ft, cổng vỏo (input gate) it vỏ cổng ra (output gate) ot. Tại mỗi bước thời gian t, cõc cổng đều lần lượt nhận giõ trị đầu vỏo xt (đại diện cho một phần tử trong chuỗi đầu vỏo) vỏ giõ trị ht – 1 cụ được từ đầu ra của tế bỏo từ bước trước đụ t-1.

Hớnh 1.4. Sơ đồ biểu diễn kiến trỷc bởn trong của một tế bỏo LSTM

𝑠ǁ𝑡 𝑖𝑡 + 𝑠𝑡−1 𝑠𝑡 𝑓𝑡 𝑜𝑡 𝑡𝑎𝑛ℎ 𝑥𝑡 ℎ𝑡−1 𝑥𝑡 ℎ𝑡−1 𝑥𝑡 ℎ𝑡−1 𝑥𝑡 ℎ𝑡−1 𝑠𝑡 ℎ𝑡 Cổng vỏo Cổng quởn Cổng ra Tế bỏo LSTM

Cõc cổng đều đụng vai trú cụ nhiệm vụ sỏng lọc thừng tin với mỗi mục đợch khõc nhau:

- Cổng quởn (Forget gate): Cụ nhiệm vụ loại bỏ những thừng tin khừng cần thiết nhận được khỏi trạng thõi bởn trong tế bỏo.

- Cổng vỏo (Input gate): Cụ nhiệm vụ chọn lọc những thừng tin cần thiết nỏo được thởm vỏo trạng thõi bởn trong tế bỏo.

- Cổng ra (Output gate): Cụ nhiệm vụ xõc định những thừng tin nỏo từ trạng thõi bởn trong tế bỏođược sử dụng như đầu ra.

Giả sử:

- xt lỏ vector đầu vỏo tại mỗi bước thời gian t.

- Wf,x, Wf,h, 𝑊𝑠ǁ,𝑥,, 𝑊𝑠ǁ,ℎ,Wi,x, Wi,h lỏ cõc ma trận trọng số trong mỗi tế bỏo - bf, bs, bi, bolỏ cõc vờc tơ độ lệch bias

- ft, it, ot lần lượt chứa cõc giõ trị kợch hoạt lần lượt cho cõc cổng quởn, cổng vỏo vỏ cổng ra tương ứng.

- st, 𝑠ǁ lần lượt lỏ cõc vờc tơ đại diện cho trạng thõi bởn trong vỏ giõ trị ứng cử (candidate value).

- ht lỏ giõ trị đầu ra của tế bỏo LSTM. Hoạt động của mạng LSTM:

Trong qũ trớnh lan truyền xuừi (forward pass), st vỏ giõ trị đầu ra ht được tợnh như sau:

- Đầu tiởn, tế bỏo LSTM quyết định những thừng tin nỏo cần được loại bỏ ở bước thời gian trước đụ st-1. Giõ trị kợch hoạt ftcủa cổng quởn tại bước thời gian

t được tợnh dựa trởn giõ trị đầu vỏo hiện tại xt, giõ trị đầu ra ht-1 từ tế bỏo LSTM ở bước trước đụ vỏ độ lệch bfcủa cổng quởn. Hỏm kợch hoạt sigmoid biến đổi tất cả giõ trị kợch hoạt về miền cụ giõ trị trong khoảng từ 0 (hoỏn toỏn quởn) vỏ 1 (hoỏn toỏn ghi nhớ):

𝑓𝑡 = 𝜎(𝑊𝑓,𝑥𝑥𝑡+ 𝑊𝑓,ℎℎ𝑡−1 + 𝑏𝑓) (1.3) - Ở bước thứ hai, tế bỏo LSTM quyết định những thừng tin nỏo cần được thởm vỏo st. Bước nỏy bao gồm hai qũ trớnh tợnh tõn đối với 𝑠ǁ𝑡 vỏ ft. Giõ trị đề

cử 𝑠ǁ𝑡 biểu diễn những thừng tin tiềm năng cần được thởm vỏo trạng thõi bởn trong tế bỏo được tợnh như sau:

𝑠ǁ𝑡 = 𝑡𝑎𝑛ℎ(𝑊𝑠ǁ,𝑥𝑥𝑡 + 𝑊𝑠ǁ,ℎℎ𝑡−1 + 𝑏𝑠ǁ) (1.4) - Ở bước thứ ba, giõ trị mới của st được tợnh dựa trởn kết quả tợnh tõn thu được từ cõc bước trước với phờp nhĩn Hadamard theo từng phần tử, phờp nhĩn

Hadamard được ký hiệu bằng ∘:

𝑠𝑡 = 𝑓𝑡∘ 𝑠𝑡−1 + 𝑖𝑡 ∘ 𝑠ǁ𝑡 (1.5) Ở bước cuối cỳng, giõ trị đầu ra ht của tế bỏo LSTM được tợnh tõn dựa theo hai phương trớnh sau:

𝑜𝑡 = 𝜎(𝑊𝑜,𝑥𝑥𝑡 + 𝑊𝑜,ℎℎ𝑡−1 + 𝑏𝑜) (1.6)

ℎ𝑡 = 𝑜𝑡 ∘ tanh (𝑠𝑡) (1.7)

1.2.5.3 Giới thiệu mừ hớnh LSTM xếp chồng

Nghiởn cứu của Graves vỏ cộng sự [49] cho rằng độ sĩu của mạng quan trọng hơn số lượng ừ nhớ trong một lớp nhất định. Mừ hớnh mạng LSTM gốc chỉ bao gồm một lớp ẩn LSTM theo sau lỏ một lớp đầu ra. Mừ hớnh LSTM xếp chồng (Stacked LSTM) được đề xuất bởi Graves [49] lỏ mừ hớnh mở rộng của LSTM bao gồm nhiều lớp LSTM xếp chồng lởn nhau trước khi chuyển tiếp đến lớp

Dropout [125] vỏ lớp đầu ra cuối cỳng. Kiến trỷc mừ hớnh LSTM xếp chồng gồm 3 lớp LSTM mừ tả như Hớnh 1.5. Đầu vỏo LSTM Dropout Đầu ra LSTM LSTM Hớnh 1.5. Kiến trỷc mừ hớnh LSTM xếp chồng

lỏm đầu vỏo của lớp LSTM tiếp theo. Bởn cạnh đụ, lớp LSTM nhận phản hồi từ bước trước của lớp đụ, do vậy mừ hớnh cho phờp thu thập cõc mẫu dữ liệu. Lớp

dropout trong mừ hớnh nỏy được thiết kế để trõnh hiện tượng qũ khớp

(overfitting) [140].

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt (Trang 28 - 32)