Mạng noron hồi quy

Một phần của tài liệu Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 43 - 44)

2.1.3.1. Mụ hỡnh mạng no ron hồi quy

í tuởng của mạng no ron hồi quy (RNN - Recurrent neural network) [87] là thiết kế một mạng no ron cú khả nang xử lý duợc thụng tin dạng chuỗi. Mạng no ron hồi quy là mụ hỡnh học sõu dó dạt duợc nhiều kết quả trong cỏc nhiệm vụ xử lý ngụn ngữ tự nhiờn (NLP - Natural language processing). RNN là một mụ hỡnh cú nhớ (memory), cú khả nang nhớ duợc thụng tin dó tớnh toỏn truớc dú. RNN thực hiện cựng một tỏc vụ cho tất cả cỏc phần tử của một chuỗi với dầu ra phụ thuộc vào tớnh toỏn truớc dú. Hỡnh 2.4 biểu diễn mụ hỡnh mạng no ron hồi quy duợc triển khai chi tiết.

Hỡnh 2.4. Mụ hỡnh mạng no ron hồi quy [87]

trong dú:

- x t là dầu vào tại buớc t.

- s t là trạng thỏi ẩn tại buớc t (là bộ nhớ của mạng), duợc tớnh toỏn dựa trờn cỏc trạng thỏi ẩn phớa truớc và dầu vào tại buớc dú theo cụng thức:

( 1)

t t t

s = f Ux Ws+ −

(2.4) với: f là một hàm phi tuyến nhu hàm tanh, sigmoid hoặc ReLU. Để thực hiện phộp

toỏn cho phần tử ẩn dầu tiờn ta khởi tạo thờm s-1 và giỏ trị khởi tạo thuờng duợc gỏn bằng 0.

- ot là dầu ra tại buớc t, là một vộc to xỏc suất cỏc từ trong bộ từ vựng: ()

t t

o softmax Vs= (2.5)

- Vộc to dầu ra ot sẽ duợc sử dụng cho những dự doỏn tiếp theo.

2.1.3.2. Huấn luyện mạng no ron hồi quy

Nếu xột tại một thời diểm, hoạt dộng của RNN giống nhu mạng no ron truyền thống: Dữ liệu từ dầu vào sẽ duợc tớnh toỏn qua nhiều lớp và dua dặc trung thu duợc ra dầu ra. Tuy nhiờn, RNN khỏc với mạng no ron truyền thống, việc dua dặc

trung từ mẫu dữ liệu truớc vào dầu vào của mẫu dữ liệu sau dể học ra mối quan hệ là: Tại thời diểm t, RNN tớnh toỏn duợc dầu ra là ot, giỏ trị này sẽ duợc truyền vào lại mụ hỡnh tại thời diểm (t+1) dể tớnh toỏn cho mẫu dữ liệu tiếp theo và duợc dầu ra ot+1.

RNN duợc huấn luyện bằng thuật toỏn lan truyền nguợc nhung việc lan truyền nguợc là lan truyền nguợc liờn hồi (BPTT - Backpropagation Through Time) [80]. Do dú, thuật toỏn lan truyền nguợc duợc thay dổi lại là: Huớng giảm của dạo hàm (gradient descent) tại mỗi dầu ra phụ thuộc vào cỏc tớnh toỏn tại buớc hiện tại và cỏc buớc truớc dú (do bộ tham số trong RNN duợc sử dụng chung cho tất cả cỏc buớc). Với cỏc buớc phụ thuộc càng xa, việc học càng khú khan vỡ xuất hiện vấn dề biến mất gradient/bựng nổ gradient

(vanishing/exploding gradient).

Vớ dụ: Để tớnh gradient descent tại buớc t = 4, ta phải lan truyền nguợc cả 3 buớc phớa truớc, rồi cộng tổng gradient descent lại với nhau. Việc tớnh toỏn này duợc gọi là lan truyền nguợc liờn hồi.

Một phần của tài liệu Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 43 - 44)

Tải bản đầy đủ (DOC)

(181 trang)
w