Mô hình RNN

trong đó b, c là độ lệch (bias). Nhược điểm của mô hình RNN là vấn đề phụ thuộc xa. Tức là mô hình RNN cơ bản không có khả năng ghi nhớ thông tin từ các dữ liệu có khoảng cách xa. Nguyên nhân của vấn đề này là do giá trị đạo hàm sau khi lan truyền qua nhiều giai đoạn có xu hướng bị tiêu biến hoặc rất lớn gây ảnh hưởng lớn đến quá trình tối ưu hóa. Ngoài ra nếu các tham số giúp mạng RNN có tính ổn định thì có khả năng dẫn tới việc các trọng số nhỏ dần theo cấp số nhân do các tương tác dài. Một mô hình được đề xuất để khắc phục nhược điểm này là mô hình LSTM (Long Short-Term Memory) - mạng bộ nhớ ngắn hạn hướng tới dài hạn.

1.6.2. Mô hình LSTM

Mạng LSTM được đề xuất bởi Hochreiter và Schmidhuber vào năm 1997 [24] để khắc phục nhược điểm của mô hình RNN. Mô hình được đề xuất có dạng như hình 1.510

Mạng LSTM bao gồm nhiều tế bào LSTM liên kết với nhau thay vì chỉ tương tác với nhau qua đơn vị tầng ẩn như mạng RNN. LSTM bao gồm trạng thái tế bào giống như băng chuyền chạy xuyên suốt các nút mạng. Do đó các thông tin được truyền đi dễ dàng thông suốt. LSTM có khả năng loại bỏ hoặc thêm các thông tin cho trạng thái tế bào thông qua các nhóm gọi là cổng. Cổng là nơi

Hình 1.5: Mô hình LSTM

sàng lọc thông tin qua nó thông qua phép toánsigmoid và phép nhân. Các công thức lan truyền trong mạng LSTM như sau:

ik =σ(Wixk +Vihk−1+bi), fk =σ(Wfxk +Vfhk−1+bf), ok =σ(Woxk +Vohk−1+bo), ck =fkck−1+iktanh(Wcxk+Vchk−1+bc), hk =ok tanh(ck), (1.5)

trong đói, f, o là cổng vào, cổng quên và cổng ra tương ứng, σ là hàm sigmoid, là phép toán nhân (element wise) của hai véc tơ, W ∈ Rd×l, V ∈ Rd×d, b ∈

Rd là các ma trận trọng số và các véc tơ được học từ mô hình, l là chiều của véc tơ từ, d là số chiều của lớp ẩn.

Véc tơ ck là bộ nhớ trong của đơn vị. Nó là sự kết hợp của bộ nhớ trước đó và đầu vào mới. Chúng ta có thể chọn bỏ qua hoàn toàn bộ nhớ cũ (cổng quên bằng 0) hoặc bỏ qua hoàn toàn trạng thái mới được tính toán (cổng đầu vào bằng 0), hoặc một giá trị ở giữa hai thái cực này.

Mạng LSTM đã chứng tỏ khả năng khắc phục hạn chế vấn đề phụ thuộc dài của mình qua nhiều thử nghiệm thực tế, giải quyết một số bài toán trong học máy nói chung và trong xử lý ngôn ngữ tự nhiên nói riêng.

Nhược điểm của mô hình RNN và LSTM khó bắt được sự phụ thuộc xa giữa các từ trong câu. Hơn nữa tốc độ xử lý chậm do phải xử lý đầu vào một cách tuần tự, không thực hiện song song hóa được

1.6.3. Mô hình mạng tích chập

Mô hình mạng tích chập (Convolutional Neural Network - CNN) được đề xuất đầu tiên trong thị giác máy tính. Mô hình này cũng cho thấy nó làm việc

hiệu quả trên một số bài toán NLP như phân tích ngữ nghĩa, tìm kiếm thông tin [25], biểu diễn câu [26]. Mô hình này sử dụng các tầng với các bộ lọc (convolving filters) để khai thác các đặc trưng cục bộ. Hình 1.6 mô tả các tầng trong mô hình CNN.

Hệ thống hỏi đáp cộng đồng

Tập dữ liệu hỏi đáp