Mạng nơ-ron kết hợp CNN-LSTM

Một phần của tài liệu Phân tích ý kiến người dùng theo khía cạnh bằng phương pháp học sâu (Trang 32 - 35)

2.4 Học Sâu (Deep Learning)

2.4.4 Mạng nơ-ron kết hợp CNN-LSTM

Như mạng nơ-ron tích chập (CNN), bộ nhớ dài hạn (LSTM) đã được sử dụng thành cơng để phân tích ý kiến. CNN có khả năng trích xuất thơng tin địa phương nhưng có thể khơng nắm bắt được sự phụ thuộc vào khoảng cách dài ngắn của văn bản. LSTM có thể giải quyết hạn chế này bằng cách mơ hình hóa các văn bản theo thứ tự qua các câu. Các phương pháp sử dụng từ nhúng và chỉ dựa vào một phương pháp học sâu đã không đạt được kết quả tốt cho phân tích ý kiến. Chính vì vậy, nghiên cứu này đề xuất mơ hình liên kết CNN-LSTM

31

Hình 2. 14: Trình bày sơ đồ tổng thể của mơ hình đề xuất CNN-LSTM 11

Đối với từng văn bản nhất định, mơ hình CNN sử dụng một câu như là một vùng để phân chia văn bản nhất định vào các vùng R, tức là r1..., ..., ...,ri rk rR Trong mỗi khu vực, tính năng hữu ích có thể được trích xuất một khi vectơ từ tuần tự đi qua một lớp tích chập và lớp tổng hợp tối đa. Các tính năng cục bộ sau đó sẽ được tích hợp theo từng khu vực sử dụng LSTM để xây dựng một vector văn bản cho dự đốn.

Lớp tích chập (Convolutional Layer)

Trong mỗi vùng, một lớp tích chập được sử dụng lần đầu để trích xuất các tính năng n- gram cục bộ. Tất cả các từ nhúng được xếp chồng lên nhau trong một ma trận khu vực

dx V

MR trong đó I V| là kích thước từ vựng của một vùng, và d là chiều của các vectơ

từ. Ví dụ, trong hình 3.7, vectơ từ trong các vùng ri ={w1ri,..w2ri,...wiri}, rj ={w1rj,..w2rj,...wrjj}

rk ={w1rk,..w2rk,...wKrk} đưoc kết nối tao thành các ma trân khu vực xri,xrjrk

x . Ở mỗi

khu vực, chúng tôi sử dụng các bộ lọc l để tìm hiểu các tính năng địa phương. Trong một cửa sổ các từ xn n: + − 1, một bộ lọc ft (1<1<L) tạo ra các đặc trưng tương ứng theo

công thức:

11 https://www.researchgate.net/figure/System-architecture-of-the-proposed-regional-CNN-LSTM- model_fig1_306093564

32 : 1 ( ) t t t m n n y = f Wx + − +b (2.7) trong đó 0 là một tốn tử tích chập, dx V WR và b tưong ứng biểu thị ma trận trọng số và thiên vị, ro là độ dài của bộ lọc, d là kích thước của vector từ, và f là hàm ReLU. Khi một bộ lọc dần dần đi qua x1:w−1 tới xN w+ −1:Nchúng ta có được các đặc trưng đầu ra

1, 2, 3,.... 1

l l l l l N w

y =y y y y − + của bộ lọc fi.

Với các chiều dài văn bản khác nhau ở các vùng, có thể có các kích thước khác nhau cho các văn bản khác nhau. Do đó, chúng ta xác định độ dài tối đa của đầu vào CNN trong trong bộ dữ liệu như kích thước N. Nếu chiều dài đầu vào ngắn hơn N, thì một số vectơ ngẫu nhiên với một sự phân bố đồng nhất U (-0,25, 0,25) sẽ được nối vào.

Lớp Max-pooling (Max-pooling Layer)

Tối đa hóa các mẫu con của đầu ra của lớp tích chập. Cách phổ biến nhất là tổng hợp nó để áp dụng một hoạt động tối đa đến kết quả của mỗi bộ lọc. Có hai lý do để sử dụng một lớp tổng hợp tối đa ở đây. Thứ nhất, bằng cách loại bỏ các giá trị khơng tối đa, nó làm giảm tính tốn cho các lớp trên. Thứ hai, nó có thể trích xuất các phụ thuộc địa phương trong các khu vực khác nhau để giữ cho các thông tin nổi bật nhất. Các vectơ vùng thu được sau đó được đưa vào một lớp tuần tự.

Lớp chuỗi (Sequential Layer)

Để nắm bắt sự phụ thuộc khoảng cách dài ngắn qua các vùng, lớp tuần tự kết hợp mỗi vector vùng thành một vector văn bản. LSTM [1] được sử dụng đưa vào trong lớp tuần tự cho thành phần vector. Sau khi tế bào bộ nhớ LSTM tuần tự di chuyển qua tất cả các vùng, trạng thái ẩn cuối cùng của lớp tuần tự được coi là văn bản đại diện cho dự đốn VA

Giải mã tuyến trình (Linear Decoder)

Vì kích thước và sự tăng trưởng của các giá trị là liên tục, nhiệm vụ dự báo của VA địi hỏi phải có hồi quy. Thay vì sử dụng bộ phân loại softmax, một hàm kích hoạt tuyến tính (cịn được gọi là bộ giải mã tuyến tính) được sử dụng trong lớp đầu ra, được định nghĩa là:

( d t d )

33

trong đó xtlà vector văn bản học được từ lóp tuần tự, y là giá trị hoặc là sự tăng trưởng của văn bản đích, và wd và bã tương ứng biểu thị trọng số và xu hướng kết hợp với bộ giải mã tuyến tính.

Mơ hình CNN-LSTM được huấn luyện bằng cách giảm thiểu sai số bình phương trung bình giữa dự đốn y và y thực tế.

Cho một bộ ma trận văn bản huấn luyện X = {x1, x 1, x 2 ,. ,,, xm }, và xếp hạng VA của

chúng được đặt y = [y1, y2 ,…, ym }, hàm mất mát được xác định theo công thức:

𝐿(𝑋, 𝑦) = 1 2𝑛∑ ( 𝑘 𝑛 ) 𝑛 𝑘=1 ||ℎ(𝑥𝑖− 𝑦𝑖)||2 (2.9)

Trong giai đoạn huấn luyện, một thuật toán truyền lại (BP) với stochastic gradient descent (SGD) được sử dụng để tìm hiểu các tham số mơ hình.

Một phần của tài liệu Phân tích ý kiến người dùng theo khía cạnh bằng phương pháp học sâu (Trang 32 - 35)

Tải bản đầy đủ (PDF)

(76 trang)