Mơ hình mạng bộ nhớ dài ngắn LSTM

Một phần của tài liệu Nghiên cứu một số mô hình mạng học sâu và ứng dụng trong bài toán dự báo điểm tốt nghiệp của sinh viên trường cao đẳng cơ khí nông nghiệp (Trang 46 - 53)

CHƢƠNG 1 : GIỚI THIỆU TỔNG QUAN VỀ HỌC MÁY VÀ HỌC SÂU

2.3. Mạng Neural hồi quy

2.3.4. Mơ hình mạng bộ nhớ dài ngắn LSTM

a. Nguồn gốc mạng bộ nhớ dài ngắn

Kiến trúc mạng bộ nhớ dài-ngắn (LSTM /Long-Short Term Memory networks) là một dạng đặc biệt của RNN. LSTM cĩ khả năng xử lý đƣợc các phụ

38

thuộc xa. LSTM đƣợc giới thiệu vào năm 1977. Nĩ đƣợc cải tiến từ mạng neural hồi quy và trở lên phổ biến hơn do nhoạt động hiệu quả trên nhiều bài tốn khác nhau trong thực tế [9].

Mạng neural hồi quy RNN cĩ chứa vịng lặp. Mạng cĩ khả năng lƣu trữ thơng tin, thơng tin đƣợc truyền từ lớp này sang lớp khác. Đầu ra của lớp ẩn phụ thuộc vào thơng tin của các lớp tại mọi thời điểm. RNN đã đƣợc sử dụng phổ biến trong xử lý ngơn ngữ tự nhiên hay các bài tốn cĩ dữ liệu tuần tự. Tuy nhiên, do kiến trúc của RNN khá đơn giản nên khả năng liên kết các lớp cĩ khoảng cách xa là khơng tốt. Nĩ cơ bản khơng cĩ khả năng ghi nhớ thơng tin từ các dữ liệu cĩ khoảng cách xa, và do đĩ, những phần tử đầu tiên trong chuỗi đầu vào thƣờng khơng cĩ nhiều ảnh hƣởng đến kết quả dự đốn phần tử cho chuỗi đầu ra các bƣớc sau. Nguyên nhân của việc này là do RNN chịu ảnh hƣởng bởi việc đạo hàm bị thấp dần trong quá trình học – biến mất đạo hàm (vanishing gradient). Mạng LSTM đƣợc thiết kế để khắc phục vấn đề này. Cơ chế hoạt động của LSTM là chỉ ghi nhớ những thơng tin liên quan, quan trọng cho việc dự đốn, cịn các thơng tin khác sẽ đƣợc bỏ đi[17].

Theo Olah (2015): “Mọi mạng hồi quy đều cĩ dạng là một chuỗi các module lặp đi lặp lại của mạng neural. Với kiến trúc mạng RNN chuẩn, các module này cĩ cấu trúc rất đơn giản, thƣờng là một tầng ”

Hình 2.9: Các module lặp lại trong một nút mạng RNN tiêu chuẩn

Kiến trúc mơ hình LSTM cũng cĩ dạng chuỗi tƣơng tự RNN. Nhƣng bên trong LSTM cĩ 4 tầng bên trong tƣơng tác với nhau thay vì chỉ cĩ một tầng mạng nhƣ RNN.

39

Hình 2.10: Sự lặp lại kiến trúc module trong mạng LSTM chứa 4 tầng ẩn (3 sigmoid và 1 tanh) tương tác

Các ký hiệu trong mơ hình mạng LSTM cĩ thể đƣợc hiểu nhƣ sau:

Hình 2.11: Ký hiệu trong mạng LSTM

Mỗi một đƣờng mang một vector từ đầu ra của một nút tới đầu vào của một nút khác:

- Các ơ màu vàng đƣợc sử dụng để học trong các tầng mạng neural.

- Các hình trong màu hồng biểu diễn các phép tốn(cộng vector,…).

- Vector chỉ ra từ đầu ra của một nút tới đầu vào của một nút khác.

- Các đƣờng hợp nhau kí hiệu việc kết hợp.

- Các đƣờng rẽ nhánh ám chỉ nội dung của nĩ đƣợc sao chép và chuyển tới các nơi khác nhau.

b. Ý tưởng chính của LSTM

40

Ý tƣởng chính của LSTM là thành phần ơ trạng thái (cell state) đƣợc thể hiện qua đƣờng chạy ngang qua đỉnh đồ thị nhƣ hình 2.12 bên cạnh:

Trạng thái tế bào cĩ dạng giống nhƣ băng truyền, chạy xuyên suốt tất cả các các nút mạng và chỉ tƣơng tác tuyến tính cho nên các thơng tin cĩ thể dễ dàng truyền đi xuyên suốt mà khơng thể bị thay đổi[18].

LSTM cĩ thể thêm hoặc bỏ các thơng tin cần thiết cho trạng thái của tế bào, đƣợc điều chỉnh bởi các nhĩm đƣợc gọi là cổng.

Hình 2.13: Cổng sàng lọc thơng tin

Các cổng cĩ chức năng lọc thơng tin đi qua nĩ và đƣợc kết hợp bởi một tầng mạng và một phép nhân. Tầng sẽ cho đầu ra trong khoảng , nĩ mơ tả sẽ cĩ bao nhiêu thơng tin cĩ thể đƣợc thơng qua . Khi đầu ra là thì tức là khơng cho thơng tin nào qua, và khi là 1 thì tất cả các thơng tin đều đƣợc đi qua. Một mạng LSTM gồm cĩ 3 cổng để duy trì và điều hành tế bào và trải qua 3 bƣớc để thực hiện [9].

Bƣớc 1: Quyết định thơng tin cần loại bỏ từ trạng thái của tế bào

41

Hình 2.14: Dữ liệu được truyền qua cổng quên

Quyết định này đƣợc đƣa ra bởi tầng gọi là “tầng cổng quên” (forget gate layer). Nĩ sẽ lấy đầu vào là và rồi đƣa ra kết quả là một số trong khoảng cho mỗi số trong trạng thái tế bào . Đầu ra bằng nếu nĩ bỏ tồn bộ thơng tin đi, bằng tức là tồn bộ thơng tin sẽ giữ lại. Ví dụ: Với mơ hình dự báo từ tiếp theo dựa trên các từ trƣớc đĩ thì trạng thái tế bào sẽ mang thơng tin về giới tính để tìm đƣợc đại từ nhân xƣng chính xác và sau khi đề cập đến một ngƣời khác và khơng muốn nhớ tới giới tính nữa thì nĩ sẽ khơng cĩ tác dụng với ngƣời mới.

Bƣớc 2: Quyết định thơng tin mới đƣợc lƣu vào tế nào

( ) ( )

̃ ( ) ( )

Hình 2.15: Dữ liệu được truyền qua cổng đầu vào

42

- Bƣớc 2.1: Sử dụng một tầng hay đƣợc gọi là “tầng cổng vào” ( ) (Input gatelayer) để chọn giá trị sẽ đƣợc cập nhật.

- Bƣớc 2.2: Một tầng sẽ tạo ra một vector cho giá trị mới ̃ nhằm mục đích thêm vào cho trạng thái.

- Bƣớc 2.3: Sử dụng 2 giá trị của bƣớc 2.1 và bƣớc 2.2 đĩ để kết hợp và tạo ra một cập nhật cho trạng thái.

̃ ( )

Hình 2.16: Dữ liệu được lan truyền qua thanh trạng thái

Việc nhân trạng thái cũ với giúp loại đi các thơng tin quyết định quên ở Bƣớc 1 giúp cập nhật trạng thái tế bào cũ thành trạng thái mới . Sau đĩ cộng với ̃ . Trạng thái mới này phụ thuộc vào việc quyết định cập nhật mỗi giá trị của trạng thái nhƣ nào. Ví dụ: Với bài tốn nhƣ bƣớc 1 việc bỏ đi thơng tin giới tính của nhân vật cũ và thêm thơng tin giới của của nhân vật mới đã đƣợc quyết định ở các bƣớc trƣớc đĩ.

Bƣớc 3: Quyết định đầu ra

( ) ( )

43

Hình 2.17: Dữ liệu hội tụ ở đầu ra sau khi đi qua các cổng

Giá trị của đầu ra phụ thuộc vào trạng thái của tế bào, nhƣng tiếp tục đƣợc sàng lọc. Cần chạy một tầng để quyết định phần nào của trạng thái tế bào muốn lấy ra. Sau đĩ, tiếp tục đƣa qua một hàm để co giá trị nĩ về khoảng rồi nhân với đầu ra của cổng để đƣợc giá trị của đầu ra mong muốn. Ví dụ, nếu đầu ra của chủ thể là số ít hoặc số nhiều thì cĩ thể nhận biết đƣợc dạng của trạng từ đi sau nĩ.

Tuy nhiên trong thực tế khơng phải tất cả các mạng LSTM đều giống nhƣ vậy. Cĩ khá nhiều biến thể khác nhau tuy nhiên sự khác nhau khơng lớn, nhƣng giúp giải quyết đƣợc khá nhiều bài tốn sử dụng cấu trúc LSTM. Cĩ thể kể đến một dạng LSTM phổ biển đƣợc Gers & Schmidhuber giới thiệu năm 2000 sẽ đƣợc thêm các đƣờng kết nối hay cịn gọi là “Peephole connections” nhằm mục đích giúp các tầng, cổng nhận đƣợc giá trị đầu vào là trạng thái của tế nào. Tuy nhiên thay vì phân tách các quyết định thơng tin đƣợc thêm vào và loại trừ thì sẽ quyết định cùng với nhau luơn. Thơng tin đƣợc bỏ đi khi thay thế nĩ bằng thơng tin mới đƣa vào và cũng chỉ khi nào thơng tin cũ đƣợc bỏ đi thì thơng tin mới sẽ đƣợc thêm vào. Ngồi ra Kyunghyun Cho và nhĩm năm 2014 giới thiệu một biến thể khác của LSTM đƣợc dựa trên mạng LSTM của Hochreiter & Schmidhuber (1997) sẽ kết hợp các cổng đầu vào và cổng loại trừ thành một cổng gọi là “Cổng cập nhật” (Update gate). Nĩ cũng sẽ kết hợp trạng thái ẩn vào trạng thái của tế bào để tạo ra thay đổi khác.

44

Khi đĩ mơ hình sẽ đơn giản hơn mơ hình LSTM chuẩn vì vậy mơ hình này ngày càng đƣợc phổ biến.

Một phần của tài liệu Nghiên cứu một số mô hình mạng học sâu và ứng dụng trong bài toán dự báo điểm tốt nghiệp của sinh viên trường cao đẳng cơ khí nông nghiệp (Trang 46 - 53)