CƠ SỞ LÝ THUYET

Một phần của tài liệu Khóa luận tốt nghiệp Hệ thống thông tin: Ứng dụng mô hình XLNET để xây dựng hệ thống hỏi đáp (Trang 32 - 36)

TOM TAT KHÓA LUẬN

Chương 3. CƠ SỞ LÝ THUYET

3.1. Convolutional neural network (CNNs)

Convolutional neural network (CNNs) là một mang neural đặc biệt va là một

trong những mô hình Deap Learning tiên tiễn hiện nay. Nó giúp ta xây dựng các hệ thống thông minh với độ chính xác cao. CNNs là tập hợp của nhiều lớp (convolution)

với nhau, sở di có tên này là vì chúng sử dụng phép tích chập thay vì dùng phép nhân

ma trận trong các mạng neural thông thường.

3.1.1. Convolution

Convolution là một cửa số trượt (sliding window) trên một ma trận như hình

Sau:

Image

Hình 3.1: Vi dụ về convolution?

Ở vi dụ trên ta có ma trận trắng đen của một hình ảnh, và một ma trận cửa số trượt 3x3. Convolution hay tích chập là phép nhân từng phan tử trong ma trận lớn với cửa số trượt (hay còn gọi là sliding window, kernel, filter hoặc feature detect) và kết

quả ta được một ma trận gọi là Convolved feature.

3 https://topdev.vn/blog/thuat-toan-cnn-convolutional-neural-network/

22

3.1.2. Kiến trúc của CNN

Convolutions Subsampling Convolutions Subsampling Fully connected

Hình 3.2: Kiến trúc của CNN*

Convolution layer: mạng CNNs là tập hợp của một số lớp Convolution chồng lên nhau và dùng các hàm phi tuyến như ReLU dé kích hoạt trọng số trong các node. Kết quả sau mỗi lớp này là một ma trận 2 chiều và chúng sẽ được chồng lên nhau

theo chiêu sâu.

Pooling layer: lớp này thường được dùng sau mỗi lớp Convolution. Mỗi lớp Pooling này có một cửa số trượt tương tự như lớp Convolution và chúng hoạt động độc lập trên từng lớp. Nhiệm vụ của lớp này là dé giảm kích thước của đầu vào cho lớp Convolution kế tiếp. Bộ lọc phô biến cho lớp này thường là max-pooling. Kết qua

của lớp này cũng là ma trận 2 chiêu.

Và ở cuối của CNNs thường là một lớp Full-connected. Nhiệm vụ của nó là kết nối tất cả neural và thể hiện dự đoán.

3.2. Recurrent Neural Network (RNNs)

Như chúng ta đã biết, Neural Network truyền thống gồm Input layer, truyền qua một hoặc nhiều hidden layer, và cho ra một Output Layer. Với mô hình này, chỉ

có một input ban đầu truyền vào qua liên tiếp các lớp mạng và cho ra output. Với những bài toán có dữ liệu tuần tự, dạng chuỗi... thì mỗi phan tử trong chuỗi input phụ thuộc vào vị trí của nó trong chuỗi và những phần tử khác thuộc chuỗi input, mô hình truyền thống tỏ ra không còn phù hợp.

* https://topdev.vn/blog/thuat-toan-cnn-convolutional-neural-network/

23

layer trước h:-¡ và input x; tai layer đó. Như vậy tại mỗi hidden layer nó sẽ mang cả

thông tin của lớp trước nó cũng như giá trị input tại lớp đó. Cụ thé:

hy = fo Wanhi-1 +Wonxr +bn) (3.1)

yt = Wayht +by (3.2)

fy thường được sử dụng là ham tanh hoặc RELU

3.3. Long Short Term Memory (LSTM)

Điểm nổi bật của mô hình RNN chính là việc thông tin sẽ được kết nối từ các lớp phía truoc đến lớp hiện tại. Đôi lúc, ta chỉ cần xem lại vừa có ở một vài lớp phía trước dé suy đoán cho lớp hiện tại. Ví dụ ta có câu "các đám mây trên bầu trời", thì

ta chỉ cần biết được "các đám mây trên bầu", hoàn toàn có thê đoán được "trời".

Tuy nhiên, trong một vài tình huống, ta buộc phải dùng nhiều ngữ cảnh hơn trong đoạn văn, vi dụ "I grew up in France... I speak fluent French.". Rõ ràng dé dự đoán chữ "French" sau "I speak fluent", ta cần có biết được câu "I grew up in France", khoảng cách thông tin lúc này có thể đã khá xa. Về mặt lý thuyết, RNN có thể mang thông tin từ lớp phía trước đến lớp sau, tuy nhiên trên thực tế, RNN không thể mang

> https://calvinfeng. gitbook.io/machine-learning-notebook/supervised-learning/recurrent-neural-

network/recurrent_neural_networks

24

thông tin ở các lớp phía trước cách nó quá xa, hiện tượng này có thê được giải thích

do vấn đề tiêu biến đạo hàm (vanishing gradient).

Mô hình LSTM ra đời nhằm giúp mạng có khả năng nhớ được thông tin ở khá

xa (long term memory)

khóa của mô hình này năm ở cell state C¿, chính là đường chạy thông phía trên sơ đồ hình vẽ, nó cho phép thông tin truyền đi xuyên suốt mà không sợ bị thay đổi.

Hình 3.5: Cell state trong LSTMỀTrort Bookmark not defined.

Bước đầu tiên của mô hình là forget gate ƒ; nó sẽ nhận đầu vao là hy-] và xt, cho qua một hàm o dé cho ra một giá tri trong khoảng [0,1]. Gia trị đầu ra của St thé hiện có bao nhiêu phan thông tin từ cell state trước được giữ lai hay bỏ đi

5 https://www.mica.edu.vn/perso/Tran-Thi-Thanh-Hai/Baigiang/NN/Bai9_RNN.pdf

25

Một phần của tài liệu Khóa luận tốt nghiệp Hệ thống thông tin: Ứng dụng mô hình XLNET để xây dựng hệ thống hỏi đáp (Trang 32 - 36)

Tải bản đầy đủ (PDF)

(36 trang)