8 Tổng kết
2.8 Kiến trúc mạng nơ-ron tích chập Nguồn [11]
Hình 2.8: Kiến trúc mạng nơ-ron tích chập. Nguồn [11].Mô hình mạng nơ-ron tích chập gồm 2 phần: Mô hình mạng nơ-ron tích chập gồm 2 phần:
• Phần trích xuất đặc trưng (Feature extraction): Phần này thực hiện một loạt các phép tích
• Phần phân lớp (Classification): Phần này tiến hành thực hiện phân lớp dựa trên các đặc trưng được rút trích được từ phần trích xuất đặc trưng.
Phần trích xuất đặc trưng
Trong mạng nơ-ron tích chập, phần trích xuất đặc trưng là phần quan trọng nhất. Nhiệm vụ của nó là vừa phải rút trích được đặc trưng của ảnh, vừa phải giải quyết bài toán bùng nổ trọng số. Nó thực hiện bằng cách áp các bộ lọc (kernel hoặc filter) lên các vùng ảnh hưởng (receptive field) trên dữ liệu đầu vào để tạo ra các ma trận đặc trưng (feature map). Tại mỗi tầng, nó không chỉ áp dụng một bộ lọc để tính ra ma trận đặc trưng, mà áp dụng tích chập nhiều lần trên một tập các bộ lọc, tuần tự, mỗi lần sử dụng một bộ lọc khác nhau, tạo thành một tập các ma trận đặc trưng. Tập ma trận đặc trưng này tiếp tục được sử dụng làm đầu vào cho lớp tích chập tiếp theo hoặc bộ phân lớp.
Cũng giống như mạng nơ-ron đầy đủ, mạng nơ-ron tích chập cũng sử dụng một hàm kích hoạt tại mỗi đầu ra của lớp tích chập. Các hàm kích hoạt thường được sử dụng là hàm ReLU hoặc hàm Tanh. Hàm kích hoạt này mục đích cũng là để phá vỡ tính chất tuyến tính của các đặc trưng, giúp cho mạng rút trích đặc trưng tốt hơn.
Ngoài ra, một lớp rất quan trọng trong phần này đó là lớp hợp nhất (pooling). Các lớp hợp nhất này có thể là max pooling hoặc mean pooling. Chúng được sử dụng giữa các lớp tích chập, mục đích đề giảm kích thước dữ liệu nhưng vẫn giữ được các đặc trưng quan trọng. Nhờ đó, giảm thiểu số lượng tham số và thời gian tính toán của mô hình.
Phần phân lớp
Trong phần phân lớp, mô hình thường sử dụng là dùng các lớp kết nối đầy đủ (fully connected layer) nhằm thực hiện phân lớp dựa trên các đặc trưng đã được rút trích từ phần trích xuất đặc trưng. Do ràng buộc đầu vào của các lớp kết nối đầy đủ là một vector, nên ma trận đặc trưng thu được cần phải được duỗi thẳng (flattening) thành vector một chiều. Các lớp kết nối đầy đủ này hoạt động như một mạng nơ-ron bình thường. Sau quá trình lan truyền tín hiệu trong mạng,
cuối cùng đầu ra sẽ đi qua hàmsoftmaxđể thu được một phân phối xác suất, thể hiện xác suất
đối tượng thuộc về loại đối tượng nào.
2.1.7 Mạng nơ-ron hồi quy (Recurrent Neural Network - RNN)
Trong mạng nơ-ron nhân tạo truyền thống và mạng nơ-ron tích chập, các điểm dữ liệu là rời rạc và độc lập với nhau, tức kết quả đầu ra của điểm dữ liệu này không ảnh gì tới đầu ra của điểm
dữ liệu khác. Do đó chúng có thể được huấn luyện độc lập hoặc đồng thời (theo bó) với nhau, giúp tăng tốc quá trình huấn luyện. Những kiểu mạng này được gọi là Feedforward Network. Tuy nhiên, kiểu mạng này không phù hợp với các bài toán mà dữ liệu có tính chất dạng chuỗi tuần tự, liên kết với nhau. Ví dụ nếu muốn đoán từ tiếp theo có thể xuất hiện trong câu thì thông tin của các từ liền trước là rất quan trọng, vì từ sau chắc chắn phụ thuộc ít nhiều vào ngữ cảnh của các từ trước đó. Hoặc bài toán dự đoán hành động trong video, thứ tự và ngữ cảnh của các khung hình phụ thuộc vào nhau rất nhiều. Một khung hình không có ý nghĩa, nhưng một chuỗi có thứ tự các khung hình mới đủ thông tin nói lên hành động trong video đó. Và để giải quyết các bài toán với kiểu dữ liệu này, mạng nơ-ron hồi quy ra đời.
Ý tưởng chính của mạng nơ-ron hồi quy (Recurrent Neural Network) chính là sử dụng chuỗi các thông tin liên kết tuần tự với nhau. Nói cách khác, mạng nơ-ron hồi quy có khả năng nhớ các dữ liệu xuất hiện trước nó, kết hợp với dữ liệu hiện tại để tính toán ra kết quả. Mỗi điểm dữ liệu sẽ bao gồm nhiều bước (step), mỗi bước sẽ được đưa lần lượt có thứ tự vào mạng, đầu ra của bước trước sẽ được kết hợp với dữ liệu của bước hiện tại được đưa vào mạng để xử lý cho đến bước cuối cùng.
Mạng nơ-ron hồi quy có cấu trúc như sau: