CHƯƠNG 2. HỌC MÁY VÀ KĨ THUẬT HỌC SÂU
2.2. Các kĩ thuật học sâu
2.2.1. Kiến trúc của kĩ thuật học sâu
“Kiến trúc học sâu thường được xây dựng bằng phương pháp từng lớp. Học sâu giúp chọn ra tính năng cải thiện hiệu suất. Đối với các nhiệm vụ học có giám sát thì học sâu dịch dữ liệu thành các biểu diễn trung gian nhỏ gọn gần giống với các thành phần chính và rút ra các cấu trúc phân lớp loại bỏ sự dư thừa trong biểu diễn. Các thuật toán học sâu có thể được áp dụng cho học không giám sát - đây là một lợi ích quan trọng vì dữ liệu chưa được gắn nhãn phong phú hơn dữ liệu được dán nhãn.”
Khi nói đến học sâu, bạn có nhiều loại mạng nơ-ron khác nhau. Và kiến trúc học sâu dựa trên các mạng này. Hôm nay, chúng tôi có thể chỉ ra sáu trong số các kiến trúc học sâu phổ biến nhất: RNN, LSTM, GRU, CNN, DBN, DSN
1. RNN Recurrent Neural Networks: là một trong những kiến trúc mạng cơ bản mà từ đó các kiến trúc học sâu khác được xây dựng. RNN bao gồm một bộ kiến trúc
29
học sâu phong phú. Chúng có thể sử dụng trạng thái bên trong (bộ nhớ) để xử lý các chuỗi đầu vào có độ dài thay đổi. Giả sử rằng RNN có một bộ nhớ. Mọi thông tin đã xử lý đều được thu thập, lưu trữ và sử dụng để tính toán kết quả cuối cùng, chẳng hạn, nhận dạng giọng nói. Hơn nữa, mạng có thể có các kết nối phản hồi vào các lớp trước (hoặc thậm chí vào cùng một lớp). Phản hồi này cho phép duy trì bộ nhớ của các đầu vào trong quá khứ và giải quyết các vấn đề kịp thời. Hiện tại, có hai loại RNN:
a. RNN hai chiều - Bidirectional RNN: hoạt động theo hai cách; lớp đầu ra có thể nhận đồng thời thông tin từ các trạng thái trong quá khứ và tương lai [2].
b. RNN sâu - Deep RNN: Có nhiều lớp, kết quả là mô hình có thể trích xuất nhiều thông tin phân cấp hơn.
2. LSTM - Long Short-Term Memory: là một loại RNN. Tuy nhiên, LSTM có các kết nối phản hồi. Điều này có nghĩa là nó có thể xử lý không chỉ các điểm dữ liệu đơn lẻ (chẳng hạn như hình ảnh) mà còn toàn bộ chuỗi dữ liệu (chẳng hạn như tệp âm thanh hoặc video). LSTM bắt nguồn từ kiến trúc mạng nơ-ron và dựa trên khái niệm ô nhớ. Ô bộ nhớ có thể giữ lại giá trị của nó trong một thời gian ngắn hoặc dài như một chức năng của các đầu vào của nó, điều này cho phép ô nhớ những gì cần thiết chứ không chỉ là giá trị được tính toán cuối cùng của nó. Một kiến trúc LSTM điển hình bao gồm một ô, một cổng đầu vào, một cổng đầu ra và một cổng quên. Ô ghi nhớ các giá trị trong những khoảng thời gian tùy ý, và ba cổng này điều chỉnh luồng thông tin ra vào ô.
a. Cổng đầu vào kiểm soát khi thông tin mới có thể chảy vào bộ nhớ.
b. Cổng đầu ra kiểm soát khi thông tin chứa trong ô được sử dụng trong đầu ra.
c. Cổng quên kiểm soát khi một phần thông tin có thể bị quên, cho phép ô xử lý dữ liệu mới.
3. GRU - Gated Recurrent Unit: đó là một loại LSTM. Sự khác biệt chính là GRU có ít tham số hơn LSTM, vì nó thiếu cổng ra. GRU được sử dụng cho các bộ dữ liệu nhỏ hơn và ít thường xuyên hơn, nơi chúng thể hiện hiệu suất tốt hơn.
30
4. CNN - Convolutional Neural Networks: Kiến trúc này thường được sử dụng để xử lý hình ảnh, nhận dạng hình ảnh, phân tích video và NLP. CNN có thể thu nhận một hình ảnh đầu vào, gán tầm quan trọng cho các đối tượng khác nhau trong hình ảnh và có thể phân biệt một hình ảnh với những hình ảnh khác. CNN bao gồm một đầu vào và một lớp đầu ra, cũng như nhiều lớp ẩn. Các lớp ẩn của CNN thường bao gồm một loạt các lớp phức hợp. Cách thức hoạt động của CNN: Đầu tiên, mạng nhận thông tin đầu vào. Mỗi đầu vào (ví dụ: hình ảnh) sẽ đi qua một loạt các lớp tích chập với các bộ lọc khác nhau. Lớp điều khiển kiểm soát cách tín hiệu truyền từ lớp này sang lớp khác. Tiếp theo, phải làm phẳng đầu ra và đưa nó vào lớp được kết nối đầy đủ, nơi tất cả các lớp của mạng được kết nối với mọi nơ-ron từ lớp trước đến các nơ-ron từ lớp tiếp theo. Do đó, bạn có thể phân loại đầu ra.
5. DBN - Deep Belief Network: DBN là một mạng nhiều lớp (thường sâu, bao gồm nhiều lớp ẩn). DBN sử dụng xác suất và học tập không giám sát để tạo ra kết quả đầu ra. Không giống như các mô hình khác, mỗi lớp trong DBN học toàn bộ dữ liệu đầu vào. Trong CNN, các lớp đầu tiên chỉ lọc đầu vào cho các tính năng cơ bản và các lớp sau kết hợp lại tất cả các mẫu đơn giản mà các lớp trước tìm thấy. DBNs hoạt động toàn diện và điều chỉnh từng lớp theo thứ tự. DBN có thể được sử dụng trong nhận dạng hình ảnh và NLP.
6. DSN - Deep Stacking Network: DSN cũng thường được gọi là DCN – Deep Convex Network. DSN / DCN bao gồm một mạng sâu, nhưng nó thực sự là một tập hợp các mạng sâu riêng lẻ. Mỗi mạng trong DSN có các lớp ẩn riêng để xử lý dữ liệu. Kiến trúc này được thiết kế nhằm mục đích cải thiện vấn đề đào tạo, vốn khá phức tạp khi nói đến mô hình học sâu truyền thống. Nhờ nhiều lớp, DSN coi việc đào tạo, không phải là một vấn đề đơn lẻ phải được giải quyết mà là một tập hợp các vấn đề riêng lẻ. Thông thường, DSN bao gồm ba hoặc nhiều mô-đun. Mỗi mô- đun bao gồm một lớp đầu vào, một lớp ẩn và một lớp đầu ra. Các mô-đun này được xếp chồng lên nhau, có nghĩa là đầu vào của một mô-đun nhất định dựa trên đầu ra của các mô-đun / lớp trước đó. Cấu trúc này cho phép các DSN tìm hiểu cách phân loại phức tạp hơn so với khả năng chỉ với một mô-đun.
31
Sáu kiến trúc trên là những kiến trúc phổ biến nhất trong kiến trúc học sâu hiện đại.
2.2.2. Mạng bộ nhớ ngắn - dài hạn (Long Short - Term Memory)
Mạng nơ ron LSTM có khả năng giải quyết nhiều tác vụ mà các thuật toán học trước đây không thể giải quyết được. Các phụ thuộc thời gian dài hạn có thể được LSTM nắm bắt một cách hiệu quả mà không phải chịu nhiều trở ngại về tối ưu hóa.
Mô hình Mạng bộ nhớ ngắn - dài hạn giống mô hình truyền thống. Mạng bộ nhớ ngắn - dài hạn sử dụng hàm tính toán khác ở các trạng thái ẩn. Bộ nhớ của LSTM được gọi là “tế bào”
(Cell), chúng là các hộp đen nhận đầu vào là trạng thái phía trước và đầu vào hiện tại. Bên trong hộp đen này sẽ tự quyết định cái gì cần phải nhớ và cái gì sẽ xoá đi. Sau đó, chúng sẽ kết hợp với trạng thái phía trước, nhớ hiện tại và đầu vào hiện tại. Vì vậy mà ta ta có thể truy xuất được quan hệ phụ thuộc xa nhau rất hiệu quả.
Hình 2: Mạng bộ nhớ ngắn - dài hạn
Hình 2 là mô hình mạng bộ nhớ ngắn - dài hạn. Mỗi khối gồm có ba cổng, đánh dấu bằng kí hiệu ⊗, tính từ trái qua phải, kí hiệu ⊗ đầu tiên đại diện cho cổng quên (forget gate), kí hiệu ⊗ thứ hai đại diện cho cổng nhập (input gate) và kí hiệu ⊗ thứ ba đại diện cho cổng xuất (output gate).