Cấu trúc RNN rất phù hợp để xử lý văn bản có độ dài thay đổi. Một văn bản được cấu thành bởi chuỗi các từ ngữ. Đối với mạng RNN, tất cả các từ của văn bản không được tiếp nhận cùng một lúc ở lớp đầu vào. Thay vào đó, mạng RNN đọc từng từ một, từ đầu tới cuối văn bản, và cho kết quả đầu ra sau khi đã đọc từ cuối cùng. Mỗi lần đọc
đổi theo từng bước thời gian và dữ liệu đầu ra có thể được ghi lại theo lịch sử bước thời gian để tạo thành một ma trận với một chiều thể hiện bước thời gian và chiều kia là chiều của vector đặc trưng (trong trường hợp này đó là word vector). Các tác giả của [9] cho rằng việc hầu hết các phương pháp trước đó chỉ sử dụng vector đầu ra của mạng RNN ở bước thời gian cuối cùng là sự bỏ phí những đặc tính hữu ích. Thay vì ứng dụng pooling trên 1 chiều không gian thì [9] đề xuất lấy toàn bộ output của các bước thời gian để hình thành một ma trận và ứng dụng pooling trên ma trận đó (2D pooling). Đến đây, ta nhận được một ma trận với kích thước cố định, biểu diễn đặc trưng của văn bản. Từ đây, ta có thể xử lý văn bản giống như xử lý một hình ảnh và có thể áp dụng các kỹ thuật từ mạng CNN vào đó.
LSTM được biết đến với khả năng học được sự ràng buộc trên chuỗi dữ liệu có độ dài lớn. Tuy nhiên, đối với bài toán phân loại văn bản, ta cần mô phỏng các ràng buộc với độ dài lớn hơn. Chính vì vậy, phương pháp này ứng dụng cấu trúc mạng LSTM hai chiều – Bidirectional LSTM, viết tắt là BI-LSTM. Nghiên cứu [5] cho thấy BI-LSTM có khả năng hiểu văn bản dạng ngôn ngữ tự nhiên tốt hơn so với LSTM nguyên bản.
Ngoài ra, trong phương pháp này, học viên còn áp dụng thêm lớp Flatten để chuyển đầu ra của lớp Pooling từ 2D thành 1D và kỹ thuật Dropout để tránh tình trạng overfit. Với cấu trúc mạng sâu và phức tạp, thuật toán tối ưu với learning rate thích nghi cho từng trục tọa độ trong không gian tìm kiếm – Adam [14] – được lựa chọn để giúp tăng tốc quá trình huấn luyện.
Chương 3 – ĐÁNH GIÁ PHƯƠNG PHÁP XÁC ĐỊNH TỶ LỆ TIN XẤU TRÊN BÁO ĐIỆN TỬ TIẾNG VIỆT