PHƯƠNG PHÁP LSTM

Phương pháp thứ hai được học viên áp dụng cho bài toán là mô hình mạng LSTM với đầu vào có độ dài thay đổi. Mạng LSTM đã được giới thiệu từ năm 1997 [8] nhưng đến nay nó vấn là một trong những cấu trúc học sâu được nhắc đến nhiều nhất, đặc biệt là trong những bài toán về ngôn ngữ tự nhiên. LSTM được biết đến với khả năng học được sự ràng buộc trên chuỗi dữ liệu có độ dài lớn. Mạng LSTM đã đạt được thành công trong các bài toán về dịch thuật tự động, nhận diện chữ viết tay, nhận diện giọng nói [1].

Trong luận văn này, học viên thử nghiệm trên bài toán xác định tin xấu để xác định hiệu quả của phương pháp LSTM. Hình 2.3 mô tả cấu trúc của một tế bào LSTM (LSTMCell), mỗi đơn vị này có khả năng mô phỏng và ghi nhớ đặc tính của một chuỗi đầu vào dạng số. Với chuỗi đầu vào dạng các word vector có kích thước 𝑀 phần tử thì cần có 𝑀 tế bào như vậy, mỗi tế bào có nhiệm vụ đảm nhiệm dữ liệu trên một chiều không gian. Để các tham số trong những tế bào này có định hướng để thay đổi, ta gắn vector chứa đầu ra của 𝑀 tế bào với một lớp output. Với output dạng 0 (tin xấu) và 1 (tin bình thường) thì hàm kích hoạt sigmoid là một lựa chọn phù hợp. Một lớp Dropout ở giữa đầu ra của 𝑀 tế bào và lớp output có thể được sử dụng để tăng tính độc lập cho các tế bào LSTM và giảm khả năng mô hình bị overfitting.

Hình 2.3: Cấu trúc của một đơn vị (cell) trong mạng LSTM.

Nguồn: [1].

Có hai phương án khả thi dành cho lớp đầu vào phía trước của lớp LSTM. Cách thứ nhất đó là trực tiếp sử dụng lớp Embedding để vừa huấn luyện word vector, vừa huấn luyện các tế bào LSTM. Cách thứ hai là sử dụng word vector được huấn luyện từ trước (pre-trained). Đối với tình huống dữ liệu huấn luyện có nhiều và dữ liệu có chất lượng tốt, phương án sử dụng word vector được huấn luyện từ trước có nhiều tiềm năng hơn. Huấn luyện word vector là một quá trình không giám sát nên khối lượng dữ liệu lớn không gây trở ngại vì không phải tốn thời gian gán nhãn cho dữ liệu. Với điều kiện dữ liệu huấn luyện còn ít, học viên tiến hành thí nghiệm để đánh giá hiệu quả giữa hai phương án nói trên trong Chương 3.

Mạng nơ-ron truyền thẳng nhiều lớp

Các độ đo để đánh giá kết quả