Áp dụng LSTM cho bài toán nhận biết ngôn ngữ

Một phần của tài liệu TỰ ĐỘNG NHẬN BIẾT NGÔN NGỮ dựa vào học sâu (Trang 43 - 46)

Đầu vào (input string): Là một đoạn văn bản.

Lớp EMBEDDING: Lớp này có nhiệm vụ biến đổi 1 chuỗi văn bản vào

thành vector số phù hợp với dữ liệu đầu vào của mô hình huấn luyện. Đầu ra của lớp này sẽ được dùng làm đầu vào của lớp LSTM. Chúng tôi sử dụng vector embedding có kích cỡ là 256.

Lớp LSTM: Là một mạng học sâu với lớp nơ ron đầu vào là các vector đầu

ra của lớp embedding. Trong lớp này có thể dùng cho 2 chế độ BiLSTM hoặc LSTM, đầu ra của lớp này sẽ làm đầu vào cho lớp DROUPOUT.

Đầu ra của LSTM sẽ có 128 x 2 = 256 units (chúng tôi sử dụng BiLSTM)

Lớp DROP-OUT: Kỹ thuật drop-out (đã được mô tả trong phần 2.5) là

việc chúng ta sẽ bỏ qua một vài unit của các tầng của mạng neural trong suốt quá trình huấn luyện mô hình, những unit bị bỏ qua được lựa chọn ngẫu nhiên với tỷ lệ nhất định p. Ở đây, chúng ta hiểu bỏ qua (ignore) là unit đó sẽ không tham gia và đóng góp vào quá trình huấn luyện (lan truyền tiến và lan truyền ngược) tức là các giá trị của unit đó bằng 0.

Hình 3.2 Mô tả chi tiết lớp LSMT

Về mặt kỹ thuật, tại mỗi giai đoạn huấn luyện, mỗi node có xác suất bị bỏ qua là 1-p và xác suất được chọn là p.

Khi chúng ta sử dụng tầng liên kết đầy đủ (full connected layer), các nơ ron sẽ phụ thuộc “mạnh” lẫn nhau trong suốt quá trình huấn luyện, điều này làm giảm sức mạng cho mỗi nơ ron và dẫn đến bị over-fitting tập huấn luyện.

Bài toán của chúng tôi sử dụng hệ số dropout là 0.5 (bởi vì bài toán đơn giản so với cấu trúc mô hình). Việc sử dụng giảm 50% của drop-out giúp kết quả đạt được là tốt nhất so với các phương pháp chuẩn hoá khác5.

Lớp DENSE: Hay còn gọi là lớp kết nối đầy đủ (Fully-connected layer) là

một lớp trong mạng nơ ron nhân tạo. Mỗi nơ ron nhận đầu vào từ tất cả nơ ron lớp trước đó. Lớp này đặt ở cuối mạng và được dùng để tối ưu hóa mục tiêu của mạng. Trong lớp DENSE có sử dụng hàm kích hoạt softmax() để tạo ra phân phối xác suất cho các lớp đầu ra. Bài toán của chúng tôi sử dụng lớp DENSE có output là 10 units tương ứng với 10 nhãn.

Đầu ra (output): Là xác suất của các nhãn tương ứng với các ngôn ngữ.

5 https://proceedings.neurips.cc/paper/2013/file/71f6278d140af599e06ad9bf1ba03cb0-Paper.pdf

Một phần của tài liệu TỰ ĐỘNG NHẬN BIẾT NGÔN NGỮ dựa vào học sâu (Trang 43 - 46)

Tải bản đầy đủ (PDF)

(58 trang)