Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 32 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
32
Dung lượng
2,3 MB
Nội dung
Hệ thống cơ điện tử thơng minh Đề tài: Tìm hiểu mạng LSTM Thành viên: Phạm Huỳnh Đức - 20184396 Ngô Văn Vũ - 20195235 Giảng viên: TS Nguyễn Trọng Doanh 1. Khái niệm Deep Learning (DL) - "Deep Learning lĩnh vực Machine Learning liên quan đến thuật toán lấy cảm hứng từ cấu trúc chức não gọi mạng lưới thần kinh nhân tạo.“ - Có nhiều loại mơ hình DL khác nhau: • Mạng thần kinh chuyển đổi(Convolutional Neural Network(CNN)) • Mạng thần kinh hồi quy (Recurrent Neural Networks(RNN)) • Bộ nhớ ngắn hạn dài (Long Short Term Memory(LSTM)) • Máy Boltzmann bị hạn chế (Restricted Boltzmann Machine(RBM)) • Mạng niềm tin sâu sắc(Deep Belief Networks(DBN)) • => Báo cáo tập trung vào mạng tái phát , đặc biệt LSTM Cấu trúc RNN bản, cấu trúc LSTM Stock 2. Khái niệm RNN Ý tưởng bản: - Đối với mạng neural thông thường, cho tất liệu vào lúc Nhưng đôi khi, liệu mang ý nghĩa trình tự, tức thay đổi trình tự liệu, kết khác Ví dụ: “Em ăn cơm chưa” “Em chưa ăn cơm” - Nếu tách câu theo từ, ta vocab [ ‘em’, ‘ăn’, ‘cơm’, ‘chưa’], one hot encoding cho tất vào mạng neural , thấy ngay, khơng có phân biệt câu Việc đảo thứ tự duyệt từ làm sai lệch ý nghĩ câu Þ Cần mạng neural xử lí - Để xử lí tuần tự, cần đưa đầu vào vào cách Mạng nơ ron truy hồi với vịng lặp 2. Khái niệm RNN - Hình bên biểu diễn kiến trúc mạng nơ ron truy hồi Trong kiến trúc mạng nơ ron sử dụng đầu vào véc tơ và trả đầu giá trị ẩn Đầu vào đấu với thân mạng nơ ron A có tính chất truy hồi thân đấu tới đầu - Vòng lặp A ở thân mạng nơ ron điểm mấu chốt nguyên lý hoạt động mạng nơ ron truy hồi Đây chuỗi chép nhiều lần kiến trúc nhằm cho phép thành phần kết nối liền mạch với theo mơ hình chuỗi Đầu vịng lặp trước đầu vào vòng lặp sau - Nếu trải phẳng thân mạng nơ ron A ta thu mơ hình dạng: Cấu trúc trải phẳng mạng nơ ron hồi quy Mạng nơ ron hồi quy với vòng lặp Khái niệm RNN -Demo: 3. Ví dụ ứng dụng của RNN - Machine Translation: Đầu vào tiếng Anh, đầu tiếng Pháp - Mơ hình hóa ngơn ngữ sinh văn bản: RNN cho phépdự đoán xác suất từ nhờ vào từ biết liền trước - Nhận dạng giọng nói - Mơ tả hình ảnh: RNN kết hợp CNN để sinh mô tả cho hình ảnh chưa gán nhãn Nhận diện ký tự từ đoạn âm ngắn Machine Translation 4. Khái niệm LSTM (Long Short-term memory) - Mạng trí nhớ ngắn hạn định hướng dài hạn còn viết tắt LSTM làm kiến trúc đặc biệt RNN có khả học phục thuộc dài hạn (long-term dependencies) giới thiệu bởi Hochreiter & Schmidhuber (1997) Kiến trúc phổ biến sử dụng rộng rãi ngày - LSTM tỏ khắc phục nhiều hạn chế RNN trước triệt tiêu đạo hàm Tuy nhiên cấu trúc chúng có phần phức tạp tư tưởng RNN chép kiến trúc theo dạng chuỗi Sự liệu RNN - Một mạng RNN tiêu chuẩn có kiến trúc đơn giản chẳng hạn kiến trúc gồm tầng ẩn hàm - LSTM có chuỗi dạng phần kiến trúc lặp lại có cấu trúc khác biệt Thay có tầng đơn, chúng có tới tầng ẩn (3 sigmoid tanh) tương tác với theo cấu trúc đặc biệt Sự lặp lại kiến trúc module mạng LSTM chứa tầng ẩn (3 sigmoid tanh) tương tác Khái niệm LSTM 4. Khái niệm LSTM (Long Short-term memory) Trong sơ đồ tính tốn bên, phép tính triển khai véc tơ - Hình trịn màu hồng biểu diễn toán tử véc tơ phép cộng véc tơ, phép nhân vô hướng véc tơ - Màu vàng thể hàm activation mà mạng nơ ron sử dụng để học tầng ẩn, thông thường hàm phi tuyến sigmoid - Kí hiệu đường thẳng nhập vào thể phép chập kết - Kí hiệu đường thẳng rẽ nhánh thể cho nội dung véc tơ trước chép để tới phần khác mạng nơ ron Diễn giải kí hiệu đồ thị mạng nơ ron 7. Các biến thể LSTM - Một biến thể khác sử dụng cặp đôi cổng vào cổng - Thay định riêng rẽ bỏ qua thông tin thêm thông tin nào, định chúng đồng thời - Các thông tin bị quên muốn cập nhập vào vài thông tin Cấu trúc điều chỉnh thêm bỏ qua thông tin đồng thời 7. Các biến thể LSTM - Một dạng biến thể mạnh khác LSTM cổng truy hồi đơn vị (Gated Recurrent Unit - GRU) được giới thiệu Cho, et al (2014) - Nó kết hợp cổng quên cổng vào thành cổng đơn gọi cập nhật (update gate) - Nó nhập trạng thái trạng thái ẩn thực số thay đổi khác - Kết mơ hình đơn giản nhiều so với mơ hình LSTM chuẩn, trở nên phổ biến Cấu trúc cổng truy hồi đơn vị (GRU - Gated Recurrent Unit) 7. Ví dụ mơ hình sinh từ tự động sử dụng LSTM - Áp dụng mơ hình LSTM việc dự báo từ đoạn câu văn dựa vào bối cảnh từ từ liền trước - Dữ liệu sử dụng truyện “alice xứ sở kỳ diệu” nhà xuất publish - Mơ hình dự báo xây dựng level kí tự - Bên dưới, đọc liệu chuyển kí tự in thường để giảm thiểu kích thước mã hóa mà đảm bảo nội dung văn Dữ liệu lưu kernel file “wonderland.txt” 7. Ví dụ mơ hình sinh từ tự động sử dụng LSTM - Một dictionary gồm 46 kí tự sử dụng để mã hóa kí tự truyện - Key kí tự số thứ tự chúng dictionary - Trong sơ đồ thiết kế mạng nơ ron kí tự mã hóa vector đơn vị cho phần từ xuất vị trí key từ điển phần tử cịn lại 7. Ví dụ mơ hình sinh từ tự động sử dụng LSTM Mục đích dự báo từ cần lọc bỏ kí tự khơng định đến nghĩa từ chẳng hạn dấu đặc biệt #, $, *, @, / Như vậy, cần bước chuẩn hóa liệu nhằm giảm thiểu nhiễu số lượng khả đầu Điều giúp cải thiện chất lượng độ xác dự báo mơ hình đáng kể Việc chuẩn hóa bao gồm sau: Chỉ giữ lại kí tự chữ chúng có ảnh hưởng đến nội dung từ Chỉ giữ lại dấu câu , !, ? chúng thể loại câu khác ảnh hưởng đến từ dự báo Chẳng hạn dấu câu ? khả cao từ yes no Dấu câu từ đại từ nhân xưng i, you, we, they, he, she, it Giữ lại dấu ,' ' chúng giúp tách từ tách thành phần câu Chuẩn hóa lại các chữ số chữ số số ngẫu nhiên không dự báo Chúng ta dự báo vị trí có khả số Các kí tự nằm ngồi số liệt kê đưa vào nhóm unk tức unknown 7. Ví dụ mơ hình sinh từ tự động sử dụng LSTM => Như sau chuẩn hóa văn bao gồm 136558 từ 33 kí tự Tiếp theo hàm chuyển hóa câu thành vector số kí tự 7. Ví dụ mơ hình sinh từ tự động sử dụng LSTM 7. Ví dụ mơ hình sinh từ tự động sử dụng LSTM Để đồng độ dài đầu vào cho mơ hình cần tạo chuỗi kí tự (window input) với với độ dài 100 Mục đích dự báo kí tự từ 100 kí tự đầu vào Mỗi phiên dự báo window input tịnh tiến lên kí tự để thu kí tự dự báo liên tiếp từ ghép lại thành câu hồn chỉnh 7. Ví dụ mơ hình sinh từ tự động sử dụng LSTM Để đưa vào mơ hình LSTM, đầu vào X cần chuẩn hóa thành ma trận chiều samples, time steps, features Trong đó: samples: Số lượng mẫu đầu vào (tức số lượng cửa sổ window 100 length) time steps: Độ dài cửa sổ window số lượng vịng lặp trải phẳng hình cấu trúc trải phẳng mạng nơ ron Trong mô hình time steps = 100 features: Số lượng chiều mã hóa đầu vào Trong mơ hình LSTM, từ kí tự (tùy theo làm việc với level nào) thường mã hóa theo cách thơng thường sau đây: • mã hóa theo one-hot encoding để kí tự (ở thực hành kí tự) biểu diễn véc tơ one-hot • mã hóa theo giá trị véc tơ lấy từ mơ hình word embedding pretrain trước Có thể word2vec, fasttext, ELMo, BERT,… Số lượng chiều theo level kí tự thường so với level từ Trong để đơn giản ta không sử dụng lớp embedding đầu để nhúng từ thành véc tớ mà sử dụng trực tiếp giá trị đầu vào index kí tự Do số features = 7. Ví dụ mơ hình sinh từ tự động sử dụng LSTM 7. Ví dụ mơ hình sinh từ tự động sử dụng LSTM Thống kê số lượng kí tự theo nhóm 7. Ví dụ mơ hình sinh từ tự động sử dụng LSTM Dự báo kết từ từ tập hợp kí tự đầu vào 7. Ví dụ mơ hình sinh từ tự động sử dụng LSTM 7. Ví dụ mơ hình sinh từ tự động sử dụng LSTM Xây dựng kiến trúc model gồm layer LSTM kết nối tới layer Dropout kết nối tới Dense layer cuối Với mục đích để hiểu lý thuyết LSTM nên tơi chọn mơ hình có cấu trúc đơn giản THANK YOU ! 32