Báo Cáo Tiến Độ Tuần 02 254 45 Recurrent Neural Network Rnn.pdf

THÔNG TIN TÀI LIỆU

Nội dung

BÁO CÁO TIẾN ĐỘ (Tuần 02 25/4 > 4/5) GVHD Th s Dung Cẩm Quang Nhóm trưởng Lê Nhật Vinh 51503252 Thành viên Nguyễn Phương Anh 51600005 TIEU LUAN MOI download skknchat@gmail com MỤC LỤC 1 RECURRENT NEUR[.]

BÁO CÁO TIẾN ĐỘ (Tuần 02: 25/4 -> 4/5) GVHD: Th.s Dung Cẩm Quang Nhóm trưởng: Lê Nhật Vinh - 51503252 Thành viên: Nguyễn Phương Anh - 51600005 TIEU LUAN MOI download : skknchat@gmail.com MỤC LỤC RECURRENT NEURAL NETWORK (RNN) 2 LONG SHORT-TERM MEMORY (LSTM) TRANSFORMERS 3.1 3.2 ENCODER DECODER BERT 4.1 4.2 4.3 FINE-TUNING MODEL BERT MASKED ML (MLM) NEXT SENTENCE PREDICTION (NSP) 4.4 CÁC KIẾN TRÚC MODEL BERT TIEU LUAN MOI download : skknchat@gmail.com bao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnn bao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnn RECURRENT NEURAL NETWORK (RNN) Trước Transformers cơng bố hầu hết tác vụ NLP sử dụng kiến trúc RNNs Mơ hình Sequence-to-Sequence sử dụng RNNs Điểm yếu thứ tốc độ train chậm => Sử dụng Truncated Backpropagation để train chậm phải sử dụng CPU (tuần tự), ko phải GPU (song song) Điểm yếu thứ hai xử lý khơng tốt câu dài tượng Gradient Vanishing/Exploding Khi số lượng units lớn, gradient giảm dần units cuối công thức Đạo hàm chuỗi, dẫn đến thông tin/sự phụ thuộc xa units LONG SHORT-TERM MEMORY (LSTM) LSTM cell biến thể RNNs để giải vấn đề Gradient Vanishing RNNs LSTM cell có thêm nhánh C cho phép tồn thơng tin qua cell, giúp trì thơng tin cho câu dài Dù giải vấn đề GV phức tạp RNNs nhiều nên train chậm đáng kể TIEU LUAN MOI download : skknchat@gmail.com bao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnn bao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnn TRANSFORMERS Từ nhược điểm RNN LSTM => Tranformers cách để tận dụng khả tính tốn song song GPU để tăng tốc độ train cho mô hình ngơn ngữ, đồng thời khắc phục điểm yếu xử lý câu dài Transformers sử dụng phần Encoder Decoder giống RNNs, input đẩy vào lúc nhờ vào chế self-attention nên loại bỏ khái niệm timestep RNNs 3.1 Encoder Bao gồm layers liên tiếp Mỗi layer bao gồm sub-layer Multi-Head Attention kết hợp với fully-connected layer mô tả nhánh TIEU LUAN MOI download : skknchat@gmail.com bao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnn bao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnn encoder bên trái hình vẽ Kết thúc trình encoder ta thu vector embedding output cho từ Ta bước Encoder Transformers: - Input Embedding: máy tính khơng hiểu câu chữ nên trước tiên cần biến đổi câu chữ dạng vector, có nhiều pretrained word embeddings: GloVe, Fasttext, gensim w2v, - Positional Encoding: Cộng Embedding vector với PE vector để inject thêm thơng tin vị trí từ - Self-Attention: (hay multi-head Attention) có vector Q, K, V sau tính tốn ta nhận vector attention Z cho từ theo cơng thức: Trong đó: Input embeddings nhân với ma trận trọng số tương ứng trình huấn luyện ta thu ma trận WQ, WK, WV Sau đó, Q nhân chập với K để truy vấn từ câu, mục đích để tính tốn độ liên quan từ với => Score lớn liên quan đến ngược lại Scale cách chia score cho bặc số chiều Q/K/V => giá trị score ko phụ thuộc độ dài vector Q/K/V Softmax kết vừa để đạt phân bố xác suất từ Nhân phân bố xác suất với V để loại bỏ từ ko cần thiết, giữ lại từ quan trọng TIEU LUAN MOI download : skknchat@gmail.com bao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnn bao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnn V nhân cộng lại với => attention Z cho từ **Lặp lại trình cho tất từ ta ma trận attention cho câu - Multi-head Attention: thay sử dụng Self-attention (1 head) ta sử dụng nhiều Attention khác (multi-head) Attention ý đến phần khác câu - Residuals: skip connections Transformers cho phép thông tin qua sub-layer trực tiếp Thông tin (x) cộng với attention (z) thực Layer Normalization - Feed forward: Sau Normalize, vector z đưa qua mạng fully connected trước chuyển qua Decoder => vector ko phụ thuộc vào nên tận dụng tính tốn song song cho câu 3.2 Decoder Kiến trúc bao gồm layers liên tiếp Mỗi layer Decoder có sub-layers gần tương tự layer Encoder bổ sung thêm TIEU LUAN MOI download : skknchat@gmail.com bao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnn bao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnn sub-layer Masked Multi-Head Attention có tác dụng loại bỏ từ tương lai khỏi trình attention Sau masked input đưa qua sub-layer1 => input nhân với WQ K/V lấy từ Encoder với Q từ masked đưa vào sub-layer2 tương tự Encoder => Các vector đẩy qua lớp Linear (1 mạng fully connected) => softmax xác suất từ BERT Kiến trúc mơ hình BERT kiến trúc đa tầng gồm nhiều lớp Bidirectional Transformer encoder dựa mô tả Vaswani et al (2017) phát hành thư viện tensor2tensor BERT sử dụng attention chiều Transformers BERT thiết kế để huấn luyện trước biểu diễn từ (pre-train word embedding) Điểm đặc biệt BERT điều hịa cân bối cảnh theo chiều trái phải Cơ chế attention Transformer truyền toàn từ câu văn đồng thời vào mơ hình lúc mà không cần quan tâm đến chiều câu 4.1 Fine-tuning model BERT Một đặc biệt BERT mà model embedding trước chưa có kết huấn luyện fine-tuning Chúng ta thêm vào kiến trúc model output layer để tùy biến theo tác vụ huấn luyện Với Q&A, tiến trình áp dụng fine-tuning sau: TIEU LUAN MOI download : skknchat@gmail.com bao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnn bao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnn - B1: Embedding toàn token cặp câu véc tơ nhúng từ pretrain model Các token embedding bao gồm token [CLS] [SEP] để đánh dấu vị trí bắt đầu câu hỏi vị trí ngăn cách câu token dự báo output để xác định phần Start/End Spand câu output - B2: Các embedding véc tơ sau truyền vào kiến trúc multi-head attention với nhiều block code (thường 6, 12 24 blocks tùy theo kiến trúc BERT) Ta thu véc tơ output encoder - B3: Để dự báo phân phối xác suất cho vị trí từ decoder, time step truyền vào decoder véc tơ output encoder véc tơ embedding input decoder để tính encoder-decoder attention Sau projection qua linear layer softmax để thu phân phối xác suất cho output tương ứng time step - B4: Trong kết trả output transformer ta cố định kết câu Question cho trùng với câu Question input Các vị trí cịn lại thành phần mở rộng Start/End Span tương ứng với câu trả lời tìm từ câu input 4.2 Masked LM (MLM) Các mơ hình ngơn ngữ trước đào tạo từ trái qua phải từ phải qua trái Lý lý giải sử dụng ngữ cảnh chiều gây nghịch lý từ gián tiếp tự nhìn thấy ngữ cảnh nhiều lớp Masked ML tác vụ cho phép fine-tuning lại biểu diễn từ liệu unsupervised-text Chúng ta áp dụng Masked ML cho ngôn ngữ khác để tạo biểu diễn embedding cho chúng Một masked LM có nhiệm vụ che giấu số token đầu vào cách ngẫu nhiên sau chi dự đốn token giấu TIEU LUAN MOI download : skknchat@gmail.com bao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnn bao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnn Sơ đồ kiến trúc BERT cho tá vụ Masked ML Theo đó: - Khoảng 15 % token câu input thay [MASK] token trước truyền vào model đại diện cho từ bị che dấu (masked) Mơ hình dựa từ khơng che (non-masked) dấu xung quanh [MASK] đồng thời bối cảnh [MASK] để dự báo giá trị gốc từ che dấu Số lượng từ che dấu lựa chọn số (15%) để tỷ lệ bối cảnh chiếm nhiều (85%) - Bản chất kiến trúc BERT mơ hình seq2seq gồm phase encoder giúp embedding từ input decoder giúp tìm phân phối xác suất từ output Kiến trúc Transfomer encoder giữ lại tác vụ Masked ML Sau thực self-attention feed forward ta thu véc tơ embedding output - Để tính tốn phân phối xác suất cho từ output, thêm Fully connect layer sau Transformer Encoder Hàm softmax có tác dụng tính tốn phân phối xác suất Số lượng units fully connected layer phải với kích thước từ điển - Cuối ta thu véc tơ nhúng từ vị trí MASK embedding véc tơ giảm chiều véc tơ sau qua fully connected layer mô tả hình vẽ bên phải 4.3 Next Sentence Prediction (NSP) Để đào tạo mơ hình hiểu mối quan hệ câu, xây dựng mơ hình dự đoán câu dựa vào câu tại, liệu huẩn TIEU LUAN MOI download : skknchat@gmail.com bao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnn bao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnnbao.cao.tien.do.tuan.02.254.45.recurrent.neural.network.rnn

Ngày đăng: 09/01/2024, 02:17