BÁO cáo TIẾN độ (tuần 02 254 45) RECURRENT NEURAL NETWORK (RNN)

BÁO CÁO TIẾN ĐỘ (Tuần 02: 25/4 -> 4/5) GVHD: Th.s Dung Cẩm Quang Nhóm trưởng: Lê Nhật Vinh - 51503252 Thành viên: Nguyễn Phương Anh - 51600005 TIEU LUAN MOI download : skknchat@gmail.com MỤC LỤC RECURRENT NEURAL NETWORK (RNN) 2LONG SHORT-TERM MEMORY (LSTM) 3TRANSFORMERS 3.1 ENCODER 3.2 DECODER 4BERT 4.1 FINE-TUNING MODEL BERT 4.2 MASKED ML (MLM) 4.3 NEXT SENTENCE PREDICTION (NSP) 4.4 CÁC KIẾN TRÚC MODEL BERT TIEU LUAN MOI download : skknchat@gmail.com RECURRENT NEURAL NETWORK (RNN) Trước Transformers cơng bố hầu hết tác vụ NLP sử dụng kiến trúc RNNs Mơ hình Sequence-to-Sequence sử dụng RNNs Điểm yếu thứ tốc độ train chậm => Sử dụng Truncated Backpropagation để train chậm phải sử dụng CPU (tuần tự), ko phải GPU (song song) Điểm yếu thứ hai xử lý khơng tốt câu dài tượng Gradient Vanishing/Exploding Khi số lượng units lớn, gradient giảm dần units cuối công thức Đạo hàm chuỗi, dẫn đến thông tin/sự phụ thuộc xa units LONG SHORT-TERM MEMORY (LSTM) LSTM cell biến thể RNNs để giải vấn đề Gradient Vanishing RNNs LSTM cell có thêm nhánh C cho phép tồn thơng tin qua cell, giúp trì thơng tin cho câu dài Dù giải vấn đề GV phức tạp RNNs nhiều nên train chậm đáng kể TIEU LUAN MOI download : skknchat@gmail.com TRANSFORMERS Từ nhược điểm RNN LSTM => Tranformers cách để tận dụng khả tính tốn song song GPU để tăng tốc độ train cho mơ hình ngơn ngữ, đồng thời khắc phục điểm yếu xử lý câu dài Transformers sử dụng phần Encoder Decoder giống RNNs, input đẩy vào lúc nhờ vào chế self-attention nên loại bỏ khái niệm timestep RNNs 3.1 Encoder Bao gồm layers liên tiếp Mỗi layer bao gồm sub-layer Multi-Head Attention kết hợp với fully-connected layer mô tả nhánh TIEU LUAN MOI download : skknchat@gmail.com encoder bên trái hình vẽ Kết thúc trình encoder ta thu vector embedding output cho từ Ta bước Encoder Transformers: Input Embedding: máy tính khơng hiểu câu chữ nên trước tiên cần biến đổi câu chữ dạng vector, có nhiều pretrained word embeddings: GloVe, Fasttext, gensim w2v, Positional Encoding: Cộng Embedding vector với PE vector để inject thêm thơng tin vị trí từ Self-Attention: (hay multi-head Attention) có vector Q, K, V sau tính tốn ta nhận vector attention Z cho từ theo cơng thức: Trong đó: Input embeddings nhân với ma trận trọng số tương ứng trình huấn luyện ta thu ma trận WQ, WK, WV Sau đó, Q nhân chập với K để truy vấn từ câu, mục đích để tính tốn độ liên quan từ với => Score lớn liên quan đến ngược lại Scale cách chia score cho bặc số chiều Q/K/V => giá trị score ko phụ thuộc độ dài vector Q/K/V Softmax kết vừa để đạt phân bố xác suất từ Nhân phân bố xác suất với V để loại bỏ từ ko cần thiết, giữ lại từ quan trọng TIEU LUAN MOI download : skknchat@gmail.com V nhân cộng lại với => attention Z cho từ **Lặp lại trình cho tất từ ta ma trận attention cho câu Multi-head Attention: thay sử dụng Self-attention (1 head) ta sử dụng nhiều Attention khác (multi-head) Attention ý đến phần khác câu Residuals: skip connections Transformers cho phép thông tin qua sub-layer trực tiếp Thông tin (x) cộng với attention (z) thực Layer Normalization Feed forward: Sau Normalize, vector z đưa qua mạng fully connected trước chuyển qua Decoder => vector ko phụ thuộc vào nên tận dụng tính tốn song song cho câu 3.2 Decoder Kiến trúc bao gồm layers liên tiếp Mỗi layer Decoder có sub-layers gần tương tự layer Encoder bổ sung thêm TIEU LUAN MOI download : skknchat@gmail.com sub-layer Masked Multi-Head Attention có tác dụng loại bỏ từ tương lai khỏi trình attention Sau masked input đưa qua sub-layer1 => input nhân với WQ K/V lấy từ Encoder với Q từ masked đưa vào sub-layer2 tương tự Encoder => Các vector đẩy qua lớp Linear (1 mạng fully connected) => softmax xác suất từ BERT Kiến trúc mơ hình BERT kiến trúc đa tầng gồm nhiều lớp Bidirectional Transformer encoder dựa mô tả Vaswani et al (2017) phát hành thư viện tensor2tensor BERT sử dụng attention chiều Transformers BERT thiết kế để huấn luyện trước biểu diễn từ (pre-train word embedding) Điểm đặc biệt BERT điều hòa cân bối cảnh theo chiều trái phải Cơ chế attention Transformer truyền toàn từ câu văn đồng thời vào mô hình lúc mà khơng cần quan tâm đến chiều câu 4.1 Fine-tuning model BERT Một đặc biệt BERT mà model embedding trước chưa có kết huấn luyện fine-tuning Chúng ta thêm vào kiến trúc model output layer để tùy biến theo tác vụ huấn luyện Với Q&A, tiến trình áp dụng fine-tuning sau: TIEU LUAN MOI download : skknchat@gmail.com B1: Embedding toàn token cặp câu véc tơ nhúng từ pretrain model Các token embedding bao gồm token [CLS] [SEP] để đánh dấu vị trí bắt đầu câu hỏi vị trí ngăn cách câu token dự báo output để xác định phần Start/End Spand câu output B2: Các embedding véc tơ sau truyền vào kiến trúc multihead attention với nhiều block code (thường 6, 12 24 blocks tùy theo kiến trúc BERT) Ta thu véc tơ output encoder B3: Để dự báo phân phối xác suất cho vị trí từ decoder, time step truyền vào decoder véc tơ output encoder véc tơ embedding input decoder để tính encoder-decoder attention Sau projection qua linear layer softmax để thu phân phối xác suất cho output tương ứng time step B4: Trong kết trả output transformer ta cố định kết câu Question cho trùng với câu Question input Các vị trí cịn lại thành phần mở rộng Start/End Span tương ứng với câu trả lời tìm từ câu input 4.2 Masked LM (MLM) Các mơ hình ngơn ngữ trước đào tạo từ trái qua phải từ phải qua trái Lý lý giải sử dụng ngữ cảnh chiều gây nghịch lý từ gián tiếp tự nhìn thấy ngữ cảnh nhiều lớp Masked ML tác vụ cho phép fine-tuning lại biểu diễn từ liệu unsupervised-text Chúng ta áp dụng Masked ML cho ngôn ngữ khác để tạo biểu diễn embedding cho chúng Một masked LM có nhiệm vụ che giấu số token đầu vào cách ngẫu nhiên sau chi dự đốn token giấu TIEU LUAN MOI download : skknchat@gmail.com Sơ đồ kiến trúc BERT cho tá vụ Masked ML Theo đó: Khoảng 15 % token câu input thay [MASK] token trước truyền vào model đại diện cho từ bị che dấu (masked) Mơ hình dựa từ không che (non-masked) dấu xung quanh [MASK] đồng thời bối cảnh [MASK] để dự báo giá trị gốc từ che dấu Số lượng từ che dấu lựa chọn số (15%) để tỷ lệ bối cảnh chiếm nhiều (85%) Bản chất kiến trúc BERT mơ hình seq2seq gồm phase encoder giúp embedding từ input decoder giúp tìm phân phối xác suất từ output Kiến trúc Transfomer encoder giữ lại tác vụ Masked ML Sau thực self-attention feed forward ta thu véc tơ embedding output Để tính tốn phân phối xác suất cho từ output, thêm Fully connect layer sau Transformer Encoder Hàm softmax có tác dụng tính tốn phân phối xác suất Số lượng units fully connected layer phải với kích thước từ điển Cuối ta thu véc tơ nhúng từ vị trí MASK embedding véc tơ giảm chiều véc tơ sau qua fully connected layer mô tả hình vẽ bên phải 4.3 Next Sentence Prediction (NSP) Để đào tạo mơ hình hiểu mối quan hệ câu, xây dựng mô hình dự đốn câu dựa vào câu tại, liệu huẩn TIEU LUAN MOI download : skknchat@gmail.com luyện corpus Cụ thể, chọn câu A câu B cho training sample, 50% khả câu B câu sau câu A 50% lại câu ngẫu nhiên corpus Nhãn mơ hình tương ứng với IsNext cặp câu liên tiếp NotNext cặp câu không liên tiếp Cũng tương tự mơ hình Q&A, cần đánh dấu vị trí đầu câu thứ token [CLS] vị trí cuối câu token [SEP] Các token có tác dụng nhận biết vị trí bắt đầu kết thúc câu thứ thứ hai 4.4 Các kiến trúc model BERT Các phiên dựa việc thay đổi kiến trúc Transformer tập trung tham số: L: Số lượng block sub-layers transformer H: Kích thước embedding véc tơ (hay cịn gọi hidden size) A: Số lượng head multi-head attention layer, head thực self-attention Tên gọi kiến trúc bao gồm: TIEU LUAN MOI download : skknchat@gmail.com ... skknchat@gmail.com RECURRENT NEURAL NETWORK (RNN) Trước Transformers công bố hầu hết tác vụ NLP sử dụng kiến trúc RNNs Mơ hình Sequence-to-Sequence sử dụng RNNs Điểm yếu thứ tốc độ train chậm =>...MỤC LỤC RECURRENT NEURAL NETWORK (RNN) 2LONG SHORT-TERM MEMORY (LSTM) 3TRANSFORMERS ... từ câu, mục đích để tính tốn độ liên quan từ với => Score lớn liên quan đến ngược lại Scale cách chia score cho bặc số chiều Q/K/V => giá trị score ko phụ thuộc độ dài vector Q/K/V Softmax kết

Định dạng
Số trang	11
Dung lượng	165,89 KB