Mô hình transformers và ứng dụng trong xử lý ngôn ngữ tự nhiên

KHOA HỌC - CƠNG NGHỆ MƠ HÌNH TRANSFORMERS VÀ ỨNG DỤNG TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN TRANSFORMERS MODEL AND APPLY IN NATURAL LANGUAGE PROCESSING Trần Hồng Việt, Nguyễn Thu Hiền Khoa Công nghệ thông tin, Trường Đại học Kinh tế - Kỹ thuật Cơng nghiệp Đến tịa soạn ngày 20/07/2020, chấp nhận đăng ngày 12/08/2020 Tóm tắt: Xử lý ngôn ngữ tự nhiên lĩnh vực nghiên cứu đa dạng với nhiều nhiệm vụ riêng biệt, nhiệm vụ đánh giá liệu đặc thù Trong thực tế, số tốn có liệu gán nhãn chất lượng cao để huấn luyện mơ hình, dẫn tới hiệu chưa cao Giải vấn đề này, số mơ hình sử dụng chế tiền xử lý liệu huấn luyện việc sử dụng mơ hình biểu diễn từ chung, huấn luyện từ lượng lớn liệu không gán nhãn Word2vec, Glove hay FastText Tuy nhiên, mơ hình khơng thể đại diện theo ngữ cảnh cụ thể từ Trong dịch máy thường sử dụng kiến trúc Recurrent Neural Networks Mô hình khó bắt phụ thuộc xa từ câu tốc độ huấn luyện chậm Transformers kiến trúc mạng nơron nhân tạo đề xuất để khắc phục nhược điểm Bài báo này, chúng tơi trình bày kiến trúc Transformers, đề xuất mơ hình dịch máy sử dụng kiến trúc Transformers Kết thực nghiệm cặp ngôn ngữ Anh - Việt Việt - Anh chứng minh rằng, mơ hình đề xuất đạt hiệu vượt trội so với mơ hình trước Từ khóa: Trí tuệ nhân tạo, biến đổi, xử lý ngôn ngữ tự nhiên, nhúng từ, nhúng từ cảm ngữ cảnh, dịch máy Abstract: Natural language processing is a diverse field of research with many separate tasks, most of which are specific to each task In fact, the lack of high quality labeling data to train the model, has a great impact on the performance and quality of natural language processing systems To solve this problem, many models use a training data preprocessing mechanism by converting a trained generic model from large amounts of unlabeled data For example, some models have implemented this task such as Word2vec, Glove or FastText However, the above models not represent the contextual representation of the word in a particular field or context Natural language processing tasks, especially machine translation using Recurrent Neural Networks architecture This method is difficult to capture the long dependence between words in a sentence and the training speed is slow due to sequential input processing Transformers was born to solve these two problems In this paper, we focus on the Transformers model and its application in natural language processing Keywords: Artificial intelligence, transformers, natural language processing, word embeddings, contextual word embedding, machine translation GIỚI THIỆU Xử lý ngôn ngữ tự nhiên lĩnh vực nghiên cứu đa dạng với nhiều nhiệm vụ riêng 32 biệt Trong đó, nhiệm vụ đánh giá liệu đặc thù Để thực tốt nhiệm vụ cần liệu lớn Tuy TẠP CHÍ KHOA HỌC & CÔNG NGHỆ SỐ 27 - 2021 KHOA HỌC - CÔNG NGHỆ nhiên, thực tế hầu hết tập liệu chứa số gán nhãn tay người Trong thực tế, số tốn có liệu gán nhãn có chất lượng cao để huấn luyện mơ hình, dẫn tới hiệu hệ thống xử lý ngôn ngữ tự nhiên tương ứng chưa cao Giải vấn đề này, nhiều mơ hình xử lý ngơn ngữ tự nhiên sử dụng chế tiền xử lý liệu huấn luyện việc chuyển đổi từ mơ hình chung huấn luyện từ lượng lớn liệu khơng gán nhãn Ví dụ số mơ hình thực nhiệm vụ Word2vec, Glove hay FastText Việc nghiên cứu mơ hình giúp thu hẹp khoảng cách tập liệu chuyên biệt cho huấn luyện việc xây dựng mơ hình tìm đại diện chung ngơn ngữ sử dụng số lượng lớn văn chưa gán nhãn lấy từ trang web Các pre-train model tinh chỉnh lại nhiệm vụ khác với liệu nhỏ Question Answering, Sentiment Analysis, cải thiện đáng kể độ xác cho so với mơ hình huấn luyện trước với liệu Tuy nhiên, mô hình Word2vec, Glove hay FastText có yếu điểm riêng nó, đặc biệt khơng thể đại diện theo ngữ cảnh cụ thể từ lĩnh vực hay văn cảnh cụ thể Đối với tác vụ xử lý ngơn ngữ tự nhiên có sử dụng thông tin ngữ cảnh, đặc biệt dịch máy sử dụng kiến trúc Recurrent Neural Networks, có hai thách thức chính: thứ nhất, mơ hình khó nắm bắt phụ thuộc xa từ câu; thứ hai, tốc độ huấn luyện thực thi chậm phải xử lý liệu đầu vào (input) cách Kiến trúc Transformers đề xuất để vượt qua hai thách thức kể Thêm nữa, biến thể Transformers BERT, GPT-2 đạt TẠP CHÍ KHOA HỌC & CƠNG NGHỆ SỐ 27 - 2021 hiệu vượt trội so với mô hình trước (state-of-the-art) số tác vụ xử lý ngôn ngữ tự nhiên Đây kiến trúc biết đến nhiều deep learning, sở hàng loạt mơ hình BERT khác sau Trong báo này, chúng tơi trình bày mơ hình Transformers ứng dụng xử lý ngơn ngữ tự nhiên KIẾN TRÚC TRANSFORMERS Kiến trúc Transformers sử dụng hai phần Encoder Decoder giống RNNs Điểm khác biệt input đẩy vào lúc, khơng cịn khái niệm time-step Transformers Cơ chế Self-Attention thay cho "recurrent" RNNs Hình Kiến trúc mơ hình Transformer 2.1 Encoder layer  Input Embedding Trong mơ hình học máy, học sâu (deep learning), liệu đầu vào phải mã hóa dạng số thực phức, biểu diễn cấu trúc toán học vector, 33 KHOA HỌC - CÔNG NGHỆ ma trận Do vậy, với phát triển tiếp cận deep learning, phương pháp học biểu diễn hướng nghiên cứu quan tâm Gần đây, số mơ hình học biểu diễn cho từ đề xuất GloVe, Fasttext, gensim Word2Vec "hiểu" liên quan từ câu Ví dụ từ "kicked" câu "I kicked the ball" (tơi đá bóng) liên quan đến từ khác? Liên quan mật thiết đến từ "I" (chủ ngữ), "kicked" lên "liên quan mạnh" "ball" (vị ngữ) Ngoài từ "the" giới từ nên liên kết với từ "kicked" gần khơng có Hình Biểu diễn nhúng từ  Positional Encoding Word embeddings giúp biểu diễn ngữ nghĩa từ, nhiên từ vị trí khác câu lại mang ý nghĩa khác Do Transformers có thêm phần Positional Encoding để đưa thêm thông tin vị trí từ  PE( pos, 2i )  sin pos/1000  i / dmod el PE( pos, 2i 1)  cos pos/10000  i / dmod el  Trong pos vị trí từ câu, PE giá trị phần tử thứ i embeddings có độ dài dmodel Sau cộng PE vector Embedding vector Hình Mã hóa vị trí từ nhúng  Self-Attention Self-Attention chế giúp Transformers 34 Hình Cơ chế Self-Attention Với kiến trúc chung, đầu vào mơđun Multi-head Attention có ba mũi tên ba vectors Querys (Q), Keys (K) Values (V) Từ ba vectors này, tính vector attention Z cho từ theo công thức sau:  QKT  Z  soft max   Dimension of vector Q, K or V      V  Thực tính sau:  Bước 1: Tính ba vectơ Q, K, V, input embeddings nhân với ba ma trận trọng số tương ứng WQ, WK, WV  Bước 2: Vectơ K đóng vai trị khóa đại diện cho từ, Q truy vấn đến vector K từ câu cách nhân chập với vectơ Nhân chập để tính toán độ liên quan từ với (2 từ liên quan đến có "Score" lớn) Bước "Scale" chia "Score" cho bậc hai số chiều Q/K/V (trong hình chia Q/K/V 64-D vectơ) giúp giá trị "Score" không phụ thuộc vào độ dài vectơ Q/K/V  Bước 3: Softmax kết để đạt phân bố xác suất từ TẠP CHÍ KHOA HỌC & CƠNG NGHỆ SỐ 27 - 2021 KHOA HỌC - CÔNG NGHỆ  Bước 4: Nhân phân bố xác suất với vectơ V để loại bỏ từ không cần thiết (xác suất nhỏ) giữ lại từ quan trọng (xác suất lớn)  Bước 5: Cộng vectơ V (đã nhân với softmax output) tạo vector attention Z cho từ Lặp lại trình cho tất từ để ma trận attention cho câu residual block Skip connections Transformers cho phép thông tin qua sub-layer trực tiếp Thông tin (x) cộng với attention (z) thực Layer Normalization  Multi-head Attention Vấn đề Self-attention attention từ "chú ý" vào "nó" phải liên quan đến "nó" nhiều Ví dụ sau: Hình Q trình cộng với attention (z) thực Layer Normalization  Feed Forward Hình Multi-head Attention cho câu Sự tương tác từ KHÁC NHAU câu thực Multi-head attention: thay sử dụng Self-attention (1 head) cách sử dụng nhiều Attention khác (multi-head), Attention ý đến phần khác câu Mỗi "head" cho ma trận attention riêng Việc concat ma trận nhân với ma trận trọng số WO sinh ma trận attention (weighted sum) Ma trận trọng số tune training Hình Quá trình concat Attention heads  Residuals Trong mơ hình tổng qt hình 6, sub-layer TẠP CHÍ KHOA HỌC & CÔNG NGHỆ SỐ 27 - 2021 Sau Normalize, vectơ z đưa qua mạng fully connected trước đẩy qua Decoder Vì vectơ khơng phụ thuộc vào nên tận dụng tính tốn song song cho câu Hình Tính toán song song cho câu 2.2 Decoder  Masked Multi-head Attention Trong việc thực toán English-France translation với Transformers, công việc Decoder giải mã thông tin từ Encoder sinh từ tiếng Pháp dựa NHỮNG TỪ TRƯỚC ĐÓ Nếu sử dụng Multi-head attention câu Encoder, Decoder "thấy" từ mà cần dịch Để ngăn điều đó, Decoder dịch đến từ thứ i, phần sau câu tiếng Pháp bị che lại (masked) Decoder phép "nhìn" thấy phần dịch trước 35 KHOA HỌC - CƠNG NGHỆ vector biểu diễn này, dịch thành câu tiếng Việt mặt trời bé nhỏ Hình Tính tốn song song cho câu  Quá trình decode Quá trình decode giống với encode, khác Decoder decode từ input Decoder (câu tiếng Pháp) bị masked Sau masked input đưa qua sub-layer #1 Decoder nhân với ma trận trọng số WQ K V lấy từ Encoder với Q từ Masked multi-head attention đưa vào sub-layer #2 #3 tương tự Encoder Cuối cùng, vector đẩy vào lớp Linear (là mạng Fully Connected) theo sau Softmax xác suất từ Trên kiến trúc mơ hình Transformers - mơ hình học sâu sử dụng nhiều ứng ụng NLP Hiện Transformers có nhiều biến thể, với pre-trained models tích hợp nhiều packages hỗ trợ tensorflow, keras, pytorch ứng dụng nhiều tốn xử lý ngơn ngữ tự nhiên có độ xác cao (State-of-the-art) SỬ DỤNG TRANSFORMERS TRONG DỊCH MÁY Kiến trúc mơ hình dịch máy sử dụng Transformer giống mơ hình dịch máy khác hình 10 Gồm hai phần lớn encoder decoder Encoder dùng để học vectơ biểu diễn câu với mong muốn vectơ mang thông tin hồn hảo câu Decoder thực chức chuyển vector biểu diễn thành ngơn ngữ đích Trong ví dụ hình 11, encoder mơ hình transformer nhận câu tiếng Anh, encode thành vectơ biểu diễn ngữ nghĩa câu little sun, sau mơ hình decoder nhận 36 Hình 10 Kiến trúc mơ hình dịch máy seq2seq Hình 11 Ví dụ mơ hình dịch máy sử dụng Transformers Ưu điểm transformer mơ hình có khả xử lý song song cho từ Như bạn thấy, Encoders mô hình transformer dạng feedforward neural nets, bao gồm nhiều encoder layer khác, encoder layer xử lý đồng thời từ 3.1 Embedding Layer với Position Encoding Position Encoding dùng để đưa thơng tin vị trí từ vào mơ hình transformer Đầu tiên, từ biểu diễn vector sử dụng ma trận word embedding có số dịng kích thước tập từ vựng Sau từ câu tìm kiếm ma trận này, nối thành dòng ma trận hai chiều chứa ngữ nghĩa từ riêng biệt Positional encoding giải vấn đề đưa TẠP CHÍ KHOA HỌC & CÔNG NGHỆ SỐ 27 - 2021 KHOA HỌC - CƠNG NGHỆ thơng tin vị trí từ vào vector đầu vào Biểu diễn vị trí từ chuỗi số liên tục từ 0,1,2,3…, n Vấn đề chuỗi dài số lớn, mơ hình gặp khó khăn dự đốn câu có chiều dài lớn tất câu có tập huấn luyện Để giải vấn đề này, chuẩn hóa lại cho chuỗi số nằm đoạn từ 0-1 cách chia cho n gặp vấn đề khác khoảng cách hai từ liên tiếp phụ thuộc vào chiều dài chuỗi, khoảng cố định, không hình dùng khoảng chứa từ Nghĩa position encoding khác tùy thuộc vào độ dài câu Hình 13 Tính giá trị vectơ theo vị trí Ví dụ: có số từ 0-15, bit bên phải thay đổi nhanh số, sau bit bên phải thứ 2, thay đổi số, tương tự cho bit khác  Phương pháp sinusoidal position encoding Vị trí từ mã hóa vector có kích thước word embedding cộng trực tiếp vào word embedding Hình 14 Cách tính position encoding Hình 12 Encoders input sử dụng Position Encoding Tại vị trí chẵn, sử dụng hàm sin; vị trí lẻ sử dụng hàm cos để tính giá trị chiều Trong cơng thức tính, hàm sin cos có dạng đồ thị tần số tần số giảm dần chiều lớn dần Hình 15 chiều 0, giá trị thay đổi liên tục tương ứng với màu sắc thay đổi liên tục, tần số thay đổi giảm dần chiều lớn  i sin  w k * t  if i  2k pt'  f  t     cos  w k * t  if i  2k  Trong đó: w k  10000 k / d Hình 14 minh họa cho cách tính position encoding Với word embedding có chiều, position encoding có tương ứng chiều Mỗi dịng tương ứng với từ Giá trị vectơ vị trí tính tốn theo cơng thức hình 13 TẠP CHÍ KHOA HỌC & CƠNG NGHỆ SỐ 27 - 2021 Hình 15 Thay đổi giá trị theo cách tính position encoding Biểu diễn giá trị tương tự cách biểu diễn số nguyên hệ nhị phân, nên biểu diễn vị trí từ Xem ma trận khoảng cách vectơ biểu diễn vị trí hình 16 Các vector biểu diễn thể tính chất khoảng cách hai từ Hai từ cách xa khoảng cách lớn 37 KHOA HỌC - CƠNG NGHỆ từ cộng với thơng tin vị trí thơng qua positional encoding Sau đó, ma trận xử lý Multi Head Attention Multi Head Attention thật chất self-attention, để mơ hình có ý nhiều pattern khác nhau, đơn giản sử dụng nhiều self-attention  Self Attention Layer Hình 16 Biểu diễn ma trận khoảng cách vectơ biểu diễn vị trí Với biểu diễn này, cho phép mơ hình dễ dàng học mối quan hệ tương đối từ Cụ thể, biểu diễn vị trí từ t + offset chuyển thành biểu diễn vị trí từ t phép biến đổi tuyến tính dựa ma trận phép quay Self Attention cho phép mơ hình mã hóa từ sử dụng thơng tin từ liên quan tới Ví dụ từ mã hóa, ý vào từ liên quan mặt trời Hình 18 Lớp Self Attention mã hóa từ 3.2 Encoder Encoder mơ hình Transformer bao gồm nhiều encoder layer tương tự Mỗi encoder layer transformer lại bao gồm thành phần multi head attention feedforward network, ngồi cịn có skip connection normalization layer Trong multi-head attention layer tạo nên khác biệt mơ hình LSTM mơ hình Transformer đưa Cơ chế self attention giống chế tìm kiếm Với từ cho trước, chế cho phép mơ hình tìm kiếm từ cịn lại, từ “giống”, để sau thơng tin mã hóa dựa tất từ Với từ, cần tạo vectơ: query, key, value vector cách nhân ma trận biểu diễn từ đầu vào với ma trận học tương ứng Trong đó:  Query vectơ: chứa thơng tin từ tìm kiếm, so sánh Giống câu query google search  Key vectơ: biểu diễn thông tin từ so sánh với từ cần tìm kiếm Ví dụ, trang web mà google so sánh với từ khóa tìm kiếm Hình 17 Biểu diễn ma trận khoảng cách vectơ biểu diễn vị trí Encoder nhận ma trận biểu diễn 38  Value vectơ: biểu diễn nội dung, ý nghĩa từ Ví dụ: nội dung trang web hiển thị cho người dùng sau tìm kiếm Để tính tương quan, cần tính tích vơ hướng dựa vectơ query key Sau dùng hàm TẠP CHÍ KHOA HỌC & CƠNG NGHỆ SỐ 27 - 2021 KHOA HỌC - CÔNG NGHỆ softmax để chuẩn hóa số tương quan đoạn 0-1 tính trung bình cộng có trọng số vector values sử dụng số tương quan để tính Q trình tính tốn attention vector gồm:  Bước 1: Tính ma trận query, key, value cách khởi tạo ma trận trọng số query, key, vectơ Và nhân input với ma trận trọng số để tạo thành ma trận tương ứng thông tin vị trí từ mã hóa 3.3 Decoder Decoder thực chức giải mã vectơ câu nguồn thành câu đích, decoder nhận thơng tin từ encoder vector key value Kiến trúc decoder giống với encoder, ngoại trừ có thêm multi head attention nằm dùng để học mối liên quan giữ từ dịch với từ câu nguồn  Bước 2: Tính attention weights Nhân ma trận key, query tính bước với để so sánh câu query key cho việc học mối tương quan Chuẩn hóa đoạn [0-1] hàm softmax (1 nghĩa câu query giống với key, có nghĩa khơng giống)  Bước 3: Tính output Nhân attention weights với ma trận value Nghĩa biểu diễn từ trung bình có trọng số (attention weights) ma trận value  Multi Head Attention Để mơ hình học nhiều kiểu mối quan hệ từ với nhau, self-attention học kiểu pattern Do để mở rộng khả này, đơn giản thêm nhiều self-attention (cần nhiều ma trận query, key, value) Ma trận trọng số key, query, value có thêm chiều depth Multi head attention cho phép mơ hình ý đến đồng thời pattern dễ quan sát sau:  Chú ý đến từ kế trước từ;  Chú ý đến từ kế sau từ;  Chú ý đến từ liên quan từ Trong kiến trúc mơ hình Transformer, residuals connection normalization layer sử dụng nơi giúp cho mơ hình huấn luyện nhanh hội tụ trách mát thơng tin q trình huấn luyện mơ hình, ví dụ TẠP CHÍ KHOA HỌC & CƠNG NGHỆ SỐ 27 - 2021 Hình 19 Quá trình decode  Masked Multi Head Attention Masked Multi Head Attention multi head attention, có chức dùng để encode từ câu đích q trình dịch Lúc cài đặt cần phải che từ tương lai chưa mơ hình dịch đến, cách nhân với vector chứa giá trị 0,1 Trong decoder có multi head attention khác có chức ý từ mơ hình encoder, layer nhận vector key value từ mơ hình encoder, output từ layer phía Do muốn so sánh tương quan từ dịch với từ nguồn  Final Fully Connected Layer, Softmax Loss function Giống nhiều mơ hình khác, cần thêm fully connected layer để chuyển output từ layer phía trước thành ma trận có chiều số từ cần dự đốn Sau chuyển đến softmax để 39 KHOA HỌC - CƠNG NGHỆ tính xác suất từ xuất Loss function cross-entropy, giống mơ hình phân loại khác thường sử dụng  Kỹ thuật để huấn luyện Transformer Để huấn luyện mô hình Transformers, cần Optimizer Label Smoothing để mơ hình Transformer hội tụ  Optimizer Để huấn luyện mô hình transformer, sử dụng Adam, learning rate cần phải điều chỉnh suốt q trình học theo cơng thức sau: Phạt mơ hình để số epoch lớn mơ hình khơng overfit  Dữ liệu thực nghiệm Dataset song ngữ Anh - Việt: liệu song ngữ thu thập TEDTALK bao gồm 132k câu song ngữ từ liệu hội nghị IWSLT2015 1.100.000 cặp song ngữ thu thập từ nguồn liệu tổng hợp khác  Visualization Visualize trọng số mơ hình sử dụng chế attention Trong mơ hình transformer, visualize encoder decoder Có thể visualize đồng thời heads multi-head attentions, layers khác  Encoder Visualize Dùng heatmap để visualize giá trị attention, cho biết encode câu mơ hình ý từ lân cận Hình 20 Learning rate Learning rate tăng dần lần cập nhật đầu tiên, bước gọi warmup step, lúc mơ hình ‘chạy’ Sau learning rate giảm dần, để mơ hình hội tụ  Label Smoothing Với mơ hình nhiều triệu tham số Transformers, để hạn chế tượng overfit, sử dụng kỹ thuật label smoothing Thay mã hóa nhãn one-hot vector, thay đổi nhãn chút cách phân bố thêm xác suất vào trường hợp lại Hình 22 Encoder layer 2, layer Ví dụ visualize giá trị attention encoder layer số 4, head 0,1,2,3 Nhìn vào heatmaps trên, thấy encode từ mơ hình nhìn vào từ liên quan xung quanh Ví dụ từ family mã hóa từ liên quan my family  Decoder Visualize Ở decoder, có hai loại visualization Hình 21 Label Smoothing 40  self attention: giá trị attention mô hình decoder mã hóa câu đích lúc dịch; TẠP CHÍ KHOA HỌC & CÔNG NGHỆ SỐ 27 - 2021 KHOA HỌC - CƠNG NGHỆ  Mơ hình chạy nhanh cho kết tốt cặp ngôn ngữ Anh - Việt  src attention: giá trị attention mô hình decoder sử dụng câu nguồn lúc dịch  Khó xử lý unknown dựa attention Do attention vector bị chia thành n phần nhỏ KẾT LUẬN  Mô hình Transformers có ưu điểm:  Có khả thực song song trình encoder  Cho kết tốt với liệu câu dài Hình 23 Decoder self layer  Hệ thống cho kết cao (State-of-the-art) nhiều cặp ngơn ngữ có cặp ngơn ngữ Anh - Việt Ở ví dụ visualize decoder layer số 2, bốn heads 0,1,2,3 Có thể quan sát encode từ đỉnh mơ hình nhìn vào từ  Nhược điểm: Khó xử lý unknown words Trên nội dung tìm hiểu mơ hình Transformers ứng dụng xử lý ngơn ngữ tự nhiên Ứng dụng mơ hình Transformers cho toán dịch máy - tốn hay thú vị xử lý ngơn ngữ tự nhiên KẾT QUẢ THỰC NGHIỆM Qua tìm hiểu nghiên cứu chạy thực nghiệm thu số kết sau: Bảng Kết thực nghiệm kho ngữ liệu Anh - Việt Language Pairs Sequence2 Sequence Transformer heads head 27.7 29.17 (+1.47) 28.6 (+0.9) En – Vi 25.5 (133.000 - iwslt 15) 26.54 (+1.04) 26.47 (+0.97) En – Vi (1.100.000) Kết tìm hiểu nắm bắt vấn đề mặt mơ hình, kỹ thuật tốn dịch máy cho ngữ liệu song ngữ Anh - Việt Thực nghiệm với model xây dựng thực tế cho kết sở áp dụng cho tốn xử lý ngơn ngữ tự nhiên có tính phức tạp đòi hỏi áp dụng kỹ thuật việc xây dựng mơ hình Cấu hình: d_model = 512, layers = 4, batch_size: 64, d_ff = 2048, dropout = 0.1 TÀI LIỆU THAM KHẢO [1] Ian Goodfellow, Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, (2016) [2] Mohit Sewak, Md Rezaul Karim, Pradeep Pujari, “Practical Convolutional Neural Networks”, (2018) [3] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, Illia Polosukhin, Attention Is All You Need, Submitted on 12 Jun 2017 (v1), last revised Dec 2017 (this version, v5) [4] Shaoqing Ren et al “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks” In: IEEE Transactions on Pattern Analysis and Machine Intelligence 39 (June 2015) DOI: 10.1109/TPAMI.2016.2577031 (cited on page 183) [5] A Gentle Introduction to Transfer Learning for Deep Learning TẠP CHÍ KHOA HỌC & CƠNG NGHỆ SỐ 27 - 2021 41 KHOA HỌC - CÔNG NGHỆ [6] URL: https://machinelearningmastery.com/transfer-learning-for-deep-learning/(cited on page 148) [7] https://viblo.asia/p/transformers-nguoi-may-bien-hinh-bien-doi-the-gioi-nlp-924lJPOXKPM [8] https://www.tensorflow.org/tutorials/text/transformer [9] https://viblo.asia/p/bert-buoc-dot-pha-moi-trong-cong-nghe-xu-ly-ngon-ngu-tu-nhien-cua-google-RnB5pGV 7lPG [10] http://jalammar.github.io/illustrated-transformer [11] https://pbcquoc.github.io/transformer/ Thông tin liên hệ: Trần Hồng Việt Điện thoại: 0975486888 - Email: thviet@uneti.edu.vn Khoa Công nghệ thông tin, Trường Đại học Kinh tế - Kỹ thuật Công nghiệp Nguyễn Thu Hiền Điện thoại: 0936774362 - Email: nthien@uneti.edu.vn Khoa Công nghệ thông tin, Trường Đại học Kinh tế - Kỹ thuật Công nghiệp 42 TẠP CHÍ KHOA HỌC & CƠNG NGHỆ SỐ 27 - 2021 ... Trên nội dung tìm hiểu mơ hình Transformers ứng dụng xử lý ngôn ngữ tự nhiên Ứng dụng mơ hình Transformers cho tốn dịch máy - toán hay thú vị xử lý ngôn ngữ tự nhiên KẾT QUẢ THỰC NGHIỆM Qua tìm... Transformers ứng dụng xử lý ngôn ngữ tự nhiên KIẾN TRÚC TRANSFORMERS Kiến trúc Transformers sử dụng hai phần Encoder Decoder giống RNNs Điểm khác biệt input đẩy vào lúc, khơng cịn khái niệm time-step Transformers. .. thống xử lý ngôn ngữ tự nhiên tương ứng chưa cao Giải vấn đề này, nhiều mơ hình xử lý ngơn ngữ tự nhiên sử dụng chế tiền xử lý liệu huấn luyện việc chuyển đổi từ mơ hình chung huấn luyện từ lượng

Định dạng
Số trang	11
Dung lượng	1,56 MB