Kiến trúc Transformer

3 TRÍCH RÚT THÔNG TIN VĂN BẢN BẰNG DEEP TRANS-

3.6 Kiến trúc Transformer

• Trong “Encoder-decoder attention”, vector truy vấn được lấy từ lớp giải mã phía trước trong khi vector key, và vector value được lấy từ giá trị đầu ra của lớp mã hóa. Điều này cho phép mọi vị trí của lớp mã hóa sẽ được tập trung từ tất cả các vị trí của mỗi chuỗi giá trị đầu vào, tức là thực thi ý tưởng truyền thống của mô hình sequence to sequence.

• Bộ mã hóa sử dụng các lớp attention với cả ba vector key, value, query đều được lấy từ giá trị đầu ra của khối phía trước trong bộ mã hóa. Mỗi vị trí trong lớp mã hóa có thể chú ý đến tất cả các vị trí của lớp phía trước.

• Tương tự, các lớp attention trong bộ giải mã cho phép mỗi vị trí tập trung vào tất cả vị trí của khối phía trước. Tuy nhiên ta cần phải tránh việc ảnh hưởng trái luồng thông tin trong bộ giải mã để đảm bảo đặt tính tự hồi quy bằng cách đánh dấu tất cả các trí trị đầu vào lớp softmax tương ứng với các kết nối không hợp lệ (giá trị −∞).

3.4 BERT

BERT, một mô hình đã huấn luyện trước (pre-trained model) xuất hiện cuối năm 2018, được coi là một trong những mô hình tốt nhất, giải pháp để giải quyết với khó khăn về sự thiếu hụt dữ liệu đào tạo trong lĩnh vực xử lý ngôn ngữ tự nhiên(cite BERT).

3.4.1 Kiến trúc BERT

Mô hình BERT là mô hình mã hóa sử dụng nhiều lớp Transformer mã hóa hai chiều, trong đó các lớp Transformer được sử dụng hoàn toàn tương tự như mô hình được đề xuất và thực thi gốc của Vasawani et al. (2017) (cite attention is all you need). Kiến trúc của Transformer được trình bày ở mục 3.3.2 và việc hoạt động của kiến trúc này trong BERT là hoàn toàn giống với cách triển khai trước đó.

Mô hình BERT định nghĩa số lượng lớp (khối Transformer) là L, kích thước lớp ẩn là H và số lượng attention-head là A. BERT có hai mô hình có kích thước: BBASE(L = 12, H = 768, A = 12) với tổng cộng 110 triệu tham số và

BLARGE(L= 24, H = 1024, A= 16) với 340 triệu tham số.

3.4.2 Biểu diễn dữ liệu đầu vào

Cách biểu diễn dữ liệu đầu vào của BERT: Với mỗi từ cho trước, biểu diễn của từ đó được tạo bởi tổng hợp của các giá trị nhúng tương ứng với từ, đoạn cũng

như vị trí. Cụ thể:

• BERT sử dụng WordPiece [20] để tách câu thành các từ nhỏ.

• Lớp nhúng vị trí được sử dụng với độ dài tối đa là 512.

• Ký tự đầu tiên của mỗi chuỗi luôn là ký tự đặc biệt [CLS] đại diện cho cả câu và sử dụng cho tác vụ phân lớp.

• Một cặp câu A và B được ghép với nhau phục vụ cho bài toán như Question and Answer được phân biệt bằng cách ngăn cách giữa hai câu bởi ký tự [SEP].

Biểu diễn dữ liệu đầu vào của BERT

Kiến trúc mô hình Baseline