4 Kết quả và Thảo luận
2.8 Minh hoạ các phép tính tốn trong cơ chế Multi-Head Self-Attention
Cơ chế Self-Attentionlà một trong những thành phần quan trọng trong kiến trúc Transformer. Cơ chế này được sử dụng như một cách để mơ hình tập trung vào thơng tin có liên quan dựa trên những gì mà nó đang xử lý. Về cơ bản, trọng sốattention-weightlà mức độ liên quan củaValuetrong việc xử lý trạng thái bộ truy vấnQueryvà được tính tốn dựa trên trạng thái củaKeyvà trạng thái bộ truy vấnQuery. Nếu chúng ta chỉ tính
tốn mộtattention-weightthì sẽ rất khó để nắm bắt các khía cạnh khác nhau của đầu vào bởi vì nó có xu hướng tập trung vào chính bản thân của nó. Nhưng trong thực tế, ta có thể sẽ cần là tính tốn mức độ liên quan giữa những khía cạnh khác nhau trong chuỗi, giải pháp được đề xuất là sử dụng nhiều Self-Attentioncùng một lúc để học được nhiều
attention-weightkhác nhau giúp chú ý đến nhiều điểm khác nhau trong cùng một chuỗi tuần tự. Vì bản thân mỗiSelf-Attentionsẽ cho ra một ma trậnattention-weightriêng nên ta sẽ tiến hành thực hiện phép tínhConcatenatecác ma trận này và nhân với ma trận trọng sốW0để ra một ma trận trọng sốattention-scoreduy nhất. Cơ chế này được ứng dụng
2.4. Kiến trúcTransformervà mơ hìnhBERT4REC,BST
trong kiến trúcTransformerđã đạt được nhiều thành tựu trong nhiều lĩnh vực nghiên cứu khác nhau dưới cái tên Multi-head Self-Attention(Hình 2.8), được tính thơng qua cơng thức bên dưới:
MultiHead(Q,K,V) =Concat(head1,head2, ...,headn)WO (2.6) Trong đó:
■ headi = Attention(QWiQ,KWiK,VWiV)là đại diện cho mộtSelf-Attention;
■ WiQlà vector trọng số tương ứng vớiQuery;
■ WK
i là vector trọng số tương ứng vớiKey;
■ WV
i là vector trọng số tương ứng vớiValue;
■ WO
i là vector trọng số tương ứng vớiOutput.
Nhờ việc áp dụng kiến trúcTransformervào các bài tốn gợi ý, mơ hìnhBERT4REC
đã đạt kết quảstate-of-the-arttrong một thời gian dài trong khi mơ hình BSTđược đưa vào ứng dụng trong thực tế ở một trong những tập đoàn thương mại điện tử lớn trên thế giới.
2.4.2 | Mơ hìnhBERT4REC
Tương tự như việc cải tiến từ cơ chếSelf-Attentionlên kiến trúcTransformer thì mơ hìnhBERT4RECcũng có cải tiến tương ứng so vớiSASREC. Ngồi ra, mơ hìnhBERT4REC
cịn ứng dụng cơ chế tiền xử lý dữ liệu mới gọi là Cloze Taskcho phép tạo dữ liệu đầu ra (output) ở bất cứ vị trí nào trong chuỗi tuần tự từ dữ liệu đầu vào bằng cách che mờ (mask) dữ liệu ở vị trí đó trong q trình huấn luyện. Việc này giúp gia tăng thêm rất nhiều dữ liệu huấn luyện từ đó giúp mơ hình có thể học nhiều hơn và đạt kết quả chính xác hơn.
Hình 2.9 mơ tả chi tiết kiến trúc của mơ hìnhBERT4REC ứng dụng trong bài tốn
click-through-rate. Trong đó bao gồm các thành phần chính sau:
■ Input: dữ liệu đầu vào của quá trình huấn luyện được sử dụng là chuỗi tuần tự bao
2.4. Kiến trúcTransformervà mơ hìnhBERT4REC,BST