Quá trình tính sự chú ý

Phần giải mã làm chức năng giải mã véc tơ đặc trưng của câu nguồn để đưa ra câu đích. Ở mô hình này, phần giải mã nhận đầu vào là hai véc tơ key và

value từ phần mã hóa. Kiến trúc của phần giải mã gần giống với phần mã hóa chỉ khác ở chỗ có thêm tầng multihead-attention ở giữa để học mối quan hệ giữa từ đang được dịch và từ của câu nguồn.

Tầng Masked multihead-attention trong phần giải mã bản chất là multihead- attention. Tầng này có chức năng dùng để mã hóa các từ của câu đích trong quá trình dịch. Để làm việc này thì đơn giản là chúng ta chỉ cần nhân với một véc tơ chứa các giá trị 0,1.

Phần giải mã có một multihead-attention như nói ở trên có chức năng chú ý các từ ở mô hình mã hóa, tầng này nhận véc tơ key và value từ mô hình mã hóa và đầu ra từ tầng của masked multihead-attention. Tầng này với mục đích so sánh sự tương quan giữa từ đang được dịch với các từ nguồn. Hàm mất mát sử dụng hàm cross-entropy.

1.6.6. Học biểu diễn từ nhúng

Một trong những thành công của học sâu đó là học ra biểu diễn từ phân tán (Distributed word representation) trong không gian véc tơ [30, 31]. Biểu diễn từ là một véc tơ và còn được gọi là từ nhúng (word embedding). Thay vì sử dụng véc tơ one-hot qua việc đánh chỉ mục các từ trong bộ từ vựng, từ nhúng được học bởi các từ xung quanh và được ánh xạ lên không gian số thực nhiều chiều nhưng có số chiều thấp hơn nhiều so với kích thước của từ điển. Cách học véc

tơ từ nhúng này khai thác được các đặc trưng về ngữ nghĩa và cú pháp của từ và câu. Có những nghiên cứu học biểu diễn quan hệ mà quan hệ này cung cấp thông tin giữa hai từ được liên kết như thế nào trong câu, sử dụng phương pháp tương tự sau khi phân tích cú pháp trên dữ liệu văn bản lớn bằng bộ phân tích cú pháp phụ thuộc [32]. Cách nhúng quan hệ này giúp đạt được thông tin giàu cú pháp và ngôn ngữ. Hiệu quả của việc sử dụng cả nhúng quan hệ và từ với nhau được thấy qua bài toán trích xuất tri thức và trích xuất thuật ngữ [33, 34]. Các từ nhúng học được sau đó được sử dụng để tạo ra biểu diễn câu. Một cách đơn giản là thực hiện lấy tổng hoặc lấy trung bình của các véc tơ của các từ nhúng trong câu. Ngoài ra các mô hình như RNN, CNN, LSTM cũng được sử dụng để tạo ra biểu diễn câu. Các phương pháp này đều sử dụng từ nhúng là thành phần cơ sở đưa vào các mô hình này.

Có nhiều phương pháp biểu diễn từ nhúng như biểu diễn bằng véc tơ one-hot, ma trận đồng xuất hiện. Tuy nhiên trong phần này, chúng tôi trình bày phương pháp biểu diễn từ chiếm ưu thế hiện nay và mang lại hiệu quả cao trong các bài toán NLP đó là Word2vec, Glove, fastText, BERT.

Word2vec

Mô hình Word2vec được đưa ra bởi Mikolov và cộng sự năm 2013 [3] để giúp học biểu diễn câu có số chiều cố định mà biểu diễn này thể hiện được ngữ nghĩa và quan hệ của các từ tốt hơn phương pháp one-hot. Đồng thời phương pháp này cũng nhanh hơn và có thể dễ dàng kết hợp một câu, một văn bản mới hoặc thêm vào từ vựng so với phương pháp dùng ma trận đồng xuất hiện.

Ý tưởng chính của phương pháp này đó là học dự đoán từ lân cận của các từ. Với mỗi từ t, phương pháp này thực hiện dự đoán các từ trong cửa sổ bán kính m của tất cả các từ.

Hàm mục tiêu thực hiện tối ưu hợp lý hoá cực đại của từ ngữ cảnh (context word) đối với một từ đang xét hiện tại (center word):

J(θ) = −1 T T Y t=1 m Y j=−m(j6=0) p(wt+j|wt;θ). (1.20) Có hai cách xây dựng ngữ cảnh (hình 1.10) :

• Đầu vào cho biết ngữ cảnh và đầu ra thực hiện dự đoán từ mục tiêu (CBOW) • Đầu vào cho một từ và đầu ra thực hiện dự đoán ngữ cảnh (Skip-gram)

Hệ thống hỏi đáp cộng đồng

Tập dữ liệu hỏi đáp