2.2. Các công trình liên quan
2.2.3. Các nghiên cứu về cơ chế chú ý có giám sát trong bài toán NLP
toán NLP
Trong một số bài toán như dịch máy, phân tích cảm xúc, phát hiện sự kiện, để cải thiện chất lượng của cơ chế chú ý nhiều nhà nghiên cứu đã sử dụng kỹ thuật có giám sát vào để nâng cao hiệu năng của những bài toán này [76, 77, 78]. Liu [78] đã sử dụng hàm sai số trung bình bình phương để điều chỉnh trọng số chú ý cho bài toán dịch tự động. Mi el al [76] đã cho rằng việc dùng gióng mềm không giám sát trong mô hình Seq2seq làm cho từ hiện tại của câu đích bị thiếu ngữ cảnh. Do đó họ đã đề xuất sử dụng gióng từ có giám sát để hướng dẫn mô hình học các trọng số chú y, giúp cho mô hình dịch tốt hơn. Zao [79] cũng đã sử dụng cảm xúc của từ vựng để hướng dẫn mô hình của họ tập trung vào sinh ra biểu diễn thông tin cảm xúc. Trong bài toán phát hiện sự kiện, mô hình mạng nơ ron cũng được yêu cầu chú ý vào thông tin đối số (argument information), đối số của sự kiện ví dụ như “He” (vai trò = Person) “hospital” (vai trò = Place) khi phát hiện yếu tố kích hoạt sự kiện [80].
2.3. Mô hình đề xuất
Đầu tiên, mô hình gốc match-LSTM [4] được áp dụng vào bài toán lựa chọn câu trả lời. Sau đó, cơ chế chú ý có giám sát được đề xuất tích hợp vào mô hình match-LSTM để hướng dẫn mô hình học trọng số chú ý của từng từ trong câu
trả lời với các từ trong câu hỏi tốt hơn so với mô hình gốc. 2.3.1. Mô hình match-LSTM 1 1 … … … … … prediction Question Answer Attention-weighted Question mLSTM
Hình 2.3: Mô hình match-LSTM [4] cho bài toán lựa chọn câu trả lời
Hình 2.3 mô tả mô hình match-LSTM gốc [4]. Mô hình này được đề xuất cho bài toán suy diễn ngôn ngữ tự nhiên. Mô hình này được áp dụng trực tiếp sang bài toán lựa chọn câu trả lời với 3 đường LSTM: Một đường LSTM cho câu hỏi; một đường LSTM cho câu trả lời và đường thứ 3 gọi là mLSTM. Đường mLSTM để học cách gióng từ một cách trực tiếp giữa các từ trong câu trả lời với các từ trong câu hỏi (hình 2.3).
Kí hiệu: Xq = (xq1,xq2, ...,xqM) và Xt = (xt
1,xt
2, ...,xt
N) là cặp câu hỏi và câu trả lời tương ứng. Trong đó, xi là véc tơ từ nhúng có số chiều là d của từ thứ i
tương ứng trong câu. Mục tiêu của của bài toán là tiến hành đự đoán nhãn y
chỉ mối quan hệ của cặp câu hỏi Xq và câu trả lời Xt. Nếu câu trả lời là câu trả lời tích cực và có liên quan tới câu hỏi có nhãn là 1, ngược lại câu trả lời không liên quan tới câu hỏi hoặc những phản hồi tiêu cực có nhãn là 0.
Đầu tiên, hai mạng LSTM được sử dụng để xử lý các từ trong câu hỏi và câu trả lời.hq và ht là các véc tơ ẩn tương ứng của đường LSTM thứ nhất (ứng với câu hỏi) và đường LSTM thứ 2 (ứng với câu trả lời).
Tiếp theo, véc tơ trọng số chú ý ak được tạo ra theo các công thức sau: ekj =we.tanh(Wqhqj+Wthtk +Wmhmk−1) (2.1) αkj = exp(ekj) PM j0=1exp(ekj0) (2.2) ak = M X j=1 αkjhqj, (2.3)
trong đó ’.’ là phép nhân tích vô hướng hai véc tơ, véc tơ we ∈ Rd và các ma trận W∗ ∈Rd∗d là các trọng số được học bởi mô hình. hqj là véc tơ của từ thứ j
trong câu hỏi q của mô hình LSTM, htk là véc tơ ẩn của từ thứ k trong câu trả lời và hmk−1 là véc tơ ẩn tại bước k−1 của mô hình mLSTM. Đường mLSTM thể hiện sự tương tác giữa câu hỏi và câu trả lời được giải thích bên dưới. Các véc tơ ẩnh đều có số chiều là d. Giá trị αkj được tạo ra qua việc chuẩn hóa bởi hàm sof tmax các giá trị ekj và là trọng số chú ý của từ thứ k trong câu trả lời với từ thứ j của câu hỏi.
Đầu vào của mạng mLSTM tạo ra bằng cách nối hai véc tơ ak (là véc tơ chú ý của từ thứ k của câu trả lời với các từ của câu hỏi) với htk (là véc tơ ẩn tại
bước thứ k trong mô hình LSTM của câu trả lời). Đường mLSTM có thể học
được cách quên những thông tin không quan trọng và nhớ những thông tin cần thiết trong sự tương tác của câu hỏi và câu trả lời. Trong bài báo gốc, véc tơ ẩn cuối cùng hmN được dùng để dự đoán. Công thức tương ứng của mLSTM cụ thể như sau: mk = " ak htk # (2.4) imk =σ(Wmimk +Vmihmk−1+bmi), fmk =σ(Wmfmk+Vmfhmk−1+bmf), omk =σ(Wmomk+Vmohmk−1+bmo), cmk =fmk cmk−1+imk tanh(Wmcmk+Vmchmk−1+bmc), hmk =omk tanh(cmk ), (2.5) 2.3.2. Mở rộng mô hình
Đầu tiên, mô hình match-LSTM được áp dụng vào bài toán lựa chọn câu trả
… … … … … Question Answer Attention-weighted Question mLSTM Average pooling Max pooling … Prediction Supervised Attention Intuitive attetntion weights gkj Attention weights αkj Loss Supervised Loss Loss model Loss function Model
Hình 2.4: Mô hình mở rộng từ mô hình match-LSTM cho bài toán lựa chọn câu trả lời
lời. Sau đó, mô hình được mở rộng như sau ( hình 2.4):
• Đầu tiên, mô hình biLSTM (Bidirectional LSTM) được sử dụng để học ra
biểu diễn của từ ở mức độ kí tự. Sau đó, véc tơ này được nối với véc tơ từ nhúng Glove làm đầu vào của mô hình. Từ nhúng được học ở mức độ kí tự đã được chứng minh là học ra được biểu diễn từ nhúng có ý nghĩa cho cả ngôn ngữ hình thức và không hình thức [81, 82]. Trong CQA, ngôn ngữ sử dụng thông thường là ngôn ngữ theo kiểu văn nói, không hình thức. Trong đó, câu có thể chứa các từ viết tắt, lỗi chính tả, biểu tượng cảm xúc, và lỗi cú pháp. Sử dụng thêm từ nhúng ở mức kí tự có thể giúp làm giảm ảnh hưởng của hiện tượng OOV (Out of Vocabulary, trong tập test có thể có những từ không có trong bộ từ vựng của tập huấn luyện). Biểu diễn này mang lại hiệu quả với những tập dữ liệu nhỏ mà số lượng từ không có trong tập từ điển lớn như tập SemEval. Để đạt được ngữ cảnh theo trình tự xuôi và ngược của từ, mô hình biLSTM được sử dụng để học ra biểu diễn của từ. Các nghiên cứu [81, 82] cũng chỉ ra rằng sử dụng từ nhúng ở mức độ kí tự cũng làm tăng hiệu năng của mô hình.
• Thứ hai, thay vì chỉ sử dụng véc tơ ẩn cuối cùng của đường mLSTM để dự đoán, hai phép toán lấy Max-pooling và Average-pooling của tất cả các véc tơ ẩn của mLSTM được sử dụng để tổng hợp thông tin của mô hình. Tiếp theo, véc tơ Max-pooling và Average-pooling được nối với nhau để đưa vào
dự đoán.
Hàm loss−f unction của mô hình gốc và mô hình nâng cao sử dụng hàm cross-entropy như sau:
Lmodel =−1 S
X
(ylogby+ (1−y)log(1−by)) + γ
2S||W||22, (2.6) trong đóSlà số lượng các cặp câu hỏi và câu trả lời của tập huấn luyện, γ là
tham số điều chỉnh,W là ma trận các tham số của mô hình match-LSTM.
• Cuối cùng, cơ chế chú ý có giám sát được tích hợp vào mô hình mở rộng với mục đích học ra gióng các từ trong câu trả lời với các từ trong câu hỏi mang nhiều ý nghĩa hơn. Mô tả chi tiết được trình bày mục 2.3.3 dưới đây.
2.3.3. Cơ chế chú ý có giám sát
gkj là kí hiệu trọng số chú ý đích để hướng dẫn mô hình học theo. gkj là tri thức từ bên ngoài. Giá trị này là trọng số chú ý của từ thứk của câu trả lời với
từ thứ j của câu hỏi mà mô hình mong muốn đạt tới, trong đó P
jgkj = 1. Sự sai khác giữa trọng số chú ý mà mô hình mở rộng hướng tớigkj với trọng số αkj
của mô hình học được theo trong công thức 2.2 như sau:
Lsupervised = 1 S S X 1 ( N X k=1 M X j=1 (gkj −αkj)2) (2.7)
Sau đó, hàm mất mát (2.6) và (2.7) được kết hợp vào mô hình mở rộng như sau:
L=Lmodel+λLsupervised, (2.8) trong đó S là số cặp câu hỏi và câu trả lời,λ là hệ số được điều chỉnh để điều khiển sự ảnh hưởng của các mô hình khác khau.
Một cách trực giác, chúng ta mong muốn các từ gần nhau về mặt ngữ nghĩa sẽ được gióng phù hợp với nhau trong mô hình đề xuất.
Để tính trọng số gkj, hàm tính độ tương tự cosin được sử dụng. Véc tơ biểu diễn từ được học từ mô hình fastText [35] trên tập dữ liệu hỏi đáp cộng đồng SemEval 2016 và SemEval 2017 ngôn ngữ tiếng Anh không gán nhãn. fastText là mô hình học biểu diễn từ qua việc tổng hợp từ các véc tơ n-gram kí tự, trong đó mỗi từ được biểu diễn qua túi n-gram kí tự (ví dụ từ ’where’ biểu diễn qua
Bảng 2.1: Bảng thống kê số cặp câu hỏi-câu trả lời trong tập dữ liệu SemEval CQA.
SemEval 2016 SemEval 2017
Train 36.198 39.468
Dev 2.440 3.270
Test 3.270 2.930
Độ dài trung bình của phần nội dung câu hỏi 49.4 45.8 Độ dài trung bình của câu trả lời 38.8 38.0
Kích thước từ điển 61.271 63.758
3-gram là ’<wh’, ’whe’, ’her’, ’ere’, ’re>’). Phương pháp biểu diễn này là biểu diễn hiệu quả với tập dữ liệu có nhiều từ không có trong tập từ vựng.
Sau đó, trọng số tf.idf được thêm vào công thức tính gkj để nhấn mạnh các từ chứa nội dung trong câu. Công thức cụ thể như sau:
g0kj =tf.idf(wqj)cosine(wtk,wqj), (2.9) trong đó wt
k và wqj là các véc tơ từ học từ mô hình fastText. Để tính trọng số
tf.idf, mỗi văn bản là câu hỏi hoặc câu trả lời trên tập dữ liệu không gán nhãn. Từ đặc biệt < eos > được thêm vào cuối câu hỏi và câu trả lời với mục đích để các từ không chứa nội dung quan trọng trong câu sẽ ánh xạ vào từ đặc biệt này.
Cuối cùng trọng số gkj được chuẩn hóa sử dụng hàm softmax:
gkj = exp(gkj)
PM
i=1exp(gki0 )
, (2.10)
trong đók = 1..N, j = 1..M, M là số từ của câu hỏi, N là số từ trong câu trả lời.
2.4. Các thử nghiệm và kết quả 2.4.1. Tập dữ liệu
Tập dữ liệu SemEval có nhãn [21, 20] được sử dụng để đánh giá mô hình. Dữ liệu trên tập này được lấy từ forum Qatar Living về các chủ đề dành cho những người nước ngoài đã và sẽ tới Qatar. Tập dữ liệu này được chia thành 3 tập: tập huấn luyện, tập phát triển và tập kiểm thử. Bảng 2.1 là dữ liệu thống kê trên tập dữ liệu này.
Ngoài ra tập dữ liệu không có nhãn được cung cấp bởi cuộc thi Sememval 20171 bao gồm 189.941 câu hỏi và 1.894.456 câu trả lời với kích thước từ điển là
1https://alt.qcri.org/semeval2017/task3/index.php?id=data-and-tools
63.758 từ được dùng để huấn luyện các từ nhúng Word2vec, Glove và fastText sử dụng thử nghiệm trong mô hình.
Độ đo MAP(Mean Average Precision) và MRR (Mean Reciprocal Rank) được sử dụng để đánh giá hiệu năng của mô hình với kịch bản được cung cấp bởi cuộc thi SemEval2.
MRR được tính theo công thức sau:
M RR= 1 |Q| |Q| X i=1 1 ranki , (2.11)
trong đóranki là vị trí của câu trả lời đúng đầu tiên tương ứng với câu hỏi thứ
i. Trong khi độ đo MRR đo thứ hạng của câu trả lời đúng đầu tiên thì MAP lại xem xét tất cả thứ hạng của câu trả lời đúng. MAP được tính như sau:
M AP = 1 |Q| |Q| X j=1 1 mj |mj| X k=1 P recision(Rjk), (2.12)
trong đó Rjk là tập kết quả tìm kiếm được xếp hạng từ kết quả tốt nhất cho đến khi tìm thấy câu trả lời thứ k, mj là số câu trả lời đúng cho câu hỏi thứ j
trong số Q câu hỏi.