Các nghiên cứu về cơ chế chú ý có giám sát trong b- 123docz.net

2.2. Các cơng trình liên quan

2.2.3. Các nghiên cứu về cơ chế chú ý có giám sát trong bài tốn NLP

toán NLP

Trong một số bài toán như dịch máy, phân tích cảm xúc, phát hiện sự kiện, để cải thiện chất lượng của cơ chế chú ý nhiều nhà nghiên cứu đã sử dụng kỹ thuật có giám sát vào để nâng cao hiệu năng của những bài toán này [76, 77, 78]. Liu [78] đã sử dụng hàm sai số trung bình bình phương để điều chỉnh trọng số chú ý cho bài toán dịch tự động. Mi el al [76] đã cho rằng việc dùng gióng mềm khơng giám sát trong mơ hình Seq2seq làm cho từ hiện tại của câu đích bị thiếu ngữ cảnh. Do đó họ đã đề xuất sử dụng gióng từ có giám sát để hướng dẫn mơ hình học các trọng số chú y, giúp cho mơ hình dịch tốt hơn. Zao [79] cũng đã sử dụng cảm xúc của từ vựng để hướng dẫn mơ hình của họ tập trung vào sinh ra biểu diễn thơng tin cảm xúc. Trong bài tốn phát hiện sự kiện, mơ hình mạng nơ ron cũng được yêu cầu chú ý vào thông tin đối số (argument information), đối số của sự kiện ví dụ như “He” (vai trò = Person) “hospital” (vai trò = Place) khi phát hiện yếu tố kích hoạt sự kiện [80].

2.3. Mơ hình đề xuất

Đầu tiên, mơ hình gốc match-LSTM [4] được áp dụng vào bài toán lựa chọn câu trả lời. Sau đó, cơ chế chú ý có giám sát được đề xuất tích hợp vào mơ hình match-LSTM để hướng dẫn mơ hình học trọng số chú ý của từng từ trong câu

trả lời với các từ trong câu hỏi tốt hơn so với mơ hình gốc. 2.3.1. Mơ hình match-LSTM 1 1 … … … … … prediction Question Answer Attention-weighted Question mLSTM

Hình 2.3: Mơ hình match-LSTM [4] cho bài tốn lựa chọn câu trả lời

Hình 2.3 mơ tả mơ hình match-LSTM gốc [4]. Mơ hình này được đề xuất cho bài tốn suy diễn ngơn ngữ tự nhiên. Mơ hình này được áp dụng trực tiếp sang bài toán lựa chọn câu trả lời với 3 đường LSTM: Một đường LSTM cho câu hỏi; một đường LSTM cho câu trả lời và đường thứ 3 gọi là mLSTM. Đường mLSTM để học cách gióng từ một cách trực tiếp giữa các từ trong câu trả lời với các từ trong câu hỏi (hình 2.3).

Kí hiệu: Xq = (xq 1,xq 2, ...,xq M) và Xt = (xt 1,xt 2, ...,xt

N) là cặp câu hỏi và câu trả lời tương ứng. Trong đó, xi là véc tơ từ nhúng có số chiều là d của từ thứ i tương ứng trong câu. Mục tiêu của của bài toán là tiến hành đự đoán nhãn y chỉ mối quan hệ của cặp câu hỏi Xq và câu trả lời Xt. Nếu câu trả lời là câu trả lời tích cực và có liên quan tới câu hỏi có nhãn là1, ngược lại câu trả lời không liên quan tới câu hỏi hoặc những phản hồi tiêu cực có nhãn là 0.

Đầu tiên, hai mạng LSTM được sử dụng để xử lý các từ trong câu hỏi và câu trả lời.hq vàht là các véc tơ ẩn tương ứng của đường LSTM thứ nhất (ứng với câu hỏi) và đường LSTM thứ 2 (ứng với câu trả lời).

Tiếp theo, véc tơ trọng số chú ý ak được tạo ra theo các công thức sau: ekj =we.tanh(Wqhq j+Wtht k +Wmhm k−1) (2.1) αkj = PMexp(ekj) j′=1exp(ekj′) (2.2) ak = M X j=1 αkjhq j, (2.3)

trong đó ’.’ là phép nhân tích vơ hướng hai véc tơ, véc tơ we ∈ Rd và các ma trận W∗

∈Rd∗d là các trọng số được học bởi mơ hình. hq

j là véc tơ của từ thứ j trong câu hỏi q của mơ hình LSTM, ht

k là véc tơ ẩn của từ thứ k trong câu trả lời và hm

k−1 là véc tơ ẩn tại bước k−1 của mơ hình mLSTM. Đường mLSTM

thể hiện sự tương tác giữa câu hỏi và câu trả lời được giải thích bên dưới. Các véc tơ ẩnh đều có số chiều là d. Giá trị αkj được tạo ra qua việc chuẩn hóa bởi hàm sof tmax các giá trị ekj và là trọng số chú ý của từ thứ k trong câu trả lời với từ thứ j của câu hỏi.

Đầu vào của mạng mLSTM tạo ra bằng cách nối hai véc tơ ak (là véc tơ chú ý của từ thứ k của câu trả lời với các từ của câu hỏi) với ht

k (là véc tơ ẩn tại

bước thứ k trong mơ hình LSTM của câu trả lời). Đường mLSTM có thể học

được cách qn những thơng tin khơng quan trọng và nhớ những thông tin cần thiết trong sự tương tác của câu hỏi và câu trả lời. Trong bài báo gốc, véc tơ ẩn cuối cùng hm

N được dùng để dự đốn. Cơng thức tương ứng của mLSTM cụ thể

như sau: mk = " ak ht k # (2.4) im k =σ(Wmimk +Vmihm k−1+bmi ), fm k =σ(Wmfmk+Vmfhm k−1+bmf ), om k =σ(Wmomk+Vmohm k−1+bmo ), cm k =fm k ⊙cm k−1+im k ⊙tanh(Wmcmk+Vmchm k−1+bmc ), hm k =om k ⊙tanh(cm k ), (2.5) 2.3.2. Mở rộng mơ hình

… … … … … Question Answer Attention-weighted Question mLSTM Average pooling Max pooling … Prediction Supervised Attention Intuitive attetntion weights gkj Attention weights αkj Loss Supervised Loss Loss model Loss function Model

Hình 2.4: Mơ hình mở rộng từ mơ hình match-LSTM cho bài tốn lựa chọn câu trả lời

lời. Sau đó, mơ hình được mở rộng như sau ( hình 2.4):

• Đầu tiên, mơ hình biLSTM (Bidirectional LSTM) được sử dụng để học ra biểu diễn của từ ở mức độ kí tự. Sau đó, véc tơ này được nối với véc tơ từ nhúng Glove làm đầu vào của mơ hình. Từ nhúng được học ở mức độ kí tự đã được chứng minh là học ra được biểu diễn từ nhúng có ý nghĩa cho cả ngơn ngữ hình thức và khơng hình thức [81, 82]. Trong CQA, ngơn ngữ sử dụng thông thường là ngôn ngữ theo kiểu văn nói, khơng hình thức. Trong đó, câu có thể chứa các từ viết tắt, lỗi chính tả, biểu tượng cảm xúc, và lỗi cú pháp. Sử dụng thêm từ nhúng ở mức kí tự có thể giúp làm giảm ảnh hưởng của hiện tượng OOV (Out of Vocabulary, trong tập test có thể có những từ khơng có trong bộ từ vựng của tập huấn luyện). Biểu diễn này mang lại hiệu quả với những tập dữ liệu nhỏ mà số lượng từ khơng có trong tập từ điển lớn như tập SemEval. Để đạt được ngữ cảnh theo trình tự xi và ngược của từ, mơ hình biLSTM được sử dụng để học ra biểu diễn của từ. Các nghiên cứu [81, 82] cũng chỉ ra rằng sử dụng từ nhúng ở mức độ kí tự cũng làm tăng hiệu năng của mơ hình.

• Thứ hai, thay vì chỉ sử dụng véc tơ ẩn cuối cùng của đường mLSTM để dự đoán, hai phép toán lấy Max-pooling và Average-pooling của tất cả các véc tơ ẩn của mLSTM được sử dụng để tổng hợp thơng tin của mơ hình. Tiếp theo, véc tơ Max-pooling và Average-pooling được nối với nhau để đưa vào

dự đoán.

Hàm loss−f unction của mơ hình gốc và mơ hình nâng cao sử dụng hàm cross-entropy như sau:

Lmodel =−S1 X

(ylogby+ (1−y)log(1−by)) + γ

2S||W||2

2, (2.6)

trong đóSlà số lượng các cặp câu hỏi và câu trả lời của tập huấn luyện, γ là

tham số điều chỉnh,W là ma trận các tham số của mơ hình match-LSTM.

• Cuối cùng, cơ chế chú ý có giám sát được tích hợp vào mơ hình mở rộng với mục đích học ra gióng các từ trong câu trả lời với các từ trong câu hỏi mang nhiều ý nghĩa hơn. Mơ tả chi tiết được trình bày mục 2.3.3 dưới đây.

2.3.3. Cơ chế chú ý có giám sát

gkj là kí hiệu trọng số chú ý đích để hướng dẫn mơ hình học theo. gkj là tri thức từ bên ngoài. Giá trị này là trọng số chú ý của từ thứk của câu trả lời với từ thứ j của câu hỏi mà mơ hình mong muốn đạt tới, trong đó Pjgkj = 1. Sự sai khác giữa trọng số chú ý mà mơ hình mở rộng hướng tớigkj với trọng số αkj của mơ hình học được theo trong cơng thức 2.2 như sau:

Lsupervised = 1 S S X 1 ( N X k=1 M X j=1 (gkj −αkj)2) (2.7)

Sau đó, hàm mất mát (2.6) và (2.7) được kết hợp vào mơ hình mở rộng như sau:

L=Lmodel+λLsupervised, (2.8) trong đó S là số cặp câu hỏi và câu trả lời,λ là hệ số được điều chỉnh để điều khiển sự ảnh hưởng của các mơ hình khác khau.

Một cách trực giác, chúng ta mong muốn các từ gần nhau về mặt ngữ nghĩa sẽ được gióng phù hợp với nhau trong mơ hình đề xuất.

Để tính trọng số gkj, hàm tính độ tương tự cosin được sử dụng. Véc tơ biểu

diễn từ được học từ mơ hình fastText [35] trên tập dữ liệu hỏi đáp cộng đồng SemEval 2016 và SemEval 2017 ngôn ngữ tiếng Anh khơng gán nhãn. fastText là mơ hình học biểu diễn từ qua việc tổng hợp từ các véc tơ n-gram kí tự, trong đó mỗi từ được biểu diễn qua túi n-gram kí tự (ví dụ từ ’where’ biểu diễn qua

Bảng 2.1: Bảng thống kê số cặp câu hỏi-câu trả lời trong tập dữ liệu SemEval CQA.

SemEval 2016 SemEval 2017

Train 36.198 39.468

Dev 2.440 3.270

Test 3.270 2.930

Độ dài trung bình của phần nội dung câu hỏi 49.4 45.8

Độ dài trung bình của câu trả lời 38.8 38.0

Kích thước từ điển 61.271 63.758

3-gram là ’<wh’, ’whe’, ’her’, ’ere’, ’re>’). Phương pháp biểu diễn này là biểu diễn hiệu quả với tập dữ liệu có nhiều từ khơng có trong tập từ vựng.

Sau đó, trọng số tf.idf được thêm vào cơng thức tính gkj để nhấn mạnh các từ chứa nội dung trong câu. Công thức cụ thể như sau:

g′kj =tf.idf(wq j)cosine(wt k,wq j), (2.9) trong đó wt k vàwq

j là các véc tơ từ học từ mơ hình fastText. Để tính trọng số tf.idf, mỗi văn bản là câu hỏi hoặc câu trả lời trên tập dữ liệu không gán nhãn. Từ đặc biệt < eos > được thêm vào cuối câu hỏi và câu trả lời với mục đích để các từ không chứa nội dung quan trọng trong câu sẽ ánh xạ vào từ đặc biệt này.

Cuối cùng trọng số gkj được chuẩn hóa sử dụng hàm softmax: gkj = PMexp(gkj)

i=1exp(g′

ki), (2.10)

trong đók = 1..N, j = 1..M, M là số từ của câu hỏi, N là số từ trong câu trả lời.

2.4. Các thử nghiệm và kết quả 2.4.1. Tập dữ liệu

Tập dữ liệu SemEval có nhãn [21, 20] được sử dụng để đánh giá mơ hình. Dữ liệu trên tập này được lấy từ forum Qatar Living về các chủ đề dành cho những người nước ngoài đã và sẽ tới Qatar. Tập dữ liệu này được chia thành 3 tập: tập huấn luyện, tập phát triển và tập kiểm thử. Bảng 2.1 là dữ liệu thống kê trên tập dữ liệu này.

Ngồi ra tập dữ liệu khơng có nhãn được cung cấp bởi cuộc thi Sememval 20171 bao gồm 189.941 câu hỏi và 1.894.456 câu trả lời với kích thước từ điển là

63.758 từ được dùng để huấn luyện các từ nhúng Word2vec, Glove và fastText sử dụng thử nghiệm trong mơ hình.

Độ đo MAP(Mean Average Precision) và MRR (Mean Reciprocal Rank) được sử dụng để đánh giá hiệu năng của mơ hình với kịch bản được cung cấp bởi cuộc thi SemEval2.

MRR được tính theo cơng thức sau: M RR= 1 |Q| |Q| X i=1 1 ranki, (2.11)

trong đóranki là vị trí của câu trả lời đúng đầu tiên tương ứng với câu hỏi thứ i. Trong khi độ đo MRR đo thứ hạng của câu trả lời đúng đầu tiên thì MAP lại xem xét tất cả thứ hạng của câu trả lời đúng. MAP được tính như sau:

M AP = 1 |Q| |Q| X j=1 1 mj |mj| X k=1 P recision(Rjk), (2.12)

trong đó Rjk là tập kết quả tìm kiếm được xếp hạng từ kết quả tốt nhất cho đến khi tìm thấy câu trả lời thứ k, mj là số câu trả lời đúng cho câu hỏi thứ j trong số Q câu hỏi.

Các nghiên cứu về cơ chế chú ý có giám sát trong bài tốn NLP

Ví dụ hỏi đáp trên Yahoo!answer

Kiến trúc của hệ thống CQA[1]