Biểu diễn câu

Một phần của tài liệu Luận văn Thạc sĩ Nghiên cứu một số bài toán trong hỏi đáp cộng đồng (Trang 75)

3.3. Mơ hình tóm tắt câu trả lời cho các câu hỏi non-factoid

3.3.1. Biểu diễn câu

Mạng nơ ron học sâu là kỹ thuật hiệu quả trong việc sinh ra biểu diễn câu mà chứa thông tin về ngữ nghĩa và cú pháp của câu trong một khơng gian có số chiều thấp. Trong phần này, hai mơ hình học sâu khơng giám sát Auto-Encoder (AE) [90] và LSTM-AE [89] được đề xuất để học biểu diễn câu:

Mơ hình Auto-Encoder

Mơ hình mạng nơ ron Auto-Encoder [90] là một mơ hình sinh tạo ra một thơng tin mã hóa mà từ thơng tin này có thế khơi phục lại thơng tin gốc ban đầu. Mơ hình gồm ba phần chính: Mã hóa (Encoder), lớp ẩn và giải mã (Decoder). Phần mã hóa nhận dữ liệu đầu vào n và tạo ra véc tơ trong không gian ẩn m chiều. Thông thường m < n với mục đích học ra biểu diễn véc tơ trong không gian với số chiều nhỏ hơn. Phần giải mã nhận đầu vào là véc tơ ẩn m chiều (là đầu ra của lớp mã hóa) và mục đích thực hiện khơi phục lại véc tơ dữ liệu n chiều ban đầu. Véc tơ ẩn học được mong muốn lưu giữ thông tin quan trọng của dữ liệu đầu vào. Dữ liệu này được sử dụng tính tốn trên bài tốn khác giúp giảm khơng gian lưu trữ và tính tốn nhanh hơn.

Mơ hình AE 4 lớp được đề xuất sử dụng trong bài tốn tóm tắt câu trả lời được mơ tả tại hình 3.3 như sau:

h1=σ(W1.x), (3.1) h2 =σ(W2.h1), (3.2) h3 =σ(W3.h2), (3.3) h=σ(W4.h3), (3.4) trong đó, x ∈ Rn, W1 ∈ Rm1.n, W2 ∈ Rm2.m1, W3 ∈ Rm3.m2, W4 ∈ Rm.m3 h1∈Rm1, h2 ∈Rm2, h3∈Rm3, h∈Rm, σ là hàm sigmoid σ(x) = exe+1x

Đầu vào của mơ hình là véc tơ của câu x sử dụng trọng số tf.idf. Trọng số tf.idf của một từ t trong câu s như sau:

tf.idf(t, s, D) =tf(t, s).idf(t, D), (3.5)

tf = f(t, s)

Hình 3.3: Mơ hình Auto-Encoder,h(khối màu đỏ) được dùng làm véc tơ biểu diễn câu

trong đó: f(t, s): là số lần xuất hiện từ t trong câu s, max(f(w, s)) là tần số lớn nhất của một từ trong câu s,

idf(t, D) = log |D|

|s∈D:t∈s|, (3.7)

trong đó |D| là tổng số câu trong tập dữ liệu,|s ∈D :t ∈s| là số câu mà chứa từ t trong toàn bộ tập dữ liệu.

Véc tơ x lúc đầu là thưa bởi vì câu chứa một lượng nhỏ các từ trong khi số chiều của nó có kích thước bằng số lượng từ trong bộ từ điển. Mơ hình AE có thể học ra biểu diễn ngữ nghĩa với số chiều thấp. Lớp h ở công thức 3.4 được sử dụng cho biểu diễn câu. Công thức giải mã như sau:

h′ 3 =σ(W′ 4.h), (3.8) h′ 2 =σ(W′ 3.h′ 3), (3.9) h′ 1 =σ(W′ 2.h′ 2), (3.10) x′ =σ(W′ 1.h′ 1), (3.11) trong đó: x′ ∈ Rn, W′ 1 ∈ Rn.m1, W′ 2 ∈ Rm1.m2, W′ 3 ∈ Rm2.m3, W′ 4 ∈ Rm3.m h′ 1∈Rm1, h′ 2 ∈Rm2, h′ 3∈Rm3, h∈Rm.

Hàm mất mát của mơ hình AE có cơng thức như sau: J(x,x′ ) = kx−x′ k= S X 1 n X i=1 (xi−x′i)2, (3.12)

Softmax Decoder

Encoder

Fruit yogurt smoothies are always good <oes>

x σ et σ tanh x σ + x tanh ht ft it lt ot ct-1 ct ht-1 ht <oes> good always are smoothies yogurt fruit

Hình 3.4: Mơ hình Long-short-term-memory Auto-Encoder: Lớp mã hóa LSTM cuối cùng (nút màu đỏ) được dùng làm véc tơ biểu diễn câu.

Mơ hình LSTM-AE

Do mơ hình AE khơng đạt được thơng tin về mặt cú pháp của câu vì khơng đưa trật tự của từ trong câu vào trong mơ hình cho nên mơ hình LSTM-AE (hình 3.4) được đề xuất để học biểu diễn câu. Mơ hình này được giới thiệu đầu tiên trong bài báo của Li và cộng sự [89] dùng để biểu diễn đoạn văn qua biểu diễn câu và biểu diễn từ. Phương pháp này sinh ra biểu diễn câu dùng phương pháp không giám sát mà đạt được cả thơng tin cú pháp thơng qua trình tự từ và thông tin ngữ nghĩa qua biểu diễn từ trong câu.

Cũng giống như mơ hình AE, mơ hình LSTM-AE cũng có ba phần: phần mã hóa, phần biểu diễn và phần giải mã. Phần mã hóa và giải mã được tính theo công thức dưới đây:

ht(enc) = LST Mencodeword (et,ht−1(enc)) (3.13)

hends được sử dụng để biểu diễn câu đầu vào của thuật tốn tóm tắt:

es =hends (3.14) h′ t(dec) = LST Mdecode(e′ t−1,h′ t−1(dec)) (3.15)

Phần giải mã tiến hành dự đoán tuần tự các từ của câu đầu vào qua việc sử dụng hàm softmax. P(x′t|) = sof tmax(e′ t−1,h′ t(dec)), (3.16) e′

t là véc tơ từ ở vị trí thứ t và được sinh ra bởi LST Mdecode. Lớp mã hóa và lớp

giải mã sử dụng hai mơ hình LSTM khác nhau với các tập tham số khác nhau. Cơng thức hàm mất mát của mơ hình như sau:

J(X, X′) = 1 S S X 1 (1 T T X t=1 Jt), (3.17)

trong đó Jt là hàm Cross−entropy của từ thứ t trong câu, T là số từ trong câu, S là số câu trong tập huấn luyện.

Mơ hình LSTM tại bước thứ t được định nghĩa như sau:

      it ft ot lt       =       σ σ σ tanh       W. " ht−1 et # (3.18) ct =ft.ct−1+it.lt (3.19) ht =ot⊚tanh(ct) (3.20) 3.3.2. Trích rút tóm tắt

Thuật tốn MMR được sử dụng để trích rút các câu trong đoạn tóm tắt (thuật tốn 3.1) được đề xuất bởi Carbonell và cộng sự [91]. Thuật tốn này giúp tính độ quan trọng của từng câu s với câu hỏi q và lựa chọn một tập các câu chứa nội dung quan trọng mà không bị chồng chéo về mặt nội dung dùng làm tập tóm tắt. Đầu vào là tập các câu được tách ra từ các câu trả lời và đầu ra là tập con các câu được sắp xếp theo mức độ nổi bật liên quan về ngữ nghĩa với câu hỏi. Câu được chọn làm câu tóm tắt là câu mà độ đo tương đồng ngữ nghĩa với câu hỏi cao nhưng lại là câu có độ tương đồng cực tiểu với các câu đã được chọn làm tóm tắt ở bước trước.

Thuật toán này là thuật toán tham lam mà từng bước chọn ra một câu đưa vào tập tóm tắt qua việc cực đại hóa hàm kết hợp tuyến tính ở dịng 3 của thuật tốn. Cơng thức tại dịng thứ 3 của thuật tốn giúp lựa chọn câu s để đưa vào tập tóm tắt R sao cho thỏa mãn câu s tương đồng nhất với câu truy vấn q mà

Thuật toán 3.1Maximal marginal relevance (MMR)

Đầu vào:qlà biểu diễn của câu hỏi,S là tập các câu được tách ra từ các câu trả lời,Llà độ dài tối đa của đoạn tóm tắt.

Đầu ra: tập tóm tắtR⊂S

Khởi tạo:R=∅; Danh sách các câu được sắp xếp;

1: repeat

2: Tìm một câusbằng thuật tốn MMR với siêu tham số0≤κ≤1, sao cho thỏa mãn công thức:

3: s= arg maxs∈S/R(κ.sim(s,q)−(1−κ).maxs′∈Rsim(s,s′)

4: R=R∪s;

5: until|R|> L;

6: returnR;

lại không trùng lặp về nội dung với các câu đã chọn trong tập tóm tắt R. Siêu tham số κ của thuật tốn nhận giá trị trong [0,1] để quyết định việc đóng góp giữa hai độ đo (nếu κ = 1 thì việc lựa chọn câu tóm tắt chỉ phụ thuộc vào độ tương đồng lớn nhất giữa câu đó với câu hỏi).sim(s,q) và sim(s,s′)là độ tương tự giữa câu hỏi q với s và độ tương tự của câu hỏi s với s′, qlà câu hỏi, S là tập các câu trong các câu trả lời. L là độ dài của đoạn tóm tắt. R là tập các câu trong đoạn tóm tắt. Độ tương tự của hai câu được tính bằng độ tương tự cosin:

sim(s1,s2) = s1.s2

ks1k.ks2k (3.21)

3.4. Đánh giá mơ hình 3.4.1. Tập dữ liệu

Tập dữ liệu L6 - Yahoo! Answers Comprehensive Questions and Answers 4

từ Yahoo-Webscope được sử dụng để học biểu diễn câu bằng phương pháp học không giám sát (tập dữ liệu được thống kê trong bảng 3.1)

Bảng 3.1: Tập dữ liệu Yahoo Webscope.

Thống kê Số lượng

Số lượng câu hỏi 87.390

Số lượng câu trả lời 314.446 Số lượng câu được tách từ các câu trả lời 1.662.497

Tập kiểm thử được thực hiện tóm tắt bằng tay do con người thực hiện với độ dài tối đa là 250 từ (chi tiết được thống kê trong bảng 3.2).

4

Bảng 3.2: Tập test đánh giá thuật tốn tóm tắt câu trả lời.

Thống kê Số lượng

Số lượng câu hỏi Non-factoid 100

Số lượng câu trả lời 361

Số lượng câu tách ra từ các câu trả lời 2.793

Số lượng từ 59.321

Số lượng tóm tắt bằng tay 275

Số lượng trung bình đoạn tóm tắt trên mỗi câu hỏi 2,75

3.4.2. Thiết lập thử nghiệm

Đối với mơ hình Auto-Encoder, đầu vào là véc tơ có số chiều bằng kích thước của tập từ vựng và sử dụng trọng sốtf.idf. Tập từ vựng được tạo ra bằng cách chuyển các từ sang viết thường, loại bỏ từ dừng và những từ hiếm (có số lần xuất hiện dưới 10 lần), đưa từ về dạng gốc và chuẩn hóa số. Mơ hình AE có 4 lớp mã hóa và 4 lớp giải mã (hình 3.3). Véc tơ h với số chiều là 100 được dùng làm biểu diễn câu. Các tham số trong thuật toán tối ưu Adam [102] được chọn như sau: tốc độ học η = 0,001, kích thước mỗi lô (batch size) là 128 câu, số epoch là 20. Mơ hình được huấn luyện trên tập Yahoo-webscope với thời gian là 8 giờ trên máy tính với CPU 20 core.

Từ được biểu diễn bởi Word2vec5 có kích thước là 300 được đưa vào LSTM- AE. Khi một từ khơng có trong bộ từ điển được huấn luyện trước, nó được lấy mẫu qua phân phối chuẩn. Các dấu câu như dấu phẩy, dấu hai chấm được chuyển thành < dot >. Dấu hiệu kết thúc câu được chuyển thành < eos >. Các siêu tham số trong mơ hình LSTM-AE được chọn như sau: tốc độ họcη = 0.001, kích thước mỗi lơ là 128, số epoch là 20. Thời gian huấn luyện mơ hình trên tập Yahoo-webscope mất 3 tuần với máy tính CPU 20 core. Cả mơ hình AE và LSTM-AE đều được thực hiện trên Tensorflow.

3.4.3. Kết quả thực nghiệm

Độ đo ROUGE [103] được sử dụng để đánh giá mơ hình tóm tắt:

Độ đo Rouge−N là tỉ lệ của số n−Gram trùng nhau giữa đoạn tóm tắt do mơ hình dự đốn với số n−Gram của đoạn tóm tắt do con người thực hiện.

Rouge−L= LCS(X, Y)

m , (3.22)

trong đó LCS(X, Y) là độ dài dãy con chung lớn nhất của X và Y, X là đoạn

tóm tắt do con người tóm tắt, Y là đoạn tóm tắt do mơ hình dự đốn, m là chiều dài của X.

Trước tiên, mơ hình tóm tắt được đánh giá trên hai mơ hình biểu diễn câu: biểu diễn câu qua trọng sốtf.idf và lấy trung bình các véc tơ từ dùng Word2vec (bảng 3.3).

Bảng 3.3: Kết quả tóm tắt trên hai mơ hình cơ bản.

Word2Vec Tfidf

κ Rouge-1 Rouge-2 Rouge-L Rouge-1 Rouge-2 Rouge-L

0,1 0,621 0,529 0,607 0,532 0,282 0,464 0,2 0,619 0,524 0,606 0,531 0,282 0,463 0,3 0,618 0,523 0,605 0,532 0,281 0,464 0,4 0,615 0,518 0,600 0,530 0,279 0,467 0,5 0,622 0,525 0,604 0,529 0,279 0,464 0,6 0,614 0,513 0,605 0,528 0,278 0,467 0,7 0,610 0,507 0,607 0,529 0,280 0,489 0,8 0,609 0,504 0,610 0,530 0,285 0,488 0,9 0,611 0,505 0,603 0,532 0,288 0,488 1,0 0,608 0,501 0,601 0,532 0,289 0,489

Để lựa chọn kiến trúc của mơ hình AE như mơ tả trên, kịch bản kiểm thử với một lớp mã hóa - giải mã với số chiều giảm về 1000 chiều, AE hai lớp mã hóa - giải mã với số chiều giảm về 400 chiều, mơ hình AE ba lớp mã hóa - giải mã với số chiều giảm về 300 chiều và AE 4 lớp mã hóa - giải mã với số chiều giảm về 100 chiều được tiến hành. Kết quả được thực hiện với tham số κ = 0.3 trên bảng 3.4.

Bảng 3.4: Kết quả tóm tắt khi sử dụng mơ hình AE biểu diễn câu với trong trường hợp số lớp mã hóa-giải mã khác nhau với số chiều khác nhau

Rouge-1 Rouge-2 Rouge-L

AE-1000 chiều 0,670 0,561 0,711 AE-400 chiều 0,682 0,597 0,715 AE-300 chiều 0,669 0,601 0,714

AE-100 chiều 0,762 0,622 0,730

Sau đó, mơ hình AE, LSTM-AE và mơ hình kết hợp hai biểu diễn từ hai mơ hình trên bằng cách nối hai biểu diễn từ mơ hình AE và LSTM-AE của câu (tạm gọi CONCATE) được đánh giá qua hình 3.5. Kết quả được đánh giá qua

các tham số κ khác nhau của thuật tốn MMR. Trong hình 3.5, trục tung mơ

tả độ đo ROUGE, trục hoành biểu diễn tham số κ.

Tiếp theo, κ = 0.3 được chọn đại diện cho mơ hình để so sánh với các mơ hình khác (bảng 3.5).

Độ tương đồng ngữ nghĩa của hai câu cũng được thử nghiệm qua việc kết hợp tuyến tính độ tương tựcosincủa hai biểu diễn của hai mơ hình AE và LSTM-AE với cơng thức như sau:

sim(s1, s2) =α.simAE(s1, s2) + (1−α).simLST M−AE(s1, s2), (3.23) trong đó α là siêu tham số chỉ mức độ ảnh hưởng của hai độ đo. Kết quả được trình bày ở bảng 3.6.

Hình 3.5: Độ đo ROUGE trên các tham sốκkhác nhau trong thuật toán MMR.

Bảng 3.5: Bảng so sánh hiệu năng của mơ hình LSTM-AE với các mơ hình khác.

Method Rouge-1 Rouge-2 Rouge-L

BestAns 0,473 0,390 0,463

DOC2VEC + sparse coding 0,753 0,678 0,750

CNN + document expansion + sparse coding + MMR 0,766 0,646 0,753

LSTM-AE 0,766 0,653 0,759

Như mong đợi, kết quả ở bảng 3.3 cho thấy rằng, mơ hình Word2vec cho kết quả cao hơn hẳn mơ hìnhtf.idf nhờ vào thơng tin ngữ nghĩa của từ với số chiều thấp (bảng 3.3). Nhưng kết quả tóm tắt ở cả ba độ đo Rouge-1, Rouge-2 và Rouge-L của mơ hình Word2vec ở bảng 3.3 thấp hơn các mơ hình AE, LSTM- AE và mơ hình CONCATE (hình 3.5). Lý do là bởi vì mơ hình Word2vec là thực hiện qua việc lấy trung bình các trọng số của véc tơ biểu diễn từ. Cách làm này không khai thác được trật tự các từ trong câu cũng như sự tương tác của các từ trong ngữ cảnh cụ thể. Trong khi đó các mơ hình AE và LSTM-AE

học ra véc tơ biểu diễn câu từ dữ liệu CQA. Với κ < 0,5 mơ hình LSTM-AE có hiệu năng lớn hơn mơ hình AE trên tất cả độ đo ROUGE-1, ROUGE-2 và ROUGE-L. Nhưng khi κ > 0,5 thì mơ hình AE lại tốt hơn LSTM-AE trên độ

đo ROUGE-1 và ROUGE-2. Điều này có thể do khi κ lớn thì mơ hình thiên về

độ đa dạng hơn về độ liên quan. Nhìn chung, kết quả của mơ hình LSTM-AE cho thấy rằng mơ hình này là lựa chọn tốt hơn sử dụng để học biểu diễn câu với bài tốn tóm tắt. Mơ hình CONCATE về cơ bản mang lại hiệu quả không đáng kể. Do vậy, mơ hình LSTM-AE được chọn để tiến hành so sánh hiệu năng tóm tắt câu trả lời với các mơ hình hiện đại khác.

Bảng 3.5 so sánh hiệu năng của mơ hình LSTM-AE với các mơ hình khác đã được đề xuất trong các nghiên cứu trước đó trong nghiên cứu của Song [87] với κ= 0,3. Mơ hình biểu diễn DOC2VEC [101] sử dụng véc tơ biểu diễn đoạn để sinh ra biểu diễn câu kết hợp với mã thưa để tìm ra câu nổi bật. Tuy nhiên, phương pháp này không rõ ràng trong trường hợp véc tơ biểu diễn đoạn và véc tơ biểu diễn câu được lấy như thế nào. Trong khi đó mơ hình CNN học ra biểu diễn câu từ dữ liệu có nhãn. Nhãn ở đây là câu đó có thuộc đoạn tóm tắt hay khơng. Hơn nữa mơ hình được đề xuất bởi Song còn sử dụng tri thức từ bên ngoài (sử dụng nguồn Wikipedia) để làm giàu ngữ nghĩa cho văn bản ngắn. Các câu được biểu diễn trong không gian số chiều thấp là đầu vào của mã thưa và cuối cùng dùng thuật tốn MMR để trích rút các câu tóm tắt. Câu trả lời tốt nhất cũng được lựa chọn để đem ra so sánh với các mơ hình tóm tắt để thấy

Một phần của tài liệu Luận văn Thạc sĩ Nghiên cứu một số bài toán trong hỏi đáp cộng đồng (Trang 75)

Tải bản đầy đủ (PDF)

(128 trang)