Độ đo ROUGE [103] được sử dụng để đánh giá mô hình tóm tắt:
Độ đo Rouge−N là tỉ lệ của số n−Gram trùng nhau giữa đoạn tóm tắt do mô hình dự đoán với số n−Gram của đoạn tóm tắt do con người thực hiện.
Rouge−L= LCS(X, Y)
m , (3.22)
trong đó LCS(X, Y) là độ dài dãy con chung lớn nhất của X và Y, X là đoạn 5https://github.com/mmihaltz/word2vec
tóm tắt do con người tóm tắt, Y là đoạn tóm tắt do mô hình dự đoán, m là chiều dài của X.
Trước tiên, mô hình tóm tắt được đánh giá trên hai mô hình biểu diễn câu: biểu diễn câu qua trọng sốtf.idf và lấy trung bình các véc tơ từ dùng Word2vec (bảng 3.3).
Bảng 3.3: Kết quả tóm tắt trên hai mô hình cơ bản.
Word2Vec Tfidf
κ Rouge-1 Rouge-2 Rouge-L Rouge-1 Rouge-2 Rouge-L
0,1 0,621 0,529 0,607 0,532 0,282 0,464 0,2 0,619 0,524 0,606 0,531 0,282 0,463 0,3 0,618 0,523 0,605 0,532 0,281 0,464 0,4 0,615 0,518 0,600 0,530 0,279 0,467 0,5 0,622 0,525 0,604 0,529 0,279 0,464 0,6 0,614 0,513 0,605 0,528 0,278 0,467 0,7 0,610 0,507 0,607 0,529 0,280 0,489 0,8 0,609 0,504 0,610 0,530 0,285 0,488 0,9 0,611 0,505 0,603 0,532 0,288 0,488 1,0 0,608 0,501 0,601 0,532 0,289 0,489
Để lựa chọn kiến trúc của mô hình AE như mô tả trên, kịch bản kiểm thử với một lớp mã hóa - giải mã với số chiều giảm về 1000 chiều, AE hai lớp mã hóa - giải mã với số chiều giảm về 400 chiều, mô hình AE ba lớp mã hóa - giải mã với số chiều giảm về 300 chiều và AE 4 lớp mã hóa - giải mã với số chiều giảm về 100 chiều được tiến hành. Kết quả được thực hiện với tham số κ = 0.3 trên bảng 3.4.
Bảng 3.4: Kết quả tóm tắt khi sử dụng mô hình AE biểu diễn câu với trong trường hợp số lớp mã hóa-giải mã khác nhau với số chiều khác nhau
Rouge-1 Rouge-2 Rouge-L
AE-1000 chiều 0,670 0,561 0,711 AE-400 chiều 0,682 0,597 0,715 AE-300 chiều 0,669 0,601 0,714
AE-100 chiều 0,762 0,622 0,730
Sau đó, mô hình AE, LSTM-AE và mô hình kết hợp hai biểu diễn từ hai mô hình trên bằng cách nối hai biểu diễn từ mô hình AE và LSTM-AE của câu (tạm gọi CONCATE) được đánh giá qua hình 3.5. Kết quả được đánh giá qua
các tham số κ khác nhau của thuật toán MMR. Trong hình 3.5, trục tung mô
tả độ đo ROUGE, trục hoành biểu diễn tham số κ.
Tiếp theo, κ = 0.3 được chọn đại diện cho mô hình để so sánh với các mô hình khác (bảng 3.5).
Độ tương đồng ngữ nghĩa của hai câu cũng được thử nghiệm qua việc kết hợp tuyến tính độ tương tựcosincủa hai biểu diễn của hai mô hình AE và LSTM-AE với công thức như sau:
sim(s1, s2) =α.simAE(s1, s2) + (1−α).simLST M−AE(s1, s2), (3.23) trong đó α là siêu tham số chỉ mức độ ảnh hưởng của hai độ đo. Kết quả được trình bày ở bảng 3.6.
Hình 3.5: Độ đo ROUGE trên các tham sốκkhác nhau trong thuật toán MMR.
Bảng 3.5: Bảng so sánh hiệu năng của mô hình LSTM-AE với các mô hình khác.
Method Rouge-1 Rouge-2 Rouge-L
BestAns 0,473 0,390 0,463
DOC2VEC + sparse coding 0,753 0,678 0,750
CNN + document expansion + sparse coding + MMR 0,766 0,646 0,753
LSTM-AE 0,766 0,653 0,759
Như mong đợi, kết quả ở bảng 3.3 cho thấy rằng, mô hình Word2vec cho kết quả cao hơn hẳn mô hìnhtf.idf nhờ vào thông tin ngữ nghĩa của từ với số chiều thấp (bảng 3.3). Nhưng kết quả tóm tắt ở cả ba độ đo Rouge-1, Rouge-2 và Rouge-L của mô hình Word2vec ở bảng 3.3 thấp hơn các mô hình AE, LSTM- AE và mô hình CONCATE (hình 3.5). Lý do là bởi vì mô hình Word2vec là thực hiện qua việc lấy trung bình các trọng số của véc tơ biểu diễn từ. Cách làm này không khai thác được trật tự các từ trong câu cũng như sự tương tác của các từ trong ngữ cảnh cụ thể. Trong khi đó các mô hình AE và LSTM-AE
học ra véc tơ biểu diễn câu từ dữ liệu CQA. Với κ < 0,5 mô hình LSTM-AE có hiệu năng lớn hơn mô hình AE trên tất cả độ đo ROUGE-1, ROUGE-2 và ROUGE-L. Nhưng khi κ > 0,5 thì mô hình AE lại tốt hơn LSTM-AE trên độ
đo ROUGE-1 và ROUGE-2. Điều này có thể do khi κ lớn thì mô hình thiên về
độ đa dạng hơn về độ liên quan. Nhìn chung, kết quả của mô hình LSTM-AE cho thấy rằng mô hình này là lựa chọn tốt hơn sử dụng để học biểu diễn câu với bài toán tóm tắt. Mô hình CONCATE về cơ bản mang lại hiệu quả không đáng kể. Do vậy, mô hình LSTM-AE được chọn để tiến hành so sánh hiệu năng tóm tắt câu trả lời với các mô hình hiện đại khác.
Bảng 3.5 so sánh hiệu năng của mô hình LSTM-AE với các mô hình khác đã được đề xuất trong các nghiên cứu trước đó trong nghiên cứu của Song [87] với
κ= 0,3. Mô hình biểu diễn DOC2VEC [101] sử dụng véc tơ biểu diễn đoạn để sinh ra biểu diễn câu kết hợp với mã thưa để tìm ra câu nổi bật. Tuy nhiên, phương pháp này không rõ ràng trong trường hợp véc tơ biểu diễn đoạn và véc tơ biểu diễn câu được lấy như thế nào. Trong khi đó mô hình CNN học ra biểu diễn câu từ dữ liệu có nhãn. Nhãn ở đây là câu đó có thuộc đoạn tóm tắt hay không. Hơn nữa mô hình được đề xuất bởi Song còn sử dụng tri thức từ bên ngoài (sử dụng nguồn Wikipedia) để làm giàu ngữ nghĩa cho văn bản ngắn. Các câu được biểu diễn trong không gian số chiều thấp là đầu vào của mã thưa và cuối cùng dùng thuật toán MMR để trích rút các câu tóm tắt. Câu trả lời tốt nhất cũng được lựa chọn để đem ra so sánh với các mô hình tóm tắt để thấy được tầm quan trọng của việc tóm tắt câu trả lời.
Kết quả cho thấy rằng biểu diễn câu sử dụng mô hình không giám sát cho kết quả ngang bằng và thậm chí còn tốt hơn các mô hình có giám sát mà không cần phải sử dụng đến dữ liệu có nhãn và không sử dụng tri thức bên ngoài (bảng 3.5). Mô hình LSTM-AE tốt hơn mô hình DOC2VEC do khi sử dụng mô hình DOC2VEC trên ngữ cảnh là đoạn văn các đặc trưng của đoạn được đưa vào như chỉ số đoạn và cửa sổ mẫu của câu. Nguyên nhân là do mô hình LSTM-AE học được thông tin cú pháp và ngữ nghĩa của câu qua lớp ẩn cuối cùng của mô hình LSTM và sử dụng biểu diễn của lớp này làm biểu diễn câu. Hơn nữa, vì mô hình LSTM-AE được huấn luyện trên tập dữ liệu lớn Yahoo-webscope không gán nhãn từ cộng đồng cho nên nó tận dụng được tri thức của câu trên cùng miền dữ liệu với tập kiểm thử.
Cuối cùng, hai phương pháp kết hợp cũng được đánh giá: Thứ nhất, hai véc tơ biểu diễn của câu từ hai mô hình AE và LSTM-AE được nối lại với nhau
Bảng 3.6: Kết quả tóm tắt khi thực hiện tổng hợp ngữ nghĩa của hai câu qua việc kết hợp tuyến tính hai độ đo tương đồng của cả hai biểu diến AE và LSTM-AE theo công thức 3.23
α Rouge-1 Rouge-2 Rouge-L
0,1 0,771 0,661 0,761 0,2 0,771 0,661 0,760 0,3 0,771 0,661 0,760 0,4 0,770 0,660 0,759 0,5 0,770 0,659 0,759 0,6 0,771 0,658 0,759 0,7 0,772 0,662 0,763 0,8 0,772 0,662 0,763 0,9 0,771 0,660 0,759
thành 1 véc tơ (kết quả như hình 3.5); Thứ hai, kết hợp tuyến tính độ tương đồng ngữ nghĩa của hai câu từ hai biểu diễn véc tơ như công thức 3.23 (kết quả trình bày tại bảng 3.6). Kết quả cho thấy cách kết hợp tuyến tính thứ hai cho kết quả tốt hơn so với nối hai biểu diễn câu thông thường.