Chương 2 CÁC KIẾN THỨC NỀN TẢNG
5.2. Mơ hình tóm tắt đa văn bản hướng trích rút
5.2.4. Thử nghiệm mơ hình và kết quả
5.2.4.1. Dữ liệu thử nghiệm
Mơ hình được thử nghiệm trên tập dữ liệu Main task của bộ dữ liệu DUC 2007 [75] cho tiếng Anh và bộ dữ liệu Corpus_TMV [76] cho tiếng Việt. Việc thử nghiệm mơ hình trên bộ dữ liệu Corpus_TMV để đánh giá hiệu quả mơ hình đề xuất đối với tóm tắt đa văn bản tiếng Việt và đảm bảo tính tổng qt của mơ hình đề xuất đối với tóm tắt văn bản ngơn ngữ khác. Các văn bản trong bộ dữ liệu DUC 2007 được tiền xử lý để tách lấy nội dung, loại bỏ các ký tự đặc biệt, lấy từ gốc, loại bỏ các câu có
số lượng từ quá nhỏ, loại bỏ từ dừng để giảm kích thước của bộ từ vựng nhằm cải thiện chất lượng của bản tóm tắt đầu ra của mơ hình đề xuất. Các văn bản trong bộ dữ liệu Corpus_TMV được xử lý trích xuất từ các tệp tương ứng. Sau đó, xử lý tách câu và đánh số thứ tự cho các câu trong phần nội dung của mỗi văn bản.
5.2.4.2. Cài đặt các tham số
Các tham số sử dụng khi thử nghiệm các mơ hình gồm:
- n_clusters: Số lượng các cụm trong thuật toán phân cụm K-means. Do đặc điểm của các bộ dữ liệu DUC 2007, Corpus_TMV khác nhau nên tham số này được cài đặt với các giá trị khác nhau cho mỗi bộ dữ liệu trong các mơ hình.
- ndim: Số chiều của véc tơ câu.
- : Tham số sử dụng trong phương pháp MMR.
- sent: Giá trị ngưỡng xác định sự giống nhau giữa một câu với véc tơ trung tâm,
được sử dụng trong phương pháp dựa trên trung tâm.
- sim: Giá trị ngưỡng xác định sự giống nhau giữa hai câu, được sử dụng trong
phương pháp dựa trên trung tâm.
- len_sum: Độ dài bản tóm tắt (số câu của bản tóm tắt).
Một yếu tố quan trọng trong thuật toán phân cụm K-means là xác định số lượng các cụm. Đối với bộ dữ liệu DUC 2007, trong mơ hình 1 và 2, số lượng các cụm được lấy bằng số lượng câu trong bản tóm tắt là 13 (do độ dài của bản tóm tắt trong bộ dữ liệu DUC 2007 là xấp xỉ 250 từ, tương đương với 12 đến 13 câu nên số cụm được chọn là 13). Trong mơ hình 3, số cụm được chọn lớn hơn là 21 cụm khi các câu trung tâm của một số cụm sẽ bị loại bỏ bởi phương pháp MMR. Trong mơ hình 4, số cụm được chọn là 50 vì mơ hình đề xuất muốn có nhiều câu được chọn hơn và có các phương pháp để chọn các câu tốt nhất đưa vào bản tóm tắt. Đối với bộ dữ liệu Corpus_TMV, số lượng các cụm được lấy cố định bằng 14 cụm trong cả 4 mơ hình, số câu của bản tóm tắt được lấy là 5 câu (do độ dài bản tóm tắt của bộ dữ liệu Corpus_TMV xấp xỉ 5 câu), còn các tham số khác cũng được cài đặt giống như thử nghiệm mơ hình trên bộ dữ liệu DUC 2007.
Bảng 5.1 dưới đây trình bày giá trị của các tham số sử dụng khi thử nghiệm các mơ hình trên 2 bộ dữ liệu tương ứng.
Mơ hình n_clusters ndim sent sim len_sum Bộ dữ liệu
Mơ hình 1 13 256 - - - 13 DUC 2007 Mơ hình 2 13 256 - - - 13 DUC 2007 Mơ hình 3 21 256 0,6 - - 13 DUC 2007 Mơ hình 4 50 256 0,6 0,3 0,95 13 DUC 2007 Mơ hình 1 14 256 - - - 5 Corpus_TMV Mơ hình 2 14 256 - - - 5 Corpus_TMV Mơ hình 3 14 256 0,6 - - 5 Corpus_TMV Mơ hình 4 14 256 0,6 0,3 0,95 5 Corpus_TMV
Bảng 5.1. Giá trị của các tham số sử dụng khi thử nghiệm các mơ hình. Ký hiệu ‘-‘ biểu diễn mơ hình khơng sử dụng các tham số tương ứng
5.2.4.3. Thiết kế thử nghiệm a) Thử nghiệm các mơ hình xây dựng
Bốn mơ hình đã xây dựng được thử nghiệm trên hai bộ dữ liệu DUC 2007 và Corpus_TMV. Các kết quả thử nghiệm thu được như trong Bảng 5.2 dưới đây.
Mơ hình DUC 2007 Corpus_TMV
R-1 R-2 R-L R-1 R-2 R-L
Mơ hình 1 37,81 7,30 34,61 67,87 44,58 64,55 Mơ hình 2 38,11 7,87 34,87 68,01 44,52 64,89 Mơ hình 3 38,82 8,15 35,53 71,20 46,93 66,97
Mơ hình 4 40,39 9,53 37,05 73,86 48,42 68,09
Bảng 5.2. Kết quả thử nghiệm các mơ hình xây dựng trên hai bộ dữ liệu
Bảng 5.2 cho thấy mơ hình sử dụng đặc trưng vị trí câu (mơ hình 2) tốt hơn mơ hình sử dụng vị trí câu tương đối (mơ hình 1). Ngồi ra, vấn đề quan trọng là loại bỏ thơng tin dư thừa của bản tóm tắt và phương pháp MMR là một giải pháp tốt cho mục đích này. Khi áp dụng phương pháp MMR, kết quả độ đo R-1 của mơ hình 3 tăng lần lượt là 0,71% và 3,19% so với mơ hình 2 tương ứng trên 2 bộ dữ liệu.
Kết quả trong Bảng 5.2 cũng chứng minh rằng phương pháp xử lý thông tin trùng lặp và loại bỏ các câu đại diện cho các cụm mà chứa ít thơng tin hoặc khơng chứa thơng tin (mơ hình 4) đạt hiệu quả cao trong việc cải thiện chất lượng của bản tóm tắt đầu ra của mơ hình tóm tắt. Kết quả độ đo R-1 trong thử nghiệm với mơ hình 4 cao hơn lần lượt là 2,58% và 5,99% so với kết qủa của mơ hình 1 trên 2 bộ dữ liệu tương ứng. Các độ đo R-2 và R-L của mơ hình 4 cũng tốt hơn các mơ hình cịn lại. Có thể nói, mơ hình 4 đã đạt được kết quả tốt nhất trong các mơ hình đã xây dựng cho tóm tắt đa văn bản tiếng Anh, tiếng Việt nên mơ hình này được chọn làm mơ hình tóm tắt đa văn bản hướng trích rút đề xuất Kmeans_Centroid_EMDS.
b) Thử nghiệm các mơ hình sử dụng các kỹ thuật phân cụm khác
Để đánh giá hiệu quả của kỹ thuật phân cụm K-means so với các kỹ thuật phân cụm khác trong các mơ hình tóm tắt văn bản, phương pháp phân tích ngữ nghĩa tiềm ẩn (LSA) [17], chủ đề ẩn (LDA) [141] được triển khai thử nghiệm trên bộ dữ liệu DUC 2007. Luận án cũng so sánh kết quả mơ hình tóm tắt đề xuất với các phương pháp tóm tắt dựa trên trung tâm (Centroid-based) và LexRank. Hai phương pháp này hiệu quả trong việc xếp hạng các câu nên chúng thích hợp cho bài tốn tóm tắt văn bản. Bảng 5.3 trình bày các kết quả thử nghiệm của các phương pháp.
Phương pháp R-1 R-2 R-L
LexRank 37,52 8,14 34,18
LSA 37,92 7,74 35,02
LDA 35,69 6,26 32,71
LSA + Centroid-based + MMR + Vị trí câu 36,37 6,90 33,50 LDA + Centroid-based + MMR + Vị trí câu 36,73 7,22 33,58
K-means 37,81 7,30 34,86
K-means + Vị trí câu 38,11 7,87 34,86
Centroid-based 38,95 9,08 35,50
K-means + Centroid-based + MMR + Vị trí câu 40,39 9,53 37,05
Bảng 5.3 chỉ ra rằng các phương pháp LSA và LDA không tốt bằng kỹ thuật phân cụm K-means trong nhiệm vụ tóm tắt đa văn bản. Kết quả của phương pháp LexRank cũng kém hơn so với kỹ thuật K-means. Tuy nhiên, phương pháp dựa trên trung tâm (Centroid-based) giải quyết vấn đề này khá tốt với kết quả độ đo R-1 là 38,95%, R-2 là 9,08% và R-L là 35,50%. Sự kết hợp của kỹ thuật phân cụm K- means, phương pháp dựa trên trung tâm, MMR và vị trí câu cho kết quả các độ đo R-1, R-2 và R-L tốt hơn so với các phương pháp còn lại.