Thử nghiệm mụ hỡnh và kết quả

Một phần của tài liệu (Luận án tiến sĩ) nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 117 - 120)

Chương 2 CÁC KIẾN THỨC NỀN TẢNG

5.2. Mụ hỡnh túm tắt đa văn bản hướng trớch rỳt

5.2.4. Thử nghiệm mụ hỡnh và kết quả

5.2.4.1. Dữ liệu thử nghiệm

Mụ hỡnh được thử nghiệm trờn tập dữ liệu Main task của bộ dữ liệu DUC 2007 [75] cho tiếng Anh và bộ dữ liệu Corpus_TMV [76] cho tiếng Việt. Việc thử nghiệm mụ hỡnh trờn bộ dữ liệu Corpus_TMV để đỏnh giỏ hiệu quả mụ hỡnh đề xuất

đối với túm tắt đa văn bản tiếng Việt và đảm bảo tớnh tổng quỏt của mụ hỡnh đề xuất đối với túm tắt văn bản ngụn ngữ khỏc. Cỏc văn bản trong bộ dữ liệu DUC 2007 được tiền xử lý để tỏch lấy nội dung, loại bỏ cỏc ký tự đặc biệt, lấy từ gốc, loại bỏ cỏc cõu cú số lượng từ quỏ nhỏ, loại bỏ từ dừng để giảm kớch thước của bộ từ vựng nhằm cải thiện chất lượng của bản túm tắt đầu ra của mụ hỡnh đề xuất. Cỏc văn bản trong bộ dữ liệu Corpus_TMV được xử lý trớch xuất từ cỏc tệp tương ứng. Sau đú, xử lý tỏch cõu và đỏnh số thứ tự cho cỏc cõu trong phần nội dung của mỗi văn bản.

5.2.4.2. Cài đặt cỏc tham số

Cỏc tham số sử dụng khi thử nghiệm cỏc mụ hỡnh gồm:

- n_clusters: Số lượng cỏc cụm trong thuật toỏn phõn cụm K-means. Do đặc

điểm của cỏc bộ dữ liệu DUC 2007, Corpus_TMV khỏc nhau nờn tham số này được cài đặt với cỏc giỏ trị khỏc nhau cho mỗi bộ dữ liệu trong cỏc mụ hỡnh.

- ndim: Số chiều của vộc tơ cõu.

- : Tham số sử dụng trong phương phỏp MMR.

- sent: Giỏ trị ngưỡng xỏc định sự giống nhau giữa một cõu với vộc tơ trung tõm, được sử dụng trong phương phỏp dựa trờn trung tõm.

- sim: Giỏ trị ngưỡng xỏc định sự giống nhau giữa hai cõu, được sử dụng trong phương phỏp dựa trờn trung tõm.

- len_sum: Độ dài bản túm tắt (số cõu của bản túm tắt).

Một yếu tố quan trọng trong thuật toỏn phõn cụm K-means là xỏc định số lượng cỏc cụm. Đối với bộ dữ liệu DUC 2007, trong mụ hỡnh 1 và 2, số lượng cỏc cụm được lấy bằng số lượng cõu trong bản túm tắt là 13 (do độ dài của bản túm tắt trong bộ dữ liệu DUC 2007 là xấp xỉ 250 từ, tương đương với 12 đến 13 cõu nờn số cụm được chọn là 13). Trong mụ hỡnh 3, số cụm được chọn lớn hơn là 21 cụm khi cỏc cõu trung tõm của một số cụm sẽ bị loại bỏ bởi phương phỏp MMR. Trong mụ hỡnh 4, số cụm được chọn là 50 vỡ mụ hỡnh đề xuất muốn cú nhiều cõu được chọn hơn và cú cỏc phương phỏp để chọn cỏc cõu tốt nhất đưa vào bản túm tắt. Đối với bộ dữ liệu Corpus_TMV, số lượng cỏc cụm được lấy cố định bằng 14 cụm trong cả 4 mụ hỡnh, số cõu của bản túm tắt được lấy là 5 cõu (do độ dài bản túm tắt của bộ dữ liệu Corpus_TMV xấp xỉ 5 cõu), cũn cỏc tham số khỏc cũng được cài đặt giống như thử nghiệm mụ hỡnh trờn bộ dữ liệu DUC 2007.

Bảng 5.1 dưới đõy trỡnh bày giỏ trị của cỏc tham số sử dụng khi thử nghiệm cỏc mụ hỡnh trờn 2 bộ dữ liệu tương ứng.

Mụ hỡnh n_clusters ndim  sentsim len_sum Bộ dữ liệu

Mụ hỡnh 1 13 256 - - - 13 DUC 2007 Mụ hỡnh 2 13 256 - - - 13 DUC 2007 Mụ hỡnh 3 21 256 0,6 - - 13 DUC 2007 Mụ hỡnh 4 50 256 0,6 0,3 0,95 13 DUC 2007 Mụ hỡnh 1 14 256 - - - 5 Corpus_TMV Mụ hỡnh 2 14 256 - - - 5 Corpus_TMV Mụ hỡnh 3 14 256 0,6 - - 5 Corpus_TMV Mụ hỡnh 4 14 256 0,6 0,3 0,95 5 Corpus_TMV

5.2.4.3. Thiết kế thử nghiệm

a) Thử nghiệm cỏc mụ hỡnh xõy dựng

Bốn mụ hỡnh đó xõy dựng được thử nghiệm trờn hai bộ dữ liệu DUC 2007 và Corpus_TMV. Cỏc kết quả thử nghiệm thu được như trong Bảng 5.2 dưới đõy.

Mụ hỡnh DUC 2007 Corpus_TMV R-1 R-2 R-L R-1 R-2 R-L Mụ hỡnh 1 37,81 7,30 34,61 67,87 44,58 64,55 Mụ hỡnh 2 38,11 7,87 34,87 68,01 44,52 64,89 Mụ hỡnh 3 38,82 8,15 35,53 71,20 46,93 66,97 Mụ hỡnh 4 40,39 9,53 37,05 73,86 48,42 68,09

Bảng 5.2. Kết quả thử nghiệm cỏc mụ hỡnh xõy dựng trờn hai bộ dữ liệu

Bảng 5.2 cho thấy mụ hỡnh sử dụng đặc trưng vị trớ cõu (mụ hỡnh 2) tốt hơn mụ hỡnh sử dụng vị trớ cõu tương đối (mụ hỡnh 1). Ngoài ra, vấn đề quan trọng là loại bỏ thụng tin dư thừa của bản túm tắt và phương phỏp MMR là một giải phỏp tốt cho mục đớch này. Khi ỏp dụng phương phỏp MMR, kết quả độ đo R-1 của mụ hỡnh 3 tăng lần lượt là 0,71% và 3,19% so với mụ hỡnh 2 tương ứng trờn 2 bộ dữ liệu.

Kết quả trong Bảng 5.2 cũng chứng minh rằng phương phỏp xử lý thụng tin trựng lặp và loại bỏ cỏc cõu đại diện cho cỏc cụm mà chứa ớt thụng tin hoặc khụng chứa thụng tin (mụ hỡnh 4) đạt hiệu quả cao trong việc cải thiện chất lượng của bản túm tắt đầu ra của mụ hỡnh túm tắt. Kết quả độ đo R-1 trong thử nghiệm với mụ hỡnh 4 cao hơn lần lượt là 2,58% và 5,99% so với kết qủa của mụ hỡnh 1 trờn 2 bộ dữ liệu tương ứng. Cỏc độ đo R-2 và R-L của mụ hỡnh 4 cũng tốt hơn cỏc mụ hỡnh cũn lại. Cú thể núi, mụ hỡnh 4 đó đạt được kết quả tốt nhất trong cỏc mụ hỡnh đó xõy dựng cho túm tắt đa văn bản tiếng Anh, tiếng Việt nờn mụ hỡnh này được chọn làm mụ hỡnh túm tắt đa văn bản hướng trớch rỳt đề xuất Kmeans_Centroid_EMDS.

b) Thử nghiệm cỏc mụ hỡnh sử dụng cỏc kỹ thuật phõn cụm khỏc

Để đỏnh giỏ hiệu quả của kỹ thuật phõn cụm K-means so với cỏc kỹ thuật phõn cụm khỏc trong cỏc mụ hỡnh túm tắt văn bản, phương phỏp phõn tớch ngữ nghĩa tiềm ẩn (LSA) [17], chủ đề ẩn (LDA) [141] được triển khai thử nghiệm trờn bộ dữ liệu DUC 2007. Luận ỏn cũng so sỏnh kết quả mụ hỡnh túm tắt đề xuất với cỏc phương phỏp túm tắt dựa trờn trung tõm (Centroid-based) và LexRank. Hai phương phỏp này hiệu quả trong việc xếp hạng cỏc cõu nờn chỳng thớch hợp cho bài toỏn túm tắt văn bản. Bảng 5.3 trỡnh bày cỏc kết quả thử nghiệm của cỏc phương phỏp.

Phương phỏp R-1 R-2 R-L

LexRank 37,52 8,14 34,18

LSA 37,92 7,74 35,02

LDA 35,69 6,26 32,71

LSA + Centroid-based + MMR + Vị trớ cõu 36,37 6,90 33,50 LDA + Centroid-based + MMR + Vị trớ cõu 36,73 7,22 33,58

K-means 37,81 7,30 34,86

K-means + Vị trớ cõu 38,11 7,87 34,86

Centroid-based 38,95 9,08 35,50

K-means + Centroid-based + MMR + Vị trớ cõu 40,39 9,53 37,05

Bảng 5.3 chỉ ra rằng cỏc phương phỏp LSA và LDA khụng tốt bằng kỹ thuật phõn cụm K-means trong nhiệm vụ túm tắt đa văn bản. Kết quả của phương phỏp LexRank cũng kộm hơn so với kỹ thuật K-means. Tuy nhiờn, phương phỏp dựa trờn trung tõm (Centroid-based) giải quyết vấn đề này khỏ tốt với kết quả độ đo R-1 là 38,95%, R-2 là 9,08% và R-L là 35,50%. Sự kết hợp của kỹ thuật phõn cụm K- means, phương phỏp dựa trờn trung tõm, MMR và vị trớ cõu cho kết quả cỏc độ đo R-1, R-2 và R-L tốt hơn so với cỏc phương phỏp cũn lại.

Một phần của tài liệu (Luận án tiến sĩ) nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 117 - 120)