Thống kờ cỏc thụng tin của hai bộ dữ liệu CNN và Daily Mail

Một phần của tài liệu (Luận án tiến sĩ) nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 35 - 36)

Bộ dữ liệu này được sử dụng để thử nghiệm cho cỏc mụ hỡnh túm tắt đơn văn bản tiếng Anh hướng trớch rỳt và hướng túm lược đề xuất.

1.5.1.2. Bộ dữ liệu DUC 2001 và DUC 2002

Hai bộ dữ liệu DUC 2001 [72] và DUC 2002 [73] được cụng bố bởi tổ chức NIST tại Hội thảo DUC. Cỏc bộ dữ liệu này cú thể sử dụng cho túm tắt đơn văn bản và túm tắt đa văn bản (gồm túm tắt hướng trớch rỳt và hướng túm lược).

Bộ dữ liệu DUC 2001 gồm 297 văn bản nguồn được tổ chức thành 30 cụm, mỗi cụm bao gồm tập cỏc văn bản nguồn, cỏc bản túm tắt khỏc nhau sử dụng cho túm tắt đa văn bản (mỗi bản túm tắt cú độ dài được cố định lần lượt là 50, 100, 200 và 400 từ) và 1 bản túm tắt sử dụng cho túm tắt đơn văn bản cú độ dài 100 từ. Bộ dữ liệu DUC 2002 gồm 567 văn bản nguồn được tổ chức thành 60 cụm, mỗi cụm bao gồm tập cỏc văn bản nguồn, cỏc bản túm tắt khỏc nhau sử dụng cho túm tắt đa văn bản (mỗi bản túm tắt cú độ dài được cố định lần lượt là 10, 50, 100, 200 và 400 từ) và 1 bản túm tắt sử dụng cho túm tắt đơn văn bản cú độ dài 100 từ.

Luận ỏn chỉ sử dụng 2 bộ dữ liệu này để thử nghiệm túm tắt đơn văn bản hướng trớch rỳt nờn luận ỏn sẽ đi phõn tớch thống kờ cỏc thụng tin của văn bản nguồn, bản túm tắt sử dụng cho túm tắt đơn văn bản. Bảng 1.5 dưới đõy là cỏc thụng tin thống kờ của hai bộ dữ liệu theo số lượng cõu và số lượng từ.

Bộ dữ liệu DUC 2001 DUC 2002

Văn bản nguồn

Số lượng cõu trung bỡnh 41.51 26,41 Số lượng từ trung bỡnh 887.12 534,71 Khoảng phõn bố theo số cõu 15  68 13  40 Khoảng phõn bố theo số từ 321  1.453 278  791

Văn bản túm tắt

Số lượng cõu trung bỡnh 4,69 5,30 Số lượng từ trung bỡnh 92,47 99,65 Khoảng phõn bố theo số cõu 3  6 4  7 Khoảng phõn bố theo số từ 85  99 95  105

Bảng 1.5. Thống kờ cỏc thụng tin túm tắt của bộ dữ liệu DUC 2001 và DUC 2002 sử dụng cho túm tắt đơn văn bản

Hai bộ dữ liệu này sẽ được sử dụng để thử nghiệm cho mụ hỡnh túm tắt đơn văn bản tiếng Anh hướng trớch rỳt đề xuất.

1.5.1.3. Bộ dữ liệu DUC 2004

Bộ dữ liệu DUC 2004 [74] được phỏt triển bởi tổ chức NIST gồm 50 cụm văn bản, mỗi cụm cú trung bỡnh 10 văn bản và cú 4 bản túm tắt đi kốm do cỏc chuyờn gia của NIST tạo ra.

Bảng 1.6 là cỏc thụng tin thống kờ túm tắt của bộ dữ liệu DUC 2004 theo số lượng cõu và số lượng từ trờn toàn bộ bộ dữ liệu.

Thụng tin Loại văn bản Số lượng cõu trung bỡnh Số từ trung bỡnh Khoảng phõn bố theo số cõu Khoảng phõn bố theo số từ Văn bản nguồn 25,45 564,12 11  41 211  917 Văn bản túm tắt 6,54 104,43 4  8 99  109

Một phần của tài liệu (Luận án tiến sĩ) nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 35 - 36)