Cỏc bộ dữ liệu van bản tiếng Anh

Một phần của tài liệu Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 34 - 37)

1.5.1.1. Bộ dữ liệu CNN/Daily Mail

Bộ dữ liệu CNN/Daily Mail [71] gồm 312.085 bài bỏo tin tức (trong dú bộ CNN cú 92.579 bài bỏo tin tức, bộ Daily Mail cú 219.506 bài bỏo tin tức) duợc thu thập từ cỏc bỏo CNN và Daily Mail, mỗi bài bỏo cú cỏc cõu chớnh (highlights) di kốm do nguời viết bài bỏo tự viết duợc sử dụng làm bản túm tắt tham chiếu.Luận ỏn sử dụng phuong phỏp phõn chia bộ dữ liệu của Hermann và cộng sự [71] cho cỏc tập dữ liệu huấn luyện, kiểm tra và dỏnh giỏ khi thử nghiệm cỏc mụ hỡnh (Bảng

1.3). Cỏc cõu chớnh của mỗi van bản duợc sử dụng làm co sở dể dỏnh giỏ chất luợng bản túm tắt của cỏc mụ hỡnh thử nghiệm.

CNN Daily Mail

Huấn

luyện Kiểm tra Đỏnh giỏ

Huấn

luyện Kiểm tra Đỏnh giỏ

Số luợng van bản 90.266 1.220 1.093 196.961 12.148 10.397 Kớch thuớc từ vựng 118.497

Bộ dữ liệu CNN Daily Mail

Van bản nguồn

Số luợng cõu trung bỡnh 31,86 26,24

Số luợng từ trung bỡnh 643,79 680,86

Khoảng phõn bố theo số cõu 14 ữ 19 13 ữ 40 Khoảng phõn bố theo số từ 316 ữ 971 369 ữ 991

Van bản túm tắt

Số luợng cõu trung bỡnh 3,55 3,78

Số luợng từ trung bỡnh 41,67 50,44

Khoảng phõn bố theo số cõu 2 ữ 4 2 ữ 4 Khoảng phõn bố theo số từ 32 ữ 50

30 ữ 70

Bảng 1.4. Thống kờ cỏc thụng tin của hai bộ dữ liệu CNN và Daily Mail

Bộ dữ liệu này duợc sử dụng dể thử nghiệm cho cỏc mụ hỡnh túm tắt don van bản tiếng Anh huớng trớch rỳt và huớng túm luợc dề xuất.

1.5.1.2. Bộ dữ liệu DUC 2001 và DUC 2002

Hai bộ dữ liệu DUC 2001 [72] và DUC 2002 [73] duợc cụng bố bởi tổ chức NIST tại Hội thảo DUC. Cỏc bộ dữ liệu này cú thể sử dụng cho túm tắt don van bản và túm tắt da van bản (gồm túm tắt huớng trớch rỳt và huớng túm luợc).

Bộ dữ liệu DUC 2001 gồm 297 van bản nguồn duợc tổ chức thành 30 cụm, mỗi cụm bao gồm tập cỏc van bản nguồn, cỏc bản túm tắt khỏc nhau sử dụng cho túm tắt da van bản (mỗi bản túm tắt cú dộ dài duợc cố dịnh lần luợt là 50, 100, 200 và 400 từ) và 1 bản túm tắt sử dụng cho túm tắt don van bản cú dộ dài 100 từ. Bộ dữ liệu DUC 2002 gồm 567 van bản nguồn duợc tổ chức thành 60 cụm, mỗi cụm bao gồm tập cỏc van bản nguồn, cỏc bản túm tắt khỏc nhau sử dụng cho túm tắt da van bản (mỗi bản túm tắt cú dộ dài duợc cố dịnh lần luợt là 10, 50, 100, 200 và 400 từ) và 1 bản túm tắt sử dụng cho túm tắt don van bản cú dộ dài 100 từ.

Luận ỏn chỉ sử dụng 2 bộ dữ liệu này dể thử nghiệm túm tắt don van bản huớng trớch rỳt nờn luận ỏn sẽ di phõn tớch thống kờ cỏc thụng tin của van bản nguồn, bản túm tắt sử dụng cho túm tắt don van bản.Bảng 1.5 duới dõy là cỏc thụng tin thống kờ của hai bộ dữ liệu theo số luợng cõu và số luợng từ.

Bộ dữ liệu DUC 2001 DUC 2002

Van bản nguồn

Số luợng cõu trung bỡnh 41.51 26,41

Số luợng từ trung bỡnh 887.12 534,71

Khoảng phõn bố theo số cõu 15 ữ 68 13 ữ 40 Khoảng phõn bố theo số từ 321 ữ 1.453 278 ữ 791

Van bản túm tắt

Số luợng cõu trung bỡnh 4,69 5,30

Số luợng từ trung bỡnh 92,47 99,65

Khoảng phõn bố theo số cõu 3 ữ 6 4 ữ 7 Khoảng phõn bố theo số từ 85 ữ 99

95 ữ 105

Bảng 1.5. Thống kờ cỏc thụng tin túm tắt của bộ dữ liệu DUC 2001 và DUC 2002 sử dụng cho túm tắt don van bản

Hai bộ dữ liệu này sẽ duợc sử dụng dể thử nghiệm cho mụ hỡnh túm tắt don van bản tiếng Anh huớng trớch rỳt dề xuất.

1.5.1.3. Bộ dữ liệu DUC 2004

Bộ dữ liệu DUC 2004 [74] duợc phỏt triển bởi tổ chức NIST gồm 50 cụm van bản, mỗi cụm cú trung bỡnh 10 van bản và cú 4 bản túm tắt di kốm do cỏc chuyờn gia của NIST tạo ra.

Bảng 1.6 là cỏc thụng tin thống kờ túm tắt của bộ dữ liệu DUC 2004 theo số luợng cõu và số luợng từ trờn toàn bộ bộ dữ liệu.

Thụng tin Loại van bản Số luợng cõu trung bỡnh Số từ trung bỡnh Khoảng phõn

bố theo số cõu Khoảng phõn bố theo số từ

Van bản nguồn 25,45 564,12 11 ữ 41 211 ữ 917

Van bản túm tắt 6,54 104,43 4 ữ 8

99 ữ 109

Bảng 1.6. Thống kờ cỏc thụng tin túm tắt của bộ dữ liệu DUC 2004

Bộ dữ liệu này sẽ duợc sử dụng dể thử nghiệm cho mụ hỡnh túm tắt da van bản tiếng Anh huớng túm luợc dề xuất.

1.5.1.4. Bộ dữ liệu DUC 2007

Bộ dữ liệu DUC 2007 [75] gồm hai tập dữ liệu là: Main taskUpdate task (pilot):

- Main task: Bao gồm 45 chủ dề, trong dú mỗi chủ dề nằm trong một thu mục riờng biệt. Mỗi chủ dề cú trung bỡnh 25 van bản liờn quan duới dạng 25 tập tin, di kốm với mỗi chủ dề là 4 bản túm tắt khỏc nhau dến từ 4 don vị dỏnh giỏ NIST. Mỗi bản túm tắt thể hiện dầy dủ thụng tin của mỗi chủ dề. Cỏc bản túm tắt này sẽ duợc sử dụng dể dỏnh giỏ chất luợng bản túm tắt của cỏc mụ hỡnh thử nghiệm.

- Update task (pilot): Khỏc với tập dữ liệu Main task, mỗi bản túm tắt trong

Update task chỉ chứa khoảng 100 từ với giả dịnh rằng nguời dựng dó dọc qua một số van bản truớc dú rồi. Update task cú xấp xỉ 10 chủ dề, mỗi chủ dề chứa 25 van bản. Với mỗi chủ dề, cỏc van bản duợc sắp xếp theo trỡnh tự thời gian và sau dú duợc phõn chia thành 3 tập A, B và C. Trong 25 van bản của mỗi chủ dề, cú xấp xỉ 10 van bản cho tập A, 8 van bản cho tập B và 7 van bản cho tập C.

Bảng 1.7 là cỏc thụng tin thống kờ túm tắt của tập dữ liệu Main task của bộ dữ liệu DUC 2007 theo số luợng cõu và số luợng từ trờn toàn bộ bộ dữ liệu.

Thụng tin Loại van bản Số luợng cõu trung bỡnh Số từ trung bỡnh Khoảng phõn

bố theo số cõu Khoảng phõn bố theo số từ

Van bản nguồn 20,78 421,84 4 ữ 36 114 ữ 728

Bộ dữ liệu này sẽ duợc sử dụng dể thử nghiệm cỏc mụ hỡnh túm tắt da van bản tiếng Anh huớng trớch rỳt và huớng túm luợc dề xuất.

Một phần của tài liệu Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 34 - 37)