Cỏc bộ dữ liệu văn bản tiếng Anh

Một phần của tài liệu Luận án tiến sĩ nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 34 - 37)

1.5.1.1. Bộ dữ liệu CNN/Daily Mail

Bộ dữ liệu CNN/Daily Mail [71] gồm 312.085 bài bỏo tin tức (trong đú bộ CNN cú 92.579 bài bỏo tin tức, bộ Daily Mail cú 219.506 bài bỏo tin tức) được thu thập từ cỏc bỏo CNN và Daily Mail, mỗi bài bỏo cú cỏc cõu chớnh (highlights) đi kốm do người viết bài bỏo tự viết được sử dụng làm bản túm tắt tham chiếu. Luận ỏn sử dụng phương phỏp phõn chia bộ dữ liệu của Hermann và cộng sự [71] cho cỏc tập dữ liệu huấn luyện, kiểm tra và đỏnh giỏ khi thử nghiệm cỏc mụ hỡnh (Bảng 1.3). Cỏc cõu chớnh của mỗi văn bản được sử dụng làm cơ sở để đỏnh giỏ chất lượng bản túm tắt của cỏc mụ hỡnh thử nghiệm.

CNN Daily Mail

Huấn

luyện Kiểm tra

Đỏnh

giỏ

Huấn

luyện Kiểm tra

Đỏnh

giỏ

Số lượng văn bản 90.266 1.220 1.093 196.961 12.148 10.397 Kớch thước từ vựng 118.497 208.045

Bảng 1.3. Phương phỏp phõn chia bộ dữ liệu CNN/Daily Mail

Bảng 1.4 là cỏc thụng tin thống kờ túm tắt của hai bộ dữ liệu CNN và Daily Mail theo số lượng cõu và số lượng từ.

22

Bộ dữ liệu CNN Daily Mail

Văn bản nguồn

Số lượng cõu trung bỡnh 31,86 26,24 Số lượng từ trung bỡnh 643,79 680,86 Khoảng phõn bố theo số cõu 14  19 13  40 Khoảng phõn bố theo số từ 316  971 369  991 Văn bản túm tắt

Số lượng cõu trung bỡnh 3,55 3,78 Số lượng từ trung bỡnh 41,67 50,44 Khoảng phõn bố theo số cõu 2  4 2  4 Khoảng phõn bố theo số từ 32  50 30  70

Bảng 1.4. Thống kờ cỏc thụng tin của hai bộ dữ liệu CNN và Daily Mail

Bộ dữ liệu này được sử dụng để thử nghiệm cho cỏc mụ hỡnh túm tắt đơn văn bản tiếng Anh hướng trớch rỳt và hướng túm lược đề xuất.

1.5.1.2. Bộ dữ liệu DUC 2001 và DUC 2002

Hai bộ dữ liệu DUC 2001 [72] và DUC 2002 [73] được cụng bố bởi tổ chức NIST tại Hội thảo DUC. Cỏc bộ dữ liệu này cú thể sử dụng cho túm tắt đơn văn bản và túm tắt đa văn bản (gồm túm tắt hướng trớch rỳt và hướng túm lược).

Bộ dữ liệu DUC 2001 gồm 297 văn bản nguồn được tổ chức thành 30 cụm, mỗi cụm bao gồm tập cỏc văn bản nguồn, cỏc bản túm tắt khỏc nhau sử dụng cho túm tắt đa văn bản (mỗi bản túm tắt cú độ dài được cố định lần lượt là 50, 100, 200 và 400 từ) và 1 bản túm tắt sử dụng cho túm tắt đơn văn bản cú độ dài 100 từ. Bộ dữ liệu DUC 2002 gồm 567 văn bản nguồn được tổ chức thành 60 cụm, mỗi cụm bao gồm tập cỏc văn bản nguồn, cỏc bản túm tắt khỏc nhau sử dụng cho túm tắt đa văn bản (mỗi bản túm tắt cú độ dài được cố định lần lượt là 10, 50, 100, 200 và 400 từ) và 1 bản túm tắt sử dụng cho túm tắt đơn văn bản cú độ dài 100 từ.

Luận ỏn chỉ sử dụng 2 bộ dữ liệu này để thử nghiệm túm tắt đơn văn bản hướng trớch rỳt nờn luận ỏn sẽ đi phõn tớch thống kờ cỏc thụng tin của văn bản nguồn, bản túm tắt sử dụng cho túm tắt đơn văn bản. Bảng 1.5 dưới đõy là cỏc thụng tin thống kờ của hai bộ dữ liệu theo số lượng cõu và số lượng từ.

Bộ dữ liệu DUC 2001 DUC 2002

Văn bản nguồn

Số lượng cõu trung bỡnh 41.51 26,41 Số lượng từ trung bỡnh 887.12 534,71 Khoảng phõn bố theo số cõu 15  68 13  40 Khoảng phõn bố theo số từ 321  1.453 278  791 Văn bản túm tắt

Số lượng cõu trung bỡnh 4,69 5,30 Số lượng từ trung bỡnh 92,47 99,65 Khoảng phõn bố theo số cõu 3  6 4  7 Khoảng phõn bố theo số từ 85  99 95  105

Bảng 1.5. Thống kờ cỏc thụng tin túm tắt của bộ dữ liệu DUC 2001 và DUC 2002 sử dụng cho túm tắt đơn văn bản

23

Hai bộ dữ liệu này sẽ được sử dụng để thử nghiệm cho mụ hỡnh túm tắt đơn văn bản tiếng Anh hướng trớch rỳt đề xuất.

1.5.1.3. Bộ dữ liệu DUC 2004

Bộ dữ liệu DUC 2004 [74] được phỏt triển bởi tổ chức NIST gồm 50 cụm văn bản, mỗi cụm cú trung bỡnh 10 văn bản và cú 4 bản túm tắt đi kốm do cỏc chuyờn gia của NIST tạo ra.

Bảng 1.6 là cỏc thụng tin thống kờ túm tắt của bộ dữ liệu DUC 2004 theo số lượng cõu và số lượng từ trờn toàn bộ bộ dữ liệu.

Thụng tin Loại văn bản Số lượng cõu trung bỡnh Số từ trung bỡnh Khoảng phõn

bố theo số cõu Khoảng phõn bố theo số từ

Văn bản nguồn 25,45 564,12 11  41 211  917 Văn bản túm tắt 6,54 104,43 4  8 99  109

Bảng 1.6. Thống kờ cỏc thụng tin túm tắt của bộ dữ liệu DUC 2004

Bộ dữ liệu này sẽ được sử dụng để thử nghiệm cho mụ hỡnh túm tắt đa văn bản tiếng Anh hướng túm lược đề xuất.

1.5.1.4. Bộ dữ liệu DUC 2007

Bộ dữ liệu DUC 2007 [75] gồm hai tập dữ liệu là: Main taskUpdate task (pilot):

- Main task: Bao gồm 45 chủ đề, trong đú mỗi chủ đề nằm trong một thư mục riờng biệt. Mỗi chủ đề cú trung bỡnh 25 văn bản liờn quan dưới dạng 25 tập tin, đi kốm với mỗi chủ đề là 4 bản túm tắt khỏc nhauđến từ 4 đơn vị đỏnh giỏ NIST. Mỗi bản túm tắt thể hiện đầy đủ thụng tin của mỗi chủ đề. Cỏc bản túm tắt này sẽ được sử dụng để đỏnh giỏ chất lượng bản túm tắt của cỏc mụ hỡnh thử nghiệm.

- Update task (pilot): Khỏc với tập dữ liệu Main task, mỗi bản túm tắt trong

Update task chỉ chứa khoảng 100 từ với giả định rằng người dựng đó đọc qua một số văn bản trước đú rồi. Update task cú xấp xỉ 10 chủ đề, mỗi chủ đề chứa 25 văn bản. Với mỗi chủ đề, cỏc văn bản được sắp xếp theo trỡnh tự thời gian và sau đú được phõn chia thành 3 tập A, B và C. Trong 25 văn bản của mỗi chủ đề, cú xấp xỉ 10 văn bản cho tập A, 8 văn bản cho tập B và 7 văn bản cho tập C.

Bảng 1.7 là cỏc thụng tin thống kờ túm tắt của tập dữ liệu Main task của bộ dữ liệu DUC 2007 theo số lượng cõu và số lượng từ trờn toàn bộ bộ dữ liệu.

Thụng tin Loại văn bản Số lượng cõu trung bỡnh Số từ trung bỡnh Khoảng phõn

bố theo số cõu Khoảng phõn bố theo số từ

Văn bản nguồn 20,78 421,84 4  36 114  728 Văn bản túm tắt 13,08 243,75 10  16 231  255

Bảng 1.7. Thống kờ cỏc thụng tin túm tắt của tập dữ liệu Main task của bộ dữ liệu DUC 2007

24

Bộ dữ liệu này sẽ được sử dụng để thử nghiệm cỏc mụ hỡnh túm tắt đa văn bản tiếng Anh hướng trớch rỳt và hướng túm lược đề xuất.

Một phần của tài liệu Luận án tiến sĩ nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 34 - 37)

Tải bản đầy đủ (PDF)

(181 trang)