Cỏc bộ dữ liệu thử nghiệm

Một phần của tài liệu (Luận án tiến sĩ) nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 34 - 38)

Chương 1 TỔNG QUAN VỀ TểM TẮT VĂN BẢN

1.5. Cỏc bộ dữ liệu thử nghiệm

Để cú cơ sở lựa chọn số lượng cõu hoặc số từ cho bản túm tắt sinh ra của cỏc mụ hỡnh túm tắt đề xuất, cỏc bộ dữ liệu sử dụng để thử nghiệm cho cỏc mụ hỡnh đề xuất được phõn tớch thống kờ cỏc thụng tin quan trọng và được trỡnh bày như dưới đõy. Thụng tin về thời gian thu thập cỏc bộ dữ liệu thử nghiệm và biểu đồ biểu diễn phõn bố độ dài trung bỡnh nội dung văn bản nguồn, văn bản bản túm tắt tương ứng theo số cõu, số từ của cỏc bộ dữ liệu được trỡnh bày chi tiết ở Phụ lục B trong phần Phụ lục.

1.5.1. Cỏc bộ dữ liệu văn bản tiếng Anh

1.5.1.1. Bộ dữ liệu CNN/Daily Mail

Bộ dữ liệu CNN/Daily Mail [71] gồm 312.085 bài bỏo tin tức (trong đú bộ CNN cú 92.579 bài bỏo tin tức, bộ Daily Mail cú 219.506 bài bỏo tin tức) được thu thập từ cỏc bỏo CNN và Daily Mail, mỗi bài bỏo cú cỏc cõu chớnh (highlights) đi kốm do người viết bài bỏo tự viết được sử dụng làm bản túm tắt tham chiếu. Luận ỏn sử dụng phương phỏp phõn chia bộ dữ liệu của Hermann và cộng sự [71] cho cỏc tập dữ liệu huấn luyện, kiểm tra và đỏnh giỏ khi thử nghiệm cỏc mụ hỡnh (Bảng 1.3). Cỏc cõu chớnh của mỗi văn bản được sử dụng làm cơ sở để đỏnh giỏ chất lượng bản túm tắt của cỏc mụ hỡnh thử nghiệm.

CNN Daily Mail

Huấn

luyện Kiểm tra

Đỏnh giỏ

Huấn

luyện Kiểm tra

Đỏnh giỏ

Số lượng văn bản 90.266 1.220 1.093 196.961 12.148 10.397 Kớch thước từ vựng 118.497 208.045

Bảng 1.3. Phương phỏp phõn chia bộ dữ liệu CNN/Daily Mail

Bộ dữ liệu CNN Daily Mail

Văn bản nguồn

Số lượng cõu trung bỡnh 31,86 26,24 Số lượng từ trung bỡnh 643,79 680,86 Khoảng phõn bố theo số cõu 14  19 13  40 Khoảng phõn bố theo số từ 316  971 369  991

Văn bản túm tắt

Số lượng cõu trung bỡnh 3,55 3,78 Số lượng từ trung bỡnh 41,67 50,44 Khoảng phõn bố theo số cõu 2  4 2  4 Khoảng phõn bố theo số từ 32  50 30  70

Bảng 1.4. Thống kờ cỏc thụng tin của hai bộ dữ liệu CNN và Daily Mail

Bộ dữ liệu này được sử dụng để thử nghiệm cho cỏc mụ hỡnh túm tắt đơn văn bản tiếng Anh hướng trớch rỳt và hướng túm lược đề xuất.

1.5.1.2. Bộ dữ liệu DUC 2001 và DUC 2002

Hai bộ dữ liệu DUC 2001 [72] và DUC 2002 [73] được cụng bố bởi tổ chức NIST tại Hội thảo DUC. Cỏc bộ dữ liệu này cú thể sử dụng cho túm tắt đơn văn bản và túm tắt đa văn bản (gồm túm tắt hướng trớch rỳt và hướng túm lược).

Bộ dữ liệu DUC 2001 gồm 297 văn bản nguồn được tổ chức thành 30 cụm, mỗi cụm bao gồm tập cỏc văn bản nguồn, cỏc bản túm tắt khỏc nhau sử dụng cho túm tắt đa văn bản (mỗi bản túm tắt cú độ dài được cố định lần lượt là 50, 100, 200 và 400 từ) và 1 bản túm tắt sử dụng cho túm tắt đơn văn bản cú độ dài 100 từ. Bộ dữ liệu DUC 2002 gồm 567 văn bản nguồn được tổ chức thành 60 cụm, mỗi cụm bao gồm tập cỏc văn bản nguồn, cỏc bản túm tắt khỏc nhau sử dụng cho túm tắt đa văn bản (mỗi bản túm tắt cú độ dài được cố định lần lượt là 10, 50, 100, 200 và 400 từ) và 1 bản túm tắt sử dụng cho túm tắt đơn văn bản cú độ dài 100 từ.

Luận ỏn chỉ sử dụng 2 bộ dữ liệu này để thử nghiệm túm tắt đơn văn bản hướng trớch rỳt nờn luận ỏn sẽ đi phõn tớch thống kờ cỏc thụng tin của văn bản nguồn, bản túm tắt sử dụng cho túm tắt đơn văn bản. Bảng 1.5 dưới đõy là cỏc thụng tin thống kờ của hai bộ dữ liệu theo số lượng cõu và số lượng từ.

Bộ dữ liệu DUC 2001 DUC 2002

Văn bản nguồn

Số lượng cõu trung bỡnh 41.51 26,41 Số lượng từ trung bỡnh 887.12 534,71 Khoảng phõn bố theo số cõu 15  68 13  40 Khoảng phõn bố theo số từ 321  1.453 278  791

Văn bản túm tắt

Số lượng cõu trung bỡnh 4,69 5,30 Số lượng từ trung bỡnh 92,47 99,65 Khoảng phõn bố theo số cõu 3  6 4  7 Khoảng phõn bố theo số từ 85  99 95  105

Bảng 1.5. Thống kờ cỏc thụng tin túm tắt của bộ dữ liệu DUC 2001 và DUC 2002 sử dụng cho túm tắt đơn văn bản

Hai bộ dữ liệu này sẽ được sử dụng để thử nghiệm cho mụ hỡnh túm tắt đơn văn bản tiếng Anh hướng trớch rỳt đề xuất.

1.5.1.3. Bộ dữ liệu DUC 2004

Bộ dữ liệu DUC 2004 [74] được phỏt triển bởi tổ chức NIST gồm 50 cụm văn bản, mỗi cụm cú trung bỡnh 10 văn bản và cú 4 bản túm tắt đi kốm do cỏc chuyờn gia của NIST tạo ra.

Bảng 1.6 là cỏc thụng tin thống kờ túm tắt của bộ dữ liệu DUC 2004 theo số lượng cõu và số lượng từ trờn toàn bộ bộ dữ liệu.

Thụng tin Loại văn bản Số lượng cõu trung bỡnh Số từ trung bỡnh Khoảng phõn bố theo số cõu Khoảng phõn bố theo số từ Văn bản nguồn 25,45 564,12 11  41 211  917 Văn bản túm tắt 6,54 104,43 4  8 99  109

Bảng 1.6. Thống kờ cỏc thụng tin túm tắt của bộ dữ liệu DUC 2004

Bộ dữ liệu này sẽ được sử dụng để thử nghiệm cho mụ hỡnh túm tắt đa văn bản tiếng Anh hướng túm lược đề xuất.

1.5.1.4. Bộ dữ liệu DUC 2007

Bộ dữ liệu DUC 2007 [75] gồm hai tập dữ liệu là: Main task và Update task (pilot):

- Main task: Bao gồm 45 chủ đề, trong đú mỗi chủ đề nằm trong một thư mục riờng biệt. Mỗi chủ đề cú trung bỡnh 25 văn bản liờn quan dưới dạng 25 tập tin, đi kốm với mỗi chủ đề là 4 bản túm tắt khỏc nhau đến từ 4 đơn vị đỏnh giỏ NIST. Mỗi bản túm tắt thể hiện đầy đủ thụng tin của mỗi chủ đề. Cỏc bản túm tắt này sẽ được sử dụng để đỏnh giỏ chất lượng bản túm tắt của cỏc mụ hỡnh thử nghiệm.

- Update task (pilot): Khỏc với tập dữ liệu Main task, mỗi bản túm tắt trong Update task chỉ chứa khoảng 100 từ với giả định rằng người dựng đó đọc qua một

số văn bản trước đú rồi. Update task cú xấp xỉ 10 chủ đề, mỗi chủ đề chứa 25 văn bản. Với mỗi chủ đề, cỏc văn bản được sắp xếp theo trỡnh tự thời gian và sau đú được phõn chia thành 3 tập A, B và C. Trong 25 văn bản của mỗi chủ đề, cú xấp xỉ 10 văn bản cho tập A, 8 văn bản cho tập B và 7 văn bản cho tập C.

Bảng 1.7 là cỏc thụng tin thống kờ túm tắt của tập dữ liệu Main task của bộ dữ liệu DUC 2007 theo số lượng cõu và số lượng từ trờn toàn bộ bộ dữ liệu.

Thụng tin Loại văn bản Số lượng cõu trung bỡnh Số từ trung bỡnh Khoảng phõn

bố theo số cõu Khoảng phõn bố theo số từ

Văn bản nguồn 20,78 421,84 4  36 114  728 Văn bản túm tắt 13,08 243,75 10  16 231  255

Bộ dữ liệu này sẽ được sử dụng để thử nghiệm cỏc mụ hỡnh túm tắt đa văn bản tiếng Anh hướng trớch rỳt và hướng túm lược đề xuất.

1.5.2. Cỏc bộ dữ liệu văn bản tiếng Việt

1.5.2.1. Bộ dữ liệu Baomoi

Bộ dữ liệu cho túm tắt văn bản tiếng Việt cú tờn là ‘Baomoi’. Bộ dữ liệu này được tạo ra bằng cỏch thu thập cỏc bài bỏo từ trang bỏo điện tử Việt Nam (http://baomoi.com). Mỗi bài bỏo bao gồm ba phần: Tiờu đề, túm tắt và bài bỏo. Do chưa cú nguồn dữ liệu nào tốt hơn nờn bộ dữ liệu Baomoi là lựa chọn tốt được sử dụng làm bộ dữ liệu thử nghiệm cho cỏc mụ hỡnh túm tắt đơn văn bản tiếng Việt vào thời điểm này. Bộ dữ liệu Baomoi cú xấp xỉ 4GB dữ liệu bao gồm 1.000.847 văn bản (trong đú: 900.847 mẫu được sử dụng để huấn luyện, 50.000 mẫu để kiểm tra và 50.000 mẫu để đỏnh giỏ), được chia thành 1.000 bản ghi, mỗi bản ghi gồm hơn 1.000 văn bản được tỏch nhau bởi kớ tự ‘#‘. Mỗi văn bản cú cấu trỳc gồm 3 phần:

- Phần tiờu đề: là đoạn đầu tiờn, gồm 1 cõu ngắn. - Phần túm tắt: là đoạn kế tiếp, gồm từ 1 đến 2 cõu dài. - Phần nội dung: là đoạn cuối cựng.

Phần nội dung và phần túm tắt tương ứng được sử dụng làm văn bản nguồn và bản túm tắt cho bài toỏn túm tắt văn bản. Cỏc phần này được sử dụng để huấn luyện và đỏnh giỏ độ chớnh xỏc cho cỏc mụ hỡnh thử nghiệm.

Bảng 1.8 là cỏc thụng tin thống kờ túm tắt của bộ dữ liệu Baomoi theo số lượng cõu và số lượng từ trờn toàn bộ bộ dữ liệu.

Thụng tin Loại văn bản Số lượng cõu trung bỡnh Số từ trung bỡnh Khoảng phõn bố theo số cõu Khoảng phõn bố theo số từ Văn bản nguồn 11,56 532,65 3  20 145  920 Văn bản túm tắt 1,28 38,90 1  2 22  55

Bảng 1.8. Thống kờ cỏc thụng tin túm tắt của bộ dữ liệu Baomoi

Bộ dữ liệu Baomoi được sử dụng để thử nghiệm cho cỏc mụ hỡnh túm tắt đơn văn bản tiếng Việt hướng trớch rỳt và hướng túm lược đề xuất của luận ỏn.

1.5.2.2. Bộ dữ liệu 200 cụm

Bộ dữ liệu [76] gồm 200 cụm (trong luận ỏn sẽ gọi là bộ dữ liệu

Corpus_TMV), mỗi cụm dữ liệu bao gồm từ 2 đến 5 văn bản, trung bỡnh 3,16 văn

bản, 2 bản túm tắt. Bộ dữ liệu được tạo thủ cụng bởi con người, trong đú việc xõy dựng bộ dữ liệu được nhúm tỏc giả xử lý gồm hai bước:

- Thu thập và phõn cụm cỏc văn bản: Dữ liệu được thu thập từ trang baomoi.com và được phõn bố trờn khoảng từ 8 đến 10 chủ đề gồm thế giới, xó hội,

văn húa, khoa học và cụng nghệ, kinh tế, giải trớ, thể thao, giỏo dục, phỏp luật, sức khỏe.

- Sinh bản túm tắt: Bản túm tắt cho cỏc cụm văn bản được xõy dựng bởi hai cộng tỏc viờn độc lập.

Bảng 1.9 là cỏc thụng tin thống kờ túm tắt của bộ dữ liệu Corpus_TMV theo số lượng cõu và số lượng từ trờn toàn bộ bộ dữ liệu.

Thụng tin Loại văn bản Số lượng cõu trung bỡnh Số từ trung bỡnh Khoảng phõn bố theo số cõu Khoảng phõn bố theo số từ Văn bản nguồn 14,86 477,95 5  23 168  786 Văn bản túm tắt 4,71 178,56 3  6 125  231

Bảng 1.9. Thống kờ cỏc thụng tin túm tắt của bộ dữ liệu Corpus_TMV

Bộ dữ liệu này sẽ được sử dụng để thử nghiệm cho cỏc mụ hỡnh túm tắt đa văn bản tiếng Việt hướng trớch rỳt và hướng túm lược đề xuất.

1.5.2.3. Bộ dữ liệu ViMs

Bộ dữ liệu ViMs [77] gồm 300 cụm, mỗi cụm cú trung bỡnh 6,48 văn bản, số lượng văn bản trong mỗi cụm nằm trong khoảng từ 4 đến 10 văn bản cựng chủ đề và 2 bản túm tắt tương ứng được tạo bởi 2 người khỏc nhau bảo đảm chất lượng bản túm tắt tốt nhất cú thể. Bộ dữ liệu được tạo thủ cụng bởi con người, trong đú việc xõy dựng bộ dữ liệu được nhúm tỏc giả xử lý gồm hai bước:

- Thu thập và phõn cụm cỏc văn bản: Dữ liệu được nhúm tỏc giả thu thập từ

trang news.google.com (Google News) tiếng Việt, nhúm tỏc giả chỉ thu thập từ cỏc nguồn mở thay vỡ toàn bộ nguồn từ Google News (vỡ lý do bản quyền). Cỏc văn bản thu thập gồm cỏc chủ đề: thế giới, kinh tế, tin tức trong nước, giải trớ, thể thao.

- Sinh bản túm tắt: Hai người túm tắt với sự hỗ trợ của phần mềm MDSWriter [78] tạo ra bản túm tắt cho cỏc cụm văn bản đó thu thập.

Bảng 1.10 là cỏc thụng tin thống kờ túm tắt của bộ dữ liệu ViMs theo số lượng cõu và số lượng từ trờn toàn bộ bộ dữ liệu.

Thụng tin Loại văn bản Số lượng cõu trung bỡnh Số từ trung bỡnh Khoảng phõn bố theo số cõu Khoảng phõn bố theo số từ Văn bản nguồn 12,54 390,45 5  19 165  615 Văn bản túm tắt 5,35 220,94 3  7 144  296

Bảng 1.10. Thống kờ cỏc thụng tin túm tắt của bộ dữ liệu ViMs

Bộ dữ liệu này sẽ được sử dụng để thử nghiệm cho cỏc mụ hỡnh túm tắt đa văn bản tiếng Việt hướng trớch rỳt và hướng túm lược đề xuất.

Một phần của tài liệu (Luận án tiến sĩ) nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 34 - 38)