1.5.2.1. Bộ dữ liệu Baomoi
Bộ dữ liệu cho túm tắt văn bản tiếng Việt cú tờn là ‘Baomoi’. Bộ dữ liệu này được tạo ra bằng cỏch thu thập cỏc bài bỏo từ trang bỏo điện tử Việt Nam (http://baomoi.com). Mỗi bài bỏo bao gồm ba phần: Tiờu đề, túm tắt và bài bỏo. Do chưa cú nguồn dữ liệu nào tốt hơn nờn bộ dữ liệu Baomoi là lựa chọn tốt được sử dụng làm bộ dữ liệu thử nghiệm cho cỏc mụ hỡnh túm tắt đơn văn bản tiếng Việt vào thời điểm này. Bộ dữ liệu Baomoi cú xấp xỉ 4GB dữ liệu bao gồm 1.000.847 văn bản (trong đú: 900.847 mẫu được sử dụng để huấn luyện, 50.000 mẫu để kiểm tra và 50.000 mẫu để đỏnh giỏ), được chia thành 1.000 bản ghi, mỗi bản ghi gồm hơn 1.000 văn bản được tỏch nhau bởi kớ tự ‘#‘. Mỗi văn bản cú cấu trỳc gồm 3 phần:
- Phần tiờu đề: là đoạn đầu tiờn, gồm 1 cõu ngắn. - Phần túm tắt: là đoạn kế tiếp, gồm từ 1 đến 2 cõu dài. - Phần nội dung: là đoạn cuối cựng.
Phần nội dung và phần túm tắt tương ứng được sử dụng làm văn bản nguồn và bản túm tắt cho bài toỏn túm tắt văn bản. Cỏc phần này được sử dụng để huấn luyện và đỏnh giỏ độ chớnh xỏc cho cỏc mụ hỡnh thử nghiệm.
Bảng 1.8 là cỏc thụng tin thống kờ túm tắt của bộ dữ liệu Baomoi theo số lượng cõu và số lượng từ trờn toàn bộ bộ dữ liệu.
Thụng tin Loại văn bản Số lượng cõu trung bỡnh Số từ trung bỡnh Khoảng phõn bố theo số cõu Khoảng phõn bố theo số từ Văn bản nguồn 11,56 532,65 3 20 145 920 Văn bản túm tắt 1,28 38,90 1 2 22 55
Bảng 1.8. Thống kờ cỏc thụng tin túm tắt của bộ dữ liệu Baomoi
Bộ dữ liệu Baomoi được sử dụng để thử nghiệm cho cỏc mụ hỡnh túm tắt đơn văn bản tiếng Việt hướng trớch rỳt và hướng túm lược đề xuất của luận ỏn.
1.5.2.2. Bộ dữ liệu 200 cụm
Bộ dữ liệu [76] gồm 200 cụm (trong luận ỏn sẽ gọi là bộ dữ liệu
Corpus_TMV), mỗi cụm dữ liệu bao gồm từ 2 đến 5 văn bản, trung bỡnh 3,16 văn bản, 2 bản túm tắt. Bộ dữ liệu được tạo thủ cụng bởi con người, trong đú việc xõy dựng bộ dữ liệu được nhúm tỏc giả xử lý gồm hai bước:
- Thu thập và phõn cụm cỏc văn bản: Dữ liệu được thu thập từ trang
baomoi.com và được phõn bố trờn khoảng từ 8 đến 10 chủ đề gồm thế giới, xó hội, văn húa, khoa học và cụng nghệ, kinh tế, giải trớ, thể thao, giỏo dục, phỏp luật, sức khỏe.
25
- Sinh bản túm tắt: Bản túm tắt cho cỏc cụm văn bản được xõy dựng bởi hai cộng tỏc viờn độc lập.
Bảng 1.9 là cỏc thụng tin thống kờ túm tắt của bộ dữ liệu Corpus_TMV theo số lượng cõu và số lượng từ trờn toàn bộ bộ dữ liệu.
Thụng tin Loại văn bản Số lượng cõu trung bỡnh Số từ trung bỡnh Khoảng phõn bố theo số cõu Khoảng phõn bố theo số từ Văn bản nguồn 14,86 477,95 5 23 168 786 Văn bản túm tắt 4,71 178,56 3 6 125 231
Bảng 1.9. Thống kờ cỏc thụng tin túm tắt của bộ dữ liệu Corpus_TMV
Bộ dữ liệu này sẽ được sử dụng để thử nghiệm cho cỏc mụ hỡnh túm tắt đa văn bản tiếng Việt hướng trớch rỳt và hướng túm lược đề xuất.
1.5.2.3. Bộ dữ liệu ViMs
Bộ dữ liệu ViMs [77] gồm 300 cụm, mỗi cụm cú trung bỡnh 6,48 văn bản, số lượng văn bản trong mỗi cụm nằm trong khoảng từ 4 đến 10 văn bản cựng chủ đề và 2 bản túm tắt tương ứng được tạo bởi 2 người khỏc nhau bảo đảm chất lượng bản túm tắt tốt nhất cú thể. Bộ dữ liệu được tạo thủ cụng bởi con người, trong đú việc xõy dựng bộ dữ liệu được nhúm tỏc giả xử lý gồm hai bước:
- Thu thập và phõn cụm cỏc văn bản: Dữ liệu được nhúm tỏc giả thu thập từ trang news.google.com (Google News) tiếng Việt, nhúm tỏc giả chỉ thu thập từ cỏc nguồn mở thay vỡ toàn bộ nguồn từ Google News (vỡ lý do bản quyền). Cỏc văn bản thu thập gồm cỏc chủ đề: thế giới, kinh tế, tin tức trong nước, giải trớ, thể thao.
- Sinh bản túm tắt: Hai người túm tắt với sự hỗ trợ của phần mềm MDSWriter [78] tạo ra bản túm tắt cho cỏc cụm văn bản đó thu thập.
Bảng 1.10 là cỏc thụng tin thống kờ túm tắt của bộ dữ liệu ViMs theo số lượng cõu và số lượng từ trờn toàn bộ bộ dữ liệu.
Thụng tin Loại văn bản Số lượng cõu trung bỡnh Số từ trung bỡnh Khoảng phõn bố theo số cõu Khoảng phõn bố theo số từ Văn bản nguồn 12,54 390,45 5 19 165 615 Văn bản túm tắt 5,35 220,94 3 7 144 296
Bảng 1.10. Thống kờ cỏc thụng tin túm tắt của bộ dữ liệu ViMs
Bộ dữ liệu này sẽ được sử dụng để thử nghiệm cho cỏc mụ hỡnh túm tắt đa văn bản tiếng Việt hướng trớch rỳt và hướng túm lược đề xuất.