Các văn bản mẫu là các bài báo được lấy từ địa chỉ trang web của báo điện tử VnExpress: http://www.vnexpress.net.
Các thơng số của tập dữ liệu văn bản: - Số văn bản: 594 văn bản.
- Tổng dung lượng: 2.6 MB.
- Kích thước văn bản lớn nhất: 15 KB. - Kích thước văn bản nhỏ nhất: 2 KB.
- Kích thước trung bình một văn bản: 4.5 KB.
Tập văn bản - tĩm tắt mẫu cũng được lấy trong CSDL này, cĩ 20 văn bản cùng với tĩm tắt mẫu:
STT Tiêu đề Kích thước Số câu tĩm tắt
1 Bệnh nhân SARS dễ mắc lao phổi
4KB 8
2 Bibica thay đổi nhân sự cao cấp
2KB 6
3 Chỉ số giá tiêu dùng tháng 7 sẽ tiếp tục tăng
3KB 9
4 Chuẩn bị ban hành khung giá đất mới
Xây dựng hệ thống Tĩm tắt văn bản tiếng Việt sử dụng các kỹ thuật lượng giá, thống kê
5 Cổ phiếu Bảo Minh đắt giá 4KB 10
6 Đua khuyến mại điện thoại VoIP
8KB 18
7 Sắp cĩ thêm hạn ngạch dệt may đi EU
4KB 8
8 IncomBank tung ra thẻ chip vơ danh đầu tiên
3KB 8
9 Vụ kiện tơm đe doạ tới xuất khẩu của Mỹ
5KB 12
10 Khiển trách phĩ chủ nhiệm đồn luật sư Hà Nội
4KB 9
11 Vàng Trung Quốc giá rẻ xâm lấn thị trường
2KB 6
12 Vinafood2 trúng thầu xuất khẩu 150.000 tấn gạo
2KB 8
13 Yukos vỡ nợ, cĩ ngu cơ phá sản
4KB 10
14 Cơng ty Việt đầu tư xây nhà ở Mỹ
3KB 8
15 Cổ phần hố cần dứt khốt hơn
4KB 10
16 Chiến dịch săn lùng Rooney sơi sục khắp châu Âu
6KB 15
17 Lỗi nghiêm trọng trong game Unreal
3KB 8
18 Bán dẫn châu Á-Thái Bình Dương sẽ tăng trưởng 27,4%
3KB 7
19 Giới nữ trong thời đại cơng nghệ
4KB 9
20 Bảo vệ rùa bằng cá mập giả 5KB 12
Bảng 6: Tập tĩm tắt mẫu
Tất cả dữ liệu được thử nghiệm trên máy Pentium III 866 Mhz với 256 MB bộ nhớ.
Xây dựng hệ thống Tĩm tắt văn bản tiếng Việt sử dụng các kỹ thuật lượng giá, thống kê