Cơ sở dữ liệu thực nghiệm

Một phần của tài liệu Các phương án giải quyết bài toán tóm tắt văn bản (Trang 85 - 87)

Các văn bản mẫu là các bài báo được lấy từ địa chỉ trang web của báo điện tử VnExpress: http://www.vnexpress.net.

Các thơng số của tập dữ liệu văn bản: - Số văn bản: 594 văn bản.

- Tổng dung lượng: 2.6 MB.

- Kích thước văn bản lớn nhất: 15 KB. - Kích thước văn bản nhỏ nhất: 2 KB.

- Kích thước trung bình một văn bản: 4.5 KB.

Tập văn bản - tĩm tắt mẫu cũng được lấy trong CSDL này, cĩ 20 văn bản cùng với tĩm tắt mẫu:

STT Tiêu đề Kích thước Số câu tĩm tắt

1 Bệnh nhân SARS dễ mắc lao phổi

4KB 8

2 Bibica thay đổi nhân sự cao cấp

2KB 6

3 Chỉ số giá tiêu dùng tháng 7 sẽ tiếp tục tăng

3KB 9

4 Chuẩn bị ban hành khung giá đất mới

Xây dựng hệ thống Tĩm tắt văn bản tiếng Việt sử dụng các kỹ thuật lượng giá, thống kê

5 Cổ phiếu Bảo Minh đắt giá 4KB 10

6 Đua khuyến mại điện thoại VoIP

8KB 18

7 Sắp cĩ thêm hạn ngạch dệt may đi EU

4KB 8

8 IncomBank tung ra thẻ chip vơ danh đầu tiên

3KB 8

9 Vụ kiện tơm đe doạ tới xuất khẩu của Mỹ

5KB 12

10 Khiển trách phĩ chủ nhiệm đồn luật sư Hà Nội

4KB 9

11 Vàng Trung Quốc giá rẻ xâm lấn thị trường

2KB 6

12 Vinafood2 trúng thầu xuất khẩu 150.000 tấn gạo

2KB 8

13 Yukos vỡ nợ, cĩ ngu cơ phá sản

4KB 10

14 Cơng ty Việt đầu tư xây nhà ở Mỹ

3KB 8

15 Cổ phần hố cần dứt khốt hơn

4KB 10

16 Chiến dịch săn lùng Rooney sơi sục khắp châu Âu

6KB 15

17 Lỗi nghiêm trọng trong game Unreal

3KB 8

18 Bán dẫn châu Á-Thái Bình Dương sẽ tăng trưởng 27,4%

3KB 7

19 Giới nữ trong thời đại cơng nghệ

4KB 9

20 Bảo vệ rùa bằng cá mập giả 5KB 12

Bảng 6: Tập tĩm tắt mẫu

Tất cả dữ liệu được thử nghiệm trên máy Pentium III 866 Mhz với 256 MB bộ nhớ.

Xây dựng hệ thống Tĩm tắt văn bản tiếng Việt sử dụng các kỹ thuật lượng giá, thống kê

Một phần của tài liệu Các phương án giải quyết bài toán tóm tắt văn bản (Trang 85 - 87)

Tải bản đầy đủ (DOC)

(91 trang)
w