2 Mô hình hệ thống theo dõi tin tức trực tuyến NewSOMoni
3.2 Dữ liệu thực nghiệm
3.1.2 Công cụ phần mềm
Bảng 3.2: Danh sách các công cụ phần mềm
STT Tên phần mềm Mô tả
1 Maxent Site: http://www.cs.princeton.edu/maxent Công dụng:Bộ công cụ phân lớp chủ đề sử dụng giải thuật Maximum Entropy
2 feed4j Site: http://www.sauronsoftware.it/
Công dụng: Bộ thư viện giúp download, xử lý các RSS feed.
3 MongoDB Site: http://www.mongodb.org
Công dụng: Hệ quản trị cơ sở dữ liệu No-SQL giúp lưu trữ các dữ liệu được crawler và các sự kiện sau khi xử lý.
4 Eclipse Indigo Site: http://www.eclipse.org/downloads
Công dụng: Đây là công cụ lập trình Java. 5 Morphia Site: http://code.google.com/p/morphia/
Công dụng:Thư viện nguồn mở giúp tương tác giữa cơ sở dữ liệu và Java.
3.2 Dữ liệu thực nghiệm
Chúng tôi đã tiến hành thu thập dữ liệu từ các trang báo điện tử được tổng hợp bởiBáo mới thông qua bộ thu thập RSS. Các thành phần của một bài báo mà chúng tôi thu thập được mô tả trong bảng 3.3. Chúng tôi tiến hành kiểm thử hệ thống theo phương pháp kiểm thử chéo 10-folds cross validation. Chia ngẫu nhiên bộ dữ liệu thành 10 mẫu kiểm thử theo tỉ lệ 9:1, 9 phần dữ liệu được sử dụng làm dữ liệu huấn luyện và 1 phần còn lại sử ụng làm dữ liệu kiểm tra.
Bảng 3.3: Các thành phần bài báo
STT Thành phần Mô tả
1 Tiêu đề Tiêu đề của bài báo. Đây là thành phần để xác định có bài báo đó có phải là sự kiện hay không.
2 Mô tả bài báo Một đoạn giới thiệu ngắn về nội dung bài báo. Đây là thành phần để tiến hành trích xuất các thành phần của sự kiện.
3 Thời gian Thời gian bài báo được đăng. Có thể giúp xác định thời gian của sự kiện.
4 Liên kết Liên kết tới bài báo gốc.