Dữ liệu thực nghiệm

Một phần của tài liệu một số phương pháp lai trích xuất sự kiện và áp dụng vào hệ thống theo dõi tin tức trực tuyến NewSOMoni (Trang 26 - 27)

2 Mô hình hệ thống theo dõi tin tức trực tuyến NewSOMoni

3.2 Dữ liệu thực nghiệm

3.1.2 Công cụ phần mềm

Bảng 3.2: Danh sách các công cụ phần mềm

STT Tên phần mềm Mô tả

1 Maxent Site: http://www.cs.princeton.edu/maxent Công dụng:Bộ công cụ phân lớp chủ đề sử dụng giải thuật Maximum Entropy

2 feed4j Site: http://www.sauronsoftware.it/

Công dụng: Bộ thư viện giúp download, xử lý các RSS feed.

3 MongoDB Site: http://www.mongodb.org

Công dụng: Hệ quản trị cơ sở dữ liệu No-SQL giúp lưu trữ các dữ liệu được crawler và các sự kiện sau khi xử lý.

4 Eclipse Indigo Site: http://www.eclipse.org/downloads

Công dụng: Đây là công cụ lập trình Java. 5 Morphia Site: http://code.google.com/p/morphia/

Công dụng:Thư viện nguồn mở giúp tương tác giữa cơ sở dữ liệu và Java.

3.2 Dữ liệu thực nghiệm

Chúng tôi đã tiến hành thu thập dữ liệu từ các trang báo điện tử được tổng hợp bởiBáo mới thông qua bộ thu thập RSS. Các thành phần của một bài báo mà chúng tôi thu thập được mô tả trong bảng 3.3. Chúng tôi tiến hành kiểm thử hệ thống theo phương pháp kiểm thử chéo 10-folds cross validation. Chia ngẫu nhiên bộ dữ liệu thành 10 mẫu kiểm thử theo tỉ lệ 9:1, 9 phần dữ liệu được sử dụng làm dữ liệu huấn luyện và 1 phần còn lại sử ụng làm dữ liệu kiểm tra.

Bảng 3.3: Các thành phần bài báo

STT Thành phần Mô tả

1 Tiêu đề Tiêu đề của bài báo. Đây là thành phần để xác định có bài báo đó có phải là sự kiện hay không.

2 Mô tả bài báo Một đoạn giới thiệu ngắn về nội dung bài báo. Đây là thành phần để tiến hành trích xuất các thành phần của sự kiện.

3 Thời gian Thời gian bài báo được đăng. Có thể giúp xác định thời gian của sự kiện.

4 Liên kết Liên kết tới bài báo gốc.

Một phần của tài liệu một số phương pháp lai trích xuất sự kiện và áp dụng vào hệ thống theo dõi tin tức trực tuyến NewSOMoni (Trang 26 - 27)

Tải bản đầy đủ (PDF)

(33 trang)