Cơng cụ phần mềm sử dụng

Một phần của tài liệu Tổng hợp quan điểm dựa trên mô hình thống kê và ứng dụng vào khai phá quan điểm trong văn bản tin tức tiếng Việt (Trang 54 - 57)

STT Tên phần mềm Tác giả Nguồn

1 Eclipse-SDK-3.5- win32 http://www.eclipse.org/downloads 2 JvnTextPro 2.0 N.C.Tú-P.X.Hiếu- N.T.Trang http://jvntextpro.sourceforge.net/ 3 LingPie 4.0.1 http://alias- i.com/lingpipe/web/download.html

55

4.2 Dữ liệu thử nghiệm

4.2.1 Đặc trưng trang tin tức VnExpress

Trong nội dung khĩa luận, chúng tơi thực nghiệm trên dữ liệu từ trang tin tức VnExpress.Net. Trong phần này, chúng tơi giới thiệu cấu trúc bài viết và bình luận của người dùng trên trang tin VnExpress.Net.

Giới thiệu về VnExpress.Net:

VnExpress được thành lập bởi tập đồn FPT vào ngày 26/2/2011 và được Bộ Thơng tin và Truyền thơng cấp giấy phép số 511/GP-BVHTT ngày 25/11/2002.

VnExpress là tờ báo điện tử đầu tiên tại Việt Nam khơng cĩ phiên bản báo giấy. Tính tới thời điểm viết báo cáo này, theo bảng xếp hạng của Alexa, VnExpress luơn cĩ số người truy cập lớn nhất trong số hơn mười tờ báo điện tử tại Việt Nam và nằm trong top 400 website được truy cập nhiều nhất thế giới:

Hình 7: Bảng xếp hạng của VnExpress.Net trên Alexa

Hình 7 cho thấy thứ hạng của VnExpress.Net đứng thứ 349 trên thế giới, và đứng thứ 3 Việt Nam.

Bài viết đa dạng, cùng số lượng lớn các bình luận của người đọc về tất cả các lĩnh

vực đời sống xã hội, trang tin VnExpress là kho dữ liệu tốt cho chúng tơi thực hiện thử

nghiệm mơ hình hệ thống đề xuất. Kết quả ở phần đánh giá thực nghiệm càng khẳng định sự lựa chọn trang tin VnExpress cho việc thử nghiệm mơ hình là hồn tồn đúng đắn.

56

Cấu trúc bài tin trên VnExpress:

Một bài tin tức trên VnExpress.Net sử dụng font chữ Time New Romanvới kích

thước font chữ là 11.8pt. Ví dụ một bài tin tiêu đề “Hơm nay Hà Nội bàn cách cứu ‘cụ’

Rùa hồ Gươm6”được trình bày như hình dưới:

Hình 8: Một bài tin trên trang VnExpress.Net

Các bài tin trên trang VnExpress.Net cĩ các phần quan trọng: Tiêu đề bài báo

Nội dung bài báo

Bình luận của người đọc

o Tiêu đề bình luận

o Nội dung bình luận

o Người bình luận

Bảng dưới cho thấy việc tổ chức các thành phần trong bài tin của VnExpress là hồn tồn cĩ cấu trúc và dễ dàng cho việc trích chọn thơng tin:

57

Một phần của tài liệu Tổng hợp quan điểm dựa trên mô hình thống kê và ứng dụng vào khai phá quan điểm trong văn bản tin tức tiếng Việt (Trang 54 - 57)

Tải bản đầy đủ (PDF)

(68 trang)