Giải thuật hoạt động của phân hệ Extractor

Một phần của tài liệu Nghiên cứu xây dựng hệ thống tổng hợp, phân loại thông tin tự động trên Web (Trang 76 - 77)

3.4.3. Xây dựng phân hệ xử lý dữ liệu

Phân hệ này cĩ chức năng xử lý các tin tức thu thập đƣợc nhằm mục đích phân loại chuyên mục cho tin tức. Các bƣớc xử lý bao gồm:

 Loại bỏ dấu câu.  Tách từ.

 Tính tốn ma trận trọng số TF-IDF của tập tin tức.

 So sánh độ tƣơng tự giữa tin mới và các tin cĩ sẵn trong chuyên mục.  Xác định chuyên mục cho tin mới cập nhật.

3.4.4. Xây dựng cổng thơng tin tổng hợp

Các phân hệ đƣợc xây dựng thành 02 module chính: Module tin tức và Module chuyên mục.

Module tin tức cĩ nhiệm vụ lấy và hiển thị tin trên trang chủ, quản lý tin (sửa, xĩa, duyệt tin), hiển thị theo chuyên mục, tìm kiếm.

Module chuyên mục cĩ chức năng quản lý các chuyên mục (nhĩm) tin, cho phép thêm, sửa, xĩa nhĩm tin, gán các tin đƣợc tải về tự động vào các chuyên mục nếu hệ thống phân loại sai.

3.5. Kết quả thử nghiệm hệ thống

Chƣơng trình đƣợc cài đặt trên 01 máy chủ Web cĩ kết nối mạng. Các máy trạm cĩ thể truy cập vào hệ thống qua mạng Lan (cĩ chứa máy chủ Web) hoặc qua Intenet. Các máy cĩ cấu hình và phần mềm cần thiết nhƣ sau:

Bảng 3.5. Cấu hình và yêu cầu của máy thử nghiệm MÁY CHỦ MÁY CHỦ

Cấu hình Intel Core 2 Duo 3Ghz, Ram 2G

Hệ điều hành Microsoft Windows Server, Window Xp, Window7, Window8. Cơ sở dữ liệu Microsoft SQL Server

Webserver ASP.NET

MÁY TRẠM

Hệ điều hành Window Xp, Window7, Window8 hoặc Linux Trình duyệt IE, FireFox, Chrome, Opera..

- Giao diện trang chủ:

Hiển thị danh sách các tin mới nhất trên trang chủ, hỗ trợ hiển thị tin theo từng

chuyên mục đƣợc lựa chọn.

Một phần của tài liệu Nghiên cứu xây dựng hệ thống tổng hợp, phân loại thông tin tự động trên Web (Trang 76 - 77)

Tải bản đầy đủ (PDF)

(82 trang)