III.5 ĐIỂM TIN

Một phần của tài liệu MÔ HÌNH VÀ THUẬT GIẢI CHO HỆ HỖ TRỢ TÌM KIẾM THÔNG TIN THEO NGỮ NGHĨA TRÊN CÁC BÁO ĐIỆN TỬ (Trang 43)

- Hệ thống tìm trong cơ sở dữ liệu những tin bài phù hợp với câu truy vấn.

III.5 ĐIỂM TIN

- Điểm tin là công việc liệt kê các tin tức không trùng lắp trong ngày hoặc trong một khoảng thời gian xác định của tất cả các trang báo điện tử có trong hệ thống.

- Các tin tức được nhiều trang báo đăng nhiều nhất sẽ là những tin chính và nằm ở các vị trí đầu tiên trên trang điểm tin.

III.5. ĐIỂM TIN

Với các tin bài đã được thu thập về, hệ thống cung cấp chức năng điểm tin giúp người dùng tiện lợi hơn trong việc tổng hợp tin tức, cụ thể:

- Liệt kê các tin bài không trùng lắp trong ngày hoặc trong một khoảng thời gian được xác định.

III.5. ĐIỂM TIN

Bài toán điểm tin được phát biểu như sau:

- Cho tập các tin bài đã được thu thập về trong hệ thống.

- Liệt kê tất cả các tin bài không trùng lắp trong ngày (hoặc một khoảng thời gian xác định) và sắp xếp theo các tiêu chí mong muốn bao gồm các trang báo điện tử E, các lĩnh vực phân loại F, các chủ đề T.

III.5. ĐIỂM TIN

Các bước thực hiện chức năng điểm tin:

Lấy các tin bài trong ngày hoặc trong một khoảng thời gian xác định

Duyệt các tin và thực hiện việc kiểm tra tin bài trùng lắp

Sắp xếp và hiển thị kết quả Phân tách các thông tin cho

III.5. ĐIỂM TIN

- Từ yêu cầu của bài toán điểm tin, phát sinh bài toán tính mức độ gần giống nhau (trùng lắp) của các tin bài.

- Hai tài liệu được xem là giống nhau nếu nội dung của chúng giống nhau hoàn toàn.

- Những tài liệu không giống nhau hoàn toàn, chỉ giống nhau ở một mức độ đáng kể nào đó và có sự khác biệt khá nhỏ được xem là gần giống nhau.

Một phần của tài liệu MÔ HÌNH VÀ THUẬT GIẢI CHO HỆ HỖ TRỢ TÌM KIẾM THÔNG TIN THEO NGỮ NGHĨA TRÊN CÁC BÁO ĐIỆN TỬ (Trang 43)