Cơ sở lý thuyết

Một phần của tài liệu xay_dung_toan_soan_bao_dt (Trang 33 - 36)

Chương 1 TỔNG QUAN

3. CÔNG CỤ HỖ TRỢ VIỆC LẤY TIN TỰ ĐỘNG

3.1. Tính khả thi của việc lấy tin tự động

3.1.2 Cơ sở lý thuyết

3.1.2.1 Heuristic về ý nghĩa của trang web:

Vì các trang web rất đa dạng về nội dung và cấu trúc, nên rất khó xác định chính xác ngữ nghĩa để bóc tách thơng tin và do mục tiêu của phân hệ là thu thập thông tin từ những trang tin tức khác có cấu trúc khá đơn giản và tương tự nhau nên chúng tôi xin đưa ra một heuristic sau về ngữ nghĩa của trang web:

“Trong một trang web tin tức, các phần tin trình bày giống nhau sẽ có ý nghĩa tương tự nhau”.

Heuristic này được rút ra sau khi chúng tơi phân tích rất nhiều trang tin ở Việt Nam. Chúng ta có thể xét một số ví dụ sau:

Như chúng ta đã thấy ở các ví dụ trên, các tin có ý nghĩa giống nhau ln cố gắng

được trình bày tương tự nhau. Mục đích của sự tương tự là nhằm để cho người

đọc có thể duyệt tin một cách dễ dàng. Và đây chính là mấu chốt để robot có thể rút trích thơng tin một cách tự động từ các trang web này.

3.1.2.2 Cấu trúc chung của một trang web tin tức :

Vì mục đích chính của phân hệ này là thu thập tin tức từ các trang tin tức chứ không phải là từ bất kỳ trang web nào, nên chúng tơi chỉ tập trung vào phân tích cấu

trúc của một trang tin tức. Sau khi khảo sát và phân tích, chúng tơi xin đưa ra cấu

trúc chung của một trang web tin như sau (lưu ý, cấu trúc này được phân tích cho việc thu thập tin):

STT Tên thành phần Các thành phần con Ý nghĩa

1 Trang chủ Nhiều phân nhóm tin Trang chủ của một trang tin

2 Phân nhóm tin Danh sách tin

Các tin được trình bày tương tự như

3 Danh sách tin Nhiều tóm tắt tin. Danh sách các tin, mỗi tin được đưa kèm theo với tóm tắt của tin. 4 Nội dung chi tiết Tin liên quan Nội dung chi tiết của một tin. 5 Tóm tắt tin Tiêu đề, nội dung tóm tắt,

hình đại diện

6 Tiêu đề Tiêu đề của tin

7 Nội dung tóm tắt Nội dung tóm tắt của một tin,

thành phần này có thể có hoặc khơng.

8 Hình đại diện Hình đại diện cho tin

9 Tin liên quan Danh sách các tin liên quan

Do đa số phân nhóm trong một trong tin đều có thể truy xuất bằng URL nên chúng ta sẽ bỏ qua thành phần (1), (2).

Để minh họa, chúng ta có thể xem xét một số ví dụ sau:

URL tới nhóm tin,chứa danh sách tin Tiêu đề Nội dung tóm tắt Hình đại diện Phần tóm tắt

Một phần của tài liệu xay_dung_toan_soan_bao_dt (Trang 33 - 36)

Tải bản đầy đủ (DOC)

(187 trang)
w