3. CÔNG CỤ HỖ TRỢ VIỆC LẤY TIN TỰ ĐỘNG
3.1.2 Cơ sở lý thuyết
3.1.2.1 Heuristic về ý nghĩa của trang web:
Vì các trang web rất đa dạng về nội dung và cấu trúc, nên rất khó xác định chính xác ngữ nghĩa để bóc tách thông tin và do mục tiêu của phân hệ là thu thập thông tin từ những trang tin tức khác có cấu trúc khá đơn giản và tương tự nhau nên chúng tôi xin đưa ra một heuristic sau về ngữ nghĩa của trang web:
“Trong một trang web tin tức, các phần tin trình bày giống nhau sẽ có ý nghĩa tương tự nhau”.
Heuristic này được rút ra sau khi chúng tôi phân tích rất nhiều trang tin ở Việt Nam. Chúng ta có thể xét một số ví dụ sau:
Như chúng ta đã thấy ở các ví dụ trên, các tin có ý nghĩa giống nhau luôn cố gắng được trình bày tương tự nhau. Mục đích của sự tương tự là nhằm để cho người đọc có thể duyệt tin một cách dễ dàng. Và đây chính là mấu chốt để robot có thể rút trích thông tin một cách tự động từ các trang web này.
3.1.2.2 Cấu trúc chung của một trang web tin tức :
Vì mục đích chính của phân hệ này là thu thập tin tức từ các trang tin tức chứ không phải là từ bất kỳ trang web nào, nên chúng tôi chỉ tập trung vào phân tích cấu trúc của một trang tin tức. Sau khi khảo sát và phân tích, chúng tôi xin đưa ra cấu trúc chung của một trang web tin như sau (lưu ý, cấu trúc này được phân tích cho việc thu thập tin):
STT Tên thành phần Các thành phần con Ý nghĩa 1 Trang chủ Nhiều phân nhóm tin Trang chủ của một trang tin 2 Phân nhóm tin Danh sách tin
Các tin được trình bày tương tự như
3 Danh sách tin Nhiều tóm tắt tin. Danh sách các tin, mỗi tin được đưa kèm theo với tóm tắt của tin. 4 Nội dung chi tiết Tin liên quan Nội dung chi tiết của một tin. 5 Tóm tắt tin Tiêu đề, nội dung tóm tắt,
hình đại diện
6 Tiêu đề Tiêu đề của tin
7 Nội dung tóm tắt Nội dung tóm tắt của một tin, thành phần này có thể có hoặc không.
8 Hình đại diện Hình đại diện cho tin
9 Tin liên quan Danh sách các tin liên quan
Do đa số phân nhóm trong một trong tin đều có thể truy xuất bằng URL nên chúng ta sẽ bỏ qua thành phần (1), (2).
Để minh họa, chúng ta có thể xem xét một số ví dụ sau:
URL tới nhóm tin,chứa danh sách tin Tiêu đề Nội dung tóm tắt Hình đại diện Phần tóm tắt